最终的目标是要抓取 http://www.realestate.cei.gov.cn/tudi/index.aspx?a=3 里的土地成交信息,我一共构思了三层,第一层是http://www.realestate.cei.gov.cn/tudi/index.aspx?a=3 页面中的“查询关键词”后输入“北京”点查询,得到结果。  第二层是对第一层的结果取href,为第三层做准备  第三层是利用第二层抓取的线索,在最后一级页面http://www.realestate.cei.gov.cn ... p;id=20151611951457 中抓取成交数据。  
现在的情况是:第二层和第三层已完成已运行正常。
第一层怎么弄也不成,求助大侠!!
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-12-15 16:24

Fuller 管理员 发表于 2015-12-11 19:09:07 | 显示全部楼层
这个第一级网页最大特点是在iframe中。虽然GooSeeker爬虫可以处理普通网页一样处理iframe,但是自动输入查询条件的功能目前不支持iframe。下个版本正在开发。

我们可以用另外的方法:找到iframe里面的真正网址。

第一步:分析iframe

iframe选择.png

用火狐加载这个网址,然后按F12,就会看到浏览器控制台。

A区域是iframe中的内容,可以看到B框的标签是iframe,看C框,那是真正的网址,在这里双击,就能把这个网址拷贝下来。这个网址是个相对网址,要自己拼出来。


2,iframe内的是:gongcj.aspx


把拼成的网址拷贝到火狐浏览器,就能看到内容一样,只是把左栏省掉了。


下面就要给这个网页做抓取规则


第二步:做内页的抓取规则


在查询条件中输入“拍卖”,看到结果出现了,但是网址还是不变:http://www.realestate.cei.gov.cn/tudi/gongcj.aspx  ,这样就比较麻烦,网址中不包含查询条件,无法构造网址,那么就需要自动输入查询条件。请参看连续动作功能:http://www.gooseeker.com/doc/article-141-1.html ,重点看场景三

举报 使用道具
qqqqyou 初级会员 发表于 2015-12-14 11:14:05 | 显示全部楼层
感谢大神,第一个规则已顺利实现功能,但是怎么能够让第一个规则的搜索结果成为第二个规则的线索呢? 正在继续琢磨。。
举报 使用道具
Fuller 管理员 发表于 2015-12-14 12:08:37 | 显示全部楼层
qqqqyou 发表于 2015-12-14 11:14
感谢大神,第一个规则已顺利实现功能,但是怎么能够让第一个规则的搜索结果成为第二个规则的线索呢? 正在 ...

是两级规则吗?如果第一级是A,第二级是B,定义第一级的时候,在创建规则工作台上,创建一个抓取内容,勾选“下级线索”,就会在爬虫路线工作台产生一个线索,填入主题名B。就形成了两级关系
举报 使用道具
qqqqyou 初级会员 发表于 2015-12-14 12:20:25 | 显示全部楼层
Fuller 发表于 2015-12-14 12:08
是两级规则吗?如果第一级是A,第二级是B,定义第一级的时候,在创建规则工作台上,创建一个抓取内容,勾 ...

我的第一级只是实现点击关键字自动搜索,我的第二级是对第一级搜索结果取href,为第三级做准备,那么,我的第一级中的规则中,是不是可以随便创建一个抓取内容,再勾选“下级线索”?谢谢
举报 使用道具
Fuller 管理员 发表于 2015-12-14 12:24:37 | 显示全部楼层
qqqqyou 发表于 2015-12-14 12:20
我的第一级只是实现点击关键字自动搜索,我的第二级是对第一级搜索结果取href,为第三级做准备,那么,我 ...

第一级使用连续动作中的自动输入的话,可以不用创建整理箱,也不用定义下级线索
举报 使用道具
qqqqyou 初级会员 发表于 2015-12-15 16:24:09 | 显示全部楼层
本帖最后由 qqqqyou 于 2015-12-15 17:10 编辑
Fuller 发表于 2015-12-14 12:24
第一级使用连续动作中的自动输入的话,可以不用创建整理箱,也不用定义下级线索 ...

哎,第一级自动输入成功,但是第二级抓取href时却未在第一级的搜索结果中自动翻页抓取,第一级的目标规则已指向了第二级。我看数据在抓取时,第一级的搜索结果确实闪现了一次,然后在翻页后就再也不理第一级了,何解?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:31