快捷导航
我想第一级线索抓取酒店搜索列表,二级采取所有酒店列表中的评论内容(需要在二级网址模拟点击才出现),可是在给样本设置模拟点击后,只能抓取样本页链接的酒店评论内容,就是并没有采集所有酒店搜索列表的评论内容,请问怎么解决呢??急求!!!在线等~~

样本链接模拟点击酒店.jpg
酒店搜索列表.jpg
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2018-4-14 19:28

shenzhenwan10 金牌会员 发表于 2016-11-26 11:55:42 | 显示全部楼层
看你的描述,应该是3级规则
1. 列表
2. 详情页,做模拟点击
3. 采集评论
举报 使用道具
度有涯之年 初级会员 发表于 2016-11-26 11:58:58 | 显示全部楼层
对啊,可是第一步采取的二级链接并不能作为下级线索来采取所有酒店的所有评论?就是一次规则采取的二级链接和酒店详情页的实际链接不一致啊》???
举报 使用道具
Fuller 管理员 发表于 2016-11-26 12:03:29 | 显示全部楼层
度有涯之年 发表于 2016-11-26 11:58
对啊,可是第一步采取的二级链接并不能作为下级线索来采取所有酒店的所有评论?就是一次规则采取的二级链接 ...

主题名是什么?

只要下级网址是真正的url地址,就可以用,不用担心不是实际网址,可能是做了跳转,跳转过程都记录在结果文件中,fullpath是跳转前的网址,realpath是跳转后的网址,用这些信息就能匹配起来
举报 使用道具
shenzhenwan10 金牌会员 发表于 2016-11-26 12:04:01 | 显示全部楼层
我的意思是,你的第2级规则,在爬虫路线里模拟点击对应的目标主题名,应该填写第3级的规则名
举报 使用道具
度有涯之年 初级会员 发表于 2016-11-26 12:39:31 | 显示全部楼层
Fuller 发表于 2016-11-26 12:03
主题名是什么?

只要下级网址是真正的url地址,就可以用,不用担心不是实际网址,可能是做了跳转,跳转 ...

分别是xp_五星列表、xp_五星二级页面、xp_评论页面,谢谢啦!

举报 使用道具
度有涯之年 初级会员 发表于 2016-11-26 12:39:57 | 显示全部楼层
shenzhenwan10 发表于 2016-11-26 12:04
我的意思是,你的第2级规则,在爬虫路线里模拟点击对应的目标主题名,应该填写第3级的规则名 ...

我是这么填的阿


举报 使用道具
度有涯之年 初级会员 发表于 2016-11-26 12:40:23 | 显示全部楼层
Fuller 发表于 2016-11-26 12:03
主题名是什么?

只要下级网址是真正的url地址,就可以用,不用担心不是实际网址,可能是做了跳转,跳转 ...

怎么匹配呢?
举报 使用道具
shenzhenwan10 金牌会员 发表于 2016-11-26 13:01:41 | 显示全部楼层
你的第二级规则里的模拟点击设置有问题,如下图:
xcdetail.jpg

模拟点击的记号值把评论数也包含了,你换一个页面就定位不到了。
应该把"全匹配”不要勾选,同时记号值改成“酒店点评”

举报 使用道具
maomao 高级会员 发表于 2018-4-14 19:28:14 | 显示全部楼层
现在采集 携程酒店,艺龙酒店,去哪儿酒店的数据,可以用Gooseeker数据DIY,只要输入网址,就可以采集,采集页数可以设置。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 城市要素库时空分析系统开发设计要点
  • 用GooSeeker爬虫实现自动点击抓取淘宝sku库
  • 城市要素库时空分析系统建设思路
  • 用Excel Power Map作招聘数据分析和空间可
  • 如何完整抓取搜狐新闻文章?

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-4-23 21:28