链接地址:

http://vacations.ctrip.com/startcity/beijing  搜索关键字:张家界
主规则名:
携程-张家界
次规则名:
携程-张家界-搜索

前面几个可以取完整数据,后面的就不行了,价格,销量,评分数据就没有了



http://vacations.ctrip.com/startcity/shanghai  搜索关键字:张家界
这个链接就每条数据都不全了



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-8 09:42

沙发
Fuller 管理员 发表于 2018-4-7 10:43:26 | 只看该作者
我检查了你的规则,后面的内容没有采集到的原因是没有滚屏,携程这个网页用了动态技术,不滚屏就不加载内容。

你第一级到第二级用了搜索动作,到了第二级,DS打数机上设置的自动滚屏就失效了。为了滚屏有两个方案
1,在第二级加上滚屏动作,也是在连续动作工作台上定义,滚屏次数3-5次估计就够了
2,第一级到第二级不用定义搜索动作,因为第二级有独立的网址的,直接构造第二级网址就行了,所以,只需要定义一个规则就可以了。这样就能用上DS打数机的自动滚屏功能。
  1. http://vacations.ctrip.com/tours/d-zhangjiajie-23?from=do
复制代码
上面是网址,其中zhangjiajie就是搜索的地址,所以,需要到哪个目的地,就构造哪个网址


举报 使用道具
板凳
15367699888 初级会员 发表于 2018-4-7 21:23:56 | 只看该作者
我设置了滚屏,她还是部滚屏
举报 使用道具
地板
数据集 高级会员 发表于 2018-4-8 09:42:38 | 只看该作者
本帖最后由 数据集 于 2018-4-8 09:56 编辑

这个网页不用做两级规则,先在网页上搜索关键字:张家界 搜索后 有独立网址 http://vacations.ctrip.com/tours/d-zhangjiajie-23?from=do

用这条网页做规则就可以了。所以可以把第一级规则删除。

可以在gs浏览器上打开滚屏,不需要用连续滚屏动作,在打数机的配置-》滚屏参数中  把滚屏次数不设置成0就会滚屏。

TIM截图20180408094125.png (16.75 KB, 下载次数: 545)

TIM截图20180408094125.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 07:31