爬出来全是第一页的

爬出来全是第一页的

爬出来全是第一页的。。

寄托天下.png


请问是哪里出错了呢?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-1-9 22:21

Fuller 管理员 发表于 2018-1-9 22:21:07 | 显示全部楼层
我加载你的规则测试了一下,有两个问题
1,在“创建规则”工作台上,做样例复制映射的时候没有选择第一条和第二条做映射,而是选择了第二条和第三条做映射,会漏抓数据
2,在“爬虫路线”工作台上,加载了你的规则以后,发现线索的定位编号和记号的定位编号都定位到了另一个地方,原来在网页上有一个完全相同结构的dom节点,翻页点击的时候就会误点那里。

你加载规则以后,重新做定位映射和记号映射,然后点击“爬虫路线”工作台上的“定位偏好”按钮,选择偏好id,真正你想点的那个翻页按钮具有特殊id,选择了偏好id以后就会使用那个特殊id。

另外,运行DS打数机的时候,应该选择菜单 配置-》定时器触发,否则,抓取这个网页会很慢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:25