规则名:nytimes推文评论
一条线索采集完跳不到下一线索啊
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-3-23 23:10

沙发
yangwenge 金牌会员 发表于 2018-3-23 17:01:59 | 只看该作者

打数机采集--高级--终点标志--勾上重复内容

举报 使用道具
板凳
piggy_ljj 中级会员 发表于 2018-3-23 18:02:24 | 只看该作者
yangwenge 发表于 2018-3-23 17:01
打数机采集--高级--终点标志--勾上重复内容

但这样不知道为什么 每个线索滚到一半就不滚了
举报 使用道具
地板
piggy_ljj 中级会员 发表于 2018-3-23 18:11:43 | 只看该作者
终点标志的 自定义标志怎么弄呢
举报 使用道具
5#
yangwenge 金牌会员 发表于 2018-3-23 18:22:45 | 只看该作者
piggy_ljj 发表于 2018-3-23 18:11
终点标志的 自定义标志怎么弄呢


将每次滚动像素数调大一些,确保能每次滚轮后都能出现新的数据。

举报 使用道具
6#
piggy_ljj 中级会员 发表于 2018-3-23 18:34:11 | 只看该作者
yangwenge 发表于 2018-3-23 18:22
将每次滚动像素数调大一些,确保能每次滚轮后都能出现新的数据。

10000~1000000都试过了...还是不行
举报 使用道具
7#
piggy_ljj 中级会员 发表于 2018-3-23 18:36:31 | 只看该作者
每次只滚2次就不滚了
举报 使用道具
8#
Fuller 管理员 发表于 2018-3-23 18:55:07 | 只看该作者

1,每次滚动像素数要大一点,比如,800,也不要太大,大了没有用,网页没有那么长
2,额外延时一定要设置,如果网络很慢,但是没有设置额外延时,那么爬虫做完滚轮动作立即去采集,那时候还没有加载新内容,肯定会当成重复内容
如果这样还不行,那么
3,设置清除老数据,比如,是一个帖子列表,可能每个帖子是一个UL中的一条LI,那么清除老数据的的xpath要能定位到所有帖子,也就是定位到每个li,这样爬虫就会每采集一次,就把老的清楚,减少重复。参看这个教程:http://www.gooseeker.com/doc/article-406-1.html

最关键是第二点
举报 使用道具
9#
piggy_ljj 中级会员 发表于 2018-3-23 22:14:52 | 只看该作者
啊啊谢谢!还有那个清楚老数据 我的高级设置里没有这个诶...
举报 使用道具
10#
piggy_ljj 中级会员 发表于 2018-3-23 22:16:17 | 只看该作者
Fuller 发表于 2018-3-23 18:55
1,每次滚动像素数要大一点,比如,800,也不要太大,大了没有用,网页没有那么长
2,额外延时一定要设置 ...

谢谢!!!可是那个清除老数据..我的高级设置里没有这个啊..

捕获.JPG (78.8 KB, 下载次数: 655)

捕获.JPG
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 11:35