11#
Matthew123 初级会员 发表于 2017-11-7 15:30:30 | 只看该作者
Fuller 发表于 2017-11-2 22:42
像我这样:不用文本记号,而是用代表翻页的那个A的class作为记号。

改了还是有问题,按照这个规则:neglected3,爬去10页内容有重复页还有遗漏页。http://journals.plos.org/plosntds/search?filterJournals=PLoSNTD&resultsPerPage=60&q=(author_affiliate%3Abrazil)+AND%20publication_date%3A%5B2007-01-01T00%3A00%3A00Z%20TO%202016-12-31T23%3A59%3A59Z%5D&page=1
举报 使用道具
12#
bowieD 金牌会员 发表于 2017-11-7 16:16:06 | 只看该作者
本帖最后由 bowieD 于 2017-11-7 16:19 编辑

1,规则没有任何问题,我测试了没有遗漏。
2,这个网页最多就10页,最后一页会重复三次,是正常现象,对结果文件做去重复处理就可以了。
3,有问题请自己先仔细检查一遍,这个网站加载比较慢,把延迟抓取的时间调大一点,在ds打数机的配置里面设置。

举报 使用道具
13#
Matthew123 初级会员 发表于 2017-11-7 16:38:25 | 只看该作者
bowieD 发表于 2017-11-7 16:16
1,规则没有任何问题,我测试了没有遗漏。
2,这个网页最多就10页,最后一页会重复三次,是正常现象,对结 ...

谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 07:44