意思是如果这个网站有很多也得数据,但是我只要前10页的数据,那怎么指定它下载到第十页就停止呢,除了创建10个主题外,是否还有其他简单方法呢?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-9-13 18:23

gooseeker_info 金牌会员 发表于 2015-9-12 15:43:37 | 显示全部楼层
只需建立一个主题,为它定义翻页抓取规则,再用crontab.xml这个爬虫调度文件,用depth参数限制翻页多少。
crontab.xml文件说明参看:http://www.gooseeker.com/cn/node/technology/files/pss
生成方法可以用这个小工具:http://www.gooseeker.com/res/tooldetail_1000000004.html
举报 使用道具
okomoxi 新手上路 发表于 2015-9-13 16:12:46 | 显示全部楼层
gooseeker_info 发表于 2015-9-12 15:43
只需建立一个主题,为它定义翻页抓取规则,再用crontab.xml这个爬虫调度文件,用depth参数限制翻页多少。
c ...

请教一下,生成以后,用crontab.xml调度文件这一步,具体怎么操作啊?完全新手,求轻喷
举报 使用道具
Fuller 管理员 发表于 2015-9-13 18:23:55 | 显示全部楼层
okomoxi 发表于 2015-9-13 16:12
请教一下,生成以后,用crontab.xml调度文件这一步,具体怎么操作啊?完全新手,求轻喷 ...

把crontab.xml文件放在.metaseeker目录下,通常这个目录下还有一个子目录default,如果有这个字目录,就放在default下,否则,就放在.metaseeker下好了。

再次运行DS打数机,就会根据crontab.xml中设置的thread,启动相应数量的窗口,并行运行。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:59