意思是如果这个网站有很多也得数据,但是我只要前10页的数据,那怎么指定它下载到第十页就停止呢,除了创建10个主题外,是否还有其他简单方法呢?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-9-13 18:23

沙发
gooseeker_info 金牌会员 发表于 2015-9-12 15:43:37 | 只看该作者
只需建立一个主题,为它定义翻页抓取规则,再用crontab.xml这个爬虫调度文件,用depth参数限制翻页多少。
crontab.xml文件说明参看:http://www.gooseeker.com/cn/node/technology/files/pss
生成方法可以用这个小工具:http://www.gooseeker.com/res/tooldetail_1000000004.html
举报 使用道具
板凳
okomoxi 新手上路 发表于 2015-9-13 16:12:46 | 只看该作者
gooseeker_info 发表于 2015-9-12 15:43
只需建立一个主题,为它定义翻页抓取规则,再用crontab.xml这个爬虫调度文件,用depth参数限制翻页多少。
c ...

请教一下,生成以后,用crontab.xml调度文件这一步,具体怎么操作啊?完全新手,求轻喷
举报 使用道具
地板
Fuller 管理员 发表于 2015-9-13 18:23:55 | 只看该作者
okomoxi 发表于 2015-9-13 16:12
请教一下,生成以后,用crontab.xml调度文件这一步,具体怎么操作啊?完全新手,求轻喷 ...

把crontab.xml文件放在.metaseeker目录下,通常这个目录下还有一个子目录default,如果有这个字目录,就放在default下,否则,就放在.metaseeker下好了。

再次运行DS打数机,就会根据crontab.xml中设置的thread,启动相应数量的窗口,并行运行。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 02:59