快捷导航
:我想问一下DS打数机中的“终点标志”——“自定义标志”如何设置。有木有哪位童鞋知道呀

:自定义标志适应度很有限,是判断@href中的标志字符串。

比如,有些网页翻页到最后就变成这个样子了 @href='####' ,那么就可以把自定义标志设置成 #### 。

很多情形是要判断其它更灵活的标志,但是这个版本不行
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-8-24 12:25

ray_zhurui 中级会员 发表于 2016-8-13 00:42:53 | 显示全部楼层
可以通过判断某一个标志里的某项的值为多少来告诉爬虫是最后一页么?怎么设置?
举报 使用道具
Fuller 管理员 发表于 2016-8-13 09:30:12 | 显示全部楼层
ray_zhurui 发表于 2016-8-13 00:42
可以通过判断某一个标志里的某项的值为多少来告诉爬虫是最后一页么?怎么设置? ...

要不你提供一个例子,我们参照这个例子把这个功能提升一下
举报 使用道具
wjzeng 初级会员 发表于 2016-9-22 22:36:47 | 显示全部楼层
Fuller 发表于 2016-8-13 09:30
要不你提供一个例子,我们参照这个例子把这个功能提升一下

比如说,爬商品评论的时候,只爬2016年8月以后的评论,遇到8月以前的评论自动停止
举报 使用道具
Fuller 管理员 发表于 2016-9-22 22:45:08 | 显示全部楼层
wjzeng 发表于 2016-9-22 22:36
比如说,爬商品评论的时候,只爬2016年8月以后的评论,遇到8月以前的评论自动停止 ...

这种情况暂时不支持,爬虫一般不判断内容,因为内容千变万化,要想按时间排序必须先要做时间转换。

我们在消费者洞察项目中也爬商品评论,设置成增量抓取,确保不漏,但是故意重复抓一些老数据,比如,每天都翻页抓20页,其中10页都是以前抓过的,而不是根据时间做精确判断
举报 使用道具
Luke767 新手上路 发表于 2018-8-24 11:16:20 | 显示全部楼层
Fuller 发表于 2016-9-22 22:45
这种情况暂时不支持,爬虫一般不判断内容,因为内容千变万化,要想按时间排序必须先要做时间转换。

我们 ...

您好,请问设置操作10页为终点标志是如何设置
举报 使用道具
Fuller 管理员 发表于 2018-8-24 12:25:31 | 显示全部楼层
Luke767 发表于 2018-8-24 11:16
您好,请问设置操作10页为终点标志是如何设置

在爬虫群模式下,可以设置调度参数,其中就有限制翻页次数,请看这个教程:https://www.gooseeker.com/doc/article-200-1.html
其他跟爬虫群有关的文档请看教程左栏菜单:https://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 微博评论采集下来后怎样把发布时间转换成统
  • Jupyter Notebook将京东商品参数数据表做行
  • 集搜客分词软件情感分析算法升级通知
  • 为什么要为层次分析法(AHP)计算特征值和特
  • 在Jupyter Notebook中将分词结果转换成数组

热门用户

GMT+8, 2022-6-30 11:31