规则名:健客网第三层_抓大图
今天运行了好久打数机,显示也是在抓数据,中间无响应断了几次,然后我看规则里总有70多条显示未抓取,运行多久都是70多条未抓取
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-4-23 15:39

沙发
yangwenge 金牌会员 发表于 2018-4-20 18:06:29 | 只看该作者
本帖最后由 yangwenge 于 2018-4-20 18:07 编辑


用单搜或者集搜采集的时候,有多少待采集的线索就需要输入多少线索,才能全部采集。
在打数机中可以右键规则名--统计线索

举报 使用道具
板凳
bsh331400 中级会员 发表于 2018-4-22 12:35:37 | 只看该作者
yangwenge 发表于 2018-4-20 18:06
用单搜或者集搜采集的时候,有多少待采集的线索就需要输入多少线索,才能全部采集。
在打数机中可以右键规 ...

单搜是这样做的啊,用爬虫群也是这种结果,还老是出现软件自动退出现象
举报 使用道具
地板
Fuller 管理员 发表于 2018-4-22 13:03:29 | 只看该作者
打数机下方的日志栏有没有报错?
举报 使用道具
5#
bsh331400 中级会员 发表于 2018-4-23 10:47:37 | 只看该作者
Fuller 发表于 2018-4-22 13:03
打数机下方的日志栏有没有报错?

没有提示,是不是软件有缓存啊,我今天打开软件显示是116条未采集
举报 使用道具
6#
yangwenge 金牌会员 发表于 2018-4-23 11:23:25 | 只看该作者

有做下级线索指向自己,一个商品有多个规则就会自动生成下级线索到当前规则中。

举报 使用道具
7#
bsh331400 中级会员 发表于 2018-4-23 14:02:15 | 只看该作者
yangwenge 发表于 2018-4-23 11:23
有做下级线索指向自己,一个商品有多个规则就会自动生成下级线索到当前规则中。

...

是啊,关键是显示已采集的条数总是没变,未采集的条数总是76,爬虫群一直在工作,这是什么问题,如果是线索变多了,总条数应该增加啊
举报 使用道具
8#
yangwenge 金牌会员 发表于 2018-4-23 14:11:59 | 只看该作者
本帖最后由 yangwenge 于 2018-4-23 14:24 编辑
bsh331400 发表于 2018-4-23 14:02
是啊,关键是显示已采集的条数总是没变,未采集的条数总是76,爬虫群一直在工作,这是什么问题,如果是线 ...

网站的原因,到某个规格后采集到的网址会回到前面某个规则的网址。

比如这个页面的久正的链接进入选中的却是君寿堂,采集到的链接就会变成君寿堂后面一个规则的链接
https://www.jianke.com/product/174712.html
可以在会员中心---爬虫群---点击规则名---调度设中将是否激活下级线索选择否

这样设置后,出现重复的线索就不会重新激活采集,
不过久正及其后面的规格会采集不到,如果需要采
集后面的规格就需要手工添加久正后面一个规则的链接。
举报 使用道具
9#
yangwenge 金牌会员 发表于 2018-4-23 14:28:22 | 只看该作者
yangwenge 发表于 2018-4-23 14:11
网站的原因,到某个规格后采集到的网址会回到前面某个规则的网址。

比如这个页面的久正的链接进入选中的 ...

最好的办法是做样例复制采集所有规格的链接(规则的链接不需要写xpath),然后按照上面的设置将是否激活下级线索选择为否。

举报 使用道具
10#
bsh331400 中级会员 发表于 2018-4-23 14:47:33 | 只看该作者
yangwenge 发表于 2018-4-23 14:28
最好的办法是做样例复制采集所有规格的链接(规则的链接不需要写xpath),然后按照上面的设置将是否激活 ...

谢谢你哈,我又发现一个问题:有的商品点击最后一个规格是跳到首页,这样的链接我可以采取什么办法不采集它
商品链接:https://www.jianke.com/product/71587.html

无标题.png (9.66 KB, 下载次数: 758)

无标题.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 20:06