集搜客GooSeeker网络爬虫

标题: 采集拍卖品链接和详情 [打印本页]

作者: longbingjun    时间: 2023-11-28 00:15
标题: 采集拍卖品链接和详情
一级任务名称:拍品链接任务
      主要采集拍品的链接。网页中的拍卖场次、拍卖成交率和成交额(因为没有这些信息没有放在嵌套箱);
拍品的名称、LOT号和链接(已设置内容映射)放在嵌套箱里且使用样例映射。规则里设置的初始网址可以顺利采集。明明已经设置了重复内容中断,但是还是会有很多采集失败的
采集失败网址例子:
https://auction.artron.net/special_detail/PZ2057596
https://auction.artron.net/special_detail/PZ2057595
二级任务名称:拍品详情任务
      主要采集拍品的详细信息。由于每个网页中对应一个拍品的具体信息,故只做了简单的打标签。
采集失败网址例子:
https://auction.artron.net/paimai-art52125110224
https://auction.artron.net/paimai-art52125110225
https://auction.artron.net/paimai-art52125110226
https://auction.artron.net/paimai-art52125110227
https://auction.artron.net/paimai-art52125110228

作者: Fuller    时间: 2023-11-28 10:24
分析一个网址是否使用某个规则的方法:
1. 在爬虫浏览器中访问这个网址
2. 进入定义规则模式
3. 输入规则名字,点击加载规则按钮
4. 不要勾加载样本页面
5. 用右上角的菜单“分析页面”分析这个网页。我分析了第一个网址,没有失败,说明规则没有问题

[attach]15993[/attach]
我在任务管理页面上把这条网址加入这个采集任务,采集也是成功的。

可能是你的网络出现了暂时的拥塞,可以重新激活失败线索,重新采集这条网址

作者: longbingjun    时间: 2023-11-28 11:03
Fuller 发表于 2023-11-28 10:24
分析一个网址是否使用某个规则的方法:
1. 在爬虫浏览器中访问这个网址
2. 进入定义规则模式

我采集设定规则的网址都没有问题;但是帖子里面放的采集失败的网址就不行。明明结构一样的哇

作者: Fuller    时间: 2023-11-28 11:18
longbingjun 发表于 2023-11-28 11:03
我采集设定规则的网址都没有问题;但是帖子里面放的采集失败的网址就不行。明明结构一样的哇
...

[attach]15994[/attach]

超时设置了多少?起码要一分钟,如果网站很慢,还要更长。延迟抓取不要超过超时,超时起码比延迟多30秒,才有足够时间采集数据

作者: longbingjun    时间: 2023-11-28 11:26
延迟抓取30s,超时60s

作者: longbingjun    时间: 2023-11-28 11:29
Fuller 发表于 2023-11-28 11:18
超时设置了多少?起码要一分钟,如果网站很慢,还要更长。延迟抓取不要超过超时,超时起码比延迟多30秒 ...

延迟30,超时60.

作者: longbingjun    时间: 2023-11-28 11:38
Fuller 发表于 2023-11-28 11:18
超时设置了多少?起码要一分钟,如果网站很慢,还要更长。延迟抓取不要超过超时,超时起码比延迟多30秒 ...

运行日志显示的是滚屏次数不够和超时时间不够。可是昨天采集的时候网速很快啊。现在把采集失败的链接激活,只开几个窗口但是这样仍然采集失败

作者: Fuller    时间: 2023-11-28 11:52
longbingjun 发表于 2023-11-28 11:38
运行日志显示的是滚屏次数不够和超时时间不够。可是昨天采集的时候网速很快啊。现在把采集失败的链接激活 ...

如果提示滚屏次数不够和超时时间不够,那肯定就是超时时间太短了。网速不高的话,多设置几分钟

作者: longbingjun    时间: 2023-11-28 11:55
滚屏次数一般设置多少合适呢,我的是5
作者: Fuller    时间: 2023-11-28 18:33
longbingjun 发表于 2023-11-28 11:55
滚屏次数一般设置多少合适呢,我的是5

只要没有勾精确滚屏次数,那么设置成滚屏5次是可以的,如果网页很长,爬虫自己会决定增加滚屏次数




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2