9 1690

采集拍卖品链接和详情

longbingjun 于 2023-11-28 00:15 发表 [复制链接]
一级任务名称:拍品链接任务
      主要采集拍品的链接。网页中的拍卖场次、拍卖成交率和成交额(因为没有这些信息没有放在嵌套箱);
拍品的名称、LOT号和链接(已设置内容映射)放在嵌套箱里且使用样例映射。规则里设置的初始网址可以顺利采集。明明已经设置了重复内容中断,但是还是会有很多采集失败的
采集失败网址例子:
https://auction.artron.net/special_detail/PZ2057596
https://auction.artron.net/special_detail/PZ2057595
二级任务名称:拍品详情任务
      主要采集拍品的详细信息。由于每个网页中对应一个拍品的具体信息,故只做了简单的打标签。
采集失败网址例子:
https://auction.artron.net/paimai-art52125110224
https://auction.artron.net/paimai-art52125110225
https://auction.artron.net/paimai-art52125110226
https://auction.artron.net/paimai-art52125110227
https://auction.artron.net/paimai-art52125110228
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2023-11-28 18:33

Fuller 管理员 发表于 2023-11-28 10:24:17 | 显示全部楼层
分析一个网址是否使用某个规则的方法:
1. 在爬虫浏览器中访问这个网址
2. 进入定义规则模式
3. 输入规则名字,点击加载规则按钮
4. 不要勾加载样本页面
5. 用右上角的菜单“分析页面”分析这个网页。我分析了第一个网址,没有失败,说明规则没有问题

不加载网页31128101829.png
我在任务管理页面上把这条网址加入这个采集任务,采集也是成功的。

可能是你的网络出现了暂时的拥塞,可以重新激活失败线索,重新采集这条网址
举报 使用道具
longbingjun 初级会员 发表于 2023-11-28 11:03:59 | 显示全部楼层
Fuller 发表于 2023-11-28 10:24
分析一个网址是否使用某个规则的方法:
1. 在爬虫浏览器中访问这个网址
2. 进入定义规则模式

我采集设定规则的网址都没有问题;但是帖子里面放的采集失败的网址就不行。明明结构一样的哇
举报 使用道具
Fuller 管理员 发表于 2023-11-28 11:18:37 | 显示全部楼层
longbingjun 发表于 2023-11-28 11:03
我采集设定规则的网址都没有问题;但是帖子里面放的采集失败的网址就不行。明明结构一样的哇
...

超时1648.png

超时设置了多少?起码要一分钟,如果网站很慢,还要更长。延迟抓取不要超过超时,超时起码比延迟多30秒,才有足够时间采集数据
举报 使用道具
longbingjun 初级会员 发表于 2023-11-28 11:26:40 | 显示全部楼层
延迟抓取30s,超时60s
屏幕截图 2023-11-28 112413.png
屏幕截图 2023-11-28 112413.png
举报 使用道具
longbingjun 初级会员 发表于 2023-11-28 11:29:49 | 显示全部楼层
Fuller 发表于 2023-11-28 11:18
超时设置了多少?起码要一分钟,如果网站很慢,还要更长。延迟抓取不要超过超时,超时起码比延迟多30秒 ...

延迟30,超时60.
举报 使用道具
longbingjun 初级会员 发表于 2023-11-28 11:38:55 | 显示全部楼层
Fuller 发表于 2023-11-28 11:18
超时设置了多少?起码要一分钟,如果网站很慢,还要更长。延迟抓取不要超过超时,超时起码比延迟多30秒 ...

运行日志显示的是滚屏次数不够和超时时间不够。可是昨天采集的时候网速很快啊。现在把采集失败的链接激活,只开几个窗口但是这样仍然采集失败
举报 使用道具
Fuller 管理员 发表于 2023-11-28 11:52:17 | 显示全部楼层
longbingjun 发表于 2023-11-28 11:38
运行日志显示的是滚屏次数不够和超时时间不够。可是昨天采集的时候网速很快啊。现在把采集失败的链接激活 ...

如果提示滚屏次数不够和超时时间不够,那肯定就是超时时间太短了。网速不高的话,多设置几分钟
举报 使用道具
longbingjun 初级会员 发表于 2023-11-28 11:55:16 | 显示全部楼层
滚屏次数一般设置多少合适呢,我的是5
举报 使用道具
Fuller 管理员 发表于 2023-11-28 18:33:24 | 显示全部楼层
longbingjun 发表于 2023-11-28 11:55
滚屏次数一般设置多少合适呢,我的是5

只要没有勾精确滚屏次数,那么设置成滚屏5次是可以的,如果网页很长,爬虫自己会决定增加滚屏次数
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-29 22:45