5 12923

整理箱不适用的问题

ovna123 于 2017-2-20 09:55 发表 [复制链接]
一个规则多个整理箱  爬取批量网页数据,有的网页全部整理箱都适用。有的网页只有部分整理箱适用,是否会出现“抓取规则不合适或超时时间设置太短”的提示?如何解决?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-2-20 11:40

xandy 论坛元老 发表于 2017-2-20 09:59:47 | 显示全部楼层
给网页中必然会出现的关键字段勾选关键内容,而部分网页才能采集到的关键字段不要勾选,否则会出现抓取失败,另外可以通过定位标志来提高规则是适用性。
举报 使用道具
Fuller 管理员 发表于 2017-2-20 10:00:12 | 显示全部楼层
找一个最全的网页作为样本页面,定义好规则,然后抓取试验一批网址,如果有些网址有些内容不存在,那么整理箱中对应的内容不要勾选关键内容。

如果网页结构有比较大的区别,那么就定义两个抓取规则,他们的主题名相同,规则编号不同,每个规则对应一类网址。
举报 使用道具
ovna123 金牌会员 发表于 2017-2-20 11:21:01 | 显示全部楼层
本帖最后由 ovna123 于 2017-2-20 11:31 编辑
Fuller 发表于 2017-2-20 10:00
找一个最全的网页作为样本页面,定义好规则,然后抓取试验一批网址,如果有些网址有些内容不存在,那么整理 ...

用第一种方法,运行成功,谢谢。
举报 使用道具
ovna123 金牌会员 发表于 2017-2-20 11:25:39 | 显示全部楼层
为什么加载规则后,后续分析总是不成功?
举报 使用道具
quyixuan 金牌会员 发表于 2017-2-20 11:40:32 | 显示全部楼层
ovna123 发表于 2017-2-20 11:25
为什么加载规则后,后续分析总是不成功?

后续分析不成功就说明规则不适用样本页面的网页结构,这种情况需要修改规则

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 23:06