快捷导航
7 510

层级抓取错误

yinjingClass 于 2021-6-8 13:41 发表 [复制链接]
我的一级规则名称是 浙数文化
二级规则名称是 浙数文化文章评论详情

目前一级规则可以抓取,设置页数爬虫
但是二级规则测试正常 但是抓取数据不行
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-6-8 16:51

yinjingClass 新手上路 发表于 2021-6-8 13:44:03 | 显示全部楼层
image.jpg image.png
举报 使用道具
wangyong 版主 发表于 2021-6-8 14:29:10 | 显示全部楼层

从这个截图看,是采集的网址有问题,不是正常的网址,你把第二级网址确认是可以打开的后,再添加到规则中采集
举报 使用道具
yinjingClass 新手上路 发表于 2021-6-8 14:34:24 | 显示全部楼层
wangyong 发表于 2021-6-8 14:29
从这个截图看,是采集的网址有问题,不是正常的网址,你把第二级网址确认是可以打开的后,再添加到规则中 ...

在一级规则中,勾选了补全网址,下级网址选的是二级规则的名称其中一级规则抓取的网址是完整的
举报 使用道具
wangyong 版主 发表于 2021-6-8 15:02:59 | 显示全部楼层
yinjingClass 发表于 2021-6-8 14:34
在一级规则中,勾选了补全网址,下级网址选的是二级规则的名称其中一级规则抓取的网址是完整的
...

QQ截图20210608150003.png
第一级规则中只需要对文章链接勾下级线索,发表时间不需要勾选

把第二级规则中的线索全部删除,然后重新运行第一规则采集,新一轮第一级规则采集完成后,再重新采集第二级规则

删除全部线索
QQ截图20210608150239.png
举报 使用道具
yinjingClass 新手上路 发表于 2021-6-8 15:21:57 | 显示全部楼层
wangyong 发表于 2021-6-8 15:02
第一级规则中只需要对文章链接勾下级线索,发表时间不需要勾选

把第二级规则中的线索全部删除,然后重 ...

image.png image.png 执行失败
举报 使用道具
yinjingClass 新手上路 发表于 2021-6-8 15:31:11 | 显示全部楼层
wangyong 发表于 2021-6-8 15:02
第一级规则中只需要对文章链接勾下级线索,发表时间不需要勾选

把第二级规则中的线索全部删除,然后重 ...

image.png 导出失败
举报 使用道具
wangyong 版主 发表于 2021-6-8 16:51:37 | 显示全部楼层

导出失败的原因是在数据导出之前你把规则删除了,这样就导不出来了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 基于层次结构和共现关系的在线评论主题图谱
  • 基于因果机制的用户行为研究及应用
  • 改进的K近邻算法及其在文本分析中的应用
  • Jupyter Notebook使用Gensim库做中文Word2V
  • 基于Word2Vec的医学知识组织系统互操作研究

热门用户

GMT+8, 2021-9-19 04:08