第一个网页结构技术让两个整理箱抓取数据,第二个网页结构技术让用层级抓取,第一个规采取不到第二个网页结构的数据,第二个规则采取不到第一个网页结构的数据

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-19 14:34

yangwenge 金牌会员 发表于 2018-4-19 11:53:22 | 显示全部楼层
本帖最后由 yangwenge 于 2018-4-19 12:05 编辑

没明白你要表达什么意思

前面已经告诉过你用层级采集,需要用下面的@src中的链接做规则,加载你的规则还是用的上面的网址,那肯定会匹配失败。
另外需要注意规则的适用性,随便加载失败线索的链接就会发现div的@class不相同,那么映射直接映射dody节点不就可以了?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
pay123456 初级会员 发表于 2018-4-19 14:18:35 | 显示全部楼层
我就是用的下面的@src中的链接做的规则好嘛,拿到src下面链接地址的规则是科技政策汇项目详情,然后下级规则就是我要拿到文章内容的规则是:科技政策汇文章内容,然后我运行科技政策汇文章内容规则时候报错
举报 使用道具
pay123456 初级会员 发表于 2018-4-19 14:34:24 | 显示全部楼层
yangwenge 发表于 2018-4-19 11:53
没明白你要表达什么意思

前面已经告诉过你用层级采集,需要用下面的@src中的链接做规则,加载你的规则还是 ...

我就是用的下面的@src中的链接做的规则好嘛,拿到src下面链接地址的规则是科技政策汇项目详情,然后下级规则就是我要拿到文章内容的规则是:科技政策汇文章内容,然后我运行科技政策汇文章内容规则时候报错            
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 09:35