3 6828

关键内容抓取不下来

houxinyu1216 于 2018-9-5 16:38 发表 [复制链接]
抓取数据网址是:https://www.wdzj.com/dangan/search?filter
主题名是:平台1
设置关键内容抓取后,抓取的文本并不是想要的文本。。。不知道是怎么回事,请大牛帮忙解答,万分感谢!

11111111.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-9-6 09:10

Fuller 管理员 发表于 2018-9-5 16:59:19 | 显示全部楼层
定位20180905164344.png

他们都有相同的class,用这个定位标志映射,他们就搞混了,抓取的时候,他们都会抓取到第一个,等再次加载的时候,他们都会定位到第一个,结果还变成了加载失败,因为不运行把相同的节点映射给多个抓取内容。关于定位标志问题,这里有专门一组经验总结,最后一篇就是说这个的,相同class要想办法避免:https://www.gooseeker.com/doc/thread-707-1-1.html

你这个规则其实还有个问题:刚才说的那几个抓取内容,对每一条来说有多有少,我建议用一个嵌套的整理箱,在嵌套整理箱内用一个样例复制,把他们都采集下来,不要一个个对应一个特定的抓取内容

嵌套20180905165635.png

看整理箱,我创建多了一层,然后用红框中的那个class做定位标志映射给那个子容器“更多属性”,而子容器中的“属性值”用那个EM做内容映射。这样就形成一个嵌套的整理箱,子容器也能采集多个内容,不管有多个,都能采集到。用定位标志采集多个样例的教程:https://www.gooseeker.com/doc/article-347-1.html
举报 使用道具
Fuller 管理员 发表于 2018-9-5 17:09:43 | 显示全部楼层
这个规则还有个问题
定位20180905170542.png

黄色背景那块内容,他们对应DOM上的每个区域都有相同的class值,你看右边4个箭头,他们class值相同,那么也会造成抓取的内容混淆在一起。我采用了一个技巧,用他们公共的父节点做定位标志映射,就是把那个class='itemConLeft'映射给每个内容,这样的话,为每个内容生成定位规则的时候,就会相对于这个父节点开始定位,就能区分开了。这就避开了相同的class='itemConBox'
举报 使用道具
houxinyu1216 初级会员 发表于 2018-9-6 09:10:52 | 显示全部楼层
学习到了非常重要的内容和技巧,有很大帮助,谢谢您耐心细致的解答!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:22