抓取数据网址是:https://www.wdzj.com/dangan/search?filter
主题名是:平台1
设置关键内容抓取后,抓取的文本并不是想要的文本。。。不知道是怎么回事,请大牛帮忙解答,万分感谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-9-6 09:10

沙发
Fuller 管理员 发表于 2018-9-5 16:59:19 | 只看该作者


他们都有相同的class,用这个定位标志映射,他们就搞混了,抓取的时候,他们都会抓取到第一个,等再次加载的时候,他们都会定位到第一个,结果还变成了加载失败,因为不运行把相同的节点映射给多个抓取内容。关于定位标志问题,这里有专门一组经验总结,最后一篇就是说这个的,相同class要想办法避免:https://www.gooseeker.com/doc/thread-707-1-1.html

你这个规则其实还有个问题:刚才说的那几个抓取内容,对每一条来说有多有少,我建议用一个嵌套的整理箱,在嵌套整理箱内用一个样例复制,把他们都采集下来,不要一个个对应一个特定的抓取内容



看整理箱,我创建多了一层,然后用红框中的那个class做定位标志映射给那个子容器“更多属性”,而子容器中的“属性值”用那个EM做内容映射。这样就形成一个嵌套的整理箱,子容器也能采集多个内容,不管有多个,都能采集到。用定位标志采集多个样例的教程:https://www.gooseeker.com/doc/article-347-1.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2018-9-5 17:09:43 | 只看该作者
这个规则还有个问题


黄色背景那块内容,他们对应DOM上的每个区域都有相同的class值,你看右边4个箭头,他们class值相同,那么也会造成抓取的内容混淆在一起。我采用了一个技巧,用他们公共的父节点做定位标志映射,就是把那个class='itemConLeft'映射给每个内容,这样的话,为每个内容生成定位规则的时候,就会相对于这个父节点开始定位,就能区分开了。这就避开了相同的class='itemConBox'

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
houxinyu1216 初级会员 发表于 2018-9-6 09:10:52 | 只看该作者
学习到了非常重要的内容和技巧,有很大帮助,谢谢您耐心细致的解答!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 10:27