亲们,我要通过搜索页面去批量抓取详情页面的URL。
但是URL的位置在不同搜索页的位置不一致。如
//*[@id="web_container"]/div/div/div/div[1]/div[3]/div[1]/div[2]/div[1]/a
//*[@id="web-container"]/div/div/div/div[1]/div[4]/div[1]/div[2]/div[1]/a
就是其中某个DIV节点的位置不一样,导致在抓取的时候部分信息抓取失败。

请问这种情况如何处理?我本来是想设置两种规则的,但是搜索页的网页结构有没有很大的差别。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-4-12 16:11

沙发
yangwenge 金牌会员 发表于 2018-4-12 14:36:41 | 只看该作者
有具体的链接吗?
可以试试:(1)//*[@id="web_container"]/div/div/div/div[1]/div[3]/div[1]/div[2]/div[1]/a | //*[@id="web-container"]/div/div/div/div[1]/div[4]/div[1]/div[2]/div[1]/a
(2)//*[@id="web_container"]/div/div/div/div[1]//a
举报 使用道具
板凳
weier_2016 中级会员 发表于 2018-4-12 16:08:47 | 只看该作者
yangwenge 发表于 2018-4-12 14:36
有具体的链接吗?
可以试试:(1)//*[@id="web_container"]/div/div/div/div[1]/div[3]/div[1]/div[2]/div ...

这个是在XPATH高级配置里设置吗?
举报 使用道具
地板
weier_2016 中级会员 发表于 2018-4-12 16:09:09 | 只看该作者
yangwenge 发表于 2018-4-12 14:36
有具体的链接吗?
可以试试:(1)//*[@id="web_container"]/div/div/div/div[1]/div[3]/div[1]/div[2]/div ...

这个是在XPATH中配置吗
举报 使用道具
5#
yangwenge 金牌会员 发表于 2018-4-12 16:11:27 | 只看该作者
weier_2016 发表于 2018-4-12 16:09
这个是在XPATH中配置吗

在字段的高级设置->自定义xpath中,可以参考《自定义xpath》
举报 使用道具
6#
weier_2016 中级会员 发表于 2018-4-12 16:11:46 | 只看该作者
yangwenge 发表于 2018-4-12 16:11
在字段的高级设置中,可以参考《自定义xpath》

好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 14:12