主题名:hello_hello      
这个是要处理的网址,关于用户评论:https://www.walmart.com/ip/Refurbished-VIZIO-D32hn-D0-32-720p-60Hz-Full-Array-LED-HDTV/52024983
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-1-11 15:56

沙发
Fuller 管理员 发表于 2017-1-10 22:54:19 | 只看该作者
给这个网页做规则有两大难度:

1,网页结构会变化,似乎walmart这个网站使用了多套网页模版,今天晚上我做了两次规则分析,看到的网页结构不一样,这一次看到的翻页页码都是BUTTON,上一次是A。如果模版变化,必须在同一主题名下做多套规则,用规则编号区分他们

2,相对线索规则自动生成的无法区分出当前页码和下一页码



显示样式的区别发生在BUTTON上,当前页码的@class='active',但是自动生成的xpath选用的li节点没有任何区别,所以,生成的规则没有用。需要手工修改。直接在线索规则窗口上修改。主要要严格按照这个顺序
1)先 “存规则”
2)点击测试按钮
3)在线索规则窗口中直接修改
4)点击保存修改按钮
就不能再点击“存规则”按钮了,否则,自动生成的规则会把手工修改的冲掉

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2017-1-10 23:08:31 | 只看该作者
<path>那里,手工改成这样
  1. //*[@class='paginator-list']/li[contains(./button/@class,'active') and count(following-sibling::li[position()=1]/button)>0]
复制代码
把@class='active'用上
举报 使用道具
地板
smile欣雨冬青 初级会员 发表于 2017-1-11 15:11:28 | 只看该作者
Fuller 发表于 2017-1-10 23:08
那里,手工改成这样
把@class='active'用上

我试试,谢谢啦!!!
举报 使用道具
5#
smile欣雨冬青 初级会员 发表于 2017-1-11 15:56:05 | 只看该作者
本帖最后由 smile欣雨冬青 于 2017-1-11 16:11 编辑

还是只能抓取一一页的信息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 09:36