8 15852

xpath只抓第一个数据

小王爷1993 于 2016-10-8 17:55 发表 [复制链接]
写的xpath明明找到了很多个节点 怎么采集的时候只有第一个?
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-6-17 23:08

Fuller 管理员 发表于 2016-10-8 18:02:15 | 显示全部楼层
GooSeeker爬虫讲究“在网页上划定一个区域,然后在这个区域中定位节点”。一开始先定义了一个整理箱,做完所有抓取内容的映射以后,MS谋数台能自动计算出来这个整理箱在网页上所在的区域。此时,抓取内容就是这个区域中的节点。

具体为什么出现你说的情况,要把主题名贴出来我们诊断一下
举报 使用道具
HJLing 版主 发表于 2016-10-8 18:14:51 | 显示全部楼层
做上样例复制试试
举报 使用道具
closeyoo 中级会员 发表于 2017-6-17 17:32:36 | 显示全部楼层
我遇到了和楼主一样的问题~
在大众点评商店详情页,做了第一级单击网友评论【更多】按钮后,做第二级对所有评论的采集。
展开后的评论XPath:[@class='info J-info-all']
无需展开的评论XPath://li[contains(@id,'rev')]/*/*[@class='desc']
最后评论字段高级设置自定义XPath选择文本内容,勾上专用定位写作:.//li[contains(@id,'rev')]/*/*[@class='desc'] | //*[@class='info J-info-all'],这样搜索出来是正好10条节点的。
并做好了样例复制
但测试结果是,每个评论都抓取了第一条节点的内容……
不太知道问题出在哪儿,还求各位指导指导!

主题名:大众点评网友点评-gy
举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-6-17 18:23:21 | 显示全部楼层
closeyoo 发表于 2017-6-17 17:32
我遇到了和楼主一样的问题~
在大众点评商店详情页,做了第一级单击网友评论【更多】按钮后,做第二级对所 ...

你是想采集某个商家的所有评论?
比如这个页面: https://www.dianping.com/shop/2560066/review_more
可以针对这个页面做个规则,从列表页采集到的详情链接,转成直接访问评论的网址,省去点击动作

举报 使用道具
closeyoo 中级会员 发表于 2017-6-17 19:04:43 | 显示全部楼层
shenzhenwan10 发表于 2017-6-17 18:23
你是想采集某个商家的所有评论?
比如这个页面: https://www.dianping.com/shop/2560066/review_more
可 ...

嗯嗯~ 现在是采用这样的办法采集评论的
但还是有点好奇为什么在商家详情页面用XPath定位的10个节点都是抓取第一个节点的内容

举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-6-17 19:58:55 | 显示全部楼层
我用你的xpath只能搜到3个节点
举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-6-17 20:04:31 | 显示全部楼层
不如建2个字段,分别抓2种结构的评论内容
对结果的2个字段进行合并
举报 使用道具
closeyoo 中级会员 发表于 2017-6-17 23:08:22 | 显示全部楼层
shenzhenwan10 发表于 2017-6-17 20:04
不如建2个字段,分别抓2种结构的评论内容
对结果的2个字段进行合并

好滴!!!我试试~
谢谢~~ 辛苦了~~!!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 13:20