1.我有几个问题想请教,首先我的样本内容选完之后,星级是//*[@class='ui_bubble_rating bubble_30'],我看其他人的class值是“class 3”或者“grade,class”这种。
1.jpg
2.测试的输出信息出来的是这样,只显示'ui_bubble_rating bubble_30'的星级,然后输出窗口的星级甚至出现了好几个表达式
2.jpg

2.1.jpg


3.昨天把这个“显示XPATH”的绝对定位改成偏好class,星级那里就正常是'ui_bubble_rating bubble_ 30  40  50这样,但从EXCEL复制数据到文本文档进行ROSTCM6情感分析时,格式完全错了,我只用了22条进行分析,结果出来有40条,重复计算了


我对代码一点都不懂,所以看完自定义XPath的内容,试着改,完全出错了,不知道要怎么弄,请大神帮看看!!!

2.1.jpg
2.jpg
举报 使用道具
| 回复

共 55 个关于本帖的回复 最后回复于 2020-6-26 16:29

Fuller 管理员 发表于 2020-6-22 11:00:36 | 显示全部楼层
星级对应的html元素,有class,其值含有“bubble_30",这个代表某种星级,要想采集到其他星级,不能用这个class做定位标志映射,也不能让爬虫生成规则的时候自动用上这个定位标志。

方案1:在这个元素节点之上找父节点或者祖先节点(不能太远),看看有没有含有合适的class值,而且是各星级共同的。如果用,手工做定位标志映射
方案2:创建规则工作台上有一个“定位”按钮,可以设置定位偏好,比如,只用id,就能避开class
举报 使用道具
Fuller 管理员 发表于 2020-6-22 11:03:42 | 显示全部楼层
还有一个方案:自定义xpath。那个xpath表达式中是@class='ui_bubble_rating bubble_30'改成 contains(@class, 'ui_bubble_rating') ,这样把相等匹配变成不完全匹配。自定义xpath要看这个教程:https://www.gooseeker.com/doc/article-269-1.html
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 11:25:01 | 显示全部楼层
Fuller 发表于 2020-6-22 11:03
还有一个方案:自定义xpath。那个xpath表达式中是@class='ui_bubble_rating bubble_30'改成 contains(@clas ...

你好,我用了第三个方案,复制了你给的自定义Xpath,然后星级那里变成了false
1592795990(1).jpg 1592795990(1).jpg

举报 使用道具
Fuller 管理员 发表于 2020-6-22 11:33:56 | 显示全部楼层
我那个xpath只是举例,不一定刚好合用。你做的规则名字是什么?我加载诊断一下
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 12:04:35 | 显示全部楼层
Fuller 发表于 2020-6-22 11:33
我那个xpath只是举例,不一定刚好合用。你做的规则名字是什么?我加载诊断一下 ...

规则叫 巴黎

举报 使用道具
Fuller 管理员 发表于 2020-6-22 15:01:51 | 显示全部楼层

这个不用自定义xpath,用@class 节点做内容映射,用祖先节点做定位标志映射(红框里的节点)。下图是我测试的结果,注意要把高级设置给取消掉
定位标志20200622150047.png
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 15:22:46 | 显示全部楼层
Fuller 发表于 2020-6-22 15:01
这个不用自定义xpath,用@class 节点做内容映射,用祖先节点做定位标志映射(红框里的节点)。下图是我测 ...

照着你说的方法改成功了,非常感谢!!!
请问之后我要爬同一页面的英文评论,也是用这个步骤吗,因为之前看到有人反映说 英文评论需要点击展开才可以抓取到,不是很懂回复说的建两个主题抓取是什么意思

举报 使用道具
Fuller 管理员 发表于 2020-6-22 15:42:47 | 显示全部楼层
a237090761 发表于 2020-6-22 15:22
照着你说的方法改成功了,非常感谢!!!
请问之后我要爬同一页面的英文评论,也是用这个步骤吗,因为之 ...

通常的网站,设置了语言以后,网站会记住,下次打开还是这种语言,所以,采集起来就比较容易,如果有5种语言要采集,预先设置5次,虽然手工设置有点麻烦,但是很可靠。

而这个网站的语言设置是记不住的,你可以试试,不知道最近是否有改变。比如,这一次你设置了英语,等加载另一个网页的时候,一开始又跳回了中文。如果是这种情况,就得在规则中加一级规则,放在最前面,专门负责点击语言
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 16:35:29 | 显示全部楼层
Fuller 发表于 2020-6-22 15:42
通常的网站,设置了语言以后,网站会记住,下次打开还是这种语言,所以,采集起来就比较容易,如果有5种 ...

请问一级规则要在哪里加呢,是工作台的那个下级线索吗。
我打开猫途鹰的英文评论后,评论虽然是英文,但其他提示都是中文,这算不算是语言设置跳了?
360截图20200622163241479.jpg 360截图20200622163241479.jpg


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:15