采集旅游网站英文评论,每次采集到的都是评论中的中文评论?定义规则的时候选择的区域也是英文,为什么采集结果就又是中文评论呢?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-5-6 12:02

沙发
Fuller 管理员 发表于 2020-5-6 07:47:40 | 只看该作者
很多网站,选择语言以后,浏览器就能记住,那么爬虫运行不会有问题。如果遇到记不住的,应该做连续动作,点击需要的语言。你要采集哪个网站?
举报 使用道具
板凳
tysssweet 新手上路 发表于 2020-5-6 11:26:12 | 只看该作者
我想要采集猫头鹰(TripAdvisor)上面秦皇岛地区的酒店的非中文评论,现在遇到的问题就是按照教程设置了规则,设置规则的时候也是操作的英文评论,但是一抓取结果出现的都是从评论首页开始的中文评论,又尝试一次抓取所有评论(不区分语言)发现结果也都是中文评论,英文直接跳过了没有抓取。恳请指教,弄了一晚上还是不会~不太明白您说的连续动作如何操作?
举报 使用道具
地板
tysssweet 新手上路 发表于 2020-5-6 11:26:34 | 只看该作者
Fuller 发表于 2020-5-6 07:47
很多网站,选择语言以后,浏览器就能记住,那么爬虫运行不会有问题。如果遇到记不住的,应该做连续动作,点 ...

我想要采集猫头鹰(TripAdvisor)上面秦皇岛地区的酒店的非中文评论,现在遇到的问题就是按照教程设置了规则,设置规则的时候也是操作的英文评论,但是一抓取结果出现的都是从评论首页开始的中文评论,又尝试一次抓取所有评论(不区分语言)发现结果也都是中文评论,英文直接跳过了没有抓取。恳请指教,弄了一晚上还是不会~不太明白您说的连续动作如何操作?            
举报 使用道具
5#
Fuller 管理员 发表于 2020-5-6 12:02:31 | 只看该作者
tysssweet 发表于 2020-5-6 11:26
我想要采集猫头鹰(TripAdvisor)上面秦皇岛地区的酒店的非中文评论,现在遇到的问题就是按照教程设置了 ...

猫途鹰确实有这个问题,要抓英文的话,至少做两级规则,第一级负责点击目标语言,第二级负责正常的抓取。

第一级用一个点击动作,参看:https://www.gooseeker.com/doc/article-288-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 13:14