11#
Fuller 管理员 发表于 2019-2-28 18:04:28 | 只看该作者
loserxx 发表于 2019-2-28 17:12
嗯嗯,明白不不少了,谢谢!

另外,规则2 需要改吗? 规则2 我是用的id而不是class,所以心里有点不踏实 ...

规则2我测试看到的结果是正确的,应该不用改
举报 使用道具
12#
loserxx 中级会员 发表于 2019-4-4 09:13:37 | 只看该作者
Fuller 发表于 2019-2-28 18:04
规则2我测试看到的结果是正确的,应该不用改

我又按照您说的重新试做了一遍(增加了一步:先点击“更多语言”
规则名如下:
里昂老城点评1-20190402
里昂老城点评2-20190402


但发现还是存在问题:无法遍历所有的点击组合,特别是不能覆盖所有的语言!

按理说5种游客类型*4种季节*20种语言=400种点击组合,但实际上我做了几次,只能爬取80种点击组合;全部点评数有5800多个,但是我实际涉及到的只有2000个左右。

另外,actionvalue 设置也不成功

以上求助,谢谢!
举报 使用道具
13#
loserxx 中级会员 发表于 2019-4-4 09:23:26 | 只看该作者
只能做到80种点击组合

里昂老城点评截图.png (295.06 KB, 下载次数: 693)

里昂老城点评截图.png
举报 使用道具
14#
Fuller 管理员 发表于 2019-4-4 10:34:20 | 只看该作者
loserxx 发表于 2019-4-4 09:13
我又按照您说的重新试做了一遍(增加了一步:先点击“更多语言”)
规则名如下:
里昂老城点评1-20190402 ...

用点击选择语言有些不太可靠,万一点不成功就漏数据。因为语言设置是能记忆的,可以在爬虫运行前先设定一种语言,然后运行爬虫。等把所有内容爬完了,再手工换另一种语言,再爬
举报 使用道具
15#
loserxx 中级会员 发表于 2019-4-4 11:41:59 | 只看该作者
Fuller 发表于 2019-4-4 10:34
用点击选择语言有些不太可靠,万一点不成功就漏数据。因为语言设置是能记忆的,可以在爬虫运行前先设定一 ...

那这样工作量岂不是太大了?
举报 使用道具
16#
Fuller 管理员 发表于 2019-4-4 14:33:39 | 只看该作者
loserxx 发表于 2019-4-4 11:41
那这样工作量岂不是太大了?

如果每种语言下要采集的数量挺多的,手工换语言的工作量相对不是很大,这样做还比较可靠,我觉得更划算
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 15:27