携程酒店抓取问题！！！！

度有涯之年

求大神解答这种情况该怎么处理？这是运用集搜客DIY数据采集出来的结果。

wangyong · 发表于 2021-3-29 12:02:19

本帖最后由 wangyong 于 2021-4-28 10:54 编辑

正确使用快捷采集采集携程酒店数据步骤如下：1，安装集搜客数据管家，从左侧工具条进入快捷采集，选择访问携程_国内酒店点评
输入要采集的酒店链接，例如：https://hotels.ctrip.com/hotels/detail/?hotelId=11939823

确认提交后数据管家会自动开始采集，采集完成后，我们可以在快捷采集后台中找到该任务下载数据

xandy · 发表于 2017-1-10 09:48:39

技术人员会进行测试的。

scraper · 发表于 2017-1-10 11:17:59

测试了你上面截图的两个网址没有出现timeout的情况不过是重复然后自动停止采集
你出现timeout是采集了部分数据但是没采全是吗猜测可能是网速问题网站翻到某一页加载特别慢就到了超时时长
也不排除是验证码的问题刚也有看到有验证码弹出

采集结果的fullpath有带页码参数可以从断开的那页作为线索继续添加去采集

度有涯之年 · 发表于 2017-1-10 19:32:37

scraper 发表于 2017-1-10 11:17
测试了你上面截图的两个网址没有出现timeout的情况不过是重复然后自动停止采集
你出现timeout是采集了部 ...

对阿，一共有99家的酒店的点评要采集，但是好像实际上采集到的并没有99家酒店的点评，至于采集到的每一家酒店的点评也不知道是不是完整的。。。。。感觉这个规则要是再加个酒店名就会更好了，方便搜查。

scraper · 发表于 2017-1-11 09:39:33

度有涯之年发表于 2017-1-10 19:32
对阿，一共有99家的酒店的点评要采集，但是好像实际上采集到的并没有99家酒店的点评，至于采集到的每一家 ...

昨天又测试其中一条线索一共518页采下来了
你看看是不是弹验证码所以失败了？

你说的加个酒店名因为酒店名和下面的评论离得比较远如果要采的话就要新建一个整理箱来采酒店名后续结果文件要清洗后才能让你们导出所以暂时没有采酒店名
现在你可以像以前的层级规则那样自己合并来查找

度有涯之年 · 发表于 2017-1-11 10:24:38

scraper 发表于 2017-1-11 09:39
昨天又测试其中一条线索一共518页采下来了
你看看是不是弹验证码所以失败了？

是阿，我也测试了，实际能采集到的不多于99家酒店，然而采集到的酒店的点评也不完全是完整的，不过也有是可以完整地采集到所有点评的。
至于您说的我可以像以前的层级规则来合并查找酒店名，是指我自己写个规则单独采酒店名和酒店点评链接吗，然后再用excel的lookup功能吗？不是很懂。。。

scraper · 发表于 2017-1-11 14:07:06

度有涯之年发表于 2017-1-11 10:24
是阿，我也测试了，实际能采集到的不多于99家酒店，然而采集到的酒店的点评也不完全是完整的，不过也有是 ...

你这些酒店的链接不是通过一个规则采下来的吗？如果是的话就有酒店名和链接的对应关系了再用excel的vlookup函数匹配

度有涯之年 · 发表于 2017-1-12 09:18:47

scraper 发表于 2017-1-11 14:07
你这些酒店的链接不是通过一个规则采下来的吗？如果是的话就有酒店名和链接的对应关系了再用excel的vlo ...

采集停止的话那如果我继续添加那些失败的网址线索去采集会不会出现重复采集的情况呢？比如说一个酒店的点评采了好几次或某一个酒店的某一页的点评采了多次？

Fuller · 发表于 2017-1-12 09:24:49

度有涯之年发表于 2017-1-12 09:18
采集停止的话那如果我继续添加那些失败的网址线索去采集会不会出现重复采集的情况呢？比如说一个酒店的 ...

如果是翻页抓取，添加相同网址跟激活一样，会出现重复数据，在数据库和Excel中判断重复数据很容易，做一次排序，把相同内容删除即可。

目前，从爬虫技术上很难接上失败的翻页线索，除非这个线索有独立网址，那么在结果文件中有个pageno字段，可以看到在哪个分页断了，那么就构造出下一分页的网址，这样就能接上，不会重复，但是，要求每个分页有独立网址的才能接上。

如果是单页抓取，不要重新激活以前的线索就不会重复。如果单页网址是上一级生成的，上一级的调度参数有个“是否激活下级线索”，勾选否，那么即使上级重复抓取，也不会重新激活下级

携程酒店抓取问题！！！！

共 9 个关于本帖的回复最后回复于 2021-3-29 12:02

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

携程酒店抓取问题！！！！

共 9 个关于本帖的回复 最后回复于 2021-3-29 12:02

推荐板块

精彩推荐

热门话题

热门用户

共 9 个关于本帖的回复最后回复于 2021-3-29 12:02