求大神解答这种情况该怎么处理?这是运用集搜客DIY数据采集出来的结果。

360截图20170110092840407.jpg (32.45 KB, 下载次数: 728)

360截图20170110092840407.jpg

360截图20170110092921894.jpg (68.63 KB, 下载次数: 728)

360截图20170110092921894.jpg
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2021-3-29 12:02

来自 10#
wangyong 版主 发表于 2021-3-29 12:02:19 | 只看该作者
本帖最后由 wangyong 于 2021-4-28 10:54 编辑

正确使用快捷采集采集携程酒店数据步骤如下:1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择访问携程_国内酒店点评
输入要采集的酒店链接,例如:https://hotels.ctrip.com/hotels/detail/?hotelId=11939823

确认提交后数据管家会自动开始采集,采集完成后,我们可以在快捷采集后台中找到该任务下载数据



举报 使用道具
沙发
xandy 论坛元老 发表于 2017-1-10 09:48:39 | 只看该作者
技术人员会进行测试的。
举报 使用道具
板凳
scraper 论坛元老 发表于 2017-1-10 11:17:59 | 只看该作者
测试了你上面截图的两个网址 没有出现timeout的情况 不过是重复然后自动停止采集
你出现timeout是采集了部分数据但是没采全是吗 猜测可能是网速问题 网站翻到某一页加载特别慢 就到了超时时长
也不排除是验证码的问题 刚也有看到有验证码弹出

采集结果的fullpath有带页码参数 可以从断开的那页作为线索继续添加去采集
举报 使用道具
地板
度有涯之年 初级会员 发表于 2017-1-10 19:32:37 | 只看该作者
scraper 发表于 2017-1-10 11:17
测试了你上面截图的两个网址 没有出现timeout的情况 不过是重复然后自动停止采集
你出现timeout是采集了部 ...

对阿,一共有99家的酒店的点评要采集,但是好像实际上采集到的并没有99家酒店的点评,至于采集到的每一家酒店的点评也不知道是不是完整的。。。。。感觉这个规则要是再加个酒店名就会更好了,方便搜查。

举报 使用道具
5#
scraper 论坛元老 发表于 2017-1-11 09:39:33 | 只看该作者
度有涯之年 发表于 2017-1-10 19:32
对阿,一共有99家的酒店的点评要采集,但是好像实际上采集到的并没有99家酒店的点评,至于采集到的每一家 ...

昨天又测试其中一条线索 一共518页 采下来了
你看看是不是弹验证码所以失败了?

你说的加个酒店名 因为酒店名和下面的评论离得比较远 如果要采的话就要新建一个整理箱来采酒店名 后续结果文件要清洗后才能让你们导出 所以暂时没有采酒店名
现在你可以像以前的层级规则那样自己合并来查找

举报 使用道具
6#
度有涯之年 初级会员 发表于 2017-1-11 10:24:38 | 只看该作者
scraper 发表于 2017-1-11 09:39
昨天又测试其中一条线索 一共518页 采下来了
你看看是不是弹验证码所以失败了?

是阿,我也测试了,实际能采集到的不多于99家酒店,然而采集到的酒店的点评也不完全是完整的,不过也有是可以完整地采集到所有点评的。
至于您说的我可以像以前的层级规则来合并查找酒店名,是指我自己写个规则单独采酒店名和酒店点评链接吗,然后再用excel的lookup功能吗?不是很懂。。。

举报 使用道具
7#
scraper 论坛元老 发表于 2017-1-11 14:07:06 | 只看该作者
度有涯之年 发表于 2017-1-11 10:24
是阿,我也测试了,实际能采集到的不多于99家酒店,然而采集到的酒店的点评也不完全是完整的,不过也有是 ...

你这些酒店的链接不是通过一个规则采下来的吗?如果是的话 就有酒店名和链接的对应关系了 再用excel的vlookup函数匹配

举报 使用道具
8#
度有涯之年 初级会员 发表于 2017-1-12 09:18:47 | 只看该作者
scraper 发表于 2017-1-11 14:07
你这些酒店的链接不是通过一个规则采下来的吗?如果是的话 就有酒店名和链接的对应关系了 再用excel的vlo ...

采集停止的话 那如果我继续添加那些失败的网址线索去采集会不会出现重复采集的情况呢?比如说一个酒店的点评采了好几次或某一个酒店的某一页的点评 采了多次?

举报 使用道具
9#
Fuller 管理员 发表于 2017-1-12 09:24:49 | 只看该作者
度有涯之年 发表于 2017-1-12 09:18
采集停止的话 那如果我继续添加那些失败的网址线索去采集会不会出现重复采集的情况呢?比如说一个酒店的 ...

如果是翻页抓取,添加相同网址跟激活一样,会出现重复数据,在数据库和Excel中判断重复数据很容易,做一次排序,把相同内容删除即可。

目前,从爬虫技术上很难接上失败的翻页线索,除非这个线索有独立网址,那么在结果文件中有个pageno字段,可以看到在哪个分页断了,那么就构造出下一分页的网址,这样就能接上,不会重复,但是,要求每个分页有独立网址的才能接上。

如果是单页抓取,不要重新激活以前的线索就不会重复。如果单页网址是上一级生成的,上一级的调度参数有个“是否激活下级线索”,勾选否,那么即使上级重复抓取,也不会重新激活下级
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 17:08