本帖最后由 小蜜蜂测试16 于 2020-3-6 18:15 编辑

自己做了携程民俗酒店的采集规则,在自己电脑上可以正常采集,但是共享给同事后,总是采集失败,求教是什么问题?
网址:https://inn.ctrip.com/onlineinn/newdetail/11671619?d1=2020-03-03&d2=2020-03-04&channelId=211&nav=yangzhou26&tdsourcetag=s_pctim_aiomsg规则名:携程_民宿酒店点评
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-3-6 18:46

沙发
wangyong 版主 发表于 2020-3-6 18:23:37 | 只看该作者
本帖最后由 wangyong 于 2020-3-6 18:24 编辑


加载规则后发现,对整理箱顶节点做了定位标志映射,但是这个网页中body节点的@class会随着浏览器useragent更改,比如再使用火狐的useragent加载是class的值中就包含“firefox”,使用谷歌浏览器加载就变成了“chrome”

根据这个原因,解决方案有两个
1,让你的同事把集搜客爬虫的useragent也切换成火狐

2,修改采集规则,使用body下@class="__next"的div做定位标志映射,这个节点不会随着useragetn更改而更改
举报 使用道具
板凳
Fuller 管理员 发表于 2020-3-6 18:46:47 | 只看该作者
这个携程民宿酒店网页很神奇啊
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 16:59