|
爱彼迎网站很难采集,网页结构太乱了。遇到这种情况,就要手工翻页到失败的那一页,分析页面,看看规则在哪里失败了。步骤是:
1,把规则加载好
2,不要勾选工具条中部的“内容定位”,这样就允许在爬虫浏览器中翻页了
3,翻到第二页
4,选择菜单:规则-》刷新页面结构,这样dom就是第二页的了
5,选择菜单:规则-》分析页面,发现分析失败了
因为只有一个抓取内容,干脆在第二页上重新把内容映射和样例复制映射做一遍,然后点击测试按钮,看数据规则,这样看
整理箱的定位xpath很长,干脆把第一页生成的和第二页生成的拷贝出来比较
//*[@class='_1kzvqab3']/div/div/div[position()=4]/div/div/div/section/div[position()=2]/div[position()=4]/div/div[position()>=1 and count(.//*[@class='_11dqbld7'])>0]
//*[@class='_1kzvqab3']/div/div/div[position()=4]/div/div/div/section/div[position()=2]/div[position()=3]/div/div[position()>=1 and count(.//*[@class='_11dqbld7'])>0]
这里竟然不一样,仔细看网页上有什么不同,原来第一页确实不同
那要想办法能不能找到一个第一页也没有这条信息的网页作样本页面
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|