11#
maomao 论坛元老 发表于 2017-4-10 11:21:25 | 只看该作者
你在设置爬虫路线的时候,在目标主题名那里,要用原来的主题名:绅宝x3511 ,而不是重新取的名字: 汽车之家绅宝x3511
举报 使用道具
12#
旺德饺子 初级会员 发表于 2017-4-10 11:22:43 | 只看该作者
maomao 发表于 2017-4-10 11:21
你在设置爬虫路线的时候,在目标主题名那里,要用原来的主题名:绅宝x3511 ,而不是重新取的名字: 汽车之 ...

谢谢您的回复,您看下我上传的最新的规则,求赐教
举报 使用道具
13#
Fuller 管理员 发表于 2017-4-10 13:33:28 | 只看该作者
旺德饺子 发表于 2017-4-10 11:14
请问这个规则是否不适用爬取汽车之家的?请大神帮忙,小弟感激不尽
——————————————

把样本网址再发一遍,你的规则加载显示的网页是白屏
举报 使用道具
14#
旺德饺子 初级会员 发表于 2017-4-10 13:35:08 | 只看该作者
Fuller 发表于 2017-4-10 13:33
把样本网址再发一遍,你的规则加载显示的网页是白屏

http://k.autohome.com.cn/3788/###  辛苦您

举报 使用道具
15#
Fuller 管理员 发表于 2017-4-10 13:37:32 | 只看该作者
“空间评价”这个抓取内容要抓取什么?
定义规则的时候尽量用上定位标志映射,否则规则容易失效
举报 使用道具
16#
Fuller 管理员 发表于 2017-4-10 13:42:45 | 只看该作者
空间评价对应的xpath有一部分是
  1. //*[@class='text-con']
复制代码


用这个xpath做搜索,定位不到节点。这个样本页面对吗?http://k.autohome.com.cn/3788/###

举报 使用道具
17#
旺德饺子 初级会员 发表于 2017-4-10 13:44:09 | 只看该作者
Fuller 发表于 2017-4-10 13:37
“空间评价”这个抓取内容要抓取什么?
定义规则的时候尽量用上定位标志映射,否则规则容易失效 ...

您好,空间评价,是指在该页面内,所描述的口碑都是用户描述这台车辆的空间的,我刚才的样本网站发的不对,抱歉,应该是这个http://k.autohome.com.cn/3788/ge4/?#dataList,对不起

举报 使用道具
18#
旺德饺子 初级会员 发表于 2017-4-10 13:58:42 | 只看该作者
我这个还有救么
举报 使用道具
19#
Fuller 管理员 发表于 2017-4-10 14:00:57 | 只看该作者
旺德饺子 发表于 2017-4-10 13:44
您好,空间评价,是指在该页面内,所描述的口碑都是用户描述这台车辆的空间的,我刚才的样本网站发的不对 ...

在你给的这个样本页面上,加载规则还是失败的,但是重新映射一次就好了,得到的xpath是 *//*[@class='text-con']/text()[position()=1] ,似乎还是你选择的样本页面的问题
*//*[@class='text-con']/text()[position()=1]
*//*[@class='text-con']/font/text()  这是你原来的xpath
你重新做一下映射吧。

用这个新页面的过程是:
1,在MS谋数台上加载规则
2,加载完成以后执行后续分析
3,地址输入栏输入新网址
4,选择菜单 规则-》刷新页面结构 和 规则-》分析页面
5,对空间评价重新做内容映射
6,存规则
举报 使用道具
20#
旺德饺子 初级会员 发表于 2017-4-10 14:05:54 | 只看该作者
Fuller 发表于 2017-4-10 14:00
在你给的这个样本页面上,加载规则还是失败的,但是重新映射一次就好了,得到的xpath是 *//*[@class='tex ...

好的,我现在试试看,希望我能解决翻页爬取得问题,感谢您!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 08:53