主题名1:抓取启辰汽车经销商信息_start   
主题名2:抓取启辰汽车经销商信息_层级二
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-9-3 16:47

沙发
Fuller 管理员 发表于 2016-9-1 11:41:48 | 只看该作者
我正在看第一个规则,看到有个需要改进的地方:

第一个动作步骤,定位xpath是:
  1. /html/body/form/div[position()=3]/div/div[position()=2]/div[position()=3]/div[position()=2]/div[position()=1]/div[position()=1]/select[@id='sel_brand2']
复制代码
这么长是怎样写出来的?手工写的吗?这个xpath中很多position(),万一网页结构稍有变化,适应性就不够了。其实光要最后那段就够了
  1. //*[@id='sel_brand2']
复制代码
不用手工写,选中那个网页元素,如图,选择按钮菜单“显示Xpath:偏好id”,就自动生成了,而且还可以用右边的搜索按钮,测试一下定位是否对。

举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-1 11:44:41 | 只看该作者
第一个步骤,高级选项应该起点为2吧?把第一个选项跳过去

举报 使用道具
地板
a271493144 初级会员 发表于 2016-9-1 16:14:51 | 只看该作者
本帖最后由 a271493144 于 2016-9-1 16:16 编辑

起点二是  日产,我只抓取启辰,所以从三开始。xpath是根据绝对路径得到的
举报 使用道具
5#
Fuller 管理员 发表于 2016-9-1 16:54:48 | 只看该作者
a271493144 发表于 2016-9-1 16:14
起点二是  日产,我只抓取启辰,所以从三开始。xpath是根据绝对路径得到的

xpath用 “偏好id”更好
举报 使用道具
6#
ShelleyWu 初级会员 发表于 2016-9-3 14:47:33 | 只看该作者
请问如果下级的不是特定指向的url, 而是javascript, 目前有办法处理多级抓取吗?
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-3 16:47:50 | 只看该作者
ShelleyWu 发表于 2016-9-3 14:47
请问如果下级的不是特定指向的url, 而是javascript, 目前有办法处理多级抓取吗? ...

如果这样的下级在网页上只有一个,那么类似于翻页,做一个连贯抓取线索。请看:http://www.gooseeker.com/doc/article-150-1.html

如果这样的有多个,那么要做连续动作,请看:http://www.gooseeker.com/doc/article-141-1.html


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 17:21