11#
快乐少年郎 初级会员 发表于 2017-3-31 09:27:59 | 只看该作者
本帖最后由 快乐少年郎 于 2017-3-31 09:42 编辑
Fuller 发表于 2017-3-30 21:10
我加载了你的规则,运行的很好。会不会是你的网速太慢?那么就在第一级,每个动作增加额外延时,比如,3 ...

谢谢版主的耐心回复!

在连续动作上增加延时后,果然就运行成功了。然后现在又有问题了:我试着抓取北京的企业信息,显示有16页,但规则抓取到第6页就自行结束了,您给看下是什么问题。
(规则有修改,现在是①农药-企业数据-搜索2  ②农药-输入搜索词2)

然后还有个问题:需要采集的列表页上企业信息的下级线索都是一段javascript代码,这种情况如何设置连续动作呢
举报 使用道具
12#
Fuller 管理员 发表于 2017-3-31 09:44:31 | 只看该作者
如果用连续点击,就不用层级抓取,所以就不用管是否是javascript代码。通常这样选择:
1,如果下一级不是javascript代码,而是url地址,那么一定用层级抓取,除非层级抓取时加载不了页面。因为层级抓取速度很高
2,如果是javascript代码,就只有用连续动作了
举报 使用道具
13#
Fuller 管理员 发表于 2017-3-31 09:52:15 | 只看该作者
快乐少年郎 发表于 2017-3-31 09:27
谢谢版主的耐心回复!

在连续动作上增加延时后,果然就运行成功了。然后现在又有问题了:我试着抓取 ...



翻页规则中,有个position()函数,定死了位置,到第6就不适应了,可以点击爬虫路线工作台上的“定位偏好”按钮,换一下偏好,你也试试,我也试试
举报 使用道具
14#
快乐少年郎 初级会员 发表于 2017-3-31 10:07:05 | 只看该作者
Fuller 发表于 2017-3-31 09:52
翻页规则中,有个position()函数,定死了位置,到第6就不适应了,可以点击爬虫路线工作台上的“定位偏 ...

定位偏好,都试了一遍,还是不行
举报 使用道具
15#
数据集 高级会员 发表于 2017-3-31 10:07:41 | 只看该作者
翻页线索的定位标志要选择class值为pagination的节点
这样映射生成的路径就不会包含position

这样做之后还有个问题就是会陷入翻页死循环
参加教程《实战:怎么解决翻页死循环/重复翻页的问题



要采集详细信息可以自己构造网址做层级规则
可以采到企业的ID
用自定义xpath拼上前面的网址就可以了
xpath如下
concat('http://www.chinapesticide.gov.cn/myquery/companydetail?cid=',substring-before(substring-after(.//*[@class='t3']/span/a/@href,"'"),"'"))


举报 使用道具
16#
快乐少年郎 初级会员 发表于 2017-3-31 10:24:18 | 只看该作者
数据集 发表于 2017-3-31 10:07
翻页线索的定位标志要选择class值为pagination的节点
这样映射生成的路径就不会包含position

关键没有class值

举报 使用道具
17#
数据集 高级会员 发表于 2017-3-31 10:25:46 | 只看该作者

往上找 我不是都截图了么

举报 使用道具
18#
快乐少年郎 初级会员 发表于 2017-3-31 10:28:13 | 只看该作者
数据集 发表于 2017-3-31 10:25
往上找 我不是都截图了么

哦哦。刚注意到,我修改试试,谢谢~~
举报 使用道具
19#
快乐少年郎 初级会员 发表于 2017-3-31 10:39:35 | 只看该作者
数据集 发表于 2017-3-31 10:07
翻页线索的定位标志要选择class值为pagination的节点
这样映射生成的路径就不会包含position

完美解决,么么哒~~~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 19:58