11#
Fuller 管理员 发表于 2016-12-11 11:53:09 | 只看该作者
天堂牧羊人 发表于 2016-12-10 22:57
您可以帮我看看药品信息4这个吗?和3差不多,就是改成第二页开始了,但是一个数据都爬不到了
...

我又测试了一遍,我前面说的方法可行,你的理解有点偏差:新定义的主题的名字不能变,还应该叫 药品信息3,但是 规则编号 要改变,这样就会在同一个主题下有两个规则了,各自应对不同的网页结构。

我在一个主题下定义了两个规则,主题名相同,规则编号不同


他们完全一样,只是规则编号填的不一样


第一个规则定义过程正常,第二个规则定义过程是这样的:假设你刚刚定义完第一个规则,那么工作台中有规则,可以直接利用
1)工具条中间的“内容定位”不要勾
2)点击网页上的“下一页”,等待下一页内容显示出来
3)选择菜单 规则-〉刷新网页结构,然后再选择 分析页面,会看到报错了,因为第二页的结构不符合规则_1
4)来到 创建规则 工作台,重新做内容映射和样例复制映射
5)来到 爬虫路线 工作台,重新做线索定位映射和记号映射
6)来到 命名主题 工作台,修改规则编号 规则_2
7)点击 “存规则”,第二个规则就存好了

现在就可以采集了,DS打数机到第二页的时候,会发现结构变了,就会自动选择第二个规则。

注意,这个网站速度好慢,容易中断,最好到会员中心设置调度参数,用爬虫群模式,把速度调慢,参看《设置采集速度》的减速那篇

另外,还要注意,如果想加载第二个规则,等出现“后续分析”提示框的时候,不能立即选择后续分析菜单,而是要手工翻页到第二页才能执行后续分析,否则分析不成功
举报 使用道具
12#
天堂牧羊人 新手上路 发表于 2016-12-11 13:41:39 | 只看该作者
Fuller 发表于 2016-12-11 11:53
我又测试了一遍,我前面说的方法可行,你的理解有点偏差:新定义的主题的名字不能变,还应该叫 药品信息3 ...

建了两个规则结果还是一样是怎么回事?

QQ图片20161211134257.png (27.63 KB, 下载次数: 607)

QQ图片20161211134257.png

QQ图片20161211134313.png (62.04 KB, 下载次数: 638)

QQ图片20161211134313.png
举报 使用道具
13#
wangyong 版主 发表于 2016-12-11 15:04:08 | 只看该作者
规则里勾上关键内容
举报 使用道具
14#
天堂牧羊人 新手上路 发表于 2016-12-11 18:23:08 | 只看该作者
wangyong 发表于 2016-12-11 15:04
规则里勾上关键内容

好的,谢谢您,我终于解决了。现在主要要解决药监局网站白屏这个问题了
举报 使用道具
15#
天堂牧羊人 新手上路 发表于 2016-12-11 18:23:49 | 只看该作者
Fuller 发表于 2016-12-11 11:53
我又测试了一遍,我前面说的方法可行,你的理解有点偏差:新定义的主题的名字不能变,还应该叫 药品信息3 ...

谢谢谢谢,我终于解决了。只剩下药监局网站白屏这个问题了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-9 10:27