本帖最后由 jungle 于 2016-9-6 09:55 编辑

http://www.mafengwo.cn/schedule/1110184.html想要抓取第一天到第十四天的详细信息,但是每天的结构都不同,要创建几个规则呢,我自己创建的抓取数据不全

2.png (21.11 KB, 下载次数: 773)

2.png
举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2016-9-8 17:29

沙发
Fuller 管理员 发表于 2016-9-6 10:37:13 | 只看该作者
不要把这么多抓取内容放到一个规则中,这样的规则很容易失败,我加载你的规则就是失败的。

而是做一个针对某一天的规则,我会选择第七天,因为那天的很全,针对这一天做一个规则,假设主题名是B

然后再做一个规则,主题名是A,专门用来点击最左边的时间链接,做个连续动作,连续点七天,每个点击做后,下级主题指向B。

这样用两级主题,就能提高通用性。

做主题B的时候,有些抓取内容是可有可无的,就不要勾选“关键内容”
举报 使用道具
板凳
jungle 新手上路 发表于 2016-9-6 17:34:46 | 只看该作者
Fuller 发表于 2016-9-6 10:37
不要把这么多抓取内容放到一个规则中,这样的规则很容易失败,我加载你的规则就是失败的。

而是做一个针对 ...

你好,指向主题B后,抓取上来的数据全是第七天的,我用的主题是time_index和rule1,是哪里出问题了?
举报 使用道具
地板
jungle 新手上路 发表于 2016-9-6 18:05:29 | 只看该作者
Fuller 发表于 2016-9-6 10:37
不要把这么多抓取内容放到一个规则中,这样的规则很容易失败,我加载你的规则就是失败的。

而是做一个针对 ...

需要用爬虫路线跟样例复制吗?
举报 使用道具
5#
shenzhenwan10 金牌会员 发表于 2016-9-6 18:24:12 | 只看该作者
需要使用连续动作
举报 使用道具
6#
jungle 新手上路 发表于 2016-9-6 18:30:11 | 只看该作者

用了连续动作,可是第二个规则抓取的全是第七天的,而不是每天都对应
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-6 20:41:37 | 只看该作者
jungle 发表于 2016-9-6 18:30
用了连续动作,可是第二个规则抓取的全是第七天的,而不是每天都对应

前边我说错了。这7天的内容都在同一个网页上,所以,做连续点击没有意义,因为已经存在于网页上了,不用再点击了,只做抓取规则就行了。

最大的麻烦是每天都不一样。要找下规律,可以看到有如下三类网页块
1)交通
2)第N站
3)两地相距

仔细看DOM,发现结构特别清晰。抓取所有天的内容不要用样例复制,而是用定位标志映射,就是把第一个红框的标志映射给容器节点。


做规则的时候,找一个最全的天,整理箱中的抓取内容只存储一天内的信息。把所有抓取内容映射完以后,还要给他们做定位标志映射,最后给容器节点也做定位标志映射,用来抓多实例

举报 使用道具
8#
jungle 新手上路 发表于 2016-9-7 09:36:41 | 只看该作者
Fuller 发表于 2016-9-6 20:41
前边我说错了。这7天的内容都在同一个网页上,所以,做连续点击没有意义,因为已经存在于网页上了,不用 ...

恩,谢谢,意思是不是就是  给第四天做规则,然后将抓取内容都做上定位标识映射,再给容器节点也做上定位标识映射,然后其他操作都不用了,直接就能抓取数据?
举报 使用道具
9#
jungle 新手上路 发表于 2016-9-7 09:49:14 | 只看该作者
Fuller 发表于 2016-9-6 20:41
前边我说错了。这7天的内容都在同一个网页上,所以,做连续点击没有意义,因为已经存在于网页上了,不用 ...

需要做层级吗?第N站要做样例复制吗
举报 使用道具
10#
Fuller 管理员 发表于 2016-9-7 09:58:28 | 只看该作者
jungle 发表于 2016-9-7 09:36
恩,谢谢,意思是不是就是  给第四天做规则,然后将抓取内容都做上定位标识映射,再给容器节点也做上定位 ...

是的,也不用做层级,也不用做样例复制,因为容器节点的定位标志映射相当于样例复制
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 05:23