主题名:a腾讯新闻列表-gy
样本页面:http://ent.qq.com/star/
目标:抓取该网页中所有新闻标题及其链接

在这个抓取主题中,样本网页比较特殊,有4大块的结构,前3块结构翻页内容不变,只有最后一个结构翻页内容变化。
所以对应建立了4个整理箱,对应抓取focus轮播新闻、置顶4条新闻、tab滚图新闻、1-10页的一般列表新闻。
谋数台测试结果ok,如何翻页依次采集网页最下部分的1-10页一般列表新闻称为难题 0.0

一开始采用[记号线索]按<下一页>按钮翻页,试抓取可以正常翻页,但等待时间很长,生成的所有xml内容一致。

后发现1-10页都没有独立网址,改为了重复10次的单击动作,但翻到3页就会停止,而且3个xml的内容都是第一页的内容。

这个问题应该怎么解决呢?~ 0.0
谢谢大神朋友!!

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-3-31 15:43

沙发
xandy 论坛元老 发表于 2017-3-31 14:11:54 | 只看该作者
采集网页最下部分的1-10页的列表新闻新建一个规则去做采集
举报 使用道具
板凳
closeyoo 中级会员 发表于 2017-3-31 14:52:08 | 只看该作者
xandy 发表于 2017-3-31 14:11
采集网页最下部分的1-10页的列表新闻新建一个规则去做采集

收到~~ 我去试试!!
举报 使用道具
地板
closeyoo 中级会员 发表于 2017-3-31 15:09:45 | 只看该作者
xandy 发表于 2017-3-31 14:11
采集网页最下部分的1-10页的列表新闻新建一个规则去做采集

谢谢xandy

现在我改了一下,规则一抓取前三个整理箱,规则二抓取最后1-10页的列表新闻一个整理箱,线索一条即样本页面:http://ent.qq.com/star/

但两个规则的页面结构相同,是不是就只会匹配规则一呢?
试抓取只执行了规则一,没有执行规则二,不翻页,只抓取了规则一三个整理箱的数据。

是不是我哪里设置的不对呢?~
举报 使用道具
5#
xandy 论坛元老 发表于 2017-3-31 15:33:38 | 只看该作者
closeyoo 发表于 2017-3-31 15:09
谢谢xandy

现在我改了一下,规则一抓取前三个整理箱,规则二抓取最后1-10页的列表新闻一个整理箱,线索 ...

不是说在一个主题名下建立两个规则,而是就建立两个主题名下的两个规则,各自去运行,互不干扰~
举报 使用道具
6#
closeyoo 中级会员 发表于 2017-3-31 15:43:20 | 只看该作者
xandy 发表于 2017-3-31 15:33
不是说在一个主题名下建立两个规则,而是就建立两个主题名下的两个规则,各自去运行,互不干扰~
...

嗷嗷明白了~ 理解错了哈!

谢谢xandy~~!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 01:22