［抓取］关于非独立页面的翻页抓取问题

closeyoo

主题名：a腾讯新闻列表-gy
样本页面：http://ent.qq.com/star/
目标：抓取该网页中所有新闻标题及其链接

在这个抓取主题中，样本网页比较特殊，有4大块的结构，前3块结构翻页内容不变，只有最后一个结构翻页内容变化。
所以对应建立了4个整理箱，对应抓取focus轮播新闻、置顶4条新闻、tab滚图新闻、1-10页的一般列表新闻。
谋数台测试结果ok，如何翻页依次采集网页最下部分的1-10页一般列表新闻称为难题 0.0

一开始采用［记号线索］按<下一页>按钮翻页，试抓取可以正常翻页，但等待时间很长，生成的所有xml内容一致。

后发现1-10页都没有独立网址，改为了重复10次的单击动作，但翻到3页就会停止，而且3个xml的内容都是第一页的内容。

这个问题应该怎么解决呢？～ 0.0
谢谢大神朋友！！

xandy · 发表于 2017-3-31 14:11:54

采集网页最下部分的1-10页的列表新闻新建一个规则去做采集

closeyoo · 发表于 2017-3-31 14:52:08

xandy 发表于 2017-3-31 14:11
采集网页最下部分的1-10页的列表新闻新建一个规则去做采集

收到～～我去试试！！

closeyoo · 发表于 2017-3-31 15:09:45

xandy 发表于 2017-3-31 14:11
采集网页最下部分的1-10页的列表新闻新建一个规则去做采集

谢谢xandy

现在我改了一下，规则一抓取前三个整理箱，规则二抓取最后1-10页的列表新闻一个整理箱，线索一条即样本页面：http://ent.qq.com/star/。

但两个规则的页面结构相同，是不是就只会匹配规则一呢？
试抓取只执行了规则一，没有执行规则二，不翻页，只抓取了规则一三个整理箱的数据。

是不是我哪里设置的不对呢？～

xandy · 发表于 2017-3-31 15:33:38

closeyoo 发表于 2017-3-31 15:09
谢谢xandy

现在我改了一下，规则一抓取前三个整理箱，规则二抓取最后1-10页的列表新闻一个整理箱，线索 ...

不是说在一个主题名下建立两个规则，而是就建立两个主题名下的两个规则，各自去运行，互不干扰~

closeyoo · 发表于 2017-3-31 15:43:20

xandy 发表于 2017-3-31 15:33
不是说在一个主题名下建立两个规则，而是就建立两个主题名下的两个规则，各自去运行，互不干扰~
...

嗷嗷明白了～理解错了哈！

谢谢xandy～～！

［抓取］关于非独立页面的翻页抓取问题

共 5 个关于本帖的回复最后回复于 2017-3-31 15:43

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

［抓取］关于非独立页面的翻页抓取问题

共 5 个关于本帖的回复 最后回复于 2017-3-31 15:43

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2017-3-31 15:43