主题名:a腾讯新闻列表-gy
样本页面:http://ent.qq.com/star/
目标:抓取该网页中所有新闻标题及其链接
在这个抓取主题中,样本网页比较特殊,有4大块的结构,前3块结构翻页内容不变,只有最后一个结构翻页内容变化。
所以对应建立了4个整理箱,对应抓取focus轮播新闻、置顶4条新闻、tab滚图新闻、1-10页的一般列表新闻。
谋数台测试结果ok,如何翻页依次采集网页最下部分的1-10页一般列表新闻称为难题 0.0
一开始采用[记号线索]按<下一页>按钮翻页,试抓取可以正常翻页,但等待时间很长,生成的所有xml内容一致。
后发现1-10页都没有独立网址,改为了重复10次的单击动作,但翻到3页就会停止,而且3个xml的内容都是第一页的内容。
这个问题应该怎么解决呢?~ 0.0
谢谢大神朋友!!
|
|
|
|
|
共 5 个关于本帖的回复 最后回复于 2017-3-31 15:43