快捷导航
本帖最后由 ym 于 2016-5-24 16:03 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集  > 加载更多、查看更多的网页怎样做翻页

加载更多、查看更多的网页怎样做翻页
QQ截图20160524155245.png

举报 使用道具
| 回复

共 46 个关于本帖的回复 最后回复于 2020-11-4 19:08

ym 版主 发表于 2016-5-24 15:59:48 | 显示全部楼层
加载更多的原理跟翻页一样,都是要点击一下,操作跟普通翻页是一样的,做翻页区映射和翻页记号映射,参看翻页教程
注意:这种就是瀑布流网页,每点击一次加载更多,就会从头到尾采集一遍,生成一个新的xml文件,并且数据量是累积的,最后抓到的那个xml就是数据量最大的文件,所以只要最大的xml文件就可以了
举报 使用道具
liuhu521 初级会员 发表于 2017-2-16 09:16:16 | 显示全部楼层
你好,我这网页有加载更多,点击后,后面又跳出加载剩余90条,这个翻页怎么设置??求助啊
举报 使用道具
ym 版主 发表于 2017-2-16 09:38:08 | 显示全部楼层
liuhu521 发表于 2017-2-16 09:16
你好,我这网页有加载更多,点击后,后面又跳出加载剩余90条,这个翻页怎么设置??求助啊 ...

把主题名贴出来看看

举报 使用道具
liuhu521 初级会员 发表于 2017-2-16 10:04:13 | 显示全部楼层
http://intl.target.com/p/shabby-chic-blanket/-/A-50230205   这个网页想要采集它的评价,存在几个问题,每一个评价后有see more 不知道怎么采集到里面内容。还有翻页问题了。 主题名:Target-Shabby-Chic-Blanket
举报 使用道具
ym 版主 发表于 2017-2-16 10:40:16 | 显示全部楼层
本帖最后由 ym 于 2017-2-16 10:41 编辑
liuhu521 发表于 2017-2-16 10:04
http://intl.target.com/p/shabby-chic-blanket/-/A-50230205   这个网页想要采集它的评价,存在几个问题, ...

这个网页可以点击总评论数“90”所在的网页节点,就能看到全部评论(这个页面无独立网址),所以第一级规则要用连续动作设置点击;
QQ截图20170216103428.png

再对全部评论的页面做第二级规则,并且设置翻页线索点击“show more”,爬虫就会加载更多评论信息进行采集。
QQ截图20170216104133.png
QQ截图20170216103646.png

举报 使用道具
liuhu521 初级会员 发表于 2017-2-16 14:17:36 | 显示全部楼层
求助怎么设置第一二级规则,两者之间用什么相连,还有连续动作怎么用?我现在只会单网页的简单的翻页抓取
举报 使用道具
ym 版主 发表于 2017-2-16 15:20:55 | 显示全部楼层
liuhu521 发表于 2017-2-16 14:17
求助怎么设置第一二级规则,两者之间用什么相连,还有连续动作怎么用?我现在只会单网页的简单的翻页抓取 ...

两级之间通过目标主题名关联,你先看完教程目录左侧的《从入门到精通教程》,再看高级-连续动作设置的教程吧http://www.gooseeker.com/tuto/tutorial.html
QQ截图20170216152033.png

举报 使用道具
liuhu521 初级会员 发表于 2017-2-16 15:56:43 | 显示全部楼层
我设置的主题名:QVC-1和QVC-2 两个层级规则,运行报错,Not Found

The requested URL /content/qvc-commerce-us/berkshire-blanket/_/N-1z13imd/3.0 of 5 Stars was not found on this server.

Additionally, a 404 Not Found error was encountered while trying to use an ErrorDocument to handle the request. 这是什么意思?求解答,感觉和视频步骤一样啊
举报 使用道具
ym 版主 发表于 2017-2-16 16:37:00 | 显示全部楼层
liuhu521 发表于 2017-2-16 15:56
我设置的主题名:QVC-1和QVC-2 两个层级规则,运行报错,Not Found

The requested URL /content/qvc-comme ...

QVC-1你把星级的下级线索勾上了,造成QVC-2的网址线索都是错误的,你去会员中心-规则管理中删掉QVC-2的所有线索,再把QVC-1的链接设置为下级线索吧
QQ截图20170216163457.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 11:53