本帖最后由 ym 于 2017-2-13 16:19 编辑

一、什么是相同网页结构
相同的网页结构是指网页布局、组成、显示样式都一样,只有信息是不同的网页页面,这里的比较是针对同一个网站上的网页,不同网站的网页结构都是不同的。

例如:
下面两部电影的豆瓣影评页面就是相同的网页结构,分别打开两个网址,可以看到上下左右的布局、组成、显示样式都一模一样,不同的只是一个是泰坦尼克的影评,另一个是这个杀手不太冷的影评,它们都是豆瓣影评的网页,网页结构也是相同的,所以可以用一个爬虫程序(采集规则)来批量采集。
泰坦尼克号的影评 https://movie.douban.com/subject/1292722/reviews

这个杀手不太冷的影评 https://movie.douban.com/subject/1295644/reviews


二、如何批量采集
2.1,使用数据DIY上面现成的爬虫程序(选择目录:类别->网站->页面),查看样本网址就可以知道网页结构,把相同网页结构的其他网址点击“输入多条网址”就可以批量采集。

2.2,下载集搜客爬虫,通过学习《从入门到精通》章节的教程,掌握制作采集规则的技能,就可以对想要采集的网页做采集规则,再把相同结构的网址添加到规则里,实现批量采集。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2024-11-19 16:17

沙发
mycar001 初级会员 发表于 2017-7-24 17:41:40 | 只看该作者
详情页是相同网页结构的网页,有n个,难道要放n个网址吗?
举报 使用道具
板凳
shengchengx 金牌会员 发表于 2017-7-24 17:53:59 | 只看该作者
mycar001 发表于 2017-7-24 17:41
详情页是相同网页结构的网页,有n个,难道要放n个网址吗?

通过采集列表页的链接,上下级会自动添加线索采集详细页
举报 使用道具
地板
winderflier 初级会员 发表于 2018-7-26 23:38:04 | 只看该作者
请问如何利用自己的规则来批量采相同网页信息
举报 使用道具
5#
Arie-X 中级会员 发表于 2018-7-27 07:07:04 | 只看该作者
在打数机,右击主题名,选择 管理线索-添加,然后把待采集网页的网址添加进去,可批量添加
举报 使用道具
6#
CMFRZZ 新手上路 发表于 2020-1-3 15:21:15 | 只看该作者
如何采集评论数量
举报 使用道具
7#
CMFRZZ 新手上路 发表于 2020-1-3 15:21:33 | 只看该作者
只需要显示评论数量 而不是评论内容 如何采集

举报 使用道具
8#
wangyong 版主 发表于 2020-1-3 16:06:52 | 只看该作者
是什么网站的评论数,页面上有显示评论数的话直接做采集规则采集评论数就可以了,参考教程:https://www.gooseeker.com/doc/article-340-1.html
举报 使用道具
9#
13728382171 新手上路 发表于 2024-11-7 15:50:33 | 只看该作者
怎么打开爬抖音评论的那个页面
往下滑是评论,但是我点开视频后往下滑是下一个视频
举报 使用道具
10#
Fuller 管理员 发表于 2024-11-7 21:27:50 | 只看该作者
13728382171 发表于 2024-11-7 15:50
怎么打开爬抖音评论的那个页面
往下滑是评论,但是我点开视频后往下滑是下一个视频 ...

参考这个帖子
https://www.gooseeker.com/doc/thread-19642-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 03:44