11#
wangyong 版主 发表于 2021-10-27 14:51:18 | 只看该作者
tangtang1234 发表于 2021-10-27 13:06
取消样例映射了,现在二级任务里边成300了,一级采完也是300

这个网页一加载会加载出300条数据,所以采集就会把300条都采集下来
举报 使用道具
12#
tangtang1234 高级会员 发表于 2021-10-27 16:23:48 | 只看该作者
wangyong 发表于 2021-10-27 14:51
这个网页一加载会加载出300条数据,所以采集就会把300条都采集下来

很多条的,一页十条,加载完怎么也得4550页,怎么弄啊

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
13#
gz51837844 管理员 发表于 2021-10-27 16:48:30 | 只看该作者
tangtang1234 发表于 2021-10-27 16:23
很多条的,一页十条,加载完怎么也得4550页,怎么弄啊

就按翻页来做, 把”加载更多”当成翻页记号
举报 使用道具
14#
tangtang1234 高级会员 发表于 2021-10-28 12:43:42 | 只看该作者
gz51837844 发表于 2021-10-27 16:48
就按翻页来做, 把”加载更多”当成翻页记号

就是这样弄得,可是不行啊,麻烦技术人员给细看一下
举报 使用道具
15#
gz51837844 管理员 发表于 2021-10-28 15:44:16 | 只看该作者
tangtang1234 发表于 2021-10-28 12:43
就是这样弄得,可是不行啊,麻烦技术人员给细看一下

“不行”是指什么, 具体问题是什么?
举报 使用道具
16#
Fuller 管理员 发表于 2021-10-28 16:09:18 | 只看该作者
tangtang1234 发表于 2021-10-28 12:43
就是这样弄得,可是不行啊,麻烦技术人员给细看一下



31页以后,网页结构发生了很大变化,所以,后面的数据采集不到了。我测试一下怎样解决这个问题

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
17#
Fuller 管理员 发表于 2021-10-28 16:13:41 | 只看该作者
第一步:给容器节点做定位映射,不要用样例映射。每一条内容都在一个div块下面,这个div具有相同的class值,所以,用定位映射比较好。不管网页结构怎么变化,只要能定位到就行


第二步:给两个抓取内容设置自定义xpath,手工写xpath可以适用网页结构的变化。
标题的xpath是:.//h2/a
绿化求购的xpath是:.//h2/a/@href
前面都有一个点,不要漏了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
18#
tangtang1234 高级会员 发表于 2021-11-19 10:10:17 | 只看该作者
Fuller 发表于 2021-10-28 16:13
第一步:给容器节点做定位映射,不要用样例映射。每一条内容都在一个div块下面,这个div具有相同的class值 ...

麻烦再给看一下这个,我重新弄了一遍,二级只采到10条
举报 使用道具
19#
Fuller 管理员 发表于 2021-11-19 12:01:06 | 只看该作者


这个网页似乎改版了,第一次打开网页的时候,会预先加载300条数据,我记得以前都放在同一个个div中,现在每页分开了。那么,为了采集列表的时候能够跨越分页的div,就要用红框里面的class作为定位标志,映射给顶层整理箱节点,也就是利用定位标志采集列表,而不利用样例映射。参看教程:https://www.gooseeker.com/doc/article-533-1.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
20#
tangtang1234 高级会员 发表于 2021-11-19 12:58:48 | 只看该作者
Fuller 发表于 2021-11-19 12:01
这个网页似乎改版了,第一次打开网页的时候,会预先加载300条数据,我记得以前都放在同一个个div中,现在 ...

现在可以采集300条,可是一页五条,我输五页应该是50条,到底咋办
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 07:05