本帖最后由 马涌河畔 于 2021-3-23 16:57 编辑

我想采集美国国际贸易委员会网站(https://pubapps2.usitc.gov/337external/)详情页的信息,比如这2个网址:
https://pubapps2.usitc.gov/337external/3763
https://pubapps2.usitc.gov/337external/3700
右侧的那些点开后,会有多个表格,我想把表格里第一列Number采集下来, 同时保留number和category的对应关系:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-3-24 11:54

沙发
马涌河畔 金牌会员 发表于 2021-3-23 16:56:18 | 只看该作者
我试了一下嵌套的样例复制, 会采集到数据, 但是每个cagegory下面, 会把其它类下面的number都采集到当前类下。
我做了2个测试规则:
usitc_gov_numbers_2
usitc_gov_numbers
举报 使用道具
板凳
Fuller 管理员 发表于 2021-3-23 17:32:06 | 只看该作者
我创建了这样的整理箱结构,类别 放在 列表2 内,这样就能采集了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
马涌河畔 金牌会员 发表于 2021-3-24 10:14:08 | 只看该作者
Fuller 发表于 2021-3-23 17:32
我创建了这样的整理箱结构,类别 放在 列表2 内,这样就能采集了

我试了一下, 这样的结构确实可以抓, 不过有多抓了不相关的内容。
我再测试下怎样更准确的抓取下来
举报 使用道具
5#
Fuller 管理员 发表于 2021-3-24 10:35:43 | 只看该作者
马涌河畔 发表于 2021-3-24 10:14
我试了一下, 这样的结构确实可以抓, 不过有多抓了不相关的内容。
我再测试下怎样更准确的抓取下来
...

多抓到的内容应该是网页上其他部分,结构上也符合抓取规则,但是内容并不是想要的。

这个网页我测试了,发现如果整理箱结构做调整,就会抓取失败,这个问题还在检查中
举报 使用道具
6#
Fuller 管理员 发表于 2021-3-24 10:53:22 | 只看该作者
这个网页上下面截图两个红框里面的内容实际上是分属两个不同的网页块,看网页上的细线框就能看到界限。

如果用第一个红框里面的内容作为第一个样例,第二个红框里面的第一个内容作为第二个样例,这样做样例复制以后,循环的规则有问题。应该第一个红框里面的内容单独采集,第二个红框里面的内容单独做样例复制


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
马涌河畔 金牌会员 发表于 2021-3-24 11:43:27 | 只看该作者
新做了一个规则:usitc_gov_numbers_3
在旧版爬虫里手工修改了数据规则, 可以抓到正确的结果
这是手工修改的数据规则和测试抓到的xml文件:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
马涌河畔 金牌会员 发表于 2021-3-24 11:54:04 | 只看该作者
列表那里, 可以不用绝对定位, 用这个://*[@id='right-filter']/*[@id='returned-detail-content2'][2]/div[count(./h3/text())>0]
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 21:56