采集美国国际贸易委员会网站碰到问题，求帮助

马涌河畔

本帖最后由马涌河畔于 2021-3-23 16:57 编辑

我想采集美国国际贸易委员会网站(https://pubapps2.usitc.gov/337external/)详情页的信息，比如这2个网址：
https://pubapps2.usitc.gov/337external/3763
https://pubapps2.usitc.gov/337external/3700
右侧的那些点开后，会有多个表格，我想把表格里第一列Number采集下来，同时保留number和category的对应关系：

马涌河畔 · 发表于 2021-3-23 16:56:18

我试了一下嵌套的样例复制，会采集到数据，但是每个cagegory下面，会把其它类下面的number都采集到当前类下。
我做了2个测试规则：
usitc_gov_numbers_2
usitc_gov_numbers

Fuller · 发表于 2021-3-23 17:32:06

我创建了这样的整理箱结构，类别放在列表2 内，这样就能采集了

马涌河畔 · 发表于 2021-3-24 10:14:08

Fuller 发表于 2021-3-23 17:32
我创建了这样的整理箱结构，类别放在列表2 内，这样就能采集了

我试了一下，这样的结构确实可以抓，不过有多抓了不相关的内容。
我再测试下怎样更准确的抓取下来

Fuller · 发表于 2021-3-24 10:35:43

马涌河畔发表于 2021-3-24 10:14
我试了一下，这样的结构确实可以抓，不过有多抓了不相关的内容。
我再测试下怎样更准确的抓取下来
...

多抓到的内容应该是网页上其他部分，结构上也符合抓取规则，但是内容并不是想要的。

这个网页我测试了，发现如果整理箱结构做调整，就会抓取失败，这个问题还在检查中

Fuller · 发表于 2021-3-24 10:53:22

这个网页上下面截图两个红框里面的内容实际上是分属两个不同的网页块，看网页上的细线框就能看到界限。

如果用第一个红框里面的内容作为第一个样例，第二个红框里面的第一个内容作为第二个样例，这样做样例复制以后，循环的规则有问题。应该第一个红框里面的内容单独采集，第二个红框里面的内容单独做样例复制

马涌河畔 · 发表于 2021-3-24 11:43:27

新做了一个规则：usitc_gov_numbers_3
在旧版爬虫里手工修改了数据规则，可以抓到正确的结果
这是手工修改的数据规则和测试抓到的xml文件：

马涌河畔 · 发表于 2021-3-24 11:54:04

列表那里，可以不用绝对定位，用这个：//*[@id='right-filter']/*[@id='returned-detail-content2'][2]/div[count(./h3/text())>0]

共 7 个关于本帖的回复最后回复于 2021-3-24 11:54

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页