设置的爬虫路线一直在第1页和第2页之间循环，怎么办？

scraper · 发表于 2018-4-2 10:28:40

本帖最后由 scraper 于 2018-4-2 10:32 编辑

1,先用连续动作点击各个分类，采集iframe中的@src

2,手工修改生成网址，然后用生成的网址制作采集规则，并且其他的修改的网址添加到制作的采集规则中。

手工生成后的页面（在这个页面做采集和翻页）

wangbing111 · 发表于 2018-4-2 11:39:14

我这样试了一下，施工企业那一类，只能提取到第16页，就又一直在循环

wangbing111 · 发表于 2018-4-2 11:50:57

我把爬虫路线设置成相对线索就好啦

umsung · 发表于 2018-4-2 11:55:33

wangbing111 发表于 2018-4-2 11:39
我这样试了一下，施工企业那一类，只能提取到第16页，就又一直在循环

从iframe中提取出来的链接，网页结构一般都是相同的，加载你的规则后爬虫路线报错，重新做一下线索映射

wangbing111 · 发表于 2018-4-2 12:24:19

umsung 发表于 2018-4-2 11:55
从iframe中提取出来的链接，网页结构一般都是相同的，加载你的规则后爬虫路线报错，重新做一下线索映射
...

之前的网页有7类数据信息，我发现从iframe中提取的链接是一样的，iframe中的@src是一样的，手工修复后的网址打开之后也不对，请问这是为什么？

wangbing111 · 发表于 2018-4-2 12:25:30

scraper 发表于 2018-4-2 10:28
1,先用连续动作点击各个分类，采集iframe中的@src

2,手工修改生成网址，然后用生成的网址制作采集规则，并 ...

之前的网页有7类数据信息，我发现从iframe中提取的链接是一样的，iframe中的@src是一样的，手工修复后的网址打开之后也不对，请问这是为什么？

umsung · 发表于 2018-4-2 14:38:11

本帖最后由 umsung 于 2018-4-2 14:51 编辑

1，在爬虫中切换分类后要刷新网页结构，dom窗口的网页节点才会对应刷新

2，修复的网址打开后不对，肯定是没拼接对

3，网页一共才7类数据信息，完全可以手动把这7类信息的网址复制下来，加入到规则中采集
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=16 设计
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=15 勘察
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=14 监理
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=13 施工
http://sxszbb.com/EpointFront/CustomQyInfo/zbdl.aspx 招标代理
http://sxszbb.com/EpointFront/CustomQyInfo/gys.aspx 供应商
http://sxszbb.com/EpointFront/CustomQyInfo/pm.aspx 项目负责人

共 7 个关于本帖的回复最后回复于 2018-4-2 14:38

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页