举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-4-2 14:38

沙发
scraper 论坛元老 发表于 2018-4-2 10:28:40 | 只看该作者
本帖最后由 scraper 于 2018-4-2 10:32 编辑

1,先用连续动作点击各个分类,采集iframe中的@src

2,手工修改生成网址,然后用生成的网址制作采集规则,并且其他的修改的网址添加到制作的采集规则中。

手工生成后的页面(在这个页面做采集和翻页)


举报 使用道具
板凳
wangbing111 初级会员 发表于 2018-4-2 11:39:14 | 只看该作者
我这样试了一下,施工企业那一类,只能提取到第16页,就又一直在循环
举报 使用道具
地板
wangbing111 初级会员 发表于 2018-4-2 11:50:57 | 只看该作者
我把爬虫路线设置成相对线索就好啦
举报 使用道具
5#
umsung 高级会员 发表于 2018-4-2 11:55:33 | 只看该作者
wangbing111 发表于 2018-4-2 11:39
我这样试了一下,施工企业那一类,只能提取到第16页,就又一直在循环

从iframe中提取出来的链接,网页结构一般都是相同的,加载你的规则后爬虫路线报错,重新做一下线索映射
举报 使用道具
6#
wangbing111 初级会员 发表于 2018-4-2 12:24:19 | 只看该作者
umsung 发表于 2018-4-2 11:55
从iframe中提取出来的链接,网页结构一般都是相同的,加载你的规则后爬虫路线报错,重新做一下线索映射
...

之前的网页有7类数据信息,我发现从iframe中提取的链接是一样的,iframe中的@src是一样的,手工修复后的网址打开之后也不对,请问这是为什么?

1.png (221.87 KB, 下载次数: 426)

1.png

2.jpg (180.88 KB, 下载次数: 409)

2.jpg
举报 使用道具
7#
wangbing111 初级会员 发表于 2018-4-2 12:25:30 | 只看该作者
scraper 发表于 2018-4-2 10:28
1,先用连续动作点击各个分类,采集iframe中的@src

2,手工修改生成网址,然后用生成的网址制作采集规则,并 ...

之前的网页有7类数据信息,我发现从iframe中提取的链接是一样的,iframe中的@src是一样的,手工修复后的网址打开之后也不对,请问这是为什么?

1.png (221.87 KB, 下载次数: 421)

1.png

2.jpg (180.88 KB, 下载次数: 409)

2.jpg
举报 使用道具
8#
umsung 高级会员 发表于 2018-4-2 14:38:11 | 只看该作者
本帖最后由 umsung 于 2018-4-2 14:51 编辑

1,在爬虫中切换分类后要刷新网页结构,dom窗口的网页节点才会对应刷新
     
2,修复的网址打开后不对,肯定是没拼接对

3,网页一共才7类数据信息,完全可以手动把这7类信息的网址复制下来,加入到规则中采集
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=16  设计
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=15 勘察
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=14 监理
http://sxszbb.com/EpointFront/Cu ... .aspx?DanWeiType=13 施工
http://sxszbb.com/EpointFront/CustomQyInfo/zbdl.aspx   招标代理
http://sxszbb.com/EpointFront/CustomQyInfo/gys.aspx    供应商
http://sxszbb.com/EpointFront/CustomQyInfo/pm.aspx    项目负责人

1.png (11.69 KB, 下载次数: 407)

1.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:49