抓不到链接啊！！！在采集页面数据、下层链接及内容的过程中出现的各种问题

yumhbubu

今天跟着教程，做了个任务，出现了几个问题求助下：

这是这两层的任务名

一、页面链接采集错误
正常的链接应该是这样的：http://www.ccgp-liaoning.gov.cn/portalindex.do?method=getPubInfoViewOpenNew&infoId=-27f8083d1775c7bd096-7339

但我导出的都是这个，且显示错误打不开

二、生成任务后，无法重新进入任务修改，显示失败无法读取，要不就是分析成功后，还不停显示加载自动刷新，无法读取原任务，也不能一遍遍重做啊

三，采集的网址筛选前后是一样的，如果不筛选采集的数据量太大，怎么操作可以先筛选再采集

以上求解决，今天刚学，请用直白的语言告诉我，哎

Fuller · 发表于 2021-2-3 17:18:53

第一步：抓取内容“公告链接”不要用href做映射，因为那个不是网址，而是用onclick做映射，而且不要勾“下级网址”

Fuller · 发表于 2021-2-3 17:31:58

第二步：运行这个任务，并且导出数据，结果如下：

接着，可以利用Excel的分列功能，具体参看百度经验Excel分列怎么用，因为需要的那串数字前后都有 ' 符号，就用这个符号作为分隔符。

输入分隔符后，就能看到分列效果。另外，应该在excel中在公告链接那一列后面预先创建好两列，好存储分列出来的数据

Fuller · 发表于 2021-2-3 17:35:07

第三步：串接网址。使用excel的concat公式。在excel中可以预先创建一列，存储网址的前半部分，就是所有网址的公共部分，就是 http://www.ccgp-liaoning.gov.cn/ ... OpenNew&infoId= ，然后在另一列中输入公式。拖动这个单元格把这个公式套用到所有行。网址就构造好了

具体可以参看百度经验 Excel字符串连接的5种方式

yumhbubu · 发表于 2021-2-3 18:12:37

Fuller 发表于 2021-2-3 17:35
第三步：串接网址。使用excel的concat公式。在excel中可以预先创建一列，存储网址的前半部分，就是所有网址 ...

好的，我试下，那筛选的问题要怎么办啊

Fuller · 发表于 2021-2-3 18:17:49

yumhbubu 发表于 2021-2-3 18:12
好的，我试下，那筛选的问题要怎么办啊

你说的筛选是要过滤掉重复网址吗？如果作为下级网址，会自动过滤掉的

yumhbubu · 发表于 2021-2-4 09:50:29

Fuller 发表于 2021-2-3 18:17
你说的筛选是要过滤掉重复网址吗？如果作为下级网址，会自动过滤掉的

是这个抓取前的筛选，采集数据之后再筛数据量太大了

Fuller · 发表于 2021-2-4 09:54:26

yumhbubu 发表于 2021-2-4 09:50
是这个抓取前的筛选，采集数据之后再筛数据量太大了

要做这个筛选，就要定义连续动作，让爬虫自动输入筛选条件。具体看高级教程

抓不到链接啊！！！在采集页面数据、下层链接及内容的过程中出现的各种问题

共 7 个关于本帖的回复最后回复于 2021-2-4 09:54

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

抓不到链接啊！！！在采集页面数据、下层链接及内容的过程中出现的各种问题

共 7 个关于本帖的回复 最后回复于 2021-2-4 09:54

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2021-2-4 09:54