今天跟着教程,做了个任务,出现了几个问题求助下: 这是这两层的任务名

一、页面链接采集错误
正常的链接应该是这样的:http://www.ccgp-liaoning.gov.cn/portalindex.do?method=getPubInfoViewOpenNew&infoId=-27f8083d1775c7bd096-7339

但我导出的都是这个,且显示错误打不开

二、生成任务后,无法重新进入任务修改,显示失败无法读取,要不就是分析成功后,还不停显示加载自动刷新,无法读取原任务,也不能一遍遍重做啊



三,采集的网址筛选前后是一样的,如果不筛选采集的数据量太大,怎么操作可以先筛选再采集

以上求解决,今天刚学,请用直白的语言告诉我,哎


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-2-4 09:54

沙发
Fuller 管理员 发表于 2021-2-3 17:18:53 | 只看该作者
第一步:抓取内容“公告链接”不要用href做映射,因为那个不是网址,而是用onclick做映射,而且不要勾“下级网址”




举报 使用道具
板凳
Fuller 管理员 发表于 2021-2-3 17:31:58 | 只看该作者
第二步:运行这个任务,并且导出数据,结果如下:



接着,可以利用Excel的分列功能,具体参看百度经验Excel分列怎么用,因为需要的那串数字前后都有 ' 符号,就用这个符号作为分隔符。



输入分隔符后,就能看到分列效果。另外,应该在excel中在公告链接那一列后面预先创建好两列,好存储分列出来的数据


举报 使用道具
地板
Fuller 管理员 发表于 2021-2-3 17:35:07 | 只看该作者
第三步:串接网址。使用excel的concat公式。在excel中可以预先创建一列,存储网址的前半部分,就是所有网址的公共部分,就是 http://www.ccgp-liaoning.gov.cn/ ... OpenNew&infoId= ,然后在另一列中输入公式。拖动这个单元格把这个公式套用到所有行。网址就构造好了



具体可以参看百度经验 Excel字符串连接的5种方式
举报 使用道具
5#
yumhbubu 新手上路 发表于 2021-2-3 18:12:37 | 只看该作者
Fuller 发表于 2021-2-3 17:35
第三步:串接网址。使用excel的concat公式。在excel中可以预先创建一列,存储网址的前半部分,就是所有网址 ...

好的,我试下,那筛选的问题要怎么办啊
举报 使用道具
6#
Fuller 管理员 发表于 2021-2-3 18:17:49 | 只看该作者
yumhbubu 发表于 2021-2-3 18:12
好的,我试下,那筛选的问题要怎么办啊

你说的筛选是要过滤掉重复网址吗?如果作为下级网址,会自动过滤掉的
举报 使用道具
7#
yumhbubu 新手上路 发表于 2021-2-4 09:50:29 | 只看该作者
Fuller 发表于 2021-2-3 18:17
你说的筛选是要过滤掉重复网址吗?如果作为下级网址,会自动过滤掉的

是这个抓取前的筛选,采集数据之后再筛数据量太大了
举报 使用道具
8#
Fuller 管理员 发表于 2021-2-4 09:54:26 | 只看该作者
yumhbubu 发表于 2021-2-4 09:50
是这个抓取前的筛选,采集数据之后再筛数据量太大了

要做这个筛选,就要定义连续动作,让爬虫自动输入筛选条件。具体看高级教程
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 16:37