我在爬一个数据量特别大的网站,大约有6w条数据

我现在突然想到可以把采集的网址分出来,这样可以多线程采集,提高效率

请问,有办法能把采集的网址提取出来吗

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2019-8-14 11:49

Fuller 管理员 发表于 2019-8-14 10:04:22 | 显示全部楼层
网址现在是在哪里?是在网页上?还是存在某个文件里面?

如果是网页上,那么做一个层级采集,第一级采集网址,生成下级线索,第二级就可以用爬虫群并行采集,参看层级采集的教程:https://www.gooseeker.com/doc/article-343-1.html

如果网址是存在文件中的,把他们存入excel,导入给爬虫任务就行。具体参看添加线索的教程:https://www.gooseeker.com/doc/thread-667-1-1.html
举报 使用道具
657344626 初级会员 发表于 2019-8-14 10:24:16 | 显示全部楼层
Fuller 发表于 2019-8-14 10:04
网址现在是在哪里?是在网页上?还是存在某个文件里面?

如果是网页上,那么做一个层级采集,第一级采集网 ...

我先用第一级任务采集的网址。
现在所有网址全都在第二级任务里。

因为有6万多条,我没打算用爬虫群,我需要xml文件,最后手动再把它转成excel文件

现在的问题是,单线程跑这6万多条数据太耗费时间了
我的想法是能不能把第二级任务里采集的这六万多条数据分批次导出来,然后我再另外建立几个任务,分批次多线程爬取

举报 使用道具
wangyong 版主 发表于 2019-8-14 10:30:48 | 显示全部楼层
657344626 发表于 2019-8-14 10:24
我先用第一级任务采集的网址。
现在所有网址全都在第二级任务里。

这种情况可以用爬虫群模式进行多线程爬取
教程:https://www.gooseeker.com/doc/article-474-1.html
举报 使用道具
657344626 初级会员 发表于 2019-8-14 10:51:29 | 显示全部楼层
wangyong 发表于 2019-8-14 10:30
这种情况可以用爬虫群模式进行多线程爬取
教程:https://www.gooseeker.com/doc/article-474-1.html
...

可我以前用爬虫群,下载下来的xml文件会变得乱七八糟(因为我还有需要下载的附件文件,它俩名字必须对应上)所以我现在在担心这个方法是不是不能用

举报 使用道具
Fuller 管理员 发表于 2019-8-14 10:52:09 | 显示全部楼层
657344626 发表于 2019-8-14 10:24
我先用第一级任务采集的网址。
现在所有网址全都在第二级任务里。

设置爬虫群调度参数,自动打包上传:https://www.gooseeker.com/doc/article-474-1.html
举报 使用道具
657344626 初级会员 发表于 2019-8-14 11:00:23 | 显示全部楼层
Fuller 发表于 2019-8-14 10:52
设置爬虫群调度参数,自动打包上传:https://www.gooseeker.com/doc/article-474-1.html
...

可我以前用爬虫群,下载下来的xml文件会变得乱七八糟(因为我还有需要下载的附件文件,它俩名字必须对应上)所以我现在在担心这个方法是不是不能用
举报 使用道具
wangyong 版主 发表于 2019-8-14 11:49:36 | 显示全部楼层
657344626 发表于 2019-8-14 11:00
可我以前用爬虫群,下载下来的xml文件会变得乱七八糟(因为我还有需要下载的附件文件,它俩名字必须对应 ...

xml文件名命名和附件命名没有直接关系,在xml内部会存储和附件名称的对应关系,另外如果在一台电脑上同时下载附件也不会因为多线程有什么混乱
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 14:39