网络爬虫占满了c盘怎么清理

2019-11-14 09:22| 发布者: Fuller| 查看: 9037| 评论: 0

摘要: 用gooseeker网络爬虫软件采集数据,运行时间长了,硬盘会占用很多,数据量最大的主要是两类数据:下载到缓存区中的网页;将网页内容提取出来的XML结果文件。如果占用的空间是在c盘上,就对操作系统影响很大,所以, ...

用gooseeker网络爬虫软件采集数据,运行时间长了,硬盘会占用很多,数据量最大的主要是三类数据:

  1.  爬虫日志文件(C盘);
  2. 下载到缓存区中的网页(C盘);
  3. 将网页内容提取出来的XML结果文件(可设定存储位置)

如果占用的空间是在c盘上,就对操作系统影响很大,所以,一方面要规划好文件存储位置,另一方面要定期清理。

1,删除爬虫日志

如果爬虫运行久了,就会产生很多运行日志,日志文件是存在C盘的,要定时删除。下图所示,假定登录Windows的用户名是work,那么就会在C:\Users\work文件夹中存在一个 .metaseeker文件夹,注意这个文件夹名含有一个 . 号,通常是隐藏的。日志文件可能会有多个,名字都是以metaseeker.log开头的,当一个文件写到一定大小以后就会产生一个新的日志文件。这些日志文件随时都可以删除。

2,清理缓存文件

缓存文件最多的是html网页,也就是浏览历史,除此以外还有cookie等都比较小。这些内容存放在Windows的用户目录中,而用户目录是在系统盘C盘上,无法通过设定改向到其他硬盘,所以,定时清理这些数据十分重要。

2.1,通过爬虫界面清理缓存

点击浏览器右上角的设置小图标,“清除历史”->“清除所有”,勾选上“清除所有”,点击“清除”清理掉所有的缓存。


2.2,删除缓存文件夹清理缓存

如果爬的数据太久,缓存文件太大,用GS浏览器界面上的清除缓存功能会很慢,应该直接删除AppData文件夹中关于gooseeker的文件, 按照这个路径(C:\Users\当前电脑用户账号名\AppData),在appdata文件夹下找到local和roaming文件夹,分别在这两个文件找到gooseeker文件夹删除掉,缓存也就删除掉了。

3,清理采集结果文件

建议为网络爬虫设置专门的采集结果存放目录,不要放在C盘上。

3.1,清理采集结果文件

爬虫产生xml结果文件,放在DataScraperWorks文件夹中,可以直接把文件夹下的所有结果文件删除。

3.2,配置结果文件的生成路径

也可以设定结果文件夹的位置,在DS打数机菜单“文件”-> “存储路径”中设置,设置完成后采集的结果文件就会生成到配置的文件夹下。


4,Mac版本清理

MacOS的磁盘目录不一样,清理方法有些不同。

如果通过爬虫界面清理缓存,windows版和Mac版完全一样,如果直接删除缓存文件,差别很大,操作方法如下:

1)在Lauchpad的其他文件夹中找到“终端”,点击运行

2)在终端中输入以下命令

  1.   cd Library
  2.   cd "Application Support"
  3.   cd GooSeeker
  4.   cd Profiles
  5.   cd xxxx.default

3)按顺序执行以上步骤,最后一步进入的文件夹名字每个人的可能不一样,都是.default为后缀。进入以后,执行以下命令

rm cookies*

就完成了cookie的删除。

4)上面列出来的5步命令也可以执行到第2步,然后把整个GooSeeker文件夹都删除,这样连浏览历史加cookie等缓存全部清除了。


5,总结

爬虫每爬一个网页,会记录一个缓存,所以一定要清理缓存,而且缓存一定是在c盘上,爬虫运行很久后会产生很多缓存和结果文件,通过删除缓存文件和结果文件,或者配置采集结果的存储路径来清理c盘。至于采集结果文件的存放,建议设置成数据盘的目录,不要存在C盘上。



2

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (2 人)

最新评论

GMT+8, 2024-11-18 20:40