提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2023-6-1 13:07

Fuller 管理员 发表于 2023-6-1 11:40:18 | 显示全部楼层
我们正在测试这个任务,稍等一下
举报 使用道具
gz51837844 管理员 发表于 2023-6-1 11:52:06 | 显示全部楼层
我测试了下你这个规则,我判断清除老数据是起作用的,主要是从下面3点判断:
1. 每次滚屏后新生成的文件,文件大小并没有一直增加,说明旧的数据清除有效
QQ截图20230601114705.png
2. 我打开第1个文件和第2个文件比对了下,下图的第2个评论,在第一个文件里有,在第二个文件里没有,说明清除旧数据起作用了
QQ截图20230601114836.png
3. 每次清除的时候并不是清除掉所有的内容,保留了第一条和最后一条,因为这样可以防止清除操作干扰原网页上的程序。详细说明见:爬wish等瀑布流网站时使用清除老数据功能

举报 使用道具
xiaopapachong 禁止发言 发表于 2023-6-1 12:02:19 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
xiaopapachong 禁止发言 发表于 2023-6-1 12:03:42 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
Fuller 管理员 发表于 2023-6-1 13:07:18 | 显示全部楼层
打开清除老数据功能以后,会在采集完自动删除列表中的数据,只留第一和最后一条,但是,有些网页不允许这样做,一旦看到数据被清除了,就不加载内容了。遇到这种情况,就不要打开清除老数据。等导出数据以后,在excel中或者在你的数据库中自己用公式进行清除
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:48