11#
golgo_forever 初级会员 发表于 2018-2-11 16:15:43 | 只看该作者
Fuller 发表于 2018-2-11 11:52
我看到你下载了我做的规则,我把积分退还给你了,你可以尝试一下新发布的那套规则,一共3级,采集的信息 ...

嗯,正在尝试。发现知乎很多重复的问题。。。 90%以上全部重复的

举报 使用道具
12#
Fuller 管理员 发表于 2018-2-11 16:23:25 | 只看该作者
golgo_forever 发表于 2018-2-11 16:15
嗯,正在尝试。发现知乎很多重复的问题。。。 90%以上全部重复的

因为一个人问,好几个回答,或者评论,都会在列表中出现一次,可以根据网址过滤重复。知乎的网址结构特别清晰,含有问题部分和回答部分。

另外,因为是瀑布流,往下滚屏采集的时候,如果上面的老数据没有清除,那么一直重复,重复量好大,而且还会因为内存不够导致程序退出
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 23:51