我新发布了一个采集规则:
裁判文书网2y


详细信息:
采集裁判文书每篇文书的的详情页内容,由规则《裁判文书网1y》生成线索。

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_206001.html
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-11-15 17:15

沙发
lihuimiaomiao 新手上路 发表于 2017-3-22 14:08:47 | 只看该作者
举报 使用道具
板凳
hzlpachong 新手上路 发表于 2017-3-30 14:28:01 | 只看该作者
你好,请问这个规则可以爬取中国裁判文书网上面的全部文书吗?2700万份?
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-30 15:04:14 | 只看该作者
hzlpachong 发表于 2017-3-30 14:28
你好,请问这个规则可以爬取中国裁判文书网上面的全部文书吗?2700万份?

不知道近来这个网站是否改过版,以前的版本是:翻页查看更多文书的时候,页码越大,翻页越困难,所以,要把所有2700万份采集完几乎不太可能。需要很多迂回的方案,比如,调整搜索条件,缩小搜索范围,每次需要的翻页数量就会减少。但是这样就会有重复,一个条件采集到的文书与另一个条件采集到的有重复。

总之,要采集2700万份,是一个成本很高的任务
举报 使用道具
5#
hzlpachong 新手上路 发表于 2017-3-30 16:19:55 | 只看该作者
Fuller 发表于 2017-3-30 15:04
不知道近来这个网站是否改过版,以前的版本是:翻页查看更多文书的时候,页码越大,翻页越困难,所以,要 ...

谢谢您的回复和解释。那如果我只爬取某一类案件,数据量是 几十万份的话,大概需要多长时间呢?可以比较顺利爬取下来吗?


我刚刚接触这一块,计算机基础比较差,麻烦你了!谢谢!
举报 使用道具
6#
Fuller 管理员 发表于 2017-3-30 16:22:50 | 只看该作者
hzlpachong 发表于 2017-3-30 16:19
谢谢您的回复和解释。那如果我只爬取某一类案件,数据量是 几十万份的话,大概需要多长时间呢?可以比较 ...

假设不是实测而是估计,通常我们担心网站封锁爬虫,所以根据经验让爬虫运行不要太快,一般4秒一个网页就比较安全。一天多少秒就能算出来能采集多少网页。为了采集更快,我们会用多台电脑,而且让他们各自用各自的IP地址
举报 使用道具
7#
hzlpachong 新手上路 发表于 2017-3-30 16:25:05 | 只看该作者
Fuller 发表于 2017-3-30 16:22
假设不是实测而是估计,通常我们担心网站封锁爬虫,所以根据经验让爬虫运行不要太快,一般4秒一个网页就 ...

你好,可以加QQ沟通吗?
举报 使用道具
8#
Fuller 管理员 发表于 2017-3-30 16:27:30 | 只看该作者
hzlpachong 发表于 2017-3-30 16:25
你好,可以加QQ沟通吗?我的QQ是644514749

我已加你
举报 使用道具
9#
hellokky 新手上路 发表于 2017-5-2 22:04:33 | 只看该作者
积分不够啊 继续
举报 使用道具
10#
Fuller 管理员 发表于 2017-5-2 22:12:36 | 只看该作者
hellokky 发表于 2017-5-2 22:04
积分不够啊 继续

在这里顶贴不送积分的,要在外边的网站上发贴
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-25 15:21