21#
Fuller 管理员 发表于 2021-9-7 16:46:20 | 只看该作者
如果正常的话,第三级采集到的内容不会重复,除非网页上本身就重复了
举报 使用道具
22#
jesscia_2020 高级会员 发表于 2021-9-7 19:24:58 | 只看该作者
Fuller 发表于 2021-9-7 16:45
翻到多少页中断的?可以看看生成了多少采集结果文件。每翻一页,会在第三级规则生成10个结果文件。

第二 ...

生成1890条,具体到多少页中断的我也不知道,怎么看呢?我再跑一次看看,您那边跑了多少页
举报 使用道具
23#
jesscia_2020 高级会员 发表于 2021-9-7 19:28:40 | 只看该作者
Fuller 发表于 2021-9-7 16:46
如果正常的话,第三级采集到的内容不会重复,除非网页上本身就重复了

浙江的规则日志如下

日志.png (475.29 KB, 下载次数: 592)

日志.png

日志.png (475.29 KB, 下载次数: 603)

日志.png
举报 使用道具
24#
jesscia_2020 高级会员 发表于 2021-9-7 19:34:35 | 只看该作者
三级获取数据列表如下,就获取289个,会不会是超时

上海律师详细信息表_1631014157865.pdf

457.35 KB, 下载次数: 0

举报 使用道具
25#
Fuller 管理员 发表于 2021-9-7 19:44:11 | 只看该作者
jesscia_2020 发表于 2021-9-7 19:34
三级获取数据列表如下,就获取289个,会不会是超时

激活失败线索,重新运行一遍
举报 使用道具
26#
jesscia_2020 高级会员 发表于 2021-9-7 19:48:33 | 只看该作者
Fuller 发表于 2021-9-7 19:44
激活失败线索,重新运行一遍

规则没有问题吗
举报 使用道具
27#
Fuller 管理员 发表于 2021-9-7 20:10:04 | 只看该作者

按这个教程激活失败线索,重采失败线索
规则没有问题,我们测试了
举报 使用道具
28#
jesscia_2020 高级会员 发表于 2021-9-7 20:23:55 | 只看该作者
Fuller 发表于 2021-9-7 20:10
按这个教程激活失败线索,重采失败线索
规则没有问题,我们测试了

但是三级采集的太少了,我是不是延长一下时间。有2万多条,这才200多条
举报 使用道具
29#
Fuller 管理员 发表于 2021-9-7 21:56:56 | 只看该作者
jesscia_2020 发表于 2021-9-7 20:23
但是三级采集的太少了,我是不是延长一下时间。有2万多条,这才200多条
...

你现在说的那些规则,一二三级的名字分别是什么?
举报 使用道具
30#
jesscia_2020 高级会员 发表于 2021-9-8 06:03:24 | 只看该作者
Fuller 发表于 2021-9-7 21:56
你现在说的那些规则,一二三级的名字分别是什么?

一级菜单:浙江律师主页面跳转
二级菜单:浙江省律师主页面信息
三级菜单:浙江律师详细信息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:35