任务名:multitran_RU-EN_0001_单词部分_第一级
添加的新线索是:https://www.multitran.com/m.exe?a=110&l1=2&l2=1&sc=4
就是在采集这个新线索时出现的问题。采集不全的问题在以前各线索采集时也是一直出现的,只是有时缺少的内容不多,所以没有管它。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2020-7-9 17:28

沙发
lan_1985 金牌会员 发表于 2020-7-9 11:09:23 | 只看该作者
本帖最后由 lan_1985 于 2020-7-9 11:10 编辑

我加载了你的规则看了下,单词下面有5个链接,测试出来这些链接是一样的

我看了下网页,应该是每个单词对应一个链接。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
lan_1985 金牌会员 发表于 2020-7-9 11:13:20 | 只看该作者
链接这里,要勾选补全网址


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
qqqaas 初级会员 发表于 2020-7-9 14:01:47 | 只看该作者
链接是一样的,因需要把同一个链接分配到不同的任务名里去(下级线索不一样),所以对同一链接进行了多次采集。
举报 使用道具
5#
qqqaas 初级会员 发表于 2020-7-9 14:09:02 | 只看该作者
采集不全的原因具体是什么呢?就是因为连续五次采集了相同的链接吗?
举报 使用道具
6#
lan_1985 金牌会员 发表于 2020-7-9 14:30:19 | 只看该作者
qqqaas 发表于 2020-7-9 14:09
采集不全的原因具体是什么呢?就是因为连续五次采集了相同的链接吗?

那规则是没有问题的,我这边测试这条有问题的线索,没有漏掉的信息。你说的漏掉的信息,是指后面翻页后会漏掉信息吗?
可以把有缺失数据的地方截个图出来吗?
举报 使用道具
7#
qqqaas 初级会员 发表于 2020-7-9 15:01:24 | 只看该作者
lan_1985 发表于 2020-7-9 14:30
那规则是没有问题的,我这边测试这条有问题的线索,没有漏掉的信息。你说的漏掉的信息,是指后面翻页后会 ...

我最开始就已经上传了图片,我当时采集的时候就只采集到箭头以上部分,俄语有33个字母,只采集到С

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
qqqaas 初级会员 发表于 2020-7-9 15:03:22 | 只看该作者
每次采集,采集遗漏的地方可能不一样。
举报 使用道具
9#
qqqaas 初级会员 发表于 2020-7-9 15:06:13 | 只看该作者
С-Я部分都没采集到,这个就跟英语词典词汇编排顺序一样,是按字母排序的。
举报 使用道具
10#
lan_1985 金牌会员 发表于 2020-7-9 16:05:55 | 只看该作者
好的,我测试下看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 02:38