主题名
smtsearchbykeyword
smtsearchbykeyword2


第一级我爬了40页,每页40条数据,
但是我关闭第一级主题后,发现第二级线索只有198

麻烦大神们帮忙解决一下,谢谢


举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2016-10-18 20:15

沙发
scraper 论坛元老 发表于 2016-10-18 15:06:11 | 只看该作者

加载你的第一级规则 测试只采到3个产品 规则没做好

举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-10-18 15:11:39 | 只看该作者
第一级规则抓到的第二级的网址,我看了一下,长度一般都有4百多个字符
目前添加线索时,不同网址如果前255个字符是相同的,会出现只能添加一条的情况,估计这是导致你看到的线索数对不上的原因之一
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2016-10-18 15:13:30 | 只看该作者
变通的做法是,在第一级里不勾选“下级线索”,只是把网址采集下来
用短网址生成工具,或在线的短网址生成服务,把这批网址转换成短网址,然后添加线索到第二级规则
举报 使用道具
5#
losevan 初级会员 发表于 2016-10-18 15:27:42 | 只看该作者
shenzhenwan10 发表于 2016-10-18 15:11
第一级规则抓到的第二级的网址,我看了一下,长度一般都有4百多个字符
目前添加线索时,不同网址如果前255 ...

为什么要限制前255个字符呢?
举报 使用道具
6#
losevan 初级会员 发表于 2016-10-18 15:28:34 | 只看该作者
shenzhenwan10 发表于 2016-10-18 15:11
第一级规则抓到的第二级的网址,我看了一下,长度一般都有4百多个字符
目前添加线索时,不同网址如果前255 ...

那你们能不能变通一下,调用短网址工具呢?
举报 使用道具
7#
losevan 初级会员 发表于 2016-10-18 15:29:13 | 只看该作者
shenzhenwan10 发表于 2016-10-18 15:13
变通的做法是,在第一级里不勾选“下级线索”,只是把网址采集下来
用短网址生成工具,或在线的短网址生成 ...

如果每个用户都自己去调用短网址工具,岂不是太麻烦了,如果你们软件能够内部处理一下,那就非常方便了
举报 使用道具
8#
shenzhenwan10 金牌会员 发表于 2016-10-18 15:29:39 | 只看该作者
这个是数据库方面的限制
举报 使用道具
9#
losevan 初级会员 发表于 2016-10-18 15:31:09 | 只看该作者
那你们能不能调用短网址工具,然后在存到数据库?
举报 使用道具
10#
losevan 初级会员 发表于 2016-10-18 15:31:26 | 只看该作者
shenzhenwan10 发表于 2016-10-18 15:29
这个是数据库方面的限制

那你们能不能调用短网址工具,然后在存到数据库?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 01:00