请教:批量添加线索,但是统计只有一条,怎么回事?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-7-16 08:43

沙发
MebiuW 初级会员 发表于 2018-7-14 18:54:51 | 只看该作者
在哪里加的,打数机?
举报 使用道具
板凳
ovna123 金牌会员 发表于 2018-7-14 18:59:27 | 只看该作者
举报 使用道具
地板
ovna123 金牌会员 发表于 2018-7-14 19:53:29 | 只看该作者
线索很长,是不是这个原因?
举报 使用道具
5#
Fuller 管理员 发表于 2018-7-15 09:46:29 | 只看该作者
ovna123 发表于 2018-7-14 19:53
线索很长,是不是这个原因?

比如,淘宝这样的网址,会特别长,如果每个网址的有区别的部分是在前面,在前面250个字符内,那么爬虫就会当成不同的网址进行处理。如果区别发生在250个以外,爬虫分不出来,这样就只能产生一条线索。

有两个解决方法:
1,利用网络上的短网址服务,把网址变成短网址,再交给爬虫去爬
2,调整一下网址参数,那些&key=value 这样的参数,把有区别的调到前面,通常调位置不影响网址的有效性
举报 使用道具
6#
ovna123 金牌会员 发表于 2018-7-16 08:43:19 | 只看该作者
好的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 01:36