本帖最后由 goGooSeeker 于 2016-9-5 15:13 编辑

我输入的采集线索eg.:
  1. http://baike.baidu.com/item/词条名
复制代码

如果在普通浏览器会正常跳转到:
  1. http://baike.baidu.com/item/词条名/ID
复制代码

因为ID是不固定的,但是会自动跳转,所以我输入的线索全部都是:
  1. http://baike.baidu.com/item/词条名
复制代码

但是在采集的时候,打数器并不会自己跳转采集,一直显示空白,请问这种情况应该怎么办?

PS:为什么知道没有跳转,因为有的词条不需要跳转就可以采集,需要跳转带ID的词条就会显示空白。
PS:为什么不自己输入ID,因为采集数据太多,ID不规律
PS:想到了先采集搜索当中的真实带ID网址,不过还没有测试,但是这种方法会多采集一遍,相当于多用了一倍的时间,如果可以直接跳转就不用多这一步了
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-9-5 15:12

沙发
Fuller 管理员 发表于 2016-9-2 21:39:46 | 只看该作者
贴出来几个词条我们测试一下
举报 使用道具
板凳
goGooSeeker 初级会员 发表于 2016-9-3 12:04:20 | 只看该作者
本帖最后由 goGooSeeker 于 2016-9-5 10:40 编辑
Fuller 发表于 2016-9-2 21:39
贴出来几个词条我们测试一下
  1. http://baike.baidu.com/item/周杰伦
  2. http://baike.baidu.com/item/霍建华
  3. http://baike.baidu.com/item/钟汉良
  4. http://baike.baidu.com/item/陈奕迅
  5. http://baike.baidu.com/item/张国荣
  6. http://baike.baidu.com/item/林俊杰
  7. http://baike.baidu.com/item/邓紫棋
  8. http://baike.baidu.com/item/刘德华
  9. http://baike.baidu.com/item/陈乔恩
  10. http://baike.baidu.com/item/周星驰
  11. http://baike.baidu.com/item/孙燕姿
  12. http://baike.baidu.com/item/angelababy
  13. http://baike.baidu.com/item/五月天
  14. http://baike.baidu.com/item/柯震东
  15. http://baike.baidu.com/item/蔡依林
  16. http://baike.baidu.com/item/黄家驹
  17. http://baike.baidu.com/item/林心如
  18. http://baike.baidu.com/item/陈冠希
  19. http://baike.baidu.com/item/谢霆锋
复制代码
举报 使用道具
地板
goGooSeeker 初级会员 发表于 2016-9-3 14:57:33 | 只看该作者
Fuller 发表于 2016-9-2 21:39
贴出来几个词条我们测试一下

已经贴出来词条拉,求助
举报 使用道具
5#
Fuller 管理员 发表于 2016-9-3 16:45:06 | 只看该作者
goGooSeeker 发表于 2016-9-3 14:57
已经贴出来词条拉,求助

我抓取了,没有跳转,也没有空白

上面这个输入的网址是编码过的,那么抓取结果文件中realpath跟fullpath一样


上面这个输入的网址是没有编码的,那么抓取结果文件中realpath是编码的。

但是都没有看到id
举报 使用道具
6#
goGooSeeker 初级会员 发表于 2016-9-5 10:40:14 | 只看该作者
Fuller 发表于 2016-9-3 16:45
我抓取了,没有跳转,也没有空白

上面这个输入的网址是编码过的,那么抓取结果文件中realpath跟fullpath ...

你使用的这两个词条恰好是不用跳转的
请试下这两个:
  1. http://baike.baidu.com/item/霍建华
  2. http://baike.baidu.com/item/张国荣
复制代码
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-5 10:57:24 | 只看该作者
goGooSeeker 发表于 2016-9-5 10:40
你使用的这两个词条恰好是不用跳转的
请试下这两个:


跳转不怕,只是跳转以后的网页结构变了,你需要在同一个主题名下定义两个抓取规则,一个是为了那些不跳转的,一个是为了那些跳转的
举报 使用道具
8#
goGooSeeker 初级会员 发表于 2016-9-5 15:12:20 | 只看该作者
Fuller 发表于 2016-9-5 10:57
跳转不怕,只是跳转以后的网页结构变了,你需要在同一个主题名下定义两个抓取规则,一个是为了那些不跳 ...

ok,已经解决,感谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 19:04