技术支持,你好,我想问一下,像百度新闻或是网易新闻关键字这种爬虫规则,怎样可以爬取到搜索到的正文内容?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-8-2 09:33

沙发
Fuller 管理员 发表于 2016-8-2 09:31:38 | 只看该作者
要点进去抓取。
1,从百度上搜到的网址不是真实网址,而且过段时间以后就会失效,要尽早点进去抓详细网页
2,不用模拟点击,做个两级规则就可以了,因为从搜索结果网页上能够抓到每个结果的独立网址,虽然是百度编码过的网址
3,虽然网址过段时间会失效,但是,有足够时间运行第二级规则
举报 使用道具
板凳
Fuller 管理员 发表于 2016-8-2 09:33:08 | 只看该作者
第二级很容易做,可以做一个通用规则,把body节点映射给抓取内容,把整个网页内容抓下来

详细页上的内容就别精准抓取了,每个网页结构不一样,只能做一个通用规则,把整个文本抓下来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 22:35