技术支持,你好,我想问一下,像百度新闻或是网易新闻关键字这种爬虫规则,怎样可以爬取到搜索到的正文内容?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-8-2 09:33

沙发
Fuller 管理员 发表于 2016-8-2 09:31:38 | 只看该作者
要点进去抓取。
1,从百度上搜到的网址不是真实网址,而且过段时间以后就会失效,要尽早点进去抓详细网页
2,不用模拟点击,做个两级规则就可以了,因为从搜索结果网页上能够抓到每个结果的独立网址,虽然是百度编码过的网址
3,虽然网址过段时间会失效,但是,有足够时间运行第二级规则
举报 使用道具
板凳
Fuller 管理员 发表于 2016-8-2 09:33:08 | 只看该作者
第二级很容易做,可以做一个通用规则,把body节点映射给抓取内容,把整个网页内容抓下来

详细页上的内容就别精准抓取了,每个网页结构不一样,只能做一个通用规则,把整个文本抓下来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-20 15:00