您好,请问我要搜集一些特定名字的百度百科简介,这个可以做到吧
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-9-13 09:15

沙发
xandy 论坛元老 发表于 2017-1-4 15:17:17 | 只看该作者
可以的,网页上可见的公开内容都是可以采集到的。直接下载爬虫,然后学习教程板块《从入门到精通》的前面几篇,就可以上手采集数据了。
举报 使用道具
板凳
思秋忆 中级会员 发表于 2017-1-4 15:17:55 | 只看该作者
xandy 发表于 2017-1-4 15:17
可以的,网页上可见的公开内容都是可以采集到的。直接下载爬虫,然后学习教程板块《从入门到精通》的前面几 ...

我有一个词汇列表,想爬到百度百科里去把这些词汇的简介摘取下来,不知道怎么弄?
举报 使用道具
地板
xandy 论坛元老 发表于 2017-1-4 15:20:45 | 只看该作者
思秋忆 发表于 2017-1-4 15:17
我有一个词汇列表,想爬到百度百科里去把这些词汇的简介摘取下来,不知道怎么弄?
...

集搜客的连发弹仓功能可以实现关键词自动搜索采集。
介绍可以看这里:《加强网络爬虫装备:连发弹仓、飞掠模式、连续打码功能介绍
举报 使用道具
5#
mniyjy 初级会员 发表于 2019-9-12 23:46:20 | 只看该作者
您好,请问您这个问题解决了么?我也遇到了相同的问题,想请教一下
举报 使用道具
6#
Fuller 管理员 发表于 2019-9-13 09:15:41 | 只看该作者
mniyjy 发表于 2019-9-12 23:46
您好,请问您这个问题解决了么?我也遇到了相同的问题,想请教一下

百度百科是个知识库,可以爬下来做各种知识工程任务。这个很好爬,百度百科有自己的网址,而且搜索的关键词包含在网址中,你只需要构造网址,就能快速为爬虫规则添加线索。比如,网址这个样子:
  1. https://baike.baidu.com/search?word=%E5%8D%9A%E5%BC%88%E8%AE%BA&pn=0&rn=0&enc=utf8
复制代码
添加线索的方法参看《如何管理规则的线索
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 16:29