要采集的内容要通过点击“展开”后才能看到,这种网站要怎么做规则?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-12-21 16:07

沙发
xandy 论坛元老 发表于 2016-10-21 15:11:08 | 只看该作者
有些我们要采集的网页,需要先“动作”之后才能够显示我们要采集的内容
比如说:
场景一:中国知网输入主题的关键词,选择文献类型,点击搜索按钮,然后搜索结果就显示出来了。
这里的动作先后经过了:输入>选择>点击,我们看到该网页动作前后的网址并没有发生变化。
如果网址发生了变化,我们直接把网址导入MS谋数台直接定义规则就行了。
正是由于网址没有发生变化,将该网址导入MS谋数台之后,显示的页面还是未搜索之前的,所以我们就要让爬虫来做这一系列的动作后并且采集。
于是集搜客网络爬虫的“连续动作”就派上用场了。
参看教程:《连续动作让爬虫持续采集数据
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-21 16:07:09 | 只看该作者
场景二:需要点击才能看全内容
参看帖子:《需要点击才能看到内容的抓取
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 14:20