jimengzhou's blog

界面数据抓取

有时候,我们需要用到网上搜索的数据,可能这些数据并不在一个网站上。但是这些内容不能下载,也不提供web服务,这时候,我们会考虑解析HTML页面,并从中抽取我们感兴趣的数据。这个过程称作界面抓取。基本思想是按顺序下载页面,然后循环解析HTML页面内容,发现和抽取我们需要的数据。然后存储在数据库中。这样,每次我们需要这些信息时,直接从数据库中读取。

Syndicate content