他山之石

信息提取/抓取产品研究:Beautiful Soup

Beautiful Soup是用Python开发的HTML/XML解析期,当前已经发展到3.x版本,解析功能十分强大,实际上如其将其作为信息提取产品进行研究,作为一个开发框架,在其基础上可以开发出定制化的信息提取/抓取工具,就像在它首页上宣称的:可以用来快速开发screen scraping产品。凸现其强大的解析能力的特性有下面三点[1]

Syndicate content