Fuller's blog

从语义网络向结构化数据回归

RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论,虽然没有排序的意味,但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。

我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic web)的关系,例如:

Century 21 Canada vs. Rogers Communications——涉及网站内容采集和数据抽取的诉讼

Century 21 Canada Sues Rogers Communications' Real Estate Site Over 'Data Scraping'是今天海外媒体和社会性媒体讨论的热点,一个比较详细的分析报道Rogers cited for 'scraping' listings可以看出是两个巨头之间的搏斗,诉“不公平竞争”,因为被告网站Zoocasa通过采集原告网站上的图片和房产介绍信息,认为被告网站获得了不公平的竞争优势(an unfair competitive advantage)并侵犯了著作权(copyright)

实时互联网(real-time web)是一种新的通信方式

Twitter的流行推动了实时互联网(real-time web)浪潮,实时互联网到底是什么,文章The Real-Time Web: A Primer从多个方面剖析了实时互联网的意义。下面针对针对作者提出的“实时互联网是一种新的通信方式”进行思考和研究。

网页抓取/数据抽取/网络爬虫软件工具

  • email采集工具 Email Scraper
    • 功能描述:是一个PHP类库,能够爬行互联网(网络爬虫功能)抓取网页并且将电子邮件email地址抽取出来,并且将采集到的e-mail地址保存到MySQL数据库中。
    • 网络爬虫功能:给定一个开始页面,该网络蜘蛛顺着页面上所有的超链接爬行到其它网页,可以设定特定的文件名后缀,让该网络蜘蛛不用抓取。

对垂直搜索的展望

准确的说不是本人的展望,是读The Future of Vertical Search Engines的感想。

使用Flex技术实现网站内容抓取和数据抽取

360度混搭(mashup)服务

因为混搭是网页抓取/数据抽取/信息提取软件工具包MetaSeeker的服务对象,所以,对混搭(mashup)一直比较关注,看到过各种引人注目的混搭,今天看到一个所谓的“360度混搭”,真是青出于蓝。

几个语义网络和语义搜索产品

什么是语义搜索引擎一文是2009年4月的一篇文章的读后感,笔者认为这是语义网络技术向linked data思想的回归,那么采取自然语言处理和人工智能路线的产品和服务发展的怎样了?今天阅读到一篇新文章HealthBase Is The Ultimate M

使用抽取技术过滤不良网络内容

今天在网上闲逛,看到一篇文章应对不良网络文化的技术之一——网络信息抽取技术,文章标题很有冲击力,一般来说网页抓取和数据抽取往往被看成一种内容“窃取”的行为,一般不受欢迎,网页抓取/数据抽取/信息提取软件工具包MetaSeeker本质上就是一个网站内容采集工具,只是其作者找到了一个更有积极意义的定位,期望能够

使用Python技术实现网站内容抓取和数据抽取

Syndicate content