Blogs

使用Java实现的网页内容抓取和数据抽取工具

Tue, 09/15/2009 - 20:45 — Fuller

简洁轻便的Java浏览器HtmlUnit 2.6发布介绍了HtmlUnit，这是一个用Java编写的网站测试工具，是一个开源项目，网站测试工具一般通过模拟用户的点击网页的行为测试某个网站的所有网页是否正确、是否可访问等，因此同样的工具可以用于执行网站信息提取和网页数据抽取任务，而且网站测试工具一般能够很好的解析Javascript代码，所以很适合采集A

使用Ruby实现网页抓取和数据抽取

Tue, 09/15/2009 - 12:04 — Fuller

Data extraction for Web 2.0: Screen scraping in Ruby/Rails 是一篇经典的文章，多次看到被引用的版本
Scraping with style: scrAPI toolkit for Ruby介绍了用Ruby实现的屏幕抓取/Web抓取工具包scrAPI，这篇文章的开头还讲解了实现网页内容抽取软件时需要考虑的基本问题，然后讲解了使用CSS se

使用Javascript实现网页抓取和数据抽取

Mon, 09/14/2009 - 17:58 — Fuller

网页抓取/数据抽取软件工具包MetaSeeker中的ＤataScraper是一个100%使用Javascript编写的定题爬虫(或者叫聚焦爬虫或者主题爬虫)和网页内容提取和数据格式化工具，是一个Firefox扩展程序
网页抓取/数据抽取软件工具包MetaSeeker中的MetaStudio是一个混合使用Javascript和C++编写的语义结构定义和网页内容提取规则定义工具，

Fuller's blog
Login to post comments
Read more

搜索引擎优化（SEO）

Sat, 09/12/2009 - 15:43 — Fuller

有自己的网站的人都关注搜索引擎优化（SEO），都想让自己的网站有最好的曝光率，搜索引擎优化专家能够给予很好的指导，而且在一些博客和论坛上，搜索引擎优化专家的文章也很受欢迎，每次浏览博客文章，我都会特意阅读新的相关文章，阅读的多了，发现不同专家的观点可能存在不一致。

Fuller's blog
Login to post comments
Read more

从语义网络向结构化数据回归

Fri, 09/11/2009 - 16:21 — Fuller

RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论，虽然没有排序的意味，但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。

我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic web)的关系，例如：

Fuller's blog
Login to post comments
Read more

Century 21 Canada vs. Rogers Communications——涉及网站内容采集和数据抽取的诉讼

Wed, 09/09/2009 - 11:00 — Fuller

Century 21 Canada Sues Rogers Communications' Real Estate Site Over 'Data Scraping'是今天海外媒体和社会性媒体讨论的热点，一个比较详细的分析报道Rogers cited for 'scraping' listings可以看出是两个巨头之间的搏斗，诉“不公平竞争”，因为被告网站Zoocasa通过采集原告网站上的图片和房产介绍信息，认为被告网站获得了不公平的竞争优势（an unfair competitive advantage）并侵犯了著作权（copyright）

Fuller's blog
Login to post comments
Read more

实时互联网(real-time web)是一种新的通信方式

Wed, 09/09/2009 - 10:04 — Fuller

Twitter的流行推动了实时互联网(real-time web)浪潮，实时互联网到底是什么，文章The Real-Time Web: A Primer从多个方面剖析了实时互联网的意义。下面针对针对作者提出的“实时互联网是一种新的通信方式”进行思考和研究。

Fuller's blog
Login to post comments
Read more

网页抓取/数据抽取/网络爬虫软件工具

Wed, 09/09/2009 - 09:07 — Fuller

email采集工具 Email Scraper
- 功能描述：是一个PHP类库，能够爬行互联网（网络爬虫功能）抓取网页并且将电子邮件email地址抽取出来，并且将采集到的e-mail地址保存到MySQL数据库中。
- 网络爬虫功能：给定一个开始页面，该网络蜘蛛顺着页面上所有的超链接爬行到其它网页，可以设定特定的文件名后缀，让该网络蜘蛛不用抓取。

Fuller's blog
Login to post comments
Read more

对垂直搜索的展望

Tue, 09/08/2009 - 10:22 — Fuller

准确的说不是本人的展望，是读The Future of Vertical Search Engines的感想。

Fuller's blog
Login to post comments
Read more

使用Flex技术实现网站内容抓取和数据抽取

Mon, 09/07/2009 - 22:48 — Fuller

Flex实现QQ网页提取天气信息详细讲解了怎样使用Adobe Flex开发网页抓取和网站内容数据抽取程序。

Fuller's blog
Login to post comments
Read more

GooSeeker