Blogs

MetaSeeker确保电子政务和服务型政府网站向语义网络时代跨越

电子政务以及服务型政府网站已经建设了多个阶段,例如,第一阶段、网上发布政务信息;第二阶段、网上信息非实时交互,主要提供表格和邮件方式;第三阶段、网上办事服务,可以下载表格,进行简单的流程操作(参见谈“E告”与电子政务、政府门户网站建设的创新)。

使用Python实现的网页内容抓取和网络爬虫软件工具

  • Scrapy是开源的用Python编写的屏幕抓取和网络爬虫(网络蜘蛛)软件框架,从Scrapy at a glance一文可以看出,Scrapy的爬行目标需要指定,网页内容抽取采用了XPath表达式,具有聚焦爬虫的特点

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

使用MetaSeeker网络蜘蛛建立暗网(deep web)搜索

搜索引擎如何对付“暗网”用详尽的数字说明暗网(dark web, deep web)有多大,还解释了巨头们(例如,谷歌(google),百度(baidu),雅虎(yahoo))怎样发掘暗网中的信息。Dark Web ---- 万维网正在变暗?全面罗列了哪些内容属于暗网内容,暗网的内容类别很多,都适合发掘吗?

用XSLT实现网页内容抓取软件

此前,网页抓取/数据抽取/信息提取工具包MetaSeeker为什么没有使用正则表达式提取内容?一文对比了DOM + XPath + XSLT 和正则表达式应用在提取网页数据信息和屏幕抓取领域的优缺点,重点说明了采用前者的优势,毫无疑问,采用前者编程成本低很多,有大量的可重用的第三方程序库或者软件模块供集成,而且做出来的数据抽取规则适用力很强。

观察语义搜索引擎的走向

采用网页抓取/数据抽取/异构数据对象搜索软件工具包MetaSeeker的搜索引擎SliceSearch建设的威客任务、招标项目、外包项目搜索引擎上线几个月了,用户点击量逐日上升。

在线个人资产和金融管理集成服务的新闻事件

今天的热点新闻应该是关于Intuit To Acquire (Former TechCrunch50 Winner) Mint For $170 Million

Mint成立才两年,以$140M出售给Intuit,所以很惹人注目和艳羡,愤怒的声音如The next generation bends over,开篇第一句:

网页内容提取软件工具MetaSeeker用于产品定价和竞争指数计算(competitor indexing)

竞争指数计算(competitor indexing)是市场营销人员用于产品定价的技巧,是营销组合(marketing mix)中的4P之一(中文解释可以参见营销组合和4P)。可见竞争指数计算既有悠久的历史,又是市场营销广泛使用的技巧。

网页内容提取软件工具包MetaSeeker的使用技巧

本网页将不断汇总典型的网页抓取/数据抽取/信息提取软件工具包MetaSeeker的使用案例,本页内容随着时间推移不断扩充

为网络营销采集email地址

在互联网(web)上,email营销是一个很有效的手段,在国外媒体上email营销和RSS营销排在网络营销的前两位,主要是因为两者有很强的送达效能,使用电子邮件可以进行各种各样的在线的营销推广活动,例如:

个性化互联网和推荐引擎

推荐引擎并不是一个新概念,大型的电子商务网站(例如,Amazon)很多年前就采用了推荐引擎技术,但是从2008年开始,陆续看到很多采用推荐引擎技术的网站开始盈利,推荐引擎就更受关注了,最近又有谷歌个性化搜索服务被诉侵权的报道,涉案专利是2000年申请的,而个性化是推荐引擎的核心,由此可见,推荐引擎的历史很久远。本文对其历史进行回溯,将一些关键资料进行汇集,方便产品和市场战略研究。

Syndicate content