网页抓取/数据抽取/信息提取软件工具包MetaSeeker中的MetaStudio工具和DataScraper工具都是Mozilla Firefox的扩展(有人也叫插件,但是在Mozilla平台上插件和扩展是有区别的),所以,能够很好的利用Firefox浏览器中的javascript引擎提取AJAX网站内容,MetaSeeker工具也自然是一个客户端网站内容抓取工具,笔者也一直在关注服务器测抓取工具的发展,尤其对Python和Ruby技术比较关注。
网页抓取/数据抽取/信息提取软件工具包MetaSeeker中的MetaStudio工具和DataScraper工具都是Mozilla Firefox的扩展(有人也叫插件,但是在Mozilla平台上插件和扩展是有区别的),所以,能够很好的利用Firefox浏览器中的javascript引擎提取AJAX网站内容,MetaSeeker工具也自然是一个客户端网站内容抓取工具,笔者也一直在关注服务器测抓取工具的发展,尤其对Python和Ruby技术比较关注。
最近在威客任务/外包项目/招标项目搜索网站上不断观察威客们怎样做网络推广,搜索关键字“推广”“发帖”“营销”“流量”“网店”“销售”等等,看到了众多案例,大开眼界,以前只做过大型产品的品牌营销,在网络上做推广和促销是门外汉,我就跟踪了一个网友雇佣威客做网店中的童装的促销过程。
开发MetaSeeker工具包的动机归因于对语义网络时代的憧憬,语义网络发轫于互联网之父提出了linked data的想法,通俗一点说,在语义网络中的内容是结构化数据,而不是现在的自由文本,只有结构化的数据才能实现计算机程序之间的信息交换,计算机程序也能很容易的自动处理结构化内容。在这种产业发展形式下,网络爬虫技术被赋予了新使命。
也许Web 3.0真的在迫近,有的人说web 3.0就是语义网络,所以,议论语义网络的文章比比皆是,毫无疑问,大家都拿“语义”来说事,所以将语义网络炒得很神。我一直反对将语义网络神秘化,语义网络应该是Tim Berners Lee最早提出来的,最初的想法只是对现有Web的演进,他说有four rules,实际上我理解成三点:
2009年07月17日新浪消息谷歌个性化搜索服务被诉侵权报道,美国德克萨斯州Personalized User Model(以下简称“PUM”)周四在特拉华州一家地方法院起诉谷歌侵犯了其搜索引擎个性化技术专利。
很久没有上网搜集市场分析的材料了,这几个月一直在做一个实时对象搜索和管理引擎,在此期间看到多则对酷讯的分析,并没有引起多大关注,今天得闲,不知道什么触发,突然想看看赶集网的一些事情,也许其名字很亲切很有吸引力的原因。
社会性媒体(Social media)对我们市场营销人员是一个好的平台,早前就试图定义过什么是社会性媒体和社会性媒体营销,但是文字过于书面化了。
刚读了一则新浪新闻网易“网络门”案一审开庭 遭300万元天价索赔,这新闻稿编辑得真生动,至少学到了两点:
MetaSeeker工具包不能提取使用Ajax架构建设的网站的内容,是一件憾事,早在规划V3.x版本时,该特性就已经考虑在内了,但是,在计划阶段,该特性被裁减掉了,主要原因有两点:1,技术难度是比较大的,需要能够有效的控制Javascript引擎;2,凡是使用Ajax架构管理的内容,本意必然是不希望被共享(参见Javascript对搜索引擎爬虫的影响以及SEO策略),所以,用爬虫和信息提取工具硬生
阅读plain old xml considered harmful时发现了一个资料库关于posh。