一淘网上有商品汇聚网页,比如EDIFIER/漫步者 C2音箱网页,上部是商品基本信息和价格走势,下部罗列销售这个商品的商家和网站。如果商品比较热门,卖家很多,这个网页一开始只显示一部分卖家,其他的都折叠隐藏起来,只有点击了“展开其他xxx件商品”后,才会显示出来。
一淘网上有商品汇聚网页,比如EDIFIER/漫步者 C2音箱网页,上部是商品基本信息和价格走势,下部罗列销售这个商品的商家和网站。如果商品比较热门,卖家很多,这个网页一开始只显示一部分卖家,其他的都折叠隐藏起来,只有点击了“展开其他xxx件商品”后,才会显示出来。
阿里巴巴和慧聪网分类展示众多企业和公司及其产品信息,对这些信息进行发掘,可有效地用于商业活动中。比如,发现潜在客户进行精准营销。但是,阿里巴巴网站对访问公司搜索结果网页进行了限制,利用程序代码,比如用Javascript编写的程序,可以对用户访问行为进行判断,如果发现是网络爬虫在访问这些页面,则要求输入验证码。
近半年一直为几个项目忙得团团转,其中商品和服务价格实时比价、企业竞争情报挖掘项目居多。从中可以看到商品比价应用领域和场合正在迁移,很多普通的比价网站虽然仍然在艰苦度日,比价技术的应用却方兴未艾;同时,作为MetaSeeker的开发团队,为MetaSeeker在这些领域的显著的竞争优势而自豪。
一个朋友突然提起淘宝数据挖掘,并提到数据魔方和情报通两款产品和服务。本人曾经帮一个朋友用通用网站数据采集软件MetaSeeker断断续续采集ebay近一年,知道在国外有个专业的服务领域:ebay mining,很多人在做,也有很多客户需求,所以做起来还是很有意思的。
对微博的关注也有时日了,早期是对twitter的体验,然后就是为锐推的设计师的独到见解所触动,近期进入了务实时期:抓取微博信息建设舆情监控系统和商业情报挖掘系统,偶尔也帮朋友单纯地抓取信息,例如,抓取新浪微博的名人博客并持续跟踪监控,挖掘意见领袖等。但是,一直很少思考微博的商业模式问题。
Twitter注释的新功能可以将任何元数据(metadata)附着于Twitter消息。目前,每条长度限制为140个字符的Twitter 消息里都可以填写任何内容,包括大量的信息、外部网站链接等。不过,Twitter计划借助元数据来使内容更加丰富。
采用网页抓取/数据抽取/异构数据对象搜索软件工具包MetaSeeker的搜索引擎SliceSearch建设的威客任务、招标项目、外包项目搜索引擎上线几个月了,用户点击量逐日上升。
准确的说不是本人的展望,是读The Future of Vertical Search Engines的感想。
什么是语义搜索引擎一文是2009年4月的一篇文章的读后感,笔者认为这是语义网络技术向linked data思想的回归,那么采取自然语言处理和人工智能路线的产品和服务发展的怎样了?今天阅读到一篇新文章HealthBase Is The Ultimate M
开发MetaSeeker工具包的动机归因于对语义网络时代的憧憬,语义网络发轫于互联网之父提出了linked data的想法,通俗一点说,在语义网络中的内容是结构化数据,而不是现在的自由文本,只有结构化的数据才能实现计算机程序之间的信息交换,计算机程序也能很容易的自动处理结构化内容。在这种产业发展形式下,网络爬虫技术被赋予了新使命。