Blogs

监控电子商务网站商品价格解决方案

近日接连做了多个电子商务网站上的商品信息的提取和数据挖掘解决方案,主要集中在:商品比价、竞争定价分析、销量分析等领域。近期,陆续将这些解决方案整理出来共享给读者,已经发布的解决方案有:

什么是启发式或探索法(heuristic)

名词解释

Heuristics,我喜欢的翻译是“探索法” ,而不是“启发式”,因为前者更亲民一些,容易被理解。另外,导致理解困难的一个原因是该词经常出现在一些本来就让人迷糊的专业领域语境中,例如,经常看到某某杀毒软件用启发式方法查毒,普通民众本来就对杀毒软件很敬畏,看到“启发式”就更摸不着北了。

实际上,这个词的解释十分简单,例如,查朗文词典,可以看到:

文本分类算法的效果

下面的文字节选自多个文档,收录于此,仅仅作为认识和选择文本分类器的参考,适合程序员和数据挖掘商业应用系统设计者参考,如果想做深入的技术研究,应该查阅下文提及的参考文章。

文本分类算法

来源:《基于关键短语的文本分类研究》

基于统计的分类算法是主流,主要包括以下几种分类模型:

文本分类训练集选择原则

训练集的选择决定了文本分类器的性能,良好的训练集应该具有下述特征:

  • 类别分布均衡
  • 每个类别中的文档都能够很好地代表该类别
  • 类别中各文档在特征空间中分布比较集中

如果训练集中存在小类别,所谓的不均衡训练集或数据集,需要一些特殊处理,以确保分类器的性能,例如宏平均和微平均指标

什么是宏平均(macro-average)和微平均(micro-average)

宏平均(macro-average)和微平均(micro-average)是衡量文本分类器的指标。根据Coping with the News: the machine learning way

什么是Twitter注释

Twitter注释的新功能可以将任何元数据(metadata)附着于Twitter消息。目前,每条长度限制为140个字符的Twitter 消息里都可以填写任何内容,包括大量的信息、外部网站链接等。不过,Twitter计划借助元数据来使内容更加丰富。

Web自动化和信息提取工具iMacros介绍

海外的iMacros for Firefox也是Firefox插件,这一点同国产的MetaSeeker一样,比较iMacros V6.6.5.0和MetaSeeker V4.11.0,发现诸多重合的功能特性,例如,Web信息提取功能。

XML/HTML字符转义在Web文档抓取工具中的应用

Web文档抓取工具包MetaSeeker能够自动生成抓取规则,帮助用户大批量自动抓取Web文档,MetaSeeker核心数据存储和交换格式是XML,例如,信息结构元数据、Web文档抓取指令文件、抓取结果文件等等。

网络采集的法律案件 Snap-On vs.O'Neil

GooSeeker社区是一个网络采集技术和Web 3.0技术的交流的园地,与网络采集技术相关的法律案件同样也被密切跟踪和分析。近来,随着人们逐渐认识到网络内容隐藏的巨大价值,网络内容采集和数据挖掘和知识提取行为越来越普遍。随之而来的就是关于网络内容合理使用的争论和纠纷,也许当前正处于一个混沌时期,各方参与者左冲右突希望找到一种合理的信息共享的机制。

增强AJAX网络数据抽取能力

随着网络数据抽取软件工具包MetaSeeker的版本不断更新,AJAX数据抽取能力不断增强,本文讲解的技巧适合MetaSeeker V4.11.0及其以后版本。主要解决的问题是:假设当前网页P1上面有超链接,点击后网页内容修改,但是没有通过HTTP加载一个HTML网页文档,而是通过AJAX的异步通信机制,例如,采用XMLHttpRequest类接口,从服务器下载内容并局部更改网页内容。此时显示的网页数据的语义同P1网页的不同,我们称此网页为P2。

Syndicate content