信息提取 | GooSeeker

信息提取

文本分类算法的效果

Sat, 05/15/2010 - 16:51 — Fuller

下面的文字节选自多个文档，收录于此，仅仅作为认识和选择文本分类器的参考，适合程序员和数据挖掘商业应用系统设计者参考，如果想做深入的技术研究，应该查阅下文提及的参考文章。

文本分类算法

来源：《基于关键短语的文本分类研究》

基于统计的分类算法是主流，主要包括以下几种分类模型：

Fuller's blog
Login to post comments
Read more

文本分类训练集选择原则

Fri, 05/14/2010 - 14:57 — Fuller

训练集的选择决定了文本分类器的性能，良好的训练集应该具有下述特征：

类别分布均衡
每个类别中的文档都能够很好地代表该类别
类别中各文档在特征空间中分布比较集中

如果训练集中存在小类别，所谓的不均衡训练集或数据集，需要一些特殊处理，以确保分类器的性能，例如宏平均和微平均指标

Fuller's blog
Login to post comments

什么是宏平均（macro-average）和微平均（micro-average）

Fri, 05/14/2010 - 14:53 — Fuller

宏平均（macro-average）和微平均（micro-average）是衡量文本分类器的指标。根据Coping with the News: the machine learning way

Fuller's blog
Login to post comments
Read more

什么是Twitter注释

Thu, 05/13/2010 - 22:15 — Fuller

Twitter注释的新功能可以将任何元数据（metadata）附着于Twitter消息。目前，每条长度限制为140个字符的Twitter 消息里都可以填写任何内容，包括大量的信息、外部网站链接等。不过，Twitter计划借助元数据来使内容更加丰富。

Fuller's blog
Login to post comments
Read more

Web自动化和信息提取工具iMacros介绍

Thu, 05/13/2010 - 17:51 — Fuller

海外的iMacros for Firefox也是Firefox插件，这一点同国产的MetaSeeker一样，比较iMacros V6.6.5.0和MetaSeeker V4.11.0，发现诸多重合的功能特性，例如，Web信息提取功能。

Fuller's blog
Login to post comments
Read more

XML/HTML字符转义在Web文档抓取工具中的应用

Wed, 05/12/2010 - 10:28 — Fuller

Web文档抓取工具包MetaSeeker能够自动生成抓取规则，帮助用户大批量自动抓取Web文档，MetaSeeker核心数据存储和交换格式是XML，例如，信息结构元数据、Web文档抓取指令文件、抓取结果文件等等。

Fuller's blog
Login to post comments
Read more

增强AJAX网络数据抽取能力

Mon, 05/03/2010 - 12:17 — Fuller

随着网络数据抽取软件工具包MetaSeeker的版本不断更新，AJAX数据抽取能力不断增强，本文讲解的技巧适合MetaSeeker V4.11.0及其以后版本。主要解决的问题是：假设当前网页P1上面有超链接，点击后网页内容修改，但是没有通过HTTP加载一个HTML网页文档，而是通过AJAX的异步通信机制，例如，采用XMLHttpRequest类接口，从服务器下载内容并局部更改网页内容。此时显示的网页数据的语义同P1网页的不同，我们称此网页为P2。

Fuller's blog
Login to post comments
Read more

一种半自动抓取AJAX文档数据的方法

Mon, 04/26/2010 - 11:19 — Fuller

网络文档抓取工具包MetaSeeker具有很强的AJAX文档数据抓取能力，由于AJAX网站设计并无定式，可发挥空间很大，所以，MetaSeeker抓取AJAX文档的能力再强也不可能宣称适用所有AJAX情况，所以，GooSeeker采取逐步加强的策略，每个新版本都增加一些AJAX情形。

MetaSeeker发展到V4.10.0版本，不能抓取的AJAX文档有下面两大情形：

解决翻页提取Web数据中断问题

Sun, 04/25/2010 - 16:33 — Fuller

主题demo_comment_list_dangdang的翻页操作用javascript代码实现的，Web数据提取软件工具包MetaSeeker能够模拟用户点击行为，执行翻页操作，这是利用网页URL提取Web数据的普通网络爬虫和提取软件无法做到的。

Fuller's blog
Login to post comments
Read more

决策树建立过程概述

Thu, 04/22/2010 - 15:06 — Fuller

建立决策树的过程，即树的生长过程是不断地把数据进行切分的过程，每次切分对应一个问题，也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。

Fuller's blog
Login to post comments
Read more