Blogs

一种半自动抓取AJAX文档数据的方法

网络文档抓取工具包MetaSeeker具有很强的AJAX文档数据抓取能力,由于AJAX网站设计并无定式,可发挥空间很大,所以,MetaSeeker抓取AJAX文档的能力再强也不可能宣称适用所有AJAX情况,所以,GooSeeker采取逐步加强的策略,每个新版本都增加一些AJAX情形。

MetaSeeker发展到V4.10.0版本,不能抓取的AJAX文档有下面两大情形:

解决翻页提取Web数据中断问题

主题demo_comment_list_dangdang的翻页操作用javascript代码实现的,Web数据提取软件工具包MetaSeeker能够模拟用户点击行为,执行翻页操作,这是利用网页URL提取Web数据的普通网络爬虫和提取软件无法做到的。

决策树建立过程概述

建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。

什么是HITS算法

维基百科对HITS算法的定义:

Hyperlink-Induced Topic Search (HITS) (also known as Hubs and authorities) is a link analysis algorithm that rates Web pages, developed by Jon Kleinberg. It determines two values for a page: its authority(权威值、权威度), which estimates the value of the content of the page, and its hub(中心值、中心度) value, which estimates the value of its links to other pages.

什么是计量尺度(levels of measurement)

Levels of measurement可以翻译成衡量尺度、计量尺度、测量尺度,维基百科对level of measurement的定义:

封闭世界假设(closed world assumption)和开放世界假设

封闭世界假设和开放世界假设的定义(摘自维基百科词条Closed world assumption):

The closed world assumption is the presumption that what is not currently known to be true, is false. The same name also refers to a logical formalization of this assumption by Raymond Reiter. The opposite of the closed world assumption is the open world assumption, stating that lack of knowledge does not imply falsity.

什么是购物篮分析(Market Basket Analysis)

购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。所谓的购物篮分析(Market Basket Analysis)就是通过这些购物篮子所显示的信息来研究顾客的购买行为。主要的目的在于找出什么样的东西应该放在一起。

电子商务中的交叉销售(cross-selling)和追加销售(up-selling)

交叉销售和追加销售都是销售企业或者业务员用以扩大销售额和提高利润的销售手段,虽然两者目的相同,但是是有区别的。电子商务的出现和推荐引擎的采用,使交叉销售和追加销售更加有效。

什么是过度拟合(overfitting)

overfitting的定义


维基百科对过拟合(overfitting)的定义:

什么是回归分析(Regression Analysis)

回归分析的定义

维基百科对回归分析的定义:

回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法,主要是希望探讨数据之间是否有一种特定关系。回归分析是建立因变量Y(或称依变量、原文为:response variables, dependent variables)与自变量X(或称独变量,原文为predictors, independent variables)之间关系的模型。

Syndicate content