| |
|
|
| 功能一览 |
|
|
| 数据前处理功能 |
| 功能 |
说明 |
| 清洗 |
对缺损值和异常值进行检查和修正 |
| 分组 |
对数据进行归类和范畴划分 |
| 采样 |
从数据中抽出一部分 |
| 正规化 |
对数据进行大小或分布上的变换 |
| 排序 |
对数据进行升序或降序的排列 |
| 数据文件分割 |
将数据分为学习用和验证用两部分 |
| 过滤 |
将符合所指定条件的数据提取出来 |
| 统合 |
将多个数据合成一个数据 |
| 数据列属性变更 |
变更数据列的性质、进行量化操作 |
| 数据处理加工 |
交互式的数据处理加工 |
| 再配置 |
对表中数据进行重新配置 |
| 匿名化 |
对数据进行加工,使其匿名化 |
| 日期及时间处理 |
对日期时间数据进行有关的计算处理 |
| 行选择 |
将满足条件的行抽取出来。可以对复数个表中的数据一次全部抽取出来 |
| 日期选择 |
将满足所指定条件的日期抽取出来 |
| 时间序列数据处理(基本操作) |
可以表示时间序列数据的统计量和推移列 |
| 时间序列数据处理(线段表示) |
用一组线段来近似时间序列数据 |
| 时间序列数据处理(距离计算) |
将符合(或不符合)某个模式的时间序列数据抽取出来 |
|
|
| 数据挖掘处理功能-1 |
| 功能 |
说明 |
分组分析
(Classification) |
Decision Tree |
可做成多分枝的回归树、分类树。能够对应缺损值,和用户之间以对话形式进行分析 |
| K-NN分析 |
根据近邻的k个值来建立回归模型和判别模型 |
| 神经网络 |
采用阶层型神经网络来建立回归模型和判别模型 |
Radial Basis Function Network
|
采用中间层的高斯函数来建立回归模型和判别模型 |
| Support Vector Machine |
采用支持向量来建立回归模型和判别模型 |
nuSVM
|
在支持向量机中的支持向量数可变 |
| Support Ball Machine |
采用聚类手法进行数据压缩,并与支持向量机方法一起来建立判别模型。该方法在处理大规模数据时尤为有效 |
| 预测 |
使用模型进行评价与预测 |
| 规则库预测 |
根据从学习用数据提炼出来的规则对未知数据进行分析、预测 |
| 模型集成 |
根据复数个模型间的权重比进行最优化的集团学习 |
| Naive Bayes |
考虑说明变量之间的相互依赖关系,根据朴素贝叶斯定理进行判别分析 |
| 交叉验证 |
利用不同的数据轮流重复进行学习,最后求得最合适的模型 |
| Boosting |
将复数个模型统合起来,求得一个高精度的模型 |
| Bagging |
使用复数个模型进行表决,根据少数服从多数的原则建立相应的避免过学习的模型 |
|
| |
| 数据挖掘处理功能-2 |
| 功能 |
说明 |
| 统计量 |
统计 |
各个项目的计数、统计量计算(合计、平均、方差、最大、最小等) |
| 相关 |
相关系数/卡方值/F值的计算 |
| Feature Selection |
搜索对目的变量有效的说明变量 |
簇间的比较
|
将数据分为复数的簇并自动将每个簇的特征提取出来 |
| RFM分析 |
根据顾客购物的履历,从中筛选出优良顾客的信息 |
聚类分析
(Clustering) |
BIRCH |
先将数据进行压缩,然后对已经压缩过的数据采用K-Means法进行处理 |
| K-Means法 |
指定k个簇,在此前提下对数据进行聚类处理 |
| OPTICS |
根据数据的密度进行聚类。特殊形状的簇也可以被抽取出来 |
| 自组织映射(SOM) |
利用神经网络将数据映射在2维平面上 |
| 阶层化网络 |
根据各个街节点的连接情报,进行阶层型的聚类处理 |
| One-Class SVM |
使用支持向量,对未命中的值进行验证 |
| 阶层型聚类 |
进行阶层型聚类,结果用树状图标进行表示 |
| Cluster Validation |
对聚类进行评价 |
|
| |
| 数据挖掘处理功能-3 |
| 功能 |
说明 |
| 组间关联分析(Association) |
组间关联分析 |
抽取出多阶层间的关联规则(前提=>结论) |
| 交互式规则分析 |
指定关联规则,在此前提下进行对话式探索 |
| 关联性图解分析 |
对指定的项目之间看其是否存在关联性 |
时间序列的组间关联分析
|
探索与时间序列有关的关联规则 |
| 簇间关联分析 |
对作为结论的列进行关联性分析 |
| 多变量分析 |
主成分分析 |
将数据中多个变量的信息归纳为少数的几个变量来表示 |
| 因子分析 |
从多变量数据众找到潜在的因子 |
| 对应分析 |
对定性数据量化后,进行主成分分析 |
| Kernel主成分分析 |
使用核心法进行主成分分析 |
|
| |
| 数据表示功能 |
| 功能 |
说明 |
| 数据视图 |
表及各种图形的表示 |
| 网络图形 |
网络形式数据的表示 |
| S-PLUS图形 |
可以调用S-PLUS的图形功能 |
|
| |
| 脚本语言功能 |
| 功能 |
说明 |
| 脚本语言 |
可定义自己的数据处理流程并重复执行 |
| S的脚本语言 |
可直接调用执行S语言的脚本语言 |
| 外部脚本语言 |
可以调用R、SAS、NATLAB、Perl等脚本语言 |
|
| |
| 插件 |
| 功能 |
说明 |
| Text Mining Studio |
可进行各种文本数据的分析 |
| 文本处理模块 |
可将文本数据转换为表的形式 |
| BNModule |
生成贝叶斯网络推理模型,进行概率推论 |
|
| |
| 统计解析功能 |
| ·数据的基本运算及处理 |
·时间序列解析 |
| ·线形代数演算 |
·信号处理 |
| ·基本统计 |
·生存时间解析 |
| ·多变量解析 |
·检定 |
| ·回归分析 |
·品质管理图 |
| ·方差分析 |
·探索型的数据解析 |
| |
·印象图形 |
| |
·动态图形 |
|
| |
| 其它功能 |
| 功能 |
说明 |
| 数据共享 |
可以对网络数据进行共享 |
| 批处理 |
根据指定的处理流程,可以对数据流进行外部批处理 |
| 数据库接续 |
通过ODBC可与数据库相连接。具有大容量、超高速的特征 |
| 批处理 |
可在外部直接运行所编制批处理文件 |
| EXCEL接续 |
可直接对EXCEL文件的数据进行操作 |
| 文本整形 |
在某些情况下,可自动纠正文本数据中的输入错误 |
|
| |
| S语言与S-PLUS的小知识 |
| · |
S语言是由AT&T贝尔实验室开发的一种解释型语言,主要是用来进行统计分析、数据探索和作图。具有丰富的数据类型(数组、列表、向量、对象等),可以方便地实现用户自己的新的统计算法。交互式的运行方式、强大的图形功能使得用户能够方便的探索数据。 S-PLUS则是由美国公司开发的一种基于S语言的统计学软件,是世界上公认的三大统计软件之一。同S语言一样,其最大特点在于它可以交互地从各方面发现数据中的信息,并可以很容易地实现一个新的统计方法。S-PLUS主要用于数据挖掘、统计分析和统计作图等应用领域 |
| · |
本公司是S-PLUS在日本的总代理公司 |
|
| |