产品  数据挖掘工具
功能一览
数据前处理功能
功能 说明
清洗 对缺损值和异常值进行检查和修正
分组 对数据进行归类和范畴划分
采样 从数据中抽出一部分
正规化 对数据进行大小或分布上的变换
排序 对数据进行升序或降序的排列
数据文件分割 将数据分为学习用和验证用两部分
过滤 将符合所指定条件的数据提取出来
统合 将多个数据合成一个数据
数据列属性变更 变更数据列的性质、进行量化操作
数据处理加工 交互式的数据处理加工
再配置 对表中数据进行重新配置
匿名化 对数据进行加工,使其匿名化
日期及时间处理 对日期时间数据进行有关的计算处理
行选择 将满足条件的行抽取出来。可以对复数个表中的数据一次全部抽取出来
日期选择 将满足所指定条件的日期抽取出来
时间序列数据处理(基本操作) 可以表示时间序列数据的统计量和推移列
时间序列数据处理(线段表示) 用一组线段来近似时间序列数据
时间序列数据处理(距离计算) 将符合(或不符合)某个模式的时间序列数据抽取出来
数据挖掘处理功能-1
功能 说明
分组分析
(Classification)
Decision Tree 可做成多分枝的回归树、分类树。能够对应缺损值,和用户之间以对话形式进行分析
K-NN分析 根据近邻的k个值来建立回归模型和判别模型
神经网络 采用阶层型神经网络来建立回归模型和判别模型
Radial Basis Function Network
采用中间层的高斯函数来建立回归模型和判别模型
Support Vector Machine 采用支持向量来建立回归模型和判别模型
nuSVM
在支持向量机中的支持向量数可变
Support Ball Machine 采用聚类手法进行数据压缩,并与支持向量机方法一起来建立判别模型。该方法在处理大规模数据时尤为有效
预测 使用模型进行评价与预测
规则库预测 根据从学习用数据提炼出来的规则对未知数据进行分析、预测
模型集成 根据复数个模型间的权重比进行最优化的集团学习
Naive Bayes 考虑说明变量之间的相互依赖关系,根据朴素贝叶斯定理进行判别分析
交叉验证 利用不同的数据轮流重复进行学习,最后求得最合适的模型
Boosting 将复数个模型统合起来,求得一个高精度的模型
Bagging 使用复数个模型进行表决,根据少数服从多数的原则建立相应的避免过学习的模型
 
数据挖掘处理功能-2
功能 说明
统计量 统计 各个项目的计数、统计量计算(合计、平均、方差、最大、最小等)
相关 相关系数/卡方值/F值的计算
Feature Selection 搜索对目的变量有效的说明变量
簇间的比较
将数据分为复数的簇并自动将每个簇的特征提取出来
RFM分析 根据顾客购物的履历,从中筛选出优良顾客的信息
聚类分析
(Clustering)
BIRCH 先将数据进行压缩,然后对已经压缩过的数据采用K-Means法进行处理
K-Means法 指定k个簇,在此前提下对数据进行聚类处理
OPTICS 根据数据的密度进行聚类。特殊形状的簇也可以被抽取出来
自组织映射(SOM) 利用神经网络将数据映射在2维平面上
阶层化网络 根据各个街节点的连接情报,进行阶层型的聚类处理
One-Class SVM 使用支持向量,对未命中的值进行验证
阶层型聚类 进行阶层型聚类,结果用树状图标进行表示
Cluster Validation 对聚类进行评价
 
数据挖掘处理功能-3
功能 说明
组间关联分析(Association) 组间关联分析 抽取出多阶层间的关联规则(前提=>结论)
交互式规则分析 指定关联规则,在此前提下进行对话式探索
关联性图解分析 对指定的项目之间看其是否存在关联性
时间序列的组间关联分析
探索与时间序列有关的关联规则
簇间关联分析 对作为结论的列进行关联性分析
多变量分析 主成分分析 将数据中多个变量的信息归纳为少数的几个变量来表示
因子分析 从多变量数据众找到潜在的因子
对应分析 对定性数据量化后,进行主成分分析
Kernel主成分分析 使用核心法进行主成分分析
 
数据表示功能
功能 说明
数据视图 表及各种图形的表示
网络图形 网络形式数据的表示
S-PLUS图形 可以调用S-PLUS的图形功能
 
脚本语言功能
功能 说明
脚本语言 可定义自己的数据处理流程并重复执行
S的脚本语言 可直接调用执行S语言的脚本语言
外部脚本语言 可以调用R、SAS、NATLAB、Perl等脚本语言
 
插件
功能 说明
Text Mining Studio 可进行各种文本数据的分析
文本处理模块 可将文本数据转换为表的形式
BNModule 生成贝叶斯网络推理模型,进行概率推论
 
统计解析功能
·数据的基本运算及处理 ·时间序列解析
·线形代数演算 ·信号处理
·基本统计 ·生存时间解析
·多变量解析 ·检定
·回归分析 ·品质管理图
·方差分析 ·探索型的数据解析
  ·印象图形
  ·动态图形
 
其它功能
功能 说明
数据共享 可以对网络数据进行共享
批处理 根据指定的处理流程,可以对数据流进行外部批处理
数据库接续 通过ODBC可与数据库相连接。具有大容量、超高速的特征
批处理 可在外部直接运行所编制批处理文件
EXCEL接续 可直接对EXCEL文件的数据进行操作
文本整形 在某些情况下,可自动纠正文本数据中的输入错误
 
S语言与S-PLUS的小知识
· S语言是由AT&T贝尔实验室开发的一种解释型语言,主要是用来进行统计分析、数据探索和作图。具有丰富的数据类型(数组、列表、向量、对象等),可以方便地实现用户自己的新的统计算法。交互式的运行方式、强大的图形功能使得用户能够方便的探索数据。 S-PLUS则是由美国公司开发的一种基于S语言的统计学软件,是世界上公认的三大统计软件之一。同S语言一样,其最大特点在于它可以交互地从各方面发现数据中的信息,并可以很容易地实现一个新的统计方法。S-PLUS主要用于数据挖掘、统计分析和统计作图等应用领域
· 本公司是S-PLUS在日本的总代理公司