作业

1、数据挖掘的定义?

数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。

2、数据挖掘主要有哪些技术方向?

答:数据挖掘的技术可分为:统计方法、机器学习方法、神经网络方法、数据库方法。

3、简述数据挖掘的过程?

1数据采集 (2)特征提取和数据清洗 (3)分析处理和算法

4、数据预处理的主要任务?

(1)数据清洗:填补缺失值 | 平滑噪音数据 | 识别并移除异常值和噪音数据 | 解决不一致性 | 解决数据整合后带来的冗余;

(2)数据整合:集成多个数据库或多个文件;

(3)数据转换:正则化 | 聚合化;

(3)数据缩成:提取有特征化的数据,减少数据量,并能够产生相同或相似的分析结果;

(4)数据离散:对某些数值型数据有时需要

5、简述高维数据的可视化方法?

高维数据可视化:箱线图和平行坐标图

6、PCA(主成分分析)和LDA(线性判别分析)的异同点?
相同点:两者均可以对数据进行降维;都属于特征提取;两者在降维时均使用了矩阵特征分解的思想;两者都假设数据符合高斯分布

不同点:
(1)LDA是有监督的降维方法,PCA是无监督的。

(2)LDA降维最多降到类别数K-1的维数,PCA没有这个限制。

(3)LDA选择分类性能最好的投影方向,PCA选择数据最大分差的方向。

(4)LDA可能会过拟合数据。

7、数据规范化的方法和公式?

(1)极值标准化:

(2)Z-Score 规范化:

8、特征提取和特征选择的区别?
特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。

9、属性间相关联系分析方法和公式?

(1)皮尔森相关性

(2)卡方检验

10、ID3的优点?缺点?

缺点:

  • 只考虑分类的特征,没有考虑连续特征
  • 对缺失值没有考虑
  • 没有考虑拟合问题
  • 划分过程会由于子集规模过大而造成统计特征不充分而停止

优点:理论清晰,方法简单,学习能力较强

11、C4.5算法基于ID3算法做的改进?
改进1:用信息增益率代替信息增益来选择属性

改进2:能够完成对连续值属性的离散化处理
改进3∶能处理属性值缺失的情况
改进4:在决策树构造完成之后进行剪枝

13、什么是频繁项集?性质?

频繁项集是指支持度大于等于最小支持度(min_sup)的集合。

性质1:频繁项集的子集必为频繁项集

性质2:非频繁项集的超集一定是非频繁的

14、APRIORI算法的核心及思想?

核心:生成所有频繁项集。

思想:逐级搜索,先找出长度最大的频繁项集,接着找出长度为2的频繁项集,以此类推:L1=>C2=>L2=>C3.....

15、APRIORI算法的不足之处?

( 1 )可能产生庞大的候选集。
(2)算法需多次遍历数据集,算法效率低,耗时

16、聚类对算法的基本要求?

高的簇内相似性,低的簇间相似性

17、什么是相似性度量?

相似性度量,即综合评定两个事物之间相近程度的一种度量。

1)对称的二值离散型

简单匹配方法

SMC=(b+c)/(a+b+c+d)

不对称的二值离散属性(Jaccard系数

JC=(b+c)/(a+b+c)

(2)多值离散型

简单匹配法

18、缺失值处理?

( 1 )人工填写(2)特殊值填充

(3)平均值填充(4)使用最有可能的值填充

19、请描述 K 均值(K-Means)算法的核心思想

(1)随机选择k个对象,每个对象代表一个簇的初始均值或中心

(2)对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇

(3)计算每个簇的新均值

(4)回到步骤2,循环,直到准则函数收敛

20、为什么要数据预处理” />答:数据预处理的目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性。
预处理技术:数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理:数据是不完整的、有噪声的、不一致的(填充缺失值、去除噪声并识别离散点、纠正数据中的不
致值)
②数据集成(聚合)︰对数据进行聚合,将两个或多个数据源的数据,存放在一个一致的数据存储设备中。
③数据变换:将数据转换成适合于挖掘的形式。(平滑、聚集、数据泛化、规范化、数据离散化)
④数据归约:包含抽样、特征选择。

21、噪声数据的平滑方法?

(1)分箱:
第一步:数据被分为n个等深箱
第二步:使用平均值或者边界平滑
箱越深、宽度越大,平滑效果越好。
(2)聚类:删除离群点
(3)回归:找适合的函数

22、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集?

在机器学习领域,分类称做监督学习,因为给定了类标号信息,即学习算法是监督的,因为它被告知每个训练元组的类隶属关系。

聚类被称做无监督学习,因为没有提供类标号信息。

训练集由数据元组和与它们相关的类标号组成,检验集由检验元组和与它们相关联的类标号组成。