《数据挖掘与分析》课程论文
题目:甘肃省县(区)域农业综合实力研究
xx学院xx专业xx班:xx
2023年6月
甘肃省县(区)域农业综合实力研究
xx
(xx学院xx学院)
摘要:本文主要研究甘肃省各县(区)的农业综合实力,并采用聚类分析法的k-means聚类法对各县(区)进行综合评价。通过数据的收集和整理,我们得到了各县(区)的农业生产、农业科技、农村基础设施等方面的指标,然后进行量化处理和综合分析,最终得出各县(区)的综合实力排名。研究结果表明,甘肃省各县(区)的农业综合实力差异较大,南部地区的综合实力相对较强,中北部地区的综合实力相对较弱。
关键词:甘肃省;K-means聚类算法; 不同县区域农业在综合实力差异与联系;
一、引言
数据对应的县区:庆城县、山丹县、肃北县、肃南县、肃州区、天祝县、通渭县、渭源县、文县、武都区、武山县、西峰区、西固区、西和县、夏河县、永昌县、永登县、永靖县、榆中县、玉门市。
二、采用的数学方法
2.1 聚类概述
数据挖掘中的聚类是一种数据分析技术,其目的是将相似的数据分组在一起,同时将不相似的数据分到不同的组中。聚类分析可以用于许多领域,如市场研究、医学、生物学、社会科学和计算机科学等。我将简单介绍数据挖掘聚类的基本概念、方法和应用。此次研究内容中,讨论的是每个自变量对因变量干的相关分析,因此选用k-均值法来研究。
2.2 聚类的几种方法
2.2.1分层聚类
分层聚类是一种自下而上的聚类方法。该方法从每个数据对象开始构建簇,然后逐步合并簇,直到所有数据对象都在同一个簇中。分层聚类可以是凝聚的或分裂的。凝聚的分层聚类是从每个数据对象开始构建簇,然后合并最相似的簇,直到所有数据对象都在同一个簇中。分裂的分层聚类是从所有数据对象开始构建一个簇,然后逐步将簇分裂成更小的簇,直到每个数据对象都在一个簇中。
2.2.2 划分聚类
划分聚类是一种自上而下的聚类方法。该方法将所有数据对象分成k个簇,每个簇包含相似的数据对象。划分聚类可以是基于距离的或基于密度的。基于距离的划分聚类是将数据对象分配到最近的簇中,直到所有数据对象都被分配到一个簇中。基于密度的划分聚类是将数据对象分配到密度高的区域中,直到所有数据对象都被分配到一个簇中。
2.2.3 k-means聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
2.2.4 聚类算法过程及公式
先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
1) 没有(或最小数目)对象被重新分配给不同的聚类。
2) 没有(或最小数目)聚类中心再发生变化。
3) 误差平方和局部最小。
三、k-means算法过程
3.1 原始数据处理
3.2 标准化处理
3.3 正规化处理
3.3 k-means聚类算法
四、分析数据结果
两种数据处理的方式得到的分类结果
第一类——庆城县、通渭县、渭源县、文县、武都区、武山县、西峰区、西和县、永登县、永靖县、榆中县
第二类——山丹县、肃州区、永昌县
第三类——肃北县、西固区
第四类——肃南县、天祝县、夏河县、玉门市
农业综合实力强弱的排序(以类排序)
用平均值作为指标进行四类之间的排序,计算出结果如下图所示:
五、结论与总结
结果:第二类的综合实力最高,依次为第一类、第四类、第三类。
结论一:
结论二:
结论三:
结论四:
六、参考文献
【1】李春葆,蒋林,程良臣,喻丹丹,曾平.数据仓库与数据挖掘应用教程.清华大学出版社
完整版论文课设(Word+代码+excel)请参考以下链接查看
https://download.csdn.net/download/qq_53142796/87942713https://download.csdn.net/download/qq_53142796/87942713