数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树


数据挖掘:关联规则

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 数据挖掘:关联规则
    • @[TOC](文章目录)
  • 关联规则
  • 异常检测
  • 数据挖掘的标准流程
  • 数据挖掘的经典算法
  • 训练误差和泛华误差
  • 分类算法评估指标:hold-out method
  • 聚类方法
  • 总结

关联规则

如果相关性很大,那就可以去掉其中一个属性
图片[1] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[2] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[3] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

异常检测

图片[4] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

数据挖掘的标准流程

图片[5] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[6] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[7] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[8] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[9] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
这些不仅是理论,更是实际业务会遇到的东西
图片[10] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[11] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[12] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[13] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[14] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
NLP
图片[15] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[16] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL图片[17] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[18] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[19] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL图片[20] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
长尾问题

数据挖掘的经典算法

这些可能会考的
去年就考了聚类哦
图片[21] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

图片[22] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
TP:实际为正,预测为正
FP:实际为负,预测为正
FN:实际为正,预测为负
TN:实际为负,预测为负

准确率acc,是TP和TN的在所有情况中的占比

recall,数据中所有正类中,真正被预测为正类的比例。就是被真的召回的正类比例

precise,在所有被预测为正类中,实际正类的比例【精确是正类的】这俩别混了
图片[23] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
ROC是pr的曲线

图片[24] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
检测出来了,但是你也不能误报
往往希望,recall高一点,而误报也要小

图片[25] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
误报了

误报率是负样本认为正了
图片[26] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

召回是1000个中的5个,好low

训练误差和泛华误差

图片[27] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

分类算法评估指标:hold-out method

train和test,随机分组的交叉验证

k-fold,k组,但是每次k-1个为训练集,而剩下一组为训练集
轮番高k次
k一般是10,叫十指交叉验证
图片[28] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
留一验证
当数据量很小,就留一个样本作为测试集
图片[29] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

分组,组元素个数为1
图片[30] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

聚类方法

图片[31] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
先了解,后面会详细讲解的

看层次
图片[32] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[33] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[34] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[35] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[36] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[37] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
Nt就是正类
Ntk是确实是真的正类
图片[38] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
图片[39] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL图片[40] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL

图片[41] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
离差
图片[42] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
Ck中的i与中心u的距离

l簇和u簇的中心距离,越远越好
图片[43] - 数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树 - MaxSSL
C4.5算法

开始具体的算法了


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享