1.2.2 什么是数据挖掘
数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式及知识,它涉及数据预处理、建立模型与推断、可视化等。数据挖掘包括以下几类常见任务。
1.异常检测
异常检测(Anomaly Detection)是对不符合预期模式的样本、事件进行识别。异常也被称为离群值、偏差和例外等。异常检测常用于入侵检测、金融欺诈检测、疾病检测、故障检测等。
2.关联规则学习
关联规则学习(Association Rule Learning)是在数据库中发现变量之间的关系(强规则)。例如,在购物篮分析中,发现规则{面包,牛奶}→{酸奶},表明如果顾客同时购买了面包和牛奶,很有可能也会买酸奶,利用这些规则可以进行相应的营销。
3.聚类
聚类是一种探索性分析,在未知数据结构的情况下,根据相似性把样本分为不同的簇或子集,不同簇的样本具有很大的差异性,从而发现数据的类别与结构。
4.分类
分类是根据已知样本的某些特征,判断一个新样本属于哪种类别。通过特征选择和学习,建立判别函数以对样本进行分类。
5.回归
回归是一种统计分析方法,用于了解两个或多个变量之间的相关关系。回归的目标是找出误差最小的拟合函数作为模型,用特定的自变量来预测因变量的值。
随着数据存储(非关系型NoSQL数据库等)、分布式数据计算(Hadoop/Spark等)、数据可视化等大数据相关技术的发展,数据挖掘对事务的理解能力越来越强。大量的数据集成在一起,增加了对算法的要求,因此数据挖掘要尽可能获取更多、更有价值、更全面的数据,并从这些数据中提取价值。
数据挖掘在商务智能领域的应用较多,特别是在决策辅助、流程优化、精准营销等方面。广告公司可以使用用户的浏览历史、访问记录、点击记录和购物车等数据,对广告进行精准投放。利用舆情分析,特别是情感分析可以吸取公众意见来驱动市场决策。例如,在电影推广时对社交评论进行监控,寻找与目标观众产生共鸣的元素,然后调整媒体宣传策略以迎合观众口味,吸引更多人群。