WineQualityReds EDA
作为一个数据分析师,在数据处理过程中,当获取到一份新数据,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手。如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。
首先什么是探索性数据分析(Exploratory Data Analysis,EDA)?
实际上,这是一系列的方法,它的目的就是让你最大化对数据的直觉,为了让你对数据有感觉,你不仅需要知道数据里有什么,你还需要知道数据里没有什么,而完成这件事情的方法只有一个,那就是结合各种统计学的图形把数据以各种形式展现在我们面前。它可以完成这些事情:
- 让你最大程度得到数据的直觉
- 发掘潜在的结构
- 提取重要的变量
- 删除异常值
- 检验潜在的假设
- 建立初步的模型
- 决定最优因子的设置
这里在完成了一阶段的R语言学习后,我收集了一份红酒品质的数据,用R语言进行探索式数据分析,在完成数据探索后,我希望能够快速的了解数据,并提取出数据的重要变量,并为后续的数据模型建立提供基础。
以下是对红酒品质数据的探索分析过程