作为一个数据分析师,在数据处理过程中,当获取到一份新数据,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手。如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。

首先什么是探索性数据分析(Exploratory Data Analysis,EDA)?

实际上,这是一系列的方法,它的目的就是让你最大化对数据的直觉,为了让你对数据有感觉,你不仅需要知道数据里有什么,你还需要知道数据里没有什么,而完成这件事情的方法只有一个,那就是结合各种统计学的图形把数据以各种形式展现在我们面前。它可以完成这些事情:

  1. 让你最大程度得到数据的直觉
  2. 发掘潜在的结构
  3. 提取重要的变量
  4. 删除异常值
  5. 检验潜在的假设
  6. 建立初步的模型
  7. 决定最优因子的设置

这里在完成了一阶段的R语言学习后,我收集了一份红酒品质的数据,用R语言进行探索式数据分析,在完成数据探索后,我希望能够快速的了解数据,并提取出数据的重要变量,并为后续的数据模型建立提供基础。

以下是对红酒品质数据的探索分析过程

WineQualityRed EDA