WineQualityReds EDA by lihan

This database is from:

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.

Modeling wine preferences by data mining from physicochemical properties.

In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

Available at: [@Elsevier] http://dx.doi.org/10.1016/j.dss.2009.05.016

[Pre-press (pdf)] http://www3.dsi.uminho.pt/pcortez/winequality09.pdf

[bib] http://www3.dsi.uminho.pt/pcortez/dss09.bib

## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

通过查看数据集,可以看到,本数据集包含12个变量,且所有变量均为连续型变量。

单一变量探索

Quality

对于红酒来说,其品质应该是最重要的一个元素,这里我们首先对红酒质量的分布情况做一下探索

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

通过查看quality的统计描述,我们可以看到,红酒质量主要分布在5-6之间,接下来我们使用条形图查看一下其分布情况

计算品质为5和6的红酒的占比情况

## [1] 0.8248906 1.0000000

根据以上探索可以得出如下结论: 1.红酒质量最多的是品质度为5的红酒 2.约82.5%的红酒品质度为5或6

Fixed Acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90

## [1] 0.5290807 1.0000000

根据相关探索我们可以看出: fixed.acidity比较集中位于7-9之间,其占比约为50.4%。

Volatile Acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800

通过查看数据,我们发现Volatile Acidity最大值达到了1.58,且仅有少量数据超过1.1,这部分数据可能为异常值。根据直方图来看,峰值比较集中,红酒中大部分Volatile Acidity值分布在0.3-0.7之间。

Citric Acid

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000

## [1] 132  13
## [1] 0.8686679 1.0000000

观察数据可以看出,citric.acid绝大部分值小于0.5,其占比为86.87%,其中有132份红酒中不含citric.acid。

Residual Sugar

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500

## [1] 0.945591 1.000000

观察数据可以看到residual.sugar的值分布比较集中,绝大部分介于1-5之间,占比约为94.56%,超过5 g/dm^3的非常少,且分布比较零散。将数据范围限制在1-5之后,直方图显示,大部分residual.sugar值位于1.5-2.5之间,且峰值为2 g/dm^3。

Chlorides

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

对chlorides的值筛选后得到较为合理的直方图分布,可以看到chlorides的值集中分布于0.06-0.09之间,峰值大约位于0.75左右。

Free Sulfur Dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00

筛除异常数据后,通过第二张直方图可以看出,free.sulfur.dioxide的峰值位于6左右。

Total Sulfur Dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   22.00   38.00   46.47   62.00  289.00

在筛除异常值后,观察直方图可以看出,大部分total.sulfur.dioxide的值小于70,峰值位于15左右。

Density

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037

density值在基本集中在0.99-1之间,其变化幅度非常小,整体分布上也比较接近正态分布,其峰值在0.997。

PH

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010

pH值的分布也十分接近正态分布,pH值分布在2.7-4之间,绝大部分值集中3-3.7之间,其中峰值位于3.35。

Sulphates

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000

筛除异常值后,得到一个比较正常的直方图,可以看出sulphates值大部分集中在0.5-0.7之间,其峰值位于0.6。

Alcohol

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

筛除异常值后,可以看出alcohol大部分值分布在9-13之间,其峰值位于9.5。

What is the structure of your dataset?

wineQualityReds数据集一共包含1599个观察值,以及13个变量,其中x为序列,所以有效变量为12个,且均为连续变量。

What is/are the main feature(s) of interest in your dataset?

通过对单变量进行分析可以看出,我们最关心的红酒质量quality约82.5%分布在5-6,alcohol主要分布在9-13之间,有50.4%的红酒fixed.acidity位于7-9之间,quality是数据集中的主要兴趣特征。

What other features in the dataset do you think will help support your investigation into your feature(s) of interest?

fixed acidity,volatile acidity, residual sugar,alcohol是影响葡萄酒口感几个重要特征,所以我认为这几个特征将会对我的研究有帮助。

Did you create any new variables from existing variables in the dataset?

没有

Of the features you investigated, were there any unusual distributions? Did you perform any operations on the data to tidy, adjust, or change the form of the data? If so, why did you do this?

在探索过程中,有多个变量出现了异常值,导致直方图的分布无法有效的反应数据的分布情况。我处理的方法为使用scale_x_continue函数对x轴进行缩放,来获得大致正常的直方图方便我们查看正常的数据分布情况。

Correlation Graph

对数据集进行相关性分析,根据相关图可以看出,quality跟volatile.acidity成一定的负相关,跟alcohol、citric.acid、sulphates成正相关,接下来重点对这几个变量进行双变量分析

Bivariate Plots Section

根据相关性分析,我们找到四个和quality具有较强相关性的变量,首先我们先对quality和volatile.acidity进行分析。

quality & volatile.acidity

## [1] -0.3905578

根据箱线图可以看出,quality越高的红酒的volatile.acidity越低,两个变量之间呈弱负相关,相关系数为-0.39。

quality & alcohol

## [1] 0.4761663

alcohol与quality呈中等强度正相关,相关系数为0.47,quality随alcohol的增长而增长。

quality & citric.acid

## [1] 0.2263725

citric.acid与quality呈弱的正相关,相关系数为0.22,quality随citric.acid的增长而增长。

quality & sulphates

## [1] 0.2513971

sulphates与quality呈弱的正相关,相关系数为0.25,quality随sulphates的增长而增长。

Bivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. How did the feature(s) of interest vary with other features in the dataset?

数据集中,quality跟volatile.acidity成负相关,跟alcohol、citric.acid、sulphates成正相关,其中alcohol与quality之间存在较强的相关性,其他三个变量与quality之间存在较弱的相关性。有意思的是,这几个变量相对数据集中的其他变量来说,是比较影响红葡萄酒口感的,所以这些变量与quality之间会存在一定的相关性。

Did you observe any interesting relationships between the other features (not the main feature(s) of interest)?

在进行相关性分析之前,我们认为residual sugar会对quality产生影响,但是在进行实际分析后发现,residual sugar几乎与quality不存在任何相关性,这点让人出乎意料。

What was the strongest relationship you found?

数据集中相关性最强的两个变量是total sulfur dioxide 和 free sulfur dioxide,两者的相关系数达到了0.66,呈现非常强的相关性。不过其实这两个变量本身是互相有关联的,都是红酒中二氧化硫的含量,所以其呈现强相关性也容易理解。

Multivariate Plots Section

根据上面的分析结果,我们发现alcohol与quality之间存在较强的相关性,接下来我们探索一下alcohol与quality和volatile.acidity、citric.acid、sulphates之间的关系。

alcohol & quality 与volatile.acidity、citric.acid、sulphates

通过以上散点图可以看出:

  1. citric.acid、alcohol越高,quality越高。

  2. sulphates、alcohol越高,quality越高,它们呈正相关。

volatile.acidity & quality 与 alcohol、citric.acid、sulphates

可以看出volatile.acidity越低,红葡萄酒的品质越好。

citric.acid & quality 与 alcohol、volatile.acidity、sulphates

可以看出citric.acid对红酒品质没有明显的影响

sulphates & quality 与 alcohol、volatile.acidity、citric.acid

可以看出,sulphates越高,红葡萄酒的品质越好

Multivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. Were there features that strengthened each other in terms of looking at your feature(s) of interest?

alcohol有助于红酒的品质,sulphates也会对葡萄酒的品质产生积极影响,volatile.acidity越低葡萄酒的品质越好。

Were there any interesting or surprising interactions between features?

citric.acid单独对红酒品质影响有限,但citric.acid和alcohol值较高时,对葡萄酒的品质能产生积极影响。

Final Plots and Summary

葡萄酒品质条形图

该图说明数据集中82.48%的葡萄酒质量为5&6,我们需要找到其他指标对葡萄酒质量的影响。

alcohol & quality 与volatile.acidity

可以看到alcohol和volatile.acidity与葡萄酒的质量密切相关。

它们呈现强相关性,从这个散点图可以看出,alcohol和volatile.acidity与葡萄酒的品质正相关。

alcohol含量越高,volatile.acidity越高,葡萄酒质量越好。

alcohol & quality 与sulphates

这个散点图显示了alcohol、sulphates与葡萄酒质量关系的清晰说明,它表明酒精和硫酸盐与葡萄酒的品质呈正相关。

较高的alcohol、sulphates会对葡萄酒品质产生积极影响。

Reflection

红酒数据集包含1599个观测值,13个变量。在此分析中,我们的主要目标是找出哪些元素会影响红葡萄酒的质量。

在单变量分析中,对各种指标绘制了其直方图。我们观察到82%的葡萄酒质量5和质量6,其他直方图我们无法得到一个明确的结论。

然后绘制了一个相关图,通过相关图我们能够分析出alcohol,volatile.acidity,citric acid,sulphates与葡萄酒的品质相关。

在双变量分析中,我们绘制了相关变量的箱线图并得到如下结论:

以下因素会对葡萄酒的品质产生积极影响:

  1. 挥发性低的酸性

  2. 高水平的酒精

  3. 高水平的柠檬酸

  4. 高硫酸盐值

在多变量分析中,绘制了散点图。

通过绘制这几个与质量相关的变量散点图,我们了解高硫酸盐和高酒精,高柠檬酸和高酒精,低挥发性酸度,高硫酸盐会影响葡萄酒的品质。

但柠檬酸与其他性质的分析并没有得到很好的效果。

遇到的问题与解决

在进行多变量分析时,由于数据集里变量均为连续变量,导致在绘制散点图时一直得不到想要的图形,后来采用的一个解决办法为使用cut切割连续变量,生成额外区间字段,即变为分类变量进行分析。

再后来分析过程中发现,多变量的散点图中只需要把quality作为分类变量置于color中即可,其他连续变量设置为x、y轴,这样出来的散点图效果会更加直观。

所以在绘制散点图时,对于变量的设置是比较重要的,合理的变量设置会让生成的散点图更加直观的看到数据的分布情况,这一点也是在作业中吸取到的经验教训。

如何在未来的工作中丰富分析(例如额外的数据和分析)?

上述数据集包含1599个观测数据的有限数据。在该数据集中,82%的葡萄酒质量为5&6,分布过于集中,如果样本数据能够扩大且覆盖更多不同品的葡萄酒,我们将能得到更准确的结论。