This database is from:
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.
Modeling wine preferences by data mining from physicochemical properties.
In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.
Available at: [@Elsevier] http://dx.doi.org/10.1016/j.dss.2009.05.016
[Pre-press (pdf)] http://www3.dsi.uminho.pt/pcortez/winequality09.pdf
[bib] http://www3.dsi.uminho.pt/pcortez/dss09.bib
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
通过查看数据集,可以看到,本数据集包含12个变量,且所有变量均为连续型变量。
对于红酒来说,其品质应该是最重要的一个元素,这里我们首先对红酒质量的分布情况做一下探索
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
通过查看quality的统计描述,我们可以看到,红酒质量主要分布在5-6之间,接下来我们使用条形图查看一下其分布情况
计算品质为5和6的红酒的占比情况
## [1] 0.8248906 1.0000000
根据以上探索可以得出如下结论: 1.红酒质量最多的是品质度为5的红酒 2.约82.5%的红酒品质度为5或6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
## [1] 0.5290807 1.0000000
根据相关探索我们可以看出: fixed.acidity比较集中位于7-9之间,其占比约为50.4%。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
通过查看数据,我们发现Volatile Acidity最大值达到了1.58,且仅有少量数据超过1.1,这部分数据可能为异常值。根据直方图来看,峰值比较集中,红酒中大部分Volatile Acidity值分布在0.3-0.7之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
## [1] 132 13
## [1] 0.8686679 1.0000000
观察数据可以看出,citric.acid绝大部分值小于0.5,其占比为86.87%,其中有132份红酒中不含citric.acid。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
## [1] 0.945591 1.000000
观察数据可以看到residual.sugar的值分布比较集中,绝大部分介于1-5之间,占比约为94.56%,超过5 g/dm^3的非常少,且分布比较零散。将数据范围限制在1-5之后,直方图显示,大部分residual.sugar值位于1.5-2.5之间,且峰值为2 g/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
对chlorides的值筛选后得到较为合理的直方图分布,可以看到chlorides的值集中分布于0.06-0.09之间,峰值大约位于0.75左右。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
筛除异常数据后,通过第二张直方图可以看出,free.sulfur.dioxide的峰值位于6左右。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
在筛除异常值后,观察直方图可以看出,大部分total.sulfur.dioxide的值小于70,峰值位于15左右。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
density值在基本集中在0.99-1之间,其变化幅度非常小,整体分布上也比较接近正态分布,其峰值在0.997。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
pH值的分布也十分接近正态分布,pH值分布在2.7-4之间,绝大部分值集中3-3.7之间,其中峰值位于3.35。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
筛除异常值后,得到一个比较正常的直方图,可以看出sulphates值大部分集中在0.5-0.7之间,其峰值位于0.6。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
筛除异常值后,可以看出alcohol大部分值分布在9-13之间,其峰值位于9.5。
wineQualityReds数据集一共包含1599个观察值,以及13个变量,其中x为序列,所以有效变量为12个,且均为连续变量。
通过对单变量进行分析可以看出,我们最关心的红酒质量quality约82.5%分布在5-6,alcohol主要分布在9-13之间,有50.4%的红酒fixed.acidity位于7-9之间,quality是数据集中的主要兴趣特征。
fixed acidity,volatile acidity, residual sugar,alcohol是影响葡萄酒口感几个重要特征,所以我认为这几个特征将会对我的研究有帮助。
没有
在探索过程中,有多个变量出现了异常值,导致直方图的分布无法有效的反应数据的分布情况。我处理的方法为使用scale_x_continue函数对x轴进行缩放,来获得大致正常的直方图方便我们查看正常的数据分布情况。
对数据集进行相关性分析,根据相关图可以看出,quality跟volatile.acidity成一定的负相关,跟alcohol、citric.acid、sulphates成正相关,接下来重点对这几个变量进行双变量分析
根据相关性分析,我们找到四个和quality具有较强相关性的变量,首先我们先对quality和volatile.acidity进行分析。
## [1] -0.3905578
根据箱线图可以看出,quality越高的红酒的volatile.acidity越低,两个变量之间呈弱负相关,相关系数为-0.39。
## [1] 0.4761663
alcohol与quality呈中等强度正相关,相关系数为0.47,quality随alcohol的增长而增长。
## [1] 0.2263725
citric.acid与quality呈弱的正相关,相关系数为0.22,quality随citric.acid的增长而增长。
## [1] 0.2513971
sulphates与quality呈弱的正相关,相关系数为0.25,quality随sulphates的增长而增长。
数据集中,quality跟volatile.acidity成负相关,跟alcohol、citric.acid、sulphates成正相关,其中alcohol与quality之间存在较强的相关性,其他三个变量与quality之间存在较弱的相关性。有意思的是,这几个变量相对数据集中的其他变量来说,是比较影响红葡萄酒口感的,所以这些变量与quality之间会存在一定的相关性。
在进行相关性分析之前,我们认为residual sugar会对quality产生影响,但是在进行实际分析后发现,residual sugar几乎与quality不存在任何相关性,这点让人出乎意料。
数据集中相关性最强的两个变量是total sulfur dioxide 和 free sulfur dioxide,两者的相关系数达到了0.66,呈现非常强的相关性。不过其实这两个变量本身是互相有关联的,都是红酒中二氧化硫的含量,所以其呈现强相关性也容易理解。
根据上面的分析结果,我们发现alcohol与quality之间存在较强的相关性,接下来我们探索一下alcohol与quality和volatile.acidity、citric.acid、sulphates之间的关系。
通过以上散点图可以看出:
citric.acid、alcohol越高,quality越高。
sulphates、alcohol越高,quality越高,它们呈正相关。
可以看出volatile.acidity越低,红葡萄酒的品质越好。
可以看出citric.acid对红酒品质没有明显的影响
可以看出,sulphates越高,红葡萄酒的品质越好
alcohol有助于红酒的品质,sulphates也会对葡萄酒的品质产生积极影响,volatile.acidity越低葡萄酒的品质越好。
citric.acid单独对红酒品质影响有限,但citric.acid和alcohol值较高时,对葡萄酒的品质能产生积极影响。
该图说明数据集中82.48%的葡萄酒质量为5&6,我们需要找到其他指标对葡萄酒质量的影响。
可以看到alcohol和volatile.acidity与葡萄酒的质量密切相关。
它们呈现强相关性,从这个散点图可以看出,alcohol和volatile.acidity与葡萄酒的品质正相关。
alcohol含量越高,volatile.acidity越高,葡萄酒质量越好。
这个散点图显示了alcohol、sulphates与葡萄酒质量关系的清晰说明,它表明酒精和硫酸盐与葡萄酒的品质呈正相关。
较高的alcohol、sulphates会对葡萄酒品质产生积极影响。
红酒数据集包含1599个观测值,13个变量。在此分析中,我们的主要目标是找出哪些元素会影响红葡萄酒的质量。
在单变量分析中,对各种指标绘制了其直方图。我们观察到82%的葡萄酒质量5和质量6,其他直方图我们无法得到一个明确的结论。
然后绘制了一个相关图,通过相关图我们能够分析出alcohol,volatile.acidity,citric acid,sulphates与葡萄酒的品质相关。
在双变量分析中,我们绘制了相关变量的箱线图并得到如下结论:
以下因素会对葡萄酒的品质产生积极影响:
挥发性低的酸性
高水平的酒精
高水平的柠檬酸
高硫酸盐值
在多变量分析中,绘制了散点图。
通过绘制这几个与质量相关的变量散点图,我们了解高硫酸盐和高酒精,高柠檬酸和高酒精,低挥发性酸度,高硫酸盐会影响葡萄酒的品质。
但柠檬酸与其他性质的分析并没有得到很好的效果。
在进行多变量分析时,由于数据集里变量均为连续变量,导致在绘制散点图时一直得不到想要的图形,后来采用的一个解决办法为使用cut切割连续变量,生成额外区间字段,即变为分类变量进行分析。
再后来分析过程中发现,多变量的散点图中只需要把quality作为分类变量置于color中即可,其他连续变量设置为x、y轴,这样出来的散点图效果会更加直观。
所以在绘制散点图时,对于变量的设置是比较重要的,合理的变量设置会让生成的散点图更加直观的看到数据的分布情况,这一点也是在作业中吸取到的经验教训。
上述数据集包含1599个观测数据的有限数据。在该数据集中,82%的葡萄酒质量为5&6,分布过于集中,如果样本数据能够扩大且覆盖更多不同品的葡萄酒,我们将能得到更准确的结论。