UCI数据集数据的分析 ——葡萄酒数据

1、前言

     葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同,这也是导致质量差异过大的重要因素。至今,质量评价主要还是依靠专家的感官。味道是最难理解的一种感官,因此用味蕾评价葡萄酒也就成为一件艰巨的任务。为了评估葡萄酒的质量,我们提出的方法就是根据酒的物理化学性质与质量的关系,找出高品质的葡萄酒具体与什么性质密切相关,这些性质又是如何影响葡萄酒的质量。

2、数据准备

    数据集链接

    数据集包括1599个红葡萄酒样本以及4898个白葡萄酒样本,每个样本含有12个变量:固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精,葡萄酒的质量(基于感觉)。

3、数据预处理

     为了提高数据的质量,可以对离群点和极端值进行丢弃修正,我们指定3个标准差以外的数据为离群点,5个标准差以外的为极端值。经过处理后,红葡萄酒数据可以剔除100多个样本,白葡萄酒可以剔除400多个样本。

 

4、变量相关性

     以前11个变量作为输入变量,质量作为输出变量,下面探讨酒的质量好坏主要与哪些输入变量有关,下面我们通过计算质量与固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精的简单相关系数来反映变量间的相关性。

     红葡萄酒数据的计算结果:

        白葡萄酒数据的计算

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值