四季花园数据探索分析

四季花园数据探索分析

数据来源 : 阳光家缘

背景

最近小区楼盘交楼了,等待了近两年的新房终于快要入住了,业主群也越来越活跃了,大家都非常期待尽快入住。

在群里的聊天中发现,发现每户的建筑面积都与合同上有些差异,且阳光家缘上已经登记并公布出来了,于是爬下了本小区(四季花园)的阳光家缘数据进行探索性分析,使用学到的数据分析知识来了解一下本小区的情况。

阅读全文

机器学习中的特征缩放(feature scaling)

在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度。

阅读全文

线性回归的R-square

今天在练习线性回归的R-score时,发现有一个模型的predict之后的score居然为-1.487,这里非常疑惑,因为sklearn文档里reg.score()返回值的定义是:

Returns the coefficient of determination R^2 of the prediction.

那既然是返回预测系数是R^2,那怎么可能出现负数呢。

阅读全文

机器学习常见算法之支持向量机SVM

支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。

阅读全文

机器学习常见算法之朴素贝叶斯(Navie Bayes)

引言

最近学习了机器学习的常用算法,不得不说在sklearn的封装下,使用这些算法是非常方便的,但是,如果如果对算法的原理不够了解,那么在选择算法或者调参过程中就会非常迷茫,这里对学到的算法进行一些记录,确保自己能够理解其实现原理,同时作为自己的学习笔记方便后续回顾。

阅读全文

WineQualityReds EDA

作为一个数据分析师,在数据处理过程中,当获取到一份新数据,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手。如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。

首先什么是探索性数据分析(Exploratory Data Analysis,EDA)?

阅读全文

Histogram how to select bins

今天在进行EDA数据探索时,使用的数据集里有比较多的字段存在异常值的情况,在使用histogram探索这些数据时,这种异常值的处理无非就是调整直方图的参数,过滤异常值等,最后生成一个normal histogram。在调试过程中,产生了一个疑惑,究竟histogram的bins 以及 binwidth到底如何确定呢?

阅读全文

靈魂歌手

靈魂歌手
爭著去做奴隸
急著拋棄自己
你本來是英雄
直到變得 更加恐懼

阅读全文

Pearson, Kendall, Spearman三种相关性的差异

相关性(Pearson,Kendall,Spearman)

最近在学习R语言时,需要对两个连续变量进行相关性分析,通过查看帮助文档,发现cor.test()常用的相关性方法有三种,其中出现最为频繁的就是皮尔逊相关系数了,这里收集整理一下这三种方法的区别。

阅读全文

R 逻辑操作符

最近在使用R语言进行数据探索时,发现逻辑操作 & 和 && 代表的是两种逻辑操作,这里整理一下R中的逻辑操作符,以下是Qucik-R的操作符介绍:

Operators

R’s binary and logical operators will look very familiar to programmers. Note that binary operators work on vectors and matrices as well as scalars.

阅读全文