四季花园数据探索分析
四季花园数据探索分析
数据来源 : 阳光家缘
背景
最近小区楼盘交楼了,等待了近两年的新房终于快要入住了,业主群也越来越活跃了,大家都非常期待尽快入住。
在群里的聊天中发现,发现每户的建筑面积都与合同上有些差异,且阳光家缘上已经登记并公布出来了,于是爬下了本小区(四季花园)的阳光家缘数据进行探索性分析,使用学到的数据分析知识来了解一下本小区的情况。
数据来源 : 阳光家缘
最近小区楼盘交楼了,等待了近两年的新房终于快要入住了,业主群也越来越活跃了,大家都非常期待尽快入住。
在群里的聊天中发现,发现每户的建筑面积都与合同上有些差异,且阳光家缘上已经登记并公布出来了,于是爬下了本小区(四季花园)的阳光家缘数据进行探索性分析,使用学到的数据分析知识来了解一下本小区的情况。
在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度。
今天在练习线性回归的R-score时,发现有一个模型的predict之后的score居然为-1.487,这里非常疑惑,因为sklearn文档里reg.score()返回值的定义是:
Returns the coefficient of determination R^2 of the prediction.
那既然是返回预测系数是R^2,那怎么可能出现负数呢。
支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
作为一个数据分析师,在数据处理过程中,当获取到一份新数据,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手。如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。
首先什么是探索性数据分析(Exploratory Data Analysis,EDA)?
今天在进行EDA数据探索时,使用的数据集里有比较多的字段存在异常值的情况,在使用histogram探索这些数据时,这种异常值的处理无非就是调整直方图的参数,过滤异常值等,最后生成一个normal histogram。在调试过程中,产生了一个疑惑,究竟histogram的bins 以及 binwidth到底如何确定呢?