- 删除空值
-
出现空值的情况
- 没有评分(评价人数低于10人)
- 没有书店网站价格
- 没有纸质版的出版价格(豆瓣信息未完全)
-
对于价格为美元的书籍
- 一开始采用乘以汇率的方式保存,但是在后来发现这些书籍都价格都是异常值,影响到图像的表达效果 - 另外,由于国外书籍的市场情况不同于国内,其价格对于数据分析有干扰,于是选择删去。(为了方便在读取的时候存储成空值)
-
在存取时存为0的网站价格
- 按照空值处理,删去
-
对评价人数的异常值处理:
- 在逻辑和常识上是合理的,虽然离散程度大,但是个人认为应该予以保留
-
- 由Box Plots可以观察,评分的分布较为均匀,而评价人数和价格的离散程度相当大。
- 由Histogram可以观察,SCORE基本符合正态分布。根据豆瓣评分机制,大部分人可能是按照3-4-5星的阶梯标准评分
- 对各个变量进行了回归分析,发现除了PRICE和WEB_PRICE(即纸质版价格和网站价格)之外,其他的相关系数都小于0.3,相关程度低
- 可视化的图像分布也吻合这个结果
- 进行了OLS回归分析,试着用seaborn画了回归图像
- 从数据的现实意义以及结果的分布来看,豆瓣的评价人数实用性比较低
- 这里使用线上销售的销量会有比较好的结果?(例如人气相对位置和分数相对位置之间的关系)
- 虽然有度娘Google……但是一片数据分析看过去99%都看不懂……有点无从下手