Skip to content

Yuyang-Li/result_core_assessment_CPP

Repository files navigation

result_core_assessment_CPP

数据处理的思路和一些问题

数据清洗

  • 删除空值  
    • 出现空值的情况      

      • 没有评分(评价人数低于10人)
      • 没有书店网站价格
      • 没有纸质版的出版价格(豆瓣信息未完全)
    • 对于价格为美元的书籍  

      • 一开始采用乘以汇率的方式保存,但是在后来发现这些书籍都价格都是异常值,影响到图像的表达效果   - 另外,由于国外书籍的市场情况不同于国内,其价格对于数据分析有干扰,于是选择删去。(为了方便在读取的时候存储成空值)
    • 在存取时存为0的网站价格  

      • 按照空值处理,删去
    • 对评价人数的异常值处理:  

      • 在逻辑和常识上是合理的,虽然离散程度大,但是个人认为应该予以保留

可视化(箱形图,直方图)

  • 由Box Plots可以观察,评分的分布较为均匀,而评价人数和价格的离散程度相当大。  
  • 由Histogram可以观察,SCORE基本符合正态分布。根据豆瓣评分机制,大部分人可能是按照3-4-5星的阶梯标准评分

回归分析

  • 对各个变量进行了回归分析,发现除了PRICE和WEB_PRICE(即纸质版价格和网站价格)之外,其他的相关系数都小于0.3,相关程度低
  • 可视化的图像分布也吻合这个结果
  • 进行了OLS回归分析,试着用seaborn画了回归图像

数据及个人问题

  • 从数据的现实意义以及结果的分布来看,豆瓣的评价人数实用性比较低
    • 这里使用线上销售的销量会有比较好的结果?(例如人气相对位置和分数相对位置之间的关系)
    • 虽然有度娘Google……但是一片数据分析看过去99%都看不懂……有点无从下手

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages