数据清洗主要包括以下几个方面:
①错误处理: 包括纠正拼写错误、格式不一致以及不合理的数值或类别
②缺失值处理: 判断数据中缺失值的性质,选择填补、删除或保留缺失值,并记录处理过程
③重复数据处理: 检查和去除重复记录,保证数据的唯一性和准确性
④数据标准化: 将不同来源的数据转换成统一格式,比如日期、货币、单位等的统一,方便后续计算和比较
⑤数据整合: 将来自多个数据源的数据进行合并和匹配,形成统一的数据集合
https://archive.ics.uci.edu/
https://www.kaggle.com/dataset
- 🌸注册kaggle账号时无法显示验证码请参考:https://blog.azurezeng.com/recaptcha-use-in-china/
- 🌼如何从kaggle上下载数据请参考:https://zhuanlan.zhihu.com/p/266570781