Skip to content

Kris6657/Data-cleaning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 

Repository files navigation

Data-cleaning

概念

1. 数据清洗是什么?

数据清洗主要包括以下几个方面:

①错误处理: 包括纠正拼写错误、格式不一致以及不合理的数值或类别
②缺失值处理: 判断数据中缺失值的性质,选择填补、删除或保留缺失值,并记录处理过程
③重复数据处理: 检查和去除重复记录,保证数据的唯一性和准确性
④数据标准化: 将不同来源的数据转换成统一格式,比如日期、货币、单位等的统一,方便后续计算和比较
⑤数据整合: 将来自多个数据源的数据进行合并和匹配,形成统一的数据集合

2.准备用来练手的数据集网站

https://archive.ics.uci.edu/
https://www.kaggle.com/dataset
- 🌸注册kaggle账号时无法显示验证码请参考:https://blog.azurezeng.com/recaptcha-use-in-china/
- 🌼如何从kaggle上下载数据请参考:https://zhuanlan.zhihu.com/p/266570781

About

数据清洗练习留档(自用)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published