博客基于Python的数据清洗与特征工程实现方法

基于Python的数据清洗与特征工程实现方法

数栈君发表于 2025-12-27 16:23 205 0

在数据分析领域，数据清洗和特征工程是两个至关重要的步骤。无论是进行预测建模、数据可视化，还是构建数据中台，高质量的数据 preprocessing 是确保模型性能和分析结果准确性的基础。本文将详细介绍如何使用 Python 实现数据清洗和特征工程，并结合实际案例进行说明。

一、数据清洗的重要性

在进行数据分析之前，数据清洗是必不可少的一步。数据清洗的目标是识别和处理数据中的错误、不一致性和缺失值，以确保数据的完整性和一致性。以下是数据清洗的重要性：

提高数据质量：干净的数据能够确保分析结果的准确性。
增强模型性能：脏数据会导致模型过拟合或欠拟合，降低预测能力。
简化分析过程：清洗后的数据更容易处理和分析。

二、数据清洗的实现方法

1. 处理缺失值

缺失值是数据清洗中最常见的问题之一。以下是处理缺失值的常用方法：

删除包含缺失值的行或列：如果缺失值的比例较小，可以直接删除。
填充缺失值：使用均值、中位数或众数填充缺失值。
使用插值方法：如线性插值或随机森林插值。

Python 实现示例：

import pandas as pdimport numpy as np# 创建示例数据集data = {    'A': [1, 2, np.nan, 4],    'B': [5, np.nan, 7, 8],    'C': [9, 10, 11, 12]}df = pd.DataFrame(data)# 查看缺失值print(df.isnull())# 使用均值填充缺失值mean_fill = df['A'].mean()df['A'].fillna(mean_fill, inplace=True)# 删除包含缺失值的行df.dropna(inplace=True)print(df)

2. 处理重复值

重复值会干扰数据分析结果，因此需要及时识别和处理。

Python 实现示例：

# 创建示例数据集data = {    'A': [1, 2, 2, 3],    'B': [4, 5, 6, 7]}df = pd.DataFrame(data)# 查看重复值print(df.duplicated())# 删除重复值df.drop_duplicates(inplace=True)print(df)

3. 处理异常值

异常值可能会影响模型的性能，因此需要识别和处理异常值。

Python 实现示例：

# 创建示例数据集data = {    'A': [1, 2, 3, 100, 5]}df = pd.DataFrame(data)# 使用 Z-score 方法识别异常值from scipy import statsz = np.abs(stats.zscore(df))df_outliers = df[(z < 3).all(axis=1)]print(df_outliers)

4. 标准化和统一数据格式

数据格式的不一致会导致分析结果混乱，因此需要统一数据格式。

Python 实现示例：

# 创建示例数据集data = {    'Date': ['2020-01-01', '2020-02-01', '2020-03-01'],    'Price': ['100', '200', '300']}df = pd.DataFrame(data)# 将字符串格式的数字转换为整数df['Price'] = df['Price'].astype(int)# 将日期格式统一df['Date'] = pd.to_datetime(df['Date'])print(df)

5. 处理无关数据

如果某些列或行与分析目标无关，可以考虑删除它们。

Python 实现示例：

# 创建示例数据集data = {    'A': [1, 2, 3],    'B': [4, 5, 6],    'C': ['无关', '无关', '无关']}df = pd.DataFrame(data)# 删除无关列df = df.drop('C', axis=1)print(df)

三、特征工程的实现方法

特征工程是数据分析中非常关键的一步，其目的是从原始数据中提取对目标变量有解释力的特征，从而提高模型的性能。

1. 特征选择

特征选择的目标是选择对目标变量有最大影响力的重要特征。

Python 实现示例：

# 创建示例数据集data = {    'A': [1, 2, 3, 4],    'B': [5, 6, 7, 8],    'C': [9, 10, 11, 12],    'Target': [0, 1, 0, 1]}df = pd.DataFrame(data)# 使用相关性分析选择特征correlations = df.corr()['Target'].abs().sort_values(ascending=False)print(correlations)

2. 特征提取

特征提取是从高维数据中提取低维特征的过程，常用于文本数据和图像数据。

Python 实现示例（文本特征提取）：

from sklearn.feature_extraction.text import TfidfVectorizer# 创建示例文本数据texts = [    'This is a sample text.',    'Another sample text.',    'This is the third text.']# 使用 TF-IDF 提取特征vectorizer = TfidfVectorizer()X = vectorizer.fit_transform(texts)print(X)

3. 特征变换

特征变换的目标是将原始特征转换为更适合建模的形式。

Python 实现示例（标准化和归一化）：

from sklearn.preprocessing import StandardScaler, MinMaxScaler# 创建示例数据集data = {    'A': [1, 2, 3],    'B': [4, 5, 6]}df = pd.DataFrame(data)# 标准化scaler = StandardScaler()df_standard = scaler.fit_transform(df)# 归一化scaler = MinMaxScaler()df_normal = scaler.fit_transform(df)print("标准化结果：\n", df_standard)print("归一化结果：\n", df_normal)

4. 特征构造

特征构造的目标是通过组合现有特征创建新的特征。

Python 实现示例：

# 创建示例数据集data = {    'A': [1, 2, 3],    'B': [4, 5, 6]}df = pd.DataFrame(data)# 构造新特征df['A+B'] = df['A'] + df['B']df['A*B'] = df['A'] * df['B']print(df)

四、案例分析：基于 Python 的数据清洗与特征工程

案例背景

假设我们有一个房屋价格预测的数据集，包含以下字段：

Area：房屋面积
Bedrooms：卧室数量
Bathrooms：浴室数量
Price：房屋价格

我们的目标是通过数据清洗和特征工程，提高模型的预测能力。

数据清洗步骤

处理缺失值：
- 检查数据集中是否存在缺失值。
- 使用均值或中位数填充缺失值。
处理异常值：
- 使用 Z-score 方法识别异常值。
- 删除或调整异常值。
统一数据格式：
- 确保所有数值字段都是数值类型。

特征工程步骤

特征选择：
- 计算目标变量与其他特征的相关性。
- 选择相关性较高的特征。
特征变换：
- 对数值特征进行标准化或归一化。
特征构造：
- 构造新特征，如 Area/Bedrooms 或 Bedrooms + Bathrooms。

Python 实现示例

# 加载数据集data = {    'Area': [100, 200, 150],    'Bedrooms': [2, 3, 2],    'Bathrooms': [1, 2, 1],    'Price': [100000, 200000, 150000]}df = pd.DataFrame(data)# 处理缺失值print(df.isnull())# 特征选择correlations = df.corr()['Price'].abs().sort_values(ascending=False)print("特征相关性：\n", correlations)# 特征变换scaler = StandardScaler()df_transformed = scaler.fit_transform(df[['Area', 'Bedrooms', 'Bathrooms', 'Price']])# 特征构造df['Area_per_Bedroom'] = df['Area'] / df['Bedrooms']df['Total_Bathrooms'] = df['Bathrooms'] + 1print(df)

五、总结

数据清洗和特征工程是数据分析过程中不可或缺的步骤。通过 Python 的强大功能，我们可以高效地完成这些任务，并为后续的建模和分析打下坚实的基础。

如果您对数据分析感兴趣，或者正在寻找一款高效的数据可视化工具，不妨申请试用 DTStack，它可以帮助您更轻松地完成数据分析和可视化任务。

申请试用

希望本文对您有所帮助！如果需要进一步了解，请随时联系！

申请试用&下载资料
点击袋鼠云官网申请免费试用：https://www.dtstack.com/?src=bbs
点击袋鼠云资料中心免费下载干货资料：https://www.dtstack.com/resources/?src=bbs
《数据资产管理白皮书》下载地址：https://www.dtstack.com/resources/1073/?src=bbs
《行业指标体系白皮书》下载地址：https://www.dtstack.com/resources/1057/?src=bbs
《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001/?src=bbs
《数栈V6.0产品白皮书》下载地址：https://www.dtstack.com/resources/1004/?src=bbs

免责声明
本文内容通过AI工具匹配关键字智能整合而成，仅供参考，袋鼠云不对内容的真实、准确或完整作任何形式的承诺。如有其他问题，您可以通过联系400-002-1024进行反馈，袋鼠云收到您的反馈后将及时答复和处理。

data cleaning missing value handling normalization feature selection feature construction house price prediction feature engineering outlier detection standardization Data Preprocessing

0条评论

上一篇：浅析百万级分布式调度引擎——DAGScheduleX能做...

下一篇：高校数据中台：高效构建与应用方案

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

基于Python的数据清洗与特征工程实现方法

一、数据清洗的重要性

二、数据清洗的实现方法

1. 处理缺失值

2. 处理重复值

3. 处理异常值

4. 标准化和统一数据格式

5. 处理无关数据

三、特征工程的实现方法

1. 特征选择

2. 特征提取

3. 特征变换

4. 特征构造

四、案例分析：基于 Python 的数据清洗与特征工程

案例背景

数据清洗步骤

特征工程步骤

Python 实现示例

五、总结

我要提问

分享经验

微信扫码获取数字化转型资料