AI 大模型之 数据分析 数据预处理 缺失值处理 / 异常值检测 技术解析

AI人工智能阿木 发布于 2025-07-13 14 次阅读


摘要:

在数据分析领域,数据预处理是至关重要的步骤,它直接影响到后续分析结果的准确性和可靠性。本文将围绕数据预处理中的两个关键环节——缺失值处理和异常值检测,进行技术解析,并通过Python代码展示相应的实现方法。

一、

数据预处理是数据分析的第一步,它包括数据清洗、数据集成、数据变换和数据规约等过程。其中,缺失值处理和异常值检测是数据预处理中的两个重要环节。本文将详细介绍这两种技术的原理和实现方法。

二、缺失值处理

1. 缺失值处理原理

缺失值是指数据集中某些变量的值缺失的情况。缺失值的存在会影响到数据分析的准确性和可靠性。在进行数据分析之前,需要先对缺失值进行处理。

常见的缺失值处理方法有:

(1)删除含有缺失值的样本:这种方法简单易行,但可能会导致数据量减少,影响分析结果的准确性。

(2)填充缺失值:根据缺失值的特征,用其他值填充缺失值。常见的填充方法有均值填充、中位数填充、众数填充等。

(3)多重插补:通过模拟方法生成多个完整的样本,然后对每个样本进行缺失值填充。

2. Python代码实现

以下是一个使用Python进行缺失值处理的示例代码:

python

import pandas as pd


import numpy as np

创建一个包含缺失值的数据集


data = pd.DataFrame({


'A': [1, 2, np.nan, 4, 5],


'B': [np.nan, 2, 3, 4, 5],


'C': [1, 2, 3, np.nan, 5]


})

删除含有缺失值的样本


data_dropped = data.dropna()

均值填充


data_filled_mean = data.fillna(data.mean())

中位数填充


data_filled_median = data.fillna(data.median())

众数填充


data_filled_mode = data.fillna(data.mode().iloc[0])

打印结果


print("删除缺失值后的数据:", data_dropped)


print("均值填充后的数据:", data_filled_mean)


print("中位数填充后的数据:", data_filled_median)


print("众数填充后的数据:", data_filled_mode)


三、异常值检测

1. 异常值检测原理

异常值是指数据集中与其他数据点相比,具有明显不同特征的值。异常值的存在会误导分析结果,甚至导致错误的结论。在进行数据分析之前,需要先对异常值进行检测和处理。

常见的异常值检测方法有:

(1)基于统计的方法:如Z-score、IQR(四分位数间距)等。

(2)基于机器学习的方法:如孤立森林、K-最近邻等。

2. Python代码实现

以下是一个使用Python进行异常值检测的示例代码:

python

import pandas as pd


import numpy as np


from scipy import stats

创建一个包含异常值的数据集


data = pd.DataFrame({


'A': [1, 2, 3, 4, 5, 100],


'B': [1, 2, 3, 4, 5, 5]


})

Z-score方法


z_scores = np.abs(stats.zscore(data))


threshold = 3


data_no_outliers = data[(z_scores < threshold).all(axis=1)]

IQR方法


Q1 = data.quantile(0.25)


Q3 = data.quantile(0.75)


IQR = Q3 - Q1


threshold = 1.5 IQR


data_no_outliers_iqr = data[~((data < (Q1 - threshold)) | (data > (Q3 + threshold))).any(axis=1)]

打印结果


print("Z-score方法去除异常值后的数据:", data_no_outliers)


print("IQR方法去除异常值后的数据:", data_no_outliers_iqr)


四、总结

本文对数据预处理中的缺失值处理和异常值检测技术进行了详细解析,并通过Python代码展示了相应的实现方法。在实际数据分析过程中,应根据具体情况进行选择和调整,以确保分析结果的准确性和可靠性。