欢迎您访问新疆栾骏商贸有限公司,公司主营电子五金轴承产品批发业务!
全国咨询热线: 400-8878-609

新闻资讯

技术教程

使用最近邻插补时为何仍存在缺失值?原因分析与替代方案

作者:霞舞2026-01-16 00:00:00

最近邻插补(`interpolate(metho

d='nearest')`)依赖数据中邻近非空值进行填充,但当缺失值位于序列端点或周围无有效邻值时,该方法无法完成插补,导致部分nan残留。

在Pandas中,Series.interpolate(method='nearest') 并非基于多维特征的KNN算法,而是一种一维序列插值方法——它仅依据索引顺序查找前后最近的非空值(即按行号位置而非语义相似性),且默认不处理首尾两端的连续NaN。你遇到的第416和417行年龄缺失,极可能位于age列的末尾段(如测试集末尾),其后已无有效值可供“向后取最近”,而前方若也无非空值(或被截断),则插补失败。

验证方式如下:

# 检查age列中NaN的位置及上下文
nan_indices = titanic_Test[titanic_Test['age'].isna()].index.tolist()
print("NaN indices:", nan_indices)
print("Surrounding age values:")
print(titanic_Test.loc[nan_indices[0]-2:nan_indices[-1]+2, 'age'])

✅ 正确做法:若需基于多维特征(如pclass, sex, parch, fare等)进行真正的“最近邻”插补,应使用sklearn.impute.KNNImputer:

from sklearn.impute import KNNImputer
import pandas as pd

# 选择用于相似性计算的数值型特征(注意:需先编码类别变量)
features = ['pclass', 'sex', 'sibsp', 'parch', 'fare']
X_test = titanic_Test[features].copy()

# 若sex为字符串('male'/'female'),需先编码
if X_test['sex'].dtype == 'object':
    X_test['sex'] = X_test['sex'].map({'male': 0, 'female': 1})

imputer = KNNImputer(n_neighbors=5)
titanic_Test['age'] = imputer.fit_transform(X_test)[:, features.index('age')]

⚠️ 注意事项:

  • interpolate(method='nearest') 是索引驱动的,适用于时间序列或有序数值列;
  • KNNImputer 是特征空间驱动的,适合结构化表格数据,但要求输入全为数值型;
  • 插补前务必检查缺失机制(MCAR/MAR/MNAR),对系统性缺失(如特定舱位无年龄记录)建议结合领域知识分组插补(如按pclass+sex分组求均值);
  • 永远在插补后验证分布一致性:titanic_Test['age'].describe() 对比训练集。

总结:所谓“Nearest Neighbour插补未生效”,本质是混淆了一维序列插值多维特征KNN两种不同范式。明确目标场景,选用匹配工具,才能真正填补空白。