Detect Outlier ở biến bị missing value 80-90%

classification
machine-learning

#1

Em là người mới tìm hiểu trong ML. Em xin được phép hỏi, trong tập dữ liệu của em - về phân loại triệu chứng bệnh. Có một số biến về chỉ số xét nghiệm quan trọng, được xác định bởi người trong ngành y nên em không xóa, bị missing value đến 80-90% cỡ mẫu hơn 300k rows.

Sau khi xử lý missing value ấy bằng median, thì em có nên detect outlier không ạ. Em có xem khi detect outlier thì nó chỉ còn giá trị median mới vừa impute, còn các giá trị khác bị drop hết ạ.

Mong các anh cho em thêm ý kiến ạ. Em xin cảm ơn