[05/04/2020 09:17] Chào mọi người ạ. Em đang làm One hot encoding với . . .


#1

Nguồn post: https://www.facebook.com/257768141347267_950654625391945
Chào mọi người ạ.

Em đang làm One hot encoding với sklearn.

Mỗi item mà em cần xử lí thuộc vào nhiều loại cùng một lúc.

VD: {‘item1’: [‘3.0.1’, ‘3.0.2’], ‘item2’: ‘None’, ‘item3’: ‘[3.0.2, 3.1.0, 3.2.0, 3.3.0, 4.0.0]’}

Vậy làm sao để em fit được trên đây khi mà trong các items có trộn lẫn dạng list và dạng đơn lẻ thế này ạ.

Em xin cảm ơn.


#2

xem list item là một loại mới rồi mã hoá bạn


#3

Hmm. Có thể xem việc mỗi item có thuộc một loại nào đó hay không là một bài toán độc lập, không cần gộp chung. Nếu như các loại không có tính loại trừ thì có thể giả định việc một item thuộc loại này không cần liên quan loại kia.


#4

Em dùng hàm get_dummies của pandas để mã hóa, dùng dạng list và dạng đơn lẻ luôn