Tiền xử lý dữ liệu Reddit Comment

nlp

#1

Chào mọi người, hiện em đang làm khóa luận về Chatbot và sử dụng bộ dữ liệu reddit để train cho Chatbot. Em có vài thắc mắc:

  1. Khi tiền xử lý dữ liệu, em có nên bỏ đi các url trong comment ko ạ ? (VD: khi một người lên reddit hỏi: “Tôi muốn tìm trang web học toán” --> thì người khác sẽ reply lại là: “Đây là trang web học toán tốt nhất http://…”). Đối với các url này thì khi tiền xử lý dữ liệu thì mình để nguyên hay sao ạ?

  2. Nếu để nguyên như vậy thì khi train mô hình có bị ảnh hưởng gì ko ạ ?

  3. Nếu không để nguyên thì mình nên bỏ đi luôn hay có cách nào để tiền xử lý đối với các url ko ạ ?

Em cảm ơn ạ.