AIviVN 3 -- Thêm dấu tiếng Việt

vietnamese_tone_prediction

#1

Xử lý ngôn ngữ tự nhiên cho tiếng Việt là một bài toán được nhiều tổ chức nghiên cứu trong nhiều năm. Một trong các nhiệm vụ quan trọng trong các bài toán xử lý ngôn ngữ tiếng Việt là chuẩn hóa, trong đó thêm dấu là một bài toán phổ biến nhất.

Trong cuộc thi này, các đội chơi được giao nhiệm vụ thêm dấu cho các câu và đoạn văn không dấu.

Xem thêm tại Thêm dấu tiếng Việt.


#2

Cảm ơn anh và team đã tổ chức 1 cuộc thi bổ ích nữa. Em muốn hỏi là liệu cuộc thi này có cho phép sử dụng thêm dữ liệu bên ngoài không ạ.


#3

Dạ cho em hỏi có hàm phụ trợ viết bằng python 3 không ạ! Với lúc em load các token trong file test thì em chỉ lấy được có 452497 từ không đủ 453446, em dùng hàm tokenize của nltk rồi lọc bỏ punctional, mọi người có thể chia sẻ cách lấy được không ạ


#4

Không được bạn nhé, mình xem trong file utils.py chỉ có tách token và xóa tất cả dấu câu đi. Tuy nhiên như vậy sẽ làm mất 1 số feature của dấu câu.


#5

Các đội sử dụng data ngoài thoải mái nhé.