Hàm phụ trợ sinh file kết quả không khớp với dữ liệu

vietnamese_tone_prediction

#1

Về việc hàm phụ trợ mình sử dụng hàm process_line để xuất ra file nộp bài từ file test.txt không đúng số dòng yêu cầu.

Yêu cầu phải nộp 1 file: 453,446 dòng.

Hàm utils.process_line với đầu vào là test.txt cho ra số dòng là: 453,466.

Như vậy mình phải làm thế nào mới có thể sử dụng file output từ để sinh ra file nộp bài chuẩn được?

Hiện tại mình đang phải load tokens từ file test_word_per_line.txt và tất nhiên file này không hề có dấu câu.

VD: Line ID: iWd,Apple’s Special Projects

Sử dụng hàm process line thì sẽ được tách thành: [Apple,s,Special,Projects]

Còn ở trong file test_word_per_line.txt là: [Apple,Special,Projects]


#2

Chào bạn,

Có một vài trường hợp đặc biệt mà hàm process line làm việc chưa chuẩn. Bạn có thể giải quyết trường hợp này dựa trên các thông tin sau:

  • File submission có dùng số dòng với test_word_per_line.txt
  • Dự đoán trên file test.txt, lọc lấy kết quả dựa trên test_word_per_line.txt để ra file submission.csv rồi nộp.

Hiện tại đã có nhiều đội nộp rồi nên không đổi dữ liệu được nữa.

Xin lỗi bạn vì để lỗi này xảy ra.