[VLSP2019-HSD Task] Register for using pre-trained embeddings

nlp

#1

Please register your pre-trained embeddings here by 23:59 on Sep 30th, 2019.

Q/A:

  1. Why do we need to register for using pre-trained embeddings?
    -> To make sure the challenge is fair between participants, most challenges would also require registering pre-trained embeddings (e.g., see [1]). This process makes sure all pre-trained embeddings are publicly available, and also, to avoid the case of custom pre-trained embeddings using leaked data.
  2. Will registration for pre-trained embeddings affect your secret solution?
    -> Not really. Throughout the time of the challenge, all participants are able to learn from each other thanks to this registration process. When all participants register in advance, all others might also be able to try different embeddings, and hence, we have fair comparisons between different solutions, i.e., given all available resources, what will be the best architecture for the task?
  3. For other questions, please feel free to discuss in the discussion thread:
    AIviVN 8 - VLSP-SHARED Task: Hate Speech Detection on Social Networks.

[1] Khai báo pretrained models cho 'Nhận diện người nổi tiếng'


#2

Trong trường hợp chúng ta sử dụng thêm dữ liệu bổ sung không được gán nhãn thủ công thì có hợp lệ không? Ví dụ như chúng ta sử dụng Wikipedia hoặc Comment từ Facebook.


#3

Đc bạn nhé, nhưng bạn cũng cần publish pre-trained embeddings đó để những người khác có thể access. Vì quy định chung là những pre-trained embeddings đc dùng đều phải publicly available.


#4

pre-trained mình tự build thì có cần khai báo không anh?


#5

Có em nhé. Tất cả pre-trained embeddings dùng dữ liệu ngoài đều cần khai báo + để mọi người access publicly.


#6

Anh cho em hỏi trong trường hợp hết deadline khai báo embedding (23:59 on Sep 30th, 2019), chúng ta có thể sử dụng các embedding của các đội khác đã khai báo, nhưng đội của em không khai báo embedding nào. Như vậy đội của em có được sử dụng các bộ pre-trained embedding đã khai báo của các đội khác hay không? Em cảm ơn anh.


#7

Link pre-trained embedding:

  • Fasttext (Vietnamese language)
  • Sonvx (3 types: Vietnamese Wiki, Baomoi window-size 5, Baomoi window-size 2)
  • Binh Nguyen (using text in HSD task, text crawl in social network)

#8

Được em nhé. Mục đích đăng ký để quản lý các pre-trained embeedings đều là dạng public và các participants khác cũng có thể dùng đc.


#9

Link pretrain của nhóm mình google bert


#10

Trong trường hợp của tài khoản “nguyenbinh” đã khai báo pretrained embedding, nhưng lúc truy cập vào file mà “nguyenbinh” đã khai báo thì không chứa dữ liệu. Như vậy thì làm sao các nhóm khác có thể sử dụng pretrained embedding đó được ạ? Em mong anh giải đáp. Em cảm ơn anh.


#11

#12

Sorry bạn! File mình upload bị lỗi. Mình đã upload file khác.


#13

Link pre-train của nhóm: BERT


#14

Trong cuộc thi lần này, em có build pretrained bert base dựa trên bộ dữ liệu 30GB của Vương Quốc Bình và sử dụng source code của google. Tuy nhiên rất xin lỗi ban tổ chức, do yêu cầu của công ty nên em không thể public ra ngoài. Link dữ liệu:corpus Link source code bert google: bert


#15

fasttext w2v, w2v_c2v, Elmo, Bert_base, MULTI_WC_F_E_B


#16

BTC thảo luận và đồng ý trường hợp này em nhé. Và tất nhiên trong paper khi viết cho workshop em cũng cần nêu rõ cách xử lý để train embedding này.


#17

Cho em hỏi chút ạ: Do em mới biết đến cuộc thi này mà hiện tại cuộc thi đã kết thúc nên em không thể lấy được data, không biết ai còn giữ lại bộ data thì có thể share cho về ngâm cứu được không ạ? (không biết điều này có vi phạm gì không ạ?)


#18

Nếu ở HN em đăng ký và tới dự workshop vào CN này nhé (Oct.13): http://vlsp.org.vn/vlsp2019. Sẽ có bài trình bày của các teams đạt giải và em hiểu rõ hơn bài toán + cách xử lý của các đội.

Về dữ liệu thì task này sẽ có thêm challenge tiếp theo đc mở nên em chịu khó chờ nhé.