Về độ đo Rouge trong Automatic Summarization

deep-learning
nlp
automatic-summarization

#1

Chào mọi người, hiện nay mình đang làm về tóm tắt văn bản sử dụng Deep Learning trong tiếng Việt, cũng cho kết quả khả quan. Tuy nhiên, về độ đo mình có dùng Rouge, tuy nhiên Rouge chỉ đo dạng so khớp, còn về so sánh từ đồng nghĩa, rồi, về ngữ pháp thì Rouge hiện tại chưa có. Liệu ngoài Rouge có độ đo nào thoả mãn điều đó không ? Mình cảm ơn.


#2

Nếu so sánh từ đồng nghĩa thì bạn xem qua thử bài báo “Better Summarization Evaluation with Word Embeddings for ROUGE” (công cụ ROUGE-WE [1]), mình nghĩ có thể giải quyết được vấn đề so sánh từ đồng nghĩa. Còn ngữ pháp thì mình không biết bạn so sánh để làm gì. Nếu bạn cần đánh giá ngữ pháp thì mình nghĩ Languge Model là thứ bạn cần.

[1] https://github.com/ng-j-p/rouge-we


#3

Cảm ơn về chia sẻ của bạn, Nó rất có ích với mình . Nhưng mô hình của mình dùng ra output là sinh câu mới, nên vị trí ngữ pháp của output có thể khác so với reference của article. Nếu dùng Rouge thì độ đo sẽ bị giảm nếu vị trí ngữ pháp khác so với reference.


#4

Theo mình biết thì thông thường các bài báo sẽ dùng 2 độ đo là: Informative score (IS) và Grammatical score (GS). Và độ đo Rouge được dùng để tính IS, còn GS thì mình thấy là là để cho human đánh giá trên thang 5. :smile:


#5

Chào bạn, về rouge we hiện tại mới support cho tiếng anh. Mình có sử dụng Pre-trained word vectors của fasttext cho tiếng việt làm đầu vào nhưng vẫn không ổn. Bạn có kinh nghiệm về vấn đề này không ? Liệu chuyển sang tiếng việt cần làm những gì ? Cám ơn bạn.


#6

Nếu có thể bạn có thể mô tả về output của hệ thống summarization của bạn không? Hay đưa ra vài bản ouput cùng với vài bản references cũng được. Bởi vì nếu mà output của bạn là kiểu abstractive hoàn toàn thì khó mà dùng rouge-we để đánh giá. Mình đoán bạn cũng đã đọc và hiểu rouge-we hoạt động thế nào nhỉ (dựa trên việc bạn thay fasttext vào), rõ ràng bản chất của nó vẫn dựa trên so khớp n-gram nhưng kết hợp thêm word2vec để phát hiện ra các phrases có cùng ngữ nghĩa.

Mặt khác, cách tính n-gram (n > 1) của rouge-we theo mình không thực sự tốt, lí do là nó tìm vector của một phrase (gồm nhiều word) = tích của các word vectors dẫn đến ít nhiều cũng bị mất mát, sai lệch thông tin.


#7

Một số output của mình :

INFO:tensorflow:REFERENCE SUMMARY: ngày 24/6 , cơ_quan cảnh_sát điều_tra ( csđt ) , công_an huyện hải_lăng ( tỉnh quảng_trị ) cho biết , đã ra quyết_định khởi_tố vụ án , khởi_tố bị_can đối_với trần_viên ( 46 tuổi , trú tại thôn văn_vận , xã hải_quy , huyện hải_lăng ) , về tội “ dâm_ô với trẻ_em ” .

INFO:tensorflow:GENERATED SUMMARY: ngày [UNK] , công_an huyện hải_lăng ( bà_rịa - vũng_tàu ) cho biết , cơ_quan csđt công_an huyện hải_lăng ( tỉnh bà_rịa - vũng_tàu ) đã khởi_tố vụ án , khởi_tố bị_can , bắt tạm giam trần_viên ( 18 tuổi , trú tại thôn văn_vận , xã hải_quy , huyện hải_lăng ) về tội “ dâm_ô với trẻ_em ” .

INFO:tensorflow:REFERENCE SUMMARY: một viên kim_cương màu hồng tinh_khiết nặng 12,04 carat dự_kiến sẽ có giá từ 8-12 triệu usd trong cuộc đấu_giá tại hồng_kông vào cuối tháng này . đây cũng là viên kim_cương hồng lớn nhất từ trước tới nay từng được đem bán_đấu_giá .

INFO:tensorflow:GENERATED SUMMARY: “ martian_pink ” dự_kiến sẽ có giá từ 8-12 triệu usd trong phiên đấu_giá tại christie ’ s ở hồng_kông vào ngày 29/5 tới . “ martian_pink ” là 1 trong 2 viên kim_cương hồng nổi_tiếng nhất trên thế_giới .

INFO:tensorflow:REFERENCE SUMMARY: giải trên sân đất nện tại monte - carlo tiếp_tục thiếu_vắng nhiều ngôi_sao .

INFO:tensorflow:GENERATED SUMMARY: giải_masters - carlo_masters 2014 là một trong những giải_đấu có truyền_thống và tuổi_đời lớn nhất trong làng banh nỉ . với murray , đây là năm thứ 108 giải_đấu được tổ_chức và thậm_chí chưa từng bị gián_đoạn từ năm 1897 ngay cả khi thế_chiến thứ nhất và thứ hai diễn ra .

Mình chưa hiểu rouge-we lắm. Khi mình build thì cần word2vec pre-trained vectors, cái đó của tiếng anh, nên mình lấy tương tự tiếng việt trên fast-text. Nhưng trong code còn có dùng WordNet. Nên mình chưa hiểu cách hoạt động của rouge-we


#8

Theo mình thì với kiểu tóm tắt trên thì chỉ cần tính R1, R2 và SU4. Hơn nữa bạn cũng cần xem xét cái pretrained word vectors, xem nó được train trên domain gì, có giống với bạn không chẳng hạn, hay thậm chí có thể thay đổi luôn cách tính của rouge-we với lí do mình nói ở lần trước. (tuy nhiên sau đó nhớ đánh giá toàn bộ models + baselines trên cái mới này cũng như report cụ thể để các nghiên cứu sau có thể so sánh được).


#9

Hi mimibank. Bạn ơi mình cũng đang tìm hiểu về vấn đề mà bạn làm - auto text summarization. Bạn có thể share contact của bạn đc ko nhỉ. Mình muốn chat vs bạn học hỏi tham khảo thêm :slight_smile:


#10

Rouge thì cho abtractive không có đúng lắm. Em thấy tính độ tương đồng giữa các từ dựa trên rouge thì chuẩn hơn ấy ạ :smiley: