Sự khác biệt của LSTM-CNN concatenating và LSTM-CNN Step by step

nlp

#1

Chào anh/chị, Em là dân mới với NLP nên vẫn còn chưa đủ cái nhìn để tách biệt một cách CHI TIẾT nhất về 2 model này. Bên dứoi là hình mô tả của 2 model em đề cập:

Paper LSTM-CNN step by step

Em rất mong có thể biết được thêm những tri thức từ các anh/chị. Chúc anh/chị một ngày vui vẻ!


#2

Theo cảm nhận của mình:

  • Chung của 2 model: Qua embedding layer, đều lấy được list word vector. => Ma trận SequenceLength x vector embedding.
  • Khác: (mình chỉ dựa trên hình ảnh trên bài và lướt qua pp, chưa phải là đọc rõ ràng chi tiết, b có thể đọc và chạy thử nghiệm để hiểu rõ hơn)
    • model1: xây dựng lstm và cnn độc lập (giả sử là 2 model extract được feature theo những cách khác nhau, và cách này có thể tận dụng ưu thế mạnh mẽ của 2 model này 1 cách song song). Concat các feature này lại để thu được vector tổng hợp feature. Concat là 1 phép biến đổi thường thấy trong deeplearning model vì nó đơn giản và thường ko làm mất đi thông tin (vì các phương pháp hiện tại đều là dùng thực nghiệm chứng minh nên k có gì đảm bảo là concat tốt hay tệ trong trường hợp nào). Sau đó tác giả dùng NeuralNet ở cuối cùng. Ở đây là Fully-Connected layer cuối cùng giống ở model 2. chuyển hoá từ N features => 2 (hoặc k) feature tương đương 2 (hoặc k) output / nhãn.
    • model2: lstm ở trước để trích xuất đặc trưng chuỗi, sau đó lấy hidden vector đưa vào CNN, như vậy đây là 1 dạng nối tiếp (bên trên là song song). Việc sử dụng CNN ở phía sau có vẻ hợp lý vì nếu để ở trước, tính chất chuỗi trong nlp có thể sẽ ko giữ được mạnh mẽ (vì cnn dựa trên filter nếu đặt trước sẽ thành dạng n-gram của nlp).

Cả 2 model đều cố gắng tận dụng điểm mạnh của 2 model lstm và cnn theo những cách khác nhau, nhưng cách 2 có vẻ học thuật hơn 1 chút. Model 1 như là ghép lego vậy.

Chốt vấn đề:

  • lstm để trích xuất features của dữ liệu dạng chuỗi.
  • cnn để trích xuất features thường cho ảnh, dạng ma trận dời dạc. CNN như 1 cái kính hiển vi vậy, từng chút từng chút để trừu tượng hoá đối tượng, các tầng cao hơn thì đối tượng càng tổng quan hơn.