Tìm kiếm văn bản


#1

Em có 1 data về nhiều văn bản.Yêu cầu là đưa ra câu truy vấn thì mình phải tìm ra được chính xác nhất những văn bản chứa nội dung trong câu truy vấn.Em đã đánh chỉ mục các văn bản bằng pylucene nhưng khi tìm kiếm thì kết quả ra không khả quan.Anh/Chị cho e hỏi liệu có những kĩ thuật gì có thể áp dụng vào câu truy vấn trước khi tìm để đưa ra kết quả khả quan hơn ko ạ?Vì đây là văn bản bằng tiếng việt hoàn toàn.Em cám ơn.


#2

Em nên đưa ví dụ về trường hợp em đang nói là “kết quả không khả quan”. Có thể do em muốn tìm dạng “exact fulltext matching” nhưng lại đang truy vấn dạng “partial matching” hoặc ngược lại nên thấy nó chưa đúng ý. Do đó e mô tả cụ thể thì a mới giúp đc.


#3

Dạ,em có data và người dùng sẽ nhập câu hỏi vào sau đó hệ thống sẽ quét tất cả văn bản để tìm ra văn bản gần nhất với câu hỏi ạ.Trường hợp không khả quan là có vài văn bản có đề cập đến từ ngữ khá giống nhau nhưng nội dung hơi khác tuy nhiên search vẫn đưa ra do đó tỉ lệ chuẩn xác vẫn chưa khả quan ạ.