Speaker recognition trong 1 đoạn audio

nlp

#1

Em xin chào mọi người ạ! Hiện tại em đang có bài toán như sau: Em có 1 đoạn audio gồm nhiều người nói, bây giờ em muốn xác định xem đoạn nói nào là của người nào. Mỗi người nói trong audio kia đều đã có 3-5 audio ngắn tầm 3-5s là file nguồn để xác định. Anh/chị nào đã làm về bài toán này hoặc có ý tưởng, phương pháp nào có thể tư vấn cho em làm như thế nào với ạ. Cảm ơn mọi người đã đọc bài.


#2

tìm hiểu về speech classification speaker xem. Mình cx đang tìm hiểu về speech recog


#4

Hiện tại bài toán của mk đang hướng đến là khi thêm người mới bất kì nào thì quá trình detect ko bị ảnh hưởng. nên ko thể theo hướng classification dc. Trước mk cụng tìm hiểu theo hướng one-shot learning nhưng thấy ko hiệu quả lắm


#5

Mình vote cho ý tưởng one shot learning, nhưng có thể do pretrained model của bạn đc train trên data nước ngoài nên đem vào tiếng việt nó sẽ gặp khó khăn?