Phân đoạn hội thoại theo người nói trong ngôn ngữ tiếng việt

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN NGUYỄN ĐỨC NAM PHÂN ĐOẠN HỘI THOẠI THEO NGƯỜI NĨI TRONG NGƠN NGỮ TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 7480101 KHÓA LUẬN TỐT NGHIỆP THÀNH PHỐ HỒ CHÍ MINH, NĂM 2021 THƠNG TIN CHUNG Họ tên sinh viên: Nguyễn Đức Nam MSHV: 17089981 Lớp: DHKHMT13A Khóa: 2017-2021 Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 7480101 SĐT: 0983212337 Email: nguyenducnam.iuh@gmail.com Tên đề tài: PHÂN ĐOẠN HỘI THOẠI THEO NGƯỜI NĨI TRONG NGƠN NGỮ TIẾNG VIỆT Người hướng dẫn: Huỳnh Trung Hiếu Email: hthieu@iuh.edu.vn Cơ quan công tác: Khoa Công Nghệ Thông Tin – Đại học Công Nghiệp Thành Phố Hồ Chí Minh Tp Hồ Chí Minh, ngày……tháng……năm 20….… Người hướng dẫn (Ký ghi rõ họ tên) Sinh viên (Ký ghi rõ họ tên) LỜI CẢM ƠN Em xin giử lời cảm ơn chân thành đến nhà trường, Khoa Cơng nghệ thơng tin nói chung ngành khoa học máy tính nói riêng tạo điều kiện hỗ trợ cho chúng em làm tốt đồ án tốt nghiệp Đặc biệt, chúng em xin bày tỏ lòng biết ơn đến thầy PGS.TS Huỳnh Trung Hiếu hướng dẫn, sửa chữa góp ý cho chúng em nhiều để hồn thành khóa luận Đồng thời chúng em xin cảm ơn thầy cô, bạn bè gia đình khoa giúp đỡ, động viên tạo điều kiện cho chúng em suốt trình thực đồ án Trong trình thực đồ án này, em cố gắng nỗ lực, nhiên khơng tránh khỏi sai sót Em mong nhận góp ý, đánh giá thầy cô Em xin chân thành cảm ơn LỜI CẢM ĐOAN Tôi xin cam đoan đồ án tốt nghiệp "Phân đoạn hội thoại theo người nói ngơn ngữ tiếng Việt" cơng trình nghiên cứu thân Những phần có sử dụng tài liệu tham khảo có đồ án liệt kê nêu rõ phần tài liệu tham khảo Đồng thời số liệu hay kết trình bày đồ án mang tính chất trung thực, khơng chép, đạo nhái Nếu sai tơi xin chịu hồn toàn trách nhiệm chịu tất kỷ luật môn nhà trường đề TĨM TẮT Phân đoạn đoạn hội thoại theo người nói trình phân đoạn âm đầu vào thành đoạn đồng theo người nói cụ thể Cụ thể hơn, trình giúp trả lời cho câu hỏi "Ai nói nào?" Đây trình quan trọng hỗ trợ việc nhận diện giọng nói xác định người nói họp trực truyến, chương trình truyền hình, đoạn thư thoại, đặc biệt việc đánh giá đọc bảng kiểm Trong nghiên cứu nghiên cứu tiếp cận phân đoạn đoạn hội thoại theo người nói ngơn ngữ tiếng Việt Để giải chúng tơi sử dụng phương pháp vector hóa giọng nói x-vector sau gom cụm phương pháp mean-shift, k-means agglomerative hierarchical clustering nhằm xác định người nói đoạn hội thoại Tiếp cận đề xuất đạt độ xác 90,04% đoạn đối thoại giả gồm người nói tạo từ tập kiểm thử liệu VIVOS Corpus MỤC LỤC LỜI CẢM ƠN LỜI CẢM ĐOAN TÓM TẮT MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT MỞ ĐẦU 10 CHƯƠNG TỔNG QUAN 11 1.1 Phân đoạn hội thoại ? 11 1.2 Tổng quan đề tài 11 1.3 Lý chọn đề tài 12 CHƯƠNG PHƯƠNG ÁN ĐỀ XUẤT 13 2.1 Trích xuất Speaker Embedding 15 2.2 Gom cụm 16 2.2.1 K-means 16 2.2.2 Agglomerative hierarchical clustering (AHC) 17 2.2.3 Mean-shift 17 2.2.4 Silhouette Score 17 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 19 3.1 Tập liệu 19 3.2 Thanh đo đánh giá cho toán 20 3.3 Kết đạt với tập kiểm thử 21 3.4 Kết huấn luyện Model Speaker Embedding 21 CHƯƠNG TỔNG QUAN 23 TÀI LIỆU THAM KHẢO 24 DANH MỤC HÌNH ẢNH Hình 1.1: Quy trình truyền thống tốn phân đoạn đoạn hội thoại 12 Hình 2.1: Sơ đồ quy trình giải tốn 13 Hình 2.2: Cấu trúc mơ hình x-vector 14 Hình 3.1: Quy trình xác định Sequence Match Accuracy 20 Hình 3.2: Kết đạt q trình huấn luyện mơ hình speaker embedding 21 Hình 3.3: Kết đạt phương pháp gom cụm khác với với tập kiểm thử có số người nói k cụ thể 22 DANH MỤC BẢNG BIỂU Bảng 3.1: Thông số tập huấn luyện tập kiểm thử liệu VIVOS 19 DANH MỤC TỪ VIẾT TẮT AHC Agglomerative Hierarchical Clustering ASR Automated Speech Recognition DNN Deep Neural Networks GMM Gaussian Mixture Model JFA Joint Factor Analysis MFCC Mel-Frequency Cepstral Coefficients ReLU Rectified Linear Unit TDNN Time-Delay Neural Network UBM Universal Background Model MỞ ĐẦU Đặt vấn đề Trước phát triển nhanh chóng việc ứng dụng trí tuệ nhân tạo sống, làm thúc đẩy nhu cầu áp dụng lĩnh vực trí tuệ nhân tạo vào sống phân tích liệu, xử lý ảnh hay xử lý ngôn ngữ tự nhiên Đặc biệt lĩnh vực xử lý ngơn ngữ tự nhiên có tốn vơ thiết thực nhận diện giọng nói Và nhằm cải thiện chất lượng toán nhận diện giọng nói ta xác định trước đoạn theo người nói cụ thể Việc nhắm tăng cao khả khả nhận diện giọng nói mơ hình nhận diện giọng nói Và ngồi ra, tốn nhận dạng giọng nói với ngơn ngữ tiếng Việt cịn khan khơng có báo việc Vì đề tài “Phân đoạn hội thoại theo người nói ngơn ngữ Tiếng Việt” không giúp cải thiện chất lượng tốn lớn “Nhận diện giọng nói” mà cịn đóng góp thêm cho lĩnh vực nhận diện giọng nói Tiếng Việt Mục tiêu đề tài Nhằm sử dụng mơ hình deep learning để xác định đoạn âm có người nói đoạn đối thoại dài cho ngôn ngữ Tiếng Việt Đối tượng phạm vi nghiên cứu • Đối tượng nghiên cứu: Các hội thoại Tiếng Việt • Phạm vi nghiên cứu: Trên tập liệu giọng nói VIVOS đại học Khoa học Tự Nhiên Ý nghĩa thực tiễn đề tài Việc phân đoạn đoạn hội thoại khơng nhằm tăng khả xác hệ thống nhận diện giọng nói (ASR) mà cịn giúp lưu lại nhật kí họp trực truyến, chương trình truyền hình, vấn, đàm thoại hay buổi xét xử, đặc biệt đánh giá bảng kiểm 10 loại liệu, tự động khắc phục việc thay đổi người nói điều kiện âm Những năm gần đây, thay sử dựng quy trình cổ điển (mơ tả cụ thể Hình 1.1) số mơ hình thay hồn tồn mơ hình học sâu đầu cuối phân đoạn đoạn hội thoại (End-to-End Neural Diarization) để thay [26, 27] Hình 1.1: Quy trình truyền thống toán phân đoạn đoạn hội thoại 1.3 Lý chọn đề tài Hiện Việt Nam, nghiên cứu tốn cịn hạn chế, có số tài liệu liên quan đến phương pháp speaker embedding sử dụng cho toán nhận diện giọng nói I-vector [28] hay bottle neck features [29] Vì chúng tơi trình bày cách giải toán phân đoạn đoạn hội thoại ngôn ngữ tiếng Việt dựa tiếp cận speaker embedding 12 CHƯƠNG PHƯƠNG ÁN ĐỀ XUẤT Mơ hình đề xuất phác họa Hình 2.1 Tín hiệu âm đầu vào qua bước tiền xử lý trích xuất đặc trưng cách sử dụng mơ hình Mel-Frequency Cepstral Coefficients (MFCC) Các X-vector sử dụng để trích xuất giọng người nói thơng qua mơ hình DNN cuối gom cụm vector trính xuất theo người nói Đầu tiên chúng tơi chuyển đổi tín hiệu âm đầu vào thành frame có kích thước 32 ms với bước nhảy 10 ms Sau đó, với frame chúng tơi trích xuất thơng tin đặc trưng 40 giá trị hệ số MFCC – hệ số đại diện cho đặc trưng âm Tiếp theo để liệu đầu vào mơ hình huấn luyện có kích thước giống nhau, chúng tơi sử dụng kĩ thuật sliding window với kích thước 30 frames bước nhảy frames để làm giá trị đầu vào cho mơ hình X-vector Quy trình mơ tả Hình 2.1 Hình 2.1: Sơ đồ quy trình giải tốn 13 Chúng tơi sử dụng phương pháp X-vector - phương pháp để tìm speaker embedding mơ hình DNN [24] Mơ hình huấn luyện đoạn có số lượng vector định có chứa thơng tin đặc trưng trích xuất từ liệu gồm nhiều người nói Sau huấn luyện, speaker embedding giá trị tầng thắt cổ chai model với liệu đầu vào Phương pháp X-vector đánh giá đem lại hiệu vượt trội i-vector - phương pháp pháp để tìm speaker embedding cổ điển cách sử dụng mơ hình Gaussian mixture model - Universal Background Model (GMM-UBM) kết hợp với kĩ thuật Joint Factor Analysis (JFA) [25, 28] Hình 2.2: Cấu trúc mơ hình x-vector 14 2.1 Trích xuất Speaker Embedding Mơ hình mơ tả Hình 2.2 gồm hai cấp chính: cấp frame (xử lý liệu đầu vào theo đoạn frame) cấp đoạn (xử lý toàn đoạn liệu đầu vào) Trong cấp frame gồm năm tầng Time-Delay Neural Network (TDNN) với hàm kích hoạt ReLU (Rectified Linear Unit) Còn cấp đoạn gồm tầng statistics pooling để tổng hợp lại giá trị cấp frame, hai tầng linear với tầng sau sử dụng để trích xuất X-vector embedding softmax layer dùng để dự đoán xác suất người nói cho đoạn liệu đầu vào Ở cấp frame, ban đầu giá trị đầu vào đoạn gồm T frame với frame có 40 đặc trưng MFCC Tại layer TDNN thứ nhất, frame t đầu xây dựng từ đoạn frame [𝑡 − 2, 𝑡 + 2] T frame liệu đầu vào Và TDNN thứ 3, frame t lại tổng hợp từ cặp frame {𝑡 − 2, 𝑡, 𝑡 + 2} {𝑡 − 3, 𝑡, 𝑡 + 3} layer trước Cịn layer TDNN cuối frame t lấy giá tri frame t layer trước Kích thước đặc trưng layer mơ tả cụ thể Hình 2.2 Ở cấp đoạn, statistics pooling layer nhận kết từ layer TDNN cuối làm giá trị đầu vào Rồi tính giá trị trung bình (mean) độ lệch chuẩn (standard deviation) liệu đầu vào với đặc trưng trả vector ghép lại từ giá trị Tiếp theo sau linear layer có kích thước 512 với layer thứ sử dụng làm X-vector embedding Cuối softmax layer trả xác suất người nói đại diện cho liệu âm đầu vào Mơ hình huấn luyện để phân loại người nói với hàm mát Categorical Crossentropy Loss Function Cụ thể sử dụng liệu đầu vào đoạn đặc trưng dài 30 frame với frame chứa 40 đặc trưng MFCC Và đầu model xác suất người nói đại diện cho đoạn đặc trưng đầu vào Tổng số người nói tập huấn luyện 46 nên số giá trị model huấn luyện 15 Sau huấn luyện model X-vector, để nhận speaker embedding liệu đầu vào lấy giá trị trả linear layer cuối thay softmax layer Vì linear layer chứa đựng thông tin đủ tốt để model x-vector huấn luyện xác người nói cụ thể Gom cụm 2.2 Sau tách đoạn thể người nói cho đoạn âm thực bước trên, giải thuật gom cụm áp dụng vào nhằm mục đích gom đoạn âm đoạn hội thoại tương ứng cho người nói, từ chúng tơi biết người nói ứng với đoạn âm Chúng tơi giới thiệu số thuật tốn mà chúng tơi thử nghiệm cho việc giải toán 2.2.1 K-means Thuật toán phân cụm K-mean xem thuật toán tiếng để gom cụm liệu Chúng cần giả định số lượng cụm biết trước Nó thuật tốn phân cụm lặp lặp lại Chúng tơi thực theo trình tự sau: • Bước Xác định số lượng cụm K mong muốn, tương tự với việc xác định số lượng K người nói tốn • Bước Cố định số lượng cụm định ngẫu nhiên điểm liệu tương ứng tâm cụm • Bước Tính tốn cập nhật lại vị trí tâm cụm • Bước Lặp lại Bước vị trí tâm cụm khơng thay đổi Nói cách khác, chúng tơi cần phân loại liệu dựa số lượng cụm Trong bước, tâm tương ứng với cụm tính tốn cập nhật lại Vì thuật tốn lặp lại, nên chúng tơi cần cập nhật vị trí K tâm cụm với lần lặp lại tìm thấy tối ưu tồn cục hay nói cách khác tâm cụm đạt đến vị trí tối ưu chúng, thường lặp lại việc tính tốn cập nhật vị trí tâm cụm khơng cịn thay đổi 16 2.2.2 Agglomerative hierarchical clustering (AHC) Agglomerative hierarchical clustering thuật tốn lặp lặp lại q trình gom cụm cụm có q trình gom cụm đáp ứng tiêu chí đề Q trình thực AHC việc tính tốn độ tương quan cụm đơn lẻ Ở bước, hai cụm có độ tương quan cao hợp thành cụm Một yếu tố quan trọng thuật tốn AHC phải nói đến điều kiện dừng Đối với toán, điều kiện dừng tốt thuật tốn AHC sử dụng ngưỡng độ tương quan số cụm mục tiêu 2.2.3 Mean-shift Mean-shift thuật toán gom cụm cách cho điểm số điểm bắt đầu điểm hội tụ vệ khu vực có mật độ dày hơn, cuối số lượng cụm số lượng cụm mà điểm cần hội tụ Riêng phương pháp không cần phải xác định trước số lượng cụm K-means AHC 2.2.4 Silhouette Score Vì K-means AHC cần có số lượng cụm cho trước nên sử dụng Silhouette Score để ước lượng giá trị Silhouette Score giá trị để tính độ tương quan tính quán liệu phân cụm Công thức Silhouette Score điểm liệu point 𝑖 ∈ 𝐶𝑖 (điểm liệu 𝑖 nằm cluster 𝐶𝑖 ): • 𝑎 (𝑖 ): trung bình khoảng cách điểm cụm so với 𝑖: 𝑎 (𝑖 ) = |𝐶 |−1 ∑𝑗∈𝐶𝑖,𝑖≠𝑗 d(𝑖, 𝑗) (2-1) 𝑖 • 𝑏 (𝑖 ): khoảng cách nhỏ điểm cụm so với 𝑖: 𝑏(𝑖 ) = |𝐶 | ∑𝑗∈𝐶𝑘 d(𝑖, 𝑗) 𝑘≠𝑖 (2-2) 𝑘 • 𝑠(𝑖 ): giá trị Silhouette Score điểm 𝑖: 17 𝑏(𝑖)−𝑎(𝑖) 𝑠(𝑖 ) = {max⁡{𝑎(𝑖),𝑏(𝑖)} , |𝐶𝑖 | > (2-3) 0, |𝐶𝑖 | = Để xác định giá trị số lượng phụ hợp chọn giá trị Silhouette Score trung bình tất điểm cao tất cách phân cụm theo số lượng cụm 18 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 3.1 Tập liệu Chúng tơi sử dụng liệu miễn phí VIVOS Corpus [30] AILAB – Đại học Khoa học Tự nhiên Tp.HCM Bộ liệu có 15 ghi âm tiếng nói có chứa nhiều đoạn âm dạng *.wav với đơn người nói phân vào folder theo người nói Bộ liệu chia thành tập huấn luyện tập kiểm thử với số thông tin Bảng 3.1: Bảng 3.1: Thông số tập huấn luyện tập kiểm thử liệu VIVOS Tập huấn luyện Tập kiểm thử Số người nói 46 19 Số người nam 22 12 Số người nữ 24 Số lượng file wav 11660 760 Tổng thời lượng 14:55 0:45 Số lượng từ độc 4617 1692 Chúng sử dụng liệu tập huấn luyện để huấn luyện kiểm thử cho mô hình speaker embedding với tỉ lệ tập huấn luyện kiểm thử 75/25 Với tập kiểm thử, sử dụng để tạo đoạn hội thoại giả sử dụng đoạn đối thoại giả để kiểm thử cho tồn tốn Vì tập liệu ban đầu đoạn hội thoại đơn người nói khơng phải đoạn hội thoại nên chúng tơi tạo đoạn hội thoại giả cách ghép đoạn *.wav theo người nói Đầu tiên chúng tơi chọn ngẫu nhiên K người (Với K khoảng từ đến người) Mỗi người lấy ngẫu nhiên 10 đoạn ghi âm Sau trộn ngẫu nhiên đoạn ghi âm K người lại để tạo thành đoạn hội thoại Tổng cộng với K người nói chúng tơi có 50 đoạn hội thoại 19 3.2 Thanh đo đánh giá cho toán Để đánh giá hiệu mơ hình, chúng tơi sử dụng hệ đo Sequence Match Accuracy Sequence Match Accuracy hệ đo độ xác tối đa chuỗi với cách gán nhãn tối ưu Để tính hệ đo tính ma trận xuất cặp dự đốn-nhãn Sau chọn cặp nhãn cho nhãn hay dự đoán chọn lần tổng giá trị cặp chọn lớn Từ cặp chọn có độ xác tổng giá trị cặp chia cho tổng số giá trị Để chọn cặp giá trị lớn ta sử dụng thuật toán Hungary sử dung hàm scipy.optimize.linear_sum_assignment để tìm giá trị tối ưu nhất) Quy trình tìm sequence match accuracy Hình 3.1 Hình 3.1: Quy trình xác định Sequence Match Accuracy 20 3.3 Kết huấn luyện Model Speaker Embedding Sau huấn luyện, Kết mơ hình mơ tả chi tiết Hình 3.2 Mơ hình đạt độ xác tốt kiểm thử là: 0.97402 (ở epoch thứ 7) Bắt đầu từ epoch thứ độ xác tập kiểm thử khơng cịn tăng mà cịn có xu hướng giảm, mơ hình từ sau overfit tiếp tục huấn luyện Hình 3.2: Kết đạt trình huấn luyện mơ hình speaker embedding 3.4 Kết đạt với tập kiểm thử Hình 3.3 kết sau kiểm thử với phương pháp gom cụm cụ thể tập kiểm thử với người nói cụ thể Ở phương pháp Kmeans AHC, chúng tơi sử dụng số lượng người nói tập liệu làm số lượng cụm Còn phương pháp K-means AHC kết hợp với Silhouette Score, ước lượng tất số lượng người nói khoảng từ đến 10 chọn số lượng người nói có Silhouette Score cao Ở phương pháp cuối mean-shift tự xác định bán với p = 0.2 21 Như Hình 3.3, thấy biết trước số lượng người nói độ xác cao phải ước lượng Hiệu phương pháp K-means biết trước số người nói ln có độ xác cao phương pháp AHC Nhưng ước lượng phương pháp AHC lại có độ xác cao Riêng phương pháp Mean-shift lại không đem lại kết tốt phương pháp Và tất phương pháp giảm tỉ dần tỉ lệ xác số người nói tăng lên 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Kmeans + AHC + Kmeans AHC Silhouette Silhouette Mean-shift Score Score K = 0.900475111 0.890389111 0.844813261 0.868643705 0.756924429 K = 0.817493684 0.804101782 0.742407367 0.745698706 0.570454056 K = 0.758692596 0.739889799 0.66237146 0.647084742 0.49353241 Hình 3.3: Kết đạt phương pháp gom cụm khác với với tập kiểm thử có số người nói K cụ thể 22 CHƯƠNG TỔNG QUAN Trong nghiên cứu nghiên cứu tiếp cận phân đoạn đoạn hội thoại theo người nói ngơn ngữ tiếng Việt Chúng tơi xây dựng mơ hình nhận dạng xvector để phục vụ cho việc speaker embedding sử dụng phương pháp gom cụm k-means, AHC mean-shift để gom cụm speaker embedding theo người nói cụ thể Và kiểm thử với liệu VIVOS Corpus, thấy Kmeans đem lại hiệu tốt biết trước số người nói so với Kmeans AHC tự ước lượng Silhouette Score đem lại kết tốt so với K-means Tiếp cận đề xuất đạt độ xác 90,04% đoạn đối thoại giả gồm người nói tạo từ tập kiểm thử liệu VIVOS Corpus Bước tiếp tục thu thập liệu để áp dụng cho toán nhận dạng đọc bảng kiểm tiếng Việt sử dụng phịng mổ, huấn luyện mơ hình, cải tiến mơ hình phân đoạn hội thoại theo người nói, làm tảng để nâng cao hiệu chuyển giọng nói sang văn 23 TÀI LIỆU THAM KHẢO [1] S E Tranter, K Yu, D A Reynolds, G Evermann, D Y Kim, P C.Woodland, An investigation into the the interactions between speaker diarisation systems and automatic speech transcription, CUED/FINFENG/TR-464 (2003) [2] S E Tranter, D A Reynolds, An overview of automatic speaker diarization systems, IEEE Transactions on Audio, Speech, and Language Processing 14 (2006) 1557–1565 [3] X Anguera, S Bozonnet, N Evans, C Fredouille, G Friedland, O Vinyals, Speaker diarization: A review of recent research, IEEE Transactions on Audio, Speech, and Language Processing 20 (2012) 356–370 [4] H Gish, M Siu, R Rohlicek, Segregation of speakers for speech recognition and speaker identification, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1991, pp 873–876 [5] M H Siu, Y George, H Gish, An unsupervised, sequential learning algorithm for segmentation for speech waveforms with multiple speakers, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1992, pp 189–192 [6] M Sugiyama, J Murakami, H Watanabe, Speech segmentation and clustering based on speaker features, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1993, pp 395–398 [7] M A Siegler, U Jain, B Raj, R M Stern, Automatic segmentation, classification and clustering of broadcast news audio, Proceedings of DARPA Speech Recognition Workshop, 1997, pp 97–99 [8] J L Gauvain, G Adda, L Lamel, M Adda-Decker, Transcription of broadcast news: The LIMSI Nov 96 Hub4 system, Proceedings of ARPA Speech Recognition Workshop, 1997, pp 56–63 [9] J L Gauvain, L Lamel, G Adda, The LIMSI 1997 Hub-4E transcription system, Proceedings of DARPA News Transcription and Understanding Workshop, 1998, pp 75–79 [10] J Ajmera, C Wooters, A robust speaker clustering algorithm, Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding, 2003, pp 411–416 [11] S E Tranter, D A Reynolds, Speaker diarisation for broadcast news, Proceedings of Odyssey Speaker and Language Recognition Workshop, 2004, pp 337–344 24 [12] C Wooters, J Fung, B Peskin, X Anguera, Toward robust speaker segmentation: The ICSI-SRI Fall 2004 diarization system, Proceedings of Fall 2004 Rich Transcription Workshop, 2004, pp 402–414 [13] D A Reynolds, P Torres-Carrasquillo, The MIT Lincoln Laboratory RT-04F diarization systems: Applications to broadcast audio and telephone conversations, in: Proceedings of Fall 2004 Rich Transcription Workshop, 2004 [14] A E Rosenberg, A Gorin, Z Liu, P Parthasarathy, Unsupervised speaker segmentation of telephone conversations, Proceedings of the International Conference on Spoken Language Processing, 2002, pp 565–568 [15] D Liu, F Kubala, A cross-channel modeling approach for automatic segmentation of conversational telephone speech, Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding, 2003, pp 333–338 [16] T Pfau, D Ellis, A Stolcke, Multispeaker speech activity detection for the ICSI meeting recorder, Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding, 2001, pp 107–110 [17] J Ajmera, G Lathoud, L McCowan, Clustering and segmenting speakers and their locations in meetings, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 2004, pp 605–608 [18] Q Jin, K Laskowski, T Schultz, A Waibel, Speaker segmentation and clustering in meetings, Proceedings of the International Conference on Spoken Language Processing, 2004, pp 597–600 [19] X Anguera, C Wooters, J Hernando, Acoustic beamforming for speaker diarization of meetings, IEEE Transactions on Audio, Speech, and Language Processing 15 (2007) 2011–2023 [20] D Vijayasenan, F Valente, H Bourlard, An information theoretic approach to speaker diarization of meeting data, IEEE Transactions on Audio, Speech, and Language Processing 17 (2009) 1382–1393 [21] F Valente, P Motlicek, D Vijayasenan, Variational Bayesian speaker diarization of meeting recordings, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp 4954–4957 [22] P Kenny, G Boulianne, P Ouellet, P Dumouchel, Joint factor analysis versus eigenchannels in speaker recognition, IEEE Transactions on Audio, Speech, and Language Processing 15 (2007) 1435–1447 [23] E Variani, X Lei, E McDermott, I L Moreno, J G-Dominguez, Deep neural networks for small footprint text-dependent speaker verification, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 2014, pp 4052–4056 [24] D Snyder, D Garcia-Romero, G Sell, D Povey, S Khudanpur, Xvectors: Robust DNN embeddings for speaker recognition, Proceedings of IEEE 25 International Conference on Acoustics, Speech and SignalProcessing, 2018, pp 5329–5333 [25] N Dehak, P Kenny, R Dehak, P Dumouchel, P Ouellet, Front-end factor analysis for speaker verification, IEEE Transactions on Audio, Speech, and Language Processing 19 (2011) [26] Y Fujita, N Kanda, S Horiguchi, K Nagamatsu, S Watanabe, End-to-end neural speaker diarization with permutation-free objectives, Proceedings of the Annual Conference of the International Speech Communication Association (2019) 4300–4304 [27] Y Fujita, N Kanda, S Horiguchi, Y Xue, K Nagamatsu, S Watanabe, Endto-end neural speaker diarization with self-attention, Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding, IEEE, 2019, pp 296–303 [28] Phung Thi Thu Hien, Phương pháp i-vector nhận diện giọng nói, Tạp chí KHCN Đại học thái ngun, no 172, pp 25-29, 2018 [29] Nguyen Van Huy, Luong Chi Mai, Vui Tat Thang, Applying Bottle Neck Feature for Vietnammese speech recognition, Journal of Computer Science and Cybernetics vol 29 no 4, 2013 [30] L T Hieu and V H Quan, A non-expert Kaldi recipe for Vietnamese Speech Recognition System, in Proceedings WLSI-3 & OIAF4HLT-2, Osaka, Japan, 2016 26