Bài viết này trình bày kết quả các nghiên cứu ảnh hưởng của F0 và các biến thể của F0 đến nhận dạng phương ngữ tiếng Việt trong các ngữ cảnh khác nhau bao gồm độc lập người nói, phụ thuộc người nói, độc lập nội dung, phụ thuộc nội dung. Nghiên cứu được thực hiện trên bộ ngữ liệu VDSPEC bao gồm tiếng nói đại diện cho ba phương ngữ lớn của tiếng Việt là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.0007 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Phạm Ngọc Hưng1,2, Trịnh Văn Loan1,2, Phạm Quốc Hùng1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Hưng Yên Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách khoa Hà Nội phamngochung@gmail.com, loantv@soict.hust.edu.vn, quochungvnu@gmail.com TÓM TẮT: Phương ngữ tượng đặc biệt nhiều ngơn ngữ có tiếng Việt Phương ngữ tiếng Việt đa dạng, phong phú với nhiều khác biệt Chính khác biệt phương ngữ tạo nên rào cản giao tiếp người sử dụng phương ngữ khác Việc phân biệt, nhận dạng phương ngữ tiếng Việt nói có ý nghĩa quan trọng giúp cho việc hiểu thơng tin truyền đạt qua tiếng nói xác hơn, đặc biệt với hệ thống nhận dạng tự động tiếng nói Nếu biết tiếng nói cần nhận dạng nội dung thuộc phương ngữ điều chỉnh tham số nhận dạng phù hợp với phương ngữ giúp nâng cao hiệu nhận dạng Việc nhận dạng phương ngữ tiếng nói đặt nhiều thách thức, việc nhận dạng dựa đặc trưng mặt ngữ âm Có nhiều đặc trưng sử dụng cho nhận dạng tự động phương ngữ Với tiếng Việt, đặc trưng MFCC, tần số F0 đặc trưng quan trọng có tác động tới kết nhận dạng Tiếng Việt ngơn ngữ có điệu Sự khác biệt điệu thể qua quy luật biến thiên F0 Do khai thác F0 để đưa vào nhận dạng phương ngữ có sở Ngoài F0, biến thể F0 đạo hàm F0, F0 chuẩn hóa theo trung bình, LogF0,… có vai trị định tác động đáng kể đến hiệu nhận dạng phương ngữ tiếng Việt Bài báo trình bày kết nghiên cứu ảnh hưởng F0 biến thể F0 đến nhận dạng phương ngữ tiếng Việt ngữ cảnh khác bao gồm độc lập người nói, phụ thuộc người nói, độc lập nội dung, phụ thuộc nội dung Nghiên cứu thực ngữ liệu VDSPEC bao gồm tiếng nói đại diện cho ba phương ngữ lớn tiếng Việt phương ngữ Bắc, phương ngữ Trung phương ngữ Nam Từ khóa: Nhận dạng phương ngữ, tiếng Việt, MFCC, tần số bản, F0, GMM, độc lập người nói, phụ thuộc người nói, độc lập nội dung, phụ thuộc nội dung I GIỚI THIỆU Tiếng Việt ngơn ngữ có điệu đa dạng phương ngữ [1] Các phương ngữ khác từ địa phương phương thức phát âm Nghiên cứu nhận dạng tự động phương ngữ đóng vai trị quan trọng hệ thống nhận dạng tiếng nói cho ngơn ngữ có tiếng Việt [2, 3] Bài báo trình bày nghiên cứu ảnh hưởng F0, biến thể F0 đến nhận dạng phương ngữ tiếng Việt ngữ cảnh khác bao gồm độc lập người nói, phụ thuộc người nói, độc lập nội dung phụ thuộc nội dung Các phần báo tổ chức sau: phần II trình bày lựa chọn tham số cho mơ hình GMM nhận dạng phương ngữ tiếng Việt, phần III trình bày thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng mơ hình GMM với tham số chọn ngữ liệu VDSPEC theo phương pháp khác phân tích kết đạt được, phần IV kết luận II LỰA CHỌN BỘ THAM SỐ Mơ hình hỗn hợp Gauss đa thể GMM (Gaussian Mixture Model) sử dụng nghiên cứu nhận dạng người nói [4], định danh phương ngữ tiếng Anh [5], tiếng Trung [6], tiếng Thái [7], tiếng Hindi [8], tiếng Việt [2], nhận dạng ngôn ngữ [9, 10] Các tham số thường dùng nhận dạng phương ngữ MFCC [3, 6, 8] Ngoài MFCC, tần số F0 thường sử dụng kết hợp với MFCC biến thể F0 giúp nâng cao hiệu nhận dạng phương ngữ [3, 6] Với ngơn ngữ có điệu tiếng Việt, F0 có ảnh hưởng đáng kể tới hiệu nhận dạng phương ngữ Sự khác biệt phương ngữ tiếng Việt thể nhiều yếu tố khác Song xét phương diện ngữ âm điệu yếu tố có khác biệt nhiều phương ngữ Thanh điệu thể qua F0 Do F0 có vai trò quan trọng nhận dạng phương ngữ tiếng Việt Ngoài trực tiếp giá trị F0, biến thể F0 đạo hàm F0, chuẩn hóa F0 theo giá trị trung bình, chuẩn hóa F0 theo giá trị trung bình độ lệch chuẩn, đạo hàm LogF0, chuẩn hóa LogF0 theo giá trị LogF0 max LogF0 cho câu, chuẩn hóa LogF0 theo trung bình LogF0 câu, chuẩn hóa theo LogF0 theo trung bình độ lệch chuẩn LogF0 [11, 12] nghiên cứu, sử dụng cho nhận dạng phương ngữ tiếng Việt Về biến thể F0, xin tham khảo chi tiết [12] Trong nghiên cứu [12], tham số bao gồm MFCC F0 chuẩn hóa theo trung bình F0 cho kết nhận dạng cao so với trường hợp kết hợp MFCC với biến thể lại F0 Cũng nghiên cứu [12], số lượng hệ số MFCC 13 cho kết nhận dạng tử nghiệm nhận dạng với số lượng MFCC chọn từ đến 19 Các thử nghiệm nghiên cứu [12] thực ngữ liệu VDSPEC Do vậy, nghiên cứu này, tham số sử dụng mơ hình nhận dạng GMM nhận dạng phương ngữ tiếng Việt chọn bao gồm 13 hệ số MFCC kết hợp với biến thể F0 chuẩn hóa theo trung bình F0 52 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT III THỬ NGHIỆM NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT DÙNG MƠ HÌNH GMM VỚI BỘ THAM SỐ BAO GỒM MFCC VÀ THÔNG TIN F0 TRÊN NGỮ LIỆU VDSPEC 3.1 Bộ ngữ liệu VDSPEC Các thử nghiệm nhận dạng phương ngữ tiếng Việt nghiên cứu thực ngữ liệu VDSPEC VDSPEC ngữ liệu phương ngữ tiếng Việt xây dựng phương pháp ghi âm trực tiếp người nói mơi trường lựa chọn có nhiễu thấp Người nói đọc đoạn văn chuẩn bị sẵn theo chủ đề (Cơ bản, Đời sống, Khoa học, Kinh doanh, Ô tô – xe máy, Pháp luật) Văn chuẩn hóa để đạt cân điệu Trung bình, điệu có 717 từ VDSPEC bao gồm tiếng nói ghi âm người nói đại diện cho phương ngữ tiếng Việt phương ngữ Bắc (giọng Hà Nội), phương ngữ Trung (giọng Huế) phương ngữ Nam (giọng Thành phố Hồ Chí Minh) Mỗi phương ngữ có 50 người nói bao gồm 25 nam 25 nữ Mỗi người đọc 25 câu cho chủ đề Không kể chủ đề Cơ dùng cho nghiên cứu điệu, tổng số có 18750 câu ghi chủ đề lại với độ dài trung bình 10 giây câu Tổng thời lượng tiếng nói 45,12 tương ứng với 4,84 GB liệu lưu trữ Các thử nghiệm nhận dạng tiến hành theo trường hợp sau: - Độc lập người nói, độc lập nội dung (DLNN-DLND); - Độc lập người nói, phụ thuộc nội dung (DLNN-PTND); - Phụ thuộc người nói, độc lập nội dung (PTNN-DLND); - Phụ thuộc người nói, phụ thuộc nội dung (PTNN-PTND); Kết thử nghiệm trình bày mục 3.2 Trường hợp độc lập người nói, độc lập nội dung Trong nghiên cứu này, ngữ liệu tiếng nói lựa chọn cho huấn luyện thử nghiệm nhận dạng độc lập người nói nội dung Theo đó, với phương ngữ giới tính có 25 người nói chọn 20 người dùng cho huấn luyện, người lại dùng cho thử nghiệm Tiếng nói dùng cho huấn luyện lấy từ chủ đề (không dùng chủ đề bản), chủ đề lại tương ứng người dùng cho huấn luyện Phương pháp tổ chức liệu cho huấn luyện thử nghiệm tạo 25 trường hợp khác Các thử nghiệm thực theo phương pháp quay vịng Ngữ liệu 25 người nói phương ngữ chia làm phần, phần dùng cho thử nghiệm phần lại dùng cho huấn luyện xoay vòng Với chủ để phân chia tương tự, chủ đề dùng cho nhận dạng, chủ đề lại dùng cho huận luyện quay vịng Kết thử nghiệm tính trung bình 25 thử nghiệm Ma trận sai nhầm tổng hợp tỷ lệ nhận dạng 25 thử nghiệm cho bảng 1: Bảng Kết nhận dạng độc lập người nói, độc lập nội dung Giới tính Nam Nữ PN Bắc Trung Nam Bắc Trung Nam Bắc 1630 1228 878 2329 719 686 Trung 1390 1937 880 620 2174 1010 Nam 710 551 1895 350 603 1738 Tỷ lệ nhận dạng 52,16 % 61,98 % 60,64 % 74,53 % 69,57 % 55,62 % Bảng cho thấy phương ngữ Bắc có tỷ lệ nhận dạng thấp số lượng nhận dạng nhầm sang phương ngữ Trung lớn so với trường hợp nhận dạng nhầm sang phương ngữ Nam Phương ngữ Trung có tỷ lệ nhận dạng cao có số lượng nhận nhầm sang phương ngữ Bắc cao so với nhầm sang phương ngữ Nam Với phương ngữ Nam, tỷ lệ nhận dạng nhầm sang hai phương ngữ lại tương đối cân Tỷ lệ nhận dạng trung bình phương ngữ đạt 58,26 % giới tính nam 66,57 % giới tính nữ 3.3 Trường hợp độc lập người nói, phụ thuộc nội dung Trong thử nghiệm này, cách chia nhóm người nói dùng cho huấn luyện thử nghiệm tương tự trường hợp độc lập người nói, độc lập nội dung Riêng việc lựa chọn chủ đề câu có thay đổi Cả chủ đề lựa chọn cho huấn luyện thử nghiệm Trong đó, chủ đề chọn 20 câu dùng cho huấn luyện số 20 câu huấn luyện chọn câu dùng cho thử nghiệm nhận dạng Như nội dung thử nghiệm nằm nội dung huấn luyện khác người nói Thử nghiệm tiến hành quay vòng với phần theo phân chia người nói phần theo phân chia nội dung thử nghiệm, huấn luyện Như có tổng số 20 thử nghiệm khác trường hợp Kết thử nghiệm tính theo trung bình 20 thử nghiệm Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng 53 Ma trận sai nhầm tổng hợp tỷ lệ nhận dạng 20 thử nghiệm cho bảng 2: Bảng Kết nhận dạng độc lập người nói, phụ thuộc nội dung Giới tính Nam Nữ PN Bắc Trung Nam Bắc Trung Nam Bắc 1339 948 812 1863 591 482 Trung 1072 1427 764 509 1753 811 Nam 593 581 1462 258 461 1491 Tỷ lệ nhận dạng 53,56 % 57,08 % 58,48 % 74,52 % 70,12 % 59,64 % Bảng cho thấy phương ngữ Bắc có tỷ lệ nhận dạng thấp so với hai phương ngữ lại Sự chênh lệch tỷ lệ nhận dạng phương ngữ giảm so với trường hợp DLNN-DLND Tỷ lệ nhận dạng trung bình đạt 56,37 % (nam) thấp so với trường hợp DLNN-DLND 68,09 % (nữ), có phần cao Tỷ lệ nhận dạng nhầm sang phương ngữ cịn lại có quy luật tương tự trường hợp DLNN-DLND 3.4 Trường hợp phụ thuộc người nói, độc lập nội dung Trong thử nghiệm này, 20 người chọn để huấn luyện số 20 người huấn luyện chọn để thử nghiệm Nội dung tiếng nói dùng cho huấn luyện thử nghiệm độc lập với Trong chủ đề, chọn chủ đề dùng cho thử nghiệm chủ đề lại dùng cho huấn luyện Thử nghiệm tiến hành quay vòng với phần theo phân chia người nói phần theo phân chia nội dung thử nghiệm, huấn luyện Như có tổng số 20 thử nghiệm khác trường hợp Kết thử nghiệm tính trung bình 20 thử nghiệm Ma trận sai nhầm tổng hợp tỷ lệ nhận dạng 20 thử nghiệm cho bảng 3: Bảng Kết nhận dạng phụ thuộc người nói, độc lập nội dung Giới tính Nam Nữ PN Bắc Trung Nam Bắc Trung Nam Bắc 2030 634 335 2158 484 292 Trung 760 2286 296 448 2062 317 Nam 513 165 2174 212 229 2204 Tỷ lệ nhận dạng 81,20% 91,44% 86,96% 86,32% 82,48% 88,16% Kết nhận dạng cho thấy tỷ lệ nhận dạng phương ngữ tăng đáng kể Với tỷ lệ nhận dạng trung bình đạt 86,53 %, cao so với trường hợp DLNN-DLND đạt 58,26 % trường hợp DLNN-PTND đạt 56,37 % (với giới tính nam) Giới tính nữ 85,65 % so với 66,57 % (DLNN-DLND), 68,09 % (DLNN, PTND) Quy luật nhận dạng nhầm tương tự trường hợp thử nghiệm trước 3.5 Trường hợp phụ thuộc người nói, phụ thuộc nội dung Trong thử nghiệm này, 20 người chọn để huấn luyện số 20 người huấn luyện chọn để thử nghiệm Cả chủ đề lựa chọn cho huấn luyện thử nghiệm Trong đó, chủ đề chọn đủ 25 câu dùng cho huấn luyện số 25 câu huấn luyện chọn câu dùng cho thử nghiệm nhận dạng Thử nghiệm tiến hành quay vòng với phần theo phân chia người nói phần theo phân chia nội dung thử nghiệm, huấn luyện Như có tổng số 20 thử nghiệm khác trường hợp Kết thử nghiệm tính trung bình 20 thử nghiệm Ma trận sai nhầm tổng hợp tỷ lệ nhận dạng 20 thử nghiệm cho bảng 4: Bảng Kết nhận dạng phụ thuộc người nói, phụ thuộc nội dung Giới tính Nam Nữ PN Bắc Trung Nam Bắc Trung Nam Bắc 2032 658 258 2146 439 257 Trung 798 2283 282 436 2102 311 Nam 452 150 2155 192 209 2260 Tỷ lệ nhận dạng 81,28 % 91,32 % 86,20 % 85,84 % 84,08 % 90,40 % 54 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Kết nhận dạng cho thấy tỷ lệ nhân dạng phương ngữ tăng đáng kể so với trường hợp độc lập người nói Với tỷ lệ nhận dạng trung bình đạt 86,27 % (giới tính nam), 86,77 % (nữ) Quy luật nhận dạng nhầm tương tự trường hợp thử nghiệm trước So với trường hợp PTNN-DLND với tỷ lệ nhận dạng trung bình đạt 86,53 %, trường hợp kết nhận dạng có phần thấp Tổng hợp kết nhận dạng trường hợp thử nghiệm trình bày bảng đồ thị hình Bảng Tổng hợp kết trường hợp nhận dạng Giới tính PN Bắc Trung Nam Nam Trung bình Bắc Trung Nữ Nam Trung bình Trung bình DLNN-DLND 52,16 % 61,98 % 60,64 % 58,26 % 74,53 % 69,57 % 55,62 % 66,57 % 62,42 % DLNN-PTND 53,56 % 57,08 % 58,48 % 56,37 % 74,52 % 70,12 % 59,64 % 68,09 % 62,23 % PTNN-DLND 81,20 % 91,44 % 86,96 % 86,53 % 86,32 % 82,48 % 88,16 % 85,65 % 86,09 % PTNN-PTND 81,28 % 91,32 % 86,20 % 86,27 % 85,84 % 84,08 % 90,40 % 86,77 % 86,52 % 100% Tỷ lệ nhận dạng 90% 80% 70% 60% Bắc 50% Trung 40% Nam 30% All 20% 10% 0% DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Trường hợp thử nghiệm Hình So sánh kết trường hợp nhận dạng (giọng nam) 100% Tỷ lệ nhận dạng 90% 80% 70% 60% Bắc 50% Trung 40% Nam 30% All 20% 10% 0% DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Trường hợp thử nghiệm Hình So sánh kết trường hợp nhận dạng (giọng nữ) Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng 55 100% 90% Tỷ lệ nhận dạng đ 80% 70% 60% Bắc 50% Trung 40% Nam 30% All 20% 10% 0% DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Trường hợp thử nghiệm Hình So sánh kết trường hợp nhận dạng lấy trung bình cho giọng nam giọng nữ Số liệu tổng hợp bảng đồ thị hình cho thấy, nhìn chung tỷ lệ nhận dạng tăng lên đáng kể trường hợp phụ thuộc người nói với tỷ lệ nhận dạng trung bình trường hợp thử nghiệm đạt 74,32 % Như đặc trưng giọng nói người thể qua MFCC, tần số F0 (biến thể F0 chuẩn hóa theo trung bình F0) có vai trò quan trọng giúp tăng tỷ lệ nhận dạng phương ngữ tiếng Việt ngữ liệu VDSPEC Nội dung tiếng nói khơng có ý nghĩa gia tăng tỷ lệ nhận dạng thử nghiệm IV KẾT LUẬN Bài báo trình bày kết nghiên cứu nhận dạng phương ngữ tiếng Việt sử dụng mơ hình GMM với tham số lựa chọn bao gồm 13 hệ số MFCC F0 chuẩn hóa theo trung bình F0 câu đồng thời thử nghiệm ngữ liệu VDSPEC gồm ba phương ngữ Bắc, Trung, Nam với trường hợp: độc lập người nói, độc lập nội dung; độc lập người nói, phụ thuộc nội dung; phụ thuộc người nói, độc lập nội dung phụ thuộc người nói, phụ thuộc nội dung Hai trường hợp thử nghiệm nhận dạng phương ngữ với ngữ liệu phụ thuộc người nói cho kết nhận dạng cao so trường hợp độc lập người nói Trong đó, trường hợp phụ thuộc nội dung không giúp cải thiện tỷ lệ nhận dạng phương ngữ Như vậy, thơng tin mang tính chất đặc trưng giọng nói, phương thức phát âm cho phương ngữ thể qua tham số MFCC, F0 chuẩn hóa theo trung bình F0 câu có ý nghĩa quan trọng giúp tăng tỷ lệ nhận dạng phương ngữ Cịn nội dung tiếng nói khơng có nhiều ý nghĩa phân biệt phương ngữ xét mặt xử lý tín hiệu V LỜI CẢM ƠN Nghiên cứu tài trợ Trung tâm Nghiên cứu Ứng dụng Khoa học Công nghệ, Trường Đại học Sư phạm Kỹ thuật Hưng Yên, đề tài mã số UTEHY.T027.P1718.05 Nhóm tác giả xin chân thành cảm ơn Trung tâm hỗ trợ VI TÀI LIỆU THAM KHẢO [1] Hoàng Thị Châu Phương ngữ học tiếng Việt NXB Đại học Quốc gia Hà Nội, 2009 [2] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng Nhận dạng phương ngữ tiếng Việt sử dụng mơ hình Gauss hỗn hợp Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ FAIR, 20-21 tháng 6, 2014, ISBN 978-604-913-165-3, pp 449-452, 2014 [3] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang Nhận dạng phương ngữ tiếng Việt sử dụng MFCC tần số Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) - Hà Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528, 2015 [4] Jean-Franҫois Bonastre, Frédéric Wils ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION” IEEE International Conference , pp I 737 - I 740, 2005 [5] Torres-Carrasquillo, P A., Gleason, T P., and Reynolds, D A “Dialect Identification Using Gaussian Mixture Models” In Proc Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp 297300, 31 May - June 2004 56 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT [6] Bin M A., Donglai ZHU and Rong TONG “Chinese Dialect Identification Using Tone Features Based On Pitch”, ICASSP 2006 [7] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai “Development of a Corpus for Southern Thai Dialect Speech Recognition: Design and Text Preparation” The 10th International Symposium on Natural Language Processing, October 28-30, 2013, Phuket, Thailand [8] Shweta Sinha, Aruna Jain, S S Agrawal “Acoustic-Phonetic Feature Based Dialect Identification in Hindi Speech” International Journal on Smart Sensing and Intelligent Systems Vol 8, No 1, March 2015, pp 235-254 [9] Torres-Carrasquillo P A., Singer E., Kohler M A., Greene R J., Reynolds D A., and Deller Jr J R “Approaches to Language Identification Using Gaussian Mixture Models and Shifted Delta Cepstral Features” In Proc International Conference on Spoken Language Processing in Denver, CO, ISCA, pp 33-36, 82-92 September 2002 [10] Campbell W M., Singer E., Torres-Carrasquillo P A., and Reynolds D A “Language Recognition with Support Vector Machines” In Proc Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp 41-44, 31 May - June 2004 [11] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016) “Cải thiện hiệu hệ thống nhận dạng tiếng việt với thông tin phương ngữ” Kỷ yếu Hội nghị Quốc gia lần thứ IX Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) - Cần Thơ, 4-5/8/2016 ISBN: 978-604-913-472-2, trang 63-69 [12] Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Automatic identification of Vietnamese dialects” Journal of Computer Science and Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/18139663/32/1/7905 EFFECT OF FREQUENCY F0 AND ITS VARIANTS TO VIETNAMESE DIALECT RECOGNITION Pham Ngoc Hung, Trinh Van Loan, Pham Quoc Hung ABSTRACT: Dialect is a special phenomenon of many languages including Vietnamese The dialect of Vietnamese is very diverse, rich with many differences The difference between the dialects constitutes a barrier to communication between people using different dialects The distinction and identifying the dialect of the Vietnamese language is important for the understanding of information transmitted through speech more accurately, especially the automatic speech recognition system If we know the dialect of a language to recognize the content, we can adjust the identification parameters in accordance with the dialect to improve the efficiency of recognition Proper recognition of the dialect of the speech also poses many challenges, especially when recognition is based only on phonetic features There are many features that can be used for automatic dialect recognition In Vietnamese, in addition to MFCC features, frequency F0 is an important feature that has an effect on the recognition result Vietnamese is a tonal language The difference between the tones is shown by the variation of F0 Thus, the using of F0 in dialect identification is grounded In addition to F0, the variants of F0 such as the derivative F0, F0 are normalized to a mean, LogF0, also have a certain role and a significant effect on the efficiency of the Vietnamese dialect recognition This paper presents the results of studies on the effects of F0 and the variants of F0 on Vietnamese dialect recognition in various contexts including speaker-dependent, speaker-independent, content-dependent and content-independent The research has experimented on the VDSPEC corpus, which included voices for the three major dialects of Vietnamese, the North dialect, the Central dialect and the Southern dialect ...52 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT III THỬ NGHIỆM NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT DÙNG MƠ HÌNH GMM VỚI BỘ THAM SỐ BAO GỒM MFCC VÀ THÔNG... nhận dạng 81,28 % 91,32 % 86,20 % 85,84 % 84,08 % 90,40 % 54 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Kết nhận dạng cho thấy tỷ lệ nhân dạng phương. .. Toledo, Spain, ISCA, pp 297300, 31 May - June 2004 56 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT [6] Bin M A., Donglai ZHU and Rong TONG “Chinese