Bài viết Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt trình bày quá trình tiền xử lý, trích chọn đặc trưng, đưa ra và so sánh hai phương pháp học máy phân loại vùng miền trong tiếng nói tiếng Việt : Rừng ngẫu nhiên - phân loại với học máy thuần, và mô hình mạng tích chập - mô hình phân loại học sâu.
Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG PHƯƠNG NGỮ VÙNG MIỀN CHO TIẾNG NÓI TIẾNG VIỆT Dương Quang Tiến1, Đỗ Văn Hải1 Trường Đại học Thủy lợi GIỚI THIỆU CHUNG Việt Nam đất nước đa dạng phương ngữ Với vùng khác nhau, người dân có cách phát âm tiếng Việt riêng - cụ thể lãnh thổ Việt Nam miền Bắc, Trung, Nam, khác phát âm, ngữ điệu, âm vực, hay từ vựng Bài toán nhận dạng vùng miền đóng góp vai trị quan trọng tốn nhận dạng tiếng nói Tính nhận dạng vùng miền bổ sung cho công nghệ trợ lý ảo, hay tổng đài tự động, mang lại lợi ích quan trọng cho tồn ngành cơng nghệ xử lý tiếng nói tổng quan [1] Một số nghiên cứu phân loại vùng miền tiếng nói phát triển gần đây, tiêu biểu đưa kết tốt với ngơn ngữ nước ngồi Trong phạm vi tiếng Việt, theo hiểu biết chúng tôi, chưa có nhiều kết trội tốn phân loại vùng miền phương ngữ Trong nghiên cứu này, chúng tơi trình bày so sánh hai phương pháp học máy khác cho toán nhận dạng vùng miền với kho ngữ liệu tiếng Việt Dữ liệu bao gồm 3.000 tệp âm thu thập từ chương trình quảng cáo, chương trình truyền hình, vấn nhiều nguồn khác, áp dụng phương pháp tiền xử lý, trích xuất đặc trưng, sau triển khai so sánh hai phương pháp phân loại rừng ngẫu nhiên (Random Forest) mơ hình mạng nơ-ron tích chập (Convolutional Neural Network - CNN) với đầu vào xử lý Thử nghiệm với rừng ngẫu nhiên cho kết độ xác 62,2% tập kiểm tra Kết mạng nơ ron tích chập vượt trội với độ xác 73,9% PHƯƠNG PHÁP TRIỂN KHAI Các tệp kho ngữ liệu gán nhãn phân loại thành loại vùng giọng miền Bắc, miền Trung miền Nam Bộ liệu âm có nhiễu nền, gồm 3.000 tệp định dạng wav lấy mẫu tần số 22.050Hz, tách thành 2.400 tệp cho huấn luyện mơ hình, 300 tệp Hình Phân bổ thời lượng số lượng nhãn tập liệu 116 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 cho tập phát triển 300 tệp kiểm tra mơ hình Hầu hết tệp tin có độ dài giây, có số nhỏ tệp đặc biệt dài 60 giây (đặc biệt số tệp có độ dài chí phút lên đến 11 phút) Phân bố thời lượng âm số lượng nhãn loại biểu diễn Hình Trước đưa vào sử dụng, tệp định dạng wav tiền xử lý với phép nhấn mạnh (pre-emphasis) để tăng cường tín hiệu dễ bị nhiễu, lọc nhiễu cường độ 30dB Sau tồn tệp âm phân thành đoạn nhỏ dài giây (tăng cường tổng số lượng liệu), xếp chồng lên giây để trích xuất đặc trưng Phương pháp sử dụng phân loại rừng ngẫu nhiên thường lấy đầu vào đặc trưng MFCC âm Một số nghiên cứu tiếng nói tiếng Việt sử dụng MFCC cho kết tốt [2], [3] Tuy nhiên nghiên cứu này, bổ sung đặc trưng MFCC ghép nối với đặc trưng sắc độ, cao độ, tỷ lệ vượt mức (Zerocrossing rate) lượng tín hiệu Các vector đặc trưng duỗi thành chiều, sau ghép nối (concatenated) lại với nhau, để tăng chiều dài đặc trưng, từ tăng độ hiệu cho phân loại Hình Cấu trúc mạng tích chập Phương pháp phân loại mạng nơ-ron tích chập sử dụng đầu vào Mel-spectrogram biến đổi Fourier đoạn âm 2s lọc âm có tần số ngồi khoảng 50-8000hz (dải âm mà người sử dụng để giao tiếp) Kiến trúc mô hình lấy cảm hứng mạng Wavenet [4], thiết kế Hình Mơ hình huấn luyện với 100 epoch, batch size 16, thuật toán tối ưu Adam Kết dự đoán file âm gồm nhiều đoạn nhỏ, lấy nhãn dựa theo đoạn có chứa xác suất độ tin cậy cao để lấy kết dự đốn cho tồn đoạn âm tệp Hàm mát sử dụng hàm Cross-Entropy THỬ NGHIỆM VÀ KẾT QUẢ Tham số số lượng cho rừng ngẫu nhiên có giá trị 200 xác định Xgboost Mơ hình mạng học sâu có tổng 220.710 tham số, 1.088 tham số không học Môi trường sử dụng để phát triển Tensorflow 2.0, Keras, tồn q trình huấn luyện kiểm tra chạy Google Colab Pro Các cơng cụ tiền xử lý trích chọn đặc trưng sử dụng thư viện Librosa Phương thức đánh giá độ xác (accuracy) ma trận nhầm lẫn (confusion matrix) Bảng Độ xác hai phương pháp phân loại Mơ hình Tập huấn luyện Tập phát triển Tập kiểm tra Rừng ngẫu nhiên 98,6% 58,1% 62,2% Mạng tích chập 94,1% 76,1% 73,9% Từ Bảng ta thấy mơ hình mạng tích chập vượt trội với kết độ xác lên tới 76,1% tập phát triển, 73,9% tập kiểm tra Rừng ngẫu nhiên cho kết 58,1% 62,2% tập phát triển tập kiểm tra Để giảm khớp (overfitting) với phương pháp phân loại rừng ngẫu nhiên, phương pháp cắt tỉa nhánh, định nghĩa chiều sâu tối đa sử dụng Số liệu bảng kết nằm dự tính mạng tích chập phát huy lợi việc học đặc trưng quan hệ phụ thuộc âm mẫu, rừng ngẫu nhiên đơn giản đưa định dạng nhiều nhị phân không 117 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 a Rừng ngẫu nhiên b Mạng tích chập Hình Ma trận nhầm lẫn hai phương pháp phân loại làm điều Đi sâu vào phân tích nhầm lẫn nhãn với ma trận nhầm lẫn (confusion matrix - Hình 3) điểm khác biệt hai phương pháp, phân loại rừng ngẫu nhiên, nhãn miền Bắc miền Nam bị gán nhầm số lượng liệu nhiều hẳn, với đặc trưng nhạy với nhiễu ảnh hưởng phân bố liệu, nên kết tổng quan kém, đặc biệt mẫu miền Trung Mơ hình mạng nơ-ron tích chập bị ảnh hưởng nhiều tính chất quan hệ phụ thuộc đặc trưng liệu, khiến cho nhãn miền Nam miền Bắc dễ bị nhầm lẫn với Điều xảy xu phát triển du lịch, văn hóa, giúp hai miền coi phát triển pha trộn tiếng nói từ vựng với nhau, miền Trung riêng biệt lại có đặc biệt phát âm kho từ vựng riêng KẾT LUẬN Nghiên cứu chúng tơi trình bày q trình tiền xử lý, trích chọn đặc trưng, đưa so sánh hai phương pháp học máy phân loại vùng miền tiếng nói tiếng Việt : Rừng ngẫu nhiên - phân loại với học máy thuần, mơ hình mạng tích chập - mơ hình phân loại học sâu So sánh nghjmn iêng mơ hình học sâu với kết tốt hơn, thể mạnh huấn luyện đặc trưng mang tính liên kết, phụ thuộc tần số người nói, tiếng nói dạng liệu mang tính liên tục Kết với loại vùng miền mang lại số đánh giá xu hướng hịa trộn tiếng nói phương ngữ Đây liệu nhiều thách thức, với nghiên cứu nhắm vào việc khắc phục vấn đề liệu kiểm tra lại nhãn dễ nhầm lẫn, hay nâng cấp chiến lược huấn luyện kiến trúc mơ hình, để đem lại kết tương lai TÀI LIỆU THAM KHẢO [1] Fadi Biadsy, “Automatic Dialect and Accent Recognition and its application to Speech Recognition”, Columbia University, pp 13-14 2011 [2] V H Do, N F Chen, B P Lim, and M Hasegawa-Johnson, “Analysis of mismatched transcriptions generated by humans and machines for under-resourced languages,” in INTERSPEECH, 2016, pp 3863-3867 [3] V H Do, N F Chen, B P Lim, and M Hasegawa-Johnson, “Speech recognition of under-resourced languages using mismatched transcriptions,” in IALP, 2016, pp 112–115 [4] Oord, Aaron van den, et al "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016) 118 ... tính liên kết, phụ thuộc tần số người nói, tiếng nói dạng liệu mang tính liên tục Kết với loại vùng miền mang lại số đánh giá xu hướng hòa trộn tiếng nói phương ngữ Đây liệu nhiều thách thức, với... biệt mẫu miền Trung Mơ hình mạng nơ-ron tích chập bị ảnh hưởng nhiều tính chất quan hệ phụ thuộc đặc trưng liệu, khiến cho nhãn miền Nam miền Bắc dễ bị nhầm lẫn với Điều xảy xu phát triển du... Điều xảy xu phát triển du lịch, văn hóa, giúp hai miền coi phát triển pha trộn tiếng nói từ vựng với nhau, miền Trung riêng biệt lại có đặc biệt phát âm kho từ vựng riêng KẾT LUẬN Nghiên cứu chúng