Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
376,67 KB
Nội dung
trường hợp sử dụng mô hình GMM để nhậndạngphươngngữtiếng Việt, tham số formant dải thông tương ứng kết hợp với biến thể F0 làm tăng độ xác nhậndạng lên 1,4% so với có đặc trưng MFCC F0 Bên cạnh đó, để nâng cao hiệu nhậndạngphươngngữtiếng Việt, luậnán khuyến nghị sử dụng biến thể F0 chuẩn hóa F0 theo trung bình F0 trường hợp kết hợp với MFCC Còn trường hợp sử dụng formant dải thông tương ứng, cần sử dụng F0 chuẩn hóa theo trung bình độ lệch chuẩn F0 Cùng với mô hình GMM, luậnán nghiên cứu nhậndạngphươngngữ với số phân lớp khác SVM (SMO), MultilayerPerceptrol, IBk, JRip, PART Từ nghiên cứu này, luậnán phân lớp MultilayerPerceptrol cho kết nhậndạng tốt phươngngữtiếngViệt với tập 384 tham số đặc trưng tín hiệu tiếngnói (4) Luậnán nghiên cứu mô hình HMM nhậndạngtựđộngtiếngViệtnóingữ liệu có phươngngữ kết cho thấy vai trò tích cực việc xác định phươngngữ trước nhậndạngnội dung tiếngnói Nghiên cứu tiến hành theo hai trường hợp Trường hợp thứ nhất: nhậndạngnội dung tiếngViệtnóingữ liệu có phươngngữ không dùng thông tin phươngngữ Trường hợp thứ hai: nhậndạngnội dung tiếngViệtnóingữ liệu có phươngngữ dùng thông tin phươngngữ Kết nghiên cứu cho thấy, trường hợp nhậndạng có thông tin phương ngữ, tỷ lệ lỗi từ tương đối giảm 27,9%, tương đương với độ xác nhậndạng tăng lên cách đáng kể Đây lần mô hình HMM sử dụng nhậndạngtựđộngtiếngViệtnóingữ liệu có phươngngữ (5) Tổng hợp kết nghiên cứu, luậnán đề xuất mô hình mạnh để nhậndạngtiếngViệtnói ngôn ngữ có phươngngữ đa dạng cần tiến hành nhậndạngphươngngữ trước nhậndạngnội dung nhằm thực nâng cao hiệu cho hệ thống nhậndạngtiếngViệtnói Định hướng phát triển: Từ kết nghiên cứu thực hiện, luậnán đề xuất kiến nghị sau nhằm mở rộng hướng nghiên cứu có: (1) Bổ sung phươngngữ khác tiếngViệt vào ngữ liệu VDSPEC (2) Nghiên cứu đặc trưng theophươngthứcphátâmphươngngữtiếngViệt bổ sung (3) Xây dựng mô hình nhậndạngtiếngViệttheo hướng ngày hoàn thiện nhằm phù hợp với tính đa dạngphươngngữtiếngViệt 24 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mạnh mẽ máy tính, ứng dụng máy tính lĩnh vực sống làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá trình sử dụng, tăng hiệu khai thác máy tính ứng dụng máy tính Trong đó, xử lý tiếngnóinói chung nhậndạngtiếngnóinói riêng vấn đề quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu sử dụng máy tính phục vụ người sống Trên giới có nhiều nghiên cứu nhậndạngtiếngnói Không dừng lại nghiên cứu mà nhậndạngtiếngnói triển khai sản phẩm ứng dụng Đối với nhậndạngtiếng Việt, có nhiều nghiên cứu đạt kết định để triển khai thành sản phẩm ứng dụng thực tế nhiều mặt hạn chế, đặc biệt độ xác, chất lượng nhậndạng Ngoài khó khăn nhậndạngtiếngnóinói chung, nhậndạngtiếngViệtnói gặp trở ngại lớn phải kể đến vấn đề phươngngữtiếngViệtTiếngViệt có nhiều phươngngữ khác Sự khác biệt phươngngữ gây không khó khăn cho người giao tiếp với phươngngữ khác Sự khác biệt ảnh hưởng tới hệ thống nhậndạngtiếngViệt nói, làm giảm hiệu nhậndạngChính vậy, cần thiết phải nghiên cứu vấn đề nhậndạngtiếngViệtnóitheo vùng phươngngữ khác nhằm tìm giải pháp kỹ thuật nâng cao hiệu nhậndạngtiếngViệtnói Trước tiến hành nhậndạngnội dung tiếng nói, xác định tiếngnói thuộc phươngngữ sử dụng mô hình nhậndạng xây dựng phù hợp với phươngngữ nhằm cải thiện hiệu hệ thống nhậndạngTừ lý nêu trên, luậnán lựa chọn đề tài nghiên cứu “Tự độngnhậndạngtiếngnóiphátâmliêntụcchophươngngữtiếngViệttheophươngthứcphát âm” để nghiên cứu sâu vấn đề xử lý nhậndạngtiếngViệt nói, giải số hạn chế nhậndạngtiếngViệtnóiliên quan đến phươngngữ góp phần phát triển ứng dụng công nghệ thông tin cho người Việt sản phẩm ứng dụng công nghệ thông tin sử dụng tiếngViệt dịch tự động, giao tiếp tương tác người-máy Mục tiêu nghiên cứu luậnán Mục tiêu luậnán Nghiên cứu nhậndạngtiếngViệtnóicho vùng phươngngữ chính, đánh giá ảnh hưởng phươngngữ đến hiệu hệ thống nhậndạng đề xuất giải pháp kỹ thuật nhậndạngphươngngữ áp dụng vào hệ thống nhậndạngtiếngViệtnói nhằm nâng cao hiệu nhậndạng Nhiệm vụ nghiên cứu luậnán Để đạt mục tiêu đề ra, luậnán cần thực nhiệm vụ sau: Nghiên cứu đặc điểm phươngngữtiếng Việt, đánh giá ảnh hưởng phươngngữ tới hệ thống nhậndạngtựđộngtiếngViệt nói, xây dựng ngữ liệu phươngngữtiếngViệt phục vụ cho nghiên cứu nhậndạngphươngngữtiếngViệtnhậndạngtiếngViệt nói, nghiên cứu, đề xuất mô hình hệ thống nhậndạngtự động, tham số phù hợp để nhậndạngphươngngữtiếngViệt mô hình hệ thống nhậndạngtựđộngtiếngViệtnóitheophươngngữtiếngViệt Đối tượng phạm vi nghiên cứu luậnán Đối tượng nghiên cứu trọng tâm luậnánnhậndạngphươngngữtiếngViệtTừ kết nhậndạngphương ngữ, xây dựng mô hình nhậndạngtiếngViệtnóitheophươngngữ Mô hình sử dụng thông tin phươngngữ nhằm cải thiện hiệu hệ thống nhậndạngtiếngViệtnói Việc nghiên cứu phươngngữtiếngViệt chủ yếu tập trung theo hướng xử lý tín hiệu mà không sử dụng yếu tố từ địa phươngPhươngngữtiếngViệt phong phú Về mặt địa lý, xét theophươngthứcphát âm, phươngngữ thay đổi theo làng, xã Tuy nhiên phạm vi nghiên cứu luận án, thời gian có hạn, luậnán giới hạn nghiên cứu nhậndạng ba phươngngữ phổ biến tiếngViệttheophươngthứcphátâmphươngngữ Bắc (lấy giọng Hà Nội làm đại diện), phươngngữ Trung (lấy giọng Huế làm đại diện) phươngngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện) Trong hệ thống nhậndạngtiếngViệt nói, nhậndạngphươngngữ xem bước tiền xử lý nên cần tiến hành trước nhậndạngnội dung, nghĩa thời điểm chưa biết nội dung tiếngnói Vì vậy, thao tác hệ thống nhậndạngphươngngữ không cần thiết phải khai thác thông tin từ địa phương mà chủ yếu khai thác thông tin phươngthứcphátâmphươngngữ Điều làm cho việc Bắc, Trung, Nam khuôn khổ luậnánLuậnánthực nghiên cứu nhậndạngphươngngữtiếng Việt, đề xuất tham số bao gồm 13 hệ số MFCC kết hợp với biến thể F0 phù hợp với mô hình nhậndạng GMM Kết nhậndạng cải thiện kết hợp tham số formant, dải thông tương ứng biến thể F0 Bên cạnh đó, luậnánthực nghiên cứu số phân lớp SVM (SMO), IBk, JRip, MultilayerPerceptron, PART nhậndạngphươngngữtiếngViệt Kết nghiên cứu cho thấy phân lớp nhậndạng hiệu phươngngữtiếngViệt Trên sở kết nghiên cứu, luậnán đề xuất mô hình nhậndạngtiếngViệtnói có nhậndạngphươngngữ Trong mô hình này, tiếngnóinhậndạngphươngngữ trước nhậndạngnội dung Thông tin phươngngữ giúp hệ thống nhậndạng lựa chọn mô hình huấn luyện phù hợp với phươngngữ nhằm đạt hiệu nhậndạng tốt so với trường hợp thông tin phươngngữĐóng góp khoa học luận án: Các kết nghiên cứu đóng góp khoa học luậnán sau: (1) Luậnán xây dựng ngữ liệu tiếngViệt VDSPEC dùng cho nghiên cứu nhậndạngphươngngữtiếngViệtnhậndạngtiếngViệtnói Đây ngữ liệu phục vụ cho nghiên cứu ba phươngngữtiếngViệt mà đại diện giọng Hà Nộichophươngngữ Bắc, giọng Huế chophươngngữ Trung giọng Thành phố Hồ Chí Minh chophươngngữ Nam Ngữ liệu tiếngViệt VDSPEC ghi âm trực tiếp từ người nóitheo văn chuẩn bị sẵn tổ chức theo chủ đề (2) Kết nghiên cứu đặc điểm phươngngữtiếngViệttheophương diện xử lý tín hiệu, yếu tố phươngngữ ảnh hưởng tới hiệu hệ thống nhậndạngtiếngViệtnóiđóng góp luậnánLuậnán sâu phân tích đặc điểm phươngthứcphátâm ba phươngngữ đại điện Bắc, Trung Nam Kết nghiên cứu khác biệt phươngthứcphátâmtheophương diện xử lý tín hiệu, đặc biệt phươngthứcphátâm khác điệu mũi hóa khác phươngngữ (3) Một đóng góp luậnánnhậndạngphươngngữtiếngViệt sử dụng mô hình GMM với việc đề xuất lựa chọn tham số thích hợp cho mô hình bao gồm số thành phần Gauss, đặc trưng MFCC, tần số F0, biến thể F0, formant dải thông tương ứng Kết nghiên cứu cho thấy, 23 thông tin phươngngữ với lỗi từ trường hợp tốt 9,37% Sử dụng mô hình nhậndạngtiếngViệtnói đề xuất, kết cho thấy hiệu hệ thống nhậndạngtiếngViệtnói cải thiện đáng kể có thông tin phươngngữ Tỷ lệ lỗi từ tương đối giảm 27,9% KẾT LUẬN VÀ KIẾN NGHỊ Kết luận: Luậnán hoàn thành nội dung nghiên cứu, đáp ứng mục tiêu đặt ban đầu "Nghiên cứu nhậndạngtiếngViệtnóicho vùng phươngngữ chính, đánh giá ảnh hưởng phươngngữ đến hiệu hệ thống nhận dạng, đề xuất giải pháp kỹ thuật nhậndạngphươngngữ áp dụng vào hệ thống nhậndạngtiếngViệtnói nhằm nâng cao hiệu nhận dạng" TiếngViệt có phươngngữ đa dạng, phong phú Các nghiên cứu phươngngữtiếngViệtthực song chủ yếu theophương diện ngôn ngữ Nghiên cứu theophương diện xử lý tín hiệu phươngngữtiếngViệt công bố PhươngngữtiếngViệt phân chia thành nhiều vùng khác Theo ý kiến đa phần nhà nghiên cứu phươngngữtiếng Việt, phân chia phươngngữtiếngViệt làm ba vùng phươngngữ Bắc, phươngngữ Trung phươngngữ Nam Sự phân chia mang tính tương đối khác phươngngữ xuất làng xã liền kề thay đổi theo vị trí địa lý Luậnántiến hành nghiên cứu khác biệt ba phươngngữtiếngViệttheophươngthứcphát âm, ứng dụng hệ thống nhậndạngtựđộngtiếngViệtnói nhằm cải thiện hiệu nhậndạng hệ thống Để thực nghiên cứu nhậndạngphương ngữ, cần thiết phải có ngữ liệu phươngngữ đáp ứng cho yêu cầu chuyên biệt Luậnántiến hành xây dựng ngữ liệu phươngngữtiếngViệt VDSPEC dùng cho nghiên cứu nhậndạngphươngngữnhậndạngtiếngViệtnói Bộ ngữ liệu VDSPEC ghi âm trực tiếp từ người nóitheo văn chuẩn bị từ trước phân chia theo chủ đề Tiếngnói ghi âmtừ ba giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại diện cho ba vùng phươngngữphươngngữ Bắc, phươngngữ Trung phươngngữ Nam Các phân tích ngữ liệu VDSPEC khác biệt quy luật biến thiên tần số F0 cho điệu mũi hóa phươngngữ Trung, Nam Những khác biệt sử dụng làm sở để phân biệt ba phươngngữ 22 nhậndạngphươngngữ hoạt động linh hoạt mà không phụ thuộc vào nội dung cần nhậndạngCác thử nghiệm nhậndạngphươngngữ mà luậnántiến hành dựa ngữ liệu với số lượng từ vựng hạn chế để từ xác định đặc trưng phươngngữđồng thời đề xuất mô hình nhậndạngphươngngữ nhằm nâng cao chất lượng hệ thống nhậndạngtiếngViệtnói Ý nghĩa khoa học thựctiễnluậnánNội dung nghiên cứu, kết dự kiến đạt luậnán có đóng góp đáng kể cho mở rộng nghiên cứu phươngngữtiếng Việt, đặc biệt phương diện xử lý tín hiệu Từ kết nhậndạngphương ngữ, đề xuất mô hình nhậndạngtiếngViệtnóitheophươngngữ nhằm cải thiện hiệu hệ thống nhậndạngtiếngViệt nói, góp phần hoàn thiện khả nhậndạng hệ thống nhậndạngtựđộngtiếngViệtnóiPhương pháp nghiên cứu Phương pháp nghiên cứu luậnán kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm Về lý thuyết: luậnán nghiên cứu tổng quan phươngngữtiếng Việt, mô hình nhậndạngphươngngữ số ngôn ngữ giới, mô hình nhậndạngtiếngnói dựa tài liệu, công trình khoa học công bố, sách báo, giáo trình liên quan Về thực nghiệm: luậnán xây dựng ngữ liệu tiếngViệt phục vụ cho nghiên cứu nhậndạngphươngngữtiếngViệtnhậndạngnội dung tiếngViệt nói; thực nghiên cứu, thử nghiệm nhậndạngphươngngữtiếng Việt, xây dựng thử nghiệm mô hình nhậndạngphươngngữnhậndạngtiếngViệtnóitheophươngngữ Kết nghiên cứu, đóng góp luậnán Kết nghiên cứu đóng góp luậnán tập trung vào điểm sau: Phân tích đặc điểm phươngngữtiếng Việt, khác biệt phươngngữtiếngViệttheophương diện phátâm mặt xử lý tín hiệu, xây dựng ngữ liệu tiếngViệt phục vụ cho nghiên cứu nhậndạngphươngngữtiếngViệt nghiên cứu khác nhậndạngtiếngViệt nói; tiến hành số nghiên cứu, thử nghiệm, phân tích đặc điểm phươngngữtiếng Việt, đề xuất mô hình nhậndạngphươngngữtiếngViệt với tham số phù hợp cho mô hình nhậndạngphươngngữtiếngViệt mô hình nhậndạngtiếngViệtnói dùng thông tin phươngngữ nhằm cải thiện hiệu hệ thống nhậndạngNội dung luậnánNội dung luậnán trình bày chương sau: Chương 1: Tổng quan nhậndạngtiếngnóinhậndạngphương ngữ; Chương 2: Xây dựng ngữ liệu cho nghiên cứu nhậndạngphươngngữtiếngViệt Chương đề cập nghiên cứu tổng quan phươngngữtiếng Việt, phương pháp xây dựng ngữ liệu dùng cho nghiên cứu nhậndạngphươngngữtiếngViệt kết phân tích đạt số đặc trưng phươngngữtiếngViệt dựa ngữ liệu xây dựng Chương 3: NhậndạngphươngngữtiếngViệtNội dung chương tập trung vào nghiên cứu mô hình nhậndạngphươngngữtiếng Việt, việc lựa chọn tham số ứng dụng cho mô hình trình bày kết thử nghiệm nhậndạngphươngngữtiếngViệt sử dụng mô hình tham số đề xuất Chương 4: Cải thiện hiệu nhậndạngtiếngViệt với thông tin phươngngữ Chương trình bày mô hình nhậndạngtiếngViệtnói dựa HMM sử dụng thông tin phươngngữ nhằm cải thiện hiệu nhậndạng Cuối cùng, phần Kết luận tổng hợp kết nghiên cứu đạt được, hướng mở rộng nghiên cứu, phát triển đề tài đóng góp khoa học luậnán TỔNG QUAN VỀ NHẬNDẠNGTIẾNGNÓI VÀ NHẬNDẠNGPHƯƠNGNGỮ 1.1 Nhậndạngtiếngnói 1.1.1 Tổng quan nhậndạngtiếngnói Nhiệm vụ hệ thống nhậndạngtiếngnói làm cho hệ thống hiểu tiếngnói người Nhờ hệ thống này, tiếngnói chuyển đổi tựđộng thành văn bản, tựđộng điều khiển trình khác [178] 1.1.2 Lịch sử phát triển tiến nghiên cứu nhậndạngtiếngnóiNhậndạngtiếngnói đạt nhiều tiến năm qua Có nhiều mô hình nhậndạng đề xuất Trong đó, mô hình HMM Hình 4.11: Sơ đồ hệ thống nhậndạngtiếngViệtnói sử dụng thông tin phươngngữ 4.2.2 NhậndạngtiếngViệtnói có thông tin phươngngữ Nghiên cứu thựcngữ liệu VDSPEC sử dụng thông tin phươngngữ Việc huấn luyện mô hình âm học tiến hành độc lập chophươngngữNhậndạngnội dung thực sở biết thông tin phươngngữ Kết nhậndạng tốt với tỷ lệ lỗi từ trung bình 6,76% chophương pháp huấn luyện tri3b Phương pháp huấn luyện cho kết nhậndạng tốt chưa có thông tin phươngngữ (9,37%) Tỷ lỗi từ có thông tin phươngngữ giảm 2,61% so với chưa có thông tin phươngngữ Tỷ lệ lỗi từ tương đối (relative word error rate) giảm 27,9% Điều tương đương với độ xác nhậndạng tăng lên cách đáng kể 4.3 Kết chương Kết sử dụng HMM nhậndạngtiếngViệtnói chưa sử dụng 21 với tảng nhiều thay đổi việc mô hình hóa, kỹ thuật cài đặt cụ thể liêntục cải tiến Vì thế, HMM giữ vị trí quan trọng hệ thống nhậndạngtiếngnói Bên cạnh đó, kỹ thuật phân tích tham số đạt bước tiến quan trọng Các thuật toán tìm kiếm cải tiến giúp giải mã thực nhiệm vụ tìm kiếm, cho lời giải hiệu 1.1.3 Các thách thứcnhậndạngtiếngnói Thách thức lớn nhậndạngtựđộngtiếngnói xử lý biến đổi tiếngnóiTiếngnóiphátâm bị biến đổi nhiều yếu tố khác nhau, thân người nói, môi trường tác động Thách thức lớn khác nhậndạngtựđộngtiếngnói phải giải toán nhậndạng nhầm, mà hệ thống thường phải đối mặt với thực tế tiếngnói cần nhậndạng không hoàn toàn theo với tiếngnói huấn luyện Hình 4.9: Mô hình nhậndạngtựđộngtiếngnói 4.1.2.2 Bộ công cụ nhậndạng Kaldi Kaldi công cụ nhậndạngtiếngnói mã nguồn mở trường đại học Johns Hopkins xây dựng từ năm 2009 4.1.2.3 Kaldi nhậndạngtiếngViệtnóitheo ba phươngngữ Nghiên cứu dùng Kaldi nhậndạngphươngngữtiếngViệtngữ liệu VDSPEC, chưa dùng thông tin phươngngữ Thử nghiệm nhậndạngtiến hành phương pháp đánh giá chéo (5:1) Kết nhậndạng tốt ứng với phương pháp huấn luyện tri3b tỷ lệ lỗi từ 9,37% 4.2 Cải thiện hiệu nhậndạngtiếngViệtnói thông qua sử dụng thông tin phươngngữ 4.2.1 Mô hình nhậndạngtiếngViệtnói với việc sử dụng thông tin phươngngữLuậnán đề xuất mô hình nhậndạngtiếngViệtnói mô tả sơ đồ Hình 4.11 Tiếngnói trước nhậndạng đưa qua bước tiền xử lý nhậndạngphươngngữ Hệ thống kết nhậndạngphươngngữ để có điều chỉnh lựa chọn mô hình thích hợp 1.1.4 Phân loại nhậndạngtiếngnóiCác hệ thống nhậndạngtựđộngtiếngnói phân loại theo cách khác tùy thuộc tiêu chí sử dụng phân loại dựa phụ thuộc người nói, đặc điểm liêntục hay rời rạc tiếngnói cần nhận dạng, độ lớn từ vựng Theo tiêu chí phụ thuộc vào người nói, hệ thống nhậndạngtiếngnói chia làm loại gồm hệ thống nhậndạngtiếngnói phụ thuộc người nói, hệ thống nhậndạngtiếngnói độc lập người nói hệ thống nhậndạngtiếngnói thích nghi người nóiCác hệ thống nhậndạngtiếngnói phân loại dựa đặc điểm tiếngnói huấn luyện nhậndạng gồm bốn loại sau: hệ thống nhậndạngtiếngnóitheotừ rời rạc không liên kết nghĩa với nhau, hệ thống nhậndạngtiếngnói có từ rời rạc liên kết nghĩa với nhau, hệ thống nhậndạngtiếngnóiliên tục, hệ thống nhậndạngtiếngnóitự nhiên Hệ thống nhậndạngtiếngnói phân loại theo số lượng từ vựng Theo cách này, hệ thống nhậndạngtiếngnói chia thành loại bao gồm hệ thống nhậndạng với từ vựng ít, hệ thống nhậndạngtiếngnói với từ vựng trung bình hệ thống nhậndạngtiếngnói với từ vựng lớn 1.2 NhậndạngphươngngữNhậndạngphươngngữ dựa tín hiệu tiếngnói lĩnh vực 20 xử lý tín hiệu tiếngnói thu hút nhiều nhà khoa học tham gia Phương pháp tiếp cận nhậndạngphươngngữ giống phương pháp dùng nhậndạng ngôn ngữ 1.2.1 Các mô hình nhậndạngphươngngữ 1.2.1.1 Mô hình ràng buộc âm vị Với ngôn ngữ, từ cấu thành từ tập âm vị Các mô hình nhậndạng dựa ràng buộc âm vị (Phonotactic Modeling) xây dựng nhậndạngâm vị Bộ nhậndạngâm vị tiến hành phân tích tiếngnói cần nhậndạng thành âm vị 1.2.1.2 Mô hình âm học Cách tiếp cận khác để nhậndạngphươngngữ thay cho cách tiếp cận dựa mô hình ràng buộc âm vị sử dụng mô hình âm học (Acoustic Modeling) Cách tiếp cận sử dụng mô hình nhậndạng khác có mô hình hỗn hợp Gauss (Gaussian Mixture Model – GMM), SVM, ANN… Các mô hình dùng tham số đặc trưng tiếngnói cần nhậndạng phổ, ngôn điệu, tần số bản, 1.2.2 Nhậndạngphươngngữtheophương diện khác 1.2.2.1 Theophương diện ngôn ngữ học Nghiên cứu nhậndạngphươngngữ sớm Những ghi nhận kể đến khảo sát để nhậndạng vùng phươngngữ George Wenker vào đầu năm 1877 Việc nhậndạngphươngngữ dựa nguyên âm, phụ âm, từ vựng, hệ thống từ, đặc trưng âm học, âm vị, 1.2.2.2 Theophương diện phương pháp nhậndạng Nhiều phương pháp sử dụng nhậndạng ngôn ngữ sử dụng chonhậndạngphươngngữ kể đến số phương pháp GMM, HMM, SVM (Support Vector Machines), NN (Neural Networks), DNN (Deep Neural Networks) 1.3 Nghiên cứu nhậndạngtiếngnóinhậndạngphươngngữtiếngViệtnhậndạngcho hệ thống nhậndạngphươngngữtiếngViệt Lựa chọn kết hợp tham số MFCC bao gồm 13 hệ số với thông tin F0 cho kết nhậndạng tốt mô hình GMM Bên cạnh đó, thử nghiệm cho thấy kết hợp tham số bao gồm formant, dải thông tương ứng tham số F0 cho kết nhậndạng tốt Ngoài mô hình GMM, kết thử nghiệm nhậndạngphươngngữtiếngViệt sử dụng phân lớp SVM (SMO), MultilayerPerceptron, IBk, JRip, PART cho thấy phân lớp ứng dụng hiệu nhậndạngphươngngữtiếngViệt CẢI THIỆN HIỆU NĂNG NHẬNDẠNGTIẾNGVIỆT VỚI THÔNG TIN VỀ PHƯƠNGNGỮ 4.1 HMM nhậndạngtiếngViệtnói 4.1.1 Mô hình HMM HMM xuất pháttừ trình chuỗi Markov Andrey Andreyevich Markov nhà toán học Nga đề xuất vào năm 1906 Năm 1913, Markov áp dụng lý thuyết để tính toán xác suất xuất từ tác phẩm “Eugene Onegin” Puskin [23] Trong năm 60 kỷ trước, L.E Baum cộng có công trình nghiên cứu mặt lý thuyết HMM [93] vào năm 70, HMM J.K Baker CMU [76], F Jelinek cộng IBM ứng dụng để xử lý tiếngnói đặc biệt nhậndạngtiếngnói [48] 4.1.2 HMM nhậndạngtiếngViệtnóitheo ba phươngngữ 4.1.2.1 Hệ thống nhậndạngtựđộngtiếngnói Mô hình hệ thống nhậndạngtựđộngtiếngnói thể Hình 4.9 Hệ thống nhậndạng bao gồm giai đoạn là: huấn luyện mô hình nhậndạng Nghiên cứu nhậndạngtiếngViệtnói số nhà nghiên 19 phương ngữ 99,5% (cao so với trường hợp k=1 Điều cho thấy kết nhậndạng có tăng tăng số láng giềng gần 3.4 NhậndạngphươngngữtiếngViệt với phân lớp MultilayerPerceptron 3.4.1 Bộ phân lớp MultilayerPerceptron Với Weka [69], MultilayerPerceptron phân lớp sử dụng mạng nơ-ron lan truyền ngược lỗi để huấn luyện 3.4.2 MultilayerPerceptron nhậndạngphươngngữtiếngViệt Nghiên cứu sử dụng 384 tham số trình bày mục 3.2.3 Kết nhậndạng trung bıǹ h cả phương ngữ 99,5% Bộ phân lớp cho tỷ lệ nhậndạng cao 3.5 JRip nhậndạngphươngngữtiếngViệt 3.5.1 Bộ phân lớp JRip JRip là thuật giải RIPPER (Repeated Incremental Pruning to Produce Error Reduction) để suy diễn luật cách hiệu nhanh William W Cohen đề xuất, phiên tối ưu hóa IREP [30] cứu nước thực số nghiên cứu nhậndạngtừ rời rạc, số lượng từ vựng hạn chế [31, 120] Nghiên cứu hệ thống nhậndạng số phátâmliêntụctiếngViệtthực [121] Gần đây, có nghiên cứu nhậndạngtiếngViệtphátâmliêntục độc lập người nói có số lượng từ vựng lớn [115, 116, 117, 118], Nghiên cứu [156] nhậndạngtiếngnóiliêntụctiếngViệt vốn từ vựng lớn, sử dụng công cụ HTK sở liệu âm thu từ đài phát VOV Hệ thống nhậndạngtiếngViệtnóithực hệ nhúng hoạt động thời gian thực [4] Về phương diện ngôn ngữ, tiếngViệtphươngngữtiếngViệt có nhiều nghiên cứu tổng hợp công trình tác giả Hoàng Thị Châu [2], tác giả khác Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171] Tuy nhiên, nghiên cứu phươngngữtiếngViệttheophương diện xử lý tín hiệu hạn chế 1.4 Một số mô hình nhậndạng 3.5.2 NhậndạngphươngngữtiếngViệt với JRip 1.4.1 Mô hình GMM JRip sử dụng 384 tham số Tỷ lê ̣ nhâ ̣n da ̣ng trung bıǹ h phương ngữ 93,3% 3.6 NhậndạngphươngngữtiếngViệt với PART Mô hình hỗn hợp Gauss đa thể (multi-variate) GMM biết đến mô hình có khả phân lớp tốt sử dụng nghiên cứu nhậndạng người nói [80], định danh phươngngữtiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng Hindi [146], nhậndạng ngôn ngữ [25, 160] Một mô hình hỗn hợp Gauss đa thể tổng có trọng số M thành phần mật độ Gauss biểu thức (1.3): 3.6.1 Bộ phân lớp PART Bộ phân lớp PART dùng để có luật từ định riêng phần xây dựng cách sử dụng J4.8 J4.8 cài đặt mã nguồn mở Java thuật giải C4.5 thuật giải dùng để tạo định Ross Quinlan phát triển [133] ( | )= ( | , ) (1.3) 3.6.2 Kết dùng PART nhậndạngphươngngữtiếngViệt Bộ 384 tham số sử dụng cho PART trường hợp SMO, IBk, MultilayerPerceptron JRip Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh phương ngữ đa ̣t 93% 3.7 Kết chương Mô hình GMM có khả ứng dụng tốt vào nhậndạngphươngngữtiếngViệt Thành phần F0 có ý nghĩa việc nâng cao hiệu 18 Trong (1.3), X véc tơ liệu (chứa tham số đối tượng cần biểu diễn), πi, i=1, , M trọng số hỗn hợp ( | , ) hàm mật độ Gauss thành phần 1.4.2 Bộ phân lớp SVM SVM (Suport Vector Machine) phân lớp nhị phân phi tuyến có khả đoán nhận liệu véc tơ vào x thuộc lớp (khi đầu mong muốn y = +1) thuộc lớp (y = -1) Thuật giải phân lớp lần đề xuất năm 1992 [21] 1.4.3 Mạng nơ ron nhân tạo Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường gọi tắt mạng nơ-ron (Neural network) mô hình toán học hay hệ thống xử lý thông tin xây dựng dựa sở tổng quát hóa mô hình toán học nơ-ron thần kinh sinh học theo chế làm việc não người 1.5 Kết chương Nhậndạngtiếngnóinói chung tiếngViệtnóinói riêng nhiều nhà khoa học nước nghiên cứu công bố kết Các nghiên cứu phươngngữtiếngViệtthực nhiều song chủ yếu phương diện ngôn ngữ học Về phương diện xử lý tín hiệu, nghiên cứu phươngngữtiếngViệt công bố Mặt khác, phươngngữtiếngViệt lại đa dạng phong phú Việc định danh phươngngữcho hệ thống nhậndạngtiếngViệt nâng cao hiệu hệ thống nhậndạng XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬNDẠNGPHƯƠNGNGỮTIẾNGVIỆT 2.1 Tổng quan phươngngữtiếngViệt 2.1.1 Phươngngữ phân vùng phươngngữtiếngViệtPhươngngữtiếngViệt phân chia thành vùng Việc phân vùng phươngngữtiếngViệt nhiều nhà nghiên cứu đề cập đến có ý kiến khác cách phân chia Số đông nhà nghiên cứu chotiếngViệt chia làm vùng phươngngữphươngngữ Bắc (các tỉnh phía Bắc đến Thanh Hóa), phươngngữ Trung (từ Thanh Hóa vào đến Đèo Hải Vân) phươngngữ Nam (từ Đèo Hải Vân vào tỉnh thành phía Nam) Việc phân chia vùng phươngngữ mang tính tương đối Đây là dữ liê ̣u thố ng kê của mỗi file tiếngnói Với mỗi file tiế ng nói tương ứng với 384 tham số trích chọn 3.2.2.3 Dùng đầy đủ 384 tham số đặc trưng Ngữ liệu phươngngữ dùng chonhậndạng chia theophương pháp đánh giá chéo với tỷ lệ 1:10 Thời gian huấn luyện mô hình hết 148,13 giây Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh phương ngữ là 96,9% 3.2.2.4 Trường hợp không có thông tin liên quan trực tiếp F0 Trong trường hợp này, 12 ̣ số liên quan trực tiếp F0 được loa ̣i khỏi tâ ̣p 384 tham số đặc trưng Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh phương ngữ 96,7% Kết thấ p so với trường hợp có sử du ̣ng F0 mục 3.2.3.3 3.2.2.5 Trường hợp chı̉ dùng tham số liên quan trực tiếp F0 Đây trường hợp chı̉ cho ̣n 12 tham số đặc trưng liên quan trực tiếp F0 để huấ n luyê ̣n và nhậndạng Tỷ lệ nhậndạng trung bı̀nh phương ngữ 52,2% Kết cho thấy thông tin F0 giúp ích chonhậndạngphươngngữ 3.2.2.6 Chı̉ dùng tham số đặc trưng liên quan trực tiếp MFCC Thử nghiê ̣m này chı̉ cho ̣n 12 tham số liên quan trực tiếp với MFCC Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bình 75,8% cho ba phươngngữ Kết cho thấy tham số đặc trưng cho MFCC đóng vai trò quan trọng nhậndạngphươngngữ 3.3 IBk nhậndạngphươngngữtiếngViệt 3.3.1 Bộ phân lớp IBk Bộ phân lớp IBk dẫn xuất phân lớp IBL (Instance Based Learning) IBk là phân lớp k láng giềng gần (Lazy k-NearestNeighbor Classifier) [176] với số láng giềng cố định [22] sử dụng độ đo khoảng cách 3.3.2 Kết nhậndạngphươngngữtiếngViệt sử dụng IBk Sử dụng 384 tham số đặc trưng thực 3.2 Phương pháp đánh giá chéo với tỷ lệ 1:10 áp dụng chongữ liệu VDSPEC Có hai giá trị k = k = sử dụng Với trường hợp k = 1, tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh chophương ngữ 99,1% Kế t quả thử nghiệm nhậndạng với k = có tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh cho 17 dụng MFCC (58,6%) Các thử nghiệm cho thấy số lượng hệ số MFCC chọn 13 mô hình GMM thích hợp dùng chonhậndạngphươngngữtiếngViệt có tỷ lệ nhậndạng cao 3.1.4 Thử nghiệm nhậndạngphươngngữtiếngViệt trường hợp kết hợp formant, dải thông tương ứng tham số F0 Các tham số đưa vào mô hình GMM với số thành phần Gauss 20 bao gồm: formant, dải thông tương ứng, F0 giá trị chuẩn hóa từ F0 Tỷ lệ nhậndạng cao đạt 72,2% kết hợp với F0sbMSD(t) Tỷ lệ nhậndạng cao so với tỷ lệ nhậndạng cao (70,8%) đạt trường hợp kết hợp sử dụng tham số MFCC F0 chuẩn hóa theo trung bình (F0sbM(t)) trình bày phần 3.1.5 Ảnh hưởng số lượng thành phần Gauss hiệu nhậndạngphươngngữtiếngViệt Để khảo sát ảnh hưởng số lượng thành phần Gauss hiệu nhậndạngphươngngữtiếng Việt, số lượng hệ số MFCC 13 kết hợp với tham số F0 chuẩn hóa theo trung bình F0 (F0sbM(t)) lựa chọn Số lượng thành phần Gauss (M) thay đổi từ 20 (baseline) đến 4096 Nhìn chung, kết cho thấy tăng M hiệu nhậndạng tăng theo Tỷ lệ nhậndạng cao đạt 75,1% M 2048 3.2 SVM nhậndạngphươngngữtiếngViệt 3.2.1 Bộ phân lớp SMO SMO (Sequential Minimal Optimization Algorithm) thuật giải tối ưu hóa cực tiểu dùng để giải toán quy hoạch toàn phương (Quadratic Programming - QP) phát sinh huấn luyện SVM [85] SMO phân giải toán PQ tổng thể thành toán [130] 3.2.2 Thử nghiệm nhậndạngphươngngữtiếngViệt sử dụng SMO 3.2.2.1 Bộ phân lớp SMO Weka Công cu ̣ dùng thử nghiê ̣m là Weka Weka gồm tập hợp thuật giải học máy dùng cho khai phá liệu Đại học Waikato, New Zealand phát triển có phân lớp SMO [116] 3.2.2.2 Trích chọn đặc trưng Dữ liê ̣u dùng cho huấ n luyện và nhậndạng được trı́ch cho ̣n đă ̣c trưng bao gồ m 384 ̣ số công cu ̣ OpenSMILE [46] thực 16 2.1.2 Đặc điểm ngữâm ba vùng phươngngữtiếngViệt 2.1.2.1 Phươngngữ Bắc Phươngngữ Bắc (PNB) có số đặc điểm sau [2]: có đủ điệu, đối lập đôi âm vực âm điệu; có 20 phụ âm đầu; Có đủ âm cuối ghi tả 2.1.2.2 Phươngngữ Trung Phươngngữ Trung (PNT) có số đặc điểm chính: có điệu, điệu so với PNB; Có 23 phụ âm đầu, PNB phụ âm uốn lưỡi ghi tả s, r, tr 2.1.2.3 Phươngngữ Nam Các đặc điểm PNN bao gồm: có điệu, ngã trở thành hỏi; Có 23 phụ âm đầu 2.1.3 Sự khác biệt từ vựng ngữ nghĩa ba vùng phươngngữtiếngViệt Ngoài khác biệt ngữ âm, phươngngữtiếngViệt khác biệt lớn từ vựng-ngữ nghĩa [2] Trong PNN có nhiều từ vay mượn từtiếng Chăm, tiếng Khơme Trong PNB có nhiều từ vay mượn từtiếng Thái Có từ Hán-Việt sử dụng PNB PNN lại dùng từViệt ngược lại 2.2 Cấu trúc âm tiết, âm vị phươngngữtiếngViệt 2.2.1 Âm tiết âm vị tiếngViệt 2.2.1.1 Âm tiết TiếngViệt ngôn ngữ đơn âm tiết [2, 3] Mỗi âm tiết phátâm tách rời thể chữ viếtÂm tiết tiếngViệt có số đặc điểm: Có tính độc lập cao, có khả biểu ý nghĩa, có cấu trúc chặt chẽ 2.2.1.2 Âm vị TiếngViệt có năm hệ thống âm vị: hệ thống âm đầu, hệ thống âm đệm, hệ thống âm chính, hệ thống âm cuối hệ thống điệu 2.2.2 Âm đệm cách kết hợp âm đệm phươngngữ 2.2.2.1 Âm đệm kết hợp với phụ âm trước Trong PNB PNT âm đệm /-w-/ kết hợp với hầu hết phụ âm đầu trừ phụ âm môi Trong PNN, âm đệm /-w-/ có tác động mạnh đến phụ âm hầu mạc đứng trước 2.2.2.2 Âm đệm kết hợp với nguyên âm sau Do khuynh hướng dị hóa, âm đệm /-w-/ không kết hợp với nguyên âm tròn môi (u, ô, o, uô) Trong PNB, ảnh hưởng mạnh xu hướng dị hóa, âm đệm /-w-/ không kết hợp với nguyên âm [ư] [ươ] Trong PNT (các tỉnh Nghệ-Tĩnh, Bình-Trị-Thiên), kết hợp /w/ với â thay kết hợp /w/ với Ở PNN âm -wmất đi, Nói khác đi, PNN âm đệm -w- 2.3 Phụ âm đầu phươngngữtiếngViệt 2.3.1 Hệ thống phụ âm đầu 2.3.1.1 Hệ thống phụ âm đầu PNB Hệ thống phụ âm đầu (theo chuẩn tả) xuất nhiều phươngngữ tỉnh đồng Bắc Bộ Thái Bình, Nam Định, Ninh Bình không tiêu biểu cho toàn PNB 2.3.1.2 Hệ thống phụ âm đầu PNT PNT có hệ thống phụ âm đầu phong phú, gần xuất đủ phụ âm (theo chuẩn tả) 2.3.1.3 Hệ thống phụ âm đầu PNN Sự khác biệt chủ yếu hệ thống phụ âm đầu PNN so với phươngngữ khác ngạc hóa số phụ âm [2] Do ảnh hưởng yếu tố ngạc hóa PNN nên phụ âm Bj, Dj, Zj bị biến thành j NHẬNDẠNGPHƯƠNGNGỮTIẾNGVIỆT 3.1 NhậndạngphươngngữtiếngViệt với GMM 3.1.1 Công cụ thử nghiệm nhậndạngphươngngữ ALIZE ALIZE phát triển dựa mô hình GMM thích hợp chonhậndạng người nói (định danh người nói) nhậndạngphươngngữ 3.1.2 Lựa chọn số lượng hệ số MFCC Để tìm số tham số MFCC tốt chonhận dạng, thử nghiệm tiến hành với số hệ số MFCC tăng dần từ đến 19 toàn ngữ liệu VDSPEC, không phân biệt giới tính Kết nghiên cứu cho thấy giá trị MFCC = 11 MFCC = 13 thể ưu điểm cân điểm số phươngngữđồng thời có điểm số trung bình cao Vì số hệ số MFCC=11 MFCC=13 chọn cho thử nghiệm 3.1.3 Thử nghiệm nhậndạngphươngngữtiếngViệt trường hợp kết hợp MFCC với tham số F0 Thanh điệu âm tiết tiếngViệt thành phần đặc biệt, bao trùm lên toàn âm tiết thành phần vần âm tiết Đây đơn vị siêu đoạn [2] Trong tiếng Việt, điệu Trong thử nghiệm này, tham số MFCC kết hợp với tần số F0, LogF0(t) biến thể F0, LogF0(t) bao gồm: đạo hàm F0 (diffF0(t)), chuẩn hóa F0 theo xu hướng lên xuống F0 câu (cdF0(t)), chuẩn hóa F0 theo giá trị trung bình F0 cho câu (F0sbM(t)), chuẩn hóa F0 theo trung bình độ lệch chuẩn F0 (F0sbMSD(t)), đạo hàm LogF0(t) (diffLogF0(t)), chuẩn hóa LogF0(t) theo giá trị LogF0(t) max LogF0(t) cho câu (LogF0sbMM(t)), chuẩn hóa LogF0(t) theo trung bình LogF0(t) câu (LogF0sbM(t)), chuẩn hóa theo LogF0(t) theo trung bình độ lệch chuẩn LogF0(t) (LogF0sbMSD(t)) Thử nghiệm thựctheophương pháp đánh giá chéo (cross-validation) tỷ lệ 1:5 Dữ liệu dùng cho thử nghiệm độc lập với liệu dùng huấn luyện mô hình Bộ tham số bao gồm hệ số MFCC, F0 giá trị chuẩn hóa từ F0 sử dụng cho thử nghiệm nhậndạng dùng mô hình GMM dựa công cụ ALIZE Kết cho thấy, trường hợp số hệ số MFCC 13, tỷ lệ nhậndạng cao đạt 70,8% kết hợp MFCC với F0 chuẩn hóa theo trung bình F0 (F0sbM(t)) Như vậy, kết hợp MFCC với biến thể F0, tỷ lệ nhậndạng tăng lên 12,2% so với trường hợp sử 10 15 2.3.2 So sánh hệ thống phụ âm đầu ba phươngngữ BắcTrung-Nam Từ phân tích trên, khác biệt hệ thống phụ âm đầu ba phươngngữ PNB, PNT PNN thể dãy phụ âmtiền ngạc, phụ âm bật hơi, phụ âm xát hữu 2.4 Hệ thống điệu biến thể phươngngữtiếngViệt thiên F0 rộng so với hai phươngngữ lại 2.7.2 Phân tích thống kê phân bố F0 điệu Dữ liệu phân tích thống kê phân bố F0 điệu biểu diễn đồ thị boxplot Kết cho thấy chiều hướng phạm vi biến thiên F0 giọng Huế có xu hướng ngược lại so với giọng Hà Nội Trừ ngã, xu hướng biến thiên F0 giọng Thành phố Hồ Chí Minh gần với giọng Hà Nội Thanh ngã giọng Thành phố Hồ Chí Minh có xu hướng biến thiên F0 lên giống hỏi giọng Hà NộiCác kết luận tương đồng với cảm nhậnthực tế phươngthứcphátâm khác cho điệu ba phươngngữ 2.7.3 Phân tích liệu dùng LDA 2.7.3.1 Bộ phân lớp LDA Phép chiếu LDA (Linear Discriminant Analysis) thực biến đổi tuyến tính phi tuyến, nhằm tối ưu theo tiêu chí cho: cực đại hóa phương sai, bảo toàn khoảng cách, cực đại hóa cách biệt lớp 2.7.3.2 Đánh giá tượng mũi hóa phươngngữ Trong phươngthứcphátâm số từ PNT PNN có tượng mũi hóa Ví dụ, cách nói giọng Thành phố Hồ Chí Minh, từ “nhanh” phátâm thành “nhăn”, “thành” phátâm thành “thằn”, “tích” phátâm thành “tứt”, hay từ “chính” phátâm “chứn”… Thử nghiệm phân lớp số từ thuộc nhóm từ bị mũi hóa PNT PNN cho thấy có khác biệt rõ ràng 2.8 Kết chương PhươngngữtiếngViệt phong phú đa dạng Có thể chia phươngngữtiếngViệt thành ba vùng Bắc, Trung Nam Luậnán xây dựng ngữ liệu phươngngữtiếngViệt VDSPEC đáp ứng yêu cầu chuyên biệt cho nghiên cứu phươngngữtiếngViệtCác phân tích biến thiên tần số F0 cho thấy khác biệt đáng kể phươngngữ điệu Bên cạnh đó, mũi hóa số từphươngthứcphátâmphươngngữ tạo khác biệt rõ ràng vùng phươngngữtiếngViệt 14 đặc điểm phân biệt phương ngữ, thổ ngữ [2] Người ta thường dựa vào điệu người nói để phân biệt nhậnphươngngữ miền Mỗi phương ngữ, thổ ngữ đặc biệt có hệ thống điệu riêng 2.4.1 Hệ thống điệu Hà Nội Thanh ngang: có âm điệu phẳng, cường độ không thay đổi, thuộc âm vực trung bình lời nói Thanh huyền: âm điệu xuống, có âm vực thấp, cường độ không đổi Thanh ngã: có âm điệu biến thiên theo hai chiều: xuống lên hình chữ V với nhánh lên cao gấp đôi nhánh xuống Thanh hỏi: có âm điệu biến thiên theo hai chiều xuống lên không chia làm hai đoạn rõ rệt ngã Thanh sắc: bắt đầu độ cao thấp ngang, ngang xuống đoạn đầu vút lên cao Thanh nặng: khởi đầu độ cao huyền, có âm điệu ngang hay hạ dần huyền đến khoảng 1/3 điệu xuống với độ dốc lớn kết thúc tắc hầu 2.4.2 Hệ thống điệu Nghệ - Tĩnh Huế Hệ thống điệu tỉnh xem tiêu biểu cho điệu PNT Với tỉnh Nghệ An, Hà Tĩnh, ngã trùng với nặng Song Huế, ngã lại trùng với hỏi Nếu xem cách tổng thể, tỉnh có hệ thống năm điệu bao gồm: ngang, huyền, sắc, nặng hỏi (không có ngã) 2.4.3 Hệ thống điệu Đà Nẵng Thành phố Hồ Chí Minh Hệ thống điệu tỉnh giống tiêu biểu cho điệu PNN đồng thời có điểm tương đồng với điệu PNB 2.4.4 Một số nhận xét hệ thống điệu phươngngữ Hệ thống điệu ba phươngngữ Bắc, Trung Nam có nhiều điểm khác biệt số lượng biến thiên tần số Sự khác biệt sử dụng làm yếu tố để phân biệt phươngngữ hệ thống nhậndạngphươngngữtiếngViệt 2.5 Ảnh hưởng phươngngữ tới nhậndạngtiếngnói Sự tồn phươngngữ ngôn ngữ thách thức lớn cho hệ thống xử lý ngôn ngữtự nhiên nói chung [71] 11 hệ thống nhậndạngtiếngnóiChính vậy, việc nghiên cứu phương ngữ, giải vấn đề liên quan đến phươngngữnhậndạngtiếngnói cần thiết để giúp nâng cao chất lượng hệ thống nhậndạngtiếngnói 2.6 Ngữ liệu phươngngữ giới xây dựng ngữ liệu dùng chonhậndạngphươngngữtiếngViệt Trên giới có số ngữ liệu chophươngngữtiếng Anh [17], tiếng Ả rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149],… Đối với tiếng Việt, có số ngữ liệu xây dựng VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] VNBN (United Broadcast News corpus) [172] Ngữ liệu phươngngữ cần thiết cho nghiên cứu nhậndạngphươngngữtiếngViệtCácngữ liệu tiếngViệt có chưa đáp ứng đầy đủ yêu cầu cần thiết cho nghiên cứu nhậndạngphươngngữ Do vậy, luậnántiến hành xây dựng ngữ liệu phươngngữtiếngViệt VDSPEC (Vietnamese Dialect Speech Corpus) dùng cho nghiên cứu nhậndạngphươngngữnội dung tiếngViệtnói Bộ ngữ liệu VDSPEC xây dựng cho ba phươngngữPhươngngữ Bắc đại diện giọng Hà Nội, phươngngữ Trung đại diện giọng Huế phươngngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện 2.6.1 Phương pháp xây dựng ngữ liệu phươngngữtiếngViệt VDSPEC xây dựng phương pháp ghi âm trực tiếp người nói để đảm bảo tính chủ động chất lượng tiếngnói tốt 2.6.2 Chuẩn bị chuẩn hóa văn Dữ liệu tiếngnói ghi âm thông qua việc người nói đọc văn chuẩn bị sẵn Văn tổ chức thành chủ đề Sự xuất điệu văn chuẩn bị cân với (mỗi gồm 717 từ); bao phủ âm tiết tiếngViệt chất lượng cao Micro dùng ghi âm loại chuyên dụng phù hợp với ghi âmtiếngnói 2.6.3.2 Lựa chọn người nói Để ghi âm giọng đặc trưng chophương ngữ, người nói chọn cho có giọng gốc địa phương Tuổi trung bình người nói 21 Tổng số người lựa chọn ghi âm 150 Trong đó, phươngngữ có 50 người nói bao gồm 25 giọng nam 25 giọng nữ 2.6.3.3 Phần mềm hỗ trợ ghi âm Phần mềm hỗ trợ ghi âm xây dựng dựa ngôn ngữ kịch TCL/TK 2.6.3.4 Môi trường ghi âm Việc ghi âmtiến hành phòng riêng có độ ồn thấp, tỷ số tín hiệu nhiễu xấp xỉ 35 dB 2.6.3.5 Định dạng ghi âmTiếngnói ghi theo chuẩn PCM, không nén, tần số lấy mẫu 16 kHz, 16 bit mẫu, ghi kênh (mono) 2.6.3.6 Tổ chức lưu liệu Các tập tin tiếngnói đặt tên thống theo định dạng Tên tập tin chứa đựng thông tin người nói, chủ đề đoạn văn tương ứng 2.6.4 Kết ghi âm đặc tính VDSPEC Trong trình ghi âm, người nói yêu cầu đọc đủ 25 câu Tổng số câu ghi âm VDSPEC 18750 câu (tương ứng 150 người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ 4,84 GB tổng cộng thời lượng 45,12 tiếngnói 2.7 Phân tích số đặc trưng phươngngữtiếngViệtngữ liệu VDSPEC 2.7.1 Biến thiên tần số F0 theo điệu ba phươngngữ 2.6.3.1 Thiết bị ghi âm Quá trình ghi âmthực máy tính có card âm Khảo sát biến thiên F0 tiếngnóiphươngngữ Bắc, phươngngữ Trung phươngngữ Nam tiến hành dựa ngữ liệu VDSPEC Kết khảo sát biến thiên tần số F0 điệu tiếngViệtcho thấy có khác biệt đáng kể phươngngữ Nhìn chung, sáu điệu, phươngngữ Bắc có phạm vi biến 12 13 2.6.3 Ghi âm ... lý tiếng nói đặc biệt nhận dạng tiếng nói [48] 4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ 4.1.2.1 Hệ thống nhận dạng tự động tiếng nói Mô hình hệ thống nhận dạng tự động tiếng nói. .. ảnh hưởng phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói, xây dựng ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt nhận dạng tiếng Việt nói, nghiên... thống nhận dạng tự động, tham số phù hợp để nhận dạng phương ngữ tiếng Việt mô hình hệ thống nhận dạng tự động tiếng Việt nói theo phương ngữ tiếng Việt Đối tượng phạm vi nghiên cứu luận án Đối