5 Tổng hợp các kết quả đã nghiên cứu, luận án đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói là một ngôn ngữ có phương ngữ rất đa dạng trong đó cần tiến hành nhận dạng phương ng
Trang 1trường hợp sử dụng mô hình GMM để nhận dạng phương ngữ tiếng
Việt, các tham số formant và dải thông tương ứng kết hợp với biến thể
của F0 đã làm tăng độ chính xác nhận dạng lên 1,4% so với khi chỉ có
đặc trưng MFCC và F0 Bên cạnh đó, để nâng cao hiệu năng nhận dạng
phương ngữ tiếng Việt, luận án khuyến nghị sử dụng biến thể của F0 là
chuẩn hóa F0 theo trung bình F0 trong trường hợp kết hợp với MFCC
Còn trong trường hợp sử dụng formant và dải thông tương ứng, cần sử
dụng F0 chuẩn hóa theo trung bình và độ lệch chuẩn của F0 Cùng với
mô hình GMM, luận án đã nghiên cứu nhận dạng phương ngữ với một
số bộ phân lớp khác nhau như SVM (SMO), MultilayerPerceptrol, IBk,
JRip, PART Từ nghiên cứu này, luận án đã chỉ ra bộ phân lớp
MultilayerPerceptrol cho kết quả nhận dạng tốt nhất phương ngữ tiếng
Việt với tập 384 tham số đặc trưng của tín hiệu tiếng nói (4) Luận án đã
nghiên cứu mô hình HMM nhận dạng tự động tiếng Việt nói trên ngữ
liệu có phương ngữ và kết quả cho thấy vai trò tích cực của việc xác
định được phương ngữ trước khi nhận dạng nội dung tiếng nói Nghiên
cứu này đã được tiến hành theo hai trường hợp Trường hợp thứ nhất:
nhận dạng nội dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng
không dùng thông tin phương ngữ Trường hợp thứ hai: nhận dạng nội
dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng dùng thông tin
phương ngữ Kết quả nghiên cứu cho thấy, trong trường hợp nhận dạng
có thông tin phương ngữ, tỷ lệ lỗi từ tương đối đã giảm 27,9%, tương
đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể Đây là
lần đầu tiên mô hình HMM được sử dụng nhận dạng tự động tiếng Việt
nói trên ngữ liệu có phương ngữ (5) Tổng hợp các kết quả đã nghiên
cứu, luận án đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói
là một ngôn ngữ có phương ngữ rất đa dạng trong đó cần tiến hành nhận
dạng phương ngữ trước khi nhận dạng nội dung nhằm thực sự nâng cao
hiệu năng cho hệ thống nhận dạng tiếng Việt nói
Định hướng phát triển:
Từ các kết quả nghiên cứu đã được thực hiện, luận án đề xuất các
kiến nghị sau nhằm mở rộng hướng nghiên cứu hiện có: (1) Bổ sung
các phương ngữ khác của tiếng Việt vào bộ ngữ liệu VDSPEC (2)
Nghiên cứu đặc trưng theo phương thức phát âm của các phương ngữ
tiếng Việt đã được bổ sung (3) Xây dựng mô hình nhận dạng tiếng Việt
theo hướng ngày càng hoàn thiện nhằm phù hợp với tính đa dạng của
phương ngữ tiếng Việt
MỞ ĐẦU
1 Lý do chọn đề tài
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính Trong đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống
Trên thế giới đã có nhiều nghiên cứu về nhận dạng tiếng nói Không chỉ dừng lại ở nghiên cứu mà nhận dạng tiếng nói được triển khai trong các sản phẩm ứng dụng Đối với nhận dạng tiếng Việt, mặc dù cũng có nhiều nghiên cứu và đã đạt được các kết quả nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng Ngoài các khó khăn trong nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt Tiếng Việt có nhiều phương ngữ khác nhau Sự khác biệt giữa các phương ngữ gây ra không ít khó khăn cho chính con người khi giao tiếp với các phương ngữ khác nhau Sự khác biệt đó cũng ảnh hưởng tới các hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng tiếng Việt nói Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể sử dụng
mô hình nhận dạng đã được xây dựng phù hợp với phương ngữ đó nhằm cải thiện hiệu năng hệ thống nhận dạng Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” để nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác người-máy
Trang 22 Mục tiêu nghiên cứu của luận án
Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói
cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ
đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật
nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói
nhằm nâng cao hiệu năng nhận dạng
3 Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính
sau: Nghiên cứu đặc điểm phương ngữ tiếng Việt, đánh giá sự ảnh
hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói,
xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu
nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói, nghiên
cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp
để nhận dạng phương ngữ tiếng Việt và mô hình hệ thống nhận dạng tự
động tiếng Việt nói theo phương ngữ chính của tiếng Việt
4 Đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương
ngữ tiếng Việt Từ kết quả nhận dạng phương ngữ, xây dựng mô hình
nhận dạng tiếng Việt nói theo phương ngữ Mô hình mới sử dụng thông
tin về phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng
Việt nói Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập trung
theo hướng xử lý tín hiệu mà không sử dụng yếu tố từ địa phương
Phương ngữ tiếng Việt rất phong phú Về mặt địa lý, xét theo phương
thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã Tuy nhiên
trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ
giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của
tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng Hà
Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và
phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện)
Trong hệ thống mới nhận dạng tiếng Việt nói, nhận dạng phương ngữ
được xem như bước tiền xử lý nên cần được tiến hành trước khi nhận
dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói Vì
vậy, thao tác của hệ thống nhận dạng phương ngữ không cần thiết phải
khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông
tin về phương thức phát âm của phương ngữ Điều này làm cho việc
Bắc, Trung, Nam trong khuôn khổ của luận án Luận án thực hiện các nghiên cứu nhận dạng phương ngữ tiếng Việt, đề xuất bộ tham số bao gồm 13 hệ số MFCC kết hợp với biến thể của F0 phù hợp với mô hình nhận dạng GMM Kết quả nhận dạng được cải thiện khi kết hợp các tham số formant, dải thông tương ứng và biến thể của F0 Bên cạnh đó, luận án đã thực hiện các nghiên cứu một số bộ phân lớp như SVM (SMO), IBk, JRip, MultilayerPerceptron, PART nhận dạng phương ngữ tiếng Việt Kết quả nghiên cứu cho thấy các bộ phân lớp này cũng nhận dạng hiệu quả phương ngữ tiếng Việt
Trên cơ sở các kết quả nghiên cứu, luận án đề xuất mô hình mới nhận dạng tiếng Việt nói trong đó có nhận dạng phương ngữ Trong mô hình này, tiếng nói được nhận dạng phương ngữ trước khi nhận dạng nội dung Thông tin về phương ngữ giúp hệ thống nhận dạng lựa chọn mô hình huấn luyện phù hợp với phương ngữ nhằm đạt được hiệu năng nhận dạng tốt hơn so với trường hợp không có thông tin phương ngữ
Đóng góp khoa học của luận án:
Các kết quả nghiên cứu mới và đóng góp khoa học của luận án như sau: (1) Luận án đã xây dựng được bộ ngữ liệu tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói Đây là bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba phương ngữ chính của tiếng Việt mà đại diện là giọng Hà Nội cho phương ngữ Bắc, giọng Huế cho phương ngữ Trung và giọng Thành phố Hồ Chí Minh cho phương ngữ Nam Ngữ liệu tiếng Việt VDSPEC được ghi âm trực tiếp từ người nói theo văn bản đã được chuẩn bị sẵn và
tổ chức theo chủ đề (2) Kết quả nghiên cứu đặc điểm của phương ngữ tiếng Việt theo phương diện xử lý tín hiệu, các yếu tố của phương ngữ ảnh hưởng tới hiệu năng của các hệ thống nhận dạng tiếng Việt nói cũng
là những đóng góp của luận án Luận án đã đi sâu phân tích các đặc điểm về phương thức phát âm của ba phương ngữ đại điện là Bắc, Trung
và Nam Kết quả nghiên cứu đã chỉ ra các khác biệt về phương thức phát
âm theo phương diện xử lý tín hiệu, đặc biệt là phương thức phát âm khác nhau đối với các thanh điệu và sự mũi hóa khác nhau của các phương ngữ (3) Một trong các đóng góp nữa của luận án là nhận dạng phương ngữ tiếng Việt sử dụng mô hình GMM cùng với việc đề xuất lựa chọn bộ tham số thích hợp cho mô hình bao gồm số thành phần Gauss, các đặc trưng MFCC, tần số cơ bản F0, các biến thể của F0, formant và dải thông tương ứng Kết quả nghiên cứu cho thấy, trong
Trang 3thông tin phương ngữ với lỗi từ trong trường hợp tốt nhất chỉ là 9,37%
Sử dụng mô hình mới nhận dạng tiếng Việt nói đã được đề xuất, kết quả
cho thấy hiệu năng của hệ thống nhận dạng tiếng Việt nói được cải thiện
đáng kể khi có thông tin phương ngữ Tỷ lệ lỗi từ tương đối đã giảm
được 27,9%
KẾT LUẬN VÀ KIẾN NGHỊ Kết luận:
Luận án đã hoàn thành các nội dung nghiên cứu, đáp ứng mục tiêu
đặt ra ban đầu là "Nghiên cứu nhận dạng tiếng Việt nói cho các vùng
phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng
của hệ thống nhận dạng, đề xuất giải pháp kỹ thuật nhận dạng phương
ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu
quả nhận dạng" Tiếng Việt có phương ngữ đa dạng, phong phú Các
nghiên cứu về phương ngữ tiếng Việt đã được thực hiện song chủ yếu
theo phương diện ngôn ngữ Nghiên cứu theo phương diện xử lý tín hiệu
đối với phương ngữ tiếng Việt hầu như còn rất ít được công bố Phương
ngữ tiếng Việt có thể được phân chia thành nhiều vùng khác nhau Theo
ý kiến của đa phần các nhà nghiên cứu về phương ngữ tiếng Việt, có thể
phân chia phương ngữ tiếng Việt làm ba vùng chính là phương ngữ Bắc,
phương ngữ Trung và phương ngữ Nam Sự phân chia này chỉ mang
tính tương đối vì sự khác nhau giữa các phương ngữ có thể xuất hiện
ngay giữa các làng xã liền kề và thay đổi theo vị trí địa lý Luận án đã
tiến hành nghiên cứu sự khác biệt giữa ba phương ngữ chính của tiếng
Việt theo phương thức phát âm, ứng dụng trong hệ thống nhận dạng tự
động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng của hệ thống
Để thực hiện các nghiên cứu nhận dạng phương ngữ, cần thiết phải có
ngữ liệu phương ngữ đáp ứng cho yêu cầu chuyên biệt này Luận án đã
tiến hành xây dựng bộ ngữ liệu phương ngữ tiếng Việt mới VDSPEC
dùng cho các nghiên cứu về nhận dạng phương ngữ cũng như nhận dạng
tiếng Việt nói Bộ ngữ liệu VDSPEC được ghi âm trực tiếp từ người nói
theo văn bản đã được chuẩn bị từ trước và phân chia theo chủ đề Tiếng
nói được ghi âm từ ba giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại
diện cho ba vùng phương ngữ chính là phương ngữ Bắc, phương ngữ
Trung và phương ngữ Nam Các phân tích trên bộ ngữ liệu VDSPEC
chỉ ra sự khác biệt trong quy luật biến thiên tần số cơ bản F0 cho mỗi
thanh điệu và sự mũi hóa ở các phương ngữ Trung, Nam Những khác
biệt này có thể được sử dụng làm cơ sở để phân biệt ba phương ngữ
nhận dạng phương ngữ hoạt động linh hoạt mà không phụ thuộc vào nội dung cần nhận dạng Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ đồng thời đề xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng Việt nói
5 Ý nghĩa khoa học và thực tiễn của luận án
Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho mở rộng nghiên cứu về phương ngữ tiếng Việt, đặc biệt là về phương diện xử lý tín hiệu Từ kết quả nhận dạng phương ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói theo phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói, góp phần hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt nói
6 Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý
thuyết với nghiên cứu thực nghiệm Về lý thuyết: luận án nghiên cứu
tổng quan về phương ngữ tiếng Việt, các mô hình nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo,
giáo trình liên quan Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng
Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói; thực hiện các nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ
7 Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau: Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ chính của tiếng Việt theo phương diện phát âm về mặt xử
lý tín hiệu, xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt nói; tiến hành một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương ngữ tiếng Việt, đề xuất mô hình nhận dạng phương ngữ tiếng Việt cùng với bộ tham số phù hợp cho mô hình nhận dạng
Trang 4phương ngữ tiếng Việt và mô hình nhận dạng tiếng Việt nói dùng thông
tin phương ngữ nhằm cải thiện hiệu năng của hệ thống nhận dạng
8 Nội dung luận án
Nội dung chính của luận án được trình bày trong 4 chương như sau:
Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương
ngữ; Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng
phương ngữ tiếng Việt Chương này đề cập các nghiên cứu tổng quan về
phương ngữ tiếng Việt, phương pháp xây dựng bộ ngữ liệu dùng cho
nghiên cứu nhận dạng phương ngữ tiếng Việt và kết quả phân tích đã đạt
được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ
liệu đã xây dựng Chương 3: Nhận dạng phương ngữ tiếng Việt Nội
dung chương này tập trung vào nghiên cứu các mô hình nhận dạng
phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho mỗi mô
hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng
Việt sử dụng các mô hình và tham số đã đề xuất Chương 4: Cải thiện
hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ Chương 4
trình bày mô hình nhận dạng tiếng Việt nói dựa trên HMM sử dụng các
thông tin về phương ngữ nhằm cải thiện hiệu năng nhận dạng Cuối
cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được,
hướng mở rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học
của luận án
1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ
NHẬN DẠNG PHƯƠNG NGỮ
1.1 Nhận dạng tiếng nói
1.1.1 Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống
hiểu được tiếng nói của con người Nhờ hệ thống này, tiếng nói có thể
được chuyển đổi tự động thành văn bản, hoặc tự động điều khiển các
quá trình khác [178]
1.1.2 Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận
dạng tiếng nói
Nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm qua
Có nhiều mô hình nhận dạng đã được đề xuất Trong đó, mô hình HMM
Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói
sử dụng thông tin phương ngữ
4.2.2 Nhận dạng tiếng Việt nói khi có thông tin phương ngữ
Nghiên cứu được thực hiện trên ngữ liệu VDSPEC sử dụng thông tin về phương ngữ Việc huấn luyện mô hình âm học được tiến hành độc lập cho từng phương ngữ Nhận dạng nội dung được thực hiện trên cơ
sở đã biết về thông tin phương ngữ Kết quả nhận dạng tốt nhất với tỷ lệ lỗi từ trung bình là 6,76% cho phương pháp huấn luyện tri3b Phương pháp huấn luyện này cũng cho kết quả nhận dạng tốt nhất khi chưa có thông tin phương ngữ (9,37%) Tỷ lỗi từ khi có thông tin phương ngữ giảm 2,61% so với khi chưa có thông tin phương ngữ Tỷ lệ lỗi từ tương đối (relative word error rate) đã giảm được 27,9% Điều này tương đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể
4.3 Kết chương
Kết quả sử dụng HMM nhận dạng tiếng Việt nói khi chưa sử dụng
Trang 5Hình 4.9: Mô hình nhận dạng tự động tiếng nói
4.1.2.2 Bộ công cụ nhận dạng Kaldi
Kaldi là một bộ công cụ nhận dạng tiếng nói mã nguồn mở của
trường đại học Johns Hopkins được xây dựng từ năm 2009
4.1.2.3 Kaldi nhận dạng tiếng Việt nói theo ba phương ngữ chính
Nghiên cứu dùng Kaldi nhận dạng phương ngữ tiếng Việt trên bộ
ngữ liệu VDSPEC, chưa dùng thông tin phương ngữ Thử nghiệm nhận
dạng được tiến hành bằng phương pháp đánh giá chéo (5:1) Kết quả
nhận dạng tốt nhất ứng với phương pháp huấn luyện tri3b trong đó tỷ lệ
lỗi từ là 9,37%
4.2 Cải thiện hiệu năng nhận dạng tiếng Việt nói thông
qua sử dụng thông tin phương ngữ
4.2.1 Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông
tin phương ngữ
Luận án đề xuất mô hình mới nhận dạng tiếng Việt nói được mô tả
trên sơ đồ Hình 4.11 Tiếng nói trước khi nhận dạng được đưa qua bước
tiền xử lý nhận dạng phương ngữ Hệ thống căn cứ trên kết quả nhận
dạng phương ngữ để có điều chỉnh lựa chọn mô hình thích hợp
với nền tảng chính không có nhiều thay đổi nhưng việc mô hình hóa, các
kỹ thuật cài đặt cụ thể liên tục được cải tiến Vì thế, HMM vẫn giữ được
vị trí quan trọng trong các hệ thống nhận dạng tiếng nói Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được nhưng bước tiến quan trọng Các thuật toán tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn
1.1.3 Các thách thức đối với nhận dạng tiếng nói
Thách thức lớn đối với nhận dạng tự động tiếng nói là xử lý được các biến đổi trong tiếng nói Tiếng nói được phát âm sẽ bị biến đổi bởi nhiều yếu tố khác nhau, do bản thân người nói, do môi trường tác động Thách thức lớn khác đối với nhận dạng tự động tiếng nói là phải giải quyết bài toán nhận dạng nhầm, khi mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng không hoàn toàn theo đúng với tiếng nói đã được huấn luyện
1.1.4 Phân loại nhận dạng tiếng nói
Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cách khác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói, đặc điểm liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thể được chia làm 3 loại gồm
hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích nghi người nói Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếng nói huấn luyện và nhận dạng sẽ gồm bốn loại như sau: hệ thống nhận dạng tiếng nói theo từ rời rạc không liên kết về nghĩa với nhau, hệ thống nhận dạng tiếng nói có các từ rời rạc liên kết về nghĩa với nhau, hệ thống nhận dạng tiếng nói liên tục, hệ thống nhận
dạng tiếng nói tự nhiên Hệ thống nhận dạng tiếng nói cũng có thể phân
loại theo số lượng từ vựng Theo cách này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm hệ thống nhận dạng với từ vựng ít,
hệ thống nhận dạng tiếng nói với từ vựng trung bình và hệ thống nhận dạng tiếng nói với từ vựng lớn
1.2 Nhận dạng phương ngữ
Nhận dạng phương ngữ dựa trên tín hiệu tiếng nói là một lĩnh vực
Trang 6của xử lý tín hiệu tiếng nói thu hút nhiều nhà khoa học tham gia
Phương pháp tiếp cận của nhận dạng phương ngữ cũng giống như các
phương pháp được dùng trong nhận dạng ngôn ngữ
1.2.1 Các mô hình nhận dạng phương ngữ
1.2.1.1 Mô hình ràng buộc âm vị
Với mỗi ngôn ngữ, các từ đều được cấu thành từ một tập các âm vị
Các mô hình nhận dạng dựa trên ràng buộc âm vị (Phonotactic
Modeling) được xây dựng được trên các bộ nhận dạng âm vị Bộ nhận
dạng âm vị sẽ tiến hành phân tích tiếng nói cần nhận dạng thành các âm
vị
1.2.1.2 Mô hình âm học
Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp
cận dựa trên mô hình ràng buộc âm vị là sử dụng mô hình âm học
(Acoustic Modeling) Cách tiếp cận này sử dụng các mô hình nhận dạng
khác nhau trong đó có mô hình hỗn hợp Gauss (Gaussian Mixture
Model – GMM), SVM, ANN… Các mô hình này dùng các tham số là
các đặc trưng của tiếng nói cần nhận dạng như phổ, ngôn điệu, tần số cơ
bản,
1.2.2 Nhận dạng phương ngữ theo các phương diện khác nhau
1.2.2.1 Theo phương diện ngôn ngữ học
Nghiên cứu nhận dạng phương ngữ được bắt đầu từ khá sớm
Những ghi nhận đầu tiên có thể kể đến là các khảo sát để nhận dạng các
vùng phương ngữ của George Wenker vào đầu năm 1877 Việc nhận
dạng phương ngữ có thể dựa trên nguyên âm, phụ âm, từ vựng, hệ thống
các từ, các đặc trưng âm học, âm vị,
1.2.2.2 Theo phương diện của phương pháp nhận dạng
Nhiều phương pháp đã được sử dụng trong nhận dạng ngôn ngữ
cũng được sử dụng cho nhận dạng phương ngữ trong đó có thể kể đến
một số phương pháp như GMM, HMM, SVM (Support Vector
Machines), NN (Neural Networks), DNN (Deep Neural Networks)
1.3 Nghiên cứu nhận dạng tiếng nói và nhận dạng
phương ngữ tiếng Việt
Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên
nhận dạng cho hệ thống nhận dạng phương ngữ tiếng Việt Lựa chọn kết hợp bộ tham số MFCC bao gồm 13 hệ số với thông tin F0 cho kết quả nhận dạng tốt trong mô hình GMM Bên cạnh đó, thử nghiệm cho thấy kết hợp bộ tham số bao gồm formant, dải thông tương ứng và tham số F0 cũng cho kết quả nhận dạng tốt Ngoài mô hình GMM, kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng các bộ phân lớp SVM (SMO), MultilayerPerceptron, IBk, JRip, PART cho thấy các bộ phân lớp này có thể ứng dụng hiệu quả trong nhận dạng phương ngữ tiếng Việt
4 CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 4.1 HMM nhận dạng tiếng Việt nói
4.1.1 Mô hình HMM
HMM xuất phát từ các quá trình và chuỗi Markov do Andrey Andreyevich Markov là một nhà toán học Nga đề xuất vào năm 1906 Năm 1913, Markov đã áp dụng lý thuyết của mình để tính toán xác suất
xuất hiện của các từ trong tác phẩm “Eugene Onegin” của Puskin [23]
Trong những năm 60 của thế kỷ trước, L.E Baum và cộng sự đã có các công trình nghiên cứu về mặt lý thuyết của HMM [93] và vào những năm 70, HMM được J.K Baker ở CMU [76], F Jelinek và cộng sự ở IBM ứngdụng để xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói [48]
4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính
4.1.2.1 Hệ thống nhận dạng tự động tiếng nói
Mô hình hệ thống nhận dạng tự động tiếng nói được thể hiện trên Hình 4.9 Hệ thống nhận dạng bao gồm 2 giai đoạn là: huấn luyện mô hình và nhận dạng
Trang 73 phương ngữ là 99,5% (cao hơn so với trường hợp k=1 Điều này cho
thấy kết quả nhận dạng đúng có tăng khi tăng số láng giềng gần nhất
3.4 Nhận dạng phương ngữ tiếng Việt với bộ phân lớp
MultilayerPerceptron
3.4.1 Bộ phân lớp MultilayerPerceptron
Với Weka [69], MultilayerPerceptron là bộ phân lớp sử dụng mạng
nơ-ron lan truyền ngược lỗi để huấn luyện
3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt
Nghiên cứu này sử dụng 384 tham số như đã trình bày ở mục 3.2.3
Kết quả nhận dạng trung bı̀nh cả 3 phương ngữ là 99,5% Bộ phân lớp
này cho tỷ lệ nhận dạng đúng cao
3.5 JRip nhận dạng phương ngữ tiếng Việt
3.5.1 Bộ phân lớp JRip
JRip là thuật giải RIPPER (Repeated Incremental Pruning to
Produce Error Reduction) để suy diễn luật một cách hiệu quả và nhanh
do William W Cohen đề xuất, là phiên bản tối ưu hóa của IREP [30]
3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip
JRip cũng sử dụng 384 tham số Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3
phương ngữ là 93,3%
3.6 Nhận dạng phương ngữ tiếng Việt với PART
3.6.1 Bộ phân lớp PART
Bộ phân lớp PART được dùng để có các luật từ các cây quyết định
riêng phần đã được xây dựng bằng cách sử dụng J4.8 J4.8 là cài đặt mã
nguồn mở Java của thuật giải C4.5 và thuật giải này được dùng để tạo
cây quyết định do Ross Quinlan phát triển [133]
3.6.2 Kết quả dùng PART nhận dạng phương ngữ tiếng Việt
Bộ 384 tham số cũng được sử dụng cho PART như trong các
trường hợp SMO, IBk, MultilayerPerceptron và JRip Tỷ lê ̣ nhâ ̣n da ̣ng
đúng trung bı̀nh của 3 phương ngữ đa ̣t 93%
3.7 Kết chương
Mô hình GMM có khả năng ứng dụng tốt vào nhận dạng phương
ngữ tiếng Việt Thành phần F0 có ý nghĩa trong việc nâng cao hiệu quả
cứu trong và ngoài nước thực hiện như một số nghiên cứu nhận dạng từ rời rạc, số lượng từ vựng hạn chế [31, 120] Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếng Việt được thực hiện ở [121] Gần đây, có các nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nói có số lượng từ vựng lớn [115, 116, 117, 118], Nghiên cứu trong [156] là nhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ công cụ HTK trên cơ sở dữ liệu âm thanh thu từ đài phát thanh VOV Hệ thống nhận dạng tiếng Việt nói cũng đã được thực hiện bằng hệ nhúng và hoạt động trên thời gian thực [4] Về phương diện ngôn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiều nghiên cứu được tổng hợp trong công trình của tác giả Hoàng Thị Châu [2], các tác giả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171] Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu còn rất hạn chế
1.4 Một số mô hình nhận dạng 1.4.1 Mô hình GMM
Mô hình hỗn hợp Gauss đa thể hiện (multi-variate) GMM được biết đến là một trong các mô hình có khả năng phân lớp rất tốt đã được sử dụng trong các nghiên cứu về nhận dạng người nói [80], định danh các phương ngữ tiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng Hindi [146], nhận dạng ngôn ngữ [25, 160] Một mô hình hỗn hợp
Gauss đa thể hiện là tổng có trọng số của M thành phần mật độ Gauss
như biểu thức (1.3):
Trong (1.3), X là véc tơ dữ liệu (chứa các tham số của đối tượng
cần biểu diễn), πi, i=1, , M là các trọng số của hỗn hợp và ( | , )
là các hàm mật độ Gauss thành phần
1.4.2 Bộ phân lớp SVM
SVM (Suport Vector Machine) cơ bản là một bộ phân lớp nhị phân
phi tuyến có khả năng đoán nhận liệu một véc tơ vào x thuộc về lớp 1
Trang 8(khi đó đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1) Thuật
giải phân lớp này lần đầu tiên được đề xuất năm 1992 [21]
1.4.3 Mạng nơ ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường
gọi tắt là mạng nơ-ron (Neural network) là mô hình toán học hay hệ
thống xử lý thông tin được xây dựng dựa trên cơ sở tổng quát hóa mô
hình toán học của nơ-ron thần kinh sinh học và phỏng theo cơ chế làm
việc của bộ não người
1.5 Kết chương
Nhận dạng tiếng nói nói chung và tiếng Việt nói nói riêng đã được
nhiều nhà khoa học trong và ngoài nước nghiên cứu và công bố kết quả
Các nghiên cứu về phương ngữ tiếng Việt đã được thực hiện nhiều song
chủ yếu trên phương diện ngôn ngữ học Về phương diện xử lý tín hiệu,
nghiên cứu về phương ngữ tiếng Việt hầu như còn rất ít được công bố
Mặt khác, phương ngữ tiếng Việt lại rất đa dạng và phong phú Việc
định danh đúng phương ngữ cho hệ thống nhận dạng tiếng Việt sẽ nâng
cao hiệu năng của hệ thống nhận dạng
2 XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU
NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT
2.1 Tổng quan phương ngữ tiếng Việt
2.1.1 Phương ngữ và phân vùng phương ngữ tiếng Việt
Phương ngữ tiếng Việt có thể được phân chia thành các vùng Việc
phân vùng phương ngữ tiếng Việt đã được nhiều nhà nghiên cứu đề cập
đến và có các ý kiến khác nhau về cách phân chia Số đông các nhà
nghiên cứu cho rằng tiếng Việt được chia làm 3 vùng phương ngữ chính
là phương ngữ Bắc (các tỉnh phía Bắc đến Thanh Hóa), phương ngữ
Trung (từ Thanh Hóa vào đến Đèo Hải Vân) và phương ngữ Nam (từ
Đèo Hải Vân vào các tỉnh thành phía Nam) Việc phân chia các vùng
phương ngữ như trên chỉ mang tính tương đối
Đây là dữ liê ̣u thống kê của mỗi file tiếng nói Với mỗi file tiếng nói tương ứng với 384 tham số được trích chọn
3.2.2.3 Dùng đầy đủ 384 tham số đặc trưng
Ngữ liệu phương ngữ dùng cho nhận dạng được chia theo phương pháp đánh giá chéo với tỷ lệ 1:10 Thời gian huấn luyện mô hình hết 148,13 giây Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3 phương ngữ là 96,9%
3.2.2.4 Trường hợp không có thông tin liên quan trực tiếp F0
Trong trường hợp này, 12 hê ̣ số liên quan trực tiếp F0 được loa ̣i khỏi tâ ̣p 384 tham số đặc trưng Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3 phương ngữ là 96,7% Kết quả này thấp hơn so với trường hợp có sử
du ̣ng F0 ở mục 3.2.3.3
3.2.2.5 Trường hợp chı̉ dùng các tham số liên quan trực tiếp F0
Đây là trường hợp chı̉ cho ̣n 12 tham số đặc trưng liên quan trực tiếp F0 để huấn luyê ̣n và nhận dạng Tỷ lệ nhận dạng đúng trung bı̀nh của 3 phương ngữ là 52,2% Kết quả này cho thấy thông tin F0 giúp ích cho nhận dạng phương ngữ
3.2.2.6 Chı̉ dùng tham số đặc trưng liên quan trực tiếp MFCC
Thử nghiê ̣m này chı̉ cho ̣n 12 tham số liên quan trực tiếp với MFCC Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bình là 75,8% cho ba phương ngữ Kết quả này cho thấy các tham số đặc trưng cho MFCC cũng đóng vai trò khá quan trọng trong nhận dạng phương ngữ
3.3 IBk nhận dạng phương ngữ tiếng Việt 3.3.1 Bộ phân lớp IBk
Bộ phân lớp IBk là dẫn xuất của phân lớp IBL (Instance Based
Learning) IBk là bộ phân lớp k láng giềng gần nhất (Lazy
k-Nearest-Neighbor Classifier) [176] với số láng giềng cố định [22] sử dụng cùng một độ đo khoảng cách
3.3.2 Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk
Sử dụng 384 tham số đặc trưng như đã thực hiện ở 3.2 Phương pháp đánh giá chéo với tỷ lệ 1:10 đã được áp dụng cho bộ ngữ liệu
VDSPEC Có hai giá trị k = 1 và k = 5 đã được sử dụng Với trường hợp
k = 1, tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh cho 3 phương ngữ là 99,1% Kết quả thử nghiệm nhận dạng với k = 5 có tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh cho
Trang 9dụng MFCC (58,6%) Các thử nghiệm cho thấy nếu số lượng các hệ số
MFCC chọn bằng 13 thì mô hình GMM thích hợp dùng cho nhận dạng
phương ngữ tiếng Việt sẽ có tỷ lệ nhận dạng đúng cao nhất
3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường
hợp kết hợp formant, dải thông tương ứng và tham số F0
Các tham số đưa vào mô hình GMM với số thành phần Gauss
bằng 20 bao gồm: formant, dải thông tương ứng, F0 và các giá trị
chuẩn hóa từ F0 Tỷ lệ nhận dạng cao nhất đạt 72,2% khi kết hợp với
F0sbMSD(t) Tỷ lệ nhận dạng này cao hơn so với tỷ lệ nhận dạng cao
nhất (70,8%) đạt được trong trường hợp kết hợp sử dụng tham số
MFCC và F0 chuẩn hóa theo trung bình (F0sbM(t)) như đã trình bày
ở phần trên
3.1.5 Ảnh hưởng của số lượng thành phần Gauss đối với hiệu
năng nhận dạng phương ngữ tiếng Việt
Để khảo sát ảnh hưởng của số lượng thành phần Gauss đối với hiệu
năng nhận dạng phương ngữ tiếng Việt, số lượng hệ số MFCC bằng 13 kết
hợp với tham số F0 được chuẩn hóa theo trung bình F0 (F0sbM(t)) đã được
lựa chọn Số lượng thành phần Gauss (M) được thay đổi từ 20 (baseline)
đến 4096 Nhìn chung, kết quả cho thấy khi tăng M thì hiệu năng nhận dạng
cũng tăng theo Tỷ lệ nhận dạng cao nhất đạt 75,1% khi M bằng 2048
3.2 SVM nhận dạng phương ngữ tiếng Việt
3.2.1 Bộ phân lớp SMO
SMO (Sequential Minimal Optimization Algorithm) là thuật giải tối
ưu hóa cực tiểu lần lượt được dùng để giải bài toán quy hoạch toàn phương
(Quadratic Programming - QP) phát sinh trong huấn luyện SVM [85]
SMO phân giải bài toán PQ tổng thể thành bài các bài toán con [130]
3.2.2 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO
3.2.2.1 Bộ phân lớp SMO trong Weka
Công cu ̣ dùng thử nghiê ̣m là Weka Weka gồm tập hợp các thuật
giải học máy dùng cho khai phá dữ liệu do Đại học Waikato, New
Zealand phát triển trong đó có bộ phân lớp SMO [116]
3.2.2.2 Trích chọn đặc trưng
Dữ liê ̣u dùng cho huấn luyện và nhận dạng được trı́ch cho ̣n đă ̣c
trưng bao gồm 384 hê ̣ số do bộ công cu ̣ OpenSMILE [46] thực hiện
2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng
Việt
2.1.2.1 Phương ngữ Bắc
Phương ngữ Bắc (PNB) có một số đặc điểm chính như sau [2]: có
đủ 6 thanh điệu, đối lập từng đôi về âm vực và âm điệu; có 20 phụ âm đầu; Có đủ các âm cuối ghi trong chính tả
2.1.2.2 Phương ngữ Trung
Phương ngữ Trung (PNT) có một số đặc điểm chính: có 5 thanh điệu, ít hơn một thanh điệu so với PNB; Có 23 phụ âm đầu, hơn PNB 3 phụ âm uốn lưỡi ghi trong chính tả là s, r, tr
2.1.2.3 Phương ngữ Nam
Các đặc điểm chính của PNN bao gồm: chỉ có 5 thanh điệu, thanh ngã trở thành thanh hỏi; Có 23 phụ âm đầu
2.1.3 Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng
phương ngữ tiếng Việt
Ngoài sự khác biệt về ngữ âm, các phương ngữ tiếng Việt còn khác biệt khá lớn về từ vựng-ngữ nghĩa [2] Trong PNN có nhiều từ vay mượn từ tiếng Chăm, tiếng Khơme Trong khi PNB có nhiều từ vay mượn từ tiếng Thái Có những từ Hán-Việt được sử dụng ở PNB thì PNN lại dùng từ thuần Việt và ngược lại
2.2 Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt 2.2.1 Âm tiết và âm vị trong tiếng Việt
2.2.1.1 Âm tiết
Tiếng Việt là một ngôn ngữ đơn âm tiết [2, 3] Mỗi một âm tiết được phát âm tách rời nhau và được thể hiện bằng một chữ viết Âm tiết tiếng Việt có một số đặc điểm: Có tính độc lập cao, có khả năng biểu hiện ý nghĩa, có cấu trúc chặt chẽ
2.2.1.2 Âm vị
Tiếng Việt có năm hệ thống âm vị: hệ thống âm đầu, hệ thống âm đệm, hệ thống âm chính, hệ thống âm cuối và hệ thống thanh điệu
2.2.2 Âm đệm và cách kết hợp âm đệm trong các phương ngữ
2.2.2.1 Âm đệm kết hợp với phụ âm trước nó
Trong PNB và PNT âm đệm /-w-/ có thể kết hợp với hầu hết các
Trang 10phụ âm đầu trừ các phụ âm môi Trong PNN, âm đệm /-w-/ có tác động
mạnh đến các phụ âm hầu và mạc đứng trước nó
2.2.2.2 Âm đệm kết hợp với nguyên âm sau nó
Do khuynh hướng dị hóa, âm đệm /-w-/ không kết hợp với những
nguyên âm tròn môi (u, ô, o, uô) Trong PNB, do ảnh hưởng mạnh của
xu hướng dị hóa, các âm đệm /-w-/ cũng không kết hợp với nguyên âm
[ư] và [ươ] Trong PNT (các tỉnh Nghệ-Tĩnh, Bình-Trị-Thiên), kết hợp
/w/ với â được thay thế bằng sự kết hợp /w/ với ư Ở PNN thì âm -w-
mất đi, chỉ còn ư Nói khác đi, PNN không có âm đệm -w-
2.3 Phụ âm đầu trong phương ngữ tiếng Việt
2.3.1 Hệ thống phụ âm đầu
2.3.1.1 Hệ thống phụ âm đầu PNB
Hệ thống các phụ âm đầu (theo chuẩn chính tả) hiện còn xuất hiện
nhiều ở phương ngữ các tỉnh ở đồng bằng Bắc Bộ như Thái Bình, Nam
Định, Ninh Bình mặc dù không tiêu biểu cho toàn bộ PNB
2.3.1.2 Hệ thống phụ âm đầu PNT
PNT có hệ thống phụ âm đầu khá phong phú, gần như xuất hiện đủ
các phụ âm (theo chuẩn chính tả)
2.3.1.3 Hệ thống phụ âm đầu PNN
Sự khác biệt chủ yếu về hệ thống phụ âm đầu của PNN so với các
phương ngữ khác chính là sự ngạc hóa một số phụ âm [2] Do ảnh
hưởng của yếu tố ngạc hóa trong PNN nên các phụ âm Bj, Dj, Zj bị biến
thành j
2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ
Bắc-Trung-Nam
Từ các phân tích trên, sự khác biệt trong hệ thống các phụ âm đầu
của ba phương ngữ chính PNB, PNT và PNN được thể hiện ở dãy phụ
âm tiền ngạc, phụ âm bật hơi, phụ âm xát hữu thanh
2.4 Hệ thống thanh điệu và các biến thể trong phương
ngữ tiếng Việt
Thanh điệu trong âm tiết tiếng Việt là thành phần đặc biệt, bao trùm
lên toàn bộ âm tiết hoặc ít nhất là thành phần vần của âm tiết Đây là
một đơn vị siêu đoạn [2] Trong tiếng Việt, thanh điệu là một trong
3 NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 3.1 Nhận dạng phương ngữ tiếng Việt với GMM 3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE
ALIZE được phát triển dựa trên mô hình GMM thích hợp cho nhận dạng người nói (định danh người nói) và nhận dạng phương ngữ
3.1.2 Lựa chọn số lượng hệ số MFCC
Để tìm được số tham số MFCC tốt nhất cho nhận dạng, các thử nghiệm được tiến hành lần lượt với số hệ số MFCC tăng dần từ 5 đến 19 trên toàn bộ ngữ liệu VDSPEC, không phân biệt giới tính Kết quả nghiên cứu cho thấy giá trị MFCC = 11 và MFCC = 13 thể hiện các ưu điểm về sự cân bằng về điểm số giữa các phương ngữ đồng thời có điểm
số trung bình khá cao Vì vậy số hệ số MFCC=11 và MFCC=13 được chọn cho các thử nghiệm tiếp theo
3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong
trường hợp kết hợp MFCC với tham số F0
Trong các thử nghiệm này, bộ tham số MFCC được kết hợp với tần
số cơ bản F0, LogF0(t) và các biến thể của F0, LogF0(t) bao gồm: đạo hàm F0 (diffF0(t)), chuẩn hóa F0 theo xu hướng đi lên hoặc đi xuống của F0 mỗi câu (cdF0(t)), chuẩn hóa F0 theo giá trị trung bình F0 cho mỗi câu (F0sbM(t)), chuẩn hóa F0 theo trung bình và độ lệch chuẩn của F0 (F0sbMSD(t)), đạo hàm LogF0(t) (diffLogF0(t)), chuẩn hóa LogF0(t) theo giá trị min LogF0(t) và max LogF0(t) cho mỗi câu (LogF0sbMM(t)), chuẩn hóa LogF0(t) theo trung bình LogF0(t) mỗi câu (LogF0sbM(t)), chuẩn hóa theo LogF0(t) theo trung bình và độ lệch chuẩn của LogF0(t) (LogF0sbMSD(t))
Thử nghiệm được thực hiện theo phương pháp đánh giá chéo (cross-validation) tỷ lệ 1:5 Dữ liệu dùng cho thử nghiệm là độc lập với
dữ liệu dùng huấn luyện mô hình Bộ tham số bao gồm các hệ số
MFCC, F0 và các giá trị chuẩn hóa từ F0 sẽ được sử dụng cho thử
nghiệm nhận dạng dùng mô hình GMM dựa trên công cụ ALIZE Kết quả cho thấy, trong trường hợp số hệ số MFCC bằng 13, tỷ lệ nhận dạng cao nhất đạt được là 70,8% khi kết hợp MFCC với F0 chuẩn hóa theo
trung bình của F0 (F0sbM(t)) Như vậy, khi kết hợp MFCC với biến thể
của F0, tỷ lệ nhận dạng đúng tăng lên 12,2% so với trường hợp chỉ sử