Luận án tiến sĩ nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (tt)

5 Tổng hợp các kết quả đã nghiên cứu, luận án đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói là một ngôn ngữ có phương ngữ rất đa dạng trong đó cần tiến hành nhận dạng phương ng

Trang 1

trường hợp sử dụng mô hình GMM để nhận dạng phương ngữ tiếng

Việt, các tham số formant và dải thông tương ứng kết hợp với biến thể

của F0 đã làm tăng độ chính xác nhận dạng lên 1,4% so với khi chỉ có

đặc trưng MFCC và F0 Bên cạnh đó, để nâng cao hiệu năng nhận dạng

phương ngữ tiếng Việt, luận án khuyến nghị sử dụng biến thể của F0 là

chuẩn hóa F0 theo trung bình F0 trong trường hợp kết hợp với MFCC

Còn trong trường hợp sử dụng formant và dải thông tương ứng, cần sử

dụng F0 chuẩn hóa theo trung bình và độ lệch chuẩn của F0 Cùng với

mô hình GMM, luận án đã nghiên cứu nhận dạng phương ngữ với một

số bộ phân lớp khác nhau như SVM (SMO), MultilayerPerceptrol, IBk,

JRip, PART Từ nghiên cứu này, luận án đã chỉ ra bộ phân lớp

MultilayerPerceptrol cho kết quả nhận dạng tốt nhất phương ngữ tiếng

Việt với tập 384 tham số đặc trưng của tín hiệu tiếng nói (4) Luận án đã

nghiên cứu mô hình HMM nhận dạng tự động tiếng Việt nói trên ngữ

liệu có phương ngữ và kết quả cho thấy vai trò tích cực của việc xác

định được phương ngữ trước khi nhận dạng nội dung tiếng nói Nghiên

cứu này đã được tiến hành theo hai trường hợp Trường hợp thứ nhất:

nhận dạng nội dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng

không dùng thông tin phương ngữ Trường hợp thứ hai: nhận dạng nội

dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng dùng thông tin

phương ngữ Kết quả nghiên cứu cho thấy, trong trường hợp nhận dạng

có thông tin phương ngữ, tỷ lệ lỗi từ tương đối đã giảm 27,9%, tương

đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể Đây là

lần đầu tiên mô hình HMM được sử dụng nhận dạng tự động tiếng Việt

nói trên ngữ liệu có phương ngữ (5) Tổng hợp các kết quả đã nghiên

cứu, luận án đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói

là một ngôn ngữ có phương ngữ rất đa dạng trong đó cần tiến hành nhận

dạng phương ngữ trước khi nhận dạng nội dung nhằm thực sự nâng cao

hiệu năng cho hệ thống nhận dạng tiếng Việt nói

Định hướng phát triển:

Từ các kết quả nghiên cứu đã được thực hiện, luận án đề xuất các

kiến nghị sau nhằm mở rộng hướng nghiên cứu hiện có: (1) Bổ sung

các phương ngữ khác của tiếng Việt vào bộ ngữ liệu VDSPEC (2)

Nghiên cứu đặc trưng theo phương thức phát âm của các phương ngữ

tiếng Việt đã được bổ sung (3) Xây dựng mô hình nhận dạng tiếng Việt

theo hướng ngày càng hoàn thiện nhằm phù hợp với tính đa dạng của

phương ngữ tiếng Việt

MỞ ĐẦU

1 Lý do chọn đề tài

Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính Trong đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống

Trên thế giới đã có nhiều nghiên cứu về nhận dạng tiếng nói Không chỉ dừng lại ở nghiên cứu mà nhận dạng tiếng nói được triển khai trong các sản phẩm ứng dụng Đối với nhận dạng tiếng Việt, mặc dù cũng có nhiều nghiên cứu và đã đạt được các kết quả nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng Ngoài các khó khăn trong nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt Tiếng Việt có nhiều phương ngữ khác nhau Sự khác biệt giữa các phương ngữ gây ra không ít khó khăn cho chính con người khi giao tiếp với các phương ngữ khác nhau Sự khác biệt đó cũng ảnh hưởng tới các hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng tiếng Việt nói Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể sử dụng

mô hình nhận dạng đã được xây dựng phù hợp với phương ngữ đó nhằm cải thiện hiệu năng hệ thống nhận dạng Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” để nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác người-máy

Trang 2

2 Mục tiêu nghiên cứu của luận án

Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói

cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ

đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật

nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói

nhằm nâng cao hiệu năng nhận dạng

3 Nhiệm vụ nghiên cứu của luận án

Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính

sau: Nghiên cứu đặc điểm phương ngữ tiếng Việt, đánh giá sự ảnh

hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói,

xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu

nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói, nghiên

cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp

để nhận dạng phương ngữ tiếng Việt và mô hình hệ thống nhận dạng tự

động tiếng Việt nói theo phương ngữ chính của tiếng Việt

4 Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương

ngữ tiếng Việt Từ kết quả nhận dạng phương ngữ, xây dựng mô hình

nhận dạng tiếng Việt nói theo phương ngữ Mô hình mới sử dụng thông

tin về phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng

Việt nói Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập trung

theo hướng xử lý tín hiệu mà không sử dụng yếu tố từ địa phương

Phương ngữ tiếng Việt rất phong phú Về mặt địa lý, xét theo phương

thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã Tuy nhiên

trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ

giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của

tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng Hà

Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và

phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện)

Trong hệ thống mới nhận dạng tiếng Việt nói, nhận dạng phương ngữ

được xem như bước tiền xử lý nên cần được tiến hành trước khi nhận

dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói Vì

vậy, thao tác của hệ thống nhận dạng phương ngữ không cần thiết phải

khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông

tin về phương thức phát âm của phương ngữ Điều này làm cho việc

Bắc, Trung, Nam trong khuôn khổ của luận án Luận án thực hiện các nghiên cứu nhận dạng phương ngữ tiếng Việt, đề xuất bộ tham số bao gồm 13 hệ số MFCC kết hợp với biến thể của F0 phù hợp với mô hình nhận dạng GMM Kết quả nhận dạng được cải thiện khi kết hợp các tham số formant, dải thông tương ứng và biến thể của F0 Bên cạnh đó, luận án đã thực hiện các nghiên cứu một số bộ phân lớp như SVM (SMO), IBk, JRip, MultilayerPerceptron, PART nhận dạng phương ngữ tiếng Việt Kết quả nghiên cứu cho thấy các bộ phân lớp này cũng nhận dạng hiệu quả phương ngữ tiếng Việt

Trên cơ sở các kết quả nghiên cứu, luận án đề xuất mô hình mới nhận dạng tiếng Việt nói trong đó có nhận dạng phương ngữ Trong mô hình này, tiếng nói được nhận dạng phương ngữ trước khi nhận dạng nội dung Thông tin về phương ngữ giúp hệ thống nhận dạng lựa chọn mô hình huấn luyện phù hợp với phương ngữ nhằm đạt được hiệu năng nhận dạng tốt hơn so với trường hợp không có thông tin phương ngữ

Đóng góp khoa học của luận án:

Các kết quả nghiên cứu mới và đóng góp khoa học của luận án như sau: (1) Luận án đã xây dựng được bộ ngữ liệu tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói Đây là bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba phương ngữ chính của tiếng Việt mà đại diện là giọng Hà Nội cho phương ngữ Bắc, giọng Huế cho phương ngữ Trung và giọng Thành phố Hồ Chí Minh cho phương ngữ Nam Ngữ liệu tiếng Việt VDSPEC được ghi âm trực tiếp từ người nói theo văn bản đã được chuẩn bị sẵn và

tổ chức theo chủ đề (2) Kết quả nghiên cứu đặc điểm của phương ngữ tiếng Việt theo phương diện xử lý tín hiệu, các yếu tố của phương ngữ ảnh hưởng tới hiệu năng của các hệ thống nhận dạng tiếng Việt nói cũng

là những đóng góp của luận án Luận án đã đi sâu phân tích các đặc điểm về phương thức phát âm của ba phương ngữ đại điện là Bắc, Trung

và Nam Kết quả nghiên cứu đã chỉ ra các khác biệt về phương thức phát

âm theo phương diện xử lý tín hiệu, đặc biệt là phương thức phát âm khác nhau đối với các thanh điệu và sự mũi hóa khác nhau của các phương ngữ (3) Một trong các đóng góp nữa của luận án là nhận dạng phương ngữ tiếng Việt sử dụng mô hình GMM cùng với việc đề xuất lựa chọn bộ tham số thích hợp cho mô hình bao gồm số thành phần Gauss, các đặc trưng MFCC, tần số cơ bản F0, các biến thể của F0, formant và dải thông tương ứng Kết quả nghiên cứu cho thấy, trong

Trang 3

thông tin phương ngữ với lỗi từ trong trường hợp tốt nhất chỉ là 9,37%

Sử dụng mô hình mới nhận dạng tiếng Việt nói đã được đề xuất, kết quả

cho thấy hiệu năng của hệ thống nhận dạng tiếng Việt nói được cải thiện

đáng kể khi có thông tin phương ngữ Tỷ lệ lỗi từ tương đối đã giảm

được 27,9%

KẾT LUẬN VÀ KIẾN NGHỊ Kết luận:

Luận án đã hoàn thành các nội dung nghiên cứu, đáp ứng mục tiêu

đặt ra ban đầu là "Nghiên cứu nhận dạng tiếng Việt nói cho các vùng

phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng

của hệ thống nhận dạng, đề xuất giải pháp kỹ thuật nhận dạng phương

ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu

quả nhận dạng" Tiếng Việt có phương ngữ đa dạng, phong phú Các

nghiên cứu về phương ngữ tiếng Việt đã được thực hiện song chủ yếu

theo phương diện ngôn ngữ Nghiên cứu theo phương diện xử lý tín hiệu

đối với phương ngữ tiếng Việt hầu như còn rất ít được công bố Phương

ngữ tiếng Việt có thể được phân chia thành nhiều vùng khác nhau Theo

ý kiến của đa phần các nhà nghiên cứu về phương ngữ tiếng Việt, có thể

phân chia phương ngữ tiếng Việt làm ba vùng chính là phương ngữ Bắc,

phương ngữ Trung và phương ngữ Nam Sự phân chia này chỉ mang

tính tương đối vì sự khác nhau giữa các phương ngữ có thể xuất hiện

ngay giữa các làng xã liền kề và thay đổi theo vị trí địa lý Luận án đã

tiến hành nghiên cứu sự khác biệt giữa ba phương ngữ chính của tiếng

Việt theo phương thức phát âm, ứng dụng trong hệ thống nhận dạng tự

động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng của hệ thống

Để thực hiện các nghiên cứu nhận dạng phương ngữ, cần thiết phải có

ngữ liệu phương ngữ đáp ứng cho yêu cầu chuyên biệt này Luận án đã

tiến hành xây dựng bộ ngữ liệu phương ngữ tiếng Việt mới VDSPEC

dùng cho các nghiên cứu về nhận dạng phương ngữ cũng như nhận dạng

tiếng Việt nói Bộ ngữ liệu VDSPEC được ghi âm trực tiếp từ người nói

theo văn bản đã được chuẩn bị từ trước và phân chia theo chủ đề Tiếng

nói được ghi âm từ ba giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại

diện cho ba vùng phương ngữ chính là phương ngữ Bắc, phương ngữ

Trung và phương ngữ Nam Các phân tích trên bộ ngữ liệu VDSPEC

chỉ ra sự khác biệt trong quy luật biến thiên tần số cơ bản F0 cho mỗi

thanh điệu và sự mũi hóa ở các phương ngữ Trung, Nam Những khác

biệt này có thể được sử dụng làm cơ sở để phân biệt ba phương ngữ

nhận dạng phương ngữ hoạt động linh hoạt mà không phụ thuộc vào nội dung cần nhận dạng Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ đồng thời đề xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng Việt nói

5 Ý nghĩa khoa học và thực tiễn của luận án

Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho mở rộng nghiên cứu về phương ngữ tiếng Việt, đặc biệt là về phương diện xử lý tín hiệu Từ kết quả nhận dạng phương ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói theo phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói, góp phần hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt nói

6 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý

thuyết với nghiên cứu thực nghiệm Về lý thuyết: luận án nghiên cứu

tổng quan về phương ngữ tiếng Việt, các mô hình nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo,

giáo trình liên quan Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng

Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói; thực hiện các nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ

7 Kết quả nghiên cứu, đóng góp của luận án

Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau: Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ chính của tiếng Việt theo phương diện phát âm về mặt xử

lý tín hiệu, xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt nói; tiến hành một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương ngữ tiếng Việt, đề xuất mô hình nhận dạng phương ngữ tiếng Việt cùng với bộ tham số phù hợp cho mô hình nhận dạng

Trang 4

phương ngữ tiếng Việt và mô hình nhận dạng tiếng Việt nói dùng thông

tin phương ngữ nhằm cải thiện hiệu năng của hệ thống nhận dạng

8 Nội dung luận án

Nội dung chính của luận án được trình bày trong 4 chương như sau:

Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương

ngữ; Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng

phương ngữ tiếng Việt Chương này đề cập các nghiên cứu tổng quan về

phương ngữ tiếng Việt, phương pháp xây dựng bộ ngữ liệu dùng cho

nghiên cứu nhận dạng phương ngữ tiếng Việt và kết quả phân tích đã đạt

được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ

liệu đã xây dựng Chương 3: Nhận dạng phương ngữ tiếng Việt Nội

dung chương này tập trung vào nghiên cứu các mô hình nhận dạng

phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho mỗi mô

hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng

Việt sử dụng các mô hình và tham số đã đề xuất Chương 4: Cải thiện

hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ Chương 4

trình bày mô hình nhận dạng tiếng Việt nói dựa trên HMM sử dụng các

thông tin về phương ngữ nhằm cải thiện hiệu năng nhận dạng Cuối

cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được,

hướng mở rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học

của luận án

1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ

NHẬN DẠNG PHƯƠNG NGỮ

1.1 Nhận dạng tiếng nói

1.1.1 Tổng quan về nhận dạng tiếng nói

Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống

hiểu được tiếng nói của con người Nhờ hệ thống này, tiếng nói có thể

được chuyển đổi tự động thành văn bản, hoặc tự động điều khiển các

quá trình khác [178]

1.1.2 Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận

dạng tiếng nói

Nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm qua

Có nhiều mô hình nhận dạng đã được đề xuất Trong đó, mô hình HMM

Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói

sử dụng thông tin phương ngữ

4.2.2 Nhận dạng tiếng Việt nói khi có thông tin phương ngữ

Nghiên cứu được thực hiện trên ngữ liệu VDSPEC sử dụng thông tin về phương ngữ Việc huấn luyện mô hình âm học được tiến hành độc lập cho từng phương ngữ Nhận dạng nội dung được thực hiện trên cơ

sở đã biết về thông tin phương ngữ Kết quả nhận dạng tốt nhất với tỷ lệ lỗi từ trung bình là 6,76% cho phương pháp huấn luyện tri3b Phương pháp huấn luyện này cũng cho kết quả nhận dạng tốt nhất khi chưa có thông tin phương ngữ (9,37%) Tỷ lỗi từ khi có thông tin phương ngữ giảm 2,61% so với khi chưa có thông tin phương ngữ Tỷ lệ lỗi từ tương đối (relative word error rate) đã giảm được 27,9% Điều này tương đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể

4.3 Kết chương

Kết quả sử dụng HMM nhận dạng tiếng Việt nói khi chưa sử dụng

Trang 5

Hình 4.9: Mô hình nhận dạng tự động tiếng nói

4.1.2.2 Bộ công cụ nhận dạng Kaldi

Kaldi là một bộ công cụ nhận dạng tiếng nói mã nguồn mở của

trường đại học Johns Hopkins được xây dựng từ năm 2009

4.1.2.3 Kaldi nhận dạng tiếng Việt nói theo ba phương ngữ chính

Nghiên cứu dùng Kaldi nhận dạng phương ngữ tiếng Việt trên bộ

ngữ liệu VDSPEC, chưa dùng thông tin phương ngữ Thử nghiệm nhận

dạng được tiến hành bằng phương pháp đánh giá chéo (5:1) Kết quả

nhận dạng tốt nhất ứng với phương pháp huấn luyện tri3b trong đó tỷ lệ

lỗi từ là 9,37%

4.2 Cải thiện hiệu năng nhận dạng tiếng Việt nói thông

qua sử dụng thông tin phương ngữ

4.2.1 Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông

tin phương ngữ

Luận án đề xuất mô hình mới nhận dạng tiếng Việt nói được mô tả

trên sơ đồ Hình 4.11 Tiếng nói trước khi nhận dạng được đưa qua bước

tiền xử lý nhận dạng phương ngữ Hệ thống căn cứ trên kết quả nhận

dạng phương ngữ để có điều chỉnh lựa chọn mô hình thích hợp

với nền tảng chính không có nhiều thay đổi nhưng việc mô hình hóa, các

kỹ thuật cài đặt cụ thể liên tục được cải tiến Vì thế, HMM vẫn giữ được

vị trí quan trọng trong các hệ thống nhận dạng tiếng nói Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được nhưng bước tiến quan trọng Các thuật toán tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn

1.1.3 Các thách thức đối với nhận dạng tiếng nói

Thách thức lớn đối với nhận dạng tự động tiếng nói là xử lý được các biến đổi trong tiếng nói Tiếng nói được phát âm sẽ bị biến đổi bởi nhiều yếu tố khác nhau, do bản thân người nói, do môi trường tác động Thách thức lớn khác đối với nhận dạng tự động tiếng nói là phải giải quyết bài toán nhận dạng nhầm, khi mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng không hoàn toàn theo đúng với tiếng nói đã được huấn luyện

1.1.4 Phân loại nhận dạng tiếng nói

Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cách khác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói, đặc điểm liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thể được chia làm 3 loại gồm

hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích nghi người nói Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếng nói huấn luyện và nhận dạng sẽ gồm bốn loại như sau: hệ thống nhận dạng tiếng nói theo từ rời rạc không liên kết về nghĩa với nhau, hệ thống nhận dạng tiếng nói có các từ rời rạc liên kết về nghĩa với nhau, hệ thống nhận dạng tiếng nói liên tục, hệ thống nhận

dạng tiếng nói tự nhiên Hệ thống nhận dạng tiếng nói cũng có thể phân

loại theo số lượng từ vựng Theo cách này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm hệ thống nhận dạng với từ vựng ít,

hệ thống nhận dạng tiếng nói với từ vựng trung bình và hệ thống nhận dạng tiếng nói với từ vựng lớn

1.2 Nhận dạng phương ngữ

Nhận dạng phương ngữ dựa trên tín hiệu tiếng nói là một lĩnh vực

Trang 6

của xử lý tín hiệu tiếng nói thu hút nhiều nhà khoa học tham gia

Phương pháp tiếp cận của nhận dạng phương ngữ cũng giống như các

phương pháp được dùng trong nhận dạng ngôn ngữ

1.2.1 Các mô hình nhận dạng phương ngữ

1.2.1.1 Mô hình ràng buộc âm vị

Với mỗi ngôn ngữ, các từ đều được cấu thành từ một tập các âm vị

Các mô hình nhận dạng dựa trên ràng buộc âm vị (Phonotactic

Modeling) được xây dựng được trên các bộ nhận dạng âm vị Bộ nhận

dạng âm vị sẽ tiến hành phân tích tiếng nói cần nhận dạng thành các âm

vị

1.2.1.2 Mô hình âm học

Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp

cận dựa trên mô hình ràng buộc âm vị là sử dụng mô hình âm học

(Acoustic Modeling) Cách tiếp cận này sử dụng các mô hình nhận dạng

khác nhau trong đó có mô hình hỗn hợp Gauss (Gaussian Mixture

Model – GMM), SVM, ANN… Các mô hình này dùng các tham số là

các đặc trưng của tiếng nói cần nhận dạng như phổ, ngôn điệu, tần số cơ

bản,

1.2.2 Nhận dạng phương ngữ theo các phương diện khác nhau

1.2.2.1 Theo phương diện ngôn ngữ học

Nghiên cứu nhận dạng phương ngữ được bắt đầu từ khá sớm

Những ghi nhận đầu tiên có thể kể đến là các khảo sát để nhận dạng các

vùng phương ngữ của George Wenker vào đầu năm 1877 Việc nhận

dạng phương ngữ có thể dựa trên nguyên âm, phụ âm, từ vựng, hệ thống

các từ, các đặc trưng âm học, âm vị,

1.2.2.2 Theo phương diện của phương pháp nhận dạng

Nhiều phương pháp đã được sử dụng trong nhận dạng ngôn ngữ

cũng được sử dụng cho nhận dạng phương ngữ trong đó có thể kể đến

một số phương pháp như GMM, HMM, SVM (Support Vector

Machines), NN (Neural Networks), DNN (Deep Neural Networks)

1.3 Nghiên cứu nhận dạng tiếng nói và nhận dạng

phương ngữ tiếng Việt

Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên

nhận dạng cho hệ thống nhận dạng phương ngữ tiếng Việt Lựa chọn kết hợp bộ tham số MFCC bao gồm 13 hệ số với thông tin F0 cho kết quả nhận dạng tốt trong mô hình GMM Bên cạnh đó, thử nghiệm cho thấy kết hợp bộ tham số bao gồm formant, dải thông tương ứng và tham số F0 cũng cho kết quả nhận dạng tốt Ngoài mô hình GMM, kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng các bộ phân lớp SVM (SMO), MultilayerPerceptron, IBk, JRip, PART cho thấy các bộ phân lớp này có thể ứng dụng hiệu quả trong nhận dạng phương ngữ tiếng Việt

4 CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 4.1 HMM nhận dạng tiếng Việt nói

4.1.1 Mô hình HMM

HMM xuất phát từ các quá trình và chuỗi Markov do Andrey Andreyevich Markov là một nhà toán học Nga đề xuất vào năm 1906 Năm 1913, Markov đã áp dụng lý thuyết của mình để tính toán xác suất

xuất hiện của các từ trong tác phẩm “Eugene Onegin” của Puskin [23]

Trong những năm 60 của thế kỷ trước, L.E Baum và cộng sự đã có các công trình nghiên cứu về mặt lý thuyết của HMM [93] và vào những năm 70, HMM được J.K Baker ở CMU [76], F Jelinek và cộng sự ở IBM ứngdụng để xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói [48]

4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính

4.1.2.1 Hệ thống nhận dạng tự động tiếng nói

Mô hình hệ thống nhận dạng tự động tiếng nói được thể hiện trên Hình 4.9 Hệ thống nhận dạng bao gồm 2 giai đoạn là: huấn luyện mô hình và nhận dạng

Trang 7

3 phương ngữ là 99,5% (cao hơn so với trường hợp k=1 Điều này cho

thấy kết quả nhận dạng đúng có tăng khi tăng số láng giềng gần nhất

3.4 Nhận dạng phương ngữ tiếng Việt với bộ phân lớp

MultilayerPerceptron

3.4.1 Bộ phân lớp MultilayerPerceptron

Với Weka [69], MultilayerPerceptron là bộ phân lớp sử dụng mạng

nơ-ron lan truyền ngược lỗi để huấn luyện

3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt

Nghiên cứu này sử dụng 384 tham số như đã trình bày ở mục 3.2.3

Kết quả nhận dạng trung bı̀nh cả 3 phương ngữ là 99,5% Bộ phân lớp

này cho tỷ lệ nhận dạng đúng cao

3.5 JRip nhận dạng phương ngữ tiếng Việt

3.5.1 Bộ phân lớp JRip

JRip là thuật giải RIPPER (Repeated Incremental Pruning to

Produce Error Reduction) để suy diễn luật một cách hiệu quả và nhanh

do William W Cohen đề xuất, là phiên bản tối ưu hóa của IREP [30]

3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip

JRip cũng sử dụng 384 tham số Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3

phương ngữ là 93,3%

3.6 Nhận dạng phương ngữ tiếng Việt với PART

3.6.1 Bộ phân lớp PART

Bộ phân lớp PART được dùng để có các luật từ các cây quyết định

riêng phần đã được xây dựng bằng cách sử dụng J4.8 J4.8 là cài đặt mã

nguồn mở Java của thuật giải C4.5 và thuật giải này được dùng để tạo

cây quyết định do Ross Quinlan phát triển [133]

3.6.2 Kết quả dùng PART nhận dạng phương ngữ tiếng Việt

Bộ 384 tham số cũng được sử dụng cho PART như trong các

trường hợp SMO, IBk, MultilayerPerceptron và JRip Tỷ lê ̣ nhâ ̣n da ̣ng

đúng trung bı̀nh của 3 phương ngữ đa ̣t 93%

Mô hình GMM có khả năng ứng dụng tốt vào nhận dạng phương

ngữ tiếng Việt Thành phần F0 có ý nghĩa trong việc nâng cao hiệu quả

cứu trong và ngoài nước thực hiện như một số nghiên cứu nhận dạng từ rời rạc, số lượng từ vựng hạn chế [31, 120] Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếng Việt được thực hiện ở [121] Gần đây, có các nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nói có số lượng từ vựng lớn [115, 116, 117, 118], Nghiên cứu trong [156] là nhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ công cụ HTK trên cơ sở dữ liệu âm thanh thu từ đài phát thanh VOV Hệ thống nhận dạng tiếng Việt nói cũng đã được thực hiện bằng hệ nhúng và hoạt động trên thời gian thực [4] Về phương diện ngôn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiều nghiên cứu được tổng hợp trong công trình của tác giả Hoàng Thị Châu [2], các tác giả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171] Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu còn rất hạn chế

1.4 Một số mô hình nhận dạng 1.4.1 Mô hình GMM

Mô hình hỗn hợp Gauss đa thể hiện (multi-variate) GMM được biết đến là một trong các mô hình có khả năng phân lớp rất tốt đã được sử dụng trong các nghiên cứu về nhận dạng người nói [80], định danh các phương ngữ tiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng Hindi [146], nhận dạng ngôn ngữ [25, 160] Một mô hình hỗn hợp

Gauss đa thể hiện là tổng có trọng số của M thành phần mật độ Gauss

như biểu thức (1.3):

Trong (1.3), X là véc tơ dữ liệu (chứa các tham số của đối tượng

cần biểu diễn), πi, i=1, , M là các trọng số của hỗn hợp và ( | , )

là các hàm mật độ Gauss thành phần

1.4.2 Bộ phân lớp SVM

SVM (Suport Vector Machine) cơ bản là một bộ phân lớp nhị phân

phi tuyến có khả năng đoán nhận liệu một véc tơ vào x thuộc về lớp 1

Trang 8

(khi đó đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1) Thuật

giải phân lớp này lần đầu tiên được đề xuất năm 1992 [21]

1.4.3 Mạng nơ ron nhân tạo

Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường

gọi tắt là mạng nơ-ron (Neural network) là mô hình toán học hay hệ

thống xử lý thông tin được xây dựng dựa trên cơ sở tổng quát hóa mô

hình toán học của nơ-ron thần kinh sinh học và phỏng theo cơ chế làm

việc của bộ não người

Nhận dạng tiếng nói nói chung và tiếng Việt nói nói riêng đã được

nhiều nhà khoa học trong và ngoài nước nghiên cứu và công bố kết quả

Các nghiên cứu về phương ngữ tiếng Việt đã được thực hiện nhiều song

chủ yếu trên phương diện ngôn ngữ học Về phương diện xử lý tín hiệu,

nghiên cứu về phương ngữ tiếng Việt hầu như còn rất ít được công bố

Mặt khác, phương ngữ tiếng Việt lại rất đa dạng và phong phú Việc

định danh đúng phương ngữ cho hệ thống nhận dạng tiếng Việt sẽ nâng

cao hiệu năng của hệ thống nhận dạng

2 XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU

NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT

2.1 Tổng quan phương ngữ tiếng Việt

2.1.1 Phương ngữ và phân vùng phương ngữ tiếng Việt

Phương ngữ tiếng Việt có thể được phân chia thành các vùng Việc

phân vùng phương ngữ tiếng Việt đã được nhiều nhà nghiên cứu đề cập

đến và có các ý kiến khác nhau về cách phân chia Số đông các nhà

nghiên cứu cho rằng tiếng Việt được chia làm 3 vùng phương ngữ chính

là phương ngữ Bắc (các tỉnh phía Bắc đến Thanh Hóa), phương ngữ

Trung (từ Thanh Hóa vào đến Đèo Hải Vân) và phương ngữ Nam (từ

Đèo Hải Vân vào các tỉnh thành phía Nam) Việc phân chia các vùng

phương ngữ như trên chỉ mang tính tương đối

Đây là dữ liê ̣u thống kê của mỗi file tiếng nói Với mỗi file tiếng nói tương ứng với 384 tham số được trích chọn

3.2.2.3 Dùng đầy đủ 384 tham số đặc trưng

Ngữ liệu phương ngữ dùng cho nhận dạng được chia theo phương pháp đánh giá chéo với tỷ lệ 1:10 Thời gian huấn luyện mô hình hết 148,13 giây Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3 phương ngữ là 96,9%

3.2.2.4 Trường hợp không có thông tin liên quan trực tiếp F0

Trong trường hợp này, 12 hê ̣ số liên quan trực tiếp F0 được loa ̣i khỏi tâ ̣p 384 tham số đặc trưng Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3 phương ngữ là 96,7% Kết quả này thấp hơn so với trường hợp có sử

du ̣ng F0 ở mục 3.2.3.3

3.2.2.5 Trường hợp chı̉ dùng các tham số liên quan trực tiếp F0

Đây là trường hợp chı̉ cho ̣n 12 tham số đặc trưng liên quan trực tiếp F0 để huấn luyê ̣n và nhận dạng Tỷ lệ nhận dạng đúng trung bı̀nh của 3 phương ngữ là 52,2% Kết quả này cho thấy thông tin F0 giúp ích cho nhận dạng phương ngữ

3.2.2.6 Chı̉ dùng tham số đặc trưng liên quan trực tiếp MFCC

Thử nghiê ̣m này chı̉ cho ̣n 12 tham số liên quan trực tiếp với MFCC Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bình là 75,8% cho ba phương ngữ Kết quả này cho thấy các tham số đặc trưng cho MFCC cũng đóng vai trò khá quan trọng trong nhận dạng phương ngữ

3.3 IBk nhận dạng phương ngữ tiếng Việt 3.3.1 Bộ phân lớp IBk

Bộ phân lớp IBk là dẫn xuất của phân lớp IBL (Instance Based

Learning) IBk là bộ phân lớp k láng giềng gần nhất (Lazy

k-Nearest-Neighbor Classifier) [176] với số láng giềng cố định [22] sử dụng cùng một độ đo khoảng cách

3.3.2 Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk

Sử dụng 384 tham số đặc trưng như đã thực hiện ở 3.2 Phương pháp đánh giá chéo với tỷ lệ 1:10 đã được áp dụng cho bộ ngữ liệu

VDSPEC Có hai giá trị k = 1 và k = 5 đã được sử dụng Với trường hợp

k = 1, tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh cho 3 phương ngữ là 99,1% Kết quả thử nghiệm nhận dạng với k = 5 có tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh cho

Trang 9

dụng MFCC (58,6%) Các thử nghiệm cho thấy nếu số lượng các hệ số

MFCC chọn bằng 13 thì mô hình GMM thích hợp dùng cho nhận dạng

phương ngữ tiếng Việt sẽ có tỷ lệ nhận dạng đúng cao nhất

3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường

hợp kết hợp formant, dải thông tương ứng và tham số F0

Các tham số đưa vào mô hình GMM với số thành phần Gauss

bằng 20 bao gồm: formant, dải thông tương ứng, F0 và các giá trị

chuẩn hóa từ F0 Tỷ lệ nhận dạng cao nhất đạt 72,2% khi kết hợp với

F0sbMSD(t) Tỷ lệ nhận dạng này cao hơn so với tỷ lệ nhận dạng cao

nhất (70,8%) đạt được trong trường hợp kết hợp sử dụng tham số

MFCC và F0 chuẩn hóa theo trung bình (F0sbM(t)) như đã trình bày

ở phần trên

3.1.5 Ảnh hưởng của số lượng thành phần Gauss đối với hiệu

năng nhận dạng phương ngữ tiếng Việt

Để khảo sát ảnh hưởng của số lượng thành phần Gauss đối với hiệu

năng nhận dạng phương ngữ tiếng Việt, số lượng hệ số MFCC bằng 13 kết

hợp với tham số F0 được chuẩn hóa theo trung bình F0 (F0sbM(t)) đã được

lựa chọn Số lượng thành phần Gauss (M) được thay đổi từ 20 (baseline)

đến 4096 Nhìn chung, kết quả cho thấy khi tăng M thì hiệu năng nhận dạng

cũng tăng theo Tỷ lệ nhận dạng cao nhất đạt 75,1% khi M bằng 2048

3.2 SVM nhận dạng phương ngữ tiếng Việt

3.2.1 Bộ phân lớp SMO

SMO (Sequential Minimal Optimization Algorithm) là thuật giải tối

ưu hóa cực tiểu lần lượt được dùng để giải bài toán quy hoạch toàn phương

(Quadratic Programming - QP) phát sinh trong huấn luyện SVM [85]

SMO phân giải bài toán PQ tổng thể thành bài các bài toán con [130]

3.2.2 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO

3.2.2.1 Bộ phân lớp SMO trong Weka

Công cu ̣ dùng thử nghiê ̣m là Weka Weka gồm tập hợp các thuật

giải học máy dùng cho khai phá dữ liệu do Đại học Waikato, New

Zealand phát triển trong đó có bộ phân lớp SMO [116]

3.2.2.2 Trích chọn đặc trưng

Dữ liê ̣u dùng cho huấn luyện và nhận dạng được trı́ch cho ̣n đă ̣c

trưng bao gồm 384 hê ̣ số do bộ công cu ̣ OpenSMILE [46] thực hiện

2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng

Việt

2.1.2.1 Phương ngữ Bắc

Phương ngữ Bắc (PNB) có một số đặc điểm chính như sau [2]: có

đủ 6 thanh điệu, đối lập từng đôi về âm vực và âm điệu; có 20 phụ âm đầu; Có đủ các âm cuối ghi trong chính tả

2.1.2.2 Phương ngữ Trung

Phương ngữ Trung (PNT) có một số đặc điểm chính: có 5 thanh điệu, ít hơn một thanh điệu so với PNB; Có 23 phụ âm đầu, hơn PNB 3 phụ âm uốn lưỡi ghi trong chính tả là s, r, tr

2.1.2.3 Phương ngữ Nam

Các đặc điểm chính của PNN bao gồm: chỉ có 5 thanh điệu, thanh ngã trở thành thanh hỏi; Có 23 phụ âm đầu

2.1.3 Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng

phương ngữ tiếng Việt

Ngoài sự khác biệt về ngữ âm, các phương ngữ tiếng Việt còn khác biệt khá lớn về từ vựng-ngữ nghĩa [2] Trong PNN có nhiều từ vay mượn từ tiếng Chăm, tiếng Khơme Trong khi PNB có nhiều từ vay mượn từ tiếng Thái Có những từ Hán-Việt được sử dụng ở PNB thì PNN lại dùng từ thuần Việt và ngược lại

2.2 Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt 2.2.1 Âm tiết và âm vị trong tiếng Việt

2.2.1.1 Âm tiết

Tiếng Việt là một ngôn ngữ đơn âm tiết [2, 3] Mỗi một âm tiết được phát âm tách rời nhau và được thể hiện bằng một chữ viết Âm tiết tiếng Việt có một số đặc điểm: Có tính độc lập cao, có khả năng biểu hiện ý nghĩa, có cấu trúc chặt chẽ

2.2.1.2 Âm vị

Tiếng Việt có năm hệ thống âm vị: hệ thống âm đầu, hệ thống âm đệm, hệ thống âm chính, hệ thống âm cuối và hệ thống thanh điệu

2.2.2 Âm đệm và cách kết hợp âm đệm trong các phương ngữ

2.2.2.1 Âm đệm kết hợp với phụ âm trước nó

Trong PNB và PNT âm đệm /-w-/ có thể kết hợp với hầu hết các

Trang 10

phụ âm đầu trừ các phụ âm môi Trong PNN, âm đệm /-w-/ có tác động

mạnh đến các phụ âm hầu và mạc đứng trước nó

2.2.2.2 Âm đệm kết hợp với nguyên âm sau nó

Do khuynh hướng dị hóa, âm đệm /-w-/ không kết hợp với những

nguyên âm tròn môi (u, ô, o, uô) Trong PNB, do ảnh hưởng mạnh của

xu hướng dị hóa, các âm đệm /-w-/ cũng không kết hợp với nguyên âm

[ư] và [ươ] Trong PNT (các tỉnh Nghệ-Tĩnh, Bình-Trị-Thiên), kết hợp

/w/ với â được thay thế bằng sự kết hợp /w/ với ư Ở PNN thì âm -w-

mất đi, chỉ còn ư Nói khác đi, PNN không có âm đệm -w-

2.3 Phụ âm đầu trong phương ngữ tiếng Việt

2.3.1 Hệ thống phụ âm đầu

2.3.1.1 Hệ thống phụ âm đầu PNB

Hệ thống các phụ âm đầu (theo chuẩn chính tả) hiện còn xuất hiện

nhiều ở phương ngữ các tỉnh ở đồng bằng Bắc Bộ như Thái Bình, Nam

Định, Ninh Bình mặc dù không tiêu biểu cho toàn bộ PNB

2.3.1.2 Hệ thống phụ âm đầu PNT

PNT có hệ thống phụ âm đầu khá phong phú, gần như xuất hiện đủ

các phụ âm (theo chuẩn chính tả)

2.3.1.3 Hệ thống phụ âm đầu PNN

Sự khác biệt chủ yếu về hệ thống phụ âm đầu của PNN so với các

phương ngữ khác chính là sự ngạc hóa một số phụ âm [2] Do ảnh

hưởng của yếu tố ngạc hóa trong PNN nên các phụ âm Bj, Dj, Zj bị biến

thành j

2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ

Bắc-Trung-Nam

Từ các phân tích trên, sự khác biệt trong hệ thống các phụ âm đầu

của ba phương ngữ chính PNB, PNT và PNN được thể hiện ở dãy phụ

âm tiền ngạc, phụ âm bật hơi, phụ âm xát hữu thanh

2.4 Hệ thống thanh điệu và các biến thể trong phương

ngữ tiếng Việt

Thanh điệu trong âm tiết tiếng Việt là thành phần đặc biệt, bao trùm

lên toàn bộ âm tiết hoặc ít nhất là thành phần vần của âm tiết Đây là

một đơn vị siêu đoạn [2] Trong tiếng Việt, thanh điệu là một trong

3 NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 3.1 Nhận dạng phương ngữ tiếng Việt với GMM 3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE

ALIZE được phát triển dựa trên mô hình GMM thích hợp cho nhận dạng người nói (định danh người nói) và nhận dạng phương ngữ

3.1.2 Lựa chọn số lượng hệ số MFCC

Để tìm được số tham số MFCC tốt nhất cho nhận dạng, các thử nghiệm được tiến hành lần lượt với số hệ số MFCC tăng dần từ 5 đến 19 trên toàn bộ ngữ liệu VDSPEC, không phân biệt giới tính Kết quả nghiên cứu cho thấy giá trị MFCC = 11 và MFCC = 13 thể hiện các ưu điểm về sự cân bằng về điểm số giữa các phương ngữ đồng thời có điểm

số trung bình khá cao Vì vậy số hệ số MFCC=11 và MFCC=13 được chọn cho các thử nghiệm tiếp theo

3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong

trường hợp kết hợp MFCC với tham số F0

Trong các thử nghiệm này, bộ tham số MFCC được kết hợp với tần

số cơ bản F0, LogF0(t) và các biến thể của F0, LogF0(t) bao gồm: đạo hàm F0 (diffF0(t)), chuẩn hóa F0 theo xu hướng đi lên hoặc đi xuống của F0 mỗi câu (cdF0(t)), chuẩn hóa F0 theo giá trị trung bình F0 cho mỗi câu (F0sbM(t)), chuẩn hóa F0 theo trung bình và độ lệch chuẩn của F0 (F0sbMSD(t)), đạo hàm LogF0(t) (diffLogF0(t)), chuẩn hóa LogF0(t) theo giá trị min LogF0(t) và max LogF0(t) cho mỗi câu (LogF0sbMM(t)), chuẩn hóa LogF0(t) theo trung bình LogF0(t) mỗi câu (LogF0sbM(t)), chuẩn hóa theo LogF0(t) theo trung bình và độ lệch chuẩn của LogF0(t) (LogF0sbMSD(t))

Thử nghiệm được thực hiện theo phương pháp đánh giá chéo (cross-validation) tỷ lệ 1:5 Dữ liệu dùng cho thử nghiệm là độc lập với

dữ liệu dùng huấn luyện mô hình Bộ tham số bao gồm các hệ số

MFCC, F0 và các giá trị chuẩn hóa từ F0 sẽ được sử dụng cho thử

nghiệm nhận dạng dùng mô hình GMM dựa trên công cụ ALIZE Kết quả cho thấy, trong trường hợp số hệ số MFCC bằng 13, tỷ lệ nhận dạng cao nhất đạt được là 70,8% khi kết hợp MFCC với F0 chuẩn hóa theo

trung bình của F0 (F0sbM(t)) Như vậy, khi kết hợp MFCC với biến thể

của F0, tỷ lệ nhận dạng đúng tăng lên 12,2% so với trường hợp chỉ sử

Định dạng
Số trang	12
Dung lượng	376,67 KB