Bộ âm vị tiếng Việt

Âm vị (phoneme) là đơn vị trừu tượng nhỏ nhất của một ngôn ngữ. Mọi âm tiết trong một ngôn ngữ đều được tạo ra bằng tổ hợp của các âm vị. Trong

hệ thống nhận dạng với mục đích giảm số lượng đơn vị trong hệ thống. Trong một khoảng thời gian ngắn từ 10ms đến 40ms có thể coi tín hiệu âm thanh là ổn định và đây cũng là khoảng thời gian phổ biến cho một âm vị. Vì vậy chọn âm vị là đơn vị nhận dạng còn là để giảm ảnh hưởng của sự biến đổi của tín hiệu tiếng nói.

Dựa theo cấu trúc của âm tiết tiếng Việt thì hệ thống âm vị của tiếng Việt bao gồm 21 âm đầu, 1 âm đệm, 16 âm chính và 8 âm cuối [58]. Các âm vị tiếng Việt theo bản âm vị quốc tế (IPA) và cách thể hiện bằng chữ viết được trình bày ở Bảng III.

Bảng III: Tập âm vị ngữ âm tiếng Việt

Âm đầu Âm đệm Âm chính Âm cuối

IPA Cách IPA Cách IPA Cách IPA Cách Viết IPA Cách Viết IPA Cách

Viết Viết Viết Viết

/b/ b /ş/ s /w/ o, u /i/ i, y /u/ u /-p/ p

/m/ m /c/ ch /e/ ê /o/ ô, ôô /-t/ t

/f/ ph /ʈ / tr /ε/ e /ͻ / o, oo /-k/ c, ch

/v/ v /ɲ/ nh /εˇ/ a (khi đứng /ↄ ˇ/ o (khi đứng /-m/ m trước /-k/, /-ŋ/) trước /-k/, /-ŋ/)

/t/ t /l/ l /iˬ e/ iê, ia, yê, ya /uˬ o/ uô, ua /-n/ n

/t‟/ th /k/ c, k, q / ɯ / u /-ŋ/ ng, nh /d/ đ /χ/ kh /ɤ/ o /-ṷ/ u, o /n/ n /ŋ/ ng, /a/ a /-˰ i/ i, y ngh /z/ d, gi /ɣ/ g, gh /ɤˇ/ â /ʐ / r /h/ h ă ă, a (khi đứng trươc /-ṷ/, /- ˰ i/) /s/ x /ɯˬ ɤươ, ưa /

Không giống như tiếng Anh hay tiếng Trung, tiếng Việt là ngôn ngữ có thể được đánh vần cơ bản dựa trên quy tắc chuẩn. Mỗi từ có thể được phát âm chính xác ngay cả khi không nhìn thấy nó. Điều đó có nghĩa là, quy tắc dựa trên thuật toán biến đổi hình vị sang âm vị (grapheme to phoneme - G2P) [37] dựa trên cấu trúc được mô tả trong Bảng I có thể được áp dụng để tạo ra chuỗi âm vị cho bất kỳ câu nào. Trong thuật toán này, ba loại âm vị đã được sử dụng để tạo ra các chuỗi âm vị cho các phiên âm đã cho. Thứ nhất, được gọi là bộ âm vị dựa trên kí tự (Character-based Phoneset - CP), tương tự như cách tiếp cận với tiếng

Anh [48] [51], CP chứa tất cả các ký tự đơn nhất xuất hiện trong bản phiên âm thường. Ví dụ CP = {a, â, à, b,..}. Có 97 ký tự không bao gồm các ký hiệu trống và âm câm trong CP. Thứ hai, được gọi là bộ âm vị dựa trên âm tiết (Phoneme- based Phoneset - PP), là tập hợp các âm điệu được xây dựng bằng cách áp dụng G2P trong [37]. Nó chứa 137 âm vị bao gồm các Âm đầu, Âm đệm, Âm cuối và ghép các Âm chính với các ký tự thanh điệu. Để đánh giá ảnh hưởng của thông tin thanh điệu khi áp dụng E2E trên các mô hình ngữ âm, tất cả các ký tự mang thanh điệu được loại bỏ khỏi các âm điệu trong PP để tạo ra bộ âm vị thứ ba được coi là bộ âm vị không có thông tin thanh điệu (phoneset Without Tone informations - WT). Số lượng âm vị trong WT giảm xuống còn 47.

Tổng quan về mô hình HMM:

Nhận dạng tiếng nói sử dụng E2E