Thanh điệu là một tập hợp những đặc trưng có liên quan đến độ cao (phụ
thuộc tần số rung động của dây thanh âm) của thanh cơ bản của âm tiết. Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi, dù là thủy âm hay chung âm.
KHOA CNTT –
ĐH KHTN
Thanh điệu có thể phân tích thành hai phần thường xuyên kết hợp với nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ (độ tăng giảm của tần số)) trong quá trình thể hiện. Vì vậy, mỗi thanh có thể được miêu tả
như một sự kết hợp của hai thông số nói trên.
Hệ thống thanh điệu của tiếng Việt có 6 thanh điệu: Thanh ngang (thanh không dấu), thanh huyền, thanh ngã, thanh hỏi, thanh sắc và thanh nặng.
1.4.2.3.Âm tiết có cấu trúc chặt chẽ và ổn định
Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ, mỗi âm tố (âm vị) có một vị trí nhất định trong âm tiết, tạo thành cấu trúc của một âm tiết như sau:
Âm tiết = Phụ âm đầu + Vần
trong đó,
Vần = Âm đệm + Âm chính + Âm cuối
Phụ âm đầu (thủy âm): là yếu tố mở đầu âm tiết. Nó mang tính độc lập do không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết. Các âm tiết tiếng Việt khi phát âm về mặt cấu âm bao giờ cũng mở đầu bằng một
động tác khép lại, dẫn đến chỗ cản trở không khí hoàn toàn hoặc bộ phận. Ðó là cách phát âm của các âm tiết như: bút, mai, … Còn những âm tiết nhưăn, uống, … mặc dù trên chữ viết, phụ âm vắng mặt, nhưng thực tế chúng cũng phải bắt đầu bằng một động tác khép kín khe thanh, sau đó mở ra đột ngột gây nên một tiếng
động.
Âm đệm: đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng
đến cách mởđầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ “toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm /-u-/, còn chữ “tàn” thì không có hiện tượng tròn môi do không có âm đệm.
KHOA CNTT –
ĐH KHTN
Âm cuối: là yếu tố kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ
nguyên, ví dụ: Má, đi, cho,… Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như: một, mai, màng,… Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, tromg trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm.
Thứ tự các loại hình âm vị trong cấu trúc của âm tiết như trên được giữ
nguyên không thay đổi cho mỗi âm tiết.
1.5. Lý thuyết về âm vị 1.5.1. Định nghĩa âm vị 1.5.1. Định nghĩa âm vị
Có nhiều cách định nghĩa âm vị khác nhau:
Theo cuốn Ngữ âm học tiếng Việt hiện đại, NXBGD 1972, nhóm tác giả Cù Ðình Tú thì âm vị là “đơn vị nhỏ nhất của ngữ âm có mang chức năng phân biệt nghĩa và nhận diện từ.”
Theo cuốn ngữ âm tiếng Việt của Ðoàn Thiện Thuật thì âm vị là “tổng thể
các nét khu biệt, được xuất hiện đồng thời (được con người tri giác theo trật tự trước sau) và có chức năng khu biệt vỏ âm thanh của từ hoặc hình vị.”
Theo Giáo sư Cao Xuân Hạo, những cách định nghĩa trên còn có những chỗ
chưa thoả đáng: “mang tính chất ấn tượng chủ nghĩa, có sự lầm lẫn về cách tri giác tính đồng thời, kế tiếp”… và theo ông thì âm vị là “đơn vị khu biệt âm thanh nhỏ
nhất có tham gia vào thếđối lập âm vị học về trật tự thời gian”, hoặc âm vị là đơn vị
âm vị học tuyến tính nhỏ nhất.
Theo Ðinh Lê Thư và Nguyễn Văn Huệ, “nguời ta thường định nghĩa âm vị
là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ, dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ từ và hình vị. Ví dụ: các từ
tôi và đôi, ta và đa trong tiếng Việt Phân biệt nhau bởi các âm vị /t/, /đ/. Nếu thay âm vị này bằng một âm vị khác trong cùng một âm tiết sẽ làm cho âm tiết đó thay
KHOA CNTT –
ĐH KHTN
đổi về nghĩa hoặc mất nghĩa. Ví dụ, ta có từ “toàn”, nếu thay âm vị /t/ bằng âm vị
/h/, thì sẽđược “hoàn” có nghĩa khác”.
1.5.2. Chức năng của âm vị
Các âm vị trên nguyên tắc nhất định phải có sự khác nhau, ít nhất là về một
đặc trưng nào đó. Chính nhờ sự khác biệt này mà các âm vị có thể tạo ra sự khác biệt về hình thức âm thanh của các hình vị và từ, tạo nên những tín hiệu khác biệt
đối với sự cảm thụ của con người. Theo đó, âm vị có 2 chức năng cơ bản: chức năng khu biệt vỏ âm thanh của hình vị và từ, và chức năng cấu tạo nên những thành tố
của đơn vị có nghĩa.
1.5.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm
Số lượng từ trong mỗi ngôn ngữđều rất lớn. Xây dựng hệ nhận dạng theo từ
có khả năng phân biệt số lượng từ lớn đó quả là một thách thức. Thay vào đó, người ta nghĩ ra cách xây dựng hệ nhận dạng dựa trên hướng tiếp cận âm vị. Theo đó, chỉ
cần nhận dạng khoảng vài chục âm vị sẽ có thể nhận dạng được toàn bộ từ của một ngôn ngữ (Theo thống kê, số âm vị trong một ngôn ngữ dao động từ khoảng 20 đến 60). Và đây cũng chính là hướng tiếp cận đúng đắn cho nhận dạng tiếng nói tiếng Việt. Tuy nhiên, người ta lại gặp một khó khăn khác, đó là tách âm vị và xác định âm vị trên chuỗi sóng âm: Cho một dãy tín hiệu tiếng nói đã thu sẵn. Nhiệm vụ của chúng ta là tìm ranh giới của tất cả các âm vị và cho biết các âm vị đó là âm vị gì. Khoan hãy nói đến khả năng thực hiện công việc đó tựđộng bằng máy. Ngay cả con người vẫn có thể bị nhầm lẫn khi tách âm vị bằng tay do ranh giới giữa các âm vị
thường mập mờ và hay chồng lấp lên nhau. Cả khi 2 âm vị thuộc 2 âm tiết khác nhau, nếu đứng kế nhau vẫn có thể xảy ra sự chồng lấp. Vì vậy, công việc tách âm vị trên chuỗi sóng âm chỉ mang tính tương đối.
KHOA CNTT –
ĐH KHTN
Khoảng chồng lấp
HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âm vị
“n” cuối âm tiết “bốn” và âm vị “l” đầu âm tiết “lăm”
• Âm vị “a” ở hình a được tách ngắn hơn so với âm vị “a” tách ra ở hình b, trong khi âm vị “h” và “i” ở hình a dài hơn ở hình b.
• Cách tách âm vị nào là chính xác
hơn? Cách a hay cách b?
HÌNH 5 – Hai cách tách âm vị cho cùng một sóng âm của chữ “hai”
Trong đồ án này, một phương pháp tách và nhận dạng âm vị tự động dùng mô hình HMM kết hợp mô hình ngôn ngữ để nhận dạng âm vị triphone (âm vị
mang 3 thông tin, thông tin về nó, thông tin âm vịđứng trước và âm vịđứng sau nó)
được nêu ra. Phương pháp này về cơ bản giải quyết tốt công việc học và tách âm vị
một cách tựđộng bằng máy. Kết quả tách âm vị được dùng cho quá trình nhận dạng tiếng nói tiếng Việt và đã đạt được kết quả khả quan.
KHOA CNTT –
ĐH KHTN
CHƯƠNG 2 Mô hình HMM áp dụng vào nhận dạng âm vị
2.1. Giới thiệu
Trong phần này các phần cơ bản của mô hình HMM sẽđược giới thiệu. Các
định nghĩa, các tập hợp tham số, các vấn đề thiết yếu, các thuật toán chính của mô hình HMM áp dụng vào nhận dạng tiếng nói sẽ được giới thiệu. Tiếp đó các phần chính của hệ thống nhận dạng, các công đoạn chính của nhận dạng dựa vào mô hình HMM cũng sẽđược giới thiệu sơ qua. Cụ thể như sau:
Phần 2.2 giới thiệu những vấn đề cơ bản của HMM.
Phần 2.3 giới thiệu về Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM.
Phần 2.4 là sơ lược về mô hình HMM cho âm vị được sử dụng trong bài làm.
2.2. Những vấn đề cơ bản của HMM
Mô hình HMM là mô hình thống kê thường xuyên được sử dụng để mô hình hóa tiếng nói, sử dụng cho công việc nhận dạng. Cấu trúc bên trong của HMM không phải dựa vào các kiến thức về tiếng nói nhưng nó lại được sử dụng trong nhận dạng để tính toán các đặc trưng số của tiếng nói.
2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhận dạng tiếng nói vào nhận dạng tiếng nói
Mô hình Markov ẩn HMM là 1 mô hình thống kê dựa vào mô hình Markov. Vì vậy để hiểu được mô hình HMM chúng ta sẽ xem xét qua về mô hình Markov và mô hình thống kê nói chung.
KHOA CNTT –
ĐH KHTN
2.2.1.1.Giới thiệu về nhận dạng thống kê và HMM
Quá trình thống kê là quá trình xác định xác suất của 1 số sự kiện vàxác suất mối quan hệ giữa các sự kiện trong 1 tiến trình tại các thời điểm khác nhau.
Biến cố ngẫu nhiên và hàm mật độ xác suất:
Gọi X là tập các biến ngẫu nhiên X={X1, X2, …, Xn} mà tồn tại ít nhất một sự kiện của tập X này xuất hiện. Gọi xác suất của sự kiện Xi la P(Xi). Khi đó ta có xác suất của X là P(X)=1. Nếu gọi P(Xi ) là xác suất của biến cố Xi thì ta có:
P(X)= Σ P(Xi)=1 Xác suất có điều kiện:
Gọi A và B là các biến ngẫu nhiên. Xác suất có điều kiện được mô tả như sau: Giả sử sụ kiện A đã xảy ra với xác suất P(A). Xác suất của sự kiện A với
điều kiện sự kiện B đã xảy kí hiệu là P(A|B) được tính như sau:
) ( ) ( ) | ( B P AB P B A P =− với P(B) ≠0
Trong nhận dạng thống kê, hai hàm xác suất có điều kiện sau thường được dùng:
1. P(x|Ci): hàm mật độ xác suất của độđo vector x thuộc về lớp Ci, với giả thiết là xác suất P(Ci) được biết trước hay có thểước lượng được. 2. P(Ci|x): với điều kiện x xảy ra, xác định xác suất xuất hiện của lớp rời
rạc Ci (chưa biết), thông qua P(Ci): xác suất của lớp Ci và P(x|Ci). Một tiến trình được gọi là tiến trình Markov (Markov process) nếu xác suất của 1 sự kiện tại 1 thới điểm bị ràng buộc bởi các sự kiện trong quá khứ xác định. Như vậy, mô hình Markov là một mô hình thống kê thuần túy. Trạng thái là 1 định nghĩa giúp chúng ta hiểu được sự biến đổi của sự kiện theo thời gian. Biến cố chính trong tiến trình Markov là “đạt trạng thái i tại thời điểm t”. Một tiến trình Markov
KHOA CNTT –
ĐH KHTN
được sử dụng trong các hệ thống nhận dạng tiếng nói tựđộng (ASR) tuân theo các
điều kiện sau:
1. Chỉ tồn tại 1 thời điểm phân biệt trong chuỗi thời gian t=1, 2, …, T; 2. Chỉ có 1 số lượng trạng thái xác định {st }= {i}, i=1, 2, …, n; 3. Trạng thái hiện tại và quá khứ chỉ là cách nhau 1 bước:
P(st | st-1,st-1, …, st-k )=P(st | st-1)
Nhiệm vụ chính của tiến trình Markov là tạo ra chuỗi trạng thái S=s1, s2, …, sT. Mô hình Markov ẩn HMM được phát triển dựa trên mô hình Markov. Các khía cạnh chính yếu về sử dụng mô hình HMM trong nhận dạng tiếng nói sẽ được trình bày dưới đây.
2.2.1.2.Các thành phần chính của HMM Thành phần chính của HMM gồm tập trạng thái và các tập hợp tham số chính. Thành phần chính của HMM gồm tập trạng thái và các tập hợp tham số chính. HÌNH 6 – Mô hình HMM 5 trạng thái 1 2 3 4 5 Thời gian Trạng thái a22 a33 a44 a12 a23 a34 a45 b3(o6) b2(o1) b 4(o7) O1 O2 O3 O4 O5 O6 O7
KHOA CNTT –
ĐH KHTN
Đầu tiên S={si , i=1,…, n} (với n là số trạng thái của HMM) là tập hợp các trạng thái của mô hình HMM.
Tập hợp tham số thứ nhất được gọi là xác suất chuyển trạng thái (transition probabilities) được định nghĩa như sau:
ai j=P(st=j|st-1=i).
Tập hợp các xác suất khởi tạo mô hình HMM i : π={πi}.
Tuy nhiên trong nhận dạng tiếng nói các mô hình HMM chủ yếu được khởi tạo tại trạng thái đầu tiên nên ta bỏ qua tập xác suất khởi tạo mô hình HMM.
Ý nghĩa của ai j là : xác suất chuyển trạng từ trạng thái i tại thời điểm t-1 sag trạng thái j tại thời điểm t. Chúng ta gọi ma trận A={ai j } là ma trận chuyển trạng thái. Đối với mô hình Markov, khi trạng thái trước được xác định thì xác suất chuyển trạng thái tới trạng thái tiếp theo cũng hoàn toàn xác định.
Để áp dụng HMM vào các sóng âm thanh, 1 hàm thống kê sẽđược gắn vào các trạng thái. Đầu tiên sóng âm tiếng nói sẽ được chuyển đổi thành chuỗi các vector đặc trưng theo thời gian (sẽ được giới thiệu trong phần rút trích đặc trưng sóng âm). Chuỗi các vector đặc trưng này gọi là chuỗi các vector quan sát O=o1,o2,…,oT , với ot là vector đặc trưng cho chuỗi sóng âm tại t. Xác suất mà hàm thống kê nói trên tính là xác suất vector đặc trưng ot đạt trạng thái j tại thời điểm t. Xác suất này gọi là xác suất quan sát hay xác suất output và nó đặc trưng cho tập tham số thứ hai của HMM:
bj (ot)=P(ot|st=j), (t=1,2,…,T; j=1,2,…,n)
Đặt B={bj (ot)}.
Tổng quát mô hình HMM có thể khởi tạo tại bất kì trạng thái nào, Xác xuất mô hình HMM khởi tạo tại trạng thái i kí hiệu là πi . Tập xác suất π= {πi}, gọi là tập
xác suất khởi tạo mô hình HMM, là tập trạng thái thứ 3 của mô hình HMM. Tuy nhiên trong bài toán nhận dạng tiếng nói hầu hết các mô hình HMM đều khởi tạo tại trạng thai đầu tiên nên chúng ta không cần tới tập xác suất thứ 3 này.
KHOA CNTT –
ĐH KHTN
Như vậy ta trong nhận dạng tiếng nói một mô hình HHM λ sẽđược đặc trưng bởi tập trạng thái và 2 tập tham số A và B nói trên: λ=(A, B).
2.2.1.3.Ví dụ về nhận dạng từđơn dựa trên HMM
Giả sử chuỗi sóng âm của từ cần nhận dạng được mã hóa bởi chuỗi vector
đặc trưng (chuỗi quan sát) O=o1,o2, …, oT với oi là vector đặc trưng tại thời điểm t. Việc nhận dạng tiếng đơn là đi tính: )} | ( { max arg P wi O i Có nghĩa là tìm từ có xác suất P(wi|O) lớn nhất, với wi là từ (đối với tiếng Việt là âm tiết) trong danh sách từ cần nhận dạng (tổng quát là từ trong từ điển), trong nhận dạng từ này được mô hình hóa bởi một số mô hình HMM. Xác suất này không thể tính được trực tiếp nhưng có thể dùng định luật Bayes:
) ( ) ( ) | ( ) | ( O P w P w O P O w P i i i =
Ở đây xác suất P(O) là hằng số khi cho O trên tất cả các từ có thể wi . Xác suất P(wi) chỉ liên quan đến mô hình ngôn ngữ (sẽ giới thiệu trong phần sau), chúng ta cũng có thể xem như là hằng số. Như vậy vấn đề của việc nhận dạng chỉ là việc tính xác suất P(O|wi).
Ví dụ, trong 1 mô hình nhận dạng đơn giản nhất, mỗi âm tiết wi sẽđược mô hình hóa bởi mô hình HMM λi, như vậy việc tính xác suất P(O|wi) có thể qui về tính xác suất P(O|λi ).
Trong trường hợp nhận dạng âm vị mỗi âm tiết wi không tương ứng với 1 mô hình λi.Mỗi âm tiết tương ứng với 1 dãy các âm vị, mỗi âm vịđược mô hình hóa bởi 1 mô hình HMM nên mỗi âm tiết được mô hình hóa bởi dãy các HMM âm vị λ1,