Lý thuyết về âm vị

1.5.1. Định nghĩa âm vị

Có nhiều cách định nghĩa âm vị khác nhau:

Theo cuốn Ngữ âm học tiếng Việt hiện đại, NXBGD 1972, nhóm tác giả Cù Ðình Tú thì âm vị là “đơn vị nhỏ nhất của ngữ âm có mang chức năng phân biệt nghĩa và nhận diện từ.”

Theo cuốn ngữ âm tiếng Việt của Ðoàn Thiện Thuật thì âm vị là “tổng thể

các nét khu biệt, được xuất hiện đồng thời (được con người tri giác theo trật tự trước sau) và có chức năng khu biệt vỏ âm thanh của từ hoặc hình vị.”

Theo Giáo sư Cao Xuân Hạo, những cách định nghĩa trên còn có những chỗ

chưa thoả đáng: “mang tính chất ấn tượng chủ nghĩa, có sự lầm lẫn về cách tri giác tính đồng thời, kế tiếp”… và theo ông thì âm vị là “đơn vị khu biệt âm thanh nhỏ

nhất có tham gia vào thếđối lập âm vị học về trật tự thời gian”, hoặc âm vị là đơn vị

âm vị học tuyến tính nhỏ nhất.

Theo Ðinh Lê Thư và Nguyễn Văn Huệ, “nguời ta thường định nghĩa âm vị

là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ, dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ từ và hình vị. Ví dụ: các từ

tôi và đôi, ta và đa trong tiếng Việt Phân biệt nhau bởi các âm vị /t/, /đ/. Nếu thay âm vị này bằng một âm vị khác trong cùng một âm tiết sẽ làm cho âm tiết đó thay

KHOA CNTT –

ĐH KHTN

đổi về nghĩa hoặc mất nghĩa. Ví dụ, ta có từ “toàn”, nếu thay âm vị /t/ bằng âm vị

/h/, thì sẽđược “hoàn” có nghĩa khác”.

1.5.2. Chức năng của âm vị

Các âm vị trên nguyên tắc nhất định phải có sự khác nhau, ít nhất là về một

đặc trưng nào đó. Chính nhờ sự khác biệt này mà các âm vị có thể tạo ra sự khác biệt về hình thức âm thanh của các hình vị và từ, tạo nên những tín hiệu khác biệt

đối với sự cảm thụ của con người. Theo đó, âm vị có 2 chức năng cơ bản: chức năng khu biệt vỏ âm thanh của hình vị và từ, và chức năng cấu tạo nên những thành tố

của đơn vị có nghĩa.

1.5.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm

Số lượng từ trong mỗi ngôn ngữđều rất lớn. Xây dựng hệ nhận dạng theo từ

có khả năng phân biệt số lượng từ lớn đó quả là một thách thức. Thay vào đó, người ta nghĩ ra cách xây dựng hệ nhận dạng dựa trên hướng tiếp cận âm vị. Theo đó, chỉ

cần nhận dạng khoảng vài chục âm vị sẽ có thể nhận dạng được toàn bộ từ của một ngôn ngữ (Theo thống kê, số âm vị trong một ngôn ngữ dao động từ khoảng 20 đến 60). Và đây cũng chính là hướng tiếp cận đúng đắn cho nhận dạng tiếng nói tiếng Việt. Tuy nhiên, người ta lại gặp một khó khăn khác, đó là tách âm vị và xác định âm vị trên chuỗi sóng âm: Cho một dãy tín hiệu tiếng nói đã thu sẵn. Nhiệm vụ của chúng ta là tìm ranh giới của tất cả các âm vị và cho biết các âm vị đó là âm vị gì. Khoan hãy nói đến khả năng thực hiện công việc đó tựđộng bằng máy. Ngay cả con người vẫn có thể bị nhầm lẫn khi tách âm vị bằng tay do ranh giới giữa các âm vị

thường mập mờ và hay chồng lấp lên nhau. Cả khi 2 âm vị thuộc 2 âm tiết khác nhau, nếu đứng kế nhau vẫn có thể xảy ra sự chồng lấp. Vì vậy, công việc tách âm vị trên chuỗi sóng âm chỉ mang tính tương đối.

KHOA CNTT –

ĐH KHTN

Khoảng chồng lấp

HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âm vị

“n” cuối âm tiết “bốn” và âm vị “l” đầu âm tiết “lăm”

• Âm vị “a” ở hình a được tách ngắn hơn so với âm vị “a” tách ra ở hình b, trong khi âm vị “h” và “i” ở hình a dài hơn ở hình b.

• Cách tách âm vị nào là chính xác

hơn? Cách a hay cách b?

HÌNH 5 – Hai cách tách âm vị cho cùng một sóng âm của chữ “hai”

Trong đồ án này, một phương pháp tách và nhận dạng âm vị tự động dùng mô hình HMM kết hợp mô hình ngôn ngữ để nhận dạng âm vị triphone (âm vị

mang 3 thông tin, thông tin về nó, thông tin âm vịđứng trước và âm vịđứng sau nó)

được nêu ra. Phương pháp này về cơ bản giải quyết tốt công việc học và tách âm vị

một cách tựđộng bằng máy. Kết quả tách âm vị được dùng cho quá trình nhận dạng tiếng nói tiếng Việt và đã đạt được kết quả khả quan.

KHOA CNTT –

ĐH KHTN

CHƯƠNG 2 Mô hình HMM áp dụng vào nhận dạng âm vị

2.1. Giới thiệu

Trong phần này các phần cơ bản của mô hình HMM sẽđược giới thiệu. Các

định nghĩa, các tập hợp tham số, các vấn đề thiết yếu, các thuật toán chính của mô hình HMM áp dụng vào nhận dạng tiếng nói sẽ được giới thiệu. Tiếp đó các phần chính của hệ thống nhận dạng, các công đoạn chính của nhận dạng dựa vào mô hình HMM cũng sẽđược giới thiệu sơ qua. Cụ thể như sau:

Phần 2.2 giới thiệu những vấn đề cơ bản của HMM.

Phần 2.3 giới thiệu về Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM.

Phần 2.4 là sơ lược về mô hình HMM cho âm vị được sử dụng trong bài làm.

2.2. Những vấn đề cơ bản của HMM

Mô hình HMM là mô hình thống kê thường xuyên được sử dụng để mô hình hóa tiếng nói, sử dụng cho công việc nhận dạng. Cấu trúc bên trong của HMM không phải dựa vào các kiến thức về tiếng nói nhưng nó lại được sử dụng trong nhận dạng để tính toán các đặc trưng số của tiếng nói.

2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhận dạng tiếng nói vào nhận dạng tiếng nói

Mô hình Markov ẩn HMM là 1 mô hình thống kê dựa vào mô hình Markov. Vì vậy để hiểu được mô hình HMM chúng ta sẽ xem xét qua về mô hình Markov và mô hình thống kê nói chung.

KHOA CNTT –

ĐH KHTN

2.2.1.1.Giới thiệu về nhận dạng thống kê và HMM

Quá trình thống kê là quá trình xác định xác suất của 1 số sự kiện vàxác suất mối quan hệ giữa các sự kiện trong 1 tiến trình tại các thời điểm khác nhau.

Biến cố ngẫu nhiên và hàm mật độ xác suất:

Gọi X là tập các biến ngẫu nhiên X={X1, X2, …, Xn} mà tồn tại ít nhất một sự kiện của tập X này xuất hiện. Gọi xác suất của sự kiện Xi la P(Xi). Khi đó ta có xác suất của X là P(X)=1. Nếu gọi P(Xi ) là xác suất của biến cố Xi thì ta có:

P(X)= Σ P(Xi)=1 Xác suất có điều kiện:

Gọi A và B là các biến ngẫu nhiên. Xác suất có điều kiện được mô tả như sau: Giả sử sụ kiện A đã xảy ra với xác suất P(A). Xác suất của sự kiện A với

điều kiện sự kiện B đã xảy kí hiệu là P(A|B) được tính như sau:

) ( ) ( ) | ( B P AB P B A P =− với P(B) ≠0

Trong nhận dạng thống kê, hai hàm xác suất có điều kiện sau thường được dùng:

1. P(x|Ci): hàm mật độ xác suất của độđo vector x thuộc về lớp Ci, với giả thiết là xác suất P(Ci) được biết trước hay có thểước lượng được. 2. P(Ci|x): với điều kiện x xảy ra, xác định xác suất xuất hiện của lớp rời

rạc Ci (chưa biết), thông qua P(Ci): xác suất của lớp Ci và P(x|Ci). Một tiến trình được gọi là tiến trình Markov (Markov process) nếu xác suất của 1 sự kiện tại 1 thới điểm bị ràng buộc bởi các sự kiện trong quá khứ xác định. Như vậy, mô hình Markov là một mô hình thống kê thuần túy. Trạng thái là 1 định nghĩa giúp chúng ta hiểu được sự biến đổi của sự kiện theo thời gian. Biến cố chính trong tiến trình Markov là “đạt trạng thái i tại thời điểm t”. Một tiến trình Markov

KHOA CNTT –

ĐH KHTN

được sử dụng trong các hệ thống nhận dạng tiếng nói tựđộng (ASR) tuân theo các

điều kiện sau:

1. Chỉ tồn tại 1 thời điểm phân biệt trong chuỗi thời gian t=1, 2, …, T; 2. Chỉ có 1 số lượng trạng thái xác định {st }= {i}, i=1, 2, …, n; 3. Trạng thái hiện tại và quá khứ chỉ là cách nhau 1 bước:

P(st | st-1,st-1, …, st-k )=P(st | st-1)

Nhiệm vụ chính của tiến trình Markov là tạo ra chuỗi trạng thái S=s1, s2, …, sT. Mô hình Markov ẩn HMM được phát triển dựa trên mô hình Markov. Các khía cạnh chính yếu về sử dụng mô hình HMM trong nhận dạng tiếng nói sẽ được trình bày dưới đây.

2.2.1.2.Các thành phần chính của HMM Thành phần chính của HMM gồm tập trạng thái và các tập hợp tham số chính. Thành phần chính của HMM gồm tập trạng thái và các tập hợp tham số chính. HÌNH 6 – Mô hình HMM 5 trạng thái 1 2 3 4 5 Thời gian Trạng thái a22 a33 a44 a12 a23 a34 a45 b3(o6) b2(o1) b 4(o7) O1 O2 O3 O4 O5 O6 O7

KHOA CNTT –

ĐH KHTN

Đầu tiên S={si , i=1,…, n} (với n là số trạng thái của HMM) là tập hợp các trạng thái của mô hình HMM.

Tập hợp tham số thứ nhất được gọi là xác suất chuyển trạng thái (transition probabilities) được định nghĩa như sau:

ai j=P(st=j|st-1=i).

Tập hợp các xác suất khởi tạo mô hình HMM i : π={πi}.

Tuy nhiên trong nhận dạng tiếng nói các mô hình HMM chủ yếu được khởi tạo tại trạng thái đầu tiên nên ta bỏ qua tập xác suất khởi tạo mô hình HMM.

Ý nghĩa của ai j là : xác suất chuyển trạng từ trạng thái i tại thời điểm t-1 sag trạng thái j tại thời điểm t. Chúng ta gọi ma trận A={ai j } là ma trận chuyển trạng thái. Đối với mô hình Markov, khi trạng thái trước được xác định thì xác suất chuyển trạng thái tới trạng thái tiếp theo cũng hoàn toàn xác định.

Để áp dụng HMM vào các sóng âm thanh, 1 hàm thống kê sẽđược gắn vào các trạng thái. Đầu tiên sóng âm tiếng nói sẽ được chuyển đổi thành chuỗi các vector đặc trưng theo thời gian (sẽ được giới thiệu trong phần rút trích đặc trưng sóng âm). Chuỗi các vector đặc trưng này gọi là chuỗi các vector quan sát O=o1,o2,…,oT , với ot là vector đặc trưng cho chuỗi sóng âm tại t. Xác suất mà hàm thống kê nói trên tính là xác suất vector đặc trưng ot đạt trạng thái j tại thời điểm t. Xác suất này gọi là xác suất quan sát hay xác suất output và nó đặc trưng cho tập tham số thứ hai của HMM:

bj (ot)=P(ot|st=j), (t=1,2,…,T; j=1,2,…,n)

Đặt B={bj (ot)}.

Tổng quát mô hình HMM có thể khởi tạo tại bất kì trạng thái nào, Xác xuất mô hình HMM khởi tạo tại trạng thái i kí hiệu là πi . Tập xác suất π= {πi}, gọi là tập

xác suất khởi tạo mô hình HMM, là tập trạng thái thứ 3 của mô hình HMM. Tuy nhiên trong bài toán nhận dạng tiếng nói hầu hết các mô hình HMM đều khởi tạo tại trạng thai đầu tiên nên chúng ta không cần tới tập xác suất thứ 3 này.

KHOA CNTT –

ĐH KHTN

Như vậy ta trong nhận dạng tiếng nói một mô hình HHM λ sẽđược đặc trưng bởi tập trạng thái và 2 tập tham số A và B nói trên: λ=(A, B).

2.2.1.3.Ví dụ về nhận dạng từđơn dựa trên HMM

Giả sử chuỗi sóng âm của từ cần nhận dạng được mã hóa bởi chuỗi vector

đặc trưng (chuỗi quan sát) O=o1,o2, …, oT với oi là vector đặc trưng tại thời điểm t. Việc nhận dạng tiếng đơn là đi tính: )} | ( { max arg P wi O i Có nghĩa là tìm từ có xác suất P(wi|O) lớn nhất, với wi là từ (đối với tiếng Việt là âm tiết) trong danh sách từ cần nhận dạng (tổng quát là từ trong từ điển), trong nhận dạng từ này được mô hình hóa bởi một số mô hình HMM. Xác suất này không thể tính được trực tiếp nhưng có thể dùng định luật Bayes:

) ( ) ( ) | ( ) | ( O P w P w O P O w P i i i =

Ở đây xác suất P(O) là hằng số khi cho O trên tất cả các từ có thể wi . Xác suất P(wi) chỉ liên quan đến mô hình ngôn ngữ (sẽ giới thiệu trong phần sau), chúng ta cũng có thể xem như là hằng số. Như vậy vấn đề của việc nhận dạng chỉ là việc tính xác suất P(O|wi).

Ví dụ, trong 1 mô hình nhận dạng đơn giản nhất, mỗi âm tiết wi sẽđược mô hình hóa bởi mô hình HMM λi, như vậy việc tính xác suất P(O|wi) có thể qui về tính xác suất P(O|λi ).

Trong trường hợp nhận dạng âm vị mỗi âm tiết wi không tương ứng với 1 mô hình λi.Mỗi âm tiết tương ứng với 1 dãy các âm vị, mỗi âm vịđược mô hình hóa bởi 1 mô hình HMM nên mỗi âm tiết được mô hình hóa bởi dãy các HMM âm vị λ1,

KHOA CNTT –

ĐH KHTN

2.2.1.4.Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên HMM HMM

Giả thuyết 1: Giả thuyết về xác suất chuyển trạng thái:

Giả thiết thứ nhất dựa trên chính mô hình Markov. Vì xác suất chuyển trạng thái ai j chỉ phụ thuộc vào trạng thái phía trước nó không hề phụ thuộc vào chuỗi quan sát nên ta có thể xem ai j như là hằng. Xác suất chuyển trạng thái xuất hiện tại các thời điểm khác nhau và các trạng thái khác nhau nên ta có thể xem chúng là độc lập. Vì vậy việc tính xác suất của 1 chuỗi trạng thái wi trong 1 mô hình HMM λ

tương có thể qui về: ∏ ∏ − = − = T i s t st T i t t s a s P S P( |λ) ( | 1) ( 1) ()

Giả thuyết 2: Giả thuyết về xác suất quan sát:

Gọi chuỗi trạng thái của mô hình HMM ứng với chuỗi vector quan sát O là chuỗi quan sát. Gọi việc tìm chuỗi trạng thái trong mô hình HMM có xác suất cao nhất ứng với 1 chuỗi quan sát O gọi là quan sát O. Từđịnh nghĩa của xác suất quan sát b chúng ta có thể thấy rằng xác định chuỗi quan sát O (xác định chuỗi trạng thái

ứng với chuỗi vector đặc trưng O) cũng là 1 tiến trình thống kê. Tuy nhiên nó không phải là chuỗi Markov. Khi một HMM tiến hành mô hình hóa 1 chuỗi quan sát của tiếng nói (tức xác định chuỗi quan sát ứng với chuỗi vector đặc trưng sóng âm), mỗi trạng thái có thể phát sinh tại bất kì vector quan sát nào (với 1 số ràng buộc), nhưng với xác suất khác nhau. Do đó sẽ không biết được trạng thái nào sẽ gán với vector nào. Như vậy sẽ không biết được chuỗi trạng thái S=s0s1… sT nào sẽ phát sinh tại chuỗi vector đặc trưng O cho trước. Đây chính là điều tiến trình Markov này được gọi là ẩn. Mặc dù xác suất của 1 chuỗi chuỗi trạng thái ứng với O là không biết

được nhưng tuy nhiên xác suất của sự kiện quan sát vector ot (xác định trạng thái của Ot ) tại các thời điểm t khác nhau là độc lập và hoàn toàn xác định được (điều này là rất cần thiết đối với tất cả các quá trình tính toán dựa trên HMM).

KHOA CNTT –

ĐH KHTN

Cho tập hợp trạng thái S của mô hình HMM λ, ta có:

∏ = = T t t st O b S O P 1 ) ( ) , | ( λ với bst(Ot)là xác suất của vector đặc trưng Ot đạt trạng thái s tại thời điểm t. Với P(S|λ) và P(O|λ) được tính toán theo 2 giả thiết trên ta có thể tính xác suất kết của O và S được tạo ra bởi mô hình λ như sau:

P(O,S|λ)=P(S|λ)P(O|S,λ)

Tuy nhiên trong thực tế chuỗi trạng thái S lại không biết, vì vậy để tính P(O|λ) phải tính tổng trên các chuỗi S có thể có: ∑ = S S O P S P O P( |λ) ( |λ) ( | ,λ)

P(O|S, λ)=bS1(O1)bS2 (O2) … bST (OT) P(S| λ)= aS1S2 aS2S3 … aST-1 ST Vì vậy chúng ta có: ( ) s s s ( T s s s s s O b a O b a O S P S O P O P T T T 1

Sơ lược về âm tiết tiếng Việ t

Mỗi âm tiết có thanh điệu riêng