Sơ lược về âm tiết tiếng Việ t

1.4.1. Giới thiệu về âm tiết

Khi giao tiếp, con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta sẽ thu nhận được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị. Trong đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất. Mỗi âm tiết là một tiếng.

Ví dụ: lời nói “Một hai ba bốn năm sáu” có 6 âm tiết.

Về mặt sinh lý - vật lý, âm tiết được định nghĩa là một đơn vị mà khi phát âm

được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm. Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được. Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó thường là các nguyên âm. Điều này dẫn tới hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi vềđầu và cuối âm tiết thì năng lượng giảm dần (xem hình)

KHOA CNTT –

ĐH KHTN

HÌNH 3 – Cụm từ “âm tiết tiếng Việt” thể hiện trên sóng âm. Mỗi âm tiết có biên

độ lớn ở giữa âm và giảm dần khi đi về đầu và cuối âm

1.4.2. Một số đặc điểm của âm tiết tiếng Việt

1.4.2.1.Là ngôn ngữ có kết cấu âm tiết tính

Một đặc điểm của tiếng Việt là ranh giới của nó và ranh giới của hình vị (đơn vị nhỏ nhất có nghĩa) luôn luôn trùng nhau, nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị. Ví dụ từ sinh viên gồm 2 hình vị, mỗi hình vị có vỏ

ngữ âm là 1 âm tiết là sinh và viên.

Là vỏ ngữ âm của một hình vị hay một từđơn nên mỗi âm tiết tiếng Việt bao giờ cũng tương ứng với một ý nghĩa nhất định. Chính vì vậy, việc phá vỡ hay xê dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó ó thể xảy ra. Nói cách khác cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ. Vì thế, từ “cá canh” sẽ

không bị nối âm thành “các anh”, “cảm ơn” không bịđọc thành “cả mơn”,…

Các đặc điểm trên là chung cho một số ngôn ngữ như tiếng Hoa, tiếng Thái, tiếng Việt,… Căn cứ vào các đặc điểm đó, người ta gọi các ngôn ngữ này là ngôn ngữ có kết cấu âm tiết tính.

1.4.2.2.Mỗi âm tiết có thanh điệu riêng

Thanh điệu là một tập hợp những đặc trưng có liên quan đến độ cao (phụ

thuộc tần số rung động của dây thanh âm) của thanh cơ bản của âm tiết. Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi, dù là thủy âm hay chung âm.

KHOA CNTT –

ĐH KHTN

Thanh điệu có thể phân tích thành hai phần thường xuyên kết hợp với nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ (độ tăng giảm của tần số)) trong quá trình thể hiện. Vì vậy, mỗi thanh có thể được miêu tả

như một sự kết hợp của hai thông số nói trên.

Hệ thống thanh điệu của tiếng Việt có 6 thanh điệu: Thanh ngang (thanh không dấu), thanh huyền, thanh ngã, thanh hỏi, thanh sắc và thanh nặng.

1.4.2.3.Âm tiết có cấu trúc chặt chẽ và ổn định

Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ, mỗi âm tố (âm vị) có một vị trí nhất định trong âm tiết, tạo thành cấu trúc của một âm tiết như sau:

Âm tiết = Phụ âm đầu + Vần

trong đó,

Vần = Âm đệm + Âm chính + Âm cuối

Phụ âm đầu (thủy âm): là yếu tố mở đầu âm tiết. Nó mang tính độc lập do không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết. Các âm tiết tiếng Việt khi phát âm về mặt cấu âm bao giờ cũng mở đầu bằng một

động tác khép lại, dẫn đến chỗ cản trở không khí hoàn toàn hoặc bộ phận. Ðó là cách phát âm của các âm tiết như: bút, mai, … Còn những âm tiết nhưăn, uống, … mặc dù trên chữ viết, phụ âm vắng mặt, nhưng thực tế chúng cũng phải bắt đầu bằng một động tác khép kín khe thanh, sau đó mở ra đột ngột gây nên một tiếng

động.

Âm đệm: đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng

đến cách mởđầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ “toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm /-u-/, còn chữ “tàn” thì không có hiện tượng tròn môi do không có âm đệm.

KHOA CNTT –

ĐH KHTN

Âm cuối: là yếu tố kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ

nguyên, ví dụ: Má, đi, cho,… Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như: một, mai, màng,… Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, tromg trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm.

Thứ tự các loại hình âm vị trong cấu trúc của âm tiết như trên được giữ

nguyên không thay đổi cho mỗi âm tiết.

1.5. Lý thuyết về âm vị 1.5.1. Định nghĩa âm vị 1.5.1. Định nghĩa âm vị

Có nhiều cách định nghĩa âm vị khác nhau:

Theo cuốn Ngữ âm học tiếng Việt hiện đại, NXBGD 1972, nhóm tác giả Cù Ðình Tú thì âm vị là “đơn vị nhỏ nhất của ngữ âm có mang chức năng phân biệt nghĩa và nhận diện từ.”

Theo cuốn ngữ âm tiếng Việt của Ðoàn Thiện Thuật thì âm vị là “tổng thể

các nét khu biệt, được xuất hiện đồng thời (được con người tri giác theo trật tự trước sau) và có chức năng khu biệt vỏ âm thanh của từ hoặc hình vị.”

Theo Giáo sư Cao Xuân Hạo, những cách định nghĩa trên còn có những chỗ

chưa thoả đáng: “mang tính chất ấn tượng chủ nghĩa, có sự lầm lẫn về cách tri giác tính đồng thời, kế tiếp”… và theo ông thì âm vị là “đơn vị khu biệt âm thanh nhỏ

nhất có tham gia vào thếđối lập âm vị học về trật tự thời gian”, hoặc âm vị là đơn vị

âm vị học tuyến tính nhỏ nhất.

Theo Ðinh Lê Thư và Nguyễn Văn Huệ, “nguời ta thường định nghĩa âm vị

là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ, dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ từ và hình vị. Ví dụ: các từ

tôi và đôi, ta và đa trong tiếng Việt Phân biệt nhau bởi các âm vị /t/, /đ/. Nếu thay âm vị này bằng một âm vị khác trong cùng một âm tiết sẽ làm cho âm tiết đó thay

KHOA CNTT –

ĐH KHTN

đổi về nghĩa hoặc mất nghĩa. Ví dụ, ta có từ “toàn”, nếu thay âm vị /t/ bằng âm vị

/h/, thì sẽđược “hoàn” có nghĩa khác”.

1.5.2. Chức năng của âm vị

Các âm vị trên nguyên tắc nhất định phải có sự khác nhau, ít nhất là về một

đặc trưng nào đó. Chính nhờ sự khác biệt này mà các âm vị có thể tạo ra sự khác biệt về hình thức âm thanh của các hình vị và từ, tạo nên những tín hiệu khác biệt

đối với sự cảm thụ của con người. Theo đó, âm vị có 2 chức năng cơ bản: chức năng khu biệt vỏ âm thanh của hình vị và từ, và chức năng cấu tạo nên những thành tố

của đơn vị có nghĩa.

1.5.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm

Số lượng từ trong mỗi ngôn ngữđều rất lớn. Xây dựng hệ nhận dạng theo từ

có khả năng phân biệt số lượng từ lớn đó quả là một thách thức. Thay vào đó, người ta nghĩ ra cách xây dựng hệ nhận dạng dựa trên hướng tiếp cận âm vị. Theo đó, chỉ

cần nhận dạng khoảng vài chục âm vị sẽ có thể nhận dạng được toàn bộ từ của một ngôn ngữ (Theo thống kê, số âm vị trong một ngôn ngữ dao động từ khoảng 20 đến 60). Và đây cũng chính là hướng tiếp cận đúng đắn cho nhận dạng tiếng nói tiếng Việt. Tuy nhiên, người ta lại gặp một khó khăn khác, đó là tách âm vị và xác định âm vị trên chuỗi sóng âm: Cho một dãy tín hiệu tiếng nói đã thu sẵn. Nhiệm vụ của chúng ta là tìm ranh giới của tất cả các âm vị và cho biết các âm vị đó là âm vị gì. Khoan hãy nói đến khả năng thực hiện công việc đó tựđộng bằng máy. Ngay cả con người vẫn có thể bị nhầm lẫn khi tách âm vị bằng tay do ranh giới giữa các âm vị

thường mập mờ và hay chồng lấp lên nhau. Cả khi 2 âm vị thuộc 2 âm tiết khác nhau, nếu đứng kế nhau vẫn có thể xảy ra sự chồng lấp. Vì vậy, công việc tách âm vị trên chuỗi sóng âm chỉ mang tính tương đối.

KHOA CNTT –

ĐH KHTN

Khoảng chồng lấp

HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âm vị

“n” cuối âm tiết “bốn” và âm vị “l” đầu âm tiết “lăm”

• Âm vị “a” ở hình a được tách ngắn hơn so với âm vị “a” tách ra ở hình b, trong khi âm vị “h” và “i” ở hình a dài hơn ở hình b.

• Cách tách âm vị nào là chính xác

hơn? Cách a hay cách b?

HÌNH 5 – Hai cách tách âm vị cho cùng một sóng âm của chữ “hai”

Trong đồ án này, một phương pháp tách và nhận dạng âm vị tự động dùng mô hình HMM kết hợp mô hình ngôn ngữ để nhận dạng âm vị triphone (âm vị

mang 3 thông tin, thông tin về nó, thông tin âm vịđứng trước và âm vịđứng sau nó)

được nêu ra. Phương pháp này về cơ bản giải quyết tốt công việc học và tách âm vị

một cách tựđộng bằng máy. Kết quả tách âm vị được dùng cho quá trình nhận dạng tiếng nói tiếng Việt và đã đạt được kết quả khả quan.

KHOA CNTT –

ĐH KHTN

CHƯƠNG 2 Mô hình HMM áp dụng vào nhận dạng âm vị

2.1. Giới thiệu

Trong phần này các phần cơ bản của mô hình HMM sẽđược giới thiệu. Các

định nghĩa, các tập hợp tham số, các vấn đề thiết yếu, các thuật toán chính của mô hình HMM áp dụng vào nhận dạng tiếng nói sẽ được giới thiệu. Tiếp đó các phần chính của hệ thống nhận dạng, các công đoạn chính của nhận dạng dựa vào mô hình HMM cũng sẽđược giới thiệu sơ qua. Cụ thể như sau:

Phần 2.2 giới thiệu những vấn đề cơ bản của HMM.

Phần 2.3 giới thiệu về Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM.

Phần 2.4 là sơ lược về mô hình HMM cho âm vị được sử dụng trong bài làm.

2.2. Những vấn đề cơ bản của HMM

Mô hình HMM là mô hình thống kê thường xuyên được sử dụng để mô hình hóa tiếng nói, sử dụng cho công việc nhận dạng. Cấu trúc bên trong của HMM không phải dựa vào các kiến thức về tiếng nói nhưng nó lại được sử dụng trong nhận dạng để tính toán các đặc trưng số của tiếng nói.

2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhận dạng tiếng nói vào nhận dạng tiếng nói

Mô hình Markov ẩn HMM là 1 mô hình thống kê dựa vào mô hình Markov. Vì vậy để hiểu được mô hình HMM chúng ta sẽ xem xét qua về mô hình Markov và mô hình thống kê nói chung.

KHOA CNTT –

ĐH KHTN

2.2.1.1.Giới thiệu về nhận dạng thống kê và HMM

Quá trình thống kê là quá trình xác định xác suất của 1 số sự kiện vàxác suất mối quan hệ giữa các sự kiện trong 1 tiến trình tại các thời điểm khác nhau.

Biến cố ngẫu nhiên và hàm mật độ xác suất:

Gọi X là tập các biến ngẫu nhiên X={X1, X2, …, Xn} mà tồn tại ít nhất một sự kiện của tập X này xuất hiện. Gọi xác suất của sự kiện Xi la P(Xi). Khi đó ta có xác suất của X là P(X)=1. Nếu gọi P(Xi ) là xác suất của biến cố Xi thì ta có:

P(X)= Σ P(Xi)=1 Xác suất có điều kiện:

Gọi A và B là các biến ngẫu nhiên. Xác suất có điều kiện được mô tả như sau: Giả sử sụ kiện A đã xảy ra với xác suất P(A). Xác suất của sự kiện A với

điều kiện sự kiện B đã xảy kí hiệu là P(A|B) được tính như sau:

) ( ) ( ) | ( B P AB P B A P =− với P(B) ≠0

Trong nhận dạng thống kê, hai hàm xác suất có điều kiện sau thường được dùng:

1. P(x|Ci): hàm mật độ xác suất của độđo vector x thuộc về lớp Ci, với giả thiết là xác suất P(Ci) được biết trước hay có thểước lượng được. 2. P(Ci|x): với điều kiện x xảy ra, xác định xác suất xuất hiện của lớp rời

rạc Ci (chưa biết), thông qua P(Ci): xác suất của lớp Ci và P(x|Ci). Một tiến trình được gọi là tiến trình Markov (Markov process) nếu xác suất của 1 sự kiện tại 1 thới điểm bị ràng buộc bởi các sự kiện trong quá khứ xác định. Như vậy, mô hình Markov là một mô hình thống kê thuần túy. Trạng thái là 1 định nghĩa giúp chúng ta hiểu được sự biến đổi của sự kiện theo thời gian. Biến cố chính trong tiến trình Markov là “đạt trạng thái i tại thời điểm t”. Một tiến trình Markov

KHOA CNTT –

ĐH KHTN

được sử dụng trong các hệ thống nhận dạng tiếng nói tựđộng (ASR) tuân theo các

điều kiện sau:

1. Chỉ tồn tại 1 thời điểm phân biệt trong chuỗi thời gian t=1, 2, …, T; 2. Chỉ có 1 số lượng trạng thái xác định {st }= {i}, i=1, 2, …, n; 3. Trạng thái hiện tại và quá khứ chỉ là cách nhau 1 bước:

P(st | st-1,st-1, …, st-k )=P(st | st-1)

Nhiệm vụ chính của tiến trình Markov là tạo ra chuỗi trạng thái S=s1, s2, …, sT. Mô hình Markov ẩn HMM được phát triển dựa trên mô hình Markov. Các khía cạnh chính yếu về sử dụng mô hình HMM trong nhận dạng tiếng nói sẽ được trình bày dưới đây.

2.2.1.2.Các thành phần chính của HMM Thành phần chính của HMM gồm tập trạng thái và các tập hợp tham số chính. Thành phần chính của HMM gồm tập trạng thái và các tập hợp tham số chính. HÌNH 6 – Mô hình HMM 5 trạng thái 1 2 3 4 5 Thời gian Trạng thái a22 a33 a44 a12 a23 a34 a45 b3(o6) b2(o1) b 4(o7) O1 O2 O3 O4 O5 O6 O7

KHOA CNTT –

ĐH KHTN

Đầu tiên S={si , i=1,…, n} (với n là số trạng thái của HMM) là tập hợp các trạng thái của mô hình HMM.

Tập hợp tham số thứ nhất được gọi là xác suất chuyển trạng thái (transition probabilities) được định nghĩa như sau:

ai j=P(st=j|st-1=i).

Tập hợp các xác suất khởi tạo mô hình HMM i : π={πi}.

Tuy nhiên trong nhận dạng tiếng nói các mô hình HMM chủ yếu được khởi tạo tại trạng thái đầu tiên nên ta bỏ qua tập xác suất khởi tạo mô hình HMM.

Ý nghĩa của ai j là : xác suất chuyển trạng từ trạng thái i tại thời điểm t-1 sag trạng thái j tại thời điểm t. Chúng ta gọi ma trận A={ai j } là ma trận chuyển trạng thái. Đối với mô hình Markov, khi trạng thái trước được xác định thì xác suất chuyển trạng thái tới trạng thái tiếp theo cũng hoàn toàn xác định.

Để áp dụng HMM vào các sóng âm thanh, 1 hàm thống kê sẽđược gắn vào các trạng thái. Đầu tiên sóng âm tiếng nói sẽ được chuyển đổi thành chuỗi các vector đặc trưng theo thời gian (sẽ được giới thiệu trong phần rút trích đặc trưng

Mỗi âm tiết có thanh điệu riêng

Mỗi âm tiết có thanh điệu riêng