NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV ẨN

Nhận dạng tiếng nói Tiếng Việt hiện nay là một lĩnh vực đang được nghiên cứu bởi các nhà khoa học và cũng đã đạt được một số kết quả nhất định.. Mặc dù các quan điểm lý thuyết của thông

Trang 1

MỤC LỤC

Trang

MỤC LỤC 1

PHẦN I: ĐẶT VẤN ĐỀ 2

PHẦN II: NỘI DUNG 3

I LÝ THUYẾT CHUNG 3

1 Lý thuyết về tiếng nói 3

2 Một số đặc điểm ngữ âm tiếng Việt 3

3 Lý thuyết về âm vị 5

3.1 Định nghĩa âm vị 5

3.2 Chức năng của âm vị 6

3.3 Tách âm vị và xác định âm vị trên chuỗi sóng âm 6

II MÔ HÌNH MARKOR ẨN VÀ NHẬN DẠNG TIẾNG NÓI 8

1 Giới thiệu về mô hình Markov ẩn: 8

2 Ba vấn đề thiết yếu của HMM 8

2.1 Tìm chuổi chuyển trạng thái tốt nhất – Thuật toán Viterbi : 9

2.2 Ước lượng tham số xác xuất cho HMM – Thuật toán Baum-Welch 10 3 Tiền xử lý tín hiệu : 12

3.1 Cải thiện tín hiệu – bộ lọc Wiener: 13

3.2 Cắt khung tín hiệu : 13

3.3 Phân tích Fourier – biến đổi Fourier rời rạc: 15

3.4 Xác định phổ Mel 15

3.5 Biến đổi Cosine rời rạc trên tần số Mel (Discrete Cosine Transform): 16

TÀI LIỆU THAM KHẢO 17

Trang 2

PHẦN I: ĐẶT VẤN ĐỀ

Nhận dạng tiếng nói đã phát triển rất mạnh mẽ trong những năm gần đây của thế

kỷ trước Đặc biệt năm 1997, IBM và Dragon System cùng nhau tung ra sản phẩm nhận dạng tiếng nói của mình Những sản phẩm này gây tiếng vang lớn và có thể xem như cột mốc cho quá trình nghiên cứu nhận dạng tiếng nói

Qua việc học tập môn học Lý Thuyết Nhận Dạng, chúng em đã được tiếp cận với những kiến thức lý thuyết cũng như các ứng dụng thực tế của nó Nhận dạng tiếng nói Tiếng Việt hiện nay là một lĩnh vực đang được nghiên cứu bởi các nhà khoa học và cũng

đã đạt được một số kết quả nhất định Để nhận dạng được Tiếng Việt thì ta có thể sử dụng nhiều mô hình nhưng mô hình được ứng dụng nhiều và cho kết quả tốt là mô hình Hidden Markov (HMM) Để có thể hiểu thật rõ về mô hình HMM chúng em xin chọn đề

tài “NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV

Chúng em xin chân thành cám ơn

Trang 3

PHẦN II: NỘI DUNG

I LÝ THUYẾT CHUNG

1 Lý thuyết về tiếng nói

Mục đích của tiếng nói là truyền thông tin Có một số đặc trưng cho việc truyền tiếng nói Theo lý thuyết thông tin, tiếng nói có thể biểu diển dưới dạng nội dung thông báo hoặc thông tin Một cách đặc trưng khác là tiếng nói biễu diễn dưới dạng tín hiệu mang thông tin thông báo Mặc dù các quan điểm lý thuyết của thông tin đống vai trò chủ đạo trong các hệ thống truyền tin phức tạp, ta sẽ thấy là biễu diễn tiếng nói dựa trên dạng sóng hoặc mô hình tham số được sử dụng chính trong các ứng dụng thực tế

Để xét quá trình thông tin tiếng nói, đầu tiên nên coi thông báo như một dạng trừu tượng nào đó trong đầu người nói Qua quá trình phúc tạp tạo âm, thông tin trong thông báo này được chuyển trực tiếp thành tín hiệu âm học Thông tin thông báo có thể được biểu diễn dưới một số dạng khác nhau trong quá trình tạo tiếng nói Chẳng hạn, thông tin thông báo lúc đầu được chuyển thành tập hợp các tín hiệu thần kinh điều khiển có chế phát âm (đó là chuyển động của lưỡi, môi, dây thanh âm…) Bộ máy phát âm chuyển động tương ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc

Thông tin được thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu Các ký hiệu mà mỗi âm có thể được phân loại ra gọi là các âm vị (phoneme) Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, con số mẫu mực là khoảng từ 30 đến 50 Ví dụ tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị, tiếng Việt khoảng 33 âm vị ( 12 nguyên âm : a, ă, â, o, u… và 21 phụ âm: k, l, m, ph …)

Trong lý thuyết thông tin người ta còn xét tốc độ truyền thông tin Với tiếng nói, lưu ý đến các giới hạn vật lý của tốc độ chuyển động của bộ máy phát âm, đánh giá thô của tốc độ thông tin là con người tạo ra tiếng nói với tốc độ trung bình khoảng 10 âm vị trong 1 giây Nếu mỗi âm vị biễu diễn bằng một số nhị phân thì mã số 6 bit là quá đủ để biểu diễn tất cả các âm vị tiếng Anh Với tốc độ trung bình khoảng 10 âm vị trên giây và

bỏ qua tương tác giữa cặp âm vị liền kề, ta có ước lượng 60 bit/giây cho tốc độ thông tin trung bình của tiếng nói Nói cách khác là lượng viết ra của tiếng nói chứa thông tin tương đương với 60 bit/giây ở tốc độ nói chuẩn Dĩ nhiên, cận dưới của nội dung thông tin xác thực trong tiếng nói được coi là cao hơn tốc độ này Ước lượng trên không tín đến các nhân tố như trạng thái của người nói, tốc độ nói, âm hưởng của tiếng nói,v v…

2 Một số đặc điểm ngữ âm tiếng Việt

Một đặc điểm dễ thấy là tiếng Việt là ngôn ngữ đơn âm (monosyllable - mỗi từ đơn chỉ

có một âm tiết), không biến hình (cách đọc, cách ghi âm không thay đổi trong bất cứ tình huống ngữ pháp nào) Tiếng Việt hoàn toàn khác với các ngôn ngữ Ấn-Âu như tiếng Anh, tiếng Pháp là các ngôn ngữ đa âm, biến hình

Trang 4

Nhìn về mặt ghi âm: âm tiết tiếng Việt có cấu tạo chung là: phụ âm-vần Ví dụ âm tin

có phụ âm t, vần in Phụ âm là một âm vị và âm vị này liên kết rất lỏng lẻo với phần còn lại

của âm tiết (hiện tượng nói lái)

Vần trong tiếng Việt lại được cấu tạo từ các âm vị nhỏ hơn, trong đó có một âm vị chính là nguyên âm

Hình sau là phổ tín hiệu của âm tiết “ba” Chúng ta có thể quan sát và phân biệt rõ miền nhiễu nền, miền phổ của phụ âm b và nguyên âm a (miền đậm hơn là có mật độ năng lượng lớn hơn)

Quan sát phổ các âm tiết tương tự chúng ta có thể rút ra kết luận: các phụ âm và nguyên âm đều phân biệt với nhau rất rõ qua sự phân bố năng lượng tại các miền tần số, ví dụ: phụ âm ở tần số thấp, năng lượng nhỏ, nguyên âm có năng lượng lớn ở cả vùng tần số cao Vùng không có tín hiệu tiếng nói (nhiễu nền và khoảng lặng) có năng lượng thấp và chỉ tập trung ở các tần số rất thấp

Các nguyên âm có tần phổ (spectrum) khác nhau khá rõ Hình sau minh hoạ sự khác nhau về phổ của 5 nguyên âm cơ bản Miền đậm là miền có mật độ năng lượng cao

Trang 5

Theo tác giả Đoàn Thiện Thuật , xét về mặt ngữ âm-âm vị học âm tiết tiếng Việt có lược đồ như sau:

Thanh điệu

Âm đệm

Âm chính

Âm cuối Lược đồ cho thấy âm tiết tiếng Việt có cấu trúc rõ ràng, ổn định Lược đồ còn cho thấy tiếng Việt là ngôn ngữ có thanh điệu Hệ thống thanh điệu gồm 6 thanh: bằng, huyền, sắc, hỏi, ngã, nặng

Thanh điệu trong âm tiết là âm vị siêu đoạn tính (thể hiển trên toàn bộ âm tiết) Do đó đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành phần khác của âm tiết

Sự khác biệt về cách phát âm tiếng Việt rất rõ rệt theo giới, lứa tuổi và đặc biệt là theo vị trí địa lí (giọng miền Bắc, miền Trung và miền Nam khác nhau rất nhiều)

3 Lý thuyết về âm vị

3.1 Định nghĩa âm vị

Có nhiều cách định nghĩa âm vị khác nhau:

Theo cuốn Ngữ âm học tiếng Việt hiện đại, NXBGD 1972, nhóm tác giả Cù Đình

Tú thì âm vị là “đơn vị nhỏ nhất của ngữ âm có mang chức năng phân biệt nghĩa và nhận diện từ”

Trang 6

Theo cuốn ngữ âm tiếng Việt của Đoàn Thiện Thuật thì âm vị là “tổng thể các nét khu biệt, được xuất hiện đồng thời (được con người tri giác theo trật tự trước sau) và có chức năng khu biệt vỏ âm thanh của từ hoặc hình vị”

Theo Giáo sư Cao Xuân Hạo, những cách định nghĩa trên còn có những chổ chưa thỏa đáng: “mang tính chất ấn tượng chủ nghĩa, có sự lầm lẫn về cách tri giác tính đồng thời, kế tiếp”

… và theo ông thì âm vị là “đơn vị khu biệt âm thanh nhỏ nhất có thể tham gia vào thế đối lập âm vị học về trật tự thời gian”, hoặc âm vị là đơn vị âm vị học tuyến tính nhỏ nhất

Theo Đinh Lê Thư và Nguyễn Văn Huệ, “người ta thường định nghĩa âm vị là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ, dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ từ và hình vị Ví dụ: các từ tôi và đôi, ta và đa trong tiếng Việt phân biệt nhau bởi các âm vị /t/ và /đ/ Nếu thay âm vị này bằng một âm vị khác trong cùng một âm tiết sẽ làm cho âm tiết đó thay đổi về nghĩa hoặc mất nghĩa Ví dụ,

ta có từ “toàn”, nếu thay âm vị /t/ bằng âm vị /h/, thì sẽ được “hoàn” có nghĩa khác”

3.2 Chức năng của âm vị

Các âm vị trên nguyên tắc nhất định phải có sự khác nhau, ít nhất là về một đặc trưng nào đó Chính nhờ sự khác biệt này mà các âm vị có thể tạo ra sự khác biệt về hình thức âm thanh của hình vị và từ, tạo nên những tín hiệu khác biệt đối với sự cảm thụ của con người Theo đó, âm vị có 2 chức năng cơ bản: chức năng khu biệt vỏ âm thanh của hình vị và từ, và chức năng cấu tạo nên những thành tố của đơn vị có nghĩa

3.3 Tách âm vị và xác định âm vị trên chuỗi sóng âm

Số lượng từ trong mỗi ngôn ngữ đều rất lớn Xây dựng hệ nhận dạng theo từ có khả năng phân biệt số lượng từ đó quả là một thách thức Thay vào đó, người ta nghĩ ra cách xây dựng hệ nhận dạng dựa trên hướng tiếp cận âm vị Theo đó, chỉ cần nhận dạng khoảng vài chục âm vị sẽ có thể nhận dạng được toàn bộ từ của một ngôn ngữ (Theo thống kê, số âm vị trong một ngôn ngữ dao động từ khoảng 20 đến 60) Và đây cũng chính là hướng tiếp cận đúng đắn cho nhận dạng tiếng nói tiếng Việt Tuy nhiên, người ta lại gặp khó khăn khác, đó là tách âm vị và xác định âm vị trên chuỗi sóng âm: Cho một dãy tín hiệu tiếng nói đã thu sẵn Nhiệm vụ của chúng ta là tìm ranh giới của tất cả các âm vị và cho biết âm vị đó là âm vị gị Chưa nói đến khả năng thực hiện công việc đó bằng máy, ngay cả con người vẫn có thể bị nhầm lẫn khi tách âm vị bằng tay do ranh giới giữa các âm vị thường mập mờ và hay chồng lấp lên nhau Cả khi 2 âm vị thuộc 2 âm tiết khác nhau, nếu đứng kế nhau vẫn có thể xảy ra sự chồng lấp Vì vậy, công việc tách âm vị trên chuỗi sóng âm chỉ mang tính tương đối

Những thuận lợi và khó khăn đối với nhận dạng tiếng nói tiếng Việt

Thuận lợi

Những đặc điểm ngữ âm tiếng Việt cho thấy nhận dạng tiếng nói tiếng Việt có một số thuận lợi sau:

Trang 7

 Tiếng Việt là ngôn ngữ đơn âm, số lượng âm tiết không quá lớn Điều này sẽ giúp

hệ nhận dạng xác định ranh giới các âm tiết dễ dàng hơn nhiều Đối với hệ nhận dạng các ngôn ngữ Ấn-Âu (tiếng Anh, tiếng Pháp ) xác định ranh giới âm tiết (endpoint detection) là vấn đề rất khó và ảnh hưởng lớn đến kết quả nhận dạng

 Tiếng Việt là ngôn ngữ không biến hình từ Âm tiết tiếng Việt ổn định, có cấu trúc rõ ràng Đặc biệt không có 2 âm tiết nào đọc giống nhau mà viết khác nhau Điều này

sẽ dễ dàng cho việc xây dựng các mô hình âm tiết trong nhận dạng; đồng thời việc chuyển từ phiên âm sang từ vựng (lexical decoding) sẽ đơn giản hơn so với các ngôn ngữ Ấn-Âu Việc chuyển từ phiên âm sang từ vựng cũng là một vấn đề khó khăn trong nhận dạng các ngôn ngữ Ấn-Âu

 Cách phát âm tiếng Việt thay đổi nhiều theo vị trí địa lí Giọng địa phương trong tiếng Việt rất đa dạng (mỗi miền có một giọng đặc trưng)

 Hệ thống ngữ pháp, ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ nhận dạng với mục đích tăng hiệu năng nhận dạng Hệ thống phiên âm cũng chưa thống nhất

 Các nghiên cứu về nhận dạng tiếng Việt cũng chưa nhiều và ít phổ biến Đặc biệt khó khăn lớn nhất là hiện nay chưa có một bộ dữ liệu chuẩn cho việc huấn luyện và kiểm tra các hệ thống nhận dạng tiếng Việt.

Trang 8

II MÔ HÌNH MARKOR ẨN VÀ NHẬN DẠNG TIẾNG NÓI

1 Giới thiệu về mô hình Markov ẩn:

Mô hình Markov ẩn (Hidden Markov Model _ HMM) là một mô hình thống kê trong đó hệ thống được mô hình hóa là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được

Khác với chuỗi Markov, Mô hình HMM có các đặc điểm sau:

 Từ 1 trạng thái có thể phát sinh ra hơn một sự kiện (còn gọi là quan sát)

 Chuỗi quan sát là hàm xác suất của trạng thái

 Có thể tính toán xác suất của các chuỗi trạng thái khác nhau từ một chuỗi quan sát

Vậy Mô hình HMM phát sinh ra các quan sát Khi ở trạng thái Xi, có xác suất P(o1) để phát sinh sự kiện 1, xác suất P(o2) để phát sinh sự kiện 2,

Các thành phần cơ bản của mô hình HMM:

•N là số trạng thái của mô hình, ký hiệu trạng thái ở thời điểm t là qt và ot là quan sát tại thời điểm t

•M là số lượng các quan sát phân biệt Các ký hiệu quan sát tương ứng với tín hiệu mà hệ thống đang mô tả Ta ký hiệu tập các quan sát là

V ={v1, v2, v3, ,vM}, đối với tín hiệu tiếng nói, vi là (đặc trưng thứ i) mã của vector đặc trưng

•A = {aij} là ma trận phân phối xác suất chuyển trạng thái, với aij là xác

suất chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1

tả đầy đủ một mô hình HMM cần phải có số trạng thái N, tập V gồm M ký hiệu quan sát,

ma trận xác suất chuyển trạng thái A, ma trận xác suất các ký hiệu quan sát được B và

ma trận xác suất trạng thái ban đầu π, đồng thời mô hình HMM cũng tuân theo các ràng buộc thống kê:

Để thuận tiện, ta dùng ký hiệu λ = (A, B, π) chỉ tập tham số của mô hình, tập tham

số này xác định một giá trị xác suất cho dãy quan sát O là P(O | λ)

2 Ba vấn đề thiết yếu của HMM

Trang 9

Giả sử cho một HMMs λ=(A, B) và chuỗi quan sát O= O1, O2,…, On Tất cả các ứng dụng dựa trên mô hình Markov ẩn sẽ phải giải quyết 3 vấn đề cơ bản sau:

i Vấn đề tính toán: Làm sao để tính được P(O|λ) (xác suất của việc xuất hiện

chuỗi quan sát O trong mô hình HMMs) với khối lượng tính toán tối thiểu

ii.Vấn đề ước lượng tham số cho HMM: Vấn đề này được đặt ra trong quá trình

huấn luyện Chúng ta sẽ xác định được các mô hình λ dựa vào dữ liệu huấn luyện Làm sao xác đình được các tham số của mô hình HMM λ=(A,B) sao cho P(O|S,λ) (hoặc P(O,S|λ) là lớn nhất

iii Vấn đề Decoding(nhận dạng): Cho một mô hình HMM λ đã được huấn

luyện Làm sao tình được chuỗi trạng thái S= s1, s2,…, sT tương ứng với chuỗi quan sát

O P(O,S|λ), sao cho xác suất của chuỗi trạng thái của chuỗi quan sát O trùng với chuỗi S

là lớn nhất

2.1 Tìm chuổi chuyển trạng thái tốt nhất – Thuật toán Viterbi :

Trong bài toán 3, nếu cho trước chuỗi quan sát O = (o1, o2, ,oT) và mô hình λ= (A, B, π), ta cần xác định chuỗi trạng thái Q = {q1, q2, , qT} tương ứng là phù hợp nhất, đây chính là chuỗi chuyển trạng thái tốt nhất, điều này có nghĩa là phải tính:

Q* = arg max P(Q | O, λ ) = arg max P(Q, O | λ )

Có một số điều kiện có thể cho việc tìm kiếm chuỗi trạng thái phù hợp nhất Nó chọn các trạng thái riêng lẻ phù hợp nhất tại thời điểm khi một ký hiệu quan sát được phát ra Thuật toán Viterbi dùng cho nhận dạng tiếng nói

Đặt λ t(i) là xác suất của mô hình phát ra ký hiệu quan sát ot là trạng thái thứ i của chuỗi quan sát O

λ t(i) = P(qt = qi | O) Nó dễ dàng nhận được:

λ t(i) = αt(i) βt(i) / P( O ), với i =1, , N , t =1, , T

Sau đó tại mỗi thời điểm, chúng ta có thể chọn trạng thái qt mà nó làm cực đại λ t(i)

qt = arg max {λ t(i)}

Thuật toán Viterbi:

Thuật toán Viterbi vận hành trên một đồ thị HMM để chọn chuỗi trạng thái mà nó phù hợp cao nhất với chuỗi quan sát được, thuật toán Viterbi tránh được sự tìm kiếm trên một không gian lớn và làm giảm chi phí tính toán

Đặt δ t(i) là xác suất lớn nhất của chuỗi trạng thái có chiều dài t mà kết thúc ở trạng thái thứ i và sinh ra sinh ra quan sát đầu tiên t

δ t(i) = max{P(q1, q2, , qt-1 ; o1, o2, , ot | qt = qi ).}

Thuật toán Viterbi là thuật toán qui hoạch động có các bước sau:

Trang 10

21st Computer Science Seminar

Bước 1_Khởi tạo:

δ1(i) = pi bi(o1)

ψ1(i) = 0 , i =1, , N

Bước 2_Lặp lại:

For t = 1 to T-1

δt (j) = max i [δt - 1(i) aij] b j (ot)

ψt(j) = arg max i [δt - 1(i) aij]

Endfor

Bước 3_Kết thúc:

P* = max i [δT(i )]

Q*T = arg max i [δT(i )]

Bước 4_Kết quả, ta được chuỗi trạng thái quay lui:

Q*t = ψt+1(Q* t+1), với t = T-1, T-2, … , 1

2.2 Ước lượng tham số xác xuất cho HMM – Thuật toán Baum-Welch

Bài toán 2 của mô hình HMM là làm sao hiệu chỉnh tham số của mô hình

λ = (A, B, π) để cực đại hóa xác suất P(O | λ) sinh ra O

Để giải quyết bài toán 2 chúng ta cần một phương pháp hiệu chỉnh các tham số lambda để tối đa hóa khả năng của tập huấn luyện Hiện tại chưa có cách nào xác định các giá trị trong mô hình để có được xác suất chuỗi quan sát tối đa, mà chúng ta chỉ có thể ước lượng được một cực đại cục bộ bằng cách dùng thuật toán Baum- Welch (hay còn gọi là thuật toán Forward-Backward) Thuật toán Baum-Welch được dùng nhằm hạn chế sự “bùng nổ” tính toán và bảo đảm sự hội tụ cục bộ được dùng trong huấn luyện

Bài toán 2, làm sao hiệu chỉnh tham số của mô hình

Thuật toán Baum-Welch:

Bước 1: Xác suất duyệt qua 1 cạnh: từ trạng thái i tại thời điểm t đến trạng thái j

tại thời điểm t + 1

Trang 11

là xác suất sở hữu hai trạng thái i và trạng thái j

Bước 2: Xác suất của trạng thái i tại thời điểm t:

Ta có được các tham số ước lượng

Xác suất trạng thái i là trạng thái bắt đầu πi:

Xác xuất chuyển trạng thái:

Định dạng
Số trang	23
Dung lượng	1,04 MB