Nghiên cứu và xây dựng hệ thống nhận dạng chuỗi số tiếng Việt phát âm liên tục

Đối tượng và p hạm vi nghiên cứu : —_ Giải quyết bài toán nhận dạng chuỗi phát âm các chữ số tiếng Việt huấn luyện với số lượng từ vựng giới hạn, độc lập người nói.. —_ Áp dụng lý thuyết

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

TRAN ANH CAO

NGHIÊN CỨU VÀ XÂY DUNG HE THONG NHẬN DẠNG

CHUOI SO TIENG VIỆT PHAT ÂM LIÊN TỤC

CHUYEN NGANH: KHOA HOC MAY TÍNH

MA SO: 60.48.01.01

HA NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

i81

Phản biện 2: - - Ă G111 12111 21111011119 11110 111g tr.

Luận văn sẽ được bảo vệ trước Hội đông châm luận v ăn Thạc sĩ tại

Học viện Công nghệ Bưu Chính Viễn thông

Có thể tìm hiểu luận văn tại:

— _ Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Tính cấp thiết của đề tài

Nghiên cứu nhận dạng tiếng nói tiếng Việt cũng là một van đề được các nhà

nghiên cứu quan tâm, đầu tư công sức trong những năm gần đây Tiếng Việt là ngôn

ngữ đơn âm và có thanh điệu, có nhiều đặc thù khác biệt so với các ngôn ngữ nước

ngoài Việc nghiên cứu nhận dạng tiếng nói tiếng Việt là cần thiết Các thành quảnghiên cứu nhận dạng tiếng nói của các ngôn ngữ nước ngoài cần được kế thừa và

nghiên cứu để áp dụng vào trong tiếng Việt.

Vì những lý do trên, tôi xin lựa chọn dé tài: “Nghiên cứu và xây dựng hệ

thống nhận dạng chuỗi số tiếng Việt phát âm liên tuc”, nhằm nghiên cứu các van đề

về nhận dạng tiếng nói và áp dụng chúng trong nhận dạng tiếng nói tiếng Việt

Mục đích nghiên cứu:

— Nắm rõ các khái niệm, phương pháp liên quan đến nhận dạng tiếng nói

— Nắm vững kiến thức về đặc trưng tiếng nói , mô hình âm học, mô hình ngôn ngữ

thích hợp cho tiếng Việt

— Làm chủ công cụ xây dựng hệ nhận dạng tiếng nói.

— Xây dựng chương trình mô phỏng, thực nghiệm, đưa ra nhận xét và kết luận

Kết quả cần đạt được:

— Hiểu và cài đặt được chương trình nhận dang bằng giọng nói tiếng Việt, qua đó

đưa ra đánh giá, nhận xét và kết luận về mức độ sẵn sang và khả thi của chương

trình.

Đối tượng và p hạm vi nghiên cứu :

—_ Giải quyết bài toán nhận dạng chuỗi phát âm các chữ số tiếng Việt (huấn luyện

với số lượng từ vựng giới hạn), độc lập người nói

— N6i dung của bộ huấn luyện xoay quanh chuỗi số phát âm liên tục,

Phương pháp nghiên cứu:

Trang 4

—_ Áp dụng lý thuyết về mô hình Markov ấn - HMM (Hidden Markov Model),

bao gồm khái niệm, các thuật toán liên quan và ý nghĩa của HMM trong hệ nhận

dạng tiếng nói

— Áp dụng các đặc trưng tiếng nói như MFCC (Mel-Frequency Ceptrums

Coefficients ), PLP (Peceptual Linear Prodiction) cho nhận dạng tiếng nói.

Trang 5

CHUONG 1 - TONG QUAN VE NHẬN DẠNG TIENG NÓI

1.1 Giới thiệu

1.2 Nguyên tắc của hệ thống nhận dạng tiếng nói

Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau

Luận văn này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau

đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục

Trang 6

Tín hiệu Dãy các Dãy các Từ, câu

tiếng nói đặc tính từ hoặc được nhận

phổ âm vị dạng

Phân tích Phân lớp Xử lý ngôn ngữ

đặc tính mẫu (pattern ; (language >

(feature clasification) processing)

M6 hinh 4m Mô hình ngôn

1.2.1 Phân tích các đặc tính tiếng nói

Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng

tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan

trọng, chang hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các

đặc điểm riêng biệt của từng người nói, Kết quả ra của giai đoạn này là các vectorđặc tính của mỗi khung tín hiệu tiếng nói

1.2.2 Phân lbp mẫu

Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong

đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơ n vị tiếng nói cơ

bản (từ hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu

(template matcher), rule-based, mạng neuron va mô hình Markov an

1.2.3 Mô hình ngôn ngữ

1.3 Nghiên cứu hiện thời về nhận dạng tiếng nói

1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính

Trang 7

1.3.2 Cac nghiên cứu về nhận dạng tiếng nói tiếng Việt

1⁄4 Ngôn ngữ tiếng Việt

1.4.1 Đặc điểm âm tiết tiếng Việt

1.4.1.1 Tính độc lập cao

1.4.1.2 Khả năng biểu hiện ý nghĩa

1.4.1.3 Cấu trúc chặt chẽ

Thanh điệu Vân

Âm tiết

Thanh Âm đầu Phần vần | Bậc 1

Âm đệm Âm Âm cuối Bậc 2

Trang 8

Bảng 1.1 Phân bô giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuôi

1.4.3 Sw phân bé của các âm vị tiếng Việt

Bang 1.1 tổng kết sự phân bố giữa nguyên 4m âm chính và các âm đệm và

bán nguyên âm cuối [3].

1.5 Kết luận

Trang 9

CHƯƠNG 2 - HE THONG NHẬN DẠNG TIENG NÓI LIÊN

Nhắn mạnh Tạo khung tín Làm cửa số c) DFT

(pre-emphasis) c) hiệu (framing) L) (windowing)

[ |

Lọc tan số Mel

(Mel-frequency

Tính giá tri ( Chinh gia tri h DCT h Logarit giá trị

delta MFCC cepstral năng lượng

FFT 2 Lọc tan số Bark c) Nhắn mạnh dùng ham

(Bark frequency Equal-loudness

Trang 10

Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thê là một hệ vật

ly hay hệ sinh thái, ), ký hiệu g, là vi tri của hệ tại thời điểm ứ Các vị trí có thé có

được của hệ được gọi là không gian trạng thái, ký hiệu là S= /S), S;, Š;, } Giả sử

tại thời điểm s hệ ở trạng thái S;, nếu xác suất dé hệ ở trạng thái Š tai thời điểm +

trong tương lai chỉ phụ thuộc vào s, /, S; S; thì có nghĩa là sự tiễn triển của hệ chỉ

phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có

tính chất này được gọi là quá trình Markov

Nếu không gian trạng thái Š của hệ là đếm được thì ta gọi hệ là xích Markov.

Nếu thời gian ¢ là rời rac £=0,1,2, thì ta có xích Markov rời rac Ta có thé biểu diễn

tính Markov của hệ bằng biểu thức sau :

P(q: = Sj | Ger = Sis qịa = Sx ) = P(e = S; | Ge = Si)

Đặt P(s,i,t,j) = P(q: = S; | qs = S;) là xác suất để hệ tai thời điểm s ở trạng thai i,

đến thời điểm ¿ chuyền sang trang thái j Ta gọi P(s,i,t,j) là xác suất chuyên của hệ.Nếu xác suất chuyền chỉ phụ thuộc vào (/-s) tức là

P(s,i,t p= P@+h,,t+h,J)

thi ta nói hệ là thuần nhất theo thời gian Bat dau từ đây ta chi xét xích Markov rời

rạc và thuân nhât ay,

Hình 2 3 Xích Markov với năm trạng thái S;, S,, , Ss và

các xác suât chuyên trạng thái.

Trang 11

Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất,

trong đó hệ có thé ở một trong năm trạng thái S), S;, , Sy (trong ví dụ trên N=5)

2.2.2 Mô hình Markov an

Mô hình Markov ân là kết quả của mở rộng khái niệm từ mô hình Markov bằng

cách mỗi trạng thái được gan với một ham phat xa quan sát (observation

distribution).

Một mô hình Markov ân được đặc trưng bởi các thành phan cơ bản sau :

1) N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký

hiệu bằng S= /S), S», S;, } và trạng thái của mô hình tại thời điểm ¢ được kí hiệu là

q,.

2) M, số ky hiệu quan sát (observation symbol), đây là kích thước của bảng từ

vựng của mô hình Các ký hiệu quan sát được biéu diễn bằng V= /v, vo, }

3) A = {aj}, xác suat chuyén trang thai (state transition probability distribution).

Trong đó z là xác suất dé trang thái / xuất hiện tại thời điểm ¿+7 khi trạng thái i đã

xuất hiện tại thời điểm ¿.

ay PQs! Sj | Si)

4) B = {bj(k)} xác suất phát xạ quan sát trong mỗi trạng thai (observation

symbol probability distribution in state) bj(k) là xác suất của quan sát v, tại trang

thái 7 tại thời điểm ¿.

bj(k) = P(v, tại thời điểm ¢ | gq, = S), (2.1)

5) 1 = {Z\, Z, My} Xác suất trang thái khởi dau (initial state distribution) 7;

là xác suất dé trạng thai i được chọn tại thời điểm khởi dau 1:

ZI=P(4i=S)

Trang 12

8) Chọn O; = v; tương Ứng với xác suất quan sát tại trạng thái S;: Đ;(#).

9) Chuyên sang trạng thái mới g,,) = Š; tương Ứng với xác suất chuyền trạng

Người ta thường dùng bộ ba 2=(4, 8, z) được coi là bộ ký pháp gọn đề biểu diễn

một mô hình Markov ân A, B và m được gọi là các tham số (parameters) của mô

hình Â.

Hình 2.4 cho ta một ví dụ về một mô hình Markov an gom có sáu trạng thái,

trong đó có một trạng thái khởi đầu và một trạng thái kết thúc Sáu quan sat fo), 0»,

, 06} được sinh ra từ bốn trang thái từ 2 đến 5 Mỗi trang thái có thé chuyển sang

Trang 13

trang thái bên phải của nó, hoặc chuyền sang chính nó Riêng trang thái khởi đầuchỉ có một khả năng duy nhất chuyên sang trạng thái thứ 2, tức là z;;=1

2.2.3 Ba bài toán cơ bản của mô hình Markov an

Có ba bài toán cơ bản của mô hình Markov ân được đặt ra trong ứng dụng

nhận dạng tiếng nói.

Bài toán 1: V6i day quan sắt O= ƒo, 02, 03, } và mô hình Markov an

Â=(4, B, 1) đã được huấn luyện, chúng ta cần tính xác suất P(O /A).

Bài toán 2: Với dãy quan sát O= ƒo,, 02, 03, } và mô hình Markov an

A=(A, B, z) làm thé nào chúng ta có thé tìm được dãy trang thái tương ứng q=(qp

đz, g›, ) tối ưu nhất theo một tiêu chuẩn nao đó.

Bài toán 3: Làm thé nào chúng ta điều chỉnh các tham số A, B, dé có được

xác suất P(O /A) lớn nhất.

Bài toán 1: Đây là bài toán nhận dạng khi có một dãy các quan sát cho trước

và một tập các mô hình Markov ẩn, việc tính toán các P(O / A) sẽ cho chúng ta tim

ra được mô hình Markov ẩn có xác suất P(O /A) tương ứng lớn nhất.

Bài toán 2: Day là bài toán tìm phần ân của mô hình Markov, tức là day trạng

thái g Bài toán nay hay được sử dụng trong quá trình gan nhãn cưỡng bức dữ liệu

huấn luyện.

Bài toán 3: Trong bài toán này chúng ta điều chỉnh tham số của mô hình

Markov 4n dé nó miêu tả một cách chính xác nhất các quan sát đã được biết trước

đó Day quan sát dùng dé điều chỉnh các tham số được gọi là tập dữ liệu huấn luyện(training data) Đây là khâu cơ bản trong một bài toán nhận dạng, nó cho phép điều chỉnh các tham số dé học các dữ liệu từ các hiện tượng thực như tiếng nói.

2.2.4 Các giải pháp toán học cho ba bài toán cơ bản

Trang 14

2.2.5.1 Mô hình HMM rời rac

2.2.5.2 Mô hình HMM liên tục

2.2.5.3 Mô hình HMM ban liên tục

2.3 Kếtluận

12

Trang 15

CHƯƠNG 3 - XÂY DỰNG HE THONG NHAN DẠNG LIÊN

HTK cho phép định nghĩa một quy tắc ngữ pháp của một hệ thống nhận dạng

dưới dạng một tệp văn bản Các quy tắc ngữ pháp này sẽ được sử dụng trong giai

đoạn decoding dùng thuật toán Viterbi.

$digit = ONE TWO | THREE | FOUR FIVE |

Sname = [ JOOP ] JANSEN

Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ mà hệ

thống có thể nhận dạng được và các phiên âm của các từ này thành các đơn vị nhận

dạng của hệ thống Đối với các hệ thống nhận dạng có số từ vựng lớn, các đơn vị

nhận dạng này thường là âm vị Một từ điển bao gồm nhiều dòng, mỗi dòng tươngứng với một từ và phiên âm của nó.

3.2.1.3 Cơ sở dt liệu

Cơ sở dữ liệu bao gồm các tệp âm thanh lưu ở đạng wav, và các tệp văn bản

chứa phiên âm chính tả của các tệp âm thanh Mỗi tệp âm thanh có một tệp văn bản

tương ứng phiên âm chính tả của phát âm Các phiên âm ở mức âm vị được lưu

trong các tệp có đuôi phn Các phiên âm ở mức âm vị bao gồm nhiều dòng, mỗi

dong chưa tên âm vi cùng với nhãn thời gian của âm vị đó trong tệp âm thanh.

Trang 16

3.2.1.4 Trích chọn các đặc điểm

Công việc tính toán trích trọn các đặc tính phô của các tệp âm thanh được

thực hiện bởi công cụ Hcopy HTK hé trợ tính toán nhiều tham số khác nhau, trong

đó có các loại thông dụng là MFCC và PLP Các hệ số MFCC va PLP được tính

toán và lưu vào một tệp tương ứng với tệp âm thanh với phần đuôi là mfc Các giá

trị delta của các hệ số trên được tính toán trong quá trình huấn luyện và nhận dạng

(on-the-fly).

Hcopy sẽ đọc một tệp cau hình, trong đó khai báo các tham số ding trong

quá trình tính toán các giá trị đặc tính phô của tệp âm thanh

3.2.2 Khai báo cau trúc mô hình Markov

3.2.3 Khởi tạo các tham số

Trang 17

mẫu huấn luyện 1.mfc

Trên thực tế, Hcompv làm việc giống như Hinit ở bước khởi đầu, tức là các

vector của một phát âm sẽ được chia thành các đoạn đều nhau đều cho tat cả cá c âm

vị Tuy nhiên khác với Hinit, các âm vi đêu chung nhau một mô hình và các tham sô

của mô hình này sẽ được tính toán và khởi tạo giống nhau Hình 3.3 miêu tả hoạt

Trang 18

3.2.4 Huấn luyện các đơn vị nhận dang đơn

3.2.4.1 Huấn luyện nhúng bằng Herest

Đây là công cụ huấn luyện chính thực hiện huấn luyện bằng phương thức

nhúng (embedded training), tính toán và cập nhật các tham số của nhiều mô hình

cùng một lúc Day là công cụ quan trọng nhất và được coi là trái tim của hệ thống

huân luyện.

Dữ liệu huấn luyện

Các mô hình pale n pals

3.2.4.2 Gan nhãn cưỡng bức dữ liệu huấn luyện

3.2.5 Huấn luyện các âm ba

Một âm vị luôn chịu ảnh hưởng của ngữ cảnh xung quanh và hệ thống nhận

dạng chỉ làm việc tốt nếu như chúng được huấn luyện bởi các đơn vị nhận dạng phụ

thuộc ngữ cảnh Trong HTK đơn vị phụ thuộc ngữ cảnh được gọi là âm ba(triphone) dé phân biệt với các âm đơn, đơn vị độc lập ngữ cảnh.

Trang 19

phiên âm theo

êm đơn âm đơn

Hình 3 6 Quá trình buộc các âm ba bằng Hhed

3.2.6.1 Lái dit liệu

Thuật toán lái dữ liệu (data driven) được khởi động bằng cho tất cả các trạng

thái, mỗi trạng thái vào một nhóm (cluster) Sau đó cặp nhóm mà khi chúng kết hợp

Trang 20

lại với nhau sẽ tạo thành nhóm mới có kích thước nhỏ nhất sẽ được ghép lại với

nhau Quá trình này tiếp tục cho đến khi kích thước của nhóm lớn nhất vượt qua

ngưỡng được định nghĩa bởi câu lệnh TC, hoặc là tổng số các nhóm nhỏ hơn

ngưỡng được định nghĩa bởi câu lệnh NC Kích thước của một nhóm được hiểu là

khoảng cách lớn nhất của một cặp trạng thái bất kỳ trong nhóm Đối với trường hợp

hàm phát xạ quan sát của trạng thái là hàm Gaussian thì khoảng cách là khoảng

cách Euclidean giữa các tham sô của các hàm mật độ xác suât.

T+E 100.0 “oa” {*-a†*.statel2]}

3.2.6.2 Phân nhóm bang cây

Một trong các nhược điểm của phương pháp lái dir liệu là không thực hiện được với các âm ba mà không có dữ liệu huấn luyện Khi xây dựng hệ thống nhận

dạng với các âm ba giới nội từ, vấn đề này có thé tránh được bởi lựa chọn dữ liệu

huấn luyện để cho tất cả các âm ba đều có đữ liệu huấn luyện tương ứng Tuy nhiên

nếu các âm ba liên từ được sử dụng thì sô lượng các âm ba sẽ rat lớn, có thê lên dén

Trang 21

Đến đây hệ thống đã sẵn sàng được dùng để tiến hành nhận dạng Quá trình

nhận dạng được thực hiện bằng công cụ Hvite.

3.3.1 Xây dựng mang từ nhận dạng

3.3.2 Mô hình ngôn ngữ bigram

3.3.3 Sw dụng mạng từ trong hệ thong nhận dang

3.3.4 Giải ma

3.4 Kếtluận

Trang 22

CHƯƠNG 4 - CHƯƠNG TRÌNH NHAN DANG CHỮ SO

TIENG VIỆT PHÁT ÂM LIÊN TỤC

4.1 Xây dựng chương trình mô phỏng nhận dạng mười chữ số tiếng

Việt phát âm liên tục 4.1.1 Cơ sở dữ liệu

Cơ sở dữ liệu được chia thành 2 tập: tập dữ liệu huấn luyện (training set) và

tập dữ liệu kiểm tra (test set) Tập đữ liệu huấn luyện bao gồm 296 câu, 1686 từ, do

158 người nói (104 nam và 54 nữ) Tập dữ liệu kiểm tra có 74 câu, 317 từ do 38

người nói (27 nam, 11 nữ) Dé đảm bảo tính khách quan, người nói trong tập dữ liệu

kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện.

4.1.2 Phương pháp nhận dang

Phương pháp nhận dạng được sử dụng là phương pháp xây dựng một hệ

thống nhận dạng bằng công cụ HTK được trình bày trong chương 3 Đây là công cụ

được sử dụng nhiều trong nhận dạng tiếng nói.

4.1.3 Kết quả nhận dạng

SENT: %Correct=13.51 [H=10, S=64, N=74]

WORD: %Corr=77.29, Acc=47.00 [H=245, D=4, S=68, I=96, N=317]

Két qua dat được với hệ thống có độ chính xác 77,29% ở mức từ va 13.51%

ở mức câu, nhận thấy chất lượng nhận dạng ở mức câu còn thấp, nguyên nhân do dữ

liệu giọng nói thu âm bằng điện thoại có lẫn nhiều tạp âm như tiếng ho, tiếng cười,

“à, ờ” đối với máy tính trường hợp như vậy gây ra những khó khăn đặc biệt trongnhận dạng tiếng nói

4.2 Nâng cao độ chính xác nhận dạng

4.2.1 Thủ nghiệm với nhiều ham Gaussian

Tiêu đề	Nghiên cứu và xây dựng hệ thống nhận dạng chuỗi số tiếng Việt phát âm liên tục
Tác giả	Tran Anh Cao
Trường học	Học viện công nghệ bưu chính viễn thông
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	25
Dung lượng	3,89 MB