HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
TRAN ANH CAO
NGHIÊN CỨU VÀ XÂY DUNG HE THONG NHẬN DẠNG
CHUOI SO TIENG VIỆT PHAT ÂM LIÊN TỤC
CHUYEN NGANH: KHOA HOC MAY TÍNH
MA SO: 60.48.01.01
HA NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Phản biện 2: - - Ă G111 12111 21111011119 11110 111g tr.
Luận văn sẽ được bảo vệ trước Hội đông châm luận v ăn Thạc sĩ tại
Học viện Công nghệ Bưu Chính Viễn thông
Có thể tìm hiểu luận văn tại:
— _ Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Tính cấp thiết của đề tài
Nghiên cứu nhận dạng tiếng nói tiếng Việt cũng là một van đề được các nhà
nghiên cứu quan tâm, đầu tư công sức trong những năm gần đây Tiếng Việt là ngôn
ngữ đơn âm và có thanh điệu, có nhiều đặc thù khác biệt so với các ngôn ngữ nước
ngoài Việc nghiên cứu nhận dạng tiếng nói tiếng Việt là cần thiết Các thành quả nghiên cứu nhận dạng tiếng nói của các ngôn ngữ nước ngoài cần được kế thừa và
nghiên cứu để áp dụng vào trong tiếng Việt.
Vì những lý do trên, tôi xin lựa chọn dé tài: “Nghiên cứu và xây dựng hệ
thống nhận dạng chuỗi số tiếng Việt phát âm liên tuc”, nhằm nghiên cứu các van đề về nhận dạng tiếng nói và áp dụng chúng trong nhận dạng tiếng nói tiếng Việt.
Mục đích nghiên cứu:
— Nắm rõ các khái niệm, phương pháp liên quan đến nhận dạng tiếng nói.
— Nắm vững kiến thức về đặc trưng tiếng nói , mô hình âm học, mô hình ngôn ngữ
thích hợp cho tiếng Việt.
— Làm chủ công cụ xây dựng hệ nhận dạng tiếng nói.
— Xây dựng chương trình mô phỏng, thực nghiệm, đưa ra nhận xét và kết luận.
Kết quả cần đạt được:
— Hiểu và cài đặt được chương trình nhận dang bằng giọng nói tiếng Việt, qua đó
đưa ra đánh giá, nhận xét và kết luận về mức độ sẵn sang và khả thi của chương
Đối tượng và p hạm vi nghiên cứu :
—_ Giải quyết bài toán nhận dạng chuỗi phát âm các chữ số tiếng Việt (huấn luyện
với số lượng từ vựng giới hạn), độc lập người nói.
— N6i dung của bộ huấn luyện xoay quanh chuỗi số phát âm liên tục,
Phương pháp nghiên cứu:
Trang 4—_ Áp dụng lý thuyết về mô hình Markov ấn - HMM (Hidden Markov Model),
bao gồm khái niệm, các thuật toán liên quan và ý nghĩa của HMM trong hệ nhận
dạng tiếng nói.
— Áp dụng các đặc trưng tiếng nói như MFCC (Mel-Frequency Ceptrums
Coefficients ), PLP (Peceptual Linear Prodiction) cho nhận dạng tiếng nói.
Trang 5CHUONG 1 - TONG QUAN VE NHẬN DẠNG TIENG NÓI
1.1 Giới thiệu
1.2 Nguyên tắc của hệ thống nhận dạng tiếng nói
Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau
Luận văn này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau
đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.
Trang 6Tín hiệu Dãy các Dãy các Từ, câu
tiếng nói đặc tính từ hoặc được nhậnphổ âm vị dạng
Phân tích Phân lớp Xử lý ngôn ngữ
đặc tính mẫu (pattern ; (language >
(feature clasification) processing)
M6 hinh 4m Mô hình ngôn
học (acoustic ngữ
model) (language)
Hình 1.3 Các quá trình nhận dạng
Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ.
1.2.1 Phân tích các đặc tính tiếng nói
Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng
tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan
trọng, chang hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các
đặc điểm riêng biệt của từng người nói, Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói.
1.2.2 Phân lbp mẫu
Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong
đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơ n vị tiếng nói cơ
bản (từ hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu
(template matcher), rule-based, mạng neuron va mô hình Markov an.
1.2.3 Mô hình ngôn ngữ
1.3 Nghiên cứu hiện thời về nhận dạng tiếng nói
1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính
Trang 71.3.2 Cac nghiên cứu về nhận dạng tiếng nói tiếng Việt 1⁄4 Ngôn ngữ tiếng Việt
1.4.1 Đặc điểm âm tiết tiếng Việt
Thanh Âm đầu Phần vần | Bậc 1
Âm đệm Âm Âm cuối Bậc 2
Trang 8Bảng 1.1 Phân bô giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuôi
1.4.3 Sw phân bé của các âm vị tiếng Việt
Bang 1.1 tổng kết sự phân bố giữa nguyên 4m âm chính và các âm đệm và
bán nguyên âm cuối [3].
1.5 Kết luận
Trang 9CHƯƠNG 2 - HE THONG NHẬN DẠNG TIENG NÓI LIÊN
Nhắn mạnh Tạo khung tín Làm cửa số c) DFT
(pre-emphasis) c) hiệu (framing) L) (windowing)
[ |
Lọc tan số Mel
Tính giá tri ( Chinh gia tri h DCT h Logarit giá trị
delta MFCC cepstral năng lượng
FFT 2 Lọc tan số Bark c) Nhắn mạnh dùng ham
(Bark frequency Equal-loudness
Trang 10Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thê là một hệ vật
ly hay hệ sinh thái, ), ký hiệu g, là vi tri của hệ tại thời điểm ứ Các vị trí có thé có
được của hệ được gọi là không gian trạng thái, ký hiệu là S= /S), S;, Š;, } Giả sử
tại thời điểm s hệ ở trạng thái S;, nếu xác suất dé hệ ở trạng thái Š tai thời điểm +
trong tương lai chỉ phụ thuộc vào s, /, S; S; thì có nghĩa là sự tiễn triển của hệ chỉ
phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có
tính chất này được gọi là quá trình Markov.
Nếu không gian trạng thái Š của hệ là đếm được thì ta gọi hệ là xích Markov.
Nếu thời gian ¢ là rời rac £=0,1,2, thì ta có xích Markov rời rac Ta có thé biểu diễn
tính Markov của hệ bằng biểu thức sau :
P(q: = Sj | Ger = Sis qịa = Sx ) = P(e = S; | Ge = Si)
Đặt P(s,i,t,j) = P(q: = S; | qs = S;) là xác suất để hệ tai thời điểm s ở trạng thai i,
đến thời điểm ¿ chuyền sang trang thái j Ta gọi P(s,i,t,j) là xác suất chuyên của hệ Nếu xác suất chuyền chỉ phụ thuộc vào (/-s) tức là
P(s,i,t p= P@+h,,t+h,J)
thi ta nói hệ là thuần nhất theo thời gian Bat dau từ đây ta chi xét xích Markov rời
rạc và thuân nhât ay,
Hình 2 3 Xích Markov với năm trạng thái S;, S,, , Ss và
các xác suât chuyên trạng thái.
Trang 11Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất,
trong đó hệ có thé ở một trong năm trạng thái S), S;, , Sy (trong ví dụ trên N=5).
2.2.2 Mô hình Markov an
Mô hình Markov ân là kết quả của mở rộng khái niệm từ mô hình Markov bằng
cách mỗi trạng thái được gan với một ham phat xa quan sát (observation
Một mô hình Markov ân được đặc trưng bởi các thành phan cơ bản sau :
1) N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký
hiệu bằng S= /S), S», S;, } và trạng thái của mô hình tại thời điểm ¢ được kí hiệu là
2) M, số ky hiệu quan sát (observation symbol), đây là kích thước của bảng từ
vựng của mô hình Các ký hiệu quan sát được biéu diễn bằng V= /v, vo, }.
3) A = {aj}, xác suat chuyén trang thai (state transition probability distribution).
Trong đó z là xác suất dé trang thái / xuất hiện tại thời điểm ¿+7 khi trạng thái i đã
xuất hiện tại thời điểm ¿.
ay PQs! Sj | Si)
4) B = {bj(k)} xác suất phát xạ quan sát trong mỗi trạng thai (observation
symbol probability distribution in state) bj(k) là xác suất của quan sát v, tại trang
thái 7 tại thời điểm ¿.
bj(k) = P(v, tại thời điểm ¢ | gq, = S), (2.1)
5) 1 = {Z\, Z, My} Xác suất trang thái khởi dau (initial state distribution) 7;
là xác suất dé trạng thai i được chọn tại thời điểm khởi dau 1:
ZI=P(4i=S)
Trang 128) Chọn O; = v; tương Ứng với xác suất quan sát tại trạng thái S;: Đ;(#).
9) Chuyên sang trạng thái mới g,,) = Š; tương Ứng với xác suất chuyền trạng
Người ta thường dùng bộ ba 2=(4, 8, z) được coi là bộ ký pháp gọn đề biểu diễn
một mô hình Markov ân A, B và m được gọi là các tham số (parameters) của mô
hình Â.
Hình 2.4 cho ta một ví dụ về một mô hình Markov an gom có sáu trạng thái,
trong đó có một trạng thái khởi đầu và một trạng thái kết thúc Sáu quan sat fo), 0»,
, 06} được sinh ra từ bốn trang thái từ 2 đến 5 Mỗi trang thái có thé chuyển sang
Trang 13trang thái bên phải của nó, hoặc chuyền sang chính nó Riêng trang thái khởi đầu chỉ có một khả năng duy nhất chuyên sang trạng thái thứ 2, tức là z;;=1.
2.2.3 Ba bài toán cơ bản của mô hình Markov an
Có ba bài toán cơ bản của mô hình Markov ân được đặt ra trong ứng dụng
nhận dạng tiếng nói.
Bài toán 1: V6i day quan sắt O= ƒo, 02, 03, } và mô hình Markov an
Â=(4, B, 1) đã được huấn luyện, chúng ta cần tính xác suất P(O /A).
Bài toán 2: Với dãy quan sát O= ƒo,, 02, 03, } và mô hình Markov an
A=(A, B, z) làm thé nào chúng ta có thé tìm được dãy trang thái tương ứng q=(qp
đz, g›, ) tối ưu nhất theo một tiêu chuẩn nao đó.
Bài toán 3: Làm thé nào chúng ta điều chỉnh các tham số A, B, dé có được
xác suất P(O /A) lớn nhất.
Bài toán 1: Đây là bài toán nhận dạng khi có một dãy các quan sát cho trước
và một tập các mô hình Markov ẩn, việc tính toán các P(O / A) sẽ cho chúng ta tim ra được mô hình Markov ẩn có xác suất P(O /A) tương ứng lớn nhất.
Bài toán 2: Day là bài toán tìm phần ân của mô hình Markov, tức là day trạng
thái g Bài toán nay hay được sử dụng trong quá trình gan nhãn cưỡng bức dữ liệu
huấn luyện.
Bài toán 3: Trong bài toán này chúng ta điều chỉnh tham số của mô hình
Markov 4n dé nó miêu tả một cách chính xác nhất các quan sát đã được biết trước
đó Day quan sát dùng dé điều chỉnh các tham số được gọi là tập dữ liệu huấn luyện (training data) Đây là khâu cơ bản trong một bài toán nhận dạng, nó cho phép điều chỉnh các tham số dé học các dữ liệu từ các hiện tượng thực như tiếng nói.
2.2.4 Các giải pháp toán học cho ba bài toán cơ bản
Trang 142.2.5.1 Mô hình HMM rời rac
2.2.5.2 Mô hình HMM liên tục
2.2.5.3 Mô hình HMM ban liên tục
2.3 Kếtluận
12
Trang 15CHƯƠNG 3 - XÂY DỰNG HE THONG NHAN DẠNG LIÊN
HTK cho phép định nghĩa một quy tắc ngữ pháp của một hệ thống nhận dạng
dưới dạng một tệp văn bản Các quy tắc ngữ pháp này sẽ được sử dụng trong giai
đoạn decoding dùng thuật toán Viterbi.
$digit = ONE TWO | THREE | FOUR FIVE |
SIX | SEVEN | EIGHT | NINE | OH | ZERO;
Sname = [ JOOP ] JANSEN
Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ mà hệ
thống có thể nhận dạng được và các phiên âm của các từ này thành các đơn vị nhận
dạng của hệ thống Đối với các hệ thống nhận dạng có số từ vựng lớn, các đơn vị
nhận dạng này thường là âm vị Một từ điển bao gồm nhiều dòng, mỗi dòng tương ứng với một từ và phiên âm của nó.
3.2.1.3 Cơ sở dt liệu
Cơ sở dữ liệu bao gồm các tệp âm thanh lưu ở đạng wav, và các tệp văn bản
chứa phiên âm chính tả của các tệp âm thanh Mỗi tệp âm thanh có một tệp văn bản
tương ứng phiên âm chính tả của phát âm Các phiên âm ở mức âm vị được lưu
trong các tệp có đuôi phn Các phiên âm ở mức âm vị bao gồm nhiều dòng, mỗi
dong chưa tên âm vi cùng với nhãn thời gian của âm vị đó trong tệp âm thanh.
Trang 163.2.1.4 Trích chọn các đặc điểm
Công việc tính toán trích trọn các đặc tính phô của các tệp âm thanh được
thực hiện bởi công cụ Hcopy HTK hé trợ tính toán nhiều tham số khác nhau, trong
đó có các loại thông dụng là MFCC và PLP Các hệ số MFCC va PLP được tính
toán và lưu vào một tệp tương ứng với tệp âm thanh với phần đuôi là mfc Các giá
trị delta của các hệ số trên được tính toán trong quá trình huấn luyện và nhận dạng
Hcopy sẽ đọc một tệp cau hình, trong đó khai báo các tham số ding trong
quá trình tính toán các giá trị đặc tính phô của tệp âm thanh.
3.2.2 Khai báo cau trúc mô hình Markov
3.2.3 Khởi tạo các tham số
Trang 17mẫu huấn luyện 1.mfc
mẫu huấn luyện 2.mfc
mẫu huấn luyện 3.mfc
Trên thực tế, Hcompv làm việc giống như Hinit ở bước khởi đầu, tức là các
vector của một phát âm sẽ được chia thành các đoạn đều nhau đều cho tat cả cá c âm
vị Tuy nhiên khác với Hinit, các âm vi đêu chung nhau một mô hình và các tham sô
của mô hình này sẽ được tính toán và khởi tạo giống nhau Hình 3.3 miêu tả hoạt
Trang 183.2.4 Huấn luyện các đơn vị nhận dang đơn
3.2.4.1 Huấn luyện nhúng bằng Herest
Đây là công cụ huấn luyện chính thực hiện huấn luyện bằng phương thức
nhúng (embedded training), tính toán và cập nhật các tham số của nhiều mô hình
cùng một lúc Day là công cụ quan trọng nhất và được coi là trái tim của hệ thống
huân luyện.
Dữ liệu huấn luyện
Các mô hình pale n pals
3.2.4.2 Gan nhãn cưỡng bức dữ liệu huấn luyện
3.2.5 Huấn luyện các âm ba
Một âm vị luôn chịu ảnh hưởng của ngữ cảnh xung quanh và hệ thống nhận
dạng chỉ làm việc tốt nếu như chúng được huấn luyện bởi các đơn vị nhận dạng phụ
thuộc ngữ cảnh Trong HTK đơn vị phụ thuộc ngữ cảnh được gọi là âm ba (triphone) dé phân biệt với các âm đơn, đơn vị độc lập ngữ cảnh.
Trang 19phiên âm theo
êm đơn âm đơn
Hình 3 6 Quá trình buộc các âm ba bằng Hhed
3.2.6.1 Lái dit liệu
Thuật toán lái dữ liệu (data driven) được khởi động bằng cho tất cả các trạng
thái, mỗi trạng thái vào một nhóm (cluster) Sau đó cặp nhóm mà khi chúng kết hợp
Trang 20lại với nhau sẽ tạo thành nhóm mới có kích thước nhỏ nhất sẽ được ghép lại với
nhau Quá trình này tiếp tục cho đến khi kích thước của nhóm lớn nhất vượt qua
ngưỡng được định nghĩa bởi câu lệnh TC, hoặc là tổng số các nhóm nhỏ hơn
ngưỡng được định nghĩa bởi câu lệnh NC Kích thước của một nhóm được hiểu là
khoảng cách lớn nhất của một cặp trạng thái bất kỳ trong nhóm Đối với trường hợp
hàm phát xạ quan sát của trạng thái là hàm Gaussian thì khoảng cách là khoảng
cách Euclidean giữa các tham sô của các hàm mật độ xác suât.
Hình 3 7 Buộc các trang thái
Hình 3.8 miêu tả hoạt động của một trường hợp dùng lái đữ liệu như sau:
T+E 100.0 “oa” {*-a†*.statel2]}
3.2.6.2 Phân nhóm bang cây
Một trong các nhược điểm của phương pháp lái dir liệu là không thực hiện được với các âm ba mà không có dữ liệu huấn luyện Khi xây dựng hệ thống nhận
dạng với các âm ba giới nội từ, vấn đề này có thé tránh được bởi lựa chọn dữ liệu
huấn luyện để cho tất cả các âm ba đều có đữ liệu huấn luyện tương ứng Tuy nhiên
nếu các âm ba liên từ được sử dụng thì sô lượng các âm ba sẽ rat lớn, có thê lên dén
Trang 21Đến đây hệ thống đã sẵn sàng được dùng để tiến hành nhận dạng Quá trình
nhận dạng được thực hiện bằng công cụ Hvite.
3.3.1 Xây dựng mang từ nhận dạng
3.3.2 Mô hình ngôn ngữ bigram
3.3.3 Sw dụng mạng từ trong hệ thong nhận dang
3.3.4 Giải ma
3.4 Kếtluận
Trang 22CHƯƠNG 4 - CHƯƠNG TRÌNH NHAN DANG CHỮ SO
TIENG VIỆT PHÁT ÂM LIÊN TỤC
4.1 Xây dựng chương trình mô phỏng nhận dạng mười chữ số tiếng
Việt phát âm liên tục4.1.1 Cơ sở dữ liệu
Cơ sở dữ liệu được chia thành 2 tập: tập dữ liệu huấn luyện (training set) và
tập dữ liệu kiểm tra (test set) Tập đữ liệu huấn luyện bao gồm 296 câu, 1686 từ, do
158 người nói (104 nam và 54 nữ) Tập dữ liệu kiểm tra có 74 câu, 317 từ do 38
người nói (27 nam, 11 nữ) Dé đảm bảo tính khách quan, người nói trong tập dữ liệu
kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện.
4.1.2 Phương pháp nhận dang
Phương pháp nhận dạng được sử dụng là phương pháp xây dựng một hệ
thống nhận dạng bằng công cụ HTK được trình bày trong chương 3 Đây là công cụ
được sử dụng nhiều trong nhận dạng tiếng nói.
4.1.3 Kết quả nhận dạng
SENT: %Correct=13.51 [H=10, S=64, N=74]
WORD: %Corr=77.29, Acc=47.00 [H=245, D=4, S=68, I=96, N=317]
Két qua dat được với hệ thống có độ chính xác 77,29% ở mức từ va 13.51%
ở mức câu, nhận thấy chất lượng nhận dạng ở mức câu còn thấp, nguyên nhân do dữ
liệu giọng nói thu âm bằng điện thoại có lẫn nhiều tạp âm như tiếng ho, tiếng cười,
“à, ờ” đối với máy tính trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói.
4.2 Nâng cao độ chính xác nhận dạng
4.2.1 Thủ nghiệm với nhiều ham Gaussian
Trang 23Trong lần thử nghiệm này 3 ham Gaussian được sử dung Qua kiểm thử tra
thử nhận dạng trên dữ liệu kiểm tra, hệ thống bao gồm 3 hàm Gaussian đã cho kết
quả cải thiện tot hơn so với hệ thông chi bao gôm một ham Gaussian:
SENT: %Correct=14.86 [H=11, S=63, N=74]
WORD: %Corr=78.23, Acc=47.95 [H=248, D=3, S=66, I=96, N=317]
Kết quả đạt được với hệ thống có độ chính xác 78.23% ở mức từ va 14.86%
ở mức câu, so với 77,29% ở mức từ va 13.51% ở mức câu ở hệ thống sử dụng một ham Gaussian.
43 Kết luận