Mục đích nghiên cứu Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước ngoài
Trang 1MỤC LỤC
SIP CỦN DI ee-ceeeeeenvneeennetsetnornnnneroermssccorneanscncretscnmsnnmmssntrnrnormaciSogcSl?508)54308)02550102803030G0Í 5
MẪ ĐẤT uangga gu aiTtiitötikghangoatthötg 408000003060 608080401 G0801G00.G00H1GS0IG0GGIHSIEIHLGIIAS.000002010/404 6
[7t(c8 9214 (oayv0A2/2z7/v0002n®.®^.— 1
BANG KE CÁC THUAT NGỮ ANH VIET sssssssssssssssssssssssssssssssssssssssssseeeessessssnsnnnusssssssssessesesssssessssse 12
CHUONG 1 TONG QUAN VE NHẬN DANG TIENG NÓI essssssssssssssssssssesssssssssnsessesssnsnessesiee 141.1, Giối (CU iesessscccesssssssesesesssvcasssscencecasasssesecencnseteasecenccctisscstasetvesvtovsunessetensesessiccessccsiasesacsesecsbseussesseaes 14 1.2 Nguyên tắc của hệ thống nhận dang tiếng nGi sssssssesscscssenssseesssssessssssessssssscesssssssererseees 16
12.1 Phan tich die tinh tena Hồ aosoosoaonaaonikiatooiiidliibiisas00106042051114410515669040086160150005603646064-158 18
122 Para NG py Bore ceca ceaseceecscecc cave vascecsesatevsnvoresaeresevescvtsvene cautsexaanscousuyssuysssaveuserevasvweseeorwavrsse 19
12/5 SMUG ngônNEŨ sesesesse ccs cersecervexesvccassxecesseussovesa eveneseecvasssaen isnssacesuneusserscasunsecoonsnionestersvevsoase 20
13 Nehiên cửo hiện thôi về nhận đang tiếng 1G) csc sescccsersssressescssersrerssencesesucnacsvassvenssesencsasecesessvensn 21
1.3.1 Các yếu tố ảnh hưởng đến kha năng nhận dạng của máy tính - -¿«-s+-+>+++ 21
1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài - -«- «+ +>++++ 23
1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng VIỆT .- Ăn xe, 25 1:4 Cơ sở dữ liệu tiếng HỒI:¿.:-s¿sc sec S00cSS620SE006216666001424668685646516860865666468885468660568408/0/506696668.4895466668g36 27
125/NNgôn ngữ tiếng Vi uissssssesseoisiiessiisoicscLG155201554166x586E56E6s6034x5u1ã9661041330130856535ns2u8yðexexSvlxsE374g0-48 28
1.5.1 Đặc điểm âm tiết tiếng Vikt c.ccccccsscsccsssssssssssssssssssscsssessssseesesssssecssssssusesssessseveesessssnsveeees 28
li âm dể VY EDseenssdesdenanuensanneoddiaeioiiitg9c04SS0ES0SPBGEQEIROSGUSEAGEEEHBG 30
15,3 Sự phần bố của các ầm vị tiếng Viel wssssessescsvsssvsssecsesosscsessovsessassvesaveavswessnsanesnvrceseesnsssoevess 33
CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNGNÓI LIÊN TỤC SỬ DỤNG HMM VÀ ANN 34
2.1 Các phương pháp xử lý tín hiệu tiếng nói << «<5 «S4 S49 999.58 2 0258.555505 34
2.1.1 Phương phap tính hệ số MHC scaassaossaoadgooiattoogloobiHllgitglljilitdiaiibiilotsgsslsdsassiese 34
212 Phuong pháp tính hệ số PLT ¿;ss¡: aicaiaiobssgaesagesseicsicsseclistEOEpGEHOddSgiaaitasae Sf
21.3 Cae kỹthuấtkhữnHIÊUssvsessossosasaaoaootsoabiainooigihoatsiSGGS0RGIADAISVERERANSEUAIOSĐERG 39
2:3 Mô hình Mar tO Ait rsccssissnsanncnccsnnccmmmnnnnannamnnanmanieunamannananaumamsuniesasinsiatis 40
Ded, CAAT MAtKOW <c0< ovens vonyecacoacaszesescawaceueedsslsaneseccesacevarseroncaucctssecvelsvmasuentaesensiseevaseseonien 40
2.2.2 Mô hình Markov An c.ccccccsesesescssesesesescscsescseevcssvasececeacscacseacstscseseecsesavaveveusesveeensesecerecees 42 2.2.3 Ba bài toán co ban của mô hình Markov An ccccsssessscseseeeeeesesescscscscsesesescacstsvacsesescsees 44
2.2.4 Các giải pháp toán học cho ba bài toán cơ bản - - - + 5c + +3 se +33 xxx sex cxcccsscxc 45
3Š Che Lea nổ Ninh NHHằGVŨH:caaoaaaaaaadttqgdayndaintipdaoaeiesssemesee=e 52
2.3 Manag ñeuUiFon: Mian ĐÃO sscssstssesccscsessecesossessssvsciesessessdcessadansnsadeasondecésassosssncessacosssnensnacanessxeasonsutonteien 54
0.3.1 GIỚI HIẾU sessscitoiesooiiioooeotortipiliiotlki460001502916835999590466410104566509590461300214343SE1S4393932E0L0.RQSQDSVlESĐ 54
2.3.2 Mang Perceptưon đa lop MUP :á:áesceenaeiooiiiiaeddediiisdE6004660000550666100560/860380611301000.00 54
24 Huấn hiyện các hệ Hiếng nhữn Gane scencicsmnsscnnsncmmnnccmnnnonannummmnumimnummnamnane 58
2.4.1 Huấn luyện hệ thống nhận dạng dùng HMM liên tục - - 5< 555+scx+x+xcscs2 58
2.4.2 _ Huấn luyện hệ thống nhận dang dùng ANN cccccccsccecceseeseesecseessesteseesesseesessecstereeanees 62
Trang 22.4.3 Huấn luyện hệ thống nhận dạng dùng HMM/ANN - -.- si 64
2.5 Nhận dạng << se s29 S999999393909939400900.90000.0009000000000098009.0000000/00000000000000000000000000000000000 67
9.5.1 Xây dựng MANE UW scccccsessccsssnsccccessesscssssvesssesecserevsnesecresessesesessvseesenssnsetsssssevessssenoronsossaveene 67 2:52 MoO hinh ngdningil N=pram c.cc.cocsrrssccosecccosnsocscsenccnenseceasenenenenseenssenceneesnensenescacoveasaes 67 2.5.3 Sử dụng mang từ trong hệ thống nhận dang ccccecceeseeeeeeeneneneneeeeseneeeteneneneteeeeetenees 68
254 - GIẢ IH, eeeseeennssdsnseeroossesaaesoordESESSGISASOSXGSIEGI2ĐLESETX43803Đ139336033ÿ8X8X434530844910E08 69
CHƯƠNG 3 CƠ SỞ DU LIEU VÀ GAN NHÂN TIENG VIỆT -<-c55ccs 72
3.1 Bảng ký tự phiên âm sssss<sesscssseess2eE.2893900803000300800300003000080000000000.00000800080 s00 72
3.2 Gan nhãn bằng tay eo cscssosssn2e95950025090090000909000090909090090909804040080800000009000000000800000.n9ø 73
3.1 Giới HI*ỂU.««seSSSS=sn=eeeeennssesstritoaslxkiSE0524GG0G000001058401386956308G018393001S34V08SS0G80 73 32.2 Các nguyên tắc chung về gán nhấn bằng thy :‹‹ -oaaeesooreisianianDasiiiadaaaasee 75
BOS CAC BH EÍGtcs:oooinitiooiiEGHAAGGIHGELONGOOGGSRISIAAEGORASHAAGGRASSERADSAASASdi4569300v1813828 8x80 75
1Ì di mlBfoesesaaanaraurrrrroeteoltENGSEDGSEGREENNGiNiASABDEagii-g000t0nthnbiftulaskG) 76
z8 m5 75 ` T1
3/26 PAW Ẩm MUL sevesvsecescsvsesssessrvvassesccossenssoseaevensoensoneuonevooseosevecenaesooaneaneencenrtensarstseanseneaacenesnenae 78
3.2.7 Nguyên âm đơn, nguyên âm đôi va bán nguyên âm - - + + s+cs+sseeerreeerrx 78 323.8 Phụ fm CHỦ, eeeseeeesiessrmeeedenemseosrtkidsskdtdsGSIEDHIQGGIENGA45E,4SSlSMSHiESG1830800300ã88 79
S%H AHrfG(HAGRNHoissosaagadkiiotddaieiatrodtidtitoitioitodgaGE00101108Q00S040 8003910080 80
33:10 Ấm ÄR Huerneanggaronstittoiinisgi00001GG1A090012S008G005N0SNGSG3NTEHHNNGIGGGEEDSGRINHOQNGEUHSIH 81
3:3 Gain Win HỨ ỐNG sssscccssecsscsscaccassesescesessecsessscessissessacscessnesenas cunsesacesceseansnsdsasssuceenscuaucossaeeesianeeaeeeee 81
3.3.1 Giới thiệu -Ă St St + xxx tt TT cà HH Hàn Hit 81 3.3.2 Gán nhãn tự động cơ sỞ dỮ Litu oesssersersorsensorersesorsensanssanperenesneessanensenceossrsonsonseneess 83
3.3.3 Đánh giá độ chính xác của gan nhãn tự dONg - - - cà St sserkrrrrkrrrrkrriree 84
3:4 Xây dựng cơ sở dik liệu Hếng Vib ceeccsneenscesesessessctsesitossinetesnwntoensstnensansnatenenbneentsvananastnivenenennsiansins 85
BAL - GIỐithIỆU+ssussaaensoisesdbiOtiiiistiiDiiakidlioidsbotdsiA5600001000602261060801605608590345E661331/68600144400118% 85
3.4.2 Gidi thiệu cơ sở dữ liệu tiếng nói của CSÌLU 5-5 - 5xx server §5 3.4.3 Phương pháp xây dựng cơ sở dữ liệu tiếng VIỆt 5 + St sevrrkrsrrrkrkrree 87
CHUONG 4 HỆ THỐNG NHAN DẠNG TIENG VIỆT LIÊN TỤC 88
4.1 Phân tích hai phương pháp nhận dạng HMM liên tục và HMM/ANN - 88 4.2 Hệ thống nhận dang chữ số tiếng Việt liên tục sử dụng HMM/ANN - 94
Oe MC] Co] CHIẾU ee ee eS eee 94
4.2.2 Hé thống nhận dang chữ số liên tục tiếng Việt dùng ANN c<ccecce- 95
4.2.3 Vai trò của âm đóng trong phiên âm các chữ SỐ - - - + 5+5 ++s+seexrvsexrvsssee 97 4.2.4 S6 lượng category cho mỗi nguyên âm ects + + xxx re 101
4.2.5 GiGi hạn về độ dầi - - + + xxx vn TT TT HT HH TT T3 103
4.2.6 Phuong pháp trích chọn đặc đính phổ của tiếng nói - +5 + ++s+s+vsxes+2 105
4.2.7 Hé thống nhận dang mười chữ số tiếng Việt dùng mạng HMM/ANN 107 4.2.8 _ Hệ thống nhận dang chữ số tiếng Việt dùng HMM liên tục -.-‹-‹-+s«¿ 108
4.2.9 _ Nghiên cứu sử dụng tần số cơ bản + xxx 108
' 0N can gnỪ ®® -"L - 112
Trang 34.3 Hệ thống nhận dạng liên tục tiếng Việt không thanh điệu kích thước trung bình 114
4.3.2 Hệ thống nhận dạng cơ sở dùng HMM liên tục - - -¿5+5++5+<<excxexsxsee 115
4.3.3 Xây dựng hệ thống với nhiều hàm Gauss 0:ccsscccvscsecsssceccensessssesosversxcrssssensavesscavsvnresvenes 118
4.3.4 Bổ sung thêm âm vị khoảng lặng - 5-5 Street 119
ASS XVaitGclafämdONBtassesaosooaeniirirEGEIEGOIEOHIEHEOONHOUNEHGEERGEEENEOLOEESEOEEAANEEEEAEHEMOSES 119
3:6 TPhụ mrcuối l Arn HÌỮS.222266.212/000/000x0 000022202 0DWDDHOUANUUIEEDORYUEWOHIEEV 123
A3.7 Thi nghiện tiếng địa phương KhỔ HEỮ‹e.eeosaenoa.ỷaaaoovdornooainadddobaiaoassodgsioab 124
4.3.8 _ Huấn luyện với các thông tin nhãn thời g1an : 5: 5c +Sc‡++s+s+sseeexsexeerereree 126
4.3.9 Thử nghiệm với dữ liệu kiểm tra và dữ liệu huấn luyện trùng nhau 126
' hi mnẢ 128
4.4 Chương trình ứng dụng nhận dạng tiếng nói -<-< <<<=<=5< 5< se se es£eeeseseeeetesee 130
4.4.1 Chương trình trình diễn nhận dạng chữ số tiếng Việt liên tục - - 131 4.4.2 _ Chương trình nhận dạng tiếng Việt không thanh điệu liên tục kích thước trung bình 132 4.4.3 Chương trình ứng dụng thông tin qua mạng điện thoại - -¿: -+55+c5++5<+ <<: 133
4.4.4 Nguồn thông tin liên quan đến luận án trên Ïnternet - - - :©- +5: 5+ s++‡+ +: 135
KẾT LUẬN on HH H0 dhgĐcS2S5339ng07gHtoycocoSASogvlPbĐĐGSĐ05E59212042711eg20 ecpetigtnimrre136
CÁC KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO -creeeeesaeee 137 PHU LUC A BẰNG KỸ HIỂU ẤM VỊ TIẾNG VIỆT ¿uaaaaaadiiidiidtidiottiaudgtnlaiotbiiaissgbs 139 PHU LUC B GIỚI THIỆU MỘT SO BỘ CÔNG CỤ XỬ LÝ TIẾNG NÓI 141
DANH MỤC CÔNG TRÌNH CUA TAC GIẢ LIEN QUAN DEN LUẬN ÁN - 143
Trang 4MỞ ĐẦU
Tính cấp thiết của đề tài
Năm 1969, TS John Pierce, Giám đốc Nghiên cứu thuộc Phòng thí nghiệm Điện
thoại Bell đã viết một bài báo nổi tiếng “Đích đến của nhận dạng tiếng nói”, trong đó ông cho rằng nhận dạng tiếng nói là một nhiệm vụ không thể thực hiện được với máy
tính và “sự lôi cuốn nghiên cứu về nhận dạng tiếng nói giống như là sự lôi cuốn việc
nghiên cứu biến nước thành dầu lửa, lấy vàng từ đáy biển, chữa trị bệnh ung thư hay đi
tới mặt trăng” Vào năm 1980, GS Gorge trong một bài báo tương tự cũng cho rằng
không cần thiết phải xây dựng các hệ thống hiểu tiếng nói để thu nhận thông tin qua
điện thoại hoặc là ra lệnh cho máy tính vì những nhiệm vụ như vậy là quá khó khăn
[33] Tuy nhiên trái ngược với các dự đoán, hiện nay một số ứng dụng nhận dạng tiếng
nói đã được dùng rộng rãi trong xã hội và trong khoa học, đặc biệt là trong viễn thông.
Điện thoại di động đã có thể quay số điện thoại bằng giọng nói, các hệ thống xử lýthoại đa kênh có thể điều khiển các cuộc gọi thông qua tiếng nói, máy tính cá nhân vớiphần mềm nhận dạng tiếng nói có thể trợ giúp cho những người khiếm thính, các phần
mềm thương mại nhận dang đọc chính tả đã được sử dụng tại Mỹ, Canada, Nhật,
Sự phát triển vượt bậc của ngành khoa học nhận dạng tiếng nói trong vài thập kỷ
gần đây là kết quả của việc áp dụng các phương pháp tiên tiến của công nghệ thông tin.
Một trong những phương pháp đó là mô hình Markov ẩn HMM (Hidden Markov
Model) và mạng nơ ron nhân tạo ANN (Artificial Neural Network) Đây là hai phương
pháp được nghiên cứu nhiều nhất hiện nay trong các phòng thí nghiệm nhận dạng tiếng
nói trên thế giới Các hệ thống nhận dạng thử nghiệm có thể nhận dạng đến hàng chục
nghìn từ với độ chính xác trên 90%.
Tuy vậy đó là những nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài Với tiếng Việt, số lượng các nghiên cứu nhận dạng tiếng nói mới còn khá khiêm tốn và
không có nhiều công trình được công bố trong lĩnh vực này Các nghiên cứu nhận dạng
tiếng nói tiếng Việt mới chủ yếu mới chỉ tập trung vào các bài toán nhận dạng các từ rời rạc hay hệ thống nhận dạng liên tục kích thước nhỏ Chưa có nghiên cứu về hệ
thống nhận dạng tiếng Việt liên tục với kích thước trung bình và lớn Việc nghiên cứu
Trang 5nhận dạng tiếng nói tiếng Việt là rất cần thiết để xây dựng các hệ thống nhận dạng
tiếng nói của riêng tiếng Việt, đưa các hệ thống này áp dụng vào trong thực tế.
Mục đích nghiên cứu
Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng
nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước
ngoài: mô hình Markov ẩn HMM, mạng nơ ron nhân tạo ANN và hệ thống lai ghép
giữa hai phương pháp này (hybrid HMM/ANN) Trên cơ sở các nghiên cứu này, ứng
dụng các phương pháp nhận dạng trên vào trong nhận dạng tiếng Việt.
Luận án đặt vấn đề nghiên cứu phương pháp thiết kế, xây dựng cơ sở dữ liệu tiếng
Việt và đặc biệt là phương pháp gán nhãn âm vị cho phát âm liên tục tiếng Việt.
Luận án nghiên cứu và tìm hiểu các đặc điểm chung và đặc điểm riêng biệt của
ngôn ngữ tiếng Việt so với ngôn ngữ nước ngoài để từ đó phân tích và phát hiện các vấn
đề đặc thù của ứng dụng hai phương pháp nhận dạng trên vào trong hệ thống nhận dạng
tiếng Việt liên tục Các kết quả nghiên cứu của nhận dạng tiếng nước ngoài và một số kết quả nghiên cứu của các tác giả trong nước về nhận dạng tiếng Việt sẽ được kế thừa
và sử dụng Các thử nghiệm tập trung vào các khía cạnh đặc trưng của ngôn ngữ tiếng
Việt và các vấn đề nhận dạng các phát âm qua điện thoại.
Thanh điệu là một thành phần của giọng nói Với các ngôn ngữ không có thanh
điệu, thanh điệu ít được nghiên cứu sử dụng Tiếng Việt là một trong số ít ngôn ngữ có
thanh điệu Luận án nghiên cứu về vai trò của thanh điệu trong các hệ thống nhận dạng
tiếng Việt, tận dụng thông tin về thanh điệu để nâng cao hiệu quả nhận dạng tiếng Việt
Phạm vỉ nghiên cứu
Các hệ thống nhận dạng tiếng nói bao gồm hai loại: hệ thống nhận dạng từ rời rạc
(discrete) và hệ thống nhận dạng từ liên tục (continuous) Nhận dạng từ liên tục bao gồm hệ thống nhận dạng kích thước nhỏ và hệ thống nhận dạng kích thuớc trung bình
hoặc lớn Nhận dạng từ liên tục là một bài toán khó khăn hơn nhiều so với nhận dạng từ
rời rạc Hiện nay mới chỉ có một nghiên cứu về hệ thống liên tục kích thước nhỏ tiếng
Việt (mười chữ số) được trình bày trong luận án của TS Nguyễn Thành Phúc Trong đề
tài này nghiên cứu sinh (NCS) đặt vấn đề tập trung nghiên cứu về hệ thống nhận dạng
từ liên tục.
Trang 6Tuy nhiên xây dựng một hệ thống nhận dạng liên tục kích thước lớn (tới hàng chục nghìn âm tiết) hoặc không hạn chế số lượng âm tiết là một nhiệm vụ phức tạp và mất
nhiều thời gian, vượt ra ngoài khuôn khổ của một đề tài nghiên cứu sinh Luận án giới
hạn nghiên cứu các hệ thống nhận dạng liên tục kích thước nhỏ và trung bình Việc
nghiên cứu hệ thống nhận dạng kích thước trung bình sẽ là một bước chuẩn bị để mở
rộng nghiên cứu về hệ thống nhận dạng kích thước lớn.
Một trong các lĩnh vực được áp dụng nhiều nhất của nhận dạng tiếng nói là ngành
viễn thông, nhận dạng các thu âm qua hệ thống điện thoại Tiếng nói thu âm qua điện
thoại có đặc điểm là: có nhiều nhiễu trên đường truyền, chất lượng thu âm thấp, tần số
bị giới hạn trong giải 300-3400Hz, độ đa dạng cao do sự đa dạng của mạng điện thoại:
kiểu của micro, kiểu của tổng đài chuyển mạch, hệ thống truyền dẫn Các nghiên cứu
hiện thời về nhận dạng tiếng nói tiếng Việt mới chỉ tập trung vào các thu âm trong môi
trường cách âm hay văn phòng mà chưa có nghiên cứu về các thu âm trong điện thoại.
Với mong muốn nghiên cứu về các đặc thù của các thu âm qua điện thoại, giải quyết
các vấn đề với các thu âm chất lượng không cao, luận án tập trung nghiên cứu hệ thống nhận dạng tiếng nói qua mạng điện thoại.
Ý nghĩa khoa học và thực tiễn của đề tài
Nhận dạng tiếng nói đang được nghiên cứu tại nhiều nước trên thế giới, tuy vậy ở
Việt nam nghiên cứu nhận dạng tiếng nói còn ít Các nghiên cứu của luận án tập trung
vào các vấn đề đang còn chưa được nghiên cứu nhiều trong tiếng Việt.
Cơ sở dữ liệu tiếng nói tốt góp phần nghiên cứu nhận dạng tiếng nói đi đúng hướng
và thành công Hiện tại chưa có cơ sở dit liệu tiếng nói với số lượng từ lớn và chất lượng tốt cho tiếng Việt Luận án đã xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với số lượng người nói trên 200 người: cơ sở dữ liệu mười chữ số và cơ sở dit liệu
có kích thước từ điển 528 từ Hai cơ sở dữ liệu này giúp cho nghiên cứu về các hệ thống
nhận dạng tiếng nói tiếng Việt Ngoài ra qua kinh nghiệm nghiên cứu xây dựng hai cơ
sở dữ liệu này, luận án giới thiệu một số tiêu chí và phương pháp để xây dựng cơ sở dữ
liệu lớn hơn.
Gan nhãn âm vi là bước thứ hai trong xây dựng cơ sở dữ liệu tiếng Tuy vậy phương
pháp gán nhãn chưa được nghiên cứu trong tiếng Việt Luận án đã giới thiệu một
Trang 7phương pháp gán nhãn âm vị bằng tay các phát âm liên tục tiếng Việt Ngoài ra một
phương pháp gán nhãn tự động âm vị được trình bày trong luận án để giúp cho công
việc gán nhãn được nhanh chóng.
Luận án đã nghiên cứu hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua điện thoại dùng hệ thống hai ghép HMM/ANN với độ chính xác là 97,78% ở mức từ và 91,78% ở mức câu Kết quả này gần tương đương với các hệ thống nhận dạng tương tự của nước ngoài Các chương trình trình diễn và chương trình ứng dụng của hệ thống này
đã được xây dựng để minh hoạ khả năng ứng dụng của hệ thống nhận dạng này trong
thực tế.
Luận án mạnh dạn nghiên cứu về hệ thống nhận dạng liên tục tiếng Việt kích thước
trung bình gồm 528 từ Phương pháp được áp dụng là dùng mô hình Markov ẩn liên
tục Tuy kết quả nhận dạng còn chưa cao: 76,57% ở mức từ và 29,97% ở mức câu,
nhưng các phân tích và phát hiện của luận án về các đặc thù của nhận dạng tiếng Việt là
thông tin có ích trong bước tiếp theo: nghiên cứu hệ thống nhận dạng kích thước lớn.
Tổ chức của luận án
Nội dung cơ bản của luận án gồm bốn chương:
Chương 1: Tổng quan về nhận dạng tiếng nói.
Trình bày khái quát về nguyên tắc hoạt động, các bộ phận của hệ thống nhận dạng
tiếng nói; độ chính xác hiện thời của các hệ thống nhận dạng tiếng nước ngoài và tiếng
Việt; cơ sở dữ liệu tiếng nói và các đặc điểm của ngôn ngữ tiếng Việt
Chương 2: Hệ thống nhận dạng tiếng nói liên tục dùng HMM và ANN.
Trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói liên tục, các phương
pháp trích chọn các đặc tính phổ; cơ sở lý thuyết của mô hình Markov ẩn HMM và ứng
dụng của chúng trong nhận dạng tiếng nói; cơ sở lý thuyết của mạng neuron đa lớp;
phương pháp huấn luyện hệ thống nhận dạng tiếng nói; thuật toán nhận dạng, giải mã.
Chương 3 Cơ sở dữ liệu và gán nhãn tiếng Việt.
Trình bày các phương pháp được sử dụng để xây dựng cơ sở dữ liệu tiếng Việt,
phương pháp phiên âm chính tả và bảng ký hiệu âm vị tiếng Việt; phương pháp gán
nhãn bằng tay ở mức âm vị cho các phát âm liên tục tiếng Việt; phương pháp tự động
Trang 8gan nhãn các âm vi trong một co sở dữ liệu; xây dựng hai co sở dữ liệu tiếng Việt thu
âm qua điện thoại.
Chương 4 Hệ thống nhận dạng tiếng Việt liên tục
Trình bày các hệ thống nhận dạng tiếng Việt liên tục được nghiên cứu, phân tích về hai loại hệ thống nhận dạng: hệ thống nhận dạng dùng HMM liên tục và hệ thống nhận
dạng dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng chữ số tiếng Việt liên tục dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng liên tục tiếng Việt không
thanh điệu có kích thước trung bình dùng mô hình HMM liên tục; một số chương trình
trình diễn nhận dạng tiếng Việt.
Sau cùng là một số kết luận và kiến nghị cho các hướng nghiên cứu tiếp theo.
10
Trang 9BANG KE CÁC KÝ HIỆU VIET TAT
DHMM Discrete Hidden Markov Model
Dynamic Time Warping
EM Expectation-Maximization
FFT Fast Fourier Transform
HMM Hidden Markov Model (Mô hình Markov ẩn)
HMM/ANN
IPA
FO
F1,F2,F3 Formant 1, Formant 2, Formant 3
LPC Linear Predictive Coding
LVCSR Large-Vocabulary Continuous Speech Recognition
MAP Maximum A Posterior
MFCC
Hệ thống lai ghép giữa mô hình Markov ẩn va mang neuron
International Phonetic Alphabet (Bảng ký tự phiên âm quốc tế)
Formant 0 (Tần số formant cơ bản)
Mel Scale Frequency Cepstral Coefficients (Các hệ số cepstral với
thang tan s6 Mel)
ML
MLP Multi-Layer Perceptron (Mang no ron Perceptron da lớp)
NCS Nghiên cứu sinh
Trang 10BANG KE CÁC THUẬT NGỮ ANH-VIỆT
acoustic model mô hình âm học
embeded Waning
fundamenal frequency (pitch)
12
Trang 11one «ane
13
Trang 12CHƯƠNG1 TỔNG QUAN VỀ
NHẬN DẠNG TIẾNG NÓI
Trong chương này, phần một giới thiệu khái quát về hệ thống nhận dạng tiếng nói.
Phần thứ hai trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói, các giai
đoạn cơ bản của hệ thống nhận dạng tiếng nói Phần tiếp theo trình bày về khả năng
nhận dạng hiện thời (state of art) của các hệ thống nhận dạng trên thế giới với các ngôn
ngữ nước ngoài như tiếng Anh, tiếng Hán, tiếng Thái Các nghiên cứu hiện thời về nhận dạng tiếng nói đối với tiếng Việt cũng được giới thiệu Phần thứ tư trình bày về cơ sở dữ
liệu tiếng nói, một bộ phận gắn liền với nhận dạng tiếng nói Phan cuối dành để trình
bày về đặc điểm của ngôn ngữ tiếng Việt.
nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng
với các mẫu đã được học và lưu trữ trong bộ nhớ.
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào
của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật
xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói
những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
— Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời
gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm
Trang 13tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để
nhận dạng tiếng nói.
— Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu
ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm
thành dãy các ký hiệu ngữ âm.
— Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics)
và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng.
Lĩnh vực nghiên cứu của nhận dạng tiếng nói khá rộng liên quan đến nhiều ngành
khác nhau Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói :
— Xử lý tín hiệu số (digital signal proccessing): Các kỹ thuật xử lý tín hiệu số dùng để
phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan
trọng từ tiếng nói.
— Vật lý hay âm hoc (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế
hoạt động của tai người.
— Nhận dang mẫu: các thuật toán dùng đề phân loại dữ liệu thành tập các mẫu và đối
sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu
— Lý thuyết thông tin và khoa học máy tính (information and computer science
theory): các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật
toán giải mã và mã hoá (lập trình động, các thuật toán dùng ngăn xếp, giải mã Viterbi)
để tìm một đường đi tốt nhất dãy các từ được nhận dạng
— Ngôn ngữ hoc (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói.
— Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người cũng như là quá trình phân tích âm học và ngôn ngữ tại bộ não.
— Tâm lý hoc ứng dung (applied psychology) Những kiến thức về quá trình sinh ra
tiếng nói cũng như quá trình nhận thức tiếng nói của loài người.
15
Trang 1412_ NGUYÊN TAC CUA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau: nhận dạng từ rời
rac (discrete) và nhận dang từ liên tục (continuous) với hai loại: hệ thống kích thước
nhỏ và hệ thống kích thước trung bình hoặc lớn [31].
Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong
các chương trình dang câu lệnh-điều khiển (command-control), chẳng hạn như ứng
dụng quay số bằng giọng nói trong điện thoại di động Bài toán nhận dạng tiếng nói các
từ rời rac rõ rang là dé hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục.
Luận án này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau đây trình
bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.
Một phát âm dưới dạng wav được phân tích thành một dãy các vector đặc tính phổ,
mỗi vector tương ứng với một khung tín hiệu (thường có độ dài 10ms) Ví dụ một phát
âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y,, y>, , yp.
Phat âm là một dãy các từ W= w¿, wp, , w„, và nhiệm vụ của hệ thống nhận dạng
là tìm ra được dãy từ JÝ có xác suất cao nhất với dãy các vector đặc tính phổ Y cho
trước.
l6
Trang 15Mô hình âm thanh
W = are max P(W | Y) =argmax ren (W |Y) gn PW)
Do xác suất P(Y) là độc lap với W, do đó để tìm được dãy từ có xác suất cao nhất
W phải tìm day từ sao cho hai xác suất P(W) va P(Y/W) cao nhất Xác suất P(W) độc
lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language
model) Xác suất P(Y/W) được xác định bởi mô hình âm hoc (acoustic model).
Hình 1.2 cho thấy mối quan hệ giữa các xác suất này Trong đó với một phát âm là day từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W) Bang từ điển phiên âm
ta biến đổi chúng thành dãy các âm vị tương ứng Dãy các âm vị này cho ta xây dựng
một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng Phát âm được trích chọn các đặc điểm đưa vào mô hình Markov ẩn lớn này
mộ | i V-LY 225 |
Trang 16sẽ cho ta xác suất P(Y/W) Về mặt nguyên tac quá trình này có thể lặp di lặp lại với tất
cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất.
Dãy các đặc Dãy các từ ;
tinh phổ hoặc âm vi Từ, câu được
nhận dạng
Tín hiệu =a - ———
tiếngnói | Phân tích đặc Phân lớp mâu Xử lý ngôn ngữ
——>| tính (feature (pattern (language
analysis) clasification) processing)
Các từ, âm vi
Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language) model) Hình 1.3 Các quá trình nhận dạng
Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng Một quá trình xem xét song song tất cả các dãy từ có thể được áp dụng và một quá trình chọn lọc
xoá đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding).
Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có
ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ
1.2.1 Phân tích đặc tính tiếng nói
Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan trọng,
chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm
riêng biệt của từng người nói, Tiếng nói được phân tích theo từng khung thời gian
(frame) với độ dai dao động từ 8ms tới 25ms [24] Kết qua ra của giai đoạn này là các
vector đặc tính của mỗi khung tín hiệu tiếng nói
18
Trang 17Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín
hiệu tiếng nói đó là phương pháp dựa vào mô hình hoá đường phát 4m (vocal tract) và
phương pháp dựa vào mô hình hoá cảm nhận âm thanh của con người (human auditory system) Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận đạng Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của
các hệ thống nhận dạng tiếng nói Hai phương pháp trích chọn tiếng nói đang được sử
dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: phương pháp MFCC
(Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear Prediction).
Có hai kỹ thuật xử lý tiếng nói có vi tri quan trong là kỹ thuật RASTA (RelAtive
SpecTral) và CMS (Cepstral Mean Subtraction) Đây là hai kỹ thuật áp dụng nhằm lọc
bỏ nhiễu, những âm thanh không phải là tiếng nói Hai kỹ thuật này đặc biệt có ích
trong xử lý tiếng nói thu âm qua điện thoại [8] Cả hai kỹ thuật đều có thể dùng kết hợpđược với một trong hai phương pháp trích chọn đặc tính phổ MFCC hoặc PLP Kỹ thuật
RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp
(live), nhận dang phát âm mà không cần đợi phát âm đó kết thúc [18] Kỹ thuật này
thường được đi kèm với phương pháp trích chọn đặc tính PLP [18] Ngược lại kỹ thuật
CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dé áp dụng
1.2.2 Phan lớp mẫu
Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ
thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template
matcher), rule-based, mạng neuron và mô hình Markov ẩn.
Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các
mẫu (examples) tiếng nói, bao gồm các vector đặc tính Tín hiệu tiếng nói cần nhận
dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã
được cất giữ trước đó Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát
âm chậm, nên kỹ thuật căn chỉnh thời gian động DTW (Dynamic Time Warping) được
áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với
các mẫu.
19
Trang 18Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để
xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói Đối với hệ thống
nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hoá sự đa
dạng của tín hiệu tiếng nói Một vấn đề nữa là với cây quyết định, rất khó phục hồi lỗi
nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích.
Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh
được áp dụng thành công trong nhận dạng tiếng nói Đa số các hệ thống nhận dạng
tiếng nói hiện nay dùng mô hình Markov ẩn Chi tiết về mô hình Markov ẩn sẽ được
trình bày trong Chương 2.
Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong
muốn sử dụng khả năng phân lớp mạnh của mạng Mạng neuron truyền thẳng đa lớp
Perceptron thường được sử dụng trong nhận dạng tiếng nói Tuy nhiên mạng neuron có hạn chế về khả năng mô hình hoá sự biến thiên của tiếng nói theo thời gian Vì vậy
mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ
thống lai ghép mạng neuron và mô hình Markov ẩn Chương 2 sẽ trình bày chi tiết về
mạng neuron cũng như mạng lai ghép giữa mạng neuron và mô hình Markov ẩn
1.2.3 Xử lý ngôn ngữ
Mô hình ngôn ngữ đóng vai trò quan trọng trong xử lý ngôn ngữ Mục đích của mô hình ngôn ngữ N-gram (hay n-gram) là tìm ra xác suất của một từ theo sau một số
lượng từ nao đó trong một phát âm Ví dụ từ w, theo sau dãy k-7 các tit w,, Wo, ,M¿
(kí hiệu W;‘") trong một phát 4m N-gram giả thiết rằng từ w, chỉ phụ thuộc vào ø-j các
từ đứng trước nó tức là
P(w, |W") = P(w, |W,}—n+l
Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ
thuộc lân cận của một từ Các xác suất của mô hình ngôn ngữ có thể được tính toán trực
tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp hình
thức của ngôn ngữ.
20
Trang 19Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực
tiếp từ số lần xuất hiện của các từ trong cơ sở dit liệu:
f(W¿_2„W,_1› W, )
P( Ww, |w,_4,W,_;)= B(w, 2W, _.)
k~2› x1
trong đó hàm /(x,y,z) là số lần xuất hiện của bộ ba từ x,y,z (trigram), b(x,y) là số lần
xuất hiện của bộ đôi (bigram) x,y.
Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba
là quá lớn Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là
10000 từ thì số lượng các bộ ba là VỶ Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều
bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai lần trong cơ sở dữ liệu Với các trường hợp này xác suất của các bộ ba là không tính được hoặc rất nhỏ.
Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh được
là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng Trong các hệ thống
nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng
phổ biến [43] Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ
theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dạng [46, 47].
13_ NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI
1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính
Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ
chính xác nhận dạng:
— Sự phụ thuộc vào người nói Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào
người nói (speaker dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn
là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người Tỷ lệ lỗi nhận dạng tiếng
nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống
nhận dạng tiếng nói phụ thuộc người nói tương đương [38].
— Kích thước của bộ từ điển Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói
có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và
nhiệm vụ nhận dạng tiếng nói càng trở nên khó khăn.
21
Trang 20— Tốc độ nói, hiện tượng đồng phát âm Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó Các từ rời rạc được nhận dạng dễ dàng hơn là các từ
trong một phát âm liên tục.
— Sự biến đổi trong lời nói Con người có thể hiểu được lời nói ngay cả khi nó bị xen
lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “a, 6”, Tuy nhiên đối với máy tinh các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói.
— Điều kiện môi trường Tiếng nói có chất lượng thấp (bi méo tín hiệu, bị nhiễu kênh
truyền, ) thường đặt ra rất nhiều vấn đề để giải quyết cho các hệ thống nhận dạng
tiếng nói Theo [49] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có tỉ
số tín hiệu trên nhiễu SNR > 40dB (SNR- Signal to Noise Ratio) so với tiếng nói có
SNR >18dB tăng lên nhiều lần, có thể lên tới 10 lần.
— Các phát âm tự nhiên và các phát âm liên tục Hệ thống nhận dạng tiếng nói có thể
làm việc với các phát âm được đọc từ các văn bản chuẩn bi sẵn hoặc với các phát âm
do người nói nói một cách tự nhiên (spontaneous) Nhận dạng các phát âm tự nhiên rõ
ràng là khó khăn hơn nhiều so với các phát 4m đọc san Lý do là các phát âm tự nhiên
số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có
trong bộ từ điển Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát
âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm
khác.
— Các giới hạn về ngôn ngữ Các hệ thống nhận dạng có thể làm việc với các câu cóngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể Với các hệ thống này, nhiệm
vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể
về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)
nghĩa là bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển.
Độ chính xác của các hệ thống nhận dạng được đánh giá trên cơ sở mức từ và mức
câu Độ chính xác nhận dạng ở mức từ được đánh giá bằng công thức:
N-S-D-I
Trong đó S là số lượng từ bi nhận dang nhầm (substitution), D là số lượng từ bi xoá
(deleted), J là số từ bị chèn (insertion), N là tổng số các từ được nhận dang.
Độ chính xác ở mức câu được tính theo công thức:
Ze
Trang 21N *100%
Trong đó N là tổng số câu nhận dang, S là số câu nhận dang sai.
1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài
Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số
các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần
mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực
ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance va SpeechWorks là các hãng
phan mềm nổi tiếng Rất nhiều trung tâm nghiên cứu dang tập trung nghiên cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft
Research, CSLU,
Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố Hình 1.4
miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích
thước từ vựng và kiểu phát âm [9] Độ khó tăng từ thấp lên cao, từ trái sang phải.
Giọng nói tự Đối thoại tự
nhiên nhiên
¬ Hệ thống đối G>
Giọng nói liên thoại hạn chế
tục
Giọng nói do Quay số bằng Đọc chính tả
người nói đọc giọng nói trong văn phòng
Điền mẫu biểu bằng giọng nói
Ra lệnh bằng :
i i ra cứu
Cac từ rời rac idl
Giọng nói liên
kết
Zo
Trang 22Môi trường thu âm tiếng nói có ảnh hưởng lớn đến độ chính xác nhận dạng Do vậy
nên cùng với một thuật toán, hệ thống nhận dạng có khả năng nhận dạng kém hơn
nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm.
Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi
người bán hàng tại các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so
với 99.7% trong môi trường phòng thí nghiệm) [36] Sự khác nhau về tỷ lệ lỗi nhận
dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi
trường phòng thí nghiệm và môi trường bên ngoài
Bang 1.1 so sánh tỷ lệ lỗi nhận dang của các hệ thống nhận dạng tiếng Anh so với
khả năng nhận dạng của con người theo đánh giá của [9] Từ Bang 1.1 ta thấy tỷ lệ lỗi
nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính.
Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ
lỗi nhận dạng của máy tính cao hơn đến mười lần Với cơ sở dữ liệu tiếng nói có nhiều
nhiễu thì sự khác nhau này có thể còn cao hơn nữa Do vậy có thể nói khả năng nhận dạng tiếng nói hiện thời còn xa mới có thể đạt tới khả năng của con người.
Ngoài ngôn ngữ châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn
ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng
Bắc kinh và tiếng Quảng đông), tiếng Thái lan cũng đã được thực hiện Với tiếng Trung
quốc, nhiều nghiên cứu đã được tiến hành, một số hệ thống nhận dạng tiếng Trung quốc
với kích thước từ vựng lớn cũng đã được xây dựng [17].
Bảng 1.1 So sánh tỷ lệ lỗi nhận dạng của máy tính và con người
với một số hệ thống nhận dạng.
| Cáedlữodá | 26 | 5% | 1% -|
| Giọng nói chất lượng tốt của WSJ | ð500 | 45% | 09% _
Giong nói có nhiều nhiễu WSJ
Với ngôn ngữ Thái lan, hau hết các nghiên cứu tập trung vào nhận dạng các từ rời
rạc [35] Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống nhận dạng mười chữ
số Thái liên tục đạt độ chính xác 96.89% với cơ sở dữ liệu thu âm trong nhà [39] Với
24
Trang 23hệ thống nhận dạng liên tục kích thước trung bình và lớn tiếng Thái lan, hiện thời các
nghiên cứu mới chỉ ở bước khởi đầu
1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt.
Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt chủ yếu mới tập trung vào
nhận dạng các từ rời rạc.
Hệ thống nhận dạng tiếng Việt, giống như hệ thống nhận dạng các ngôn ngữ có thanh điệu khác, bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không
có thanh điệu và nhận dạng thanh điệu [45] Hình 1.5 miêu tả hệ thống nhận dạng ngôn
ngữ có thanh điệu, trong đó có tiếng Việt:
nhận dạng các từ
không dấu
nhận dạng thanh điệu
Hình 1.5 Hệ thống nhận dạng ngôn ngữ có thanh điệu.
Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS Nguyễn
Thành Phúc [3] Trong luận án tiến sĩ của mình TS Nguyễn Thành Phúc đã tiến hành
nghiên cứu và thực hiện các công việc sau:
— Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:
e Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15
người nói Các câu đều được gán nhãn bằng tay
e Co sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu
e Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phan vần là EO
gồm có 350 câu
— Nghiên cứu quá trình xây dựng một cơ so dữ liệu tiếng Việt, dé xuất bảng ký hiệu
âm vị tiếng Việt dùng để phiên âm các âm vị.
— Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu
25
Trang 24— Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều
kiện thu âm trong nhà Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận
dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận dang, Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ.
Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn
Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại hoc Grenoble tại Pháp [30] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình
Markov ẩn đối với từ rời rạc Đây là một trong những công trình đầu tiên nghiên cứu về
nhận dạng thanh điệu tiếng Việt Các thử nghiệm được tiến hành trên cơ sở dữ liệu gồm
9720 từ do 18 người nói đến từ ba miền Bắc Trung Nam, thu âm với tần suất lấy mẫu
16kHz/s, biến đổi A/D 16 bit Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu
đạt 91,6%.
Ngoài ra trước TS Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố Theo [3] các công trình trên bao gồm:
— Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học-ngữ âm học
của TS Nguyên Anh Tuấn Kết quả của công trình như sau:
e Hình thức hoá được ngôn ngữ hình học của các từ tiếng Việt, cho phép nâng
cao độ tin cậy của phân đoạn hoá các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt.
e Nghiên cứu và hình thức hoá những đặc trưng của sáu thanh điệu tiếng Việt,
cho phép xác định tự động kiểu thanh điệu tiếng Việt
e Thong qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên âm
và bán nguyên âm tiếng Việt Các đặc trưng này có thể sử dụng để phân loại
các nguyên âm.
e Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng
Việt.
e Trên cơ sở các thông số đặc trưng của các âm đã tìm được, đã tìm được một
thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt.
26
Trang 25Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95%,
không phụ thuộc vào giọng nói.
— Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin
Đại học Bách khoa Hà nội thực hiện hoàn thành vào tháng 6/1998 đã áp dụng phương
pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (FO-F5 và tương quan
F1-F2) của các nguyên âm tiếng Việt: “a, a, a, e, ê, i, o, 6, ơ, u, ư”.
— TS Đặng Văn Chuyết va KS Ngô Đức Binh đã áp dụng phương pháp phân tích
cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh.
— TS Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để
nhận dạng các từ rời rac cho tiếng Việt Các tham số được sử dụng là các F1 và F2 Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: “a,e,i,o,u”, mười chữ số
tiếng Việt và các từ điều khiển: "tiến, lùi, phải, trái, trước, sau, dừng” Độ chính xác
nhận dạng trung bình là 78,47%.
1.4 CƠ SỞ DU LIEU TIẾNG NÓI
Cơ sở dữ liệu của một hệ thống nhận dạng là một bộ phận không thể tách rời với các
thuật toán dùng trong nhận dạng Tính chất của cơ sở dữ liệu cũng là những tính chất
của một hệ thống nhận dạng Cơ sở dữ liệu tiếng được dùng để phát triển, huấn luyện và
kiểm tra năng lực làm việc của các hệ thống xử lý tiếng nói Cơ sở dữ liệu tiếng thường
có kích thước lớn, được xây dựng công phu bao gồm nhiều giọng nói của nhiều người
nói gồm nhiều lứa tuổi, đến từ nhiều vùng địa lý khác nhau.
Do vai trò quan trọng của cơ sở dữ liệu tiếng nói nên nhiều cơ sở dữ liệu tiếng nướcngoài đã được phát triển trong những thập kỷ qua Ví dụ như cơ sở dữ liệu tiếng Anh:
TIMIT, CSLU, WSJCAMO, tiếng Nhật ART, tiếng Triều tiên COCOSDA, Hệ cơ sở
dữ liệu chẳng hạn như TIMIT đã được sử dụng rộng rãi trong cộng đồng các nhà nghiên cứu và trở thành một cơ sở để đánh giá so sánh giữa các nghiên cứu.
Qui trình xây dựng một cơ sở dữ liệu tiếng gồm có hai giai đoạn chính: thu thập dữ
liệu và phiên âm chính tả, gán nhãn thời gian ở mức âm vị Người ta phân biệt các tính
chất của các loại cơ sở dif liệu:
27
Trang 26— Cơ sở dữ liệu gồm các từ rời rạc hoặc cơ sở dữ liệu gồm các câu phát âm liên tục.
Loại cơ sở dữ liệu đầu được dùng cho các hệ thống nhận dạng rời rạc, loại thứ hai dùng
cho các hệ thống nhận dạng liên tục.
— Cơ sở đữ liệu có kích thước nhỏ, trung bình hoặc lớn tương ứng với các hệ thống
nhận dạng nhỏ, trung bình hoặc lớn Kích thước của co sở dữ liệu được tính là kích
thước của bộ từ điển các từ có mặt trong nó.
— Môi trường thu âm của cơ sở dữ liệu: trong phòng studio, trong phòng thí nghiệm,
trong môi trường văn phòng, trong môi trường bên ngoài, thu 4m qua điện thoại cố định, thu âm qua điện thoại di động,
— Thiết bị thu âm và chất lượng thu âm cũng là một tính chất quan trọng Cơ sở dữ
liệu có thể được thu âm với chất lượng cao như TIMIT với tan số lấy mẫu là 44kHz/s,
hoặc chỉ với 8Hzk/s khi thu âm qua điện thoại như cơ sở dữ liệu của CSLU
— Đặc điểm của người nói trong cơ sở dữ liệu Với hệ thống nhận dạng phụ thuộc người nói, cơ sở dữ liệu có thể chỉ bao gồm một người nói Thông thường cơ sở dữ liệu
bao gồm hàng trăm người nói.
— Phương pháp phát âm Với hệ cơ sở dữ liệu TIMIT, người nói đọc các câu có nội
dụng chuẩn bị sắn Đối với một số cơ sở dữ liệu của CSLU thì người nói được phỏng
vấn qua điện thoại và họ phát âm theo phương thức tự nhiên (spontaneous), vừa nói vừa nghĩ.
Sau quá trình thu âm của cơ sở dữ liệu là một quá trình quan trọng: phiên âm chính
tả và gán nhãn thời gian ở mức âm vị cho các phát âm Phiên âm chính tả là ghi lại nội
dung của các phát âm dưới dạng văn bản, mỗi tệp văn bản tương ứng với một tệp phát
âm.
15 NGON NGỮ TIẾNG VIET
1.5.1 Đặc điểm âm tiết tiếng Việt
1.5.1.1 Tinh độc lập cao
Trong tiếng Việt, âm tiết được thể hiện khá đây đủ, rõ ràng, được tách và ngắt thành
từng khúc đoạn riêng biệt Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu
trúc 6n định Điều này làm cho sự thể hiện của âm tiết tiếng Việt trong chuỗi lời nói nổi
28
Trang 27bật và tách bạch hơn Do đó nên việc vạch ra ranh giới giữa các âm tiết trong tiếng Việt
dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ châu Âu [5] (trong ngôn ngữ châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân
tích phổ) Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết
tách ra thành một từ riêng biệt Có thể nói so với các âm tiết châu Âu, tiếng Việt có tính
độc lập cao hơn hẳn.
Trong các ngôn ngữ châu Âu thường gap các hiện tượng nối âm (liaison), ví dụ
như :
2
Les „amis have you done it 7
Trong tiếng Việt không có hiện tượng nối âm như vậy
1.5.1.2 Khả năng biểu hiện ý nghĩa
Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa Gần như toàn bộ các âm tiết đều
hoạt động như từ Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranhgiới của hình vị [4] (hình vị là đơn vị có nghĩa nhỏ nhất trong một ngôn ngữ) Chính vìvậy trong một phát ngôn, số lượng âm tiết trùng với số lượng hình vi
1.5.1.3 Cấu trúc chặt chế
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 1.6:
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó Cl là phụ
âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối.
Thanh điệu
Âm tiết tiếng Việt có cấu trúc gồm hai bậc: bậc một bao gồm các thành tố trực tiếp
được phân định bằng những ranh giới có ý nghĩa ngữ âm học Phan thứ hai bao gồm các
yếu tố của phần vần chỉ có chức năng khu biệt thuần tuý Quan hệ giữa các yếu tố ở bậc
một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ Các thực
nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra ở
29
Trang 28chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh
của âm tiết.
Theo GS Bang và cộng sự [1] số lượng âm tiết phát âm được của tiếng Việt là
18958 So với các các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào
khoảng 3000-5000 Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, và chính
vì thế ít có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết Theo [5],trong tiếng Việt có 6 thanh điệu, 21 âm đầu và 155 phần vần và phần vần đóng vai trò
khu biệt lớn hơn cả so với các yếu tố khác trong Bậc 1.
| Bậc 1
Hình 1.7 Cấu trúc hai bậc của âm tiết tiếng Việt
| Bậc 2
1.5.2 Âm vị tiếng Việt
Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của
ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng
có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong
ngôn ngữ đó gọi là âm vị.
Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính thức
về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn tiếng
Việt Có thể quan niệm tạm thời coi "tiếng Việt chuẩn như một thứ tiếng chung được
hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà nội mà cách
phát âm của nó là cách phát âm Hà nội với su phân biệt /t-c/,/s-s/,/z-z/ và các vần ưu/iu,
uou/iéu” [4].
30
Trang 291.5.2.1 Thanh điệu
Âm vị tiếng Việt có hai loại âm vị đoạn tính và âm vị siêu đoạn tính Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ âm Âm
vị siêu đoạn tính là loại đơn vị không có âm đoạn tính, không độc lập tồn tại, nhưng
cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu Đây là đặc điểm
riêng của tiếng Việt so với các ngôn ngữ Châu Âu Một số ngôn ngữ khác như tiếng
Hán, tiếng Thái cũng có đặc điểm này như tiếng Việt.
Thanh điệu được hình thành bằng sự rung động của dây thanh, tuỳ theo sự rung đó
nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác nhau.
Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt với
nhau bang sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp.
no WwW BR WN1
Hình 1.8 Các thanh điệu tiếng Việt 1 Không dấu, 2 Huyền, 3 Ngã, 4 Hỏi, 5 Sac, 6.Nang
Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao chùm lên toàn bộ âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần Tiếng Việt có sáu thanh điệu Nếu chia thang độ của giọng nói bình thường thành 5 bậc thi ta có thanh điệu tiếng Việt được miêu tả như trong Hình 1.8.
1.5.2.2 Âm đầu
Trong các sách giáo khoa tiếng Việt [2, 4, 5, 7], tiếng Việt có 21 âm vi là âm dau Các âm vị /p,r/ không được liệt kê là các âm vị đầu tiếng Việt và được coi là âm vị có
nguồn gốc từ ngôn ngữ nước ngoài Âm vị /?/, âm tắc thanh hầu được liệt kê trong
một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong những âm tiết như: ”ai,
ơi, ăn, oản, uống, oanh, uyên” có hiện tượng khép khe thanh lúc mở đầu khi chúng
được phát âm lên Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc
không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm
31
Trang 30Thừa nhận tồn tại âm tắc thanh hầu đưa đến xây dựng được một mô hình tổng quát của
âm tiết tiếng Việt cân xứng hơn với ba thành tố luôn có mặt: thanh điệu, âm đầu, âm vần [5].
1.5.2.3 Âm đệm
Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hoá âmtiết và khu biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh âm
tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước
các nguyên âm tròn môi /u,o,2/, nó chỉ xuất hiện trước các nguyên âm hàng trước Độ
mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau.
1.5.2.4 Âm chính
Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định ăm sắc của âm tiết.
Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi Âm
chính âm tiết có thể chia thành 4 nhóm :
— Nhóm nguyên âm đơn, hàng trước, không tròn môi Am sắc của nhóm này thường
là bổng Có thể dài và thể ngắn Thể ngắn có sự biến dạng ít nhiều về trường độ, âm
sắc, cường độ, phát âm căng và ngắn.
— Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và thể ngắn Sự
thể hiện thể ngắn có cấu âm không giữ đều
— Nhóm nguyên âm đơn, hàng sau, không tròn môi Âm sắc trầm vừa.
— Nguyên âm đôi phát âm yếu dan, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó
âm sắc của nguyên âm đôi là do yếu tố đầu quyết định Nguyên âm chỉ có một thể dài
và không bị biến dạng về âm sắc và trường độ.
1.5.2.5 Am cuối
Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu âm
tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ) Do đó có sự khác
biệt lớn giữa 4m /t/ trong phát âm hai từ "at" và "ta" Trong khi phat âm từ “ta”, lối thoát
của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành
một tiếng động đặc thù Trong khi phat âm từ "at", bộ phận cấu âm ở nguyên vi trí cấu
âm và không khí không được thoát ra ngoài [4].
32
Trang 31Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng Ví dụ như
âm vị /k/ trong từ "tac" Do vậy âm vị /k/ được nhận diện chủ yếu làm biến đổi âm sắc
của âm chính đi ở giai đoạn cuối.
Bảng 1.2 Phân bố giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuối.
Bán nguyên âm cuối
iil Vi du
S<Oo =—
=e
Bán nguyên âm cũng không thường xuyên được thé hiện rõ rệt mà chi được nhận
diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn có tác
dụng mạnh hơn là phụ âm cuối.
1.5.3 Su phan bố của các âm vị tiếng Việt
Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với
nhau theo những qui luật Sau đây là Bảng 1.2 tổng kết sự phân bố giữa nguyên âm âm
chính và các âm đệm và bán nguyên âm cuối [4].
33
Trang 32CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNG
NÓI LIÊN TỤC SỬ DỰNG HMM VÀ ANN
Chương này tập trung trình bày các vấn đề lý thuyết của các phương pháp nhận
dạng: mang ANN va mô hình Markov ẩn va sự kết hợp giữa chúng Phần một trình
bày về giai đoạn đầu của hệ thống nhận dạng tiếng nói: các phương pháp xử lý tiếng
nói Phần hai trình bày về mô hình Markov ẩn, và ứng dụng trong nhận dạng tiếng
nói Phần tiếp theo trình bày về mạng neuron nhân tạo, đặc biệt là mạng Perceptron
đa lớp, loại mạng hay được sử dụng trong nhận dạng tiếng nói Phần thứ tư trình bày
về phương pháp huấn luyện hệ thống nhận dạng liên tục dùng các kỹ thuật: mô hình
Markov ẩn liên tục CD-HMM, mạng neuron nhân tạo ANN và hệ thống lai ghép
HMM/ANN Phần cuối cùng trình bày về thuật toán giải mã trong các hệ thống
nhận dạng liên tục.
2.1 CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU TIẾNG NÓI
Phần này sẽ giới thiệu hai phương pháp được sử dụng rộng rãi trong các hệ
thống nhận dạng hiện tại để tính toán các hệ số MFCC (Mel Scale Frequency
Cepstral Coefficients) và hệ số PLP (Perceptual Linear Prediction) Hai kỹ thuật xử
lý tiếng nói RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) cũng
được giới thiệu Đây là hai kỹ thuật loại bỏ nhiễu hay được sử dụng đặc biệt là trong
phát âm có nhiều nhiễu như các câu thu âm qua điện thoại.
2.1.1 Phương pháp tính hệ số MFCC
Hình 2.1 miêu tả các bước tính toán hệ số MFCC:
1) Nhấn mạnh tín hiệu (pre-emphasis) Trong bước xử ly đầu tiên nay, tín hiệu
được đưa qua một bộ lọc số:
_ “i
FT ive(Z) =14+4,,.2
Trong đó z„„ là hệ số nhấn mạnh, thường có giá tri là 0,9700002861 Bộ lọc có
tác dụng tăng cường tín hiệu tại tần số cao (trên 1KHz) với hai lý do chính:
34
Trang 33— Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao do đặc điểm
sinh lý của hệ thống phát âm của con người Bước xử lý này sẽ tăng cường tín hiệulên một giá tri gần 20dB/decade để khắc phục sự suy giảm này,
— Hệ thống thính giác của con người nhạy cảm hơn với vùng tan số cao, bước xử lýnày nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mô hình hoá âm thanh sau
này của hệ thống nhận dạng
Tạo khung tín Làm cửa sổ cy DFT
hiéu (framing) D (windowing)
Hình 2.1 Các bước xử lý của phương pháp tính toán hệ số MFCC
2) Tạo khung tín hiệu (framing) Tín hiệu tiếng nói luôn luôn biến thiên theo
thời gian, tuy nhiên trong khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói
được coi là tương đối ổn định Do đó tín hiệu thường được chia thành các khung
kích thước 20-30ms với vùng gối lên nhau khoảng 10-15 ms
3) _ Làm cửa số (frame windowing) Cửa số Hamming thường được áp dụng cho
mỗi khung tín hiệu để giảm sự tác động của việc chia khung tín hiệu:
2Z(nm-])
s„ ={0,54— 0,46cos(
N-1 )}S,
Trong đó N là số mẫu dit liệu (sample) của cửa số.
4) DFT (Discrete Fourier Transform) Tại bước này với mỗi khung tín hiệu, biến
đổi Fourier được áp dụng để chuyển về miền tần số Công việc tính toán được
thực hiện bằng thuật toán FFT (Fast Fourier Transform).
a3
Trang 345) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Các bộ lọc số
được áp dụng để lọc các tín hiệu theo các giải tần số khác nhau.
Phản ứng của tai người với các thành phần của tần số là không tuyến tính Sự
khác nhau về tần số ở vùng tan số thấp (<1KHz) dé được nhận biết bởi con người hon là ở vùng tần số cao Loc theo thang tan số Mel mô phỏng tinh chất nay bang cách dùng các bộ lọc được phân bố theo một hàm phi tuyến trong khoảng không
gian tần số, thông thường là hàm Mel:
Mel(ƒ)= 2595logi,(1+z2D)
6) Logarit giá tri năng lượng (logarit of filter energies) Các giá tri năng lượng
thu được tại mỗi kênh lọc được lấy logarit để “nén” các giá trị này vào một miền
giá trị hẹp hơn.
7) DCT (Discrete Cosin Transform)
Do giọng nói phát âm bởi con người có phổ khá tron (smooth) trên miền tan số,
do vậy các giá trị năng lượng của các bộ lọc gần nhau có sự tương quan (correlated)
khá gần Bước xử lý này biến đổi các giá trị năng lượng thành các hệ số ít tương
quan với nhau hơn, các hệ số này được gọi là hệ số cepstral.
8) Chỉnh các giá trị cepstral Giá trị cepstral bậc cao thường có giá trị rất thấp,
sO VỚI các giá tri cepstral bậc thấp Sự khác biệt này gây khó khan cho việc mô
hình hoá dữ liệu, ví dụ như khi sử dụng các hàm mật độ xác suất Gauss Do đócác hệ số cepstral được điều chỉnh lại (re-scaled) theo công thức:
c„ =exp(n*k)c,
Sau bước hiệu chỉnh này ta thu được các giá tri MFCC
9) Tính giá trị delta MFCC Các giá trị delta của các hệ số MFCC được tính toán
nhằm phản ánh sự biến thiên tiếng nói theo thời gian Các giá trị delta được tính
toán dựa trên các giá trị MFCC của các khung tín hiệu lân cận:
36
Trang 35Trong đó Ølà số khung tín hiệu lân cận được dùng (thông thường là 2).
Ngoài ra giá trị delta của delta (hay còn gọi là acceleration) cũng có thể được
tính toán từ các giá trị delta dùng cùng một công thức như trên
2.1.2 Phuong pháp tính hệ số PLP
Phương pháp PLP được phát triển dựa trên phương pháp mã hoá dự báo tuyến
tính LPC (Linear Prediction Coding).
Phương pháp LPC hay còn gọi là mô hình hoá tự hồi qui (autoregression
modeling) là phương pháp mô hình hoá tín hiệu bằng sự kết hợp tuyến tính các mẫu
tín hiệu trước đó:
s(n)= -Satiiste —1)+e(n)
i=l
trong đó N là số hệ số hay là bậc cua dự báo, các a(i) là các hệ số dự báo tuyến
tính (linear prediction coefficients), e(n) là hàm lỗi
Các hệ số a(¡) được chọn để làm cực tiểu hàm lỗi dự báo trung bình bình phương.
Có một vài phương pháp để tính các hệ số này: phương pháp dùng ma trận hiệpphương sai (covariance matrix), phương pháp tự tương quan (auto-correlation
method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or
harmonic) Phương pháp hay được áp dụng nhất trong nhận dạng tiếng nói là
phương pháp tự tương quan dùng thuật toán đệ qui Levinson-Durbin.
Thuật toán Levinson-Durbin như sau:
Tính p+7 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính) bằng
công thức sau:
N-i
BS » SiS isi
=
Trong đó s(n) là tín hiệu trong cửa sé, N là số lượng mẫu trong cửa sé.
Các hệ số sau đó được tính toán đệ qui như sau:
37
Trang 361) FFT Tương tu như phương pháp MFCC, tín hiệu tiếng nói được chia thành
các khung tín hiệu và được biến đổi Fourier sang miền tần số bằng thuật toán
FFT.
Tiéng noi
FFT c) Lọc tần số Bark (Bark c) Nhấn mạnh dùng ham
: frequency filter) Equal-loudness
Luật cường độ nghe
(power law of hearing)
Biến đổi Fourier ngược
Trang 372) Loc theo thang tan số Bark Tương tu như phương pháp tính MFCC, tín hiệu
tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong
trường hợp nay là thang tan số Bark:
Bark( f) = 61n{- 7 : +Ic TỶ +19)
3) Nhấn mạnh tín hiệu dùng hàm equal-loudness Bước xử lý này tương tự như
bước nhấn mạnh pre-emphasis của phương pháp MFCC Hàm nay mô phỏng
đường cong cân bằng độ ồn (equal-loudness curve)
(@? +56,8*10°)ø!
mm ———— a
(2) (@? +6,3*105)(ø? +0,38* 10° )(@® +9,58 #109)
4) Dùng luật cường độ nghe (power law of hearing) Bước xử lý này giống như
bước lấy giá tri logarit trong phương pháp MFCC Hàm căn bậc ba được sử dụng
để “nén” các giá trị năng lượng.
a f= "(sy
5) _ Biến đổi Fourier ngược (inverse DFT) Các hệ số tự tương quan được biến đổi
Fourier ngược để sau đó dùng làm giá trị đầu vào cho phương pháp LPC.
6) Thuật toán Durbin được sử dụng để tính toán các hệ số dự báo tuyến tính
giống như trong phương pháp LPC.
7) Tính các giá trị delta Phương pháp tính tương tự như phương pháp tính hệ số
MFCC.
2.1.3 Các kỹ thuật khử nhiễu
2.1.3.1 Kỹ thuật CMS.
Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng,
được dùng kết hợp trong quá trình tính toán các đặc tính phổ của tiếng nói Phương
pháp này dựa trên giả thiết là các đặc tinh tan số của môi trường là thường xuyên cố
định hoặc biến đổi chậm Các tham số cepstral của một phát âm được trừ đi giá trị
trung bình của các tham số trong một khoảng thời gian nào đó và làm cho các giá trị
này ít bị ảnh hưởng bởi môi trường:
ˆ T
O(r) = O(r) =3 00)
t=]
ag
Trang 38trong đó 7 là độ dài của vùng lấy giá trị trung bình, thường là độ dài của cả phát
âm.
2.1.3.2 Kỹ thuật RASTA
RASTA là kỹ thuật lọc dựa trên giả thiết rằng các tính chất thời gian của các
nhiễu là khác so với các tính chất thời gian của giọng nói Tốc độ thay đổi của các thành phần không phải tiếng nói thường xuyên nằm ngoài tốc độ hoạt động của bộ máy phát âm con người Bằng cách dùng bộ lọc số, kỹ thuật RASTA có thể loại bỏ
được một phần các nhiễu của môi trường và các nhiễu bổ sung bất thường khác Bộ
lọc dùng trong RASTA là:
0,2+0,1z7'! — 0,22 -0,1z7
a= 10,942"!
2.2 MÔ HÌNH MARKOV AN
Phần này được dành để giới thiệu về mô hình Markov ẩn và ứng dung của chúng
trong nhận dạng tiếng nói.
2.2.1 Quá trình Markov
Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thể là một hệ vật lý hay hệ sinh thái, ), ký hiệu gq, là vị trí của hệ tại thời điểm ứ Các vi trí có thể có
được của hệ được gọi là không gian trạng thái, ký hiệu là S= {S,, S;, S;, } Gia sử
tại thời điểm s hệ ở trang thái Š;, nếu xác suất để hệ ở trạng thái S; tại thời điểm ¿ trong tương lai chỉ phụ thuộc vào s, f, S„ Š; thì có nghĩa là sự tiến triển của hệ chỉ
phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có tính chất này được gọi là quá trình Markov.
Nếu không gian trạng thái S của hệ là đếm được thì ta gọi hệ là xích Markov.Nếu thời gian 7 là rời rac /=0,1,2, thì ta có xích Markov rời rac Ta có thể biểu diễn tính Markov của hệ bằng biểu thức sau :
P(q, = Š; Í Qe = Sis đa = Spy) = P(q, = 5; Í đ.ị = Si)
Dat P(s,i,t,j) = P(g, = S; / q, = S; ) là xác suất để hệ tại thời điểm s ở trạng thai i,
đến thời điểm / chuyển sang trạng thái j Ta gọi P(s,i,t,j) là xác suất chuyển của hệ.
Nếu xác suất chuyển chỉ phụ thuộc vào (t-s) tức là
40
Trang 39Hình 2.3 Xích Markov với năm trang thái S,, S;, , S; và
các xác suất chuyển trạng thái
Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất,
trong đó hệ có thể ở một trong năm trạng thái S,, Š›, , Sy (trong ví dụ trên N=5) Tại mỗi thời điểm /=0,1,2, hệ chuyển trạng thái theo xác suất chuyển trang thái a;
tương ứng với mỗi trạng thái
i
ay = PQs = S, | q, = S, )
» a= LN
7 —
Ngoài ra ta định nghĩa xác suất trang thái khởi dau (initial state distribution) z =
(Z, 7p, 7y}, trong đó 7; là xác suất để trạng thái i được chọn tại thời điểm khởi
Trang 40thời điểm rời rạc liên tiếp nhau, trong đó mỗi trạng thái tương ứng với một sự kiện
vật lý có thể quan sát được (observation event).
2.2.2 Mô hình Markov an
Mô hình Markov ẩn là kết qua của mở rộng khái niệm từ mô hình Markov bằng
cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation
distribution) Ngoài quá trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trangthái còn có một quá trình ngẫu nhiên nữa đó là quá trình ngẫu nhiên sinh ra mộtquan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong
đó có một quá trình ngẫu nhiên không quan sát được Tap các quan sát O được sinh
ra bởi dãy các trạng thái S,, 5, , Sy của mô hình, mà dãy các trạng thái này là
không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn
(hidden) [31].
Mot mô hình Markov ẩn được đặc trưng bởi các thành phần cơ ban sau :
1) N, số trạng thai (state) trong mô hình Markov Các trang thái thường được ký
hiệu bằng S= {S), S>, S3, } và trạng thái của mô hình tai thời điểm / được kí hiệu
là q,.
2) M, số ký hiệu quan sát (observation symbol), đây là kích thước của bang từ
vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= {¥,, V5, ).
3} A = {a,}, xác suất chuyển trang thái (state transition probability distribution).
Trong đó a, là xác suất để trang thái j xuất hiện tai thời điểm /+7 khi trang thái i
đã xuất hiện tại thời điểm r.
4) B={b(k)} xác suất phát xạ quan sát trong mỗi trang thái (observation symbol
probability distribution in state) b(k) là xác suất của quan sát v, tại trang thái j
tại thời điểm í.
b{k) = P(v, tại thời điểm t/q, = S)), (2.1)
42