Luận án tiến sĩ: Nghiên cứu ứng dụng mạng neuron và mô hình markov ẩn trong nhận dạng tiếng Việt

Mục đích nghiên cứu Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước ngoài

Trang 1

MỤC LỤC

SIP CỦN DI ee-ceeeeeenvneeennetsetnornnnneroermssccorneanscncretscnmsnnmmssntrnrnormaciSogcSl?508)54308)02550102803030G0Í 5

MẪ ĐẤT uangga gu aiTtiitötikghangoatthötg 408000003060 608080401 G0801G00.G00H1GS0IG0GGIHSIEIHLGIIAS.000002010/404 6

[7t(c8 9214 (oayv0A2/2z7/v0002n®.®^.— 1

BANG KE CÁC THUAT NGỮ ANH VIET sssssssssssssssssssssssssssssssssssssssssseeeessessssnsnnnusssssssssessesesssssessssse 12

CHUONG 1 TONG QUAN VE NHẬN DANG TIENG NÓI essssssssssssssssssssesssssssssnsessesssnsnessesiee 141.1, Giối (CU iesessscccesssssssesesesssvcasssscencecasasssesecencnseteasecenccctisscstasetvesvtovsunessetensesessiccessccsiasesacsesecsbseussesseaes 14 1.2 Nguyên tắc của hệ thống nhận dang tiếng nGi sssssssesscscssenssseesssssessssssessssssscesssssssererseees 16

12.1 Phan tich die tinh tena Hồ aosoosoaonaaonikiatooiiidliibiisas00106042051114410515669040086160150005603646064-158 18

122 Para NG py Bore ceca ceaseceecscecc cave vascecsesatevsnvoresaeresevescvtsvene cautsexaanscousuyssuysssaveuserevasvweseeorwavrsse 19

12/5 SMUG ngônNEŨ sesesesse ccs cersecervexesvccassxecesseussovesa eveneseecvasssaen isnssacesuneusserscasunsecoonsnionestersvevsoase 20

13 Nehiên cửo hiện thôi về nhận đang tiếng 1G) csc sescccsersssressescssersrerssencesesucnacsvassvenssesencsasecesessvensn 21

1.3.1 Các yếu tố ảnh hưởng đến kha năng nhận dạng của máy tính - -¿«-s+-+>+++ 21

1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài - -«- «+ +>++++ 23

1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng VIỆT .- Ăn xe, 25 1:4 Cơ sở dữ liệu tiếng HỒI:¿.:-s¿sc sec S00cSS620SE006216666001424668685646516860865666468885468660568408/0/506696668.4895466668g36 27

125/NNgôn ngữ tiếng Vi uissssssesseoisiiessiisoicscLG155201554166x586E56E6s6034x5u1ã9661041330130856535ns2u8yðexexSvlxsE374g0-48 28

1.5.1 Đặc điểm âm tiết tiếng Vikt c.ccccccsscsccsssssssssssssssssssscsssessssseesesssssecssssssusesssessseveesessssnsveeees 28

li âm dể VY EDseenssdesdenanuensanneoddiaeioiiitg9c04SS0ES0SPBGEQEIROSGUSEAGEEEHBG 30

15,3 Sự phần bố của các ầm vị tiếng Viel wssssessescsvsssvsssecsesosscsessovsessassvesaveavswessnsanesnvrceseesnsssoevess 33

CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNGNÓI LIÊN TỤC SỬ DỤNG HMM VÀ ANN 34

2.1 Các phương pháp xử lý tín hiệu tiếng nói << «<5 «S4 S49 999.58 2 0258.555505 34

2.1.1 Phương phap tính hệ số MHC scaassaossaoadgooiattoogloobiHllgitglljilitdiaiibiilotsgsslsdsassiese 34

212 Phuong pháp tính hệ số PLT ¿;ss¡: aicaiaiobssgaesagesseicsicsseclistEOEpGEHOddSgiaaitasae Sf

21.3 Cae kỹthuấtkhữnHIÊUssvsessossosasaaoaootsoabiainooigihoatsiSGGS0RGIADAISVERERANSEUAIOSĐERG 39

2:3 Mô hình Mar tO Ait rsccssissnsanncnccsnnccmmmnnnnannamnnanmanieunamannananaumamsuniesasinsiatis 40

Ded, CAAT MAtKOW <c0< ovens vonyecacoacaszesescawaceueedsslsaneseccesacevarseroncaucctssecvelsvmasuentaesensiseevaseseonien 40

2.2.2 Mô hình Markov An c.ccccccsesesescssesesesescscsescseevcssvasececeacscacseacstscseseecsesavaveveusesveeensesecerecees 42 2.2.3 Ba bài toán co ban của mô hình Markov An ccccsssessscseseeeeeesesescscscscsesesescacstsvacsesescsees 44

2.2.4 Các giải pháp toán học cho ba bài toán cơ bản - - - + 5c + +3 se +33 xxx sex cxcccsscxc 45

3Š Che Lea nổ Ninh NHHằGVŨH:caaoaaaaaaadttqgdayndaintipdaoaeiesssemesee=e 52

2.3 Manag ñeuUiFon: Mian ĐÃO sscssstssesccscsessecesossessssvsciesessessdcessadansnsadeasondecésassosssncessacosssnensnacanessxeasonsutonteien 54

0.3.1 GIỚI HIẾU sessscitoiesooiiioooeotortipiliiotlki460001502916835999590466410104566509590461300214343SE1S4393932E0L0.RQSQDSVlESĐ 54

2.3.2 Mang Perceptưon đa lop MUP :á:áesceenaeiooiiiiaeddediiisdE6004660000550666100560/860380611301000.00 54

24 Huấn hiyện các hệ Hiếng nhữn Gane scencicsmnsscnnsncmmnnccmnnnonannummmnumimnummnamnane 58

2.4.1 Huấn luyện hệ thống nhận dạng dùng HMM liên tục - - 5< 555+scx+x+xcscs2 58

2.4.2 _ Huấn luyện hệ thống nhận dang dùng ANN cccccccsccecceseeseesecseessesteseesesseesessecstereeanees 62

Trang 2

2.4.3 Huấn luyện hệ thống nhận dạng dùng HMM/ANN - -.- si 64

2.5 Nhận dạng << se s29 S999999393909939400900.90000.0009000000000098009.0000000/00000000000000000000000000000000000 67

9.5.1 Xây dựng MANE UW scccccsessccsssnsccccessesscssssvesssesecserevsnesecresessesesessvseesenssnsetsssssevessssenoronsossaveene 67 2:52 MoO hinh ngdningil N=pram c.cc.cocsrrssccosecccosnsocscsenccnenseceasenenenenseenssenceneesnensenescacoveasaes 67 2.5.3 Sử dụng mang từ trong hệ thống nhận dang ccccecceeseeeeeeeneneneneeeeseneeeteneneneteeeeetenees 68

254 - GIẢ IH, eeeseeennssdsnseeroossesaaesoordESESSGISASOSXGSIEGI2ĐLESETX43803Đ139336033ÿ8X8X434530844910E08 69

CHƯƠNG 3 CƠ SỞ DU LIEU VÀ GAN NHÂN TIENG VIỆT -<-c55ccs 72

3.1 Bảng ký tự phiên âm sssss<sesscssseess2eE.2893900803000300800300003000080000000000.00000800080 s00 72

3.2 Gan nhãn bằng tay eo cscssosssn2e95950025090090000909000090909090090909804040080800000009000000000800000.n9ø 73

3.1 Giới HI*ỂU.««seSSSS=sn=eeeeennssesstritoaslxkiSE0524GG0G000001058401386956308G018393001S34V08SS0G80 73 32.2 Các nguyên tắc chung về gán nhấn bằng thy :‹‹ -oaaeesooreisianianDasiiiadaaaasee 75

BOS CAC BH EÍGtcs:oooinitiooiiEGHAAGGIHGELONGOOGGSRISIAAEGORASHAAGGRASSERADSAASASdi4569300v1813828 8x80 75

1Ì di mlBfoesesaaanaraurrrrroeteoltENGSEDGSEGREENNGiNiASABDEagii-g000t0nthnbiftulaskG) 76

z8 m5 75 ` T1

3/26 PAW Ẩm MUL sevesvsecescsvsesssessrvvassesccossenssoseaevensoensoneuonevooseosevecenaesooaneaneencenrtensarstseanseneaacenesnenae 78

3.2.7 Nguyên âm đơn, nguyên âm đôi va bán nguyên âm - - + + s+cs+sseeerreeerrx 78 323.8 Phụ fm CHỦ, eeeseeeesiessrmeeedenemseosrtkidsskdtdsGSIEDHIQGGIENGA45E,4SSlSMSHiESG1830800300ã88 79

S%H AHrfG(HAGRNHoissosaagadkiiotddaieiatrodtidtitoitioitodgaGE00101108Q00S040 8003910080 80

33:10 Ấm ÄR Huerneanggaronstittoiinisgi00001GG1A090012S008G005N0SNGSG3NTEHHNNGIGGGEEDSGRINHOQNGEUHSIH 81

3:3 Gain Win HỨ ỐNG sssscccssecsscsscaccassesescesessecsessscessissessacscessnesenas cunsesacesceseansnsdsasssuceenscuaucossaeeesianeeaeeeee 81

3.3.1 Giới thiệu -Ă St St + xxx tt TT cà HH Hàn Hit 81 3.3.2 Gán nhãn tự động cơ sỞ dỮ Litu oesssersersorsensorersesorsensanssanperenesneessanensenceossrsonsonseneess 83

3.3.3 Đánh giá độ chính xác của gan nhãn tự dONg - - - cà St sserkrrrrkrrrrkrriree 84

3:4 Xây dựng cơ sở dik liệu Hếng Vib ceeccsneenscesesessessctsesitossinetesnwntoensstnensansnatenenbneentsvananastnivenenennsiansins 85

BAL - GIỐithIỆU+ssussaaensoisesdbiOtiiiistiiDiiakidlioidsbotdsiA5600001000602261060801605608590345E661331/68600144400118% 85

3.4.2 Gidi thiệu cơ sở dữ liệu tiếng nói của CSÌLU 5-5 - 5xx server §5 3.4.3 Phương pháp xây dựng cơ sở dữ liệu tiếng VIỆt 5 + St sevrrkrsrrrkrkrree 87

CHUONG 4 HỆ THỐNG NHAN DẠNG TIENG VIỆT LIÊN TỤC 88

4.1 Phân tích hai phương pháp nhận dạng HMM liên tục và HMM/ANN - 88 4.2 Hệ thống nhận dang chữ số tiếng Việt liên tục sử dụng HMM/ANN - 94

Oe MC] Co] CHIẾU ee ee eS eee 94

4.2.2 Hé thống nhận dang chữ số liên tục tiếng Việt dùng ANN c<ccecce- 95

4.2.3 Vai trò của âm đóng trong phiên âm các chữ SỐ - - - + 5+5 ++s+seexrvsexrvsssee 97 4.2.4 S6 lượng category cho mỗi nguyên âm ects + + xxx re 101

4.2.5 GiGi hạn về độ dầi - - + + xxx vn TT TT HT HH TT T3 103

4.2.6 Phuong pháp trích chọn đặc đính phổ của tiếng nói - +5 + ++s+s+vsxes+2 105

4.2.7 Hé thống nhận dang mười chữ số tiếng Việt dùng mạng HMM/ANN 107 4.2.8 _ Hệ thống nhận dang chữ số tiếng Việt dùng HMM liên tục -.-‹-‹-+s«¿ 108

4.2.9 _ Nghiên cứu sử dụng tần số cơ bản + xxx 108

' 0N can gnỪ ®® -"L - 112

Trang 3

4.3 Hệ thống nhận dạng liên tục tiếng Việt không thanh điệu kích thước trung bình 114

4.3.2 Hệ thống nhận dạng cơ sở dùng HMM liên tục - - -¿5+5++5+<<excxexsxsee 115

4.3.3 Xây dựng hệ thống với nhiều hàm Gauss 0:ccsscccvscsecsssceccensessssesosversxcrssssensavesscavsvnresvenes 118

4.3.4 Bổ sung thêm âm vị khoảng lặng - 5-5 Street 119

ASS XVaitGclafämdONBtassesaosooaeniirirEGEIEGOIEOHIEHEOONHOUNEHGEERGEEENEOLOEESEOEEAANEEEEAEHEMOSES 119

3:6 TPhụ mrcuối l Arn HÌỮS.222266.212/000/000x0 000022202 0DWDDHOUANUUIEEDORYUEWOHIEEV 123

A3.7 Thi nghiện tiếng địa phương KhỔ HEỮ‹e.eeosaenoa.ỷaaaoovdornooainadddobaiaoassodgsioab 124

4.3.8 _ Huấn luyện với các thông tin nhãn thời g1an : 5: 5c +Sc‡++s+s+sseeexsexeerereree 126

4.3.9 Thử nghiệm với dữ liệu kiểm tra và dữ liệu huấn luyện trùng nhau 126

' hi mnẢ 128

4.4 Chương trình ứng dụng nhận dạng tiếng nói -<-< <<<=<=5< 5< se se es£eeeseseeeetesee 130

4.4.1 Chương trình trình diễn nhận dạng chữ số tiếng Việt liên tục - - 131 4.4.2 _ Chương trình nhận dạng tiếng Việt không thanh điệu liên tục kích thước trung bình 132 4.4.3 Chương trình ứng dụng thông tin qua mạng điện thoại - -¿: -+55+c5++5<+ <<: 133

4.4.4 Nguồn thông tin liên quan đến luận án trên Ïnternet - - - :©- +5: 5+ s++‡+ +: 135

KẾT LUẬN on HH H0 dhgĐcS2S5339ng07gHtoycocoSASogvlPbĐĐGSĐ05E59212042711eg20 ecpetigtnimrre136

CÁC KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO -creeeeesaeee 137 PHU LUC A BẰNG KỸ HIỂU ẤM VỊ TIẾNG VIỆT ¿uaaaaaadiiidiidtidiottiaudgtnlaiotbiiaissgbs 139 PHU LUC B GIỚI THIỆU MỘT SO BỘ CÔNG CỤ XỬ LÝ TIẾNG NÓI 141

DANH MỤC CÔNG TRÌNH CUA TAC GIẢ LIEN QUAN DEN LUẬN ÁN - 143

Trang 4

MỞ ĐẦU

Tính cấp thiết của đề tài

Năm 1969, TS John Pierce, Giám đốc Nghiên cứu thuộc Phòng thí nghiệm Điện

thoại Bell đã viết một bài báo nổi tiếng “Đích đến của nhận dạng tiếng nói”, trong đó ông cho rằng nhận dạng tiếng nói là một nhiệm vụ không thể thực hiện được với máy

tính và “sự lôi cuốn nghiên cứu về nhận dạng tiếng nói giống như là sự lôi cuốn việc

nghiên cứu biến nước thành dầu lửa, lấy vàng từ đáy biển, chữa trị bệnh ung thư hay đi

tới mặt trăng” Vào năm 1980, GS Gorge trong một bài báo tương tự cũng cho rằng

không cần thiết phải xây dựng các hệ thống hiểu tiếng nói để thu nhận thông tin qua

điện thoại hoặc là ra lệnh cho máy tính vì những nhiệm vụ như vậy là quá khó khăn

[33] Tuy nhiên trái ngược với các dự đoán, hiện nay một số ứng dụng nhận dạng tiếng

nói đã được dùng rộng rãi trong xã hội và trong khoa học, đặc biệt là trong viễn thông.

Điện thoại di động đã có thể quay số điện thoại bằng giọng nói, các hệ thống xử lýthoại đa kênh có thể điều khiển các cuộc gọi thông qua tiếng nói, máy tính cá nhân vớiphần mềm nhận dạng tiếng nói có thể trợ giúp cho những người khiếm thính, các phần

mềm thương mại nhận dang đọc chính tả đã được sử dụng tại Mỹ, Canada, Nhật,

Sự phát triển vượt bậc của ngành khoa học nhận dạng tiếng nói trong vài thập kỷ

gần đây là kết quả của việc áp dụng các phương pháp tiên tiến của công nghệ thông tin.

Một trong những phương pháp đó là mô hình Markov ẩn HMM (Hidden Markov

Model) và mạng nơ ron nhân tạo ANN (Artificial Neural Network) Đây là hai phương

pháp được nghiên cứu nhiều nhất hiện nay trong các phòng thí nghiệm nhận dạng tiếng

nói trên thế giới Các hệ thống nhận dạng thử nghiệm có thể nhận dạng đến hàng chục

nghìn từ với độ chính xác trên 90%.

Tuy vậy đó là những nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài Với tiếng Việt, số lượng các nghiên cứu nhận dạng tiếng nói mới còn khá khiêm tốn và

không có nhiều công trình được công bố trong lĩnh vực này Các nghiên cứu nhận dạng

tiếng nói tiếng Việt mới chủ yếu mới chỉ tập trung vào các bài toán nhận dạng các từ rời rạc hay hệ thống nhận dạng liên tục kích thước nhỏ Chưa có nghiên cứu về hệ

thống nhận dạng tiếng Việt liên tục với kích thước trung bình và lớn Việc nghiên cứu

Trang 5

nhận dạng tiếng nói tiếng Việt là rất cần thiết để xây dựng các hệ thống nhận dạng

tiếng nói của riêng tiếng Việt, đưa các hệ thống này áp dụng vào trong thực tế.

Mục đích nghiên cứu

Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng

nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước

ngoài: mô hình Markov ẩn HMM, mạng nơ ron nhân tạo ANN và hệ thống lai ghép

giữa hai phương pháp này (hybrid HMM/ANN) Trên cơ sở các nghiên cứu này, ứng

dụng các phương pháp nhận dạng trên vào trong nhận dạng tiếng Việt.

Luận án đặt vấn đề nghiên cứu phương pháp thiết kế, xây dựng cơ sở dữ liệu tiếng

Việt và đặc biệt là phương pháp gán nhãn âm vị cho phát âm liên tục tiếng Việt.

Luận án nghiên cứu và tìm hiểu các đặc điểm chung và đặc điểm riêng biệt của

ngôn ngữ tiếng Việt so với ngôn ngữ nước ngoài để từ đó phân tích và phát hiện các vấn

đề đặc thù của ứng dụng hai phương pháp nhận dạng trên vào trong hệ thống nhận dạng

tiếng Việt liên tục Các kết quả nghiên cứu của nhận dạng tiếng nước ngoài và một số kết quả nghiên cứu của các tác giả trong nước về nhận dạng tiếng Việt sẽ được kế thừa

và sử dụng Các thử nghiệm tập trung vào các khía cạnh đặc trưng của ngôn ngữ tiếng

Việt và các vấn đề nhận dạng các phát âm qua điện thoại.

Thanh điệu là một thành phần của giọng nói Với các ngôn ngữ không có thanh

điệu, thanh điệu ít được nghiên cứu sử dụng Tiếng Việt là một trong số ít ngôn ngữ có

thanh điệu Luận án nghiên cứu về vai trò của thanh điệu trong các hệ thống nhận dạng

tiếng Việt, tận dụng thông tin về thanh điệu để nâng cao hiệu quả nhận dạng tiếng Việt

Phạm vỉ nghiên cứu

Các hệ thống nhận dạng tiếng nói bao gồm hai loại: hệ thống nhận dạng từ rời rạc

(discrete) và hệ thống nhận dạng từ liên tục (continuous) Nhận dạng từ liên tục bao gồm hệ thống nhận dạng kích thước nhỏ và hệ thống nhận dạng kích thuớc trung bình

hoặc lớn Nhận dạng từ liên tục là một bài toán khó khăn hơn nhiều so với nhận dạng từ

rời rạc Hiện nay mới chỉ có một nghiên cứu về hệ thống liên tục kích thước nhỏ tiếng

Việt (mười chữ số) được trình bày trong luận án của TS Nguyễn Thành Phúc Trong đề

tài này nghiên cứu sinh (NCS) đặt vấn đề tập trung nghiên cứu về hệ thống nhận dạng

từ liên tục.

Trang 6

Tuy nhiên xây dựng một hệ thống nhận dạng liên tục kích thước lớn (tới hàng chục nghìn âm tiết) hoặc không hạn chế số lượng âm tiết là một nhiệm vụ phức tạp và mất

nhiều thời gian, vượt ra ngoài khuôn khổ của một đề tài nghiên cứu sinh Luận án giới

hạn nghiên cứu các hệ thống nhận dạng liên tục kích thước nhỏ và trung bình Việc

nghiên cứu hệ thống nhận dạng kích thước trung bình sẽ là một bước chuẩn bị để mở

rộng nghiên cứu về hệ thống nhận dạng kích thước lớn.

Một trong các lĩnh vực được áp dụng nhiều nhất của nhận dạng tiếng nói là ngành

viễn thông, nhận dạng các thu âm qua hệ thống điện thoại Tiếng nói thu âm qua điện

thoại có đặc điểm là: có nhiều nhiễu trên đường truyền, chất lượng thu âm thấp, tần số

bị giới hạn trong giải 300-3400Hz, độ đa dạng cao do sự đa dạng của mạng điện thoại:

kiểu của micro, kiểu của tổng đài chuyển mạch, hệ thống truyền dẫn Các nghiên cứu

hiện thời về nhận dạng tiếng nói tiếng Việt mới chỉ tập trung vào các thu âm trong môi

trường cách âm hay văn phòng mà chưa có nghiên cứu về các thu âm trong điện thoại.

Với mong muốn nghiên cứu về các đặc thù của các thu âm qua điện thoại, giải quyết

các vấn đề với các thu âm chất lượng không cao, luận án tập trung nghiên cứu hệ thống nhận dạng tiếng nói qua mạng điện thoại.

Ý nghĩa khoa học và thực tiễn của đề tài

Nhận dạng tiếng nói đang được nghiên cứu tại nhiều nước trên thế giới, tuy vậy ở

Việt nam nghiên cứu nhận dạng tiếng nói còn ít Các nghiên cứu của luận án tập trung

vào các vấn đề đang còn chưa được nghiên cứu nhiều trong tiếng Việt.

Cơ sở dữ liệu tiếng nói tốt góp phần nghiên cứu nhận dạng tiếng nói đi đúng hướng

và thành công Hiện tại chưa có cơ sở dit liệu tiếng nói với số lượng từ lớn và chất lượng tốt cho tiếng Việt Luận án đã xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với số lượng người nói trên 200 người: cơ sở dữ liệu mười chữ số và cơ sở dit liệu

có kích thước từ điển 528 từ Hai cơ sở dữ liệu này giúp cho nghiên cứu về các hệ thống

nhận dạng tiếng nói tiếng Việt Ngoài ra qua kinh nghiệm nghiên cứu xây dựng hai cơ

sở dữ liệu này, luận án giới thiệu một số tiêu chí và phương pháp để xây dựng cơ sở dữ

liệu lớn hơn.

Gan nhãn âm vi là bước thứ hai trong xây dựng cơ sở dữ liệu tiếng Tuy vậy phương

pháp gán nhãn chưa được nghiên cứu trong tiếng Việt Luận án đã giới thiệu một

Trang 7

phương pháp gán nhãn âm vị bằng tay các phát âm liên tục tiếng Việt Ngoài ra một

phương pháp gán nhãn tự động âm vị được trình bày trong luận án để giúp cho công

việc gán nhãn được nhanh chóng.

Luận án đã nghiên cứu hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua điện thoại dùng hệ thống hai ghép HMM/ANN với độ chính xác là 97,78% ở mức từ và 91,78% ở mức câu Kết quả này gần tương đương với các hệ thống nhận dạng tương tự của nước ngoài Các chương trình trình diễn và chương trình ứng dụng của hệ thống này

đã được xây dựng để minh hoạ khả năng ứng dụng của hệ thống nhận dạng này trong

thực tế.

Luận án mạnh dạn nghiên cứu về hệ thống nhận dạng liên tục tiếng Việt kích thước

trung bình gồm 528 từ Phương pháp được áp dụng là dùng mô hình Markov ẩn liên

tục Tuy kết quả nhận dạng còn chưa cao: 76,57% ở mức từ và 29,97% ở mức câu,

nhưng các phân tích và phát hiện của luận án về các đặc thù của nhận dạng tiếng Việt là

thông tin có ích trong bước tiếp theo: nghiên cứu hệ thống nhận dạng kích thước lớn.

Tổ chức của luận án

Nội dung cơ bản của luận án gồm bốn chương:

Chương 1: Tổng quan về nhận dạng tiếng nói.

Trình bày khái quát về nguyên tắc hoạt động, các bộ phận của hệ thống nhận dạng

tiếng nói; độ chính xác hiện thời của các hệ thống nhận dạng tiếng nước ngoài và tiếng

Việt; cơ sở dữ liệu tiếng nói và các đặc điểm của ngôn ngữ tiếng Việt

Chương 2: Hệ thống nhận dạng tiếng nói liên tục dùng HMM và ANN.

Trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói liên tục, các phương

pháp trích chọn các đặc tính phổ; cơ sở lý thuyết của mô hình Markov ẩn HMM và ứng

dụng của chúng trong nhận dạng tiếng nói; cơ sở lý thuyết của mạng neuron đa lớp;

phương pháp huấn luyện hệ thống nhận dạng tiếng nói; thuật toán nhận dạng, giải mã.

Chương 3 Cơ sở dữ liệu và gán nhãn tiếng Việt.

Trình bày các phương pháp được sử dụng để xây dựng cơ sở dữ liệu tiếng Việt,

phương pháp phiên âm chính tả và bảng ký hiệu âm vị tiếng Việt; phương pháp gán

nhãn bằng tay ở mức âm vị cho các phát âm liên tục tiếng Việt; phương pháp tự động

Trang 8

gan nhãn các âm vi trong một co sở dữ liệu; xây dựng hai co sở dữ liệu tiếng Việt thu

âm qua điện thoại.

Chương 4 Hệ thống nhận dạng tiếng Việt liên tục

Trình bày các hệ thống nhận dạng tiếng Việt liên tục được nghiên cứu, phân tích về hai loại hệ thống nhận dạng: hệ thống nhận dạng dùng HMM liên tục và hệ thống nhận

dạng dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng chữ số tiếng Việt liên tục dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng liên tục tiếng Việt không

thanh điệu có kích thước trung bình dùng mô hình HMM liên tục; một số chương trình

trình diễn nhận dạng tiếng Việt.

Sau cùng là một số kết luận và kiến nghị cho các hướng nghiên cứu tiếp theo.

10

Trang 9

BANG KE CÁC KÝ HIỆU VIET TAT

DHMM Discrete Hidden Markov Model

Dynamic Time Warping

EM Expectation-Maximization

FFT Fast Fourier Transform

HMM Hidden Markov Model (Mô hình Markov ẩn)

HMM/ANN

IPA

FO

F1,F2,F3 Formant 1, Formant 2, Formant 3

LPC Linear Predictive Coding

LVCSR Large-Vocabulary Continuous Speech Recognition

MAP Maximum A Posterior

MFCC

Hệ thống lai ghép giữa mô hình Markov ẩn va mang neuron

International Phonetic Alphabet (Bảng ký tự phiên âm quốc tế)

Formant 0 (Tần số formant cơ bản)

Mel Scale Frequency Cepstral Coefficients (Các hệ số cepstral với

thang tan s6 Mel)

ML

MLP Multi-Layer Perceptron (Mang no ron Perceptron da lớp)

NCS Nghiên cứu sinh

Trang 10

BANG KE CÁC THUẬT NGỮ ANH-VIỆT

acoustic model mô hình âm học

embeded Waning

fundamenal frequency (pitch)

12

Trang 11

one «ane

13

Trang 12

CHƯƠNG1 TỔNG QUAN VỀ

NHẬN DẠNG TIẾNG NÓI

Trong chương này, phần một giới thiệu khái quát về hệ thống nhận dạng tiếng nói.

Phần thứ hai trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói, các giai

đoạn cơ bản của hệ thống nhận dạng tiếng nói Phần tiếp theo trình bày về khả năng

nhận dạng hiện thời (state of art) của các hệ thống nhận dạng trên thế giới với các ngôn

ngữ nước ngoài như tiếng Anh, tiếng Hán, tiếng Thái Các nghiên cứu hiện thời về nhận dạng tiếng nói đối với tiếng Việt cũng được giới thiệu Phần thứ tư trình bày về cơ sở dữ

liệu tiếng nói, một bộ phận gắn liền với nhận dạng tiếng nói Phan cuối dành để trình

bày về đặc điểm của ngôn ngữ tiếng Việt.

nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng

với các mẫu đã được học và lưu trữ trong bộ nhớ.

Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào

của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật

xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói

những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:

— Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời

gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm

Trang 13

tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để

nhận dạng tiếng nói.

— Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu

ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm

thành dãy các ký hiệu ngữ âm.

— Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics)

và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng.

Lĩnh vực nghiên cứu của nhận dạng tiếng nói khá rộng liên quan đến nhiều ngành

khác nhau Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói :

— Xử lý tín hiệu số (digital signal proccessing): Các kỹ thuật xử lý tín hiệu số dùng để

phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan

trọng từ tiếng nói.

— Vật lý hay âm hoc (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế

hoạt động của tai người.

— Nhận dang mẫu: các thuật toán dùng đề phân loại dữ liệu thành tập các mẫu và đối

sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu

— Lý thuyết thông tin và khoa học máy tính (information and computer science

theory): các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật

toán giải mã và mã hoá (lập trình động, các thuật toán dùng ngăn xếp, giải mã Viterbi)

để tìm một đường đi tốt nhất dãy các từ được nhận dạng

— Ngôn ngữ hoc (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói.

— Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người cũng như là quá trình phân tích âm học và ngôn ngữ tại bộ não.

— Tâm lý hoc ứng dung (applied psychology) Những kiến thức về quá trình sinh ra

tiếng nói cũng như quá trình nhận thức tiếng nói của loài người.

15

Trang 14

12_ NGUYÊN TAC CUA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau: nhận dạng từ rời

rac (discrete) và nhận dang từ liên tục (continuous) với hai loại: hệ thống kích thước

nhỏ và hệ thống kích thước trung bình hoặc lớn [31].

Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong

các chương trình dang câu lệnh-điều khiển (command-control), chẳng hạn như ứng

dụng quay số bằng giọng nói trong điện thoại di động Bài toán nhận dạng tiếng nói các

từ rời rac rõ rang là dé hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục.

Luận án này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau đây trình

bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.

Một phát âm dưới dạng wav được phân tích thành một dãy các vector đặc tính phổ,

mỗi vector tương ứng với một khung tín hiệu (thường có độ dài 10ms) Ví dụ một phát

âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y,, y>, , yp.

Phat âm là một dãy các từ W= w¿, wp, , w„, và nhiệm vụ của hệ thống nhận dạng

là tìm ra được dãy từ JÝ có xác suất cao nhất với dãy các vector đặc tính phổ Y cho

trước.

l6

Trang 15

Mô hình âm thanh

W = are max P(W | Y) =argmax ren (W |Y) gn PW)

Do xác suất P(Y) là độc lap với W, do đó để tìm được dãy từ có xác suất cao nhất

W phải tìm day từ sao cho hai xác suất P(W) va P(Y/W) cao nhất Xác suất P(W) độc

lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language

model) Xác suất P(Y/W) được xác định bởi mô hình âm hoc (acoustic model).

Hình 1.2 cho thấy mối quan hệ giữa các xác suất này Trong đó với một phát âm là day từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W) Bang từ điển phiên âm

ta biến đổi chúng thành dãy các âm vị tương ứng Dãy các âm vị này cho ta xây dựng

một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng Phát âm được trích chọn các đặc điểm đưa vào mô hình Markov ẩn lớn này

mộ | i V-LY 225 |

Trang 16

sẽ cho ta xác suất P(Y/W) Về mặt nguyên tac quá trình này có thể lặp di lặp lại với tất

cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất.

Dãy các đặc Dãy các từ ;

tinh phổ hoặc âm vi Từ, câu được

nhận dạng

Tín hiệu =a - ———

tiếngnói | Phân tích đặc Phân lớp mâu Xử lý ngôn ngữ

——>| tính (feature (pattern (language

analysis) clasification) processing)

Các từ, âm vi

Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language) model) Hình 1.3 Các quá trình nhận dạng

Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng Một quá trình xem xét song song tất cả các dãy từ có thể được áp dụng và một quá trình chọn lọc

xoá đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding).

Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có

ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ

1.2.1 Phân tích đặc tính tiếng nói

Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan trọng,

chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm

riêng biệt của từng người nói, Tiếng nói được phân tích theo từng khung thời gian

(frame) với độ dai dao động từ 8ms tới 25ms [24] Kết qua ra của giai đoạn này là các

vector đặc tính của mỗi khung tín hiệu tiếng nói

18

Trang 17

Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín

hiệu tiếng nói đó là phương pháp dựa vào mô hình hoá đường phát 4m (vocal tract) và

phương pháp dựa vào mô hình hoá cảm nhận âm thanh của con người (human auditory system) Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận đạng Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của

các hệ thống nhận dạng tiếng nói Hai phương pháp trích chọn tiếng nói đang được sử

dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: phương pháp MFCC

(Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear Prediction).

Có hai kỹ thuật xử lý tiếng nói có vi tri quan trong là kỹ thuật RASTA (RelAtive

SpecTral) và CMS (Cepstral Mean Subtraction) Đây là hai kỹ thuật áp dụng nhằm lọc

bỏ nhiễu, những âm thanh không phải là tiếng nói Hai kỹ thuật này đặc biệt có ích

trong xử lý tiếng nói thu âm qua điện thoại [8] Cả hai kỹ thuật đều có thể dùng kết hợpđược với một trong hai phương pháp trích chọn đặc tính phổ MFCC hoặc PLP Kỹ thuật

RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp

(live), nhận dang phát âm mà không cần đợi phát âm đó kết thúc [18] Kỹ thuật này

thường được đi kèm với phương pháp trích chọn đặc tính PLP [18] Ngược lại kỹ thuật

CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dé áp dụng

1.2.2 Phan lớp mẫu

Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ

thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template

matcher), rule-based, mạng neuron và mô hình Markov ẩn.

Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các

mẫu (examples) tiếng nói, bao gồm các vector đặc tính Tín hiệu tiếng nói cần nhận

dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã

được cất giữ trước đó Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát

âm chậm, nên kỹ thuật căn chỉnh thời gian động DTW (Dynamic Time Warping) được

áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với

các mẫu.

19

Trang 18

Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để

xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói Đối với hệ thống

nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hoá sự đa

dạng của tín hiệu tiếng nói Một vấn đề nữa là với cây quyết định, rất khó phục hồi lỗi

nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích.

Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh

được áp dụng thành công trong nhận dạng tiếng nói Đa số các hệ thống nhận dạng

tiếng nói hiện nay dùng mô hình Markov ẩn Chi tiết về mô hình Markov ẩn sẽ được

trình bày trong Chương 2.

Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong

muốn sử dụng khả năng phân lớp mạnh của mạng Mạng neuron truyền thẳng đa lớp

Perceptron thường được sử dụng trong nhận dạng tiếng nói Tuy nhiên mạng neuron có hạn chế về khả năng mô hình hoá sự biến thiên của tiếng nói theo thời gian Vì vậy

mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ

thống lai ghép mạng neuron và mô hình Markov ẩn Chương 2 sẽ trình bày chi tiết về

mạng neuron cũng như mạng lai ghép giữa mạng neuron và mô hình Markov ẩn

1.2.3 Xử lý ngôn ngữ

Mô hình ngôn ngữ đóng vai trò quan trọng trong xử lý ngôn ngữ Mục đích của mô hình ngôn ngữ N-gram (hay n-gram) là tìm ra xác suất của một từ theo sau một số

lượng từ nao đó trong một phát âm Ví dụ từ w, theo sau dãy k-7 các tit w,, Wo, ,M¿

(kí hiệu W;‘") trong một phát 4m N-gram giả thiết rằng từ w, chỉ phụ thuộc vào ø-j các

từ đứng trước nó tức là

P(w, |W") = P(w, |W,}—n+l

Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ

thuộc lân cận của một từ Các xác suất của mô hình ngôn ngữ có thể được tính toán trực

tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp hình

thức của ngôn ngữ.

20

Trang 19

Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực

tiếp từ số lần xuất hiện của các từ trong cơ sở dit liệu:

f(W¿_2„W,_1› W, )

P( Ww, |w,_4,W,_;)= B(w, 2W, _.)

k~2› x1

trong đó hàm /(x,y,z) là số lần xuất hiện của bộ ba từ x,y,z (trigram), b(x,y) là số lần

xuất hiện của bộ đôi (bigram) x,y.

Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba

là quá lớn Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là

10000 từ thì số lượng các bộ ba là VỶ Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều

bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai lần trong cơ sở dữ liệu Với các trường hợp này xác suất của các bộ ba là không tính được hoặc rất nhỏ.

Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh được

là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng Trong các hệ thống

nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng

phổ biến [43] Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ

theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dạng [46, 47].

13_ NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI

1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính

Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ

chính xác nhận dạng:

— Sự phụ thuộc vào người nói Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào

người nói (speaker dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn

là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người Tỷ lệ lỗi nhận dạng tiếng

nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống

nhận dạng tiếng nói phụ thuộc người nói tương đương [38].

— Kích thước của bộ từ điển Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói

có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và

nhiệm vụ nhận dạng tiếng nói càng trở nên khó khăn.

21

Trang 20

— Tốc độ nói, hiện tượng đồng phát âm Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó Các từ rời rạc được nhận dạng dễ dàng hơn là các từ

trong một phát âm liên tục.

— Sự biến đổi trong lời nói Con người có thể hiểu được lời nói ngay cả khi nó bị xen

lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “a, 6”, Tuy nhiên đối với máy tinh các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói.

— Điều kiện môi trường Tiếng nói có chất lượng thấp (bi méo tín hiệu, bị nhiễu kênh

truyền, ) thường đặt ra rất nhiều vấn đề để giải quyết cho các hệ thống nhận dạng

tiếng nói Theo [49] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có tỉ

số tín hiệu trên nhiễu SNR > 40dB (SNR- Signal to Noise Ratio) so với tiếng nói có

SNR >18dB tăng lên nhiều lần, có thể lên tới 10 lần.

— Các phát âm tự nhiên và các phát âm liên tục Hệ thống nhận dạng tiếng nói có thể

làm việc với các phát âm được đọc từ các văn bản chuẩn bi sẵn hoặc với các phát âm

do người nói nói một cách tự nhiên (spontaneous) Nhận dạng các phát âm tự nhiên rõ

ràng là khó khăn hơn nhiều so với các phát 4m đọc san Lý do là các phát âm tự nhiên

số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có

trong bộ từ điển Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát

âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm

khác.

— Các giới hạn về ngôn ngữ Các hệ thống nhận dạng có thể làm việc với các câu cóngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể Với các hệ thống này, nhiệm

vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể

về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)

nghĩa là bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển.

Độ chính xác của các hệ thống nhận dạng được đánh giá trên cơ sở mức từ và mức

câu Độ chính xác nhận dạng ở mức từ được đánh giá bằng công thức:

N-S-D-I

Trong đó S là số lượng từ bi nhận dang nhầm (substitution), D là số lượng từ bi xoá

(deleted), J là số từ bị chèn (insertion), N là tổng số các từ được nhận dang.

Độ chính xác ở mức câu được tính theo công thức:

Ze

Trang 21

N *100%

Trong đó N là tổng số câu nhận dang, S là số câu nhận dang sai.

1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nước ngoài

Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số

các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần

mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực

ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance va SpeechWorks là các hãng

phan mềm nổi tiếng Rất nhiều trung tâm nghiên cứu dang tập trung nghiên cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft

Research, CSLU,

Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố Hình 1.4

miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích

thước từ vựng và kiểu phát âm [9] Độ khó tăng từ thấp lên cao, từ trái sang phải.

Giọng nói tự Đối thoại tự

nhiên nhiên

¬ Hệ thống đối G>

Giọng nói liên thoại hạn chế

tục

Giọng nói do Quay số bằng Đọc chính tả

người nói đọc giọng nói trong văn phòng

Điền mẫu biểu bằng giọng nói

Ra lệnh bằng :

i i ra cứu

Cac từ rời rac idl

Giọng nói liên

kết

Zo

Trang 22

Môi trường thu âm tiếng nói có ảnh hưởng lớn đến độ chính xác nhận dạng Do vậy

nên cùng với một thuật toán, hệ thống nhận dạng có khả năng nhận dạng kém hơn

nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm.

Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi

người bán hàng tại các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so

với 99.7% trong môi trường phòng thí nghiệm) [36] Sự khác nhau về tỷ lệ lỗi nhận

dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi

trường phòng thí nghiệm và môi trường bên ngoài

Bang 1.1 so sánh tỷ lệ lỗi nhận dang của các hệ thống nhận dạng tiếng Anh so với

khả năng nhận dạng của con người theo đánh giá của [9] Từ Bang 1.1 ta thấy tỷ lệ lỗi

nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính.

Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ

lỗi nhận dạng của máy tính cao hơn đến mười lần Với cơ sở dữ liệu tiếng nói có nhiều

nhiễu thì sự khác nhau này có thể còn cao hơn nữa Do vậy có thể nói khả năng nhận dạng tiếng nói hiện thời còn xa mới có thể đạt tới khả năng của con người.

Ngoài ngôn ngữ châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn

ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng

Bắc kinh và tiếng Quảng đông), tiếng Thái lan cũng đã được thực hiện Với tiếng Trung

quốc, nhiều nghiên cứu đã được tiến hành, một số hệ thống nhận dạng tiếng Trung quốc

với kích thước từ vựng lớn cũng đã được xây dựng [17].

Bảng 1.1 So sánh tỷ lệ lỗi nhận dạng của máy tính và con người

với một số hệ thống nhận dạng.

| Cáedlữodá | 26 | 5% | 1% -|

| Giọng nói chất lượng tốt của WSJ | ð500 | 45% | 09% _

Giong nói có nhiều nhiễu WSJ

Với ngôn ngữ Thái lan, hau hết các nghiên cứu tập trung vào nhận dạng các từ rời

rạc [35] Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống nhận dạng mười chữ

số Thái liên tục đạt độ chính xác 96.89% với cơ sở dữ liệu thu âm trong nhà [39] Với

24

Trang 23

hệ thống nhận dạng liên tục kích thước trung bình và lớn tiếng Thái lan, hiện thời các

nghiên cứu mới chỉ ở bước khởi đầu

1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt

Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt.

Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt chủ yếu mới tập trung vào

nhận dạng các từ rời rạc.

Hệ thống nhận dạng tiếng Việt, giống như hệ thống nhận dạng các ngôn ngữ có thanh điệu khác, bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không

có thanh điệu và nhận dạng thanh điệu [45] Hình 1.5 miêu tả hệ thống nhận dạng ngôn

ngữ có thanh điệu, trong đó có tiếng Việt:

nhận dạng các từ

không dấu

nhận dạng thanh điệu

Hình 1.5 Hệ thống nhận dạng ngôn ngữ có thanh điệu.

Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS Nguyễn

Thành Phúc [3] Trong luận án tiến sĩ của mình TS Nguyễn Thành Phúc đã tiến hành

nghiên cứu và thực hiện các công việc sau:

— Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:

e Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15

người nói Các câu đều được gán nhãn bằng tay

e Co sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu

e Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phan vần là EO

gồm có 350 câu

— Nghiên cứu quá trình xây dựng một cơ so dữ liệu tiếng Việt, dé xuất bảng ký hiệu

âm vị tiếng Việt dùng để phiên âm các âm vị.

— Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu

25

Trang 24

— Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều

kiện thu âm trong nhà Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận

dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận dang, Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ.

Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn

Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại hoc Grenoble tại Pháp [30] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình

Markov ẩn đối với từ rời rạc Đây là một trong những công trình đầu tiên nghiên cứu về

nhận dạng thanh điệu tiếng Việt Các thử nghiệm được tiến hành trên cơ sở dữ liệu gồm

9720 từ do 18 người nói đến từ ba miền Bắc Trung Nam, thu âm với tần suất lấy mẫu

16kHz/s, biến đổi A/D 16 bit Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu

đạt 91,6%.

Ngoài ra trước TS Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố Theo [3] các công trình trên bao gồm:

— Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học-ngữ âm học

của TS Nguyên Anh Tuấn Kết quả của công trình như sau:

e Hình thức hoá được ngôn ngữ hình học của các từ tiếng Việt, cho phép nâng

cao độ tin cậy của phân đoạn hoá các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt.

e Nghiên cứu và hình thức hoá những đặc trưng của sáu thanh điệu tiếng Việt,

cho phép xác định tự động kiểu thanh điệu tiếng Việt

e Thong qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên âm

và bán nguyên âm tiếng Việt Các đặc trưng này có thể sử dụng để phân loại

các nguyên âm.

e Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng

Việt.

e Trên cơ sở các thông số đặc trưng của các âm đã tìm được, đã tìm được một

thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt.

26

Trang 25

Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95%,

không phụ thuộc vào giọng nói.

— Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin

Đại học Bách khoa Hà nội thực hiện hoàn thành vào tháng 6/1998 đã áp dụng phương

pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (FO-F5 và tương quan

F1-F2) của các nguyên âm tiếng Việt: “a, a, a, e, ê, i, o, 6, ơ, u, ư”.

— TS Đặng Văn Chuyết va KS Ngô Đức Binh đã áp dụng phương pháp phân tích

cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh.

— TS Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để

nhận dạng các từ rời rac cho tiếng Việt Các tham số được sử dụng là các F1 và F2 Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: “a,e,i,o,u”, mười chữ số

tiếng Việt và các từ điều khiển: "tiến, lùi, phải, trái, trước, sau, dừng” Độ chính xác

nhận dạng trung bình là 78,47%.

1.4 CƠ SỞ DU LIEU TIẾNG NÓI

Cơ sở dữ liệu của một hệ thống nhận dạng là một bộ phận không thể tách rời với các

thuật toán dùng trong nhận dạng Tính chất của cơ sở dữ liệu cũng là những tính chất

của một hệ thống nhận dạng Cơ sở dữ liệu tiếng được dùng để phát triển, huấn luyện và

kiểm tra năng lực làm việc của các hệ thống xử lý tiếng nói Cơ sở dữ liệu tiếng thường

có kích thước lớn, được xây dựng công phu bao gồm nhiều giọng nói của nhiều người

nói gồm nhiều lứa tuổi, đến từ nhiều vùng địa lý khác nhau.

Do vai trò quan trọng của cơ sở dữ liệu tiếng nói nên nhiều cơ sở dữ liệu tiếng nướcngoài đã được phát triển trong những thập kỷ qua Ví dụ như cơ sở dữ liệu tiếng Anh:

TIMIT, CSLU, WSJCAMO, tiếng Nhật ART, tiếng Triều tiên COCOSDA, Hệ cơ sở

dữ liệu chẳng hạn như TIMIT đã được sử dụng rộng rãi trong cộng đồng các nhà nghiên cứu và trở thành một cơ sở để đánh giá so sánh giữa các nghiên cứu.

Qui trình xây dựng một cơ sở dữ liệu tiếng gồm có hai giai đoạn chính: thu thập dữ

liệu và phiên âm chính tả, gán nhãn thời gian ở mức âm vị Người ta phân biệt các tính

chất của các loại cơ sở dif liệu:

27

Trang 26

— Cơ sở dữ liệu gồm các từ rời rạc hoặc cơ sở dữ liệu gồm các câu phát âm liên tục.

Loại cơ sở dữ liệu đầu được dùng cho các hệ thống nhận dạng rời rạc, loại thứ hai dùng

cho các hệ thống nhận dạng liên tục.

— Cơ sở đữ liệu có kích thước nhỏ, trung bình hoặc lớn tương ứng với các hệ thống

nhận dạng nhỏ, trung bình hoặc lớn Kích thước của co sở dữ liệu được tính là kích

thước của bộ từ điển các từ có mặt trong nó.

— Môi trường thu âm của cơ sở dữ liệu: trong phòng studio, trong phòng thí nghiệm,

trong môi trường văn phòng, trong môi trường bên ngoài, thu 4m qua điện thoại cố định, thu âm qua điện thoại di động,

— Thiết bị thu âm và chất lượng thu âm cũng là một tính chất quan trọng Cơ sở dữ

liệu có thể được thu âm với chất lượng cao như TIMIT với tan số lấy mẫu là 44kHz/s,

hoặc chỉ với 8Hzk/s khi thu âm qua điện thoại như cơ sở dữ liệu của CSLU

— Đặc điểm của người nói trong cơ sở dữ liệu Với hệ thống nhận dạng phụ thuộc người nói, cơ sở dữ liệu có thể chỉ bao gồm một người nói Thông thường cơ sở dữ liệu

bao gồm hàng trăm người nói.

— Phương pháp phát âm Với hệ cơ sở dữ liệu TIMIT, người nói đọc các câu có nội

dụng chuẩn bị sắn Đối với một số cơ sở dữ liệu của CSLU thì người nói được phỏng

vấn qua điện thoại và họ phát âm theo phương thức tự nhiên (spontaneous), vừa nói vừa nghĩ.

Sau quá trình thu âm của cơ sở dữ liệu là một quá trình quan trọng: phiên âm chính

tả và gán nhãn thời gian ở mức âm vị cho các phát âm Phiên âm chính tả là ghi lại nội

dung của các phát âm dưới dạng văn bản, mỗi tệp văn bản tương ứng với một tệp phát

âm.

15 NGON NGỮ TIẾNG VIET

1.5.1 Đặc điểm âm tiết tiếng Việt

1.5.1.1 Tinh độc lập cao

Trong tiếng Việt, âm tiết được thể hiện khá đây đủ, rõ ràng, được tách và ngắt thành

từng khúc đoạn riêng biệt Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu

trúc 6n định Điều này làm cho sự thể hiện của âm tiết tiếng Việt trong chuỗi lời nói nổi

28

Trang 27

bật và tách bạch hơn Do đó nên việc vạch ra ranh giới giữa các âm tiết trong tiếng Việt

dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ châu Âu [5] (trong ngôn ngữ châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân

tích phổ) Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết

tách ra thành một từ riêng biệt Có thể nói so với các âm tiết châu Âu, tiếng Việt có tính

độc lập cao hơn hẳn.

Trong các ngôn ngữ châu Âu thường gap các hiện tượng nối âm (liaison), ví dụ

như :

2

Les „amis have you done it 7

Trong tiếng Việt không có hiện tượng nối âm như vậy

1.5.1.2 Khả năng biểu hiện ý nghĩa

Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa Gần như toàn bộ các âm tiết đều

hoạt động như từ Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranhgiới của hình vị [4] (hình vị là đơn vị có nghĩa nhỏ nhất trong một ngôn ngữ) Chính vìvậy trong một phát ngôn, số lượng âm tiết trùng với số lượng hình vi

1.5.1.3 Cấu trúc chặt chế

Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 1.6:

Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó Cl là phụ

âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối.

Thanh điệu

Âm tiết tiếng Việt có cấu trúc gồm hai bậc: bậc một bao gồm các thành tố trực tiếp

được phân định bằng những ranh giới có ý nghĩa ngữ âm học Phan thứ hai bao gồm các

yếu tố của phần vần chỉ có chức năng khu biệt thuần tuý Quan hệ giữa các yếu tố ở bậc

một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ Các thực

nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra ở

29

Trang 28

chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh

của âm tiết.

Theo GS Bang và cộng sự [1] số lượng âm tiết phát âm được của tiếng Việt là

18958 So với các các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào

khoảng 3000-5000 Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, và chính

vì thế ít có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết Theo [5],trong tiếng Việt có 6 thanh điệu, 21 âm đầu và 155 phần vần và phần vần đóng vai trò

khu biệt lớn hơn cả so với các yếu tố khác trong Bậc 1.

| Bậc 1

Hình 1.7 Cấu trúc hai bậc của âm tiết tiếng Việt

| Bậc 2

1.5.2 Âm vị tiếng Việt

Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của

ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng

có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong

ngôn ngữ đó gọi là âm vị.

Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính thức

về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn tiếng

Việt Có thể quan niệm tạm thời coi "tiếng Việt chuẩn như một thứ tiếng chung được

hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà nội mà cách

phát âm của nó là cách phát âm Hà nội với su phân biệt /t-c/,/s-s/,/z-z/ và các vần ưu/iu,

uou/iéu” [4].

30

Trang 29

1.5.2.1 Thanh điệu

Âm vị tiếng Việt có hai loại âm vị đoạn tính và âm vị siêu đoạn tính Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ âm Âm

vị siêu đoạn tính là loại đơn vị không có âm đoạn tính, không độc lập tồn tại, nhưng

cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu Đây là đặc điểm

riêng của tiếng Việt so với các ngôn ngữ Châu Âu Một số ngôn ngữ khác như tiếng

Hán, tiếng Thái cũng có đặc điểm này như tiếng Việt.

Thanh điệu được hình thành bằng sự rung động của dây thanh, tuỳ theo sự rung đó

nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác nhau.

Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt với

nhau bang sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp.

no WwW BR WN1

Hình 1.8 Các thanh điệu tiếng Việt 1 Không dấu, 2 Huyền, 3 Ngã, 4 Hỏi, 5 Sac, 6.Nang

Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao chùm lên toàn bộ âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần Tiếng Việt có sáu thanh điệu Nếu chia thang độ của giọng nói bình thường thành 5 bậc thi ta có thanh điệu tiếng Việt được miêu tả như trong Hình 1.8.

1.5.2.2 Âm đầu

Trong các sách giáo khoa tiếng Việt [2, 4, 5, 7], tiếng Việt có 21 âm vi là âm dau Các âm vị /p,r/ không được liệt kê là các âm vị đầu tiếng Việt và được coi là âm vị có

nguồn gốc từ ngôn ngữ nước ngoài Âm vị /?/, âm tắc thanh hầu được liệt kê trong

một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong những âm tiết như: ”ai,

ơi, ăn, oản, uống, oanh, uyên” có hiện tượng khép khe thanh lúc mở đầu khi chúng

được phát âm lên Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc

không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm

31

Trang 30

Thừa nhận tồn tại âm tắc thanh hầu đưa đến xây dựng được một mô hình tổng quát của

âm tiết tiếng Việt cân xứng hơn với ba thành tố luôn có mặt: thanh điệu, âm đầu, âm vần [5].

1.5.2.3 Âm đệm

Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hoá âmtiết và khu biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh âm

tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước

các nguyên âm tròn môi /u,o,2/, nó chỉ xuất hiện trước các nguyên âm hàng trước Độ

mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau.

1.5.2.4 Âm chính

Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định ăm sắc của âm tiết.

Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi Âm

chính âm tiết có thể chia thành 4 nhóm :

— Nhóm nguyên âm đơn, hàng trước, không tròn môi Am sắc của nhóm này thường

là bổng Có thể dài và thể ngắn Thể ngắn có sự biến dạng ít nhiều về trường độ, âm

sắc, cường độ, phát âm căng và ngắn.

— Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và thể ngắn Sự

thể hiện thể ngắn có cấu âm không giữ đều

— Nhóm nguyên âm đơn, hàng sau, không tròn môi Âm sắc trầm vừa.

— Nguyên âm đôi phát âm yếu dan, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó

âm sắc của nguyên âm đôi là do yếu tố đầu quyết định Nguyên âm chỉ có một thể dài

và không bị biến dạng về âm sắc và trường độ.

1.5.2.5 Am cuối

Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu âm

tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ) Do đó có sự khác

biệt lớn giữa 4m /t/ trong phát âm hai từ "at" và "ta" Trong khi phat âm từ “ta”, lối thoát

của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành

một tiếng động đặc thù Trong khi phat âm từ "at", bộ phận cấu âm ở nguyên vi trí cấu

âm và không khí không được thoát ra ngoài [4].

32

Trang 31

Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng Ví dụ như

âm vị /k/ trong từ "tac" Do vậy âm vị /k/ được nhận diện chủ yếu làm biến đổi âm sắc

của âm chính đi ở giai đoạn cuối.

Bảng 1.2 Phân bố giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuối.

Bán nguyên âm cuối

iil Vi du

S<Oo =—

=e

Bán nguyên âm cũng không thường xuyên được thé hiện rõ rệt mà chi được nhận

diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn có tác

dụng mạnh hơn là phụ âm cuối.

1.5.3 Su phan bố của các âm vị tiếng Việt

Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với

nhau theo những qui luật Sau đây là Bảng 1.2 tổng kết sự phân bố giữa nguyên âm âm

chính và các âm đệm và bán nguyên âm cuối [4].

33

Trang 32

CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNG

NÓI LIÊN TỤC SỬ DỰNG HMM VÀ ANN

Chương này tập trung trình bày các vấn đề lý thuyết của các phương pháp nhận

dạng: mang ANN va mô hình Markov ẩn va sự kết hợp giữa chúng Phần một trình

bày về giai đoạn đầu của hệ thống nhận dạng tiếng nói: các phương pháp xử lý tiếng

nói Phần hai trình bày về mô hình Markov ẩn, và ứng dụng trong nhận dạng tiếng

nói Phần tiếp theo trình bày về mạng neuron nhân tạo, đặc biệt là mạng Perceptron

đa lớp, loại mạng hay được sử dụng trong nhận dạng tiếng nói Phần thứ tư trình bày

về phương pháp huấn luyện hệ thống nhận dạng liên tục dùng các kỹ thuật: mô hình

Markov ẩn liên tục CD-HMM, mạng neuron nhân tạo ANN và hệ thống lai ghép

HMM/ANN Phần cuối cùng trình bày về thuật toán giải mã trong các hệ thống

nhận dạng liên tục.

2.1 CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU TIẾNG NÓI

Phần này sẽ giới thiệu hai phương pháp được sử dụng rộng rãi trong các hệ

thống nhận dạng hiện tại để tính toán các hệ số MFCC (Mel Scale Frequency

Cepstral Coefficients) và hệ số PLP (Perceptual Linear Prediction) Hai kỹ thuật xử

lý tiếng nói RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) cũng

được giới thiệu Đây là hai kỹ thuật loại bỏ nhiễu hay được sử dụng đặc biệt là trong

phát âm có nhiều nhiễu như các câu thu âm qua điện thoại.

2.1.1 Phương pháp tính hệ số MFCC

Hình 2.1 miêu tả các bước tính toán hệ số MFCC:

1) Nhấn mạnh tín hiệu (pre-emphasis) Trong bước xử ly đầu tiên nay, tín hiệu

được đưa qua một bộ lọc số:

_ “i

FT ive(Z) =14+4,,.2

Trong đó z„„ là hệ số nhấn mạnh, thường có giá tri là 0,9700002861 Bộ lọc có

tác dụng tăng cường tín hiệu tại tần số cao (trên 1KHz) với hai lý do chính:

34

Trang 33

— Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao do đặc điểm

sinh lý của hệ thống phát âm của con người Bước xử lý này sẽ tăng cường tín hiệulên một giá tri gần 20dB/decade để khắc phục sự suy giảm này,

— Hệ thống thính giác của con người nhạy cảm hơn với vùng tan số cao, bước xử lýnày nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mô hình hoá âm thanh sau

này của hệ thống nhận dạng

Tạo khung tín Làm cửa sổ cy DFT

hiéu (framing) D (windowing)

Hình 2.1 Các bước xử lý của phương pháp tính toán hệ số MFCC

2) Tạo khung tín hiệu (framing) Tín hiệu tiếng nói luôn luôn biến thiên theo

thời gian, tuy nhiên trong khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói

được coi là tương đối ổn định Do đó tín hiệu thường được chia thành các khung

kích thước 20-30ms với vùng gối lên nhau khoảng 10-15 ms

3) _ Làm cửa số (frame windowing) Cửa số Hamming thường được áp dụng cho

mỗi khung tín hiệu để giảm sự tác động của việc chia khung tín hiệu:

2Z(nm-])

s„ ={0,54— 0,46cos(

N-1 )}S,

Trong đó N là số mẫu dit liệu (sample) của cửa số.

4) DFT (Discrete Fourier Transform) Tại bước này với mỗi khung tín hiệu, biến

đổi Fourier được áp dụng để chuyển về miền tần số Công việc tính toán được

thực hiện bằng thuật toán FFT (Fast Fourier Transform).

a3

Trang 34

5) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Các bộ lọc số

được áp dụng để lọc các tín hiệu theo các giải tần số khác nhau.

Phản ứng của tai người với các thành phần của tần số là không tuyến tính Sự

khác nhau về tần số ở vùng tan số thấp (<1KHz) dé được nhận biết bởi con người hon là ở vùng tần số cao Loc theo thang tan số Mel mô phỏng tinh chất nay bang cách dùng các bộ lọc được phân bố theo một hàm phi tuyến trong khoảng không

gian tần số, thông thường là hàm Mel:

Mel(ƒ)= 2595logi,(1+z2D)

6) Logarit giá tri năng lượng (logarit of filter energies) Các giá tri năng lượng

thu được tại mỗi kênh lọc được lấy logarit để “nén” các giá trị này vào một miền

giá trị hẹp hơn.

7) DCT (Discrete Cosin Transform)

Do giọng nói phát âm bởi con người có phổ khá tron (smooth) trên miền tan số,

do vậy các giá trị năng lượng của các bộ lọc gần nhau có sự tương quan (correlated)

khá gần Bước xử lý này biến đổi các giá trị năng lượng thành các hệ số ít tương

quan với nhau hơn, các hệ số này được gọi là hệ số cepstral.

8) Chỉnh các giá trị cepstral Giá trị cepstral bậc cao thường có giá trị rất thấp,

sO VỚI các giá tri cepstral bậc thấp Sự khác biệt này gây khó khan cho việc mô

hình hoá dữ liệu, ví dụ như khi sử dụng các hàm mật độ xác suất Gauss Do đócác hệ số cepstral được điều chỉnh lại (re-scaled) theo công thức:

c„ =exp(n*k)c,

Sau bước hiệu chỉnh này ta thu được các giá tri MFCC

9) Tính giá trị delta MFCC Các giá trị delta của các hệ số MFCC được tính toán

nhằm phản ánh sự biến thiên tiếng nói theo thời gian Các giá trị delta được tính

toán dựa trên các giá trị MFCC của các khung tín hiệu lân cận:

36

Trang 35

Trong đó Ølà số khung tín hiệu lân cận được dùng (thông thường là 2).

Ngoài ra giá trị delta của delta (hay còn gọi là acceleration) cũng có thể được

tính toán từ các giá trị delta dùng cùng một công thức như trên

2.1.2 Phuong pháp tính hệ số PLP

Phương pháp PLP được phát triển dựa trên phương pháp mã hoá dự báo tuyến

tính LPC (Linear Prediction Coding).

Phương pháp LPC hay còn gọi là mô hình hoá tự hồi qui (autoregression

modeling) là phương pháp mô hình hoá tín hiệu bằng sự kết hợp tuyến tính các mẫu

tín hiệu trước đó:

s(n)= -Satiiste —1)+e(n)

i=l

trong đó N là số hệ số hay là bậc cua dự báo, các a(i) là các hệ số dự báo tuyến

tính (linear prediction coefficients), e(n) là hàm lỗi

Các hệ số a(¡) được chọn để làm cực tiểu hàm lỗi dự báo trung bình bình phương.

Có một vài phương pháp để tính các hệ số này: phương pháp dùng ma trận hiệpphương sai (covariance matrix), phương pháp tự tương quan (auto-correlation

method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or

harmonic) Phương pháp hay được áp dụng nhất trong nhận dạng tiếng nói là

phương pháp tự tương quan dùng thuật toán đệ qui Levinson-Durbin.

Thuật toán Levinson-Durbin như sau:

Tính p+7 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính) bằng

công thức sau:

N-i

BS » SiS isi

=

Trong đó s(n) là tín hiệu trong cửa sé, N là số lượng mẫu trong cửa sé.

Các hệ số sau đó được tính toán đệ qui như sau:

37

Trang 36

1) FFT Tương tu như phương pháp MFCC, tín hiệu tiếng nói được chia thành

các khung tín hiệu và được biến đổi Fourier sang miền tần số bằng thuật toán

FFT.

Tiéng noi

FFT c) Lọc tần số Bark (Bark c) Nhấn mạnh dùng ham

: frequency filter) Equal-loudness

Luật cường độ nghe

(power law of hearing)

Biến đổi Fourier ngược

Trang 37

2) Loc theo thang tan số Bark Tương tu như phương pháp tính MFCC, tín hiệu

tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong

trường hợp nay là thang tan số Bark:

Bark( f) = 61n{- 7 : +Ic TỶ +19)

3) Nhấn mạnh tín hiệu dùng hàm equal-loudness Bước xử lý này tương tự như

bước nhấn mạnh pre-emphasis của phương pháp MFCC Hàm nay mô phỏng

đường cong cân bằng độ ồn (equal-loudness curve)

(@? +56,8*10°)ø!

mm ———— a

(2) (@? +6,3*105)(ø? +0,38* 10° )(@® +9,58 #109)

4) Dùng luật cường độ nghe (power law of hearing) Bước xử lý này giống như

bước lấy giá tri logarit trong phương pháp MFCC Hàm căn bậc ba được sử dụng

để “nén” các giá trị năng lượng.

a f= "(sy

5) _ Biến đổi Fourier ngược (inverse DFT) Các hệ số tự tương quan được biến đổi

Fourier ngược để sau đó dùng làm giá trị đầu vào cho phương pháp LPC.

6) Thuật toán Durbin được sử dụng để tính toán các hệ số dự báo tuyến tính

giống như trong phương pháp LPC.

7) Tính các giá trị delta Phương pháp tính tương tự như phương pháp tính hệ số

MFCC.

2.1.3 Các kỹ thuật khử nhiễu

2.1.3.1 Kỹ thuật CMS.

Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng,

được dùng kết hợp trong quá trình tính toán các đặc tính phổ của tiếng nói Phương

pháp này dựa trên giả thiết là các đặc tinh tan số của môi trường là thường xuyên cố

định hoặc biến đổi chậm Các tham số cepstral của một phát âm được trừ đi giá trị

trung bình của các tham số trong một khoảng thời gian nào đó và làm cho các giá trị

này ít bị ảnh hưởng bởi môi trường:

ˆ T

O(r) = O(r) =3 00)

t=]

ag

Trang 38

trong đó 7 là độ dài của vùng lấy giá trị trung bình, thường là độ dài của cả phát

âm.

2.1.3.2 Kỹ thuật RASTA

RASTA là kỹ thuật lọc dựa trên giả thiết rằng các tính chất thời gian của các

nhiễu là khác so với các tính chất thời gian của giọng nói Tốc độ thay đổi của các thành phần không phải tiếng nói thường xuyên nằm ngoài tốc độ hoạt động của bộ máy phát âm con người Bằng cách dùng bộ lọc số, kỹ thuật RASTA có thể loại bỏ

được một phần các nhiễu của môi trường và các nhiễu bổ sung bất thường khác Bộ

lọc dùng trong RASTA là:

0,2+0,1z7'! — 0,22 -0,1z7

a= 10,942"!

2.2 MÔ HÌNH MARKOV AN

Phần này được dành để giới thiệu về mô hình Markov ẩn và ứng dung của chúng

trong nhận dạng tiếng nói.

2.2.1 Quá trình Markov

Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thể là một hệ vật lý hay hệ sinh thái, ), ký hiệu gq, là vị trí của hệ tại thời điểm ứ Các vi trí có thể có

được của hệ được gọi là không gian trạng thái, ký hiệu là S= {S,, S;, S;, } Gia sử

tại thời điểm s hệ ở trang thái Š;, nếu xác suất để hệ ở trạng thái S; tại thời điểm ¿ trong tương lai chỉ phụ thuộc vào s, f, S„ Š; thì có nghĩa là sự tiến triển của hệ chỉ

phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có tính chất này được gọi là quá trình Markov.

Nếu không gian trạng thái S của hệ là đếm được thì ta gọi hệ là xích Markov.Nếu thời gian 7 là rời rac /=0,1,2, thì ta có xích Markov rời rac Ta có thể biểu diễn tính Markov của hệ bằng biểu thức sau :

P(q, = Š; Í Qe = Sis đa = Spy) = P(q, = 5; Í đ.ị = Si)

Dat P(s,i,t,j) = P(g, = S; / q, = S; ) là xác suất để hệ tại thời điểm s ở trạng thai i,

đến thời điểm / chuyển sang trạng thái j Ta gọi P(s,i,t,j) là xác suất chuyển của hệ.

Nếu xác suất chuyển chỉ phụ thuộc vào (t-s) tức là

40

Trang 39

Hình 2.3 Xích Markov với năm trang thái S,, S;, , S; và

các xác suất chuyển trạng thái

Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất,

trong đó hệ có thể ở một trong năm trạng thái S,, Š›, , Sy (trong ví dụ trên N=5) Tại mỗi thời điểm /=0,1,2, hệ chuyển trạng thái theo xác suất chuyển trang thái a;

tương ứng với mỗi trạng thái

i

ay = PQs = S, | q, = S, )

» a= LN

7 —

Ngoài ra ta định nghĩa xác suất trang thái khởi dau (initial state distribution) z =

(Z, 7p, 7y}, trong đó 7; là xác suất để trạng thái i được chọn tại thời điểm khởi

Trang 40

thời điểm rời rạc liên tiếp nhau, trong đó mỗi trạng thái tương ứng với một sự kiện

vật lý có thể quan sát được (observation event).

2.2.2 Mô hình Markov an

Mô hình Markov ẩn là kết qua của mở rộng khái niệm từ mô hình Markov bằng

cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation

distribution) Ngoài quá trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trangthái còn có một quá trình ngẫu nhiên nữa đó là quá trình ngẫu nhiên sinh ra mộtquan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong

đó có một quá trình ngẫu nhiên không quan sát được Tap các quan sát O được sinh

ra bởi dãy các trạng thái S,, 5, , Sy của mô hình, mà dãy các trạng thái này là

không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn

(hidden) [31].

Mot mô hình Markov ẩn được đặc trưng bởi các thành phần cơ ban sau :

1) N, số trạng thai (state) trong mô hình Markov Các trang thái thường được ký

hiệu bằng S= {S), S>, S3, } và trạng thái của mô hình tai thời điểm / được kí hiệu

là q,.

2) M, số ký hiệu quan sát (observation symbol), đây là kích thước của bang từ

vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= {¥,, V5, ).

3} A = {a,}, xác suất chuyển trang thái (state transition probability distribution).

Trong đó a, là xác suất để trang thái j xuất hiện tai thời điểm /+7 khi trang thái i

đã xuất hiện tại thời điểm r.

4) B={b(k)} xác suất phát xạ quan sát trong mỗi trang thái (observation symbol

probability distribution in state) b(k) là xác suất của quan sát v, tại trang thái j

tại thời điểm í.

b{k) = P(v, tại thời điểm t/q, = S)), (2.1)

42

Tiêu đề	Nghiên Cứu Ứng Dụng Mạng Neuron Và Mô Hình Markov Ẩn Trong Nhận Dạng Tiếng Việt
Trường học	Trường Đại Học Khoa Học Tự Nhiên
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	146
Dung lượng	47,78 MB