39 Trang 5 v Danh mục các ký hiệu và các chữ viết tắtKý hi u ệ Tên ti ng Anh ếANN Artificial eural etwork NNASR Automatic peech ecognition SRDCT Discrete osine ransform CTDFT Discrete o
Trang 1i
B GIÁO D Ộ ỤC VÀ ĐÀO TẠ O TRƯỜNG ĐẠ I H C BÁCH KHOA HÀ N I Ọ Ộ
-
PHẠ M H U BIÊN Ữ
Ứ NG D NG LÝ THUYẾT PHI TUY N TRONG X Ụ Ế Ử LÝ VÀ
NHẬ N D NG TI NG VI T Ạ Ế Ệ CHUYÊN NGÀNH: K THU Ỹ ẬT ĐIỆ N T Ử
LU TH C
K THU N T
Trang 2ii
Lời cam đoan
trình nghiên c u th c s c a cá nhân tôi,
c th c hi i s ng d n khoa h c c a PGS.TS Nguy n Ti
Các s u, k t qu nghiên c u trong lu li c
Tôi xin ch u trách nhi m v nghiên c u c a mình
H c viên Phm H u Biên
Trang 3iii
MỤC LỤC
L ii
M C L C iii
Danh m c các ký hi u và các ch t t t vi v
Danh sách các b ng vi
Danh sách các hình v th vii
M U 1
U T NG QUAN 3
1.1 T ng quan tình hình nghiên c u nh n d ng ti c và trên th i gi 3
1.2 L ch s nghiên c u nh n d ng ti ng nói t ng (ASR) 5
1.3 M i quan h a ti ng nói và h gi thng phi tuy 6n 1.4 T ng k t 8
X LÝ TI NG NÓI VÀ CÁC MÔ HÌNH NH N D NG TI NG NÓI 9
x lý tín hi u s 10
2.1.1 Phép bi i t n s liên t c 10
2.1.2 Phép bi i t n s r i r c 13
2.1.3 Các b l c s 15
2.2 Phân tích ph 17
2.2.1 Gi i thi 17
2.2.2 H s Cepstral trong t n s Mel (MFCC) 19
n o hàm bo hàm b c 2 23
2.2.4 T ng h 24
2.3 Mô hình th ng kê cho nh n d ng m u 25
2.3.1 Mô hình Gauss 25
2.3.2 Mô hình Markov n 30
2.4 HMM và bài toán nh n d ng ti ng nói 39
Trang 4iv
2.4.1 Xây d ng mô hình Markov n 39
2.4.2 Xây d ng HMM cho nh n d ng s ng Vi t ti 39
2.5 T ng k t 40
C X LÝ TÍN HI U PHI TUY N TÍNH VÀ CÁC N TÍNH 41
lý thuynh lý c a Takens 42
c t không gian RPS 45
3.2.1 Phân b t nhiên 45
3.2.2 Thông tin qu o 47
3.2.3 K t h c t x lý phi tuy n và vect 48
3.3 K thut mô hình hóa và nh n d ng 50
c RPS 50
52
3.3.3 Xây d ng mô hình nh n d ng t ng Vi t ti 53
3.4 T ng k t 55
N D NG TI K T QU 56
4.1 Ph n m m 56
4.2 D u li 57
t thí nghi m 58
4.3.1 La ch n tham s 58
4.3.2 Xây d ng các bài thí nghi m 61
4.4 M t s k t qu chính 62
t qu 72
K T LU NG PHÁT TRI N 76
Tài li u tham kh o 77
PH L C 80
Trang 5v
Danh mục các ký hiệu và các chữ viết tắt
Ký hi u ệ Tên ti ng Anh ế
ANN Artificial eural etwork N N
ASR Automatic peech ecognition S R
DCT Discrete osine ransform C T
DFT Discrete ourier ransform F T
FFT F Fast ourier ransform T
HTK Hidden Markov Modeling ool it T k
IDFT Inverse iscrete ourier ransform D F T
LPC Linear redicative oding P C
MFCC M Fel requency epstral oeffiC C cientsPDF Probability ensity unction D F
RPS Reconstructed hase pace P S
TIMIT Texas nstruments & assachusetts I M
Institute of echnology speech corpus T
MGHMM M ixture of auss Hidden M G arkov odel M
Trang 6vi
Danh sách các bảng
B ng 1: B ng ký hi u dùng cho phân tích tín hi u 9
B ng 2: B ng các ký hi x lý tín hi u trong không gian phi tuy n tính 41
B ng 3: B ng các ký hi u dùng cho bài thí nghi m 56
B ng 4: Tên các bài thí nghi m th c hi n 61
B ng 5: K t qu nh n d ng s d 62
B ng 6: K t qu nh n d ng s d n 64
B ng 7: K t qu nh n d ng s d ng k t h n v 66
B ng 8: K t qu nh n d ng s d ng mô hình tr ng s 68
B ng 9: B ng so sánh k t qu nh n d ng v 72
B ng 10: B ng so sánh k t qu nh n d ng gi 74
Trang 7vii
Danh sách các hình vẽ và đồ thị
không gian pha (RPS) c a ti ng nói c a m t t 7
th hàm X e( )jw 10
Hình 3: Bi u di n Z theo ph n th c ph n o 11
Hình 4: Bi u di n Z trên m t ph ng ph c 12
Hình 5: Th c hi n bi 12
kh i mô hình t o ti ng nói 17
kh i mô hình l c ngu n t o ti ng nói 17
th minh h l n ph 18
19
th c a s Hamming 21
th minh h a m i quan h gi a thang t n s Mel và thang t n s Hz 22
kh i minh h 25
Hình 13: Hàm mGauss 25
Hình 14: Mô hình Gauss 26
Hình 15: Hàm m Gauss c a ba phân ph i 27
Hình 16: Mô hình Markov 3 tr ng thái 30
Hình 17: Mô hình Markov n 3 tr ng thái 31
Hình 18: Chu i Q t c 35b xây d ng HMM 40
Hình 20: Hình v minh h a RPS c a các t 43
th RPS c a t tr 44
Hình 22: So sánh tâm và bán kính c a qu o t o t 45
Hình 23: So sánh tâm và bán kính c a qu o t 46
Hình 24: So sánh tâm và bán kính c a qu o t i nói khác nhau 47
Hình 25: Hình v minh h a phân b m trong RPS và qu o RPS 47
Hình 26: M i quan h a các ch s gi ng h p 50
Trang 8viii
Hình 27: Minh h a RPS b ng mô hình Gauss v i 256 Mixtures 51
Hình 28: Mô hình Marko n left-right n 6 tr ng thái v 53
kh i t o ma tr n xác su t phát ra 54
thu t toán hu n luy n 54
Hình 31: Thu t toán nh n d ng t ng Vi t ti 54
n âm thanh hu n luy n 57
thu t toán c t t ng 58
th RPS c a t tr khác nhau 58
th minh ho RPS dùng mô hình Gauss v i 256 Mixtures 60
th k t qu nh n d ng các s ti ng Vi t v 63
th k t qu nh n d ng các s ti ng Vi t v c t RPS 65
Hình 38: Bi hi n t l nh n d ng chính xác s ng Vi t vth ti c t c k t h p t 67
th k t qu nh n d ng s d ng mô hình Markov n 9 tr ng thái v c ng s ) 69
th k t qu nh n d ng s d ng mô hình Markov n 15 tr ng thái v dùng mô hình tr ng s ) 70
Hìn th k t qu nh n d ng v i mô hình Markov n 70
Hình 42: Giao dit qu 71
Hình 43 k t qu nh n d ng vth i mô hình dùng tr ng s và không dùng tr ng s 75
Trang 91
MỞ ĐẦU
Ngày nay nhu c i thông tin ngày càng nhi u d n s a
t nhic ti p c thông qua sóng tín hi ra l nh cho máy, thông qua ti ng nói, thông qua các
c ch chuyng M t trong nh c giao ti p v i máy tínhc phát tri n nhi u nh ng t nhi u công trình nghiên c u v nh n d ng ting nói trên th gi th ng nh n d ng ti ng nói ti ng Anh Via Voice c a IBM, Spoken Toolkit c a CSLU(Central of Spoken Laguage Under-standing), Speech Recognition c a Microsoft, Hidden Markov Model tookit c a
i h c Cambridge, CMU Sphinx c i h Ngoài ra m t s h th ng
nh n d ng ti ng nói ti c, Trung Qu n Nhn d ng
ting nói ti ng Vi t t s ng d n l ng d n viên
b o tàng, Ph n l n các công trình nghiên c u này s d ng công c k thu t phân tích và x lý tín hi u tuy n tính G t công c c phát trin cho vi c phân tích và x lý tín hi u là mô hình ng d ng lý thuy t v phi tuy n T i
m t s t, Pháp, Anh c áp d ng cho nh n d ng ti ng
t qu t t i v i ti ng Vi p c n nghiên c u dùng lý thuyt phi tuy n nh m ng d ng cho nh n d ng ti ng nói ch c nghiên c u
V i mong mu n góp ph n t o nên nh c phát tric nh n d ng ting nói c ta c v m t nghiên cng d ng s n ph m th c ti n i
s ng, v s i ng c a th y giáo PGS Nguy n Ti TS ễ ến Dũng và th y giáo
PGS.TS Hoàng M ạ nh Thắng lu n này ti ng nói
kt qu c v cho vic
hoàn t c lu y giáo PGS.TS Nguy n Ti ễ ến Dũng và th y giáo PGS.TS Hoàng M nh Th ạ ắ ng ng d n
em trong quá trình th c hi n lu y, cô giáo trong
Trang 10c a nghiên c u nh n d ng ti ng nói, gi i thi u m t s k t qu nh n d ng ti ng nói s
d ng lý thuy t phi tuy n và gi i h n ph m vi nghiên c u c a lu
x lý ti ng nói và các mô hình nhn d ng ti ng nói gii thi u mô hình tuy n tính s d ng cho phân tích và tìm a các t ng Viti t
c n nh n d ng, gi i thi u mô hình th ng kê nh n d ng m u, xây d ng mô hình nh n d ng
t ng Vi t s d ng mô hình Markov n ti
c x lý tín hi u phi tuy n
n tính i thi u các k t qu lý thuy t phi tuy n tính c tuyn tính, xây d ng mô hình Markov n cho nh n d ng t ti ng Vi t v i phi tuy t h p c tách t không gian phi tuy n và
c tách t c x lý tuy n tính ng Xây d ng mô hình Markov n cho các c
n d ng ti ng t qu này trình bày các k t qu nh n d ng ti ng nói vc trong không gian phi tuy c trong không gian phi tuy n k t h p v i c
MFCC, ng th t qu nh n d ng ti c
Phn cu i c a lu t lung phát tri n c tài trình bày v các
vluc và các v c n phát tri n sau lu
t t :
Trang 113
CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN
i thi u t ng quan v tình hình nghiên c u nh n d ng ti ng nói
c và c trên th gi i, l ch s phát tri n c a nghiên c u nh n d ng ti ng nói, gi i thi u m t s k t qu nh n d ng ti ng nói s d ng lý thuy t phi tuy n và gi i h n
ph m vi nghiên c u c a lu
1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nước và trên thế giới
V nghiên c n d ng ti t nhi u s u c a các nhà khoa h c trên kh p th ging v xây
d ng các h ng nh n d ng ti th có t nh a th k n nay
c nhi u k t qu
Trên th git nhi u h thng nh n d ng ti ng nói ti
c ng d ng r t hi u qu a IBM, Spoken Toolkit c a CSLU (Central
of Spoken Laguage Under-standing), Speech Recognition Engine c a Microsoft, Hidden Markov Model toolkit c i h c Cambridge, CMU Sphinx c i h c Carnegie
goài ra m t s h th ng nh n d ng ti ng nói ti c, Trung Qu
n
i vu nghiên c u v nh n d ng ti ng nói ti ng Vit
c m t s thành t v c k t qu c n thi có th
t o ra các s n ph m mang tính ng d ng cao Có th k n các công trình sau:
ng dng d n viên b o tàng c a vi n nghiên c u qu c t (MICA)
i h c Bách khoa Hà N i Trên robot g n camera th c hi n ch giác, micro
nh n d ng ti ng nói và tám c m bi n h ng ngo i giúp nó di chuy n thu n l R i c mang th nghi m t n v t c a dân ti B o tàng dân t c h c Vi t Nam v i d u kho ng 500 thông tin và cho k t qu t Tuy nhiên li t
u ki n n ào, nhi b o tàng, robot nhi u khi v
c u c a khách hàng [38]
Trang 124
c a vi n nghiên c u qu c t i h c Bách khoa Hà N i bao g m 5 thi t b : c u hòa có kh
u (nghe/nh n/th c hi n l nh và tr l i) v u khi n b ng ti ng nói ti ng Vi t theo ngôn ng chun mi n B c M i thi t b c
h u khi n b ng tay và b ng ti ng nói V i nh ng thi t b tr c l
khi u khi n b ng ti ng nói (ting Vi t) theo ngôn ng chu n mi n B c nói v i t trung bình thì t l nh n d ng
ng ít nhi u
c phòng thí nghi m Trí tu Nhân t o AILab thu c
i h c Khoa h c T nhiên t o ra d a trên các công ngh tiên ti n nh t v nh n d ng và
t ng h p ti ng nhu c u c i dùng D a trên công ngh x ng lý tinói ti ng Vi ng ph n m m iSago chuyên h tìm ki m thông tin qua tr ting nói Thông qua ng d ng ph n m i s d ng có kh giao ti p vtr i
n tho ng tr c ti p b ng l i nói T i s d ng tìm ki m thông tin nhà hàng, quán Bar, Cafe a bàn TP HCM t câu h i b ng ti ng nói, iSago s truy n n i dung truy v n này v x lý và g i l i k t qu tìm ki m, d ng
ma ch Phn mi dùng hi n th
a ch c d ng b hoa ch tr c ti p b ng công ngh t ng hp ging nói Hi n nay ph n m ng m c 100 t khóa Phn mc cung
Trang 135
nh n d ng ti c chuy n thành ti ng Vi thành công vng này, do s d ng l n nh n d ng engine nên th i gian thi t
k rút ng n l i mà hi u qu nh n d ng khá t t Ph n m m Vspeech có các l nh g i h thPhiên b n m i nh tác vt web v i trình duy t Internet Explorer Không có các ch c
nh l nh và g i t t các ng d ng Ph n m m ch y trên n n Windows XP, microphone và card âm thanh s d ng tiêu chu ng ] [18
Tuy nhiên vic ng d ng nh n d ng ti ng u khi n máy tính còn nhi u h n ch Vi t Nam thì h mi có b ph n m m Vspeech c a nhóm sinh viên
i h c Bách Khoa TP HCM, các ph n m m khác ch th nghi m trong phòng thí nghi c s d ng th c t t trên 100 t Ph n m c phát tri n t mã ngu n m Microsoft Speech SDK nh n d ng ti ng Anh thông qua
thc hu n luy n d u li ti ng Vi t và c chuy trung gian gi a ti ng Vii t
n d ng n 98%, k t qu này ng t r ng máy móc có th nh n d ng ti ng nói c i [6]
t n 1970 các nghiên c u nh n d ng ti ng nói p t
phát tri n d n t i k thu t tính toán d li u s ch y u t p trung vào x lý tín hi u và
nh n d ng m u m là ti phát tri n nh n d ng ti ng óp quan tr phân tích ti ng rm (FFT), phân tích cepstral, linear predictive coding (LPC) Các thut toán nh n d ng m m ron (ANN),
Trang 14T n nay các nhà nghiên c u t p trung vào áp d ng mô hình x lý tín
hi u phi tuy i cho h ng nh n d ng ti ng nói, xây d ng th
mô hình m nâng cao chính xác c a h ng nh n d ng ti ng nói th Khu cho thi kì này là các nghiên c u c a Banbrook [24], Narayanan [31] và Kumar [2]. Và hin nay trên th thì gi ch ra là có th áp d ng các k thu t x lý tín hiu phi tuy n cho nh n d ng ti ng nói t i [1, 2, 4, 6, 8, 9, 10, 11, 14, 15, 22, 24, 25, 30]
1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến
Trong h thng phi tuy n nói chung, các ng d c xây d ng d a trên các
k t qu thí nghi m v s bi n thiên chu i d u ng thái theo th i gian c a Takens, li tr Sauer và Yorke Lý thuy t Takens nói r ng không gian tr ng thái c a h thng có th
c xây d ng l i thông qua phép làm c a tín hi u g tr c Không gian tr ng thái m i này
có th hi u là không gian pha xây d ng l (RPS i : Reconstructed Phase Space) và nó c coi u trúc hình h c c a h thng n u t t c các bi n tr ng thái
Trang 157
c t h th ng [32, 33] M t RPS có th là m t mi n x lý tín hi u m nh khi h th ng
ng quan tâm là phi tuy n và h n lo n [ 14, 15]. Theo k thu t x lý tuy n tính thông
ng thì mi n t n s là không gian x v lý i phép bi i Fourier r i r c (DF T) theo
thi gian [36]. V i h ng tuy n tính c u trúc h n lo n xu t hi n trong th mi n t n s chính là nh cng trong ph t n s Tuy nhiên v i h th ng phi tuy n hay h thng h n lo n, c u trúc h n lo n không xu t hi n trong mi n t n s , b i vì ph t n s
ng là d i sóng r ng và nhi u gi ng nhau Trong mi n không gian xây d ng l i (RPS),
c u trúc qu o c m h p d n ng nh p nhô m t cách h n Qu a o c
c m h p d n này bao gác m các thông tin v s chuy ng c a h th nh c t RPS có th bao g m các thông tin khác v i các thông tin thu
c t ph t n s M t ví d v không gian pha xây d ng l c th hi n
H s có tín hi u x[n], d a vào tín hi u này ta có th xây d ng l i không gian tr ng thái cho h thng phi tuy n tính b ng cách t o ra tín hi u v tr
6 (x[n-6])
Hình 1: Sơ đồ không gian pha (RPS) c a ti ng nói c a m t t ủ ế ủ ộ ừ
M d ng RPS cho x lý tín hi u khi n, d l c nhi u,
[14, 15 36 , ] Ch t các lý thuy t s d ng nh c t RPS cho
Trang 168
phân lo i và nh n d ng [1, 4, 9, 11, 22, 25, 30, 35] T p ng có th c t RPS
c bi t nhiên hình d ng qu o cvà m h p d n [4, 5 15, , 16] Phân b t c hin là phân b m trong không gian RPS B i
vì, ting nói là m t tín hi u có chi u dài h u h n vì v y chúng có th qua mô hình toán h c Các nghiên ccác ra r ng mô hình Gauss có th
phân b t nhiên c m h p d n trong RPS [1, 11] Lunày t p trung vào t nhiên cm h p d n trong RPS m t cách t ng thông qua mô hình Gauss và s d ng nh n
d ng và phân lo i t ng Vi t ti
1.4 Tổng kết
y k thu t x lý tín hi u phi tuy n có th áp d ng cho nh n d ng ng nói ti
B i vì chúng có kh c l i h thng phi tuy n và không gian tr ng thái
c xây d ng l i t k thu t này có th bao g m nhi u thông tin khác nhau c a các t
c n nh n d ng M c dù v y k thu t x lý tín hi u phi tuy n ít c quan tâm và chúng
c s d ng r k thu t x lý tín hi u tuy n tính
làm sáng t phân tích c a mô hình x lý tín hi u phi tuy n, khám phá
c t RPS và m r ng s hi u bi t v nh c x lý tín
hi u phi tuy n này Lu thc hi n nhi m v nh n d ng các s ng Vi t phát ra t là ti
ting nói c a i Nguyên nhân là do nh n d ng các t ti ng Vi t v i s ng nh cho phép t p trung vào hi u su t c sâu p theo s làm sáng t
v m t ki n th i các t ng Vi t ti
Trang 17F Thang t n s mel Hz
Trang 1810
2.1 Cơ sở xử lý tín hiệu số
2.1.1 Phép biến đổi tần số liên tục
Biến đổi Fourier
Bi n i Fourier c a m t tín hi u x n[ ] hay x n( ) :
Trang 20z e n
Trang 2113
y, có th rút ra m t s nh n xét:
- Bii Fourier chính là bii Z c th c hi n trên vòng
- Bii Fourier ch ng h p riêng c a bi i Z
- Ngoài ra có th tìm bi i Fourier t bi i Z b
vu ki ph i n m trong mi n h i t c bi a i Z
2.1.2 Phép biến đổi tần số rời rạc
Biến đổi Fourier r i r c (Discrete Fourier Transform- ờ ạ DFT)
N u m t tín hi u x nN( ) n hoàn v i chu k tu N thì:
N n
1
N k
Trang 2214
Biến đổi Fourier nhanh
Bii Fourier nhanh - FFT (Fast Fourier Transform) là thu t toán r t hi u qu tính DFT c a m t chu d u s i li m c a bii này là nhi c l p
l i do tính tu n hoàn c a s h ng Fourier ej2Nkn
Dng DFT là:
1 0
N n
Ti p t c chia DFT k t qu thành hai n a ch n, l n khi ch còn ph i m
i v m này ch c n phép c ng và tr mà không c tính toàn
b m DFT v i các th a s thích h p t W 0 ti WN2
Biến đổi Cosine r i r c ờ ạ
Trang 2315
Bii Cosine r i r c DCT (Discrete Cosin e Transform) c s d ng r ng rãi trong x
lý ti ng nói Nó là m t phép bi i chuy n tín hi u sang mi n t n s
Phép bii thu n:
1 0
L c s là các thao tác x làm bi n d ng s phân b t n s c a các thành
ph n c a m t tín hi u theo các tiêu chí m t h th ng s
Bộ lọc thông thấp lý tưởng
0 0
Trang 24k
b
k Ma
Trang 25mà các toán t phi tuy c u th c có thu c tính tuy n tính
Mô hình t o ng ti i:c
Khối khuếch đại
Khối khuếch đại
Bộ lọc vùng
âm thanh
Âm thanh thoát ra khỏi môi
Tín hiệu ếng nói
Hình 6 : Sơ đồ khố i mô hình t o ti ng nói ạ ế
chính xác phân tích có th ng cách thay th kh i l c âm thanh, l c vùng âm thanh và âm thanh thoát ra kh i môi b ng m t b l c
n Hình 7 Mô hình này g p t t c các b l c này vào m t b l c b ng cách s
d ng phép nhân
Khối lọc vùng âm thanh
âm
nói
Hình 7 : Sơ đồ khố i mô hình l c ngu n t o ti ng nói ọ ồ ạ ế
Mô hình phân tích này có th c công th c hóa theo các mô hình
mô hình bi u di n Hình 7, tín hi u ti ng nói là s k t h p ngu n âm kích thích v i b
l c vùng âm thanh
Trang 26C q IDFT S IDFT H IDFT E (2.2.3)
H s C epstral a vùng âm thanh và nó là các h s hoàn toàn r i r c ,
b i vì phép tính nhân trong mi n t n s b chuy i thành phép c ng trong mi n t n s
M ví d minh h a quá trình tính toán h s Cepstral cho m t khung d u gi ng t li
c bi u di n Hình 8 Chú ý các nh g n sóng trên th l n ph t n s chính là nh g n sóng trên ng bao c a ph tín hi u
Hình 8 : Đồ thị minh h ọa đặc trƣng phổ và logarithm độ ớ l n ph ổ
Các h s Cepstral C q( ) có th c s d n d ng ting nói do m t s nh t, chúng th hi ng bao c a ph tín
hi u g i là vùng phát âm Th hai, các h s Cepstral có thu
v i các h s khác [21 ] , 5 Th ba là tính toán các h s này h p lý v i m t
Trang 27 Tin nh n (Pre-emphas is)
Ph tín hi u ti ng nói h ng suy gi m toàn b -6dB/ octave khi t n s ng suy gim -12dB/octave c a ngu n kích thích âm h u thanh c l âm thanh
Trang 2820
min bù +6dB/Octave trên toàn b n Trong x lý tín hi u s ng dùng b l c thông cao có t n s c t 3dB t n s trong ph m vi t 100Hz n 1kHz thc hi n pre-emphasis và d ng p a b l c thông cao
u tiên tín hi u ti ng nói x n( ) s c chia thành t ng frame (có th c hi n ch ng
ph m t ph n lên nhau c T frame x nt '( ) c a s hóa c th c hi n
b ng cách nhân tín hi u ng nói v i m t hàm c a s ti
Ga s hoá là w n( ) n N1; N: s m u trong 1 frame tín
Trang 2921
Hình 10 : Đồ thị c a s Hamming ử ổ
Bii Fourier nhanh (Fast Fourier Transform -FFT)
Ph tín hi u sau khi nhân v i c a s Hamming s s d ng phép bi i Fourier
ph ch a các thông tin có ích c a tín hi u ti ng nói Bi i Fourier nhanh FFT (Fast Fourier Transform) là thu t toán r t hi u qu tính DFT c a
m t chu i s m c a FFT là nhi c l p l i do tính tu n hoàn c a hàm Fourier j2 kn
Lc qua b l c Mel- scale
Các nghiên c u v h th ng thính giác c a con i cho th i có c m
nh i v i các t n s không theo thang tuy t n s c a ti ng nói i ti p nha m t dãy các b l c T n s trung tâm c a các
b l c này không phân b tuyn tính d c theo tr c t n s Thành ph n ph i 1kHz
c t p trung nhi u b l nó ch a nhi u thông tin v
t n s p các b l th c s d phân gi i t n s c t n
s n và âm h a v n nh các t n s cao các b l c s dthu các thành ph n t n s cao v n bi ng r t nhanh
V i n l c nh m mô t nh xác s p nh n t n s c chí ti i, m t thang t n s
m i c xây d thang t n s Mel d th c nghi m c m nh n âm
Trang 3022
thanh ca con i T n s 1kH c ch n t i 1000 Mel M i quan h a thang t gi n
s c (v t lý) và thang t n s th Mel ( c cho b i công th c:
Vi FMel là t n s Mel; FHz t n s th Hz
Hình 11 : Đồ thị minh h a m i quan h gi a thang t n s Mel và thang t n s ọ ố ệ ữ ầ ố ầ ố Hz
Trên hình cho th y v nh ng t n s nh i Hz, thì quan h a thang Mel và gi
t n s c là g n tuy n tính còn các t n s l th 1kHz thì quan h này là logarit
v y thay vì xây d ng các b l c trên thang t n s c ta có th xây d ng các b l c v th i
t n s u tuy n tính trên thang Mel
nh: V i kho ng t n s i 1kHz, thì fm c ch n sao cho có kho ng
10 b l c phân b u trong kho ng này V i kho ng t n s trên 1kHz, fm c tính bi fm= 1.2* fm 1
K t qu sau khi cho ph tín hi u X kt( )qua b l c Y mt( )
Trang 312.2.3 Đặc trưng năng lượng, đạo hàm bậc 1 và đạo hàm bậc 2
Ngoài MFCC thì các ph n t t o thành
M t tham s n i b ng có th là m t tr ng s quan ng tr
phân bi t các t khác nhau [32] M c dù h s C u tiên có th coi là
c t ng hay s d ng t ng ng c a các khung d li u theo th
2 1
Trang 3224
1
2 1
h s o hàm b c 2 c ng T ng s ph n t trong n t Hình 12 minh hkh
Trang 33Hình 12 : Sơ đồ khố i minh h a tính toán ọ vectơ đặc trƣng MFCC
2.3 Mô hình thống kê cho nhận dạng mẫu
2.3.1 Mô hình Gauss
2.3.1.1 Đặc tả mô hình
Mô hình h p Gauss ( Gaussian ixture odel - M M GMM) là m t d ng mô hình th ng
c xây d ng t vi c hu n luy n các tham s thông qua d li u h c
Mô hình này còn có tên g i khác là mô hình t h p các phân b chun có tr ng s (Weighted Normal Distribution Sums)
Hình 13: Hàm m ật độ Gauss
V n mô hình GMM x p x m t hàm m xác su t b ng t h p các hàm m t
Gauss Hình trên minh h a hai hàm m Gauss vi các tham s khác nhau M t
Trang 3426
cách hình th c, hàm m xác su t c a phân ph i Gauss 2
N , ,
f x c cho bi công th c:
2 2
22
1/2 /2
2(2 )D
2
1
22
T t theo tên c a nhà toán h
Gauss và áp d ng trong phân tích d li
mô hình Gauss t ng quát:
c M phân ph i Gauss p p1, , ,2 pM hàm m xác su t c a mô hình GMM
c minh h a trong Hình 14 chính là t ng tr ng s c a M phân ph i Gauss theo công thc:
Trang 35
Các tr ng s này th hi n m ng c a m i phân ph i v i mô hình
y, phân phng s l n bao nhiêu thì có m
ng l n b i v i k t qu c a mô hình Hình cho th y m
ng c a t ng phân ph i Gauss lên GMM
Hình 15: Hàm m ật độ Gauss c a ba phân ph i ủ ố
y, m t mô hình GMM có M phân ph i Gauss s i di n b i b tham
s wi, ,i i,i1, M. ng ti p c n GMM gi i quy t bài toán nh n d ng ting nói, m i t nói s c mô hình hóa b ng m t mô hình GMM mà b tham s a
nó s nh thông qua vi c hu n luy n trên t p m u c a t ng t ng Tùy thuc vào cách t ch c c a ma tr n hi variance matrix), GMM có th có
Trang 3628
Ngoài ra, xét v d ng th c ma tr n hi m hai lo i: full (d )
và diagonal (d ng ma tr n ng chéo) Thônng, d ng nodal-diagonal covariance
c s d ng ph bi n nh t
2 1.2 3 Ước lượng tham số
Trong b phân lo i d a trên mô hình th ng kê vi ng các tham s c a mô
c th c hi n thông qua hu n luy n trên m t s ng l n các d u h c M li c tiêu cc hu n luy n là nh m t ng quát hóa, mô hình hoá nh m chung nht
c a t p d u h li c
i v i mô hình GMM, m t trong nh ng k nh b tham s
c áp d ng khá ph bi n là thu t toán Expectation-Maximization (EM) B n thân EM
là m t thu t toán t i các k t qu i v i các mô hình khác nhau
ng khác nhau trong EM:
- ng tham s ng ci hóa xác su t quy t
nh p X( | )
- ng tham s ng ci hóa xác su t quy nh là p( | ) X
X tr lic t d u âm thanh, ta có th d dàng tính
c xác su t p X( | ) Tuy nhiên trong nh n d ng ti ng nói, vai trò quy nh l i n m xác sut p( | ) X S d ng công th c Bayes, ta a p X( | ) và p( | ) X :
( | ) ( )( | )
c t nói a c mô hình hóa bng Trong lu t quy nh Bayes, p X
c l p Ny n u gi nh p ng nh t cho m i t nói, ta có th quy vai trò quy nh t p( | ) X v p X( | ) và áp d ng maximum likelihood:
Trang 37t t t
T
t t
1
w (( | , )
i i t
k k t k
Trong quá trình xây d ng GMM có hai v phát sinh là: s phân ph i Gauss M
c a mô hình và b tham s khu 0 c khi ti n hành thu t toán EM Hi n t i, v n
i pháp tt cho vi c ch n và M 0ng, sM c chn qua th c nghi m, còn 0 s c kh i t o b ng thu t toán K-means nhi kh t t ng thy nhanh t h i t trong
hu n luy n
Trang 38Hình 16: Mô hình Markov 3 tr ng thái ạ
Gi qt là tr c th m t , aij là xác su t chuy n tr ng thái Si sang tr ng thái Sj, ta có:
Trang 3931
2.3.2.2 Mô hình Markov ẩn
Phn 2.3.2.1 mô hình Markov Trong mô hình Markov, m i tr ng
ng v i m t s ki c V i c u trúc này, mô hình Markov còn g p nhi u h n ch trong vi c mô hình hóa hay gi i quy t các v ph c t p Phn này trình bày khái ni m v mô hình Markov n là m t d ng m r ng c a mô hình Markov Trong
mô hình Markov n, các s ki c n m trong m i tr ng thái và ph thu c vào hàm m xác su t trong các tr
Hình 17: Mô hình Markov n 3 tr ng thái ẩ ạ
Hình 17 minh h a m t mô hình Markov n 3 tr ng thái v i các s ki n có th quan
c trong m i tr ng thái là V = {v 1, v2, v3, v4} Kh c s ki n v k trong tr ng thái Sj ph thuc vào xác sut b kj( ) Hàm b c g i là hàm m xác sut
Trang 40b kj p o t v |k qt j 1 k M 1, 2, Nj (2.3.13)
i } - ma tr n phân ph i tr i là xác su t c mô a hình ng thái i t i thtr m tu = 1:
i p q1 i 1 i N
miêu t mt HMM c n ph i có s tr ng thái N c a mô hình, t p
V g m M ký hi u quan sát, ma tr n xác su t chuy n tr ng thái A, ma tr n xác su t các ký
hic B và ma tr n xác su t tr
2.3.2.3 Ba bài toán cơ bản của HMM
có th áp d c mô hình HMM vào các ng d ng ph c t p trong th c t c
h t c n có l i gi i th n c a HMM:
Bài toán 1: Cc chu i tín hi u quan sát O = O1 O2 … OTi din
b i b tham s tính toán mt cách hi u qu P O( | ) xác su t phát sinh t mô hình ? O λ
Bài toán 2: Cc chu i tín hi u quan sát O = O1 O2 … OTi din
b i b tham s n tìm ra chu i tr ng thái t t Q = q1 q2 … qT phát sinh ra O
Bài toán 3: Cc chu i tín hi u quan sát O = O1 O2 … OT Làm th nh các tham s mô hình i hóa xác su t
? bài toán hu n luy i m t kh t quan tr ng c a HMM: kh ng c th trong th c t , mô hình hóa d li u h c