1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng lý thuyết phi tuyến trong xử lý và nhận dạng tiếng việt

92 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Lý Thuyết Phi Tuyến Trong Xử Lý Và Nhận Dạng Tiếng Việt
Tác giả Phạm Hữu Biên
Người hướng dẫn PGS.TS Nguyễn Tiến Dũng
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Kỹ Thuật Điện Tử
Thể loại luận văn
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 92
Dung lượng 4,05 MB

Nội dung

39 Trang 5 v Danh mục các ký hiệu và các chữ viết tắtKý hi u ệ Tên ti ng Anh ếANN Artificial eural etwork NNASR Automatic peech ecognition SRDCT Discrete osine ransform CTDFT Discrete o

Trang 1

i

B GIÁO D Ộ ỤC VÀ ĐÀO TẠ O TRƯỜNG ĐẠ I H C BÁCH KHOA HÀ N I Ọ Ộ

-

PHẠ M H U BIÊN Ữ

Ứ NG D NG LÝ THUYẾT PHI TUY N TRONG X Ụ Ế Ử LÝ VÀ

NHẬ N D NG TI NG VI T Ạ Ế Ệ CHUYÊN NGÀNH: K THU Ỹ ẬT ĐIỆ N T Ử

LU  TH C

K THU N T 

Trang 2

ii

Lời cam đoan

 trình nghiên c u th c s c a cá nhân tôi,    

c th c hi   i s ng d n khoa h c c a PGS.TS Nguy n Ti    

Các s u, k t qu nghiên c u trong lu li    c

Tôi xin ch u trách nhi m v nghiên c u c a mình     

H c viên Phm H u Biên 

Trang 3

iii

MỤC LỤC

L ii

M C L C   iii

Danh m c các ký hi u và các ch t t t   vi  v

Danh sách các b ng  vi

Danh sách các hình v   th vii

M  U 1

U T NG QUAN 3

1.1 T ng quan tình hình nghiên c u nh n d ng ti    c và trên th i gi 3

1.2 L ch s nghiên c u nh n d ng ti ng nói t ng (ASR)         5

1.3 M i quan h a ti ng nói và h  gi   thng phi tuy 6n 1.4 T ng k t   8

  X LÝ TI NG NÓI VÀ CÁC MÔ HÌNH NH N D NG TI   NG NÓI 9

  x lý tín hi u s 10 

2.1.1 Phép bi i t n s liên t c   10

2.1.2 Phép bi i t n s r i r c    13

2.1.3 Các b l c s    15

2.2 Phân tích ph   17

2.2.1 Gi i thi  17

2.2.2 H s Cepstral trong t n s Mel (MFCC)     19

 n o hàm bo hàm b c 2  23

2.2.4 T ng h  24

2.3 Mô hình th ng kê cho nh n d ng m u     25

2.3.1 Mô hình Gauss 25

2.3.2 Mô hình Markov n  30

2.4 HMM và bài toán nh n d ng ti ng nói    39

Trang 4

iv

2.4.1 Xây d ng mô hình Markov n   39

2.4.2 Xây d ng HMM cho nh n d ng s ng Vi t    ti  39

2.5 T ng k t   40

   C X LÝ TÍN HI U PHI TUY N TÍNH VÀ CÁC    N TÍNH 41

 lý thuynh lý c a Takens 42

 c t không gian RPS 45

3.2.1 Phân b t nhiên   45

3.2.2 Thông tin qu o   47

3.2.3 K t h   c t x lý phi tuy n và vect 48

3.3 K thut mô hình hóa và nh n d ng   50

c RPS 50

 52

3.3.3 Xây d ng mô hình nh n d ng t ng Vi t    ti  53

3.4 T ng k t 55

N D NG TI K T QU   56

4.1 Ph n m m   56

4.2 D u li 57

t thí nghi m 58

4.3.1 La ch n tham s   58

4.3.2 Xây d ng các bài thí nghi m   61

4.4 M t s k t qu    chính 62

t qu 72

K T LU NG PHÁT TRI N 76

Tài li u tham kh o   77

PH  L C 80

Trang 5

v

Danh mục các ký hiệu và các chữ viết tắt

Ký hi u ệ Tên ti ng Anh ế

ANN Artificial eural etwork N N

ASR Automatic peech ecognition S R

DCT Discrete osine ransform C T

DFT Discrete ourier ransform F T

FFT F Fast ourier ransform T

HTK Hidden Markov Modeling ool it T k

IDFT Inverse iscrete ourier ransform D F T

LPC Linear redicative oding P C

MFCC M Fel requency epstral oeffiC C cientsPDF Probability ensity unction D F

RPS Reconstructed hase pace P S

TIMIT Texas nstruments & assachusetts I M

Institute of echnology speech corpus T

MGHMM M ixture of auss Hidden M G arkov odel M

Trang 6

vi

Danh sách các bảng

B ng 1: B ng ký hi u dùng cho phân tích tín hi u     9

B ng 2: B ng các ký hi    x lý tín hi u trong không gian phi tuy n tính  41

B ng 3: B ng các ký hi u dùng cho bài thí nghi m     56

B ng 4: Tên các bài thí nghi m th c hi n     61

B ng 5: K t qu nh n d ng s d       62

B ng 6: K t qu nh n d ng s d      n 64

B ng 7: K t qu nh n d ng s d ng k t h        n v 66

B ng 8: K t qu nh n d ng s d      ng mô hình tr ng s   68

B ng 9: B ng so sánh k t qu nh n d ng v       72

B ng 10: B ng so sánh k t qu nh n d ng gi       74

Trang 7

vii

Danh sách các hình vẽ và đồ thị

 không gian pha (RPS) c a ti ng nói c a m t t 7    

  th hàm X e( )jw 10

Hình 3: Bi u di n Z theo ph n th c ph n o       11

Hình 4: Bi u di n Z trên m  t ph ng ph c   12

Hình 5: Th c hi n bi   12

 kh i mô hình t o ti ng nói 17  

 kh i mô hình l c ngu n t o ti ng nói 17    

  th minh h   l n ph 18

  19

    th c a s Hamming 21

  th minh h a m i quan h gi a thang t n s Mel và thang t n s        Hz 22

 kh i minh h  25

Hình 13: Hàm mGauss 25

Hình 14: Mô hình Gauss 26

Hình 15: Hàm m Gauss c a ba phân ph i   27

Hình 16: Mô hình Markov 3 tr ng thái  30

Hình 17: Mô hình Markov n 3 tr ng thái   31

Hình 18: Chu i Q t c  35b  xây d ng HMM 40

Hình 20: Hình v minh h a RPS c a các t      43

  th RPS c a t     tr 44

Hình 22: So sánh tâm và bán kính c a qu o t        o t  45

Hình 23: So sánh tâm và bán kính c a qu o t       46

Hình 24: So sánh tâm và bán kính c a qu o t     i nói khác nhau 47

Hình 25: Hình v minh h a phân b    m trong RPS và qu o RPS   47

Hình 26: M i quan h a các ch s  gi   ng h p  50

Trang 8

viii

Hình 27: Minh h a RPS b ng mô hình Gauss v i 256 Mixtures    51

Hình 28: Mô hình Marko n left-right n 6 tr ng thái v    53

 kh i t o ma tr n xác su t phát ra 54   

 thu t toán hu n luy n 54  

Hình 31: Thu t toán nh n d ng t ng Vi t   ti  54

n âm thanh hu n luy n   57

 thu t toán c t t ng 58   

  th RPS c a t    tr khác nhau 58

  th minh ho RPS dùng mô hình Gauss v i 256 Mixtures   60

   th k t qu nh n d ng các s ti ng Vi t v       63

   th k t qu nh n d ng các s ti ng Vi t v       c t RPS 65

Hình 38: Bi  hi n t l nh n d ng chính xác s ng Vi t vth       ti     c t c k t h p t     67

   th k t qu nh n d ng s d ng mô hình Markov n 9 tr ng thái v       c ng s ) 69

 th k t qu nh n d ng s d ng mô hình Markov n 15 tr ng thái v          dùng mô hình tr ng s )   70

Hìn   th k t qu nh n d ng v   i mô hình Markov n 70

Hình 42: Giao dit qu  71

Hình 43 k t qu nh n d ng vth     i mô hình dùng tr ng s và không dùng tr ng s     75

Trang 9

1

MỞ ĐẦU

Ngày nay nhu c  i thông tin ngày càng nhi u d  n s    a

t nhic ti p c thông qua sóng tín hi ra l nh cho máy, thông qua ti ng nói, thông qua các

c  ch chuyng M t trong nh c giao ti p v i máy tínhc phát tri n nhi u nh ng t nhi u công trình nghiên c u v nh n d ng     ting nói trên th gi    th ng nh n d ng ti ng   nói ti ng Anh Via Voice c a IBM, Spoken Toolkit c a CSLU(Central of Spoken Laguage   Under-standing), Speech Recognition c a Microsoft, Hidden Markov Model tookit c a  

 i h c Cambridge, CMU Sphinx c i h Ngoài ra m   t s h th ng

nh n d ng ti ng nói ti     c, Trung Qu    n Nhn d ng 

ting nói ti ng Vi     t t s ng d n l ng d n viên 

b o tàng,   Ph n l n các công trình nghiên c u này s d ng     công c k  thu t phân tích và x lý tín hi u tuy n tính G    t công c  c phát trin cho vi c phân tích và x lý tín hi u là mô hình ng d    ng lý thuy t v  phi tuy n T i  

m t s   t, Pháp, Anh  c áp d ng cho nh n d ng ti ng    

 t qu t t i v    i ti ng Vi p c n nghiên c u dùng lý  thuyt phi tuy n nh m   ng d ng cho nh n d ng ti ng nói ch    c nghiên c u 

V i mong mu n góp ph n t o nên nh    c phát tric nh n d ng  ting nói  c ta c v m  t nghiên cng d ng s n ph m th c ti n      i

s ng, v s  i   ng c a th y giáo   PGS Nguy n Ti TS ễ ến Dũng và th y giáo 

PGS.TS Hoàng M ạ nh Thắng lu n này  ti ng nói 

kt qu  c v cho vic 

 hoàn t c lu     y giáo PGS.TS Nguy n Ti ễ ến Dũng và th y giáo  PGS.TS Hoàng M nh Th ạ ắ ng ng d n 

 em trong quá trình th c hi n lu  y, cô giáo trong

Trang 10

c a nghiên c u nh n d ng ti    ng nói, gi i thi u m t s k t qu nh n d ng ti        ng nói s 

d ng lý thuy t phi tuy n và gi i h n ph m vi nghiên c u c a lu        

  x lý ti ng nói và  các mô hình nhn d ng ti ng nói  gii thi u mô hình tuy n tính s d ng cho phân tích và tìm     a các t ng Viti t

c n nh n d  ng, gi i thi u mô hình th ng kê nh n d ng m u, xây d ng mô hình nh n d ng         

t ng Vi t s d ng mô hình Markov n ti    

c x lý tín hi u phi tuy n    

n tính i thi u các k t qu lý thuy t    phi tuy n tính c tuyn tính, xây d ng mô hình Markov n cho nh n d ng t      ti ng Vi t v i   phi tuy  t h p c tách t không gian phi tuy n và  

c tách t  c x lý tuy n tính   ng Xây d ng mô hình Markov n cho các   c

n d ng ti ng   t qu  này trình bày các k t qu nh n d   ng ti ng nói vc trong không gian phi tuy      c trong không gian phi tuy n k t h p v i c   

MFCC, ng th t qu nh n d ng ti    c

Phn cu i c a lu  t lung phát tri n c  tài trình bày v các 

vluc và các v  c n phát tri n sau lu 

 t t :

Trang 11

3

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN

  i thi u t ng quan v tình hình nghiên c u nh n d ng ti ng nói        

c và c trên th gi i, l ch s phát tri n c a nghiên c u nh n d ng ti ng          nói, gi i thi u m t s k t qu nh n d ng ti        ng nói s d ng lý thuy t phi tuy n và gi i h     n

ph m vi nghiên c u c a lu   

1.1 Tổng quan tình hình nghiên cứu nhận dạng tiếng nói trong nước và trên thế giới

V  nghiên c    n d ng ti       t nhi u s   u c a các nhà khoa h c trên kh p th     ging v xây 

d ng các h ng nh n d ng ti  th   có t nh a th k   n nay

c nhi u k t qu  

Trên th  git nhi u h   thng nh n d ng ti ng nói ti     

 c ng d ng r t hi u qu     a IBM, Spoken Toolkit c a CSLU (Central 

of Spoken Laguage Under-standing), Speech Recognition Engine c a Microsoft, Hidden Markov Model toolkit c i h c Cambridge, CMU Sphinx c  i h c Carnegie 

goài ra m t s h th ng nh n d ng ti ng nói ti       c, Trung Qu

n

i vu nghiên c u v   nh n d ng ti ng nói ti ng Vit  

c m t s thành t   v c k t qu c n thi    có th 

t o ra các s n ph m mang tính ng d ng cao Có th k n các công trình sau:        

ng dng d n viên b o tàng c a vi n nghiên c u qu c t (MICA)       

 i h c Bách khoa Hà N i Trên robot g n camera th c hi n ch     giác, micro

nh n d ng ti ng nói và tám c m bi n h ng ngo i giúp nó di chuy n thu n l R         i c mang th nghi m   t n v t c a dân ti B o tàng dân t c h c Vi t Nam v i d u kho ng 500 thông tin và cho k t qu t Tuy nhiên      li    t

u ki n n ào, nhi    b o tàng, robot nhi u khi v

c u c a khách hàng   [38]

Trang 12

4

  c a vi n nghiên c u qu c t      i h c Bách khoa Hà N i bao g m 5 thi t b : c    u hòa có kh  

u (nghe/nh n/th c hi n l nh và tr l i) v      u khi n b ng ti ng   nói ti ng Vi t theo ngôn   ng chun mi n B c M i thi t b      c

h u khi n b ng tay và b ng ti ng nói V i nh ng thi t b tr            c l

khi u khi n b ng ti ng nói   (ting Vi t) theo ngôn ng chu n mi n B c nói v i t     trung bình thì t l nh n d ng    

ng ít nhi u 

c phòng thí nghi m Trí tu Nhân t o AILab thu c     

 i h c Khoa h c T nhiên t o ra d a trên các công ngh tiên ti n nh t v         nh n d ng và

t ng h p ti   ng nhu c u c i dùng D a trên công ngh x ng    lý tinói ti ng Vi ng ph n m m iSago chuyên h tìm ki m thông tin qua   tr ting nói Thông qua ng d ng ph n m     i s d ng có kh   giao ti p vtr  i

n tho ng tr c ti p b ng l i nói T        i s d ng tìm ki m thông tin nhà hàng, quán Bar, Cafe a bàn TP HCM t câu h i b ng ti ng nói,   iSago s truy n n i dung truy v n này v     x lý và g i l i k t qu tìm ki m, d ng      

ma ch  Phn mi dùng hi n  th

a ch  c d ng b  hoa ch tr c ti p b ng công ngh t ng hp      ging nói Hi n nay ph n m  ng m c 100 t khóa    Phn mc cung

Trang 13

5

 nh n d ng ti  c chuy n thành ti ng Vi  thành công vng này, do s d ng l  n nh n d ng engine nên th i gian thi   t

k rút ng n l i mà hi u qu nh n d ng khá t t Ph n m m Vspeech có các l nh g i h           thPhiên b n m i nh  tác vt web v i trình duy t Internet Explorer Không có các ch  c

  nh l nh và g i t t các ng d ng Ph n m m ch y trên n n Windows XP,         microphone và card âm thanh s d ng tiêu chu  ng ] [18

Tuy nhiên vic ng d ng nh n d ng ti   ng u khi n máy tính còn nhi u h n   ch  Vi t Nam thì h    mi có b ph n m m Vspeech c a nhóm sinh viên    

 i h c Bách Khoa TP HCM, các ph n m m khác ch th nghi m trong phòng thí     nghi  c s d ng th c t   t trên 100 t Ph n m  c phát tri n t mã ngu n m   Microsoft Speech SDK nh n d ng ti ng Anh thông qua  

thc hu n luy n d u    li ti ng Vi t  và c chuy trung gian gi a ti ng Vii   t

 n d ng  n 98%, k t qu này   ng t r ng máy  móc có th nh n d ng ti ng nói c    i [6]

t n 1970 các nghiên c u nh n d ng ti ng nói p t

phát tri n d n t i k    thu t tính toán d li u s ch y u t p trung vào x lý tín hi u và         

nh n d ng m u    m là ti  phát tri n nh n d ng ti   ng óp quan tr phân tích ti ng rm (FFT), phân tích cepstral, linear predictive coding (LPC) Các thut toán nh n d ng m     m ron (ANN),

Trang 14

T  n nay các nhà nghiên c u t p trung vào áp d ng mô hình x lý tín    

hi u phi tuy  i cho h ng nh n d ng ti ng nói, xây d ng  th    

mô hình m nâng cao chính xác c a h ng nh n d ng ti ng nói    th    Khu cho thi kì này là các nghiên c u c a Banbrook   [24], Narayanan [31] và Kumar [2]. Và hin nay trên th thì  gi ch ra là có th áp d ng các k   thu t x lý tín hiu phi tuy n cho nh n d ng ti   ng nói t  i [1, 2, 4, 6, 8, 9, 10, 11, 14, 15, 22, 24, 25, 30]

1.3 Mối quan hệ giữa tiếng nói và hệ thống động phi tuyến

Trong h thng phi tuy n nói chung, các ng d  c xây d ng d a trên   các

k t qu thí nghi m v s bi n thiên chu i d u ng thái theo th i gian c a Takens,         li tr  Sauer và Yorke Lý thuy t Takens nói r ng không gian tr ng thái c a h      thng có th 

c xây d ng l i thông qua phép làm c a tín hi u g  tr   c Không gian tr ng thái m i này  

có th hi u là không gian pha xây d ng l (RPS   i : Reconstructed Phase Space) và nó c coi u trúc hình h c c a h    thng n u t t c các bi n tr ng thái      

Trang 15

7

   c t h th ng [32, 33]  M t RPS có th là m t mi n x lý tín hi u m     nh khi h th ng  

ng quan tâm là phi tuy n và h n lo n [   14, 15]. Theo k  thu t x lý tuy n tính thông 

ng thì mi n t n s là không gian x v    lý i phép bi i Fourier r i r c (DF   T) theo

thi gian [36]. V i h ng tuy n tính c u trúc h n lo n xu t hi n trong th       mi  n t n s chính là nh cng trong ph t n s Tuy nhiên v i h th ng phi tuy n hay h        thng h n lo n, c u trúc h n lo n không xu t hi n trong mi n t n s , b i vì ph t n s              

ng là d i sóng r ng và nhi u gi ng nhau Trong mi n không gian xây d ng l i (RPS),       

c u trúc qu o c   m h p d n   ng  nh p nhô m t cách h n Qu  a o c

c m h p d n này bao gác    m các thông tin v s chuy  ng c a h th  nh c t RPS có th bao g m các thông tin khác v i các thông tin thu   

 c t ph t n s M t ví d v không gian pha xây d ng l        c th hi n   

H      s có tín hi u x[n], d a vào tín hi u này ta có th xây d ng l     i không gian tr ng thái cho h  thng phi tuy n tính b ng cách t o ra tín hi u v     tr

 6 (x[n-6])

Hình 1: Sơ đồ không gian pha (RPS) c a ti ng nói c a m t t ủ ế ủ ộ ừ

M  d ng RPS cho x lý tín hi u khi n, d    l c nhi u, 

[14, 15 36 , ] Ch t các lý thuy t s d ng nh     c t RPS cho

Trang 16

8

phân lo i và nh n d ng    [1, 4, 9, 11, 22, 25, 30, 35]   T p ng có th   c t RPS

c bi  t nhiên hình d ng qu o cvà    m h p d n   [4, 5 15, , 16] Phân b t   c hin là phân b  m trong không gian RPS B i

vì, ting nói là m t tín hi u có chi u dài h u h n vì v y chúng có th        qua mô hình toán h c Các nghiên ccác   ra r ng mô hình Gauss có th  

 phân b t nhiên c  m h p d n trong RPS   [1, 11] Lunày t p trung vào     t nhiên cm h p d n trong  RPS m t cách t   ng thông qua mô hình Gauss và s d ng    nh n

d ng và phân lo i t ng Vi t   ti 

1.4 Tổng kết

y k thu t x lý tín hi u phi tuy n có th áp d ng cho nh n d ng ng nói          ti

B i vì chúng có kh     c l i h thng phi tuy n và không gian tr ng thái  

c xây d ng l i t k thu t này có th bao g m nhi u thông tin khác nhau c a các t          

c n nh n d ng M c dù v y k       thu t x lý tín hi u phi tuy n   ít c quan tâm và chúng

  c s d ng r k thu t x lý tín hi u tuy n tính    

làm sáng t phân tích c a mô hình x lý tín hi u phi tuy n, khám phá

  c t RPS và m r ng s hi u bi t v nh      c x lý tín 

hi u phi tuy n này Lu  thc hi n nhi m v nh n d ng các s ng Vi t phát ra t   là   ti  

ting nói c a  i Nguyên nhân là do nh n d ng các t    ti ng Vi t v i s  ng nh     cho phép t p trung vào hi u su t c sâu    p theo s làm sáng t  

v m t ki n th   i các t ng Vi t ti 

Trang 17

F Thang t n s mel  Hz

Trang 18

10

2.1 Cơ sở xử lý tín hiệu số

2.1.1 Phép biến đổi tần số liên tục

Biến đổi Fourier

Bi n i Fourier c a m t tín hi u    x n[ ] hay x n( ) :

Trang 20

z e n

Trang 21

13

y, có th rút ra m   t s nh n xét:

- Bii Fourier chính là bii Z c th c hi n trên vòng   

- Bii Fourier ch  ng h p riêng c a bi  i Z

- Ngoài ra có th tìm bi i Fourier t bi i Z b

 vu ki ph i n m trong mi n h i t c bi     a i Z

2.1.2 Phép biến đổi tần số rời rạc

Biến đổi Fourier r i r c (Discrete Fourier Transform- ờ ạ DFT)

N u m t tín hi u    x nN( ) n hoàn v i chu k tu   N thì:

N n

1

N k

Trang 22

14

Biến đổi Fourier nhanh

Bii Fourier nhanh - FFT (Fast Fourier Transform) là thu t toán r t hi u qu     tính DFT c a m t chu d u s  i  li m c a bii này là nhi c l p

l i do tính tu n hoàn c a s h ng Fourier      ej2Nkn

Dng DFT là:

1 0

N n

Ti p t c chia DFT k t qu thành hai n a ch n, l      n khi ch còn ph  i m

 i v m này ch c n phép c ng và tr mà không c     tính toàn

b  m DFT v i các th a s thích h p t W     0 ti WN2

Biến đổi Cosine r i r c ờ ạ

Trang 23

15

Bii Cosine r i r c DCT (Discrete Cosin  e Transform)  c s d ng r ng rãi trong x  

lý ti ng nói Nó là m t phép bi  i chuy n tín hi u sang mi n t n s     

Phép bii thu n: 

1 0

L c s là các thao tác x     làm bi n d ng s phân b t n s c a các thành       

ph n c a m  t tín hi u theo các tiêu chí   m  t h th ng s 

Bộ lọc thông thấp lý tưởng

0 0

Trang 24

k

b

k Ma

Trang 25

mà các toán t phi tuy  c u th c có thu c tính tuy n tính   

Mô hình t o ng  ti  i:c







Khối khuếch đại

Khối khuếch đại

Bộ lọc vùng

âm thanh

Âm thanh thoát ra khỏi môi

Tín hiệu ếng nói

Hình 6 : Sơ đồ khố i mô hình t o ti ng nói ạ ế

chính xác  phân tích có th  ng cách thay th   kh i l c âm thanh, l c vùng âm thanh và âm thanh thoát ra kh i môi b ng m t b l     c

 n Hình 7 Mô hình này g p t t c các b l c này vào m t b l c b ng cách s          

d ng phép nhân 

Khối lọc vùng âm thanh



âm

nói

Hình 7 : Sơ đồ khố i mô hình l c ngu n t o ti ng nói ọ ồ ạ ế

Mô hình phân tích này có th  c công th c hóa theo các mô hình  

mô hình bi u di n Hình 7, tín hi u ti ng nói là s k t h p ngu n âm kích thích v i b           

l c vùng âm thanh 

Trang 26

C q IDFT S  IDFT H  IDFT E (2.2.3)

H s C  epstral a vùng âm thanh và nó là các h s hoàn toàn r i r c    ,

b i vì phép tính nhân trong mi n t n s b chuy     i thành phép c ng trong mi n t n s    

M ví d minh h a quá trình tính toán h s Cepstral cho m t khung d u gi ng t       li 

c bi u di n Hình 8 Chú ý các nh g n      sóng trên th     l n ph t n s   chính là nh g n   sóng trên ng bao c a ph tín hi u   

Hình 8 : Đồ thị minh h ọa đặc trƣng phổ và logarithm độ ớ l n ph ổ

Các h s Cepstral   C q( ) có th  c s d n d ng ting nói do m t s    nh t, chúng th hi  ng bao c a ph tín  

hi u g i là vùng phát âm  Th hai, các h s Cepstral có thu  

v i các h s khác    [21 ] , 5 Th ba là  tính toán các h s này h p lý v i m t     

Trang 27

 Tin nh n (Pre-emphas  is)

Ph tín hi u ti ng nói h  ng suy gi m toàn b -6dB/ octave  khi t n s   ng suy gim -12dB/octave c a ngu n kích  thích âm h u  thanh  c l âm thanh   

Trang 28

20

min bù +6dB/Octave trên toàn b  n Trong x lý tín hi u s  ng    dùng b l c thông cao có t n s c t 3dB t n s trong ph m vi t 100Hz n 1kHz            thc hi n pre-emphasis và d ng p  a b l c thông cao   

u tiên tín hi u ti ng nói   x n( ) s  c chia thành t ng frame (có th c hi n ch ng    

ph m t ph n lên nhau    c T frame x nt '( ) c a s hóa  c th c hi n  

b ng cách nhân tín hi u ng nói v i m t hàm c a s   ti    

Ga s hoá  là w n( ) n N1; N: s m u trong 1 frame tín  

Trang 29

21

Hình 10 : Đồ thị c a s Hamming ử ổ

 Bii Fourier nhanh (Fast Fourier Transform -FFT)

Ph tín hi u sau khi nhân v i c a s Hamming s s d ng phép bi        i Fourier

 ph ch a các thông tin có ích c a tín hi u ti ng nói Bi   i Fourier nhanh  FFT (Fast Fourier Transform) là thu t toán r t hi u qu tính DFT c     a

m t chu i s  m c a FFT là nhi   c l p l i do tính tu n hoàn c a hàm  Fourier j2 kn

 Lc qua b l c Mel-   scale

Các nghiên c u v   h th ng thính giác c a con   i cho th i có c m 

nh i v i các t n s không theo thang tuy    t n s c a ti ng   nói  i ti p nha m t dãy các b l c T n s trung tâm c a các      

b l c này không phân b    tuyn tính d c theo tr c t n s Thành ph n ph       i 1kHz

 c t p trung nhi u b l   nó ch a nhi u thông tin v    

t n s p các b l  th     c s d phân gi i t n s      c t n

s  n và âm h a v n   nh các t n s cao các b l      c s dthu các thành ph n t n s cao v n bi    ng r t nhanh 

V i n l c nh m mô t nh xác s p nh n t n s c     chí ti    i, m t thang t n s   

m i  c xây d   thang t n s Mel d      th c nghi m c m nh n âm    

Trang 30

22

thanh ca con i T n s 1kH  c ch n t i 1000 Mel M i quan h a thang t    gi n

s c (v t lý) và thang t n s th   Mel  ( c cho b i công th c:

Vi FMel là t n s    Mel; FHz     t n s th Hz

Hình 11 : Đồ thị minh h a m i quan h gi a thang t n s Mel và thang t n s ọ ố ệ ữ ầ ố ầ ố Hz

Trên hình cho th y v nh ng t n s nh  i     Hz, thì quan h a thang Mel và  gi

t n s c là g n tuy n tính còn các t n s l  th      1kHz thì quan h này là logarit 

v y thay vì xây d ng các b l c trên thang t n s c ta có th xây d ng các b l c v      th     i

t n s   u tuy n tính trên thang Mel 

 nh: V i kho ng t n s     i 1kHz, thì fm c ch n sao cho có kho ng  

10 b l c phân b u trong kho ng này V i kho ng t n s trên 1kHz,          fm c tính bi fm= 1.2* fm 1

K t qu sau khi cho ph tín hi u     X kt( )qua b l c Y mt( )

Trang 31

2.2.3 Đặc trưng năng lượng, đạo hàm bậc 1 và đạo hàm bậc 2

Ngoài MFCC thì các ph n t         t o thành   

M t tham s n i b   ng có th là m t tr ng s quan ng     tr

 phân bi t các t khác nhau   [32] M c dù h s C    u tiên có th  coi là 

 c t ng hay s d ng t ng    ng c a các khung d li u theo   th

2 1

Trang 32

24

1

2 1

h s o hàm b c 2 c    ng T ng s ph n t trong       n t Hình 12 minh hkh

Trang 33

Hình 12 : Sơ đồ khố i minh h a tính toán ọ vectơ đặc trƣng MFCC

2.3 Mô hình thống kê cho nhận dạng mẫu

2.3.1 Mô hình Gauss

2.3.1.1 Đặc tả mô hình

Mô hình h p Gauss ( Gaussian ixture odel - M M GMM) là m t d ng mô hình th ng   

c xây d ng t vi c hu n luy n các tham s thông qua d li u h c         

Mô hình này còn có tên g i khác là mô hình t h p các phân b     chun có tr ng s  (Weighted Normal Distribution Sums)

Hình 13: Hàm m ật độ Gauss

V  n mô hình GMM x p x m t hàm m    xác su t b ng t h p các hàm m    t

 Gauss Hình trên minh h a hai hàm m   Gauss vi các tham s khác nhau M t  

Trang 34

26

cách hình th c, hàm m  xác su t c a phân ph i Gauss     2

N , ,

f x   c cho bi công th c:

2 2

22

1/2 /2

2(2 )D

2

1

22

T  t theo tên c a nhà toán h 

 Gauss và áp d ng trong phân tích d   li 

mô hình Gauss t ng quát: 

c M phân ph i Gauss  p p1, , ,2  pM hàm m xác su t c a mô hình GMM  

c minh h a trong Hình 14 chính là t ng tr ng s c a M phân ph i Gauss theo công      thc:

Trang 35

Các tr ng s này th hi n m     ng c a m i phân ph  i v i mô hình 

y, phân phng s l n bao nhiêu thì có m  

ng l n b i v i k t qu c a mô hình Hình      cho th y m 

ng c a t ng phân ph i Gauss lên GMM   

Hình 15: Hàm m ật độ Gauss c a ba phân ph i ủ ố

y, m t mô hình GMM có M phân ph i Gauss s    i di n b i b tham   

s  wi, ,i i,i1, M. ng ti p c n GMM gi i quy t bài toán nh n d ng      ting nói, m i t nói s    c mô hình hóa b ng m t mô hình GMM mà b tham s     a

nó s  nh thông qua vi c hu n luy n trên t p m u c a t ng t         ng Tùy thuc vào cách t ch c c a ma tr n hi    variance matrix), GMM có th có

Trang 36

28

Ngoài ra, xét v d ng th c ma tr n hi    m hai lo i: full (d )

và diagonal (d ng ma tr n   ng chéo) Thônng, d ng nodal-diagonal covariance 

  c s d ng ph bi n nh t   

2 1.2 3 Ước lượng tham số

Trong b phân lo i d a trên mô hình th ng kê vi    ng các tham s c a mô  

c th c hi n thông qua hu n luy n trên m t s       ng l n các d u h c M  li  c tiêu cc hu n luy n là nh m t ng quát hóa, mô hình hoá nh    m chung nht

c a t p d u h   li c

i v i mô hình GMM, m t trong nh ng k nh b tham s

c áp d ng khá ph bi n là thu t toán Expectation-Maximization (EM) B n thân EM     

là m t thu t toán t  i các k t qu    i v i các mô hình khác nhau

ng khác nhau trong EM:

- ng tham s  ng ci hóa xác su t quy t

nh p X( | )

- ng tham s  ng ci hóa xác su t quy nh là p( | ) X

X tr   lic t d u âm thanh, ta có th d dàng tính  

c xác su t  p X( | ) Tuy nhiên trong nh n d ng ti ng nói, vai trò quy   nh l i n m xác sut p( | ) X S  d ng công th c Bayes, ta  a p X( | ) và p( | ) X :

( | ) ( )( | )

c t nói a  c mô hình hóa bng Trong lu t quy nh Bayes, p X 

 c l p Ny n u gi nh    p  ng nh t cho m i t nói, ta có th quy vai trò    quy nh t  p( | ) X v p X( | ) và áp d ng maximum likelihood:

Trang 37

t t t

T

t t

1

w (( | , )

i i t

k k t k

Trong quá trình xây d ng  GMM có hai v phát sinh là: s phân ph i Gauss   M

c a mô hình và b tham s    khu 0 c khi ti n hành thu t toán EM Hi n t i, v    n

i pháp tt cho vi c ch n và   M 0ng, sM  c chn qua th c nghi m, còn   0 s c kh i t o b ng thu t toán K-means nhi    kh  t t ng thy nhanh t   h i t trong

hu n luy n  

Trang 38

Hình 16: Mô hình Markov 3 tr ng thái ạ

Gi qt là tr  c th m t , aij là xác su t chuy n tr ng thái    Si sang tr ng thái Sj, ta có:

Trang 39

31

2.3.2.2 Mô hình Markov ẩn

Phn 2.3.2.1   mô hình Markov Trong mô hình Markov, m i tr ng  

ng v i m t s ki   c V i c u trúc này, mô hình Markov còn g p   nhi u h n ch trong vi c mô hình hóa hay gi i quy t các v       ph c t p   Phn này trình bày khái ni m v mô hình Markov n là m t d ng m r ng c a mô hình Markov Trong        

mô hình Markov n, các s  ki c n m trong m i tr ng thái và ph thu c vào    hàm m xác su t trong các tr 

Hình 17: Mô hình Markov n 3 tr ng thái ẩ ạ

Hình 17 minh h a m t mô hình Markov n 3 tr ng thái v i các s ki n có th quan      

c trong m i tr ng thái là V = {v  1, v2, v3, v4} Kh  c s ki n v  k trong tr ng thái  Sj ph thuc vào xác sut b kj( ) Hàm b c g i là hàm m  xác sut

Trang 40

b kj   p o t  v |k qt  j 1  k M 1, 2, Nj   (2.3.13)

 i } - ma tr n phân ph i tr  i là xác su t c mô  a hình ng thái i t i thtr  m  tu = 1:

i p q1 i 1 i N

 miêu t   mt HMM c n ph i có s tr ng thái N c a mô hình, t p      

V g m M ký hi u quan sát, ma tr n xác su t chuy n tr ng thái A, ma tr n xác su t các ký        

hic B và ma tr n xác su t tr  

2.3.2.3 Ba bài toán cơ bản của HMM

 có th áp d c mô hình HMM vào các ng d ng ph c t p trong th c t     c

h t c n có l i gi i th    n c a HMM: 

Bài toán 1: Cc chu i tín hi u quan sát   O = O1 O2 … OTi din

b i b tham s      tính toán mt cách hi u qu   P O( | )  xác su t phát sinh t mô hình ? O  λ

Bài toán 2: Cc chu i tín hi u quan sát   O = O1 O2 … OTi din

b i b tham s     n tìm ra chu i tr ng thái t  t Q = q1 q2 … qT phát sinh ra O

Bài toán 3: Cc chu i tín hi u quan sát   O = O1 O2 … OT Làm th   nh các tham s mô hình  i hóa xác su t 

 ? bài toán hu n luy        i m t kh    t quan tr ng c a HMM: kh ng c th trong th c t , mô hình hóa d     li u h c

Ngày đăng: 17/02/2024, 22:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN