Nghiên ứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài hăm só kháh hàng tự động

Đây là tiền đề cho phép c thể triển khai, áp dụng hệ thống nhn dng ting ni ting Việt trong tổng đài chăm sc khách hàng t động.. Mục đích của luận vănNghiên cu thit k mô hình n

Trang 2

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG

DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG

Chuyên ngành : Đo lường và các hệ thống điều khiển

LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP

NGƯỜI HƯỚNG DẪN KHOA HỌC :

TS Nguyễn Việt Sơn

Hà Nội 2018

Trang 3

3

LỜI CẢM ƠN

Đu tiên, tôi xin đưc g i l i c ờ m ơn chân thành t i Vi n nghiên c ệ u quốc

t  MICA nơi đ o điề t u ki n cho tôi th c hi n luệ  ệ n văn này Tôi xin chân thành

cm ơn TS Nguyễn Việt Sơn người hư - ng d n tôi trong su t th ố ời gian qua đểtôi c thể hoàn th nh luà n văn

Ngoài ra, tôi xin gi lời cm ơn đn Ban lnh đo Viện Điện, Phòng ào Đto Trường Đi học Bách khoa Hà ội cùng các thy cô giáo đ hưng dn và N , giúp đỡ tôi trong quá trình học tp nghiên cu Tip đ, n, tôi xin cm ơn trung tâm không gian mng VIETTEL, nơi tôi làm việc, đ o điề t u ki n v ệ àgiúp đỡ tôi trong vi c ho n th nh h ệ à à ệ thống m tôi tr nh b y trong luà ì à n văn thc s n Tôi  ày.cũng xin gi l i cờ m ơn trân trọng đn anh Nguy n Qu c B o c ng to n th ễ ố  ù à ể đng nghi p c a tôi t i nh m voice trung tâm không gian m ng VIETTEL, ban giệ     ám

đốc trung tâm c ng to n th anh ch ù à ể  em trong trung tâm đ giúp đỡ   h tr tôi trong qu nh ho n th nh luátrì à à n văn th  àc s n y

Và cuối cùng, tôi xin gi lời cm ơn chân thành ti gia đình, bn bè những người luôn ở bên cnh động viên, truyền cm hng cho tôi, để tôi c thể đt ti giấc mơ ca mình

Hà Nội, ngày 18 tháng 08 năm

2018 Đinh Mnh Cường

Trang 4

4

MỤC LỤC

LỜI CẢM ƠN 3

MỤC LỤC 4

DANH MỤC HÌNH ẢNH 7

DANH MỤC BẢNG 8

MỞ ĐẦU 10

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 13

1.1 Nhu cầu và tình hình thực tế 13

1.1.1 Tình hình thc t ca tổng đài chăm sc khách hàng Viettel 13

1.1.2 Gii thiệu về hệ thống h tr chăm sc khách hàng sơ khai ban đu xây dng 14

1.1.3.2 Miêu t tp dữ liệu 19

1.1.3.3 Th nghiệm 20

1.2 Một số đặc thù của bài toán xây dựng hệ thống nhận dạng trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thống 24

1.2.1 Một số đặc thù ca bài toán xây dng hệ thống nhn dng trong chăm sóc khách hàng 24

1.2.2 Yêu cu ca hệ thống nhn dng ting ni 24

CHƯƠNG 2 TÌM HIỂU VỀ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 26

2.1 Hệ thống nhận dạng 26

2.1.1 Tổng quan hệ thống nhn dng ting ni 26

2.1.2 Phương diện toán học gắn vi từng phn trong mô hình nhn dng ting ni 27

2.2 Phương pháp trích xuất đặc trưng MFCC 27

2.2.1 Tiền x lý 29

2.2.2 Ca sổ ha 29

2.2.3 Bin đổi DFT 32

2.2.4 Bộ lọc Mel 33

2.2.5 Bin đổi DFT ngưc 34

2.2.6 Trích xuất đặc tính 34

2.2.7 Tổng kt 35

Trang 5

5

2.3 Mô hình âm học 35

2.3.1 Mô hình Markov ẩn 35

2.3.2 Mô hình hp Gauss 41

2.3.3 Mô hình Markov ẩn hp Gauss HMM-GMM 44

2.4 Mô hình ngôn ngữ N-gram 47

2.4.1 Mô hình N-gram 47

2.4.2 Vấn đề gặp phi khi dùng N-Gram 48

2.4.3 Phương pháp chit khấu add-alpha 49

2.4.4 Độ đo 50

2.5 Mô hình DNN và ứng dụng trong nhận dạng tiếng nói 53

2.5.1 Cấu trúc mô hình 53

2.5.2 Mô hình HMM-DNN trong nhn dng ting ni 54

2.7 Tìm hiểu framework KALDI 55

2.7.1 Các Framework nhn dng ting ni 55

2.7.2 Framework Kaldi 56

2.7.3 Các tính năng h tr 57

CHƯƠNG 3 ĐÁNH GIÁ THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58

3.1 Đánh giá một số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt và cách cải thiện chất lượng với từng yếu tố 58

3.1.1 Đánh giá s nh hưởng ca kênh truyền điện thoi đn chất lưng nhn dng 58

3.1.2 Đánh giá s nh hưởng cách ni ca người s dụng hệ thống nhn dng đn chất lưng nhn dng 60

3.1.3 Đánh giá s nh hưởng ca mô hình ngôn ngữ xây dng trên các ngun dữ liệu khác nhau đn chất lưng nhn dng 62

3.1.4 Đánh giá nh hưởng ca nhiễu ti chất lưng nhn dng trong mô hình tổng đài chăm sc khách hàng t động 64

3.1.5 Kt lun s nh hưởng ca các yu tố và đề xuất gii pháp ci thiện 71

3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 72

3.2.1 Đề xuất gii pháp t động 72

3.2.2 To từ điển cho từ vay mưn 74

Trang 6

6

3.2.3 Th nghiệm mô hình c thanh điệu 75

3.3 Cải tiến mô hình âm học sử dụng mô hình lai ghép HMM/DNN 76 3.3.1 Mô hình mng lai ghép s dụng mng nơron học sâu DNN 76

3.3.2 Huấn luyện mng trong thc nghiệm 77

3.3.3 Kt qu th nghiệm 78

CHƯƠNG 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79

4.1 Công việc đã thực hiện 79

4.2 Các vấn đề còn tồn tại 79

4.3 Để cải thiện thêm định hướng trong thời gian tới 80

TÀI LIỆU THAM KHẢO 81

Trang 7

7

DANH MỤC HÌNH ẢNH

Hình 1 Miêu tả hệ thống nhận dạng tiếng nói để phân loại cuộc gọi 17

H nh 2 ì Hệ thống nhận dạng tiếng nói điển hình 26

H nh 3 ì Các khâu trong trích xuất đặc trưng 28

H nh 4 ì Tác động của tiền xử lý tới tín hiệu âm thanh 29

H nh 5 ì Mô tả quá trình cửa sổ hóa 30

H nh 6 ì So sánh hai loại cửa sổ Rectangular và Hamming 32

H nh 7 ì Tác động của DFT tới cửa sổ 32

H nh 8 ì Bộ lọc Mel 33

H nh 9 ì Mô hình Markov ẩn ba trạng thái 36

H nh 10 ì Hai hàm Gauss với thông số khác nhau 42

H nh 11 Mô hình GMM ì 43

H nh 12 ì Hàm mật độ phân phối gồm 3 hàm gauss 43

H nh 13 ì Mô hình MGHMM 3 trạng thái 44

H nh 14 ì Mô hình DNN trong hệ thống nhận dạng tiếng nói 53

H nh 15 ì Cấu trúc mô hình HMM-DNN 54

Hì nh 16 Giới thiệu sennone 54

H nh 17 ì Cấu trúc thư mục trong framework kaldi 56

H nh 18 ì Sai số nhận dạng với các điều kiện thử nghiệm khác nhau 65

H nh 19 ì Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín hiệu nhiễu thu âm được 67

H nh 20 ì Sai số nhận dạng của các mô hình khác nhau 69

Trang 8

8

DANH MỤC BẢNG

Bảng 1 Tỉ lệ lỗi từ (%) của hệ thống nhận dạng giọng nói sử dụng hai tính

năng đầu vào khác nhau với hai loại từ điển phát âm khác nhau 21

B ng 2 ả Tỉ lệ lỗi từ (%) của hệ thống nhận dạng giọng nói sửa dụng các mô hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu 22

B ng 3 ả Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (wer %) 59

B ng 4 ả Kết quả thử nghiệm sự ảnh hưởng của cách nói (wer %) 61

B ng 5 ả Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác

Trang 9

9

DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ

HMM Hidden markov model Mô h nh markov n ì ẩ

DNN Deep Neural Network M ng  nơron ọ h c sâu

MGHMM Mixture of Gaussian Hidden

Markov Models

Mô hình Markov ẩn hp Gauss

MFCC Mel Frequency Cepstral

F0 Fundamental frequency T n s  ố cơ b n

LVSCR Vietnamese large vocabulary

continuous speech recognition

Nhn dng hệ thống từ vng ln

ting việt

Trang 10

cơ sở h tng để các ngành khác phát triển Từ nhu cu đ đ thúc đẩy những nghiên cu trong đề tài này

Lịch sử nghiên cứu

Trên th gii giao tip người máy là một lĩnh vc nghiên cu rất kh , nhưng li đưc ng dụng thc tiễn rất nhiều Ting ni là một phương tiện giao tip t nhiên nhất ca con người vi con người nên quá trình nghiên cu để máy tính hiểu đưc ngôn ngữ cũng đ bắt đu cách đây 70 năm Những n lc giai đon ban đu ch tp trung khai thác phổ ca tín hiệu âm thanh vì thời đ máy tính còn khá hn ch về kh năng x lý

Trong những năm đu 1960, điểm đáng ghi nhn nhất là ý tưởng ca tác gi người Nga, Vintsyuk khi ông đề xuất phương pháp nhn dng ting ni da , trên thut toán quy hoch động theo thời gian Đáng tic là mi đn năm 1980, phương pháp này mi đưc th gii bit đn Cuối những năm 1970, nghiên cu

về nhn dng ting ni đ bưc đu thu đưc kt qu khích lệ, làm nền tng cho những phát triển sau này Trưc tiên là bài toán nhn dng từ rời rc đưc gii quyt da trên ý tưởng ca các nhà khoa học người Nga và Nht Tri qua hơn

70 năm nghiên cu thì các mô hình đưc đề xuất để nhn dng ting ni liên tục đưc th nghiệm và đánh giá thì mô hình HMM là cho kt qu tích cc nhất, nhưng để đưa vào ng dụng trong thc t trong các hệ thống ln thì còn rất hn ch vì ở ngoài thc t thì c rất nhiều nhiễu và các ngữ điệu, giọng ni các vùng

Trang 11

11

miền khác nhau Nhất là trong ting Việt thì càng kh áp dụng vì là ngôn ngữ c

âm sắc và nhiều phương ngữ Nhưng thời gian gn đây nhờ s tin bộ ca k thut học sâu nên giúp chúng ta tăng kt qu nhn dng lên đáng kể Điển hình là trong lun văn này chúng ta áp dụng mô hình lai HMM/DNN thì kt qu nhn đưc rất kh quan Đây là tiền đề cho phép c thể triển khai, áp dụng hệ thống nhn dng ting ni ting Việt trong tổng đài chăm sc khách hàng t động

Mục đích của luận văn

Nghiên cu thit k mô hình nhn dng ting ni ting Việt trong lĩnh vc hẹp là chăm sc khách hàng, sao cho hệ thống nhn dng làm việc ổn đnh và chính xác vi môi trường thc t nhiều nhiễu và ting n, đa dng các giọng từ

độ tuổi đn vùng miền khác nhau trên c nưc

Tóm tắt luận văn

Trong lun văn này sẽ gii thiệu tổng quan về nhn dng ting ni và những thành phn cơ bn trong nhn dng ting ni phát âm liên tục Và ng dụng ca nhn dng ting ni trong bưc đu đưa vào hệ thống chăm sc khách hàng trong

ng dụng phân loi cuộc gọi để đánh giá chất lưng dch vụ Ngoài ra lun văn cũng tp trung vào nghiên cu các gii pháp để ci thiện chất lưng nhn dng ting việt từ đ nêu ra các đề xuất và đng gp ca lun văn này:

Đu tiên lun văn này nghiên cu đề xuất bộ âm v cơ bn ting Việt bao , gm 47 âm v và đưa ra gii pháp to từ điển t động để tối ưu ha quá trình đưa thông tin thanh điệu vào âm v Gii pháp này không làm bùng nổ lưng âm v và đem li hiệu qu đáng kể, thay vì ch bổ sung thông tin thanh điệu ở âm chính

Th hai, lun văn nghiên cu những yu tố nh hưởng đn chất lưng ca

hệ thống nhn dng như kênh truyền 3G, 4G, sng điện thoi, nhiễu, cách người ni và đưa ra các gii pháp giúp hệ thống ổn đnh và tăng độ chính xác ca hệ thống trong môi trường thc t triển khai sn phẩm chăm sc khách hàng

Th ba, lun văn nghiên cu tp trung nâng cao chất lưng mô hình âm học da trên việc ci thiện mô hình âm học truyền thống HMM/GMM bằng cách s dụng các mô hình c kh năng phân lp mnh là mng nơron sâu Đ là mô

Trang 12

12 hình mng li ghép HMM/DNN, n s dụng đu ra ca mng nơron thay cho xác suất phát x ca mô hình HMM

Trang 13

Tổng đài Viettel là nơi chuyên cung cấp thông tin, gii đáp các thắc mắc

và h tr khách hàng s dụng dch vụ ca Viettel Khi khách hàng gọi đn tổng đài Viettel dù dùng nội mng hay ngoi mng cũng đều đưc miễn phí tất c các cuộc gọi nên chi phí duy trì là rất ln

Các kênh h tr Viettel:

Kênh Tổng đài

Viettel chia ra làm các nhm ngành dch vụ riêng biệt và c các tổng đài tương ng Ví dụ, tổng đài 18008098 là tổng đài tư vấn và gii đáp thông tin dch

vụ không dây như di động, HomePhone, Dcom Tổng đài 18008119 là tổng đài

tư vấn, báo hỏng và h tr khách hàng s dụng các dch vụ cố đnh (điện thoi cố đnh), truyền hình, internet c dây (ADSL, FTTH) Tổng đài 18008000 là tổng đài Gii đáp các thắc mắc dành cho doanh nghiệp, trường học, h tr thông tin dch vụ kênh Leasedline, Office wan, dch vụ qun- lý phn mềm, qun lý phương tiện vn ti, chữ ký số, …Dch vụ h tr Viettel Telecom chuyên nghiệp là 1800

8168 Tất c đề là tổng đài miễn phu í

Vi 5 tổng đài Chăm sc khách hàng đặt ti các tnh/thành phố trên khắp c nưc bao gm Hà Nội, H Chí Minh, Đà Nẵng, Hi Phòng, Thái Nguyên, đn nay Viettel c mng lưi chăm sc khách hàng ln nhất trên c nưc Cùng vi đội ngũ nhân viên phi qua đào to để chuyên nghiệp, đào to bài bn, tổng đài Viettel vn ch đ kh năng tip nhn đn 5 triệu cuộc gọi/ngày Nhưng vi số lưng các dch vụ và sn phẩm, khách hàng c các th trường trong và ngoài nưc thì chi phí để vn hành và duy trì càng ngày càng cao và kh kiểm soát chất lưng

Trang 14

14

Kênh hỗ trợ khác ngoài kênh tổng đài

Để phục vụ khách hàng tốt nhất, Viettel mở rộng các kênh tương tác ngoài kênh tổng đài giúp khách hàng thun tiện hơn khi dùng dch vụ: Kênh ng dụng

My Viettel, web portal Đ là các sn phẩm giúp người dùng c thể tra cu các ây thông tin về dch vụ như chi tit các gi cưc, chương trình khuyn mi, các dch

vụ giá tr gia tăng, mobile internet, 3G, 4G… ca Viettel, h tr khách hàng tra cu m PIN/PUK, thông tin thẻ cào, thanh toán cưc, mua data, báo li dch vụ, chuyển tiền

Kết luận tình hình thực tế

Như đ phân tích ở trên chi phí cho việc chăm sc khách hàng hiện đang rất tốn kém, vì vy nhu cu t động ha và hiện đi ha để cắt gim chi phí là rất cao và cấp bách Từ nhu cu đ, Viettel đ đu tư nghiên cu các ng dụng hệ thống nhn dng ting ni ting việt để c thể đưa các tin bộ ca công nghệ thông tin vào nâng cao chất lưng dch vụ chăm sc khách hàng, và dn dn từng bưc t động ha Vì ting ni là tín hiệu rất kh x lý trc tip hay áp dụng khoa học công nghệ vào x lý nên việc chúng ta chuyển đưc ting ni thành câu là rất hữu ích vì các hệ thống x lý dữ liệu ln, và tr lời t động hiện ti mi ch làm việc đưc trên dữ liệu văn bn

1.1.2 Giới thiệu về hệ thống hỗ trợ chăm sóc khách hàng sơ khai ban đầu

xây dựng

1.1.2.1 Mục đích của việc xây dựng hệ thống

Khái niệm về hệ thống nhận dạng tiếng nói

Nhn dng ting ni miêu t quá trình bin đổi tín hiệu âm thanh thành đon văn bn gm chui các từ c nội dung tương ng Thông thường tín hiệu

âm thanh này đưc ghi âm bởi microphone và đưc chuyển đổi thành tín hiện ở dng file wav Tín hiện này sẽ là đu vào ca hệ thống nhn dng và hệ thống này

cố gắng tìm ra đon văn bn đúng nhất c thể những gì người đọc ni ra

Trang 15

15

Tình hình ứng dụng của nhận dạng tiếng nói

Ngày nay nhn dng ting ni đưc ng dụng trong nhiều lĩnh vc chinh.Trong nhà thông minh, kể từ khi tr lý o Siri xuất hiện ln đu trên iphone 4s, chc năng điều khiển bằng giọng ni đ đưc quan tâm hơn và nhiều công cụ thc hiện chc năng này cũng liên tip ra đời, như Google assistant, Cortana ca Windows,… Hiện nay đ c một số gii pháp nhà thông minh trên th gii đ đưc áp dụng thành công tính năng điều khiển bằng giọng ni như Home Automation Inc, BK Smart Home, Control4

Trong giáo dục, nhn dng ting ni cũng c một số ng dụng h tr người

học khá tốt như học ngoi ngữ, giúp người khim thính và người không c kh năng đánh máy tính Đối tưng học ngoi ngữ, nhn dng ting ni c thể giúp người học luyện phát âm và phát triển k năng ni ca họ

Trong viễn thông, nhờ công nghệ nhn dng ting ni hệ thống tr lời t

động mà còn c thể nhn tín hiệu ting ni để xác đnh yêu cu ca khách hàng, Ngoài ra, việc tốc độ x lý ca các thit b di động thông minh đưc ci thiện Và như trong lun văn này chúng ta sẽ giúp đưa ra những đon văn bn ca người gọi lên tổng đài để đưa vào hệ thống phân tích và x lý ra yêu cu ca khách hàng ri đưa ra các kênh phn hi khách hàng

Trong một số lịch vực khác, c một số ng dụng khá hữu ích c thể đưc

kể đn như việc to phụ đề phim t động, phiên dch t động… Trong ng dụng to phụ đề t động n giúp nội dung tip cn đn nhiều người và c những người khi thính, và các đối tưng ca các quốc gia khác nhau Hệ thống phiên dch m t động, nhn dng ting ni giúp xa bỏ rào cn ngôn ngữ

Đánh giá chất lượng hệ thống nhận dạng tiếng nói

Thông thường các hệ thống nhn dng ting ni đưc đánh giá độ hiệu qu thông qua t lệ li từ (WER – Word Error Rate) và độ chính xác các câu (SER –Sentence Error Rate) Mục đích là để đo độ khác biệt giữa chui văn bn to ra bởi hệ thống nhn dng và chui văn bn tham chiu to ra bởi con người, c thể

Trang 16

16

khác nhau về nội dung ln độ dài Do đ t lệ li từ xác đnh thông qua các li từ b thay th, li chèn thêm từ, và li từ b xa bỏ ca đu ra hệ thống nhn dng so vi văn bn tham chiu

Dưi đây là các vấn đề thc t ca triển khai bài toán nhn dng ting ni cho tổng đài chăm sc khách hàng Viettel Trong giai đon đu nghiên cu để chng minh tính kh thi ca việc ng dụng công nghệ nhn dng ting ni vào hệ thống chăm sc khách hàng t động ở Viettel, tôi c làm một hệ thống đơn gin thể hiện tính kh thi ca mô hình nhn dng ting ni trong chăm sc khách hàng, đ là mô hình phân loi các cuộc gọi đn tổng đài chăm sc khách hàng Viettel, giúp đưa ra đánh giá chất lưng dch vụ

Qua những n lc ban đu này tôi đ c đưc một chút kinh nghiệm và kin thc để xây dng hệ thống nhn dng ting ni ting việt trong lĩnh vc hẹp

tố quyt đnh s thành công nên tôi thu thp dữ liệu từ rất nhiều ngun c nhiễu thc t, các cuộc điện thoi nhờ vào s giúp đỡ ca nhiều bên và cũng t thu thp các dữ liệu thô về x lý Vì vy việc x lý dữ liệu và phân loi rất tốn kém về mặt thời gian và tiền bc

Mục tiêu của chúng ta là xây dng hệ thống nhn dng ting ni ting

việt c thể làm việc ổn đnh trong môi trường thc t vi độ chính xác trên 90%

để áp dụng vào tổng đài chăm sc khách hàng t động Đây là một nhiệm vụ rất quan trọng vi một doanh nghiệp c lưng người dùng ln Ví dụ, ch ở th trường

Trang 17

17

Việt Nam, các tổng đài chăm sc khách hàng đ nhn đưc 500,000 cuộc gọi mi ngày nên nhu cu t động ha là rất cao Để xây dng hệ thống nhn dng chúng

ta cn thu thp rất nhiều dữ liệu Ở giai đon đu , tôi thu đưc 85,8 giờ dữ liệu

âm thanh từ các tổng đài điện thoi chăm sc khách hàng à các tài liệu văn bn vca các dữ liệu âm thanh từ 400 nhân viên tổng đài và đi lý chăm sc khách hàng Tôi đ áp dụng rất nhiều k thut mi như là làm trễ thời gian bằng mng nơron (Time delay neural network) vi dữ liệu liên tục (sequence training), tăng cường dữ liệu bằng cách thay đổi tốc độ (data augmentation) … Cuối cù, ng tôi nhn đưc 17,44% t lệ từ li (word error rate) cho hệ thống đu tiên Vi t lệ li này thì hệ thống chưa thể đưa vào để xây dng hệ thống chăm sc khách hàng t động nên chúng ta sẽ phi nghiên cu và tìm ra gii pháp ci tin hệ thống nhn dng để c thể áp dụng vào bài toán thc tiễn

1.1.3.1 Kiến trúc hệ thống

Tôi xây dng một hệ thống nhn dng ting ni ting việt để phân loi các cuộc gọi đn tổng đài chăm sc khách hàng là tiền đề để xây dng cho tổng đài chăm sc khách hàng t động

Trang 18

18

Các thành phn ca hệ thống:

Xác định khoảng im lặng (Voice activity detection): Trong trung tâm cuộc gọi ca Viettel, kênh đi lý và kênh khách hàng đưc ghi li riêng Do đ, c rất nhiều khong im lặng trong mi kênh âm thanh và họ cn phi đưc chia thành các đon ngắn giống như câu Để phát hiện hot động thoi và phân đon

âm thanh, tôi s dụng 10 giờ dữ liệu để đào to mô hình VAD Sau đ, mô hình này đưc s dụng để căn chnh âm thanh Sau đ âm thanh đưc phân đon và đưc to ra bằng cách cắt âm v không lời ni liền kề (ting n và im lặng) nhiều hơn ngưỡng thời gian (1 giây) trong đu ra căn chnh

Tăng cường dữ liệu bằng cách thay đổi độ tốc độ của dữ liệu âm thanh

(Data Augmentation): Để xây dng một mô hình âm thanh hp lý, cn hàng trăm đn hàng nghìn giờ âm thanh Tuy nhiên, để đt đưc dữ liệu âm thanh đưc phiên âm rất tốn kém Để khắc phục điều này, nhiều k thut đ đưc đề xuất như học bán giám sát, lp mô hình da trên mô hình mu, thu thp dữ liệu từ ngun khác Trong lun văn này, tôi s dụng một phương pháp đơn gin gọi là tăng cường dữ liệu Đ là một chin lưc chung đưc áp dụng để tăng số lưng dữ liệu overfitting và ci thiện độ bền ca mô hình so vi các điều kiện th nghiệm khác nhau Trong nghiên cu này, tôi tăng kích thưc dữ liệu đào to bằng cách s dụng k thut tăng cường dữ liệu đưc gọi là nhiễu lon tốc độ âm thanh Tốc

độ nhiễu lon to ra tín hiệu thời gian b bin dng, ví dụ, vi tín hiệu dng sng phát âm x(t), thời gian cong vênh bởi hệ số α sẽ to ra tín hiệu x (αt) Trong nghiên cu này, chúng ta s dụng ba giá tr khác nhau ca α tc là 0.9,1.0,: l 1.1

Chiết xuất dữ liệu: Chúng ta s dụng phương pháp MFCC tăng cường dữ

liệu vi đặc trưng âm thanh pitch (F0: đặc trưng cho cao độ)

Mô hình âm thanh: Mô hình hn hp Gauss vi đào to thích ng SAT) và mng nơron học sâu c độ trễ theo thời gian (TDNN) vi đào to chui liên tục

(GMM-Từ điển phát âm: Ting Việt là một ngôn ngữ âm sắc đơn âm Mi âm tit

ting Việt c thể đưc coi là một s kt hp ca các thành phn ban đu, cuối

Trang 19

19

cùng và giai điệu Do đ, từ điển phát âm (từ điển) cn phi đưc mô hình ha bằng các âm ôi s dụng 47 âm v cơ bn Các dấu âm đưc tích hp vào âm v Tcuối cùng ca âm tit để xây dng từ điển phát âm cho 6000 âm tit ting Việt phổ bin Để xây dng từ điển cho các từ nưc ngoài và k thut, tôi chọn 5000

từ nưc ngoài phổ bin từ các trang web cùng vi 500 từ trong lĩnh vc dch vụ chăm sc khách hàng Những từ này sau đ đưc phiên âm một cách th công trong cách phát âm ting Việt Để to phiên âm các từ chưa bit trong dữ liệu huấn luyện, chúng ta s dụng chuyển đổi grapheme- -to phoneme (G2P) bằng cách s dụng bộ công cụ m ngun mở Sequitur G2P để to phiên âm cho 5000 từ nưc ngoài Kt qu là, tổng số từ trong từ điển ca tôi là khong 12000 từ Từ điển này đưc s dụng để huấn luyện cũng như gii m

Mô hình ngôn ngữ: Mô hình ngôn ngữ 4 gram vi tính năng làm mn Kneser-Ney đưc s dụng sau khi khám phá các cấu hình khác nhau ôi cũng T

-cố gắng mở rộng phn văn bn bằng cách s dụng các ngun văn bn khác nhau như từ văn bn web hoặc chú thích trong phim, tuy nhiên độ chính xác khá thấp Một lý do c thể là các ngun văn bn này quá khác vi miền dch vụ khách hàng

Phân loại văn bản: Sau khi gii m, đu ra nhn dng đưc s dụng để

phân loi văn bn để phân loi các cuộc gọi điện thoi thành các nhm khác nhau như báo cáo li, dch vụ tư vấn Trong nghiên cu sơ bộ này, chúng ta ch đơn gin là phân loi các cuộc gọi điện thoi da trên danh sách từ kha Cụ thể, mi nhm c một danh sách các từ kha đưc xác đnh bởi bộ phn dch vụ chăm sc khách hàng Sau khi gii m, trình tìm kim từ kha sẽ tìm các từ kha ở đu ra gii m Mi từ kha ch đưc gán một điểm số bằng nhau Cuộc gọi điện thoi

sẽ đưc phân loi vào nhm c số điểm cao nhất

1.1.3.2 Miêu tả tập dữ liệu

Trong th nghiệm đu tiên này, ngun thu thp dữ liệu là từ các cuộc điện thoi ca tổng đài chăm sc khách hàng ca Viettel chim ch yu Tn số lấy mu là 8kHz, vi độ phân gii là 8 bits/sample Trong tp dữ liệu, chúng ta thu

Trang 20

20

thp từ 50 đi lý vi 23,932 cuộc gọi điện Dữ liệu ca chúng ta thu thp từ hai kênh là từ đi lý chăm sc khách hàng và kênh người dùng gọi lên tổng đài tổng cộng đưc 85,8 giờ Nhưng trong ngun dữ liệu thì c rất nhiều ting n, các giọng vùng miền khác nhau như 60% là người miền Bắc (vì các tổng đài chúng

ta thu thp dữ liệu chim đa số là tổng đài miền Bắc), 30% miền Trung và 10% miền Nam, độ tuổi trung bình những khách hàng gọi lên tổng đài chăm sc khách hàng là từ 16 tuổi đn 30 tuổi và nhiễu môi trường phi gán nhn n như là ting v tay hoặc các khong im lặng trong các dữ liệu âm thanh

1.1.3.3 Thử nghiệm

Thiết lập thử nghiệm

Đu tiên chúng ta xác đnh dữ liệu huấn luyện và các bộ dữ liệu kiểm tra

từ kho văn bn Chúng ta trích xuất 19.672 cuộc gọi từ 43 đi lý để thành lp bộ huấn luyện Thời gian huấn luyện là 70 giờ vi 125,337 phân đon Các thit lp còn li bao gm 4.260 cuộc gọi điện thoi từ 7 đi lý đưc s dụng cho các bộ th nghiệm Thời gian thit lp th nghiệm là 15,8 giờ vi 28.488 phân đon Vi thit lp này, không c người ni chng chéo giữa bộ dữ liệu huấn luyện và các

bộ dữ liệu th nghiệm Bộ công cụ nhn dng ting ni ca Kaldi đưc s dụng

để xây dng nhn dng ting ni Bộ công cụ SRILM đưc s dụng để xây dng

mô hình ngôn ngữ Hiệu suất ca tất c các hệ thống đưc đánh giá theo lệ li t

từ (WEB)

Tôi đánh giá độ chính xác ca hệ thống khi MFCC đưc tăng cường vi đặc trưng cao độ Pitch Không khí đi qua thanh qun làm thanh qun rung lên S rung động này vi một t lệ nào đ cũng đưc gọi là tn số cơ bn – f0 Tn số cơ bn phụ thuộc vào kích cỡ và áp lc ca thanh qun Tn số cơ bn liên quan đn

âm thanh về cao độ và n c thể đưc ưc lưng chính xác từ tín hiệu âm thanh

Độ cao hay độ trm bổng ca âm thanh chính là tn số sng cơ học ca âm thanh

Âm thanh nào cũng phát ra ở một độ cao nhất đnh Độ cao ca âm thanh phụ thuộc vào tn số dao động Đối vi ting ni, tn số dao động ca dâythanh qun

Trang 21

21

quy đnh độ cao giọng ni ca con người Mi người c một cao độ giọng ni khác nhau, độ cao ca nữ gii thường cao hơn nam gii và độ cao ca trẻ em thường cao hơn ca người ln Cao độ Pitch do đ là đi lưng lệ nghch vi t tn số cơ bn F0 Pitch là thuộc tính cơ bn ca ting ni Tai người nhy cm vi s thay đổi tn số cơ bn

Như đưc hiển th trong Bảng 1 s dụng hệ thống vi dữ liệu tăng cường đặc trưng cao độ itch gim lệ li từ đáng kể (WER) (từ 37,38% đn 31,15%) P t

Kết luận 1: Vy trong khi xây dng hệ thống nhn dng cho lĩnh vc hẹp

là tổng đài chăm sc khách hàng chúng ta sẽ s dụng MFCC tăng cường vi đặc trưng pitch

năng đầu vào khác nhau với hai loại từ điển phát âm khác nhau

Feature №n tonal dictionary (%) – Tonal dictionary (%)

: №n

Từ điển phát âm – tonal dictionary là tất c các các từ đưc phát

âm là một chui các âm v không c thông tin thanh điệu Ting Việt là một ngôn ngữ hữu âm c thanh điệu, do đ rõ ràng s dụng tonal dictionary âm là một la chọn thích hp Khi so sánh kt qu ca Bng 1, chúng ta thấy rằng việc s dụng tonal dictionary c thể ci thiện đáng kể hiệu suất nhn dng Khi thêm đặc trưng pitch, tôi ch nhn đưc ci thiện 0,65% bằng cách s dụng tonal dictionary Ngưc li, khi MFCC đưc tăng cường vi đặc tính pitch, s ci thiện bằng cách s dụng tonal dictionary là ln hơn đáng kể (2,16%) N cho thấy rằng bằng cách s dụng tonal dictionary đặc biệt ci thiện t lệ li khi tính năng đu vào đưc tăng cường vi đặc trưng pitch

Trang 22

22

Kết luận 2: Trong hệ thống nhn dng ting việt, từ điển phát âm là một trong những thành phn quan trọng, nh hưởng rất ln đn chất lưng nhn dng,

là ngôn ngữ c 6 thanh điệu việc tích hp thông tin thanh điệu vào từ điển phát

âm không phi là việc dễ dàng, nu không nghiên cu k lưỡng về ngữ âm ting Việt thì hệ thống sẽ cho chất lưng nhn dng không như mong muốn Trong phn 3 ca lun văn chúng ta sẽ đi sau vào gii pháp xây dng từ điển phát âm c tích hp thông tin thanh điện (tonal dictionary) cho nhn dng ting Việt Ngoài ra trong lĩnh vc hẹp là chăm sc khách hàng thì c rất nhiều từ vay mưn

Mô hình âm học: Trong các thí nghiệm trưc đây, mô hình âm học GMM

vi cách huấn luyện thích nghi (SAT) đ đưc s dụng Ưu điểm ca DNN đối vi GMM đối vi mô hình ha âm thanh đ đưc nhiều nhà nghiên cu chng minh Trong giai đon đu này, tôi s dụng một bin thể ca DNN gọi là mng nơron trễ thời gian (TDNN) đưc đề xuất gn đây Đu tiên tôi s dụng TDNN vi tiêu chuẩn huấn luyện cross-entropy da trên frame based (TDNN1) C thể -thấy rằng WER gim đáng kể (từ 28,99% xuống còn 20,20%) bằng cách s dụng TDNN cho mô hình ha âm thanh Sau đ TDNN vi đào to chui (TDNN2) đưc áp dụng da trên một state level thay đổi ca Minimum phone error (MPE),-đưc gọi là sMBR Bằng cách s dụng đào to chui, chúng ta đt đưc ci thiện thêm khong 2% Vi nhiều sMBR lặp đi lặp li, đt đưc t lệ li thấp hơn WER dường như bo hòa sau 4 ln lặp đây là hiện tưng nút thắt cổ chai trong phương pháp này, do thời gian ca lun văn không đ nên ở giai đon tip theo tôi sẽ nghiên cu ci thiện bằng một mô hình học sâu c số lưng lp ẩn phù hp còn

ở lun văn này tôi tp trung vào mô hình lai HMM/DNN

hnh âm thanh GMM và DNN mà không có và có tăng cường dữ liệu

Acoustic model w/o data augmentation with data

augmentation

Trang 23

Iteration 1 18.34 17.41 Iteration 2 18.19 17.44 Iteration 3 18.06 17.31 Iteration 4 18.04 17.28

Kết luận 3: Việc s dụng phương pháp học sâu giúp tăng đáng kể kt qu

nhn dng Chúng ta cn tìm ra một mô hình học sâu tốt hơn để nâng cao chất lưng nhn dng, trong phn 3 ca lun văn chúng ta sẽ phân tích mô hình lai ghép HMM/DNN Gii pháp này s dụng đu ra ca mng nơron thay cho xác suất phát x ca mô hình HMM

- Tăng cường dữ liệu: Để tăng kích thưc dữ liệu đào to, tôi áp dụng k

thut tăng cường dữ liệu đưc gọi là nhiễu lon tốc độ âm thanh Trong nghiên cu này, ba phiên bn ca tín hiệu ting ni gốc, x(t) đưc to ra tc là, x (0.9t),

x (t), x (1.1t) Sau đ, tính năng trích xuất đưc áp dụng trên tín hiệu lời ni mi

để đào to mô hình âm thanh theo cách thông thường

Cột cuối cùng ca Bng 2 cho thấy WER% ca các mô hình âm thanh khác nhau sau khi áp dụng tăng thêm dữ liệu

Kt lun 4: Rõ ràng là s dụng tăng cường dữ liệu luôn làm gim WER từ 1,75% xuống 1,07% cho các mô hình âm học khác nhau

Trang 24

+ Giọng ni khách hàng đôi khi không chuẩn, nhp nhằng, nhiều từ vng, phát âm sai

+ Phi nhn dng đưc nhiều từ đặc thù trong lĩnh vc tổng đài bao gm nhiều từ kh phát âm và từ nưc ngoài

+ Các cuộc gọi thường đưc thc hiện ở môi trường nhiều nhiễu và ting

n

1.2.2 Yêu c u c a hầ ủ ệ th ng nh n d ng ti ng nói ố ậ ạ ế

+ Nhn dng tốt các từ, câu trong bài toán hẹp chăm sc khách hàng, nhất

là trong điều kiện thc t thì khách hàng gọi lên tổng đài chăm sc đa phn là ở ngoài môi trường c ting n cao như ngoài đường, trong văn phòng, trong các nhà máy, và đi kèm rất nhiều giọng phương ngữ ở các vùng miền khác nhau, cùng từ ngữ chuyên môn trong lĩnh vc viễn thông, thì mục tiêu độ chính xác cao là rất kh khăn

+ Đm bo yu tố về đáp ng thời gian nhn dng trong hệ thống: Yu tố này gắn liền vi hệ thống cơ sở h tng, dù hệ thống nhn dng c tốt đn mấy

mà cơ sở h tng đáp ng chm thì chất lưng chăm sc khách hàng cũng vn rất thấp, đây là thách thc cho riển khai hệ thống ở ngoài thc t.t

Trang 26

Gii thích ý nghĩa khái quát các module:

Trích xuất đặc trưng: Phân tích tín hiệu ting ni thành các vector để

máy x lý đưc Trong quá trình trích chọn đặc trưng, tín hiệu âm thanh đưc cắt thành các khung theo thời gian để x lý và trích chọn ra đặc trưng quan

trọng dưi dng chui vector X Mục đích ca hệ thống nhn dng sau đ sẽ xác đnh chui văn bn W đúng nhất vi vector đặc trưng X

Mô hình âm học: mô hình ha các âm v bằng các chui trng thái để ưc

lưng xác suất P(X|W) ca vector đu vào X khi bit văn bn đu ra W

Từ điển: tp hp các cách phát âm ca các từ cn nhn dng Cung cấp

cách phát âm cho các từ tìm thấy trong mô hình ngôn ngữ

Mô hình ngôn ngữ: mô hình ha kh năng xuất hiện ca các từ, quyt

đnh chui từ đu ra Cụ thể mô hình ngôn ngữ cho bit xác suất ca một câu hoặc một cụm từ thuộc một ngôn ngữ

T nừ điể

B i mãộ giả

Trích chọn đặc trưng

Mô hình âm h cọ

Cụm từ nhận dạng được

Mô hình ngôn ngữ

Trang 27

[2.1] Th nhưng số lưng các ve tor quan sát trong tp huấn luyện là vô cùng ln nên cviệc tính trc tip theo công thc trên là không thể, trừ khi c s gii hn về số người ni hoặc độ dài ca âm thanh đu vào.

Vì vy để đơn gin cho tính toán ta c công thc Bayes:

[2.2] Trong đ:

p(W): Đưc tính từ mô hình ngôn ngữ, là kh năng phát sinh ra chui từ

W

P(O|W): Đưc tính từ mô hình âm học, là kh năng chuối vector O đưc sinh ra khi chui từ W đ đưc phát ra

P(O): Coi như là một hằng số và không đổi vi mọi người ni nên c thể

bỏ qua vì không nh hưởng đn kt qu Do vy, công thc mi để tìm ra chui

từ tốt nhất:

2.2 Phương pháp trích xuất đặc trưng MFCC

Tín hiệu âm thanh ngoài đời thc là tín hiệu liên tục, hay tín hiệu tương t trưc khi thc hiện bất c bưc x lý nào, tín hiệu âm thanh cn đưc số ha Việc này đưc thc hiện t động bởi các thit b thu âm, bằng cách lấy mu tín

Trang 28

28

hiệu đu vào Như vy, một tín hiệu âm thanh bất kỳ khi đ đưc đưa vào máy tính, là một tp các mu liên tip nhau, mi mu là giá tr biên độ ca tín hiệu ti một thời điểm nhất đnh Một tham số quan trọng trong việc lấy mu tín hiệu âm thanh là tn số lấy mu, Fs, tc là số mu đưc lấy trong một giây Để c thể đo lường chính xác, cn phi lấy ít nhất 2 mu trong một chu kỳ ca tín hiệu tương t đu vào Như vy, tn số lấy mu phi ln hơn 2 ln tn số cao nhất ca tín hiệu âm thanh đu vào

Trích chọn đặc trưng đối vi nhn dng ting ni là việc tham số ha chui tín hiệu âm thanh dng sống đu vào, bin đổi tín hiệu âm thanh thành một chui các vector đặc trưng n chiều, mi chiều là một giá tr thc Hiện nay, c rất nhiều phương pháp trích chọn đặc trưng như: LPC (Linear predictive coding – D đoán tuyn tính), AMDF (Average magnitude different function – hàm biên độ trung bình), MFCC (Mel-frequency cepstral coefﬁcients)

Trong bài toán nhn dng ting ni đang xét, vi tn số lấy mu mặc đnh 16.000Hz, một đon mu vi một số lưng nhất đnh to thành một frame, như vy tín hiệu ting ni là tp các frame liên tip nhau, trích chọn đặc trưng MFCC cho ta tp đặc trưng cho mi frame ting ni này Ti sao phi chia thành các frame và các frame cụ thể chúng c đặc trưng th nào, ta sẽ đề cp ti ở ngay phn sau đây

- Các khâu chính trong trích xuất đặc trưng

+ Tiền x lý

+ Ca sổ ha

+ Bin đổi DFT

Trang 29

kể (nghe c thể dễ dàng nhn ra) ca ting ni khi thu âm, bưc đu tiên ca quá trình trích chọn đặc trưng MFCC sẽ x lý vấn đề này, bằng việc thc hiện tăng cường độ ca những tn số cao lên nhằm làm tăng năng lưng ở vùng c tn số cao – vùng tn số ca ting ni, một cách dễ hiểu là làm ting ni ln hơn lên để

nh hưởng ca các âm thanh môi trường và nhiễu trở thành không đáng kể Việc tăng cường độ ca vùng tn số cao lên đng thời làm cho thông tin rõ ràng hơn đối vi mu ting ni Hình 4 mô t trưc và sau quá trình Pre emphasis ca một -đon tín hiệu âm thanh:

2.2.2 C a s hóa ử ổ

Trong hệ thống nhn dng ting ni đưc trình bày ở đ án này, vi mục đích nâng cao độ chính xác ca việc nhn dng ting, thay vì nhn dng từng từ riêng biệt, mi một từ trong đon thoi sẽ đưc phân tích thành các âm v

Trang 30

30

(subunit) và hệ thống sẽ nhn dng từng âm v Âm v ở đây là đơn v phát âm ca một từ, các âm v cấu thành ting ni, trong ting Pháp, n là đơn v cấu thành phiên âm ca từ (chẳng hn NIDS: n i, âm v ở đây là /n/ và /i/)-

Vì lý do đ, các đặc trưng cn phi đưc trích chọn trên từng âm v, thay

vì c từ hay c đon ting ni dài Ca sổ ha là việc cắt đon tín hiệu âm thanh đu vào ra thành các mu tín hiệu c thời lưng nhỏ, gọi là các frame Mi frame này sau đ sẽ đưc nhn dng n thuộc âm v nào Một lý do khác cho thấy s cn thit ca việc ca sổ ha là vì tín hiệu âm thanh thay đổi rất nhanh, do đ các thuộc tính như biên độ, chu kỳ sẽ không ổn đnh Khi tín hiệu âm thanh đưc cắt

ra thành những đon nhỏ thì ở mi đon, c thể coi tín hiệu đ là ổn đnh, các đặc trưng ca tín hiệu là không đổi theo thời gian

Để thc hiện việc này, chúng ta s dụng một ca sổ (window) chy dọc tín hiệu âm thanh và cắt ra các đon tín hiệu nằm trong ca sổ đ Một ca sổ đưc đnh nghĩa bằng các thông số:

+ Frame size: độ rộng ca ca sổ, cũng là độ ln ca frame tín hiệu sẽ đưc cắt ra

Trang 31

31

+ Frame shift: bưc nhy ca ca sổ, là độ dài đon mà ca sổ sẽ trưt để

cắt ra frame tip theo

Mi frame sau đ sẽ đưc nhân vi một hệ số, giá tr ca hệ số này tùy thuộc vào

từng loi ca sổ

[2.4]

Trong đ:

+ x n[ ] là giá tr ca mu th n

+ y n[ ] là giá tr ca mu th n sau khi nhân vi hệ số

+ w n[ ] là hệ số cho mu th n trong frame đ

Loi ca sổ đơn gin nhất là ca sổ Rectangular, giá tr ca các hệ số w n[ ]

đưc cho bởi công thc sau:

[2.5]

N là số mu trong một frame

Nói cách khác, ca sổ Rectangular vi bưc nhy là frame shift, ta lấy

frame size giá tr liên tip ca tín hiệu làm một frame

Một loi ca sổ khác thông dụng hơn trong trích chọn đặc trưng MFCC là

ca sổ Hamming Trong loi ca sổ này, giá tr ca tín hiệu sẽ gim dn về 0 khi

tin dn ra hai biên ca frame Ni cách khác, nu s dụng ca sổ Hamming để

lấy ra các frame, năng lưng ca mi frame sẽ tp trung ở giữa frame, một ưu

điểm nữa là các giá tr biên ca ca sổ Hamming tin dn về 0 sẽ làm bưc bin

đổi Fourier ngay sau trở nên dễ dàng hơn (vi ca sổ Rectangular các giá tr giữ

nguyên so vi mu ting ni, bên ngoài ca sổ nhn giá tr 0, các giá tr sẽ b tăng

đột ngột ở hai biên) Hệ thống nhn dng trong đ án này trình bày sẽ s dụng

ca sổ Hamming Biểu thc hệ số ca ca sổ này là:

[2.6]

Trang 32

[2.7]

Trong đ x[n] là giá tr ca mu th n trong frame, X[k] là một số phc biểu diễn cường độ và pha ca một thành phn tn số trong tín hiệu gốc, N là số mu trong một frame Thông thường người ta s dụng bin đổi FFT (Fast Fourier transform) thay vì DFT Bin đổi FFT nhanh hơn nhiều so vi bin đổi DFT, tuy nhiên thut toán này đòi hỏi giá tr N phi là một lũy thừa ca 2

Hình7 mô t trưc và sau khi bin đổi DFT ca một ca sổ:

H  nh Tác động của DFT tới cửa sổ 7

Trang 33

33

2.2.4 B l c Mel ộ ọ

Kt qu ca quá trình bin đổi Fourier thể hiện năng lưng ca tín hiệu ở những di tn số khác nhau Tuy nhiên, tai ca người li không c s nhy cm như nhau đối vi mọi di tn số Do đ việc mô hình ha tính chất này ca tai người trong quá trình trích chọn đặc trưng làm tăng kh năng nhn dng ca hệ thống Trong mô hình trích chọn đặc trưng MFCC, tn số sẽ đưc chuyển sang thang đo tn số mel theo công thc:

fmel = 2595 x ln (1 + ) [2.8]

Trong đ f là tn số ở thang đo thường, fmel là tn số ở thang đo mel Người

ta s dụng các băng lọc để tính các hệ số mel S dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ số mel, và các hệ số mel này sẽ là đu vào cho quá trình tip theo ca trích chọn đặc trưng MFCC

Hình B8 iểu diễn mô hình các băng lọc trong thang đo tn số bình thường

và thang đo mel:

Trang 34

34

2.2.5 Biến đổi DFT ngược

Bưc tip theo ca việc trích chọn đặc trưng MFCC là bin đổi fourier ngưc vi đu vào là các hệ số phổ mel ca bưc trưc, đu ra sẽ là các hệ số cepstrum (MFCC Mel Frequency Cepstrum Coefﬁcients) –

Sau khi thc hiện bin đổi Fourier thì dy tín hiệu theo thời gian đ đưc chuyển thành phổ tn số, và việc áp dụng các băng lọc tn số mel giúp cô đọng phổ tn số về một số hệ số nhất đnh (bằng vi số băng lọc) Các hệ số này thể hiện các đặc trưng ca ngun âm thanh như tn số cơ bn, xung âm thanh… Tuy nhiên, các đặc trưng này không quan trọng đối vi việc phân biệt các âm khác nhau Thay vào đ, các đặc trưng về bộ máy phát âm (khoang miệng, khoang mũi, thanh qun, hu) rất cn thit cho việc nhn dng các âm Việc thc hiện bin đổi fourier ngưc sẽ giúp tách biệt các đặc trưng về ngun âm và bộ máy phát âm từ các hệ số (các đặc trưng về bộ máy phát âm là các hệ số đu tiên)

2.2.6 Trích xuất đặc tính

Từ các hệ số mel thu đưc từ quá trình trưc, thông thường chúng ta ch lấy ra 12 hệ số đu tiên để chọn làm đặc trưng 12 hệ số này ch đặc trưng cho các

bộ phn ca bộ máy phát âm Như vy chúng ta đ c 12 đặc trưng đu tiên

Đặc trưng th 13 là năng lưng ca âm Năng lưng ca mi khung tín hiệu đưc tính ngay từ sau bưc ca sổ ha:

Trang 35

-35

delta giống vi công thc tính các đặc trưng delta, khi coi c(t) là giá tr ca các đặc trưng delta

2.2.7 T ng kổ ết

Trích chọn đặc trưng MFCC sẽ thu đưc các đặc trưng sau đây:

+ 12 giá tr đặc trưng phổ Mel đưc bin đổi Fourier ngưc

+ 12 giá tr delta phổ

+ 12 giá tr double delta phổ

+ 1 giá tr mc năng lưng

+ 1 giá tr delta mc năng lưng

+ 1 giá tr double delta mc năng lưng

Tổng cộng: 39 đặc trưng cho mi frame ting ni

2.3 Mô hình âm học

2.3.1 Mô hình Markov ẩn

Trong mô hình Markov, mi trng thái tương ng vi một s kiện quan sát đưc Vi cấu trúc này, mô hình Markov còn gặp nhiều hn ch trong việc gii quyt những vấn đề phc tp Mô hình Markov ẩn đưc phát triển từ mô hình Markov, mi trng thái c thể tương ng vi nhiều s kiện khác nhau và việc phát sinh ra s kiện phục thuộc vào hàm mt độ xác suất phát sinh ra s kiện ca trng thái

Trang 36

36

Mô hình 9 có: {V1, V2, V3, …, Vn} là các s kiện quan sát đưc trong mi trng thái Tất c các trng thái đều c thể phát sinh ra các s kiện đ Kh năng phát sinh s kiện Vk trong trng thái Sjphụ thuộc và xác suất bo j(k) Hàm b gọi

là hàm mt độ xác suất ca các s kiện quan sát C nhiều hàm đưc sb dụng như hàm mt độ Gauss hoặc dùng mng neuron (hai hàm này đưc s dụng nhiều trong nhn dng ting ni)

Tổng quát ha mô hình Markov ẩn ta c các thông số đưc đnh nghĩa như sau:

- N là số lưng trng thái Ta ký hiệu các trng thái là S = {S1, S2, S3, …,

Sn} và trng thái đt đưc ti thời điểm t là Qt

- M là số lưng s kiện c thể quan sát đưc trong mi trng thái Ta ký hiệu s kiện quan sát này là V = {O1, O2, O3, …, On} và tín hiệu quan sát ti thời điểm t là Ot

- Xác suất chuyển giữa các trng thái A = {aij} trong đ:

aĳ = p [qt+1 = Sj | qt = Si], 1 ≤ i, j ≤ N Thỏa mn ràng buộc

Trang 37

Để thu n ti ện hơn trong việc trình bày, ta s ẽ quy ưc mô hình Markov ẩn đưc đi di n b ng bộệ ằ tham s ố = (A, B, π).

Các bài toán trong mô hình Markov ẩn:

a Bài toán tính xác suất phát sinh ra chuỗi sự kiện quan sát:

Gi thi t: Cho chu i s   kiện quan sát là O = {O1, O2, O3,…,On}và b thông ộ

s c a mô hình làố  = (A,B,π) Làm th nào để tính toán hi u qu P(O|ệ  ) - xác suất phát sinh chu i O c a mô hình  

Phương pháp gii: Gii thut “forward backward”:

-Đây là một gii thut đưc phát triển trên máy tính N tit kiệm tính toán da vào việc tit kiệm những phn c tính toán giống nhau – tit kiệm da vào kt qu đưc tính toán trưc đ Gi dụ chui trng thái q, 1 là 1231, q2 là 1232 và

q3 là 1233, c chui con là 123 giống nhau nên khi tính toán ta ch cn thc hiện một ln tính toán chui con 123 sau đ thc hiện thêm đon chui khác biệt Ví

dụ ta ch cn tính chui 123 trên q1, chui 1231 đưc tính tip từ 123 này, q2 và

q3 cũng da vào chui 123 đ để tính Th tục Forward thc hiện tính toán đi từ trng thái đu ti cuối, còn Backward thì ngưc li đi từ cuối ti đu, nhưng c 2 c cơ ch hoàn toàn giống nhau

Trang 38

38

Thut gii forward:

Đu tiên đnh nghĩa bin t(i) là xác suất qtđt đưc trng thái Si ti thời điểm t, sau khi đ quan sát đưc một phn chui {O1, O2, …Ot}

αt(i) = P (O1O2 … Ot, qt = Si | λ) Thut toán thc hiện như sau:

Thut gii Backward:

Trưc ht đnh nghĩa các bin backward t(i) là xác suất quan sát đưc đon

Ot+1, Ot+2 …OT cho trưc tr ng thái S i thời điểm t và mô hình :

Trang 39

39

b Bài toán 2 : Tìm kiếm chuỗi trạng thái tối ưu phát sinh ra chuỗi các sự

kiện quan sát

Cho chui vector quan sát O1, O2 …OT, tìm ra chui trng thái tối ưu Q =

q1, q2…qt đ phát sinh ra chui trng thái O

Trong rất nhiều trường hp, yêu cu ca bài toán cn tìm ra ngun gốc phát sinh

ra s kiện chui trng thái phù hp nhất Ví dụ như trong nhn dng giọng ni, việc nhn dng cn tìm ra xem chui mu nào phát ra những âm thanh Một điều đáng lưu ý là c nhiều tiêu chí khác nhau cho việc xác đnh Q, nên lời gii cho bài toán còn tùy thuộc vào tiêu chí đưc la chọn

Thut toán Viterbi

Thut toán Viterbi đnh nghĩa bin t(i) :

2 Quy nạp:

Trang 40

c Bài toán huấn luyện

Gi thi t: T  ừ mô hình ban đu và chu i vector quan sát O, tìm cách c p  nht l i các thông s c a mô hình ố  = (A,B,π).sao cho cc đi hóa xác suất P(O| ) Thut toán Baum-welch

Trưc tiên ta đnh nghĩa ξ(i,j) là xác suất ở trng thái Si t i th ời điểm t và rơi vào trng thái Sj t i th ời điểm t+1 cho trưc mô hình và chui vector quan sát O

Nu lấy tổng γt(i) the t ϵ [1, T 1], kt qu nhn đưc là số ln kỳ vọng chuyển từ trng thái Si Tương t lấy tổng ξ (i, j) theo t ϵ [1, T 1], kt qu nhn -đưc là số ln kỳ vọng chuyển từ trng thái Si sang Sj

Tiêu đề	Nghiên Cứu Xây Dựng Hệ Thống Nhận Dạng Tiếng Nói Tiếng Việt Ứng Dụng Trong Tổng Đài Chăm Sóc Khách Hàng Tự Động
Tác giả	Đinh Mạnh Cường
Người hướng dẫn	TS. Nguyễn Việt Sơn
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Đo Lường Và Các Hệ Thống Điều Khiển
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	82
Dung lượng	2,65 MB