Đây là tiền đề cho phép c thể triển khai, áp dụng hệ thống nhn dng ting ni ting Việt trong tổng đài chăm sc khách hàng t động.. Mục đích của luận vănNghiên cu thit k mô hình n
Trang 2NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG
DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG
Chuyên ngành : Đo lường và các hệ thống điều khiển
LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP
NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS Nguyễn Việt Sơn
Hà Nội 2018
Trang 33
LỜI CẢM ƠN
Đu tiên, tôi xin đưc g i l i c ờ m ơn chân thành t i Vi n nghiên c ệ u quốc
t MICA nơi đ o điề t u ki n cho tôi th c hi n luệ ệ n văn này Tôi xin chân thành
cm ơn TS Nguyễn Việt Sơn người hư - ng d n tôi trong su t th ố ời gian qua đểtôi c thể hoàn th nh luà n văn
Ngoài ra, tôi xin gi lời cm ơn đn Ban lnh đo Viện Điện, Phòng ào Đto Trường Đi học Bách khoa Hà ội cùng các thy cô giáo đ hưng dn và N , giúp đỡ tôi trong quá trình học tp nghiên cu Tip đ, n, tôi xin cm ơn trung tâm không gian mng VIETTEL, nơi tôi làm việc, đ o điề t u ki n v ệ àgiúp đỡ tôi trong vi c ho n th nh h ệ à à ệ thống m tôi tr nh b y trong luà ì à n văn thc s n Tôi ày.cũng xin gi l i cờ m ơn trân trọng đn anh Nguy n Qu c B o c ng to n th ễ ố ù à ể đng nghi p c a tôi t i nh m voice trung tâm không gian m ng VIETTEL, ban giệ ám
đốc trung tâm c ng to n th anh ch ù à ể em trong trung tâm đ giúp đỡ h tr tôi trong qu nh ho n th nh luátrì à à n văn th àc s n y
Và cuối cùng, tôi xin gi lời cm ơn chân thành ti gia đình, bn bè những người luôn ở bên cnh động viên, truyền cm hng cho tôi, để tôi c thể đt ti giấc mơ ca mình
Hà Nội, ngày 18 tháng 08 năm
2018 Đinh Mnh Cường
Trang 44
MỤC LỤC
LỜI CẢM ƠN 3
MỤC LỤC 4
DANH MỤC HÌNH ẢNH 7
DANH MỤC BẢNG 8
MỞ ĐẦU 10
CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 13
1.1 Nhu cầu và tình hình thực tế 13
1.1.1 Tình hình thc t ca tổng đài chăm sc khách hàng Viettel 13
1.1.2 Gii thiệu về hệ thống h tr chăm sc khách hàng sơ khai ban đu xây dng 14
1.1.3.2 Miêu t tp dữ liệu 19
1.1.3.3 Th nghiệm 20
1.2 Một số đặc thù của bài toán xây dựng hệ thống nhận dạng trong hệ thống chăm sóc khách hàng và yêu cầu của hệ thống 24
1.2.1 Một số đặc thù ca bài toán xây dng hệ thống nhn dng trong chăm sóc khách hàng 24
1.2.2 Yêu cu ca hệ thống nhn dng ting ni 24
CHƯƠNG 2 TÌM HIỂU VỀ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 26
2.1 Hệ thống nhận dạng 26
2.1.1 Tổng quan hệ thống nhn dng ting ni 26
2.1.2 Phương diện toán học gắn vi từng phn trong mô hình nhn dng ting ni 27
2.2 Phương pháp trích xuất đặc trưng MFCC 27
2.2.1 Tiền x lý 29
2.2.2 Ca sổ ha 29
2.2.3 Bin đổi DFT 32
2.2.4 Bộ lọc Mel 33
2.2.5 Bin đổi DFT ngưc 34
2.2.6 Trích xuất đặc tính 34
2.2.7 Tổng kt 35
Trang 55
2.3 Mô hình âm học 35
2.3.1 Mô hình Markov ẩn 35
2.3.2 Mô hình hp Gauss 41
2.3.3 Mô hình Markov ẩn hp Gauss HMM-GMM 44
2.4 Mô hình ngôn ngữ N-gram 47
2.4.1 Mô hình N-gram 47
2.4.2 Vấn đề gặp phi khi dùng N-Gram 48
2.4.3 Phương pháp chit khấu add-alpha 49
2.4.4 Độ đo 50
2.5 Mô hình DNN và ứng dụng trong nhận dạng tiếng nói 53
2.5.1 Cấu trúc mô hình 53
2.5.2 Mô hình HMM-DNN trong nhn dng ting ni 54
2.7 Tìm hiểu framework KALDI 55
2.7.1 Các Framework nhn dng ting ni 55
2.7.2 Framework Kaldi 56
2.7.3 Các tính năng h tr 57
CHƯƠNG 3 ĐÁNH GIÁ THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58
3.1 Đánh giá một số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt và cách cải thiện chất lượng với từng yếu tố 58
3.1.1 Đánh giá s nh hưởng ca kênh truyền điện thoi đn chất lưng nhn dng 58
3.1.2 Đánh giá s nh hưởng cách ni ca người s dụng hệ thống nhn dng đn chất lưng nhn dng 60
3.1.3 Đánh giá s nh hưởng ca mô hình ngôn ngữ xây dng trên các ngun dữ liệu khác nhau đn chất lưng nhn dng 62
3.1.4 Đánh giá nh hưởng ca nhiễu ti chất lưng nhn dng trong mô hình tổng đài chăm sc khách hàng t động 64
3.1.5 Kt lun s nh hưởng ca các yu tố và đề xuất gii pháp ci thiện 71
3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 72
3.2.1 Đề xuất gii pháp t động 72
3.2.2 To từ điển cho từ vay mưn 74
Trang 66
3.2.3 Th nghiệm mô hình c thanh điệu 75
3.3 Cải tiến mô hình âm học sử dụng mô hình lai ghép HMM/DNN 76 3.3.1 Mô hình mng lai ghép s dụng mng nơron học sâu DNN 76
3.3.2 Huấn luyện mng trong thc nghiệm 77
3.3.3 Kt qu th nghiệm 78
CHƯƠNG 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79
4.1 Công việc đã thực hiện 79
4.2 Các vấn đề còn tồn tại 79
4.3 Để cải thiện thêm định hướng trong thời gian tới 80
TÀI LIỆU THAM KHẢO 81
Trang 77
DANH MỤC HÌNH ẢNH
Hình 1 Miêu tả hệ thống nhận dạng tiếng nói để phân loại cuộc gọi 17
H nh 2 ì Hệ thống nhận dạng tiếng nói điển hình 26
H nh 3 ì Các khâu trong trích xuất đặc trưng 28
H nh 4 ì Tác động của tiền xử lý tới tín hiệu âm thanh 29
H nh 5 ì Mô tả quá trình cửa sổ hóa 30
H nh 6 ì So sánh hai loại cửa sổ Rectangular và Hamming 32
H nh 7 ì Tác động của DFT tới cửa sổ 32
H nh 8 ì Bộ lọc Mel 33
H nh 9 ì Mô hình Markov ẩn ba trạng thái 36
H nh 10 ì Hai hàm Gauss với thông số khác nhau 42
H nh 11 Mô hình GMM ì 43
H nh 12 ì Hàm mật độ phân phối gồm 3 hàm gauss 43
H nh 13 ì Mô hình MGHMM 3 trạng thái 44
H nh 14 ì Mô hình DNN trong hệ thống nhận dạng tiếng nói 53
H nh 15 ì Cấu trúc mô hình HMM-DNN 54
Hì nh 16 Giới thiệu sennone 54
H nh 17 ì Cấu trúc thư mục trong framework kaldi 56
H nh 18 ì Sai số nhận dạng với các điều kiện thử nghiệm khác nhau 65
H nh 19 ì Dữ liệu học có nhiễu được tạo ra từ dữ liệu học clean cộng với tín hiệu nhiễu thu âm được 67
H nh 20 ì Sai số nhận dạng của các mô hình khác nhau 69
Trang 88
DANH MỤC BẢNG
Bảng 1 Tỉ lệ lỗi từ (%) của hệ thống nhận dạng giọng nói sử dụng hai tính
năng đầu vào khác nhau với hai loại từ điển phát âm khác nhau 21
B ng 2 ả Tỉ lệ lỗi từ (%) của hệ thống nhận dạng giọng nói sửa dụng các mô hình âm thanh GMM và DNN mà không có và có tăng cường dữ liệu 22
B ng 3 ả Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (wer %) 59
B ng 4 ả Kết quả thử nghiệm sự ảnh hưởng của cách nói (wer %) 61
B ng 5 ả Perplexity cho bởi 2 mô hình ngôn ngữ với 3 tập dữ liệu text khác
Trang 99
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
HMM Hidden markov model Mô h nh markov n ì ẩ
DNN Deep Neural Network M ng nơron ọ h c sâu
MGHMM Mixture of Gaussian Hidden
Markov Models
Mô hình Markov ẩn hp Gauss
MFCC Mel Frequency Cepstral
F0 Fundamental frequency T n s ố cơ b n
LVSCR Vietnamese large vocabulary
continuous speech recognition
Nhn dng hệ thống từ vng ln
ting việt
Trang 10cơ sở h tng để các ngành khác phát triển Từ nhu cu đ đ thúc đẩy những nghiên cu trong đề tài này
Lịch sử nghiên cứu
Trên th gii giao tip người máy là một lĩnh vc nghiên cu rất kh , nhưng li đưc ng dụng thc tiễn rất nhiều Ting ni là một phương tiện giao tip t nhiên nhất ca con người vi con người nên quá trình nghiên cu để máy tính hiểu đưc ngôn ngữ cũng đ bắt đu cách đây 70 năm Những n lc giai đon ban đu ch tp trung khai thác phổ ca tín hiệu âm thanh vì thời đ máy tính còn khá hn ch về kh năng x lý
Trong những năm đu 1960, điểm đáng ghi nhn nhất là ý tưởng ca tác gi người Nga, Vintsyuk khi ông đề xuất phương pháp nhn dng ting ni da , trên thut toán quy hoch động theo thời gian Đáng tic là mi đn năm 1980, phương pháp này mi đưc th gii bit đn Cuối những năm 1970, nghiên cu
về nhn dng ting ni đ bưc đu thu đưc kt qu khích lệ, làm nền tng cho những phát triển sau này Trưc tiên là bài toán nhn dng từ rời rc đưc gii quyt da trên ý tưởng ca các nhà khoa học người Nga và Nht Tri qua hơn
70 năm nghiên cu thì các mô hình đưc đề xuất để nhn dng ting ni liên tục đưc th nghiệm và đánh giá thì mô hình HMM là cho kt qu tích cc nhất, nhưng để đưa vào ng dụng trong thc t trong các hệ thống ln thì còn rất hn ch vì ở ngoài thc t thì c rất nhiều nhiễu và các ngữ điệu, giọng ni các vùng
Trang 1111
miền khác nhau Nhất là trong ting Việt thì càng kh áp dụng vì là ngôn ngữ c
âm sắc và nhiều phương ngữ Nhưng thời gian gn đây nhờ s tin bộ ca k thut học sâu nên giúp chúng ta tăng kt qu nhn dng lên đáng kể Điển hình là trong lun văn này chúng ta áp dụng mô hình lai HMM/DNN thì kt qu nhn đưc rất kh quan Đây là tiền đề cho phép c thể triển khai, áp dụng hệ thống nhn dng ting ni ting Việt trong tổng đài chăm sc khách hàng t động
Mục đích của luận văn
Nghiên cu thit k mô hình nhn dng ting ni ting Việt trong lĩnh vc hẹp là chăm sc khách hàng, sao cho hệ thống nhn dng làm việc ổn đnh và chính xác vi môi trường thc t nhiều nhiễu và ting n, đa dng các giọng từ
độ tuổi đn vùng miền khác nhau trên c nưc
Tóm tắt luận văn
Trong lun văn này sẽ gii thiệu tổng quan về nhn dng ting ni và những thành phn cơ bn trong nhn dng ting ni phát âm liên tục Và ng dụng ca nhn dng ting ni trong bưc đu đưa vào hệ thống chăm sc khách hàng trong
ng dụng phân loi cuộc gọi để đánh giá chất lưng dch vụ Ngoài ra lun văn cũng tp trung vào nghiên cu các gii pháp để ci thiện chất lưng nhn dng ting việt từ đ nêu ra các đề xuất và đng gp ca lun văn này:
Đu tiên lun văn này nghiên cu đề xuất bộ âm v cơ bn ting Việt bao , gm 47 âm v và đưa ra gii pháp to từ điển t động để tối ưu ha quá trình đưa thông tin thanh điệu vào âm v Gii pháp này không làm bùng nổ lưng âm v và đem li hiệu qu đáng kể, thay vì ch bổ sung thông tin thanh điệu ở âm chính
Th hai, lun văn nghiên cu những yu tố nh hưởng đn chất lưng ca
hệ thống nhn dng như kênh truyền 3G, 4G, sng điện thoi, nhiễu, cách người ni và đưa ra các gii pháp giúp hệ thống ổn đnh và tăng độ chính xác ca hệ thống trong môi trường thc t triển khai sn phẩm chăm sc khách hàng
Th ba, lun văn nghiên cu tp trung nâng cao chất lưng mô hình âm học da trên việc ci thiện mô hình âm học truyền thống HMM/GMM bằng cách s dụng các mô hình c kh năng phân lp mnh là mng nơron sâu Đ là mô
Trang 1212 hình mng li ghép HMM/DNN, n s dụng đu ra ca mng nơron thay cho xác suất phát x ca mô hình HMM
Trang 13Tổng đài Viettel là nơi chuyên cung cấp thông tin, gii đáp các thắc mắc
và h tr khách hàng s dụng dch vụ ca Viettel Khi khách hàng gọi đn tổng đài Viettel dù dùng nội mng hay ngoi mng cũng đều đưc miễn phí tất c các cuộc gọi nên chi phí duy trì là rất ln
Các kênh h tr Viettel:
Kênh Tổng đài
Viettel chia ra làm các nhm ngành dch vụ riêng biệt và c các tổng đài tương ng Ví dụ, tổng đài 18008098 là tổng đài tư vấn và gii đáp thông tin dch
vụ không dây như di động, HomePhone, Dcom Tổng đài 18008119 là tổng đài
tư vấn, báo hỏng và h tr khách hàng s dụng các dch vụ cố đnh (điện thoi cố đnh), truyền hình, internet c dây (ADSL, FTTH) Tổng đài 18008000 là tổng đài Gii đáp các thắc mắc dành cho doanh nghiệp, trường học, h tr thông tin dch vụ kênh Leasedline, Office wan, dch vụ qun- lý phn mềm, qun lý phương tiện vn ti, chữ ký số, …Dch vụ h tr Viettel Telecom chuyên nghiệp là 1800
8168 Tất c đề là tổng đài miễn phu í
Vi 5 tổng đài Chăm sc khách hàng đặt ti các tnh/thành phố trên khắp c nưc bao gm Hà Nội, H Chí Minh, Đà Nẵng, Hi Phòng, Thái Nguyên, đn nay Viettel c mng lưi chăm sc khách hàng ln nhất trên c nưc Cùng vi đội ngũ nhân viên phi qua đào to để chuyên nghiệp, đào to bài bn, tổng đài Viettel vn ch đ kh năng tip nhn đn 5 triệu cuộc gọi/ngày Nhưng vi số lưng các dch vụ và sn phẩm, khách hàng c các th trường trong và ngoài nưc thì chi phí để vn hành và duy trì càng ngày càng cao và kh kiểm soát chất lưng
Trang 1414
Kênh hỗ trợ khác ngoài kênh tổng đài
Để phục vụ khách hàng tốt nhất, Viettel mở rộng các kênh tương tác ngoài kênh tổng đài giúp khách hàng thun tiện hơn khi dùng dch vụ: Kênh ng dụng
My Viettel, web portal Đ là các sn phẩm giúp người dùng c thể tra cu các ây thông tin về dch vụ như chi tit các gi cưc, chương trình khuyn mi, các dch
vụ giá tr gia tăng, mobile internet, 3G, 4G… ca Viettel, h tr khách hàng tra cu m PIN/PUK, thông tin thẻ cào, thanh toán cưc, mua data, báo li dch vụ, chuyển tiền
Kết luận tình hình thực tế
Như đ phân tích ở trên chi phí cho việc chăm sc khách hàng hiện đang rất tốn kém, vì vy nhu cu t động ha và hiện đi ha để cắt gim chi phí là rất cao và cấp bách Từ nhu cu đ, Viettel đ đu tư nghiên cu các ng dụng hệ thống nhn dng ting ni ting việt để c thể đưa các tin bộ ca công nghệ thông tin vào nâng cao chất lưng dch vụ chăm sc khách hàng, và dn dn từng bưc t động ha Vì ting ni là tín hiệu rất kh x lý trc tip hay áp dụng khoa học công nghệ vào x lý nên việc chúng ta chuyển đưc ting ni thành câu là rất hữu ích vì các hệ thống x lý dữ liệu ln, và tr lời t động hiện ti mi ch làm việc đưc trên dữ liệu văn bn
1.1.2 Giới thiệu về hệ thống hỗ trợ chăm sóc khách hàng sơ khai ban đầu
xây dựng
1.1.2.1 Mục đích của việc xây dựng hệ thống
Khái niệm về hệ thống nhận dạng tiếng nói
Nhn dng ting ni miêu t quá trình bin đổi tín hiệu âm thanh thành đon văn bn gm chui các từ c nội dung tương ng Thông thường tín hiệu
âm thanh này đưc ghi âm bởi microphone và đưc chuyển đổi thành tín hiện ở dng file wav Tín hiện này sẽ là đu vào ca hệ thống nhn dng và hệ thống này
cố gắng tìm ra đon văn bn đúng nhất c thể những gì người đọc ni ra
Trang 1515
Tình hình ứng dụng của nhận dạng tiếng nói
Ngày nay nhn dng ting ni đưc ng dụng trong nhiều lĩnh vc chinh.Trong nhà thông minh, kể từ khi tr lý o Siri xuất hiện ln đu trên iphone 4s, chc năng điều khiển bằng giọng ni đ đưc quan tâm hơn và nhiều công cụ thc hiện chc năng này cũng liên tip ra đời, như Google assistant, Cortana ca Windows,… Hiện nay đ c một số gii pháp nhà thông minh trên th gii đ đưc áp dụng thành công tính năng điều khiển bằng giọng ni như Home Automation Inc, BK Smart Home, Control4
Trong giáo dục, nhn dng ting ni cũng c một số ng dụng h tr người
học khá tốt như học ngoi ngữ, giúp người khim thính và người không c kh năng đánh máy tính Đối tưng học ngoi ngữ, nhn dng ting ni c thể giúp người học luyện phát âm và phát triển k năng ni ca họ
Trong viễn thông, nhờ công nghệ nhn dng ting ni hệ thống tr lời t
động mà còn c thể nhn tín hiệu ting ni để xác đnh yêu cu ca khách hàng, Ngoài ra, việc tốc độ x lý ca các thit b di động thông minh đưc ci thiện Và như trong lun văn này chúng ta sẽ giúp đưa ra những đon văn bn ca người gọi lên tổng đài để đưa vào hệ thống phân tích và x lý ra yêu cu ca khách hàng ri đưa ra các kênh phn hi khách hàng
Trong một số lịch vực khác, c một số ng dụng khá hữu ích c thể đưc
kể đn như việc to phụ đề phim t động, phiên dch t động… Trong ng dụng to phụ đề t động n giúp nội dung tip cn đn nhiều người và c những người khi thính, và các đối tưng ca các quốc gia khác nhau Hệ thống phiên dch m t động, nhn dng ting ni giúp xa bỏ rào cn ngôn ngữ
Đánh giá chất lượng hệ thống nhận dạng tiếng nói
Thông thường các hệ thống nhn dng ting ni đưc đánh giá độ hiệu qu thông qua t lệ li từ (WER – Word Error Rate) và độ chính xác các câu (SER –Sentence Error Rate) Mục đích là để đo độ khác biệt giữa chui văn bn to ra bởi hệ thống nhn dng và chui văn bn tham chiu to ra bởi con người, c thể
Trang 1616
khác nhau về nội dung ln độ dài Do đ t lệ li từ xác đnh thông qua các li từ b thay th, li chèn thêm từ, và li từ b xa bỏ ca đu ra hệ thống nhn dng so vi văn bn tham chiu
Dưi đây là các vấn đề thc t ca triển khai bài toán nhn dng ting ni cho tổng đài chăm sc khách hàng Viettel Trong giai đon đu nghiên cu để chng minh tính kh thi ca việc ng dụng công nghệ nhn dng ting ni vào hệ thống chăm sc khách hàng t động ở Viettel, tôi c làm một hệ thống đơn gin thể hiện tính kh thi ca mô hình nhn dng ting ni trong chăm sc khách hàng, đ là mô hình phân loi các cuộc gọi đn tổng đài chăm sc khách hàng Viettel, giúp đưa ra đánh giá chất lưng dch vụ
Qua những n lc ban đu này tôi đ c đưc một chút kinh nghiệm và kin thc để xây dng hệ thống nhn dng ting ni ting việt trong lĩnh vc hẹp
tố quyt đnh s thành công nên tôi thu thp dữ liệu từ rất nhiều ngun c nhiễu thc t, các cuộc điện thoi nhờ vào s giúp đỡ ca nhiều bên và cũng t thu thp các dữ liệu thô về x lý Vì vy việc x lý dữ liệu và phân loi rất tốn kém về mặt thời gian và tiền bc
Mục tiêu của chúng ta là xây dng hệ thống nhn dng ting ni ting
việt c thể làm việc ổn đnh trong môi trường thc t vi độ chính xác trên 90%
để áp dụng vào tổng đài chăm sc khách hàng t động Đây là một nhiệm vụ rất quan trọng vi một doanh nghiệp c lưng người dùng ln Ví dụ, ch ở th trường
Trang 1717
Việt Nam, các tổng đài chăm sc khách hàng đ nhn đưc 500,000 cuộc gọi mi ngày nên nhu cu t động ha là rất cao Để xây dng hệ thống nhn dng chúng
ta cn thu thp rất nhiều dữ liệu Ở giai đon đu , tôi thu đưc 85,8 giờ dữ liệu
âm thanh từ các tổng đài điện thoi chăm sc khách hàng à các tài liệu văn bn vca các dữ liệu âm thanh từ 400 nhân viên tổng đài và đi lý chăm sc khách hàng Tôi đ áp dụng rất nhiều k thut mi như là làm trễ thời gian bằng mng nơron (Time delay neural network) vi dữ liệu liên tục (sequence training), tăng cường dữ liệu bằng cách thay đổi tốc độ (data augmentation) … Cuối cù, ng tôi nhn đưc 17,44% t lệ từ li (word error rate) cho hệ thống đu tiên Vi t lệ li này thì hệ thống chưa thể đưa vào để xây dng hệ thống chăm sc khách hàng t động nên chúng ta sẽ phi nghiên cu và tìm ra gii pháp ci tin hệ thống nhn dng để c thể áp dụng vào bài toán thc tiễn
1.1.3.1 Kiến trúc hệ thống
Tôi xây dng một hệ thống nhn dng ting ni ting việt để phân loi các cuộc gọi đn tổng đài chăm sc khách hàng là tiền đề để xây dng cho tổng đài chăm sc khách hàng t động
Trang 1818
Các thành phn ca hệ thống:
Xác định khoảng im lặng (Voice activity detection): Trong trung tâm cuộc gọi ca Viettel, kênh đi lý và kênh khách hàng đưc ghi li riêng Do đ, c rất nhiều khong im lặng trong mi kênh âm thanh và họ cn phi đưc chia thành các đon ngắn giống như câu Để phát hiện hot động thoi và phân đon
âm thanh, tôi s dụng 10 giờ dữ liệu để đào to mô hình VAD Sau đ, mô hình này đưc s dụng để căn chnh âm thanh Sau đ âm thanh đưc phân đon và đưc to ra bằng cách cắt âm v không lời ni liền kề (ting n và im lặng) nhiều hơn ngưỡng thời gian (1 giây) trong đu ra căn chnh
Tăng cường dữ liệu bằng cách thay đổi độ tốc độ của dữ liệu âm thanh
(Data Augmentation): Để xây dng một mô hình âm thanh hp lý, cn hàng trăm đn hàng nghìn giờ âm thanh Tuy nhiên, để đt đưc dữ liệu âm thanh đưc phiên âm rất tốn kém Để khắc phục điều này, nhiều k thut đ đưc đề xuất như học bán giám sát, lp mô hình da trên mô hình mu, thu thp dữ liệu từ ngun khác Trong lun văn này, tôi s dụng một phương pháp đơn gin gọi là tăng cường dữ liệu Đ là một chin lưc chung đưc áp dụng để tăng số lưng dữ liệu overfitting và ci thiện độ bền ca mô hình so vi các điều kiện th nghiệm khác nhau Trong nghiên cu này, tôi tăng kích thưc dữ liệu đào to bằng cách s dụng k thut tăng cường dữ liệu đưc gọi là nhiễu lon tốc độ âm thanh Tốc
độ nhiễu lon to ra tín hiệu thời gian b bin dng, ví dụ, vi tín hiệu dng sng phát âm x(t), thời gian cong vênh bởi hệ số α sẽ to ra tín hiệu x (αt) Trong nghiên cu này, chúng ta s dụng ba giá tr khác nhau ca α tc là 0.9,1.0,: l 1.1
Chiết xuất dữ liệu: Chúng ta s dụng phương pháp MFCC tăng cường dữ
liệu vi đặc trưng âm thanh pitch (F0: đặc trưng cho cao độ)
Mô hình âm thanh: Mô hình hn hp Gauss vi đào to thích ng SAT) và mng nơron học sâu c độ trễ theo thời gian (TDNN) vi đào to chui liên tục
(GMM-Từ điển phát âm: Ting Việt là một ngôn ngữ âm sắc đơn âm Mi âm tit
ting Việt c thể đưc coi là một s kt hp ca các thành phn ban đu, cuối
Trang 1919
cùng và giai điệu Do đ, từ điển phát âm (từ điển) cn phi đưc mô hình ha bằng các âm ôi s dụng 47 âm v cơ bn Các dấu âm đưc tích hp vào âm v Tcuối cùng ca âm tit để xây dng từ điển phát âm cho 6000 âm tit ting Việt phổ bin Để xây dng từ điển cho các từ nưc ngoài và k thut, tôi chọn 5000
từ nưc ngoài phổ bin từ các trang web cùng vi 500 từ trong lĩnh vc dch vụ chăm sc khách hàng Những từ này sau đ đưc phiên âm một cách th công trong cách phát âm ting Việt Để to phiên âm các từ chưa bit trong dữ liệu huấn luyện, chúng ta s dụng chuyển đổi grapheme- -to phoneme (G2P) bằng cách s dụng bộ công cụ m ngun mở Sequitur G2P để to phiên âm cho 5000 từ nưc ngoài Kt qu là, tổng số từ trong từ điển ca tôi là khong 12000 từ Từ điển này đưc s dụng để huấn luyện cũng như gii m
Mô hình ngôn ngữ: Mô hình ngôn ngữ 4 gram vi tính năng làm mn Kneser-Ney đưc s dụng sau khi khám phá các cấu hình khác nhau ôi cũng T
-cố gắng mở rộng phn văn bn bằng cách s dụng các ngun văn bn khác nhau như từ văn bn web hoặc chú thích trong phim, tuy nhiên độ chính xác khá thấp Một lý do c thể là các ngun văn bn này quá khác vi miền dch vụ khách hàng
Phân loại văn bản: Sau khi gii m, đu ra nhn dng đưc s dụng để
phân loi văn bn để phân loi các cuộc gọi điện thoi thành các nhm khác nhau như báo cáo li, dch vụ tư vấn Trong nghiên cu sơ bộ này, chúng ta ch đơn gin là phân loi các cuộc gọi điện thoi da trên danh sách từ kha Cụ thể, mi nhm c một danh sách các từ kha đưc xác đnh bởi bộ phn dch vụ chăm sc khách hàng Sau khi gii m, trình tìm kim từ kha sẽ tìm các từ kha ở đu ra gii m Mi từ kha ch đưc gán một điểm số bằng nhau Cuộc gọi điện thoi
sẽ đưc phân loi vào nhm c số điểm cao nhất
1.1.3.2 Miêu tả tập dữ liệu
Trong th nghiệm đu tiên này, ngun thu thp dữ liệu là từ các cuộc điện thoi ca tổng đài chăm sc khách hàng ca Viettel chim ch yu Tn số lấy mu là 8kHz, vi độ phân gii là 8 bits/sample Trong tp dữ liệu, chúng ta thu
Trang 2020
thp từ 50 đi lý vi 23,932 cuộc gọi điện Dữ liệu ca chúng ta thu thp từ hai kênh là từ đi lý chăm sc khách hàng và kênh người dùng gọi lên tổng đài tổng cộng đưc 85,8 giờ Nhưng trong ngun dữ liệu thì c rất nhiều ting n, các giọng vùng miền khác nhau như 60% là người miền Bắc (vì các tổng đài chúng
ta thu thp dữ liệu chim đa số là tổng đài miền Bắc), 30% miền Trung và 10% miền Nam, độ tuổi trung bình những khách hàng gọi lên tổng đài chăm sc khách hàng là từ 16 tuổi đn 30 tuổi và nhiễu môi trường phi gán nhn n như là ting v tay hoặc các khong im lặng trong các dữ liệu âm thanh
1.1.3.3 Thử nghiệm
Thiết lập thử nghiệm
Đu tiên chúng ta xác đnh dữ liệu huấn luyện và các bộ dữ liệu kiểm tra
từ kho văn bn Chúng ta trích xuất 19.672 cuộc gọi từ 43 đi lý để thành lp bộ huấn luyện Thời gian huấn luyện là 70 giờ vi 125,337 phân đon Các thit lp còn li bao gm 4.260 cuộc gọi điện thoi từ 7 đi lý đưc s dụng cho các bộ th nghiệm Thời gian thit lp th nghiệm là 15,8 giờ vi 28.488 phân đon Vi thit lp này, không c người ni chng chéo giữa bộ dữ liệu huấn luyện và các
bộ dữ liệu th nghiệm Bộ công cụ nhn dng ting ni ca Kaldi đưc s dụng
để xây dng nhn dng ting ni Bộ công cụ SRILM đưc s dụng để xây dng
mô hình ngôn ngữ Hiệu suất ca tất c các hệ thống đưc đánh giá theo lệ li t
từ (WEB)
Tôi đánh giá độ chính xác ca hệ thống khi MFCC đưc tăng cường vi đặc trưng cao độ Pitch Không khí đi qua thanh qun làm thanh qun rung lên S rung động này vi một t lệ nào đ cũng đưc gọi là tn số cơ bn – f0 Tn số cơ bn phụ thuộc vào kích cỡ và áp lc ca thanh qun Tn số cơ bn liên quan đn
âm thanh về cao độ và n c thể đưc ưc lưng chính xác từ tín hiệu âm thanh
Độ cao hay độ trm bổng ca âm thanh chính là tn số sng cơ học ca âm thanh
Âm thanh nào cũng phát ra ở một độ cao nhất đnh Độ cao ca âm thanh phụ thuộc vào tn số dao động Đối vi ting ni, tn số dao động ca dâythanh qun
Trang 2121
quy đnh độ cao giọng ni ca con người Mi người c một cao độ giọng ni khác nhau, độ cao ca nữ gii thường cao hơn nam gii và độ cao ca trẻ em thường cao hơn ca người ln Cao độ Pitch do đ là đi lưng lệ nghch vi t tn số cơ bn F0 Pitch là thuộc tính cơ bn ca ting ni Tai người nhy cm vi s thay đổi tn số cơ bn
Như đưc hiển th trong Bảng 1 s dụng hệ thống vi dữ liệu tăng cường đặc trưng cao độ itch gim lệ li từ đáng kể (WER) (từ 37,38% đn 31,15%) P t
Kết luận 1: Vy trong khi xây dng hệ thống nhn dng cho lĩnh vc hẹp
là tổng đài chăm sc khách hàng chúng ta sẽ s dụng MFCC tăng cường vi đặc trưng pitch
năng đầu vào khác nhau với hai loại từ điển phát âm khác nhau
Feature №n tonal dictionary (%) – Tonal dictionary (%)
: №n
Từ điển phát âm – tonal dictionary là tất c các các từ đưc phát
âm là một chui các âm v không c thông tin thanh điệu Ting Việt là một ngôn ngữ hữu âm c thanh điệu, do đ rõ ràng s dụng tonal dictionary âm là một la chọn thích hp Khi so sánh kt qu ca Bng 1, chúng ta thấy rằng việc s dụng tonal dictionary c thể ci thiện đáng kể hiệu suất nhn dng Khi thêm đặc trưng pitch, tôi ch nhn đưc ci thiện 0,65% bằng cách s dụng tonal dictionary Ngưc li, khi MFCC đưc tăng cường vi đặc tính pitch, s ci thiện bằng cách s dụng tonal dictionary là ln hơn đáng kể (2,16%) N cho thấy rằng bằng cách s dụng tonal dictionary đặc biệt ci thiện t lệ li khi tính năng đu vào đưc tăng cường vi đặc trưng pitch
Trang 2222
Kết luận 2: Trong hệ thống nhn dng ting việt, từ điển phát âm là một trong những thành phn quan trọng, nh hưởng rất ln đn chất lưng nhn dng,
là ngôn ngữ c 6 thanh điệu việc tích hp thông tin thanh điệu vào từ điển phát
âm không phi là việc dễ dàng, nu không nghiên cu k lưỡng về ngữ âm ting Việt thì hệ thống sẽ cho chất lưng nhn dng không như mong muốn Trong phn 3 ca lun văn chúng ta sẽ đi sau vào gii pháp xây dng từ điển phát âm c tích hp thông tin thanh điện (tonal dictionary) cho nhn dng ting Việt Ngoài ra trong lĩnh vc hẹp là chăm sc khách hàng thì c rất nhiều từ vay mưn
Mô hình âm học: Trong các thí nghiệm trưc đây, mô hình âm học GMM
vi cách huấn luyện thích nghi (SAT) đ đưc s dụng Ưu điểm ca DNN đối vi GMM đối vi mô hình ha âm thanh đ đưc nhiều nhà nghiên cu chng minh Trong giai đon đu này, tôi s dụng một bin thể ca DNN gọi là mng nơron trễ thời gian (TDNN) đưc đề xuất gn đây Đu tiên tôi s dụng TDNN vi tiêu chuẩn huấn luyện cross-entropy da trên frame based (TDNN1) C thể -thấy rằng WER gim đáng kể (từ 28,99% xuống còn 20,20%) bằng cách s dụng TDNN cho mô hình ha âm thanh Sau đ TDNN vi đào to chui (TDNN2) đưc áp dụng da trên một state level thay đổi ca Minimum phone error (MPE),-đưc gọi là sMBR Bằng cách s dụng đào to chui, chúng ta đt đưc ci thiện thêm khong 2% Vi nhiều sMBR lặp đi lặp li, đt đưc t lệ li thấp hơn WER dường như bo hòa sau 4 ln lặp đây là hiện tưng nút thắt cổ chai trong phương pháp này, do thời gian ca lun văn không đ nên ở giai đon tip theo tôi sẽ nghiên cu ci thiện bằng một mô hình học sâu c số lưng lp ẩn phù hp còn
ở lun văn này tôi tp trung vào mô hình lai HMM/DNN
hnh âm thanh GMM và DNN mà không có và có tăng cường dữ liệu
Acoustic model w/o data augmentation with data
augmentation
Trang 23Iteration 1 18.34 17.41 Iteration 2 18.19 17.44 Iteration 3 18.06 17.31 Iteration 4 18.04 17.28
Kết luận 3: Việc s dụng phương pháp học sâu giúp tăng đáng kể kt qu
nhn dng Chúng ta cn tìm ra một mô hình học sâu tốt hơn để nâng cao chất lưng nhn dng, trong phn 3 ca lun văn chúng ta sẽ phân tích mô hình lai ghép HMM/DNN Gii pháp này s dụng đu ra ca mng nơron thay cho xác suất phát x ca mô hình HMM
- Tăng cường dữ liệu: Để tăng kích thưc dữ liệu đào to, tôi áp dụng k
thut tăng cường dữ liệu đưc gọi là nhiễu lon tốc độ âm thanh Trong nghiên cu này, ba phiên bn ca tín hiệu ting ni gốc, x(t) đưc to ra tc là, x (0.9t),
x (t), x (1.1t) Sau đ, tính năng trích xuất đưc áp dụng trên tín hiệu lời ni mi
để đào to mô hình âm thanh theo cách thông thường
Cột cuối cùng ca Bng 2 cho thấy WER% ca các mô hình âm thanh khác nhau sau khi áp dụng tăng thêm dữ liệu
Kt lun 4: Rõ ràng là s dụng tăng cường dữ liệu luôn làm gim WER từ 1,75% xuống 1,07% cho các mô hình âm học khác nhau
Trang 24+ Giọng ni khách hàng đôi khi không chuẩn, nhp nhằng, nhiều từ vng, phát âm sai
+ Phi nhn dng đưc nhiều từ đặc thù trong lĩnh vc tổng đài bao gm nhiều từ kh phát âm và từ nưc ngoài
+ Các cuộc gọi thường đưc thc hiện ở môi trường nhiều nhiễu và ting
n
1.2.2 Yêu c u c a hầ ủ ệ th ng nh n d ng ti ng nói ố ậ ạ ế
+ Nhn dng tốt các từ, câu trong bài toán hẹp chăm sc khách hàng, nhất
là trong điều kiện thc t thì khách hàng gọi lên tổng đài chăm sc đa phn là ở ngoài môi trường c ting n cao như ngoài đường, trong văn phòng, trong các nhà máy, và đi kèm rất nhiều giọng phương ngữ ở các vùng miền khác nhau, cùng từ ngữ chuyên môn trong lĩnh vc viễn thông, thì mục tiêu độ chính xác cao là rất kh khăn
+ Đm bo yu tố về đáp ng thời gian nhn dng trong hệ thống: Yu tố này gắn liền vi hệ thống cơ sở h tng, dù hệ thống nhn dng c tốt đn mấy
mà cơ sở h tng đáp ng chm thì chất lưng chăm sc khách hàng cũng vn rất thấp, đây là thách thc cho riển khai hệ thống ở ngoài thc t.t
Trang 26Gii thích ý nghĩa khái quát các module:
Trích xuất đặc trưng: Phân tích tín hiệu ting ni thành các vector để
máy x lý đưc Trong quá trình trích chọn đặc trưng, tín hiệu âm thanh đưc cắt thành các khung theo thời gian để x lý và trích chọn ra đặc trưng quan
trọng dưi dng chui vector X Mục đích ca hệ thống nhn dng sau đ sẽ xác đnh chui văn bn W đúng nhất vi vector đặc trưng X
Mô hình âm học: mô hình ha các âm v bằng các chui trng thái để ưc
lưng xác suất P(X|W) ca vector đu vào X khi bit văn bn đu ra W
Từ điển: tp hp các cách phát âm ca các từ cn nhn dng Cung cấp
cách phát âm cho các từ tìm thấy trong mô hình ngôn ngữ
Mô hình ngôn ngữ: mô hình ha kh năng xuất hiện ca các từ, quyt
đnh chui từ đu ra Cụ thể mô hình ngôn ngữ cho bit xác suất ca một câu hoặc một cụm từ thuộc một ngôn ngữ
T nừ điể
B i mãộ giả
Trích chọn đặc trưng
Mô hình âm h cọ
Cụm từ nhận dạng được
Mô hình ngôn ngữ
Trang 27[2.1] Th nhưng số lưng các ve tor quan sát trong tp huấn luyện là vô cùng ln nên cviệc tính trc tip theo công thc trên là không thể, trừ khi c s gii hn về số người ni hoặc độ dài ca âm thanh đu vào.
Vì vy để đơn gin cho tính toán ta c công thc Bayes:
[2.2] Trong đ:
p(W): Đưc tính từ mô hình ngôn ngữ, là kh năng phát sinh ra chui từ
W
P(O|W): Đưc tính từ mô hình âm học, là kh năng chuối vector O đưc sinh ra khi chui từ W đ đưc phát ra
P(O): Coi như là một hằng số và không đổi vi mọi người ni nên c thể
bỏ qua vì không nh hưởng đn kt qu Do vy, công thc mi để tìm ra chui
từ tốt nhất:
2.2 Phương pháp trích xuất đặc trưng MFCC
Tín hiệu âm thanh ngoài đời thc là tín hiệu liên tục, hay tín hiệu tương t trưc khi thc hiện bất c bưc x lý nào, tín hiệu âm thanh cn đưc số ha Việc này đưc thc hiện t động bởi các thit b thu âm, bằng cách lấy mu tín
Trang 2828
hiệu đu vào Như vy, một tín hiệu âm thanh bất kỳ khi đ đưc đưa vào máy tính, là một tp các mu liên tip nhau, mi mu là giá tr biên độ ca tín hiệu ti một thời điểm nhất đnh Một tham số quan trọng trong việc lấy mu tín hiệu âm thanh là tn số lấy mu, Fs, tc là số mu đưc lấy trong một giây Để c thể đo lường chính xác, cn phi lấy ít nhất 2 mu trong một chu kỳ ca tín hiệu tương t đu vào Như vy, tn số lấy mu phi ln hơn 2 ln tn số cao nhất ca tín hiệu âm thanh đu vào
Trích chọn đặc trưng đối vi nhn dng ting ni là việc tham số ha chui tín hiệu âm thanh dng sống đu vào, bin đổi tín hiệu âm thanh thành một chui các vector đặc trưng n chiều, mi chiều là một giá tr thc Hiện nay, c rất nhiều phương pháp trích chọn đặc trưng như: LPC (Linear predictive coding – D đoán tuyn tính), AMDF (Average magnitude different function – hàm biên độ trung bình), MFCC (Mel-frequency cepstral coefficients)
Trong bài toán nhn dng ting ni đang xét, vi tn số lấy mu mặc đnh 16.000Hz, một đon mu vi một số lưng nhất đnh to thành một frame, như vy tín hiệu ting ni là tp các frame liên tip nhau, trích chọn đặc trưng MFCC cho ta tp đặc trưng cho mi frame ting ni này Ti sao phi chia thành các frame và các frame cụ thể chúng c đặc trưng th nào, ta sẽ đề cp ti ở ngay phn sau đây
- Các khâu chính trong trích xuất đặc trưng
+ Tiền x lý
+ Ca sổ ha
+ Bin đổi DFT
Trang 29kể (nghe c thể dễ dàng nhn ra) ca ting ni khi thu âm, bưc đu tiên ca quá trình trích chọn đặc trưng MFCC sẽ x lý vấn đề này, bằng việc thc hiện tăng cường độ ca những tn số cao lên nhằm làm tăng năng lưng ở vùng c tn số cao – vùng tn số ca ting ni, một cách dễ hiểu là làm ting ni ln hơn lên để
nh hưởng ca các âm thanh môi trường và nhiễu trở thành không đáng kể Việc tăng cường độ ca vùng tn số cao lên đng thời làm cho thông tin rõ ràng hơn đối vi mu ting ni Hình 4 mô t trưc và sau quá trình Pre emphasis ca một -đon tín hiệu âm thanh:
2.2.2 C a s hóa ử ổ
Trong hệ thống nhn dng ting ni đưc trình bày ở đ án này, vi mục đích nâng cao độ chính xác ca việc nhn dng ting, thay vì nhn dng từng từ riêng biệt, mi một từ trong đon thoi sẽ đưc phân tích thành các âm v
Trang 3030
(subunit) và hệ thống sẽ nhn dng từng âm v Âm v ở đây là đơn v phát âm ca một từ, các âm v cấu thành ting ni, trong ting Pháp, n là đơn v cấu thành phiên âm ca từ (chẳng hn NIDS: n i, âm v ở đây là /n/ và /i/)-
Vì lý do đ, các đặc trưng cn phi đưc trích chọn trên từng âm v, thay
vì c từ hay c đon ting ni dài Ca sổ ha là việc cắt đon tín hiệu âm thanh đu vào ra thành các mu tín hiệu c thời lưng nhỏ, gọi là các frame Mi frame này sau đ sẽ đưc nhn dng n thuộc âm v nào Một lý do khác cho thấy s cn thit ca việc ca sổ ha là vì tín hiệu âm thanh thay đổi rất nhanh, do đ các thuộc tính như biên độ, chu kỳ sẽ không ổn đnh Khi tín hiệu âm thanh đưc cắt
ra thành những đon nhỏ thì ở mi đon, c thể coi tín hiệu đ là ổn đnh, các đặc trưng ca tín hiệu là không đổi theo thời gian
Để thc hiện việc này, chúng ta s dụng một ca sổ (window) chy dọc tín hiệu âm thanh và cắt ra các đon tín hiệu nằm trong ca sổ đ Một ca sổ đưc đnh nghĩa bằng các thông số:
+ Frame size: độ rộng ca ca sổ, cũng là độ ln ca frame tín hiệu sẽ đưc cắt ra
Trang 3131
+ Frame shift: bưc nhy ca ca sổ, là độ dài đon mà ca sổ sẽ trưt để
cắt ra frame tip theo
Mi frame sau đ sẽ đưc nhân vi một hệ số, giá tr ca hệ số này tùy thuộc vào
từng loi ca sổ
[2.4]
Trong đ:
+ x n[ ] là giá tr ca mu th n
+ y n[ ] là giá tr ca mu th n sau khi nhân vi hệ số
+ w n[ ] là hệ số cho mu th n trong frame đ
Loi ca sổ đơn gin nhất là ca sổ Rectangular, giá tr ca các hệ số w n[ ]
đưc cho bởi công thc sau:
[2.5]
N là số mu trong một frame
Nói cách khác, ca sổ Rectangular vi bưc nhy là frame shift, ta lấy
frame size giá tr liên tip ca tín hiệu làm một frame
Một loi ca sổ khác thông dụng hơn trong trích chọn đặc trưng MFCC là
ca sổ Hamming Trong loi ca sổ này, giá tr ca tín hiệu sẽ gim dn về 0 khi
tin dn ra hai biên ca frame Ni cách khác, nu s dụng ca sổ Hamming để
lấy ra các frame, năng lưng ca mi frame sẽ tp trung ở giữa frame, một ưu
điểm nữa là các giá tr biên ca ca sổ Hamming tin dn về 0 sẽ làm bưc bin
đổi Fourier ngay sau trở nên dễ dàng hơn (vi ca sổ Rectangular các giá tr giữ
nguyên so vi mu ting ni, bên ngoài ca sổ nhn giá tr 0, các giá tr sẽ b tăng
đột ngột ở hai biên) Hệ thống nhn dng trong đ án này trình bày sẽ s dụng
ca sổ Hamming Biểu thc hệ số ca ca sổ này là:
[2.6]
Trang 32[2.7]
Trong đ x[n] là giá tr ca mu th n trong frame, X[k] là một số phc biểu diễn cường độ và pha ca một thành phn tn số trong tín hiệu gốc, N là số mu trong một frame Thông thường người ta s dụng bin đổi FFT (Fast Fourier transform) thay vì DFT Bin đổi FFT nhanh hơn nhiều so vi bin đổi DFT, tuy nhiên thut toán này đòi hỏi giá tr N phi là một lũy thừa ca 2
Hình7 mô t trưc và sau khi bin đổi DFT ca một ca sổ:
H nh Tác động của DFT tới cửa sổ 7
Trang 3333
2.2.4 B l c Mel ộ ọ
Kt qu ca quá trình bin đổi Fourier thể hiện năng lưng ca tín hiệu ở những di tn số khác nhau Tuy nhiên, tai ca người li không c s nhy cm như nhau đối vi mọi di tn số Do đ việc mô hình ha tính chất này ca tai người trong quá trình trích chọn đặc trưng làm tăng kh năng nhn dng ca hệ thống Trong mô hình trích chọn đặc trưng MFCC, tn số sẽ đưc chuyển sang thang đo tn số mel theo công thc:
fmel = 2595 x ln (1 + ) [2.8]
Trong đ f là tn số ở thang đo thường, fmel là tn số ở thang đo mel Người
ta s dụng các băng lọc để tính các hệ số mel S dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ số mel, và các hệ số mel này sẽ là đu vào cho quá trình tip theo ca trích chọn đặc trưng MFCC
Hình B8 iểu diễn mô hình các băng lọc trong thang đo tn số bình thường
và thang đo mel:
Trang 3434
2.2.5 Biến đổi DFT ngược
Bưc tip theo ca việc trích chọn đặc trưng MFCC là bin đổi fourier ngưc vi đu vào là các hệ số phổ mel ca bưc trưc, đu ra sẽ là các hệ số cepstrum (MFCC Mel Frequency Cepstrum Coefficients) –
Sau khi thc hiện bin đổi Fourier thì dy tín hiệu theo thời gian đ đưc chuyển thành phổ tn số, và việc áp dụng các băng lọc tn số mel giúp cô đọng phổ tn số về một số hệ số nhất đnh (bằng vi số băng lọc) Các hệ số này thể hiện các đặc trưng ca ngun âm thanh như tn số cơ bn, xung âm thanh… Tuy nhiên, các đặc trưng này không quan trọng đối vi việc phân biệt các âm khác nhau Thay vào đ, các đặc trưng về bộ máy phát âm (khoang miệng, khoang mũi, thanh qun, hu) rất cn thit cho việc nhn dng các âm Việc thc hiện bin đổi fourier ngưc sẽ giúp tách biệt các đặc trưng về ngun âm và bộ máy phát âm từ các hệ số (các đặc trưng về bộ máy phát âm là các hệ số đu tiên)
2.2.6 Trích xuất đặc tính
Từ các hệ số mel thu đưc từ quá trình trưc, thông thường chúng ta ch lấy ra 12 hệ số đu tiên để chọn làm đặc trưng 12 hệ số này ch đặc trưng cho các
bộ phn ca bộ máy phát âm Như vy chúng ta đ c 12 đặc trưng đu tiên
Đặc trưng th 13 là năng lưng ca âm Năng lưng ca mi khung tín hiệu đưc tính ngay từ sau bưc ca sổ ha:
Trang 35-35
delta giống vi công thc tính các đặc trưng delta, khi coi c(t) là giá tr ca các đặc trưng delta
2.2.7 T ng kổ ết
Trích chọn đặc trưng MFCC sẽ thu đưc các đặc trưng sau đây:
+ 12 giá tr đặc trưng phổ Mel đưc bin đổi Fourier ngưc
+ 12 giá tr delta phổ
+ 12 giá tr double delta phổ
+ 1 giá tr mc năng lưng
+ 1 giá tr delta mc năng lưng
+ 1 giá tr double delta mc năng lưng
Tổng cộng: 39 đặc trưng cho mi frame ting ni
2.3 Mô hình âm học
2.3.1 Mô hình Markov ẩn
Trong mô hình Markov, mi trng thái tương ng vi một s kiện quan sát đưc Vi cấu trúc này, mô hình Markov còn gặp nhiều hn ch trong việc gii quyt những vấn đề phc tp Mô hình Markov ẩn đưc phát triển từ mô hình Markov, mi trng thái c thể tương ng vi nhiều s kiện khác nhau và việc phát sinh ra s kiện phục thuộc vào hàm mt độ xác suất phát sinh ra s kiện ca trng thái
Trang 3636
Mô hình 9 có: {V1, V2, V3, …, Vn} là các s kiện quan sát đưc trong mi trng thái Tất c các trng thái đều c thể phát sinh ra các s kiện đ Kh năng phát sinh s kiện Vk trong trng thái Sjphụ thuộc và xác suất bo j(k) Hàm b gọi
là hàm mt độ xác suất ca các s kiện quan sát C nhiều hàm đưc sb dụng như hàm mt độ Gauss hoặc dùng mng neuron (hai hàm này đưc s dụng nhiều trong nhn dng ting ni)
Tổng quát ha mô hình Markov ẩn ta c các thông số đưc đnh nghĩa như sau:
- N là số lưng trng thái Ta ký hiệu các trng thái là S = {S1, S2, S3, …,
Sn} và trng thái đt đưc ti thời điểm t là Qt
- M là số lưng s kiện c thể quan sát đưc trong mi trng thái Ta ký hiệu s kiện quan sát này là V = {O1, O2, O3, …, On} và tín hiệu quan sát ti thời điểm t là Ot
- Xác suất chuyển giữa các trng thái A = {aij} trong đ:
aij = p [qt+1 = Sj | qt = Si], 1 ≤ i, j ≤ N Thỏa mn ràng buộc
Trang 37Để thu n ti ện hơn trong việc trình bày, ta s ẽ quy ưc mô hình Markov ẩn đưc đi di n b ng bộệ ằ tham s ố = (A, B, π).
Các bài toán trong mô hình Markov ẩn:
a Bài toán tính xác suất phát sinh ra chuỗi sự kiện quan sát:
Gi thi t: Cho chu i s kiện quan sát là O = {O1, O2, O3,…,On}và b thông ộ
s c a mô hình làố = (A,B,π) Làm th nào để tính toán hi u qu P(O|ệ ) - xác suất phát sinh chu i O c a mô hình
Phương pháp gii: Gii thut “forward backward”:
-Đây là một gii thut đưc phát triển trên máy tính N tit kiệm tính toán da vào việc tit kiệm những phn c tính toán giống nhau – tit kiệm da vào kt qu đưc tính toán trưc đ Gi dụ chui trng thái q, 1 là 1231, q2 là 1232 và
q3 là 1233, c chui con là 123 giống nhau nên khi tính toán ta ch cn thc hiện một ln tính toán chui con 123 sau đ thc hiện thêm đon chui khác biệt Ví
dụ ta ch cn tính chui 123 trên q1, chui 1231 đưc tính tip từ 123 này, q2 và
q3 cũng da vào chui 123 đ để tính Th tục Forward thc hiện tính toán đi từ trng thái đu ti cuối, còn Backward thì ngưc li đi từ cuối ti đu, nhưng c 2 c cơ ch hoàn toàn giống nhau
Trang 3838
Thut gii forward:
Đu tiên đnh nghĩa bin t(i) là xác suất qtđt đưc trng thái Si ti thời điểm t, sau khi đ quan sát đưc một phn chui {O1, O2, …Ot}
αt(i) = P (O1O2 … Ot, qt = Si | λ) Thut toán thc hiện như sau:
Thut gii Backward:
Trưc ht đnh nghĩa các bin backward t(i) là xác suất quan sát đưc đon
Ot+1, Ot+2 …OT cho trưc tr ng thái S i thời điểm t và mô hình :
Trang 3939
b Bài toán 2 : Tìm kiếm chuỗi trạng thái tối ưu phát sinh ra chuỗi các sự
kiện quan sát
Cho chui vector quan sát O1, O2 …OT, tìm ra chui trng thái tối ưu Q =
q1, q2…qt đ phát sinh ra chui trng thái O
Trong rất nhiều trường hp, yêu cu ca bài toán cn tìm ra ngun gốc phát sinh
ra s kiện chui trng thái phù hp nhất Ví dụ như trong nhn dng giọng ni, việc nhn dng cn tìm ra xem chui mu nào phát ra những âm thanh Một điều đáng lưu ý là c nhiều tiêu chí khác nhau cho việc xác đnh Q, nên lời gii cho bài toán còn tùy thuộc vào tiêu chí đưc la chọn
Thut toán Viterbi
Thut toán Viterbi đnh nghĩa bin t(i) :
2 Quy nạp:
Trang 40c Bài toán huấn luyện
Gi thi t: T ừ mô hình ban đu và chu i vector quan sát O, tìm cách c p nht l i các thông s c a mô hình ố = (A,B,π).sao cho cc đi hóa xác suất P(O| ) Thut toán Baum-welch
Trưc tiên ta đnh nghĩa ξ(i,j) là xác suất ở trng thái Si t i th ời điểm t và rơi vào trng thái Sj t i th ời điểm t+1 cho trưc mô hình và chui vector quan sát O
Nu lấy tổng γt(i) the t ϵ [1, T 1], kt qu nhn đưc là số ln kỳ vọng chuyển từ trng thái Si Tương t lấy tổng ξ (i, j) theo t ϵ [1, T 1], kt qu nhn -đưc là số ln kỳ vọng chuyển từ trng thái Si sang Sj