1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật viễn thông: Nhận dạng cảm xúc người nói dựa trên học sâu

93 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĈҤI HӐC QUӔC GIA TP HCM

CҦ0;Ò&1*ѬӠI NÓI DӴA TRÊN HӐC SÂU

SPEECH EMOTION RECOGNITION WITH DEEP CONVOLUTIONAL NEURAL NETWORKS

Chuyên ngành: Kӻ Thuұt ViӉn Thông Mã sӕ: 8520208

LUҰ19Ă17+Ҥ&6Ƭ

TP HӖ CHÍ MINH, tháng 8 QăP

Trang 2

&Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI; 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*-HCM

&iQEӝKѭӟQJGүQNKRDKӑF3*676+j+RjQJ.KD &iQEӝFKҩPQKұQ[pW769}7XҩQ.LӋW

&iQEӝFKҩPQKұQ[pW761JX\ӉQĈuQK/RQJ

/XұQYăQWKҥFVƭÿѭӧFEҧRYӋWҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S+&0QJj\WKiQJQăP WUӵFWX\ӃQ

ThànKSKҫQ+ӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗP &Kӫ7ӏFK*676/r7LӃQ7KѭӡQJ

7Kѭ.ê76+XǤQK3K~0LQK&ѭӡQJ 3KҧQ%LӋQ769}7XҩQ.LӋW

3KҧQ%LӋQ761JX\ӉQĈuQK/RQJ Ӫ\9LrQ3*6769}1JX\ӉQ4XӕF%ҧR

;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLi/9Yj7UѭӣQJ.KRDTXҧQOêFKX\rQQJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳD QӃXFy 

&+Ӫ7ӎ&++Ӝ,ĈӖ1* 75ѬӢ1*.+2$Ĉ,ӊ1± Ĉ,ӊ17Ӱ

*676/Ç7,ӂ17+ѬӠ1*

Trang 3

i ĈҤ,+Ӑ&48Ӕ&*,$73+&0

75ѬӠ1* ĈҤ,+Ӑ&%È&+.+2$ &Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS- 7ӵGR- +ҥQKSK~F

NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ

1 Hӑ tên hӑc viên: Cao Xuân ThiӋn MSHV:1870067 2 1Jj\WKiQJQăPVLQK 1ѫLVLQK Kon Tum 3 Chuyên ngành: Kӻ Thuұt ViӉn Thông Mã sӕ: 8520208 4 7Ç1Ĉӄ TÀI:

භ Tên tiӃng viӋt: 1KұQGLӋQFҧP[~FQJѭӡLQyLGӵDWUrQKӑFVkX

භ Tên tiӃng anh: Speech Emotion Recognition With Deep Convolutional Neural Networks

5 NHIӊM VӨ VÀ NӜI DUNG:

භ NhiӋm vө (Yêu cҫu vӅ nӝi dung và sӕ liӋXEDQÿҫu)

1JKLrQFӭXWәQJTXDQFiFKӋWKӕQJQKұQGҥQJFҧP[~FQJѭӡLQyLĈѭDUDPӝWJLҧLSKiSKӋWKӕQJÿӇWӕLѭXFKREjLWRiQQKұQGҥQJFҧP[~FQJѭӡLQyL 7KLӃWNӃP{KuQKKӑFVkXQKұQGҥQJYjÿiQKJLiKLӋXTXҧFӫDFiFJLҧLWKXұWWӕLѭXKyD

භ Các kӃt quҧ dӵ kiӃn

7KӵFQJKLӋPP{KuQKWUrQSKҫQFӭQJYjNLӇPFKӭQJÿӝFKtQK[iFYӟLP{KuQKÿmWKLӃWNӃ&XQJFҩSEҧQJVRViQKÿӕLFKLӃXYӟLFiFF{QJWUuQKQJKLrQFӭXÿmFy 6 NGÀY GIAO NHIӊM VӨ: 22/02/2021

7 NGÀY HOÀN THÀNH NHIӊM VӨ: 13/06/2021 8 CÁN BӜ +ѬӞNG DҮN: PGS.TS Hà Hoàng Kha

9 PHҪ1+ѬӞNG DҮN: Toàn bӝ nӝi dung và yêu cҫX/971ÿmÿѭӧc thông qua bӝ môn

7S+&0QJj\WKiQJQăP

PGS TS HÀ HOÀNG KHA

75ѬӢ1*.+2$Ĉ,ӊN - Ĉ,ӊN TӰ

Trang 4

ii

LӠ,&È0Ѫ1

Lӡi ÿҫu tiên tôi xin gӱi tӟi thҫy PGS.TS Hà Hoàng Kha lӡi biӃWѫQVkXVҳc nhҩt vì nhӳng chӍ dүQÿӏQKKѭӟng tұn tình, tҥo mӑLÿLӅu kiӋn thuұn lӧi nhҩWÿӇ tôi có thӇ thӵc hiӋn và hoàn thành luұQYăQQj\%rQFҥQKÿyW{LFNJQJ[LQFKkQWKjQKFiPѫQVӵ chӍ dҥ\ÿҫy tâm huyӃt cӫa các thҫ\F{ÿDQJJLҧng dҥy tҥi bӝ môn ViӉQ7K{QJNKRDĈLӋn ± ĈLӋn tӱWUѭӡQJÿҥi hӑc Bách Khoa thành phӕ Hӗ Chí Minh Các thҫ\F{ÿmJL~SW{LtiӃp cұn vӟi nhӳng kiӃn thӭc chuyên ngành quý báu, làm nӅn tҧng cho tôi trong quá trình hӑc tұp và nghiên cӭu sau này CuӕLFQJW{L[LQFiPѫQJLDÿuQKÿmOX{Qÿӝng biên và tҥRÿLӅu kiên tӕt nhҩt cho tôi trong suӕt quá trình nghiên cӭu

Tp Hӗ &Kt0LQKQJj\WKiQJQăP Hӑc viên

Cao Xuân ThiӋn

Trang 5

iii

TÓM TҲT LUҰ19Ă1

Trong nhӳQJQăPJҫQÿk\YLӋc cҧi thiӋQWѭѫQJWiFJLӳDQJѭӡi và máy tính ngày càng ÿѭӧc quan tâm nhiӅXKѫQ7LӃQJQyLOjFiFKWUDRÿәi thông tin tӵ nhiên và nhanh nhҩt giӳa FRQQJѭӡi vӟi máy tính Nhұn dҥng cҧm xúc lӡi nói (SER: Speech Emotion Recognition) ÿyQJYDLWUzTXDQWUӑng trong các ӭng dөng vӅ FKăPVyFVӭc khӓe, giҧi trí thông minh, nhà thông minh và nhiӅu dӏch vө thông minh khác Ngày càng có nhiӅu nghiên cӭu trên thӃ giӟi tìm cách phân tích trҥng thái cҧm xúc tӯ FiFÿһFWUѭQJÿѭӧc trích xuҩt bҵng lӡi nói FRQQJѭӡLĈLӅu này giúp máy tính có thӇ ÿѭDUDFiFTX\ӃWÿӏnh tin cұ\KѫQFKtQK[iFKѫQÿӇ phөc cө FRQQJѭӡLQKѭÿLӅu khiӇn âm nhҥc, ánh sáng tùy theo cҧm xúc cӫa chӫ nhà, phân loҥLQJѭӡLGQJWURQJFiFWUXQJWkPFKăPVyFNKiFKKjQJÿӇ áp dөng các chính sách khuyӃn mҥi phù hӧp Tuy nhiên, các nghiên cӭu này chӫ yӃu tiӃn hành khҧo sát dӵa trên tiӃng Anh Các nghiên cӭu cho tiӃng ViӋWFzQNKitWWKrPYjRÿyFKѭDFyPӝt bӝ FѫVѫdӳ liӋXÿӇ nhұn diӋn cҧm xúc tiӃng ViӋt chuҭn nào mà hҫu hӃt là tӵ xây dӵng bӣi các nhóm nghiên cӭXÿѫQOҿ

'RÿyOXұQYăQWұp trung nghiên cӭu vӅ viӋc nhұn dҥng cҧm xúc thông qua lӡi nói tiӃng ViӋt Ngoài ra, luұQYăQFNJQJÿiQKJLiWtQKNKҧ thi cӫa viӋFÿѭDJLӟLWtQKQJѭӡi nói vào thành mӝWÿһFWUѭQJFӫa dӳ liӋXĈҫu tiên, luұQYăQVӁ tìm hiӇu vӅ FiFSKѭѫQJSKiSWUtFKxuҩWÿһFWUѭQJFӫDkPWKDQKÿѭӧc sӱ dөng phә biӃn trong bài toán nhұn dҥng lӡLQyLQKѭMFCC, GFCC, log-PHO&iFSKѭѫQJSKiSWUtFK[XҩWÿһFWUѭQJQj\VӁ ÿѭӧc áp dөng song song cho bӝ dӳ liӋXÿӇ phөc vө cho viӋFVRViQKÿiQKJLi%ӝ dӳ liӋu sӁ ÿѭӧc tách thành hai bӝ dӳ liӋu con dӵa trên nhãn giӟLWtQKQJѭӡi nói Thӭ hai, luұQYăQWLӃQKjQKÿӅ xuҩt mô hình hӑc sâu phù hӧp cho viӋc nhұn dҥng giӟi tính và cҧm xúc (riêng cho tӯng giӟi tính) Sau khi nhұn dҥQJÿѭӧc giӟi tính nào, hӋ thӕng sӁ áp dөng mô hình hӑc sâu nhұn dҥng cҧP[~FWѭѫQJӭng vӟi giӟLWtQKÿyÿӇ ÿѭDUDNӃt quҧ cuӕi cùng Mô hình nhұn dҥng FKRÿӝ chính xác 93% trên tұp kiӇm thӱ cho 4 loҥi cҧm xúc trung tính, giұn dӳ, buӗn, hoҧng sӧ Cuӕi cùng, luұQYăQVӁ hiӋn thӵc nghiên cӭu trên phҫn cӭng thӵc tӃ HӋ thӕng nhұn dҥng cҧm xúc trong luұQYăQÿѭӧc thӵc hiӋn trên máy tính nhúng NVIDIA Jetson Nano sӱ dөng ngôn ngӳ Python 3 và bӝ WKѭYLӋn mã nguӗn mӣ TensorFlow

Trang 6

iv

ABSTRACT

In recent years, the attention has been given to improving human-computer interactions Speech is the fastest and most natural way of human-to-computer communications Speech emotion recognition (SER) plays an important role in application of healthcare, smart entertainment, smart home, and other smart services More and more researchers around the world seek the effective methods to analyze emotional states from features extracted from human speech This helps the computer to make more reliable and accurate decisions such as controlling music and lighting depending on the owner's emotions, classifying users in customer care centers to apply for suitable promotions and so on However, these studies were mainly conducted based on English while research for the Vietnamese language is quite limited In addition, there is no standard database for Vietnamese emotion recognition, most of which are self-built by individual research groups

Therefore, the thesis focuses on researching emotion recognition through Vietnamese speech In addition, the thesis assesses the feasibility of including the speaker's gender as a feature of the data Firstly, the thesis will study the methods of speech feature extraction commonly used in speech recognition problems such as MFCC, GFCC, log-mel These methods of feature extraction will be applied in parallel on the dataset for later comparison and evaluation The dataset will be split into two sub-datasets based on speaker gender labels Secondly, the thesis develops a suitable deep learning model for gender and emotion recognition (separate for each gender) After recognizing which gender, the system will apply a deep learning model to recognize emotions corresponding to that gender to give the final result The recognition model gives 93% accuracy on the test set for 4 types of emotions: neutral, angry, sad, fearful Finally, the thesis will implement the SER on real hardware The emotion recognition system in the thesis is implemented in NVIDIA Jetson Nano embedded computer by using Python 3 language with the TensorFlow open-source library

Trang 7

v

LӠ,&$0Ĉ2$1&ӪA TÁC GIҦ

7{L[LQFDPÿRDQÿk\OjF{QJWUuQKQJKLrQFӭu khoa hӑFÿӝc lұp cӫa riêng tôi Các sӕ liӋu sӱ dөng phân tích trong luұQYăQFyQJXӗn gӕFU}UjQJÿmF{QJEӕ WKHRÿ~QJTX\ÿӏnh Các kӃt quҧ nghiên cӭu trong luұQYăQGRW{LWӵ tìm hiӇu, phân tích mӝt cách trung thӵc, khách quan và phù hӧp vӟi thӵc tiӉn cӫa ViӋt Nam Các kӃt quҧ Qj\FKѭDWӯQJÿѭӧc công bӕ trong bҩt kǤ nghiên cӭu nào khác

Hӑc viên

Cao Xuân ThiӋn

Trang 8

2.1.1 Bài toán nhұn dҥng cҧm xúc 10

2.2 ĈһFWUѭQJFӫa âm thanh 12

2.2.1 ĈһFWUѭQJFѫEҧn cӫa âm thanh 12

2.2.2 ĈһFWUѭQJFѫEҧn cӫa âm thanh sӕ hóa 13

2.3 Phát hiӋn tín hiӋu tiӃng nói thӡi gian thӵc 14

2.3.1 Hàm ZCR 14

2.3.2 +jPQăQJOѭӧng thӡi gian ngҳn 16

Trang 9

&+ѬѪ1* XÂY DӴNG GIҦI THUҰT NHҰN DҤNG CҦM XÚC LӠI NÓI 34

3.1 Bӝ dӳ liӋu cҧm xúc lӡi nói RAVDESS 34

3.2 Xây dӵng mô hình nhұn dҥng cҧm xúc lӡi nói 35

3.2.1 ThiӃt kӃ hӋ thӕng phát hiӋn lӡi nói thӡi gian thӵc 35

3.2.2 ThiӃt kӃ hӋ thӕng nhұn dҥng giӟi tính qua tín hiӋu lӡi nói 35

3.2.3 ThiӃt kӃ hӋ thӕng nhұn dҥng cҧm xúc qua tín hiӋu lӡi nói 37

3.3 KӃt luұQFKѭѫQJ 39

&+ѬѪ1* THIӂT Kӂ VÀ THӴC HIӊN ӬNG DӨNG LÊN MÁY TÍNH NHÚNG 404.1 Giӟi thiӋu phҫn cӭng 40

Trang 10

4.3.1 Quá trình huҩn luyӋn 47

4.3.2 Quá trình thӵc thi trên phҫn cӭng 52

5.2.3 So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy 67

5.3 KӃt quҧ thӵc nghiӋm trên phҫn cӭng 69

Trang 11

ix

DANH MӨC BҦNG BIӆU

Bҧng 1-1 Các nghiên cӭu liên quan 5

Bҧng 2-1 So sánh viӋFWtQKWRiQÿһFWUѭQJ0)&&Yj*)&& 24

Bҧng 3-1 Tham sӕ mô hình nhұn dҥng giӟi tính quá lӡi nói 37

Bҧng 3-2 Tham sӕ mô hình nhұn dҥng cҧm xúc lӡi nói 37

Bҧng 4-1 Thông sӕ chi tiӃt máy tính nhúng NVIDIA Jetson Nano 41

Bҧng 4-2 Cҩu hình phҫn cӭng Google Colab cung cҩp 46

Bҧng 5-1 KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng giӟi tính 59

Bҧng 5-2 KӃt quҧ kiӇm thӱ nhұn dҥng giӟi tính vӟLÿһFWUѭQJ*)&&KjPNtFKKRҥt sigmoid và dropout 0.1 60

Bҧng 5-3 KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nӳ 61

Bҧng 5-4 KӃt quҧ kiӇm thӱ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nӳ vӟLÿһFWUѭQJGFCC, hàm kích hoҥt sigmoid và dropout 0.2 63

Bҧng 5-5 KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nam 64

Bҧng 5-6 KӃt quҧ kiӇm thӱ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nam vӟLÿһc WUѭQJ*)&&KjPNtFKKRҥt sigmoid và dropout 0.2 65

Bҧng 5-7 KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu không phân chia giӟi tính 66

Bҧng 5-8 So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy 67

Bҧng 5-9 KӃt quҧ thӵc nghiӋm phҫn cӭQJQJѭӡi nói trӵc tiӃp 69

Bҧng 5-10 KӃt quҧ thӵc nghiӋm trên phҫn cӭng vӟi 10 file ghi âm trong tұp dӳ liӋu test 70

Trang 12

x

DANH MӨC HÌNH ҦNH

Hình 1-1 Tình trҥng sӭc khӓe tâm lý giӟi trҿ ngày nay 2

Hình 2-1 Các nguӗn tín hiӋXÿҫu vào nhұn diӋn cҧm xúc 11

Hình 2-2 Tәng quan bài toán nhұn dҥQJQJѭӡi nói 12

Hình 2-3 Lҩy mүu âm thanh 14

Hình 2-4 Zero crossings [31] 15

Hình 2-5 Tính toán Zero-crossing rate trong mүu tín hiӋu 15

Hình 2-6 Tính toán hàm short time energy trong mүu tín hiӋu 16

Hình 2-&iFEѭӟc MFCC 17

Hình 2-8 Tín hiӋu âm thanh ӣ dҥng thӡi gian 17

Hình 2-9 Tín hiӋXkPWKDQKWUѭӟc và sau khi pre-emphasis 18

Hình 2-10 Phә tҫn sӕ thӡi gian ngҳn tín hiӋXWUѭӟc và sau khi pre-emphasis 19

Hình 2-4XiWUuQKWUѭӧt khung cӱa sә trên mүu âm thanh 19

Hình 2-12 Các dҥng cӱa sә KyDWKѭӡng dùng 20

Hình 2-13 Hình ҧnh tín hiӋu sau khi biӃQÿәi DFT 21

Hình 2-14 Bӝ lӑc Mel tam giác vӟi tҫn sӕ lҩy mүu 16000Hz 22

Hình 2-15 Mel Spectrogram cӫa tín hiӋu âm thanh vӟi tҫn sӕ 8000Hz 22

Trang 13

xi

Hình 3-2 Mô hình nhұn dҥng tәng quát 35

Hình 3-3 Mô hình phát hiӋn lӡi nói thӡi gian thӵc 35

Hình 3-4 Mô hình huҩn luyӋn nhұn dҥng giӟi tính qua lӡi nói 36

Hình 3-5 Mô hình nhұn dҥng cҧm xúc lӡi nói 37

Hình 3-6 Mô hình huҩn luyӋn nhұn dҥng cҧm xúc qua lӡi nói 39

Hình 4-1 Máy tính nhúng NVIDIA Jetson Nano 41

Hình 4-2 Python 42

Hình 4-3 TensorFlow 45

Hình 4-4 Google Colab 46

Hình 4-5 Mô hình tәng quát quá trình huҩn luyӋn 47

Hình 4-6 Thêm nhiӉu vào mүXÿӇ OjPÿDGҥng dӳ liӋu 48

Hình 4-7 Mô hình thӵc hiӋn trên phҫn cӭng 52

Hình 4-4XpWÿӏa chӍ IP cӫa Jetson Nano 53

Hình 4-ĈăQJQKұp SSH vào Jetson Nano 53

Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng cҧm xúc trên tұp dӳ liӋu nӳ vӟLÿһFWUѭQJGFCC, hàm kích hoҥt relu và dropout 0.2 62

Hình 5-7 Ma trұn nhҫm lүn huҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋu nӳ ÿһc WUѭQJ*)&&KjPNtFKKRҥt relu và dropout 0.2 63

Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng cҧm xúc trên tұp dӳ liӋu nam vӟLÿһFWUѭQJGFCC, hàm kích hoҥt relu và dropout 0.2 65

Hình 5-9 Ma trұQWѭѫQJTXDQKXҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋXQDPÿһc WUѭQJ*)&&KjPNtFKKRҥt relu và dropout 0.2 66

Hình 5-10 Mô hình thӵc nghiӋm thӵc tӃ vӟi phҫn cӭng 69

Hình 5-11 Thӵc nghiӋm trên phҫn cӭng vӟi mүXQJѭӡi nói trӵc tiӃp trung tính, nhұn diӋn sai 70

Trang 15

xiii

DANH MӨC TӮ VIӂT TҲT

CNN Convolutional Neural Networks MҥQJQѫ-ron tích chұp

DFT Discrete Fourier transform BiӃQÿәi Fourier rӡi rҥc

DNN Deep Neural Network MҥQJQѫ-ron hӑc sâu

FFT Fast Fourier transform BiӃQÿәi Fourier nhanh

GFCC *DPPDWRQH)UHTXHQF\&HSVWUDO&RHI¿FLHQWV HӋ sӕ cepstral tҫn sӕ Gamma HMM Hidden Markov Model Mô hình markov ҭn

IDFT Inverse Discrete Fourier transform BiӃQÿәi Fourier rӡi rҥFQJѭӧc

LSTM Long Short-Term Memory Mҥng bӝ nhӟ ngҳn dài

MFCC Mel Frequency Cepstral Coefficient HӋ sӕ cepstral tҫn sӕ Mel

SER Speech Emotion Recognition Nhұn diӋn cҧm xúc lӡi nói

STE Short Time Energy 1ăQJOѭӧng thӡi gian ngҳn SVM Support Vector Machine Máy vector hӛ trӧ

VAD Voice Activity Detection Phát hiӋn tiӃng nói thӡi gian thӵc

ZCR Zero Crossing Rate TӍ lӋ sӕ lҫn giao vӟi giá trӏ không

Trang 16

1

Trong phҫn này, luұQYăQ trình bày vӅ lý do chӑQÿӅ tài nhұn dҥng cҧm xúc cӫDQJѭӡi nói Ӭng dөng cӫa viӋc nhұn dҥng cҧm xúc lӡi nói vào các thiӃt bӏ smarthome giúp cho cuӝc sӕQJFRQQJѭӡi ngày càng tiӋn lӧi SDXÿyOj phҫn giӟi thiӋu mөFÿtQKQJKLrQFӭu, ÿӕLWѭӧng nghiên cӭu, tӯ ÿyU~WUDêQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài Cuӕi cùng là

phҫn tình hình nghiên cӭXWURQJYjQJRjLQѭӟc liên quan

1.1 Lý do chӑQÿӅ tài

Tín hiӋu lӡLQyLOjSKѭѫQJWKӭc giao tiӃp nhanh nhҩt và tӵ nhiên nhҩt giӳDFRQQJѭӡi Thӵc tӃ Qj\ÿmWK~Fÿҭy các nhà nghiên cӭXQJKƭYӅ lӡLQyLQKѭPӝWSKѭѫQJSKiSWѭѫQJtác nhanh chóng và hiӋu quҧ giӳDFRQQJѭӡLYjPi\PyF7X\QKLrQÿLӅXQj\ÿzLKӓi cӛ máy phҧLFyÿӫ WUtWK{QJPLQKÿӇ nhұn ra giӑng nói cӫDFRQQJѭӡi KӇ tӯ cuӕi nhӳQJQăP50ÿmFyQKLӅu nghiên cӭu vӅ nhұn dҥng giӑQJQyLWURQJÿyÿӅ cұSÿӃn quá trình chuyӇn ÿәi lӡi nói cӫDFRQQJѭӡi thành mӝt chuӛi các tӯ Có nhiӅXKѭӟQJÿӇ tұn dөng tӯ tín hiӋu lӡLQyLFRQQJѭӡLWURQJÿyFө thӇ là nhұn dҥng cҧm xúc lӡLQyLÿѭӧFÿӏQKQJKƭD là trích xuҩt trҥng thái cҧm xúc cӫDQJѭӡLQyL1Jѭӡi ta tin rҵng nhұn dҥng cҧm xúc lӡi nói có thӇ ÿѭӧc sӱ dөQJÿӇ trích xuҩt ngӳ QJKƭDKӳu ích tӯ lӡLQyLYjGRÿyFҧi thiӋn hiӋu suҩt cӫa các hӋ thӕng nhұn dҥng giӑng nói [1] Nhұn dҥng cҧm xúc lӡi nói - Speech Emotion Recognition (SER) là mӝWOƭQKYӵc nghiên cӭu tích cӵc trong xӱ lý tín hiӋu sӕ ÿѭӧc sӱ dөQJÿӇ nhұn biӃt trҥng thái cҧP[~Fÿӏnh tính cӫDQJѭӡi nói bҵng tín hiӋu giӑng nói, có nhiӅXWK{QJWLQKѫQOӡi nói NhiӅu nhà nghiên cӭXÿDQJOjPYLӋc tURQJOƭQKYӵFQj\ÿӇ làm cho mӝt hӋ thӕQJÿӫ thông minh có thӇ hiӇXÿѭӧc trҥng thái tӯ mӝt lӡi nói cӫa mӝt cá QKkQÿӇ phân tích hoһF[iFÿӏnh tình trҥng cҧm xúc cӫDQJѭӡi nói.Ngày nay, các trí thông minh nhân tҥo nәi tiӃng trên thӃ giӟLQKѭ6LUL$OH[DNKông chӍ dӯng lҥi ӣ mӭFÿLӅu khiӇn theo lӋnh, mà còn thӵc hiӋn lӋnh linh hoҥt theo cҧm xúc cӫa chӫ nhân Bên cҥQKÿyYLӋc nhұn dҥQJFiFÿһFÿLӇm phө thuӝc vӅ FRQQJѭӡLQKѭJLӟi tính, khoҧng tuәi cӫa các dӳ liӋu kPWKDQKÿmÿѭӧc nghiên cӭXYjFyÿѭӧFÿӝ chíQK[iFFDRJL~SOjPWăQJNKҧ QăQJQKұn diӋn các dӳ liӋu có phө thuӝFYjRÿһFÿLӇm cӫDFRQQJѭӡLQKѭQKұn dҥng cҧm xúc, nhұn dҥQJQJѭӡLÿăQJNtYY«

Theo nghiên cӭu cӫa Quӻ 1KLÿӗng Liên Hӧp Quӕc (UNICEF), khoҧng 8% - 29% trҿ HPÿDQJWURQJÿӝ tuәi vӏ thành niên ӣ ViӋt Nam mҳc các bӋnh vӅ sӭc khӓe tâm lí cҧm xúc Ĉһc biӋt nghiêm trӑng là ӣ vùng thành thӏ 15% dân sӕ ViӋt Nam mҳc các rӕi loҥn do stress Ngày nay, mҥng xã hӝi và thӇ WKDRÿLӋn tӱ ngày càng phát triӇQÿmOjPWK~Fÿҭy các kênh giao tiӃp mӟi giӳa giӟi trҿ và máy móc Hình 1-ErQGѭӟLÿk\PLrXWҧ nhӳng lý do phә biӃn mà nhӳQJQJѭӡi trҿ WuPÿӃQWѭYҩQWkPOê7URQJÿyQKӳng nguyên nhân có phҫn tiêu cӵc nhҩWQKѭFҧm giác tuyӋt vӑQJFyêÿӏnh tӵ tӱ, bӏ bҳt nҥt ӣ WUѭӡng hӑF«OjQKӳng nguyên nhân gia WăQJWKҩy rõ nhҩW'RÿyQӃu có mӝt hӋ thӕng tәng hӧp, thӕQJNrYjÿѭDra dӵ ÿRiQWtQKWUҥng tâm lí sӁ giúp giҧm bӟt cҧ sӕ Oѭӧng và tính chҩt nguy hiӇm cӫa nhӳng vҩQÿӅ tâm lí này

Trang 17

2

Hình 1-1 Tình tr̩ng sͱc kh͗e tâm lý giͣi tr̓ ngày nay

Phҫn lӟn các nghiên cӭu trên trình bày các kӻ thuұWÿӇ dӵ ÿRiQFҧm xúc lӡi nói bҵng cách sӱ dөng huҩn luyӋn vӅ mӝt nhiӋm vө duy nhҩt (nhұn dҥng cҧm xúc) Tuy nhiên, nhӳng kӻ thuұt này bӓ qua mӝt nguӗn thông tin có khҧ QăQJSKong phú có sҹn trong lӡi nói (ví dө, thông tin vӅ QJѭӡi nói, giӟi tính, v.v.) có thӇ ÿѭӧc sӱ dөQJÿӇ ÿҥWÿѭӧc sӵ khái quát hóa và cҧi thiӋn hiӋu suҩWĈӇ ÿҥWÿѭӧFÿLӅXÿyKҫu hӃt các nghiên cӭu hiӋn tҥi có xu Kѭӟng xác nhұQYjÿLӅu chӍnh các mô hình bҵng cách sӱ dөng các bӝ dӳ liӋXÿDGҥng Tuy nhiên, các bӝ dӳ liӋXÿLӇm chuҭn tiêu chuҭn rҩt khan hiӃm và có vҩQÿӅ nhҩt là chúng có NtFKWKѭӟc nhӓ, tҥo ra các rào cҧn lӟn trong viӋFÿҥWÿѭӧc sӵ khái quát hóa trong hӋ thӕng SER

Bên cҥQKÿyPһFGÿmFyQKӳng tiӃn bӝ lӟn trong viӋc nhұn dҥng giӑng nói, chúng ta vүn còn lâu mӟi có sӵ WѭѫQJWiFWӵ nhiên giӳDFRQQJѭӡi và máy móc vì máy không hiӇu ÿѭӧc trҥng thái cҧm xúc cӫDQJѭӡi nói Trong SER, lӵa chӑn và trích xuҩWFiFWtQKQăQJnәi bұt là mӝt nhiӋm vө ÿҫy thách thӭc Thành công cӫa SER sӁ [iFÿӏnh lҥLFiFWѭѫQJWiFgiӳDQJѭӡi và máy tính Các trung tâm cuӝc gӑi hiӋn theo dõi cҧm xúc cӫDNKiFKKjQJÿӇ cung cҩp dӏch vө tӕWKѫQ>@&iFKӋ thӕng chҭQÿRiQGӵa trên lӡLQyLÿDQJÿѭӧc phát triӇn ÿӇ chҭQÿRiQWUҫm cҧP>@ÿDXNKә [4] và theo dõi trҥng thái tâm trҥng cho bӋnh nhân Oѭӥng cӵc [5] NhiӅu ӭng dөng khác bao gӗm hӋ thӕng truy xuҩWSKѭѫQJWLӋn [6], xe thông minh [7] và khoa hӑFSKiS\>@FNJQJQKҵm cҧi thiӋn hiӋu suҩt cӫa chúng bҵng cách sӱ dөng các kӻ thuұt SER

1.2 Mөc tiêu nghiên cӭu

Mөc tiêu nghiên cӭu cӫa luұQYăQEDRJӗPFiFÿLӇPFѫEҧn sau: - ThiӃt kӃ mô hình hӑFVkXÿӇ nhұn dҥng cҧP[~FQJѭӡi nói

- ĈѭDUDPӝt giҧi pháp hӋ thӕQJÿӇ cҧi tiӃn hoһc tӕLѭXFKREjLWRiQQKұn dҥng cҧm [~FQJѭӡi nói

- Thӵc nghiӋm kiӇm chӭQJÿӝ chính xác vӟLP{KuQKÿmWKLӃt kӃ

Trang 18

- Các dҥng trích xuҩWÿһFWUѭQJFӫa âm thanh tiӃQJQyLFRQQJѭӡi

- Các thuұWWRiQYjSKѭѫQJSKiS[ӱ OtÿһFWUѭQJJLӑQJQyLÿmFyWӯ WUѭӟc, các thuұt toán máy hӑc

- KiӇm nghiӋm mô hình tính toán trên máy tính nhúng

1.4 éQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài nghiên cӭu 1.4.1 éQJKƭDNKRDKӑc

Sau khi luұQYăQQj\KRjQWKjQKVӁ ÿHPÿӃn nhӳng kӃt quҧ QKѭVDX

- 1rXOrQÿѭӧF[XKѭӟQJJLDWăQJQKXFҫu ӭng dөng cӫa bài toán nhұn dҥng cҧm xúc QJѭӡi nói trong cuӝc sӕng hiӋn tҥLYjWѭѫQJODL

- Giӟi thiӋXYjSKkQWtFKÿѭӧc mӝt sӕ hӋ thӕng nhұn dҥng cҧP[~FQJѭӡi nói hiӋn QD\FiFNƭWKXұWÿmYjÿDQJÿѭӧc áp dөng

- Phân tích và cҧi thiӋn các mô hình nhұn diӋn cҧP[~FÿmFy

- Có mô hình thӵc nghiӋm kiӇm chӭQJP{KuQKÿӝ chính xác, thӡi gian xӱ lý và tính khҧ thi cӫa hӋ thӕng

- BҧQJVRViQKÿӕi chiӃu vӟi các kӃt quҧ nghiên cӭXWUѭӟFÿy

1.4.2 éQJKƭDWKӵc tiӉn

VӅ mһt kinh tӃ, nhұn diӋn cҧP[~FQJѭӡi nói cho phép cung cҩp các dӏch vө hiӋu quҧ KѫQWURQJQKLӅXOƭQKYӵc Ví dө: trung tâm cuӝc gӑLFKăPVyFNKiFKKjQJWKHRG}LFҧm [~FÿӇ cung cҩp dӏch vө tӕWKѫQVӱ dөQJWURQJVPDUWKRPHÿӇ nhұn biӃt cҧm xúc cӫa chӫ QKj«

VӅ y hӑc, nhұn diӋn cҧP[~FQJѭӡi nói giúp cung cҩp hӋ thӕng chuҭQÿRiQWUҫm cҭm dӵa trên cҧm xúc cӫa bӋnh nhân, hӋ thӕng theo dõi trҥng thái tâm trҥng cӫa bӋQKQKkQÿӇ ÿѭDUDFiFSKiWÿӗ ÿLӅu trӏ tӕWKѫQ

VӅ kӻ thuұt, qua quá trình khҧo sát, thiӃt kӃ, thӱ nghiӋPYjÿiQKJLiFiFSKѭѫQJiQFKRbài toán nhұn dҥQJQJѭӡi nói, luұQYăQFKRWKҩy mӝt quy trình triӇn khai chһt chӁ tӯ lý

Trang 19

4

thuyӃWÿӃn thӵFKjQKÿҧm bҧo tính khҧ thi và hӳu dөng cӫDÿӅ WjLĈӗng thӡLÿk\OjFѫsӣ cho viӋc hiӋn thӵc hóa và triӇn khai rӝng rãi trong thӵc tӃ

1.5 Tình hình nghiên cӭXWURQJYjQJRjLQѭӟc 1.5.1 Tình hình nghiên cӭu trên thӃ giӟi

Xӱ lý âm thanh là mӝWOƭQKYӵc nghiên cӭu rӝng trên thӃ giӟi GҫQÿk\FiFQKjQJKLrQcӭXÿmWKLӃt lұp mӝt sӕ kӻ thuұt hiӋu quҧ cho hӋ thӕng SER bҵng các cách tiӃp cұn mӟi Trích xuҩWÿѭӧFÿһFWUѭQJkPWKDQKÿӇ nhұn diӋn chính xác cҧm xúc cӫDQJѭӡi nói là mӝt nhiӋm vө ÿҫy thách thӭFWURQJOƭQKYӵc này MӝW6(5ÿLӇQKuQKÿѭӧc chia thành hai phҫn:

1 Quá trình lӵa chӑQÿһFWUѭQJÿӇ trích xuҩt tӯ dӳ liӋu giӑng nói

2 Lӵa chӑQFiFSKѭѫQJSKiSSKkQORҥLÿӇ nhұn biӃt chính xác cҧm xúc tӯ lӡi nói GҫQÿk\QKLӅu nhà nghiên cӭXÿmVӱ dөQJSKѭѫQJSKiSKӑFVkXÿӇ cҧi thiӋQÿӝ chính xác nhұn dҥng bҵng tín hiӋu âm thanh, trong khi mӝt sӕ nhà nghiên cӭXÿmVӱ dөQJÿһc tính trích xuҩt cҩp thҩSÿӇ huҩn luyӋQFiFP{KuQK&11'11ÿӇ WăQJÿӝ chính xác cӫa SER

7URQJÿyWiFgiҧ 'DYHHWDO>@ÿmÿiQKJLiFiFWtQKQăQJNKiFQKDXFKRFҧm xúc lӡi nói và cho thҩy hiӋu quҧ cӫD 0HO IUHTXHQF\ FHSVWUDO FRHIILFLHQW 0)&&  >@ FiF ÿһc WUѭQJFKREjLWRiQ6(5WKD\YuFiFWtQKQăQJFҩp thҩSNKiFQKѭÿӏnh dҥQJÿӝ ӗQPmQăQJsuҩt tuyӃn tính Linear Productivity Code (LPC) [16] Liu [34] sӱ dөng trích xuҩt hӋ sӕ cepstral tҫn sӕ JDPPD *)&& FKR6(5ÿӇ WăQJÿӝ chính xác trӑng sӕ lên tӟi 3,6% so vӟi MFCC Nhà nghiên cӭu Liu và các cӝng sӵ >@ÿmÿӅ xuҩt mӝWSKѭѫQJSKiSFKRKӋ thӕng SER bҵng cách sӱ dөng bӝ dӳ liӋu tiӃng Trung QuӕF>@ &$6,$ ÿӇ chӑQFiFWtQKQăQJcҧm xúc ҭn dӵDWUrQP{LWUѭӡQJWѭѫQJTXDQYjVӱ dөng cây quyӃWÿӏnh dӵa trên máy hӑc FKtQK[iF([WUHPH/HDUQLQJ0DFKLQH (/0 ÿӇ phân loҥi Fahad và cӝng sӵ >@ÿmP{tҧ mӝWSKѭѫQJSKiSÿӇ chӑQFiFWtQKQăQJGӵa trên trích xuҩt MFCC và huҩn luyӋn trên mô hình dӵDWUrQ'11ÿѭӧFÿjRWҥRFKR6(5:HLYj=KDR>@ÿmÿӅ xuҩt mӝt mô hình nhұn dҥng cho SER bҵng cách sӱ dөng trích xuҩt MFCC, nhұn dҥng dӵa trên DNN và 690ÿӇ WKXÿѭӧc kӃt quҧ tӕt trên bӝ dӳ liӋu cҧm xúc lӡi nói Trung Quӕc

1.5.2 Tình hình nghiên cӭXWURQJQѭӟc

Nhұn dҥng lӡLQyLÿһc biӋt là tiӃng ViӋWOjOƭQKYӵc nghiên cӭXÿmÿѭӧc phát triӇn tӯ lâu ӣ ViӋt Nam và có rҩt nhiӅu bài nghiên cӭXOLrQTXDQ1ăPWiFJLҧ TiӃQ7Kѭӡng cùng các cӝng sӵÿҥi hӑc Quӕc Gia thành phӕ Hӗ &Kt0LQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng nói các câu lӋnh ӭng dөQJFKRFiQKWD\URERW>@GQJP{KuQKQѫ-ron và các cách trích xuҩW ÿһF WUѭQJ 67)7 &:7 &RQWLQXRXV :DYHOHW 7UDQVIRUP  FKR ÿӝ chính [iFFDR1ăPWiFJLҧ 7UXQJ1JKƭDÿҥi hӑc Quӕc Gia Hà Nӝi, trong luұQYăQthҥFVƭFӫDPuQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng ViӋt sӱ dөng biӃQÿәi Wavelet

và mô hình Markov ҭn [27] KӃt quҧ WKXÿѭӧFWѭѫQJÿӕi tӕWÿӝ chính xác 91%

Trong khi ÿyFiFQJKLrQFӭu vӅ nhұn dҥng cҧm xúc thông qua lӡi nói ngôn ngӳ ViӋt

Nam chӍ mӟLÿѭӧc triӇn khai trong nhӳQJQăPJҫQÿk\

1ăPEjLEiR³6RViQKKLӋXQăQJPӝt sӕ SKѭѫQJSKiSQKұn dҥng cҧm xúc tiӃng nói ViӋW´>@Fӫa tác giҧ Lê Xuân Thành và các cӝng sӵ ÿѭӧc trình bày trong hӝi nghӏ

Trang 20

5

khoa hӑc quӕc gia lҫn thӭ 9 tҥi CҫQ7Kѫ%jLEiRNKҧo sát trên bӝ dӳ liӋu tӵ thu thұp gӗm 52800 mүu chia làm 4 loҥi cҧP[~FEuQKWKѭӡng, vui, buӗn, tӭc giұn Bài báo sӱ dөQJÿӝ biӃn thiên tҫn sӕ FѫEҧQ)OjPÿһFWUѭQJÿҫu vào, so sánh giӳa nhiӅu hӋ thӕng nhұn diӋn NKiFQKDXQKѭ.OiQJJLӅng gҫn nhҩt KNN (K-Nearest Neighbor), phân biӋt tuyӃn tính LDA (Linear Discriminant Analysis ), máy véc-WѫKӛ trӧ SVM (Support Vector machine) Ĉӝ chính xác cao nhҩt cӫa hӋ thӕng là 56.9ÿӕi vӟi giӑQJQDPYjÿӕi vӟi giӑng nӳ

1ăPWiFJLҧ ĈjR7Kӏ LӋ Thӫy và các cӝng sӵWURQJEjLEiR³ҦQKKѭӣng cӫDÿһc WUѭQJSKә tín hiӋu tiӃQJQyLÿӃn nhұn dҥng cҧm xúc tiӃng ViӋW´>@ÿm[k\Gӵng mô hình nhұn dҥng hӛn hӧp Gauss (GMM - Gauss Mixture Model) sӱ dөng loҥi trích xuҩW ÿһc WUѭQJ0)&&%ӝ dӳ liӋXÿѭӧc sӱ dөng gӗm 5584 mүu phân làm 4 loҥi cҧm xúc bình WKѭӡng, buӗn, vui, tӭc giұn HӋ thӕng nhұn dҥQJFKRÿӝ chính xác khá cao 88.6%

B̫ng 1-1 Các nghiên cͱu liên quan

Tài liӋu tham khҧo

Paper Dataset ĈһFWUѭQJ Phân loҥi Ĉӝ chính xác

Tóm tҳt

[34] Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech (2018)

RAVDESS (1440 mүu, 7 loҥLQJѭӡi tham gia)

Gammatone Frequency Cepstral Coefficients (GFCC)

Neural Networks

76.8 - Trích xuҩWÿһc WUѭQJEҵng cҧ KDLSKѭѫQJpháp MFCC và GFCC

- Paper cho kӃt quҧ: trên nhiӅu model khác nhau, GFCC FKRÿӝ chính [iFFDRKѫQMFCC tӯ 3.6% ӣ bài toán nhұn dҥng cҧm xúc - Có sӕ bài toàn

trích dүn lӟn 137

Trang 21

6 [18] Speech emotion

recognition based on feature selection and extreme learning machine

decision tree

CASIA -

Chinese Emotion Speech database (12000 mүu, 6 loҥLQJѭӡi)

MFCC SVM 88% - Nhұn dҥng trên bӝ database tiӃng nói Trung QuӕFFKRÿӝ chính xác khá cao

- 'DWDEDVHÿѭӧc thu không nhiӉu nӅn - Mô phӓng và

test trên matlab yêu cҫu phҫn cӭng mҥnh

[20] DNN-HMM based Speaker Adaptive Emotion Recognition using Proposed Epoch and MFCC Features

IEMOCAP (mүu ÿѭӧFÿiQKQKmQ12 tiӃng)

IITKGP:SEHSC (10,039 mүu, 4 loҥLQJѭӡi)

HMM

64.2% - Nhұn dҥng trên bӝ database tiӃng nói Ҩn Ĉӝ và tiӃng Anh

- Sӱ dөng kӃt hӧp 2 mô hình phân loҥi Deep neuron

network và hidden Markov

[21] Emotion Recognition from Chinese Speech for Smart Affective

Services Using a Combination of SVM

and DBN

USC-IEMOCAP (1200 mүu)

CASIA (12000 mүu, 6 loҥi, 4 QJѭӡi)

DNN

95% - Nhұn dҥng trên bӝ database tiӃng nói Trung Quӕc vӟi sӕ Oѭӧng lӟn mүu - Yêu cҫu phҫn

cӭng lӟn CPU core i5 vӟi GPU

Trang 22

7 [22] Gender

Identification Using A General Audio Classifier

Tӵ thu thұp (560)

MFCC Neuron network

93% - Ĉӝ chính xác WѭѫQJÿӕi tӕt, Oѭӧng dataset không nhiӅu QrQFNJQJҧnh KѭӣQJÿӃn chҩt Oѭӧng

[23] An Open-Source Speaker gender detection framework for monitoring gender equality

REPERE

challenge corpus QJѭӡi)

MFCC CNN 97% - Sӱ dөng nhiӅu loҥi trích xuҩt ÿһFWUѭQJNKiFQKDXÿӇ so sánh kӃt quҧ - Ĉӝ chính xác

cao nhӡ sӱ dөng mô hình phҫn loҥi CNN

[26] Vietnamese Speech Recognition Applied to Robot

Communications

STFT CWT

Neuron network

100% - Ĉӝ chính xác cao tuy nhiên ÿҫu vào chӍ gӗm 14 chӳ trong tiӃng ViӋt

[27] Nhұn dҥng tiӃng ViӋt sӱ dөng biӃn ÿәi Wavelet và mô hình Markov ҭn

Wavelet HMM 91% - Bài báo không công bӕ bӝ dӳ liӋu sӱ dөng - Mô hình nhұn

dҥQJFKRÿӝ chính xác cao WX\QKLrQFKѭDcó sӵ so sánh vӟi các mô hình khác

Trang 23

8 [28] So sánh hiӋu

QăQJPӝt sӕ SKѭѫQJSKiSnhұn dҥng cҧm xúc tiӃng nói ViӋt

Tӵ thu thұp (52800 mүu, 4 loҥi cҧm xúc)

Tҫn sӕ ÿһc WUѭQJFѫbҧn F0

KNN SVM LDA

57.7% - Bài báo cho ra sӵ so sánh giӳa nhiӅXSKѭѫQJthӭc nhұn dҥng khác nhau - Mô hình nhұn

dҥQJFKRÿӝ FKtQK[iFFKѭDcao

[29] ҦQKKѭӣng cӫa ÿһFWUѭQJSKә tín hiӋu tiӃng nói ÿӃn nhұn dҥng cҧm xúc tiӃng ViӋt

BKEmo (5584 mүu, 4 loҥi cҧm xúc)

MFCC GMM 88.6% - HӋ thӕQJFyÿӝ chính xác WѭѫQJÿӕi khá tӕt tuy nhiên các mүXÿѭӧc thu không chӭa nhiӉu

1.6 Bӕ cөc luұQYăQ

VӟLÿӅ tài nhұn diӋn cҧm xúc qua lӡi nói dӵa trên hӑc sâu, luұQYăQÿѭӧc chia thành 6 FKѭѫQJYӟi các nӝLGXQJVDXÿk\

&KѭѫQJ± Giӟi thiӋXÿӅ tài

&KѭѫQJQj\WUuQKEj\QKӳng giӟi thiӋu vӅ tài, lí do chӑQÿӅ tài, tình hình nghiên cӭXWURQJYjQJRjLQѭӟFWURQJFiFOƭQKYӵc liên quan; tӯ ÿyÿѭDUDPөFWLrXYjÿӕLWѭӧng nghiên cӭu, nhӳQJêQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài

&KѭѫQJ± &ѫVӣ lý thuyӃt vӅ tín hiӋu tiӃng nói và máy hӑc

&KѭѫQJQj\WUuQKEj\YӅ các khái niӋPOLrQTXDQÿӃn viӋc xӱ lí và xây dӵng mô hình nhұn dҥng: tәng quan vӅ bài toán nhұn dҥng cҧm xúc qua lӡLQyLÿһFWUѭQJFӫa âm WKDQKSKѭѫQJSKiSSKkQELӋt tín hiӋu lӡi nói trong thӡi gian thӵFÿһFWUѭQJkPWKDQKMFCC, GFCC, mҥQJQѫ-ron hӑc sâu, mҥQJQѫ-ron tích chұp

&KѭѫQJ± Xây dӵng giҧi thuұt nhұn diӋn cҧm xúc lӡi nói

&KѭѫQJQj\ÿӅ xuҩt mӝt mô hình nhұn dҥng hoàn chӍnh cho bài toán nhұn diӋn cҧm xúc lӡi nói ӭng dөng mô hình hӑc sâu bao gӗPFiFEѭӟc: tiӅn xӱ lí, trích xuҩWÿһc WUѭQJSKkQOӟp, nhұn dҥng

&KѭѫQJ± ThiӃt kӃ và hiӋn thӵc hӋ thӕng lên máy tính nhúng Jetson Nano

&KѭѫQJQj\WUình bày thiӃt kӃ và hiӋn thӵc hӋ thӕng nhұn diӋn cҧm xúc lӡi nói lên máy tính nhúng Nӝi dөng chính bao gӗm: giӟi thiӋu vӅ phҫn cӭng và phҫn mӅPÿѭӧc sӱ dөng, trình bày cách thӭc kӃt nӕi các khӕi vӟi nhau

&KѭѫQJ± KӃt quҧ thӵc hiӋn

Trang 24

9

&KѭѫQJQj\ÿiQKJLichҩWOѭӧng cӫa mô hình nhұn dҥng dӵDWUrQFiFWLrXFKtÿӝ chính xác cӫa hӋ thӕQJÿӗng thӡi so sánh các kӃt quҧ khi thӵc hiӋQWKD\ÿәi các siêu tham sӕ cӫa bài toán

&KѭѫQJ± KӃt luұQYjKѭӟng phát triӇn

&KѭѫQJQj\Wәng kӃWÿiQKJLiFiFѭXQKѭӧFÿLӇm sau khi hoàn thành luұQYăQÿѭDUDFiFKѭӟng phát triӇQWURQJWѭѫQJODL

Trang 25

&KѭѫQJQj\ÿѭӧc tә chӭc theo 8 mөc sau: Mөc 2.1 giӟi thiӋu tәng quan vӅ bài toán nhұn dҥng cҧm xúc qua lӡi nói Trong mөc 2.2 sӁ làm rõ vӅ ÿһFWUѭQJFӫa âm thanh trong ÿӡi sӕQJYjWURQJNƭWKXұt sӕ Mөc 2.3 trình bày vӅ bài toán phát hiӋn tín hiӋu tiӃng nói thӡi gian thӵc Mөc 2.4, 2.5 giҧi thích vӅ cách trích xuҩt ÿһFWUѭQJ0)&& và GFCC Mөc 2.6 sӁ giӟi thiӋu vӅ mҥQJQѫ-ron hӑc sâu, và mөc 2.7 vӅ mҥQJQѫ-ron tích chұp Cuӕi cùng mөc 2.8 sӁ trình bày kӃt luұn tәng quát cӫDFKѭѫQJÿӇ chuҭn bӏ sang phҫn xây dӵng thiӃt kӃ ӣ FKѭѫQJVDX

2.1 Tәng quan vӅ nhұn dҥng cҧm xúc qua lӡi nói 2.1.1 Bài toán nhұn dҥng cҧm xúc

Nhұn dҥng cҧm xúc là mӝt khái niӋPÿmWӗn tҥi trong mӝt thӡi gian dài và vì vұ\ÿmFyrҩt nhiӅXP{KuQKÿmÿѭӧFÿӅ xuҩWFKRÿӅ tài nà\FKRÿӃQQD\ĈӇ nhұn biӃt cҧm xúc, các nhà nghiên cӭXÿmÿѭDUDPӝt sӕ kӻ thuұt dӵa trên các nguӗQÿҫu vào khác nhau có thӇ ÿѭӧc sӱ dөQJ&iFSKѭѫQJSKiSQKұn dҥng cҧm xúc sӱ dөQJPi\WtQKWKѭӡQJÿѭӧc chia thành 5 nhóm (Hình 2-1):

x Sӱ dөng các câu hӓi khҧRViW WKѭӡQJÿѭӧc áp dөng trong khoa hӑc nghiên cӭu tâm lí hӑc)

x Sӱ dөng các tín hiӋu sinh hӑc cӫDFѫWKӇ (tín hiӋXÿLӋQWkPÿӗ, nhӏSWLP« x Sӱ dөng cӱ chӍ cӫDQJѭӡi cҫn nhұn dҥng

x Sӱ dөng trҥng thái khuôn mһt x Sӱ dөng lӡi nói

7URQJÿyFiFFiFKGӵa trên tín hiӋu sinh hӑc, khuôn mһt và lӡi nói tӓ UDÿiQJWLQFұy KѫQWURQJEjLWRiQWKӵc tӃ7URQJÿӅ tài này, nghiên cӭu tìm hiӇu sâu vӅ viӋc nhұn diӋn cҧm xúc trên lӡi nói

Trang 26

11

Hình 2-1 Các ngu͛n tín hi͏Xÿ̯u vào nh̵n di͏n c̫m xúc

Nhұn dҥQJkPWKDQKQJѭӡLQyLÿѭӧc chia thành nhiӅu loҥLWURQJÿyFyORҥi chính dӵa trên ӭng dөng cӫDQyWURQJÿӡi sӕng (Hình 2-2):

x Nhұn dҥng ngӳ QJKƭDWLӃng nói x Nhұn dҥng loҥi hình ngôn ngӳ x ĈӏQKGDQKQJѭӡi nói

x Nhұn dҥng cҧm xúc

Bài toán nhұn dҥng ngӳ QJKƭDOӡi nói là mӝt bài toán rҩt quan trӑng trong các hӋ thӕng chuyӇQÿәi ngôn ngӳ, hӋ thӕQJÿLӅu khiӇn dӵa trên lӡLQyL«7X\QKLrQÿӝ chính xác và các tiӃp cұn cӫa bài toán này lҥi phө thuӝc rҩt nhiӅu vào loҥi hình ngôn ngӳ mjQyÿѭӧc sӱ dөng Ví dө QKѭWLӃng Anh, tiӃng Trung là ngôn ngӳ ÿѭӧc sӱ dөng phә biӃn trên thӃ giӟi nên viӋFѭXWLrQQJKLrQFӭXYjÿӝ chính xác nhұn dҥQJOjWѭѫQJÿӕi cao

Bài toán nhұn dҥng loҥi hình ngôn ngӳ FNJQJOjPӝt hình thӭc cҫn thiӃWÿһc biӋt là trong viӋc chuyӇQÿәi ngôn ngӳ+ѫQWKӃ nӳDEjLWRiQQj\ÿѭӧc sӱ dөng trӵc tiӃp cho bài toán nhұn dҥng ngӳ QJKƭDEӣi tính phө thuӝc cӫa nó

%jLWRiQÿӏQKGDQKQJѭӡLQyLÿѭӧc chia thành 2 loҥi nhұn dҥQJQJѭӡi nói và xác thӵc QJѭӡi nói Nhұn dҥQJQJѭӡi nói là mӝt tiӃQWUuQK[iFÿӏnh rҵQJQJѭӡLQyLFyÿѭӧFÿăQJNttӯ WUѭӟc không dӵa vào cách nói cӫa hӑ Xác thӵFQJѭӡi nói là tiӃn trình chҩp nhұn hoһc tӯ chӕi mӝWQJѭӡi dӵa vào giӑng nói cӫa hӑ Phҫn lӟn ӭng dөng cӫa bài toán này là nhұn dҥQJQJѭӡLQyLVDXÿy[ác thӵc

Bài toán nhұn diӋn cҧm xúc thông qua lӡi nói là bài toán nhҵm nâng cao chҩWOѭӧng giao tiӃp giӳDQJѭӡLYjPi\Ĉѭӧc áp dөng nhiӅu các hӋ thӕng máy hӑc tӵ ÿӝng, phөc vө tӕWKѫQFKRÿӡi sӕQJFRQQJѭӡi

Cҧm xúc cӫDFRQQJѭӡi trong lӡi nói rҩt phӭc tҥSÿӇ mô hình hóa do sӵ phө thuӝc cӫa lӡi nói vào nhiӅu yӃu tӕ bao gӗPQJѭӡi nói [9], giӟi tính [10], tuәL >@YăQKyD>@SKѭѫQJQJӳ [13], và các yӃu tӕ khác Các nhà nghiên cӭXÿmNKiPSKiQKLӅXSKѭѫQJSKiSbao gӗm các mô hình cә ÿLӇn, chҷng hҥQQKѭPô hình Markov ҭn, Support vertor machine

Trang 27

12

(SVM) và mҥQJOѭӟi thҫQNLQKVkX '11 ÿӇ nhұn dҥng cҧm xúc giӑQJQyLWURQJÿyFiFP{KuQK'11WKѭӡng thӇ hiӋn hiӋu suҩt tӕWKѫQVRYӟi các mô hình cә ÿLӇn [14], [15] HiӋn nay, sӵ phә biӃn cӫDFiFP{KuQK'11ÿӇ nhұn dҥng cҧm xúc lӡLQyLÿDQJWăQJmҥnh

Nhìn chung, viӋc nhұn dҥng cҧm xúc cӫDQJѭӡi nói sӁ là công cө hӳXtFKÿӇ máy tính có thӇ hiӇXÿѭӧFYjÿiSӭQJFKtQK[iFKѫQFiFQKXFҫXPjFRQQJѭӡLÿѭDUDQKҳPKѭӟng tӟi mӝWWѭѫQJODLNKLPjPi\PyFFjQJQJj\FjQg thân thiӋQKѫQYӟLFRQQJѭӡLĈyFNJQJlà mөFÿtFKYjÿӝng lӵc cҩp thiӃWÿӇ thӵc hiӋQêWѭӣQJÿmQrX

Hình 2-2 T͝ng quan bài toán nh̵n d̩QJQJ˱ͥi nói

2.2 ĈһFWUѭQJFӫa âm thanh

2.2.1 ĈһFWUѭQJFѫEҧn cӫa âm thanh

Trong vұt lý hӑFkPWKDQKÿѭӧc tҥo ra khi mӝt vұWGDRÿӝng, tҥo ra mӝt sóng áp suҩt Sóng áp suҩt này làm cho các hҥWWURQJP{LWUѭӡQJ[XQJTXDQK NK{QJNKtQѭӟc hoһc chҩt rҳQ

Ngày đăng: 03/08/2024, 12:38

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w