Có nhiӅXKѭӟQJÿӇ tұn dөng tӯ tín hiӋu lӡLQyLFRQQJѭӡLWURQJÿyFө thӇ là nhұn dҥng cҧm xúc lӡLQyLÿѭӧFÿӏQKQJKƭD là trích xuҩt trҥng thái cҧm xúc cӫDQJѭӡLQyL1Jѭӡi ta tin rҵng nhұn dҥng cҧm xúc
Lý do chӑQÿӅ tài
Tín hiӋu lӡLQyLOjSKѭѫQJWKӭc giao tiӃp nhanh nhҩt và tӵ nhiên nhҩt giӳDFRQQJѭӡi Thӵc tӃ Qj\ÿmWK~Fÿҭy các nhà nghiên cӭXQJKƭYӅ lӡLQyLQKѭPӝWSKѭѫQJSKiSWѭѫQJ tác nhanh chóng và hiӋu quҧ giӳDFRQQJѭӡLYjPi\PyF7X\QKLrQÿLӅXQj\ÿzLKӓi cӛ máy phҧLFyÿӫ WUtWK{QJPLQKÿӇ nhұn ra giӑng nói cӫDFRQQJѭӡi KӇ tӯ cuӕi nhӳQJQăP 50ÿmFyQKLӅu nghiên cӭu vӅ nhұn dҥng giӑQJQyLWURQJÿyÿӅ cұSÿӃn quá trình chuyӇn ÿәi lӡi nói cӫDFRQQJѭӡi thành mӝt chuӛi các tӯ Có nhiӅXKѭӟQJÿӇ tұn dөng tӯ tín hiӋu lӡLQyLFRQQJѭӡLWURQJÿyFө thӇ là nhұn dҥng cҧm xúc lӡLQyLÿѭӧFÿӏQKQJKƭD là trích xuҩt trҥng thái cҧm xúc cӫDQJѭӡLQyL1Jѭӡi ta tin rҵng nhұn dҥng cҧm xúc lӡi nói có thӇ ÿѭӧc sӱ dөQJÿӇ trích xuҩt ngӳ QJKƭDKӳu ích tӯ lӡLQyLYjGRÿyFҧi thiӋn hiӋu suҩt cӫa các hӋ thӕng nhұn dҥng giӑng nói [1] Nhұn dҥng cҧm xúc lӡi nói - Speech Emotion Recognition (SER) là mӝWOƭQKYӵc nghiên cӭu tích cӵc trong xӱ lý tín hiӋu sӕ ÿѭӧc sӱ dөQJÿӇ nhұn biӃt trҥng thái cҧP[~Fÿӏnh tính cӫDQJѭӡi nói bҵng tín hiӋu giӑng nói, có nhiӅXWK{QJWLQKѫQOӡi nói NhiӅu nhà nghiên cӭXÿDQJOjPYLӋc tURQJOƭQKYӵFQj\ÿӇ làm cho mӝt hӋ thӕQJÿӫ thông minh có thӇ hiӇXÿѭӧc trҥng thái tӯ mӝt lӡi nói cӫa mӝt cá QKkQÿӇ phân tích hoһF[iFÿӏnh tình trҥng cҧm xúc cӫDQJѭӡi nói Ngày nay, các trí thông minh nhân tҥo nәi tiӃng trên thӃ giӟLQKѭ6LUL$OH[DNKông chӍ dӯng lҥi ӣ mӭFÿLӅu khiӇn theo lӋnh, mà còn thӵc hiӋn lӋnh linh hoҥt theo cҧm xúc cӫa chӫ nhân Bên cҥQKÿyYLӋc nhұn dҥQJFiFÿһFÿLӇm phө thuӝc vӅ FRQQJѭӡLQKѭJLӟi tính, khoҧng tuәi cӫa các dӳ liӋu kPWKDQKÿmÿѭӧc nghiên cӭXYjFyÿѭӧFÿӝ chíQK[iFFDRJL~SOjPWăQJNKҧ QăQJQKұn diӋn các dӳ liӋu có phө thuӝFYjRÿһFÿLӇm cӫDFRQQJѭӡLQKѭQKұn dҥng cҧm xúc, nhұn dҥQJQJѭӡLÿăQJNtYYô
Theo nghiên cӭu cӫa Quӻ 1KLÿӗng Liên Hӧp Quӕc (UNICEF), khoҧng 8% - 29% trҿ HPÿDQJWURQJÿӝ tuәi vӏ thành niên ӣ ViӋt Nam mҳc các bӋnh vӅ sӭc khӓe tâm lí cҧm xúc Ĉһc biӋt nghiêm trӑng là ӣ vùng thành thӏ 15% dân sӕ ViӋt Nam mҳc các rӕi loҥn do stress Ngày nay, mҥng xã hӝi và thӇ WKDRÿLӋn tӱ ngày càng phát triӇQÿmOjPWK~Fÿҭy các kênh giao tiӃp mӟi giӳa giӟi trҿ và máy móc Hình 1-ErQGѭӟLÿk\PLrXWҧ nhӳng lý do phә biӃn mà nhӳQJQJѭӡi trҿ WuPÿӃQWѭYҩQWkPOê7URQJÿyQKӳng nguyên nhân có phҫn tiờu cӵc nhҩWQKѭFҧm giỏc tuyӋt vӑQJFyờÿӏnh tӵ tӱ, bӏ bҳt nҥt ӣ WUѭӡng hӑFôOjQKӳng nguyên nhân gia WăQJWKҩy rõ nhҩW'RÿyQӃu có mӝt hӋ thӕng tәng hӧp, thӕQJNrYjÿѭD ra dӵ ÿRiQWtQKWUҥng tâm lí sӁ giúp giҧm bӟt cҧ sӕ Oѭӧng và tính chҩt nguy hiӇm cӫa nhӳng vҩQÿӅ tâm lí này
Hình 1-1 Tình tr̩ng sͱc kh͗e tâm lý giͣi tr̓ ngày nay
Phҫn lӟn các nghiên cӭu trên trình bày các kӻ thuұWÿӇ dӵ ÿRiQFҧm xúc lӡi nói bҵng cách sӱ dөng huҩn luyӋn vӅ mӝt nhiӋm vө duy nhҩt (nhұn dҥng cҧm xúc) Tuy nhiên, nhӳng kӻ thuұt này bӓ qua mӝt nguӗn thông tin có khҧ QăQJSKong phú có sҹn trong lӡi nói (ví dө, thông tin vӅ QJѭӡi nói, giӟi tính, v.v.) có thӇ ÿѭӧc sӱ dөQJÿӇ ÿҥWÿѭӧc sӵ khái quát hóa và cҧi thiӋn hiӋu suҩWĈӇ ÿҥWÿѭӧFÿLӅXÿyKҫu hӃt các nghiên cӭu hiӋn tҥi có xu Kѭӟng xác nhұQYjÿLӅu chӍnh các mô hình bҵng cách sӱ dөng các bӝ dӳ liӋXÿDGҥng Tuy nhiên, các bӝ dӳ liӋXÿLӇm chuҭn tiêu chuҭn rҩt khan hiӃm và có vҩQÿӅ nhҩt là chúng có NtFKWKѭӟc nhӓ, tҥo ra các rào cҧn lӟn trong viӋFÿҥWÿѭӧc sӵ khái quát hóa trong hӋ thӕng SER
Bên cҥQKÿyPһFGÿmFyQKӳng tiӃn bӝ lӟn trong viӋc nhұn dҥng giӑng nói, chúng ta vүn còn lâu mӟi có sӵ WѭѫQJWiFWӵ nhiên giӳDFRQQJѭӡi và máy móc vì máy không hiӇu ÿѭӧc trҥng thái cҧm xúc cӫDQJѭӡi nói Trong SER, lӵa chӑn và trích xuҩWFiFWtQKQăQJ nәi bұt là mӝt nhiӋm vө ÿҫy thách thӭc Thành công cӫa SER sӁ [iFÿӏnh lҥLFiFWѭѫQJWiF giӳDQJѭӡi và máy tính Các trung tâm cuӝc gӑi hiӋn theo dõi cҧm xúc cӫDNKiFKKjQJÿӇ cung cҩp dӏch vө tӕWKѫQ>@&iFKӋ thӕng chҭQÿRiQGӵa trên lӡLQyLÿDQJÿѭӧc phát triӇn ÿӇ chҭQÿRiQWUҫm cҧP>@ÿDXNKә [4] và theo dõi trҥng thái tâm trҥng cho bӋnh nhân Oѭӥng cӵc [5] NhiӅu ӭng dөng khác bao gӗm hӋ thӕng truy xuҩWSKѭѫQJWLӋn [6], xe thông minh [7] và khoa hӑFSKiS\>@FNJQJQKҵm cҧi thiӋn hiӋu suҩt cӫa chúng bҵng cách sӱ dөng các kӻ thuұt SER.
Mөc tiêu nghiên cӭu
Mөc tiêu nghiên cӭu cӫa luұQYăQEDRJӗPFiFÿLӇPFѫEҧn sau:
- ThiӃt kӃ mô hình hӑFVkXÿӇ nhұn dҥng cҧP[~FQJѭӡi nói
- ĈѭDUDPӝt giҧi pháp hӋ thӕQJÿӇ cҧi tiӃn hoһc tӕLѭXFKREjLWRiQQKұn dҥng cҧm [~FQJѭӡi nói
- Thӵc nghiӋm kiӇm chӭQJÿӝ chính xác vӟLP{KuQKÿmWKLӃt kӃ
- Có sӵ VRViQKÿӕi chiӃu vӟi các công trình nghiên cӭXÿmFy
ĈӕLWѭӧng nghiên cӭu
- Các nghiên cӭXWURQJYjQJRjLQѭӟFWURQJOƭQKYӵc nhұn dҥng tiӃng nói và nhұn dҥng cҧP[~FQJѭӡi
- Các thuұt toán giúp phát hiӋn, tách biӋt tín hiӋu tiӃng nói so vӟi nӅn nhiӉu trong thӡi gian thӵc
- Các dҥng trích xuҩWÿһFWUѭQJFӫa âm thanh tiӃQJQyLFRQQJѭӡi
- Các thuұWWRiQYjSKѭѫQJSKiS[ӱ OtÿһFWUѭQJJLӑQJQyLÿmFyWӯ WUѭӟc, các thuұt toán máy hӑc
- KiӇm nghiӋm mô hình tính toán trên máy tính nhúng.
éQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài nghiên cӭu
éQJKƭDNKRDKӑc
Sau khi luұQYăQQj\KRjQWKjQKVӁ ÿHPÿӃn nhӳng kӃt quҧ QKѭVDX
- 1rXOrQÿѭӧF[XKѭӟQJJLDWăQJQKXFҫu ӭng dөng cӫa bài toán nhұn dҥng cҧm xúc QJѭӡi nói trong cuӝc sӕng hiӋn tҥLYjWѭѫQJODL
- Giӟi thiӋXYjSKkQWtFKÿѭӧc mӝt sӕ hӋ thӕng nhұn dҥng cҧP[~FQJѭӡi nói hiӋn QD\FiFNƭWKXұWÿmYjÿDQJÿѭӧc áp dөng
- Phân tích và cҧi thiӋn các mô hình nhұn diӋn cҧP[~FÿmFy
- Có mô hình thӵc nghiӋm kiӇm chӭQJP{KuQKÿӝ chính xác, thӡi gian xӱ lý và tính khҧ thi cӫa hӋ thӕng
- BҧQJVRViQKÿӕi chiӃu vӟi các kӃt quҧ nghiên cӭXWUѭӟFÿy
éQJKƭDWKӵc tiӉn
VӅ mһt kinh tӃ, nhұn diӋn cҧP[~FQJѭӡi nói cho phép cung cҩp các dӏch vө hiӋu quҧ KѫQWURQJQKLӅXOƭQKYӵc Ví dө: trung tâm cuӝc gӑLFKăPVyFNKiFKKjQJWKHRG}LFҧm [~FÿӇ cung cҩp dӏch vө tӕWKѫQVӱ dөQJWURQJVPDUWKRPHÿӇ nhұn biӃt cҧm xúc cӫa chӫ QKjô
VӅ y hӑc, nhұn diӋn cҧP[~FQJѭӡi nói giúp cung cҩp hӋ thӕng chuҭQÿRiQWUҫm cҭm dӵa trên cҧm xúc cӫa bӋnh nhân, hӋ thӕng theo dõi trҥng thái tâm trҥng cӫa bӋQKQKkQÿӇ ÿѭDUDFiFSKiWÿӗ ÿLӅu trӏ tӕWKѫQ
VӅ kӻ thuұt, qua quá trình khҧo sát, thiӃt kӃ, thӱ nghiӋPYjÿiQKJLiFiFSKѭѫQJiQFKR bài toán nhұn dҥQJQJѭӡi nói, luұQYăQFKRWKҩy mӝt quy trình triӇn khai chһt chӁ tӯ lý
4 thuyӃWÿӃn thӵFKjQKÿҧm bҧo tính khҧ thi và hӳu dөng cӫDÿӅ WjLĈӗng thӡLÿk\OjFѫ sӣ cho viӋc hiӋn thӵc hóa và triӇn khai rӝng rãi trong thӵc tӃ.
Tình hình nghiên cӭXWURQJYjQJRjLQѭӟc
Tình hình nghiên cӭu trên thӃ giӟi
Xӱ lý âm thanh là mӝWOƭQKYӵc nghiên cӭu rӝng trên thӃ giӟi GҫQÿk\FiFQKjQJKLrQ cӭXÿmWKLӃt lұp mӝt sӕ kӻ thuұt hiӋu quҧ cho hӋ thӕng SER bҵng các cách tiӃp cұn mӟi Trích xuҩWÿѭӧFÿһFWUѭQJkPWKDQKÿӇ nhұn diӋn chính xác cҧm xúc cӫDQJѭӡi nói là mӝt nhiӋm vө ÿҫy thách thӭFWURQJOƭQKYӵc này MӝW6(5ÿLӇQKuQKÿѭӧc chia thành hai phҫn:
1 Quá trình lӵa chӑQÿһFWUѭQJÿӇ trích xuҩt tӯ dӳ liӋu giӑng nói
2 Lӵa chӑQFiFSKѭѫQJSKiSSKkQORҥLÿӇ nhұn biӃt chính xác cҧm xúc tӯ lӡi nói GҫQÿk\QKLӅu nhà nghiên cӭXÿmVӱ dөQJSKѭѫQJSKiSKӑFVkXÿӇ cҧi thiӋQÿӝ chính xác nhұn dҥng bҵng tín hiӋu âm thanh, trong khi mӝt sӕ nhà nghiên cӭXÿmVӱ dөQJÿһc tính trích xuҩt cҩp thҩSÿӇ huҩn luyӋQFiFP{KuQK&11'11ÿӇ WăQJÿӝ chính xác cӫa SER
7URQJÿyWiFgiҧ 'DYHHWDO>@ÿmÿiQKJLiFiFWtQKQăQJNKiFQKDXFKRFҧm xúc lӡi nói và cho thҩy hiӋu quҧ cӫD 0HO IUHTXHQF\ FHSVWUDO FRHIILFLHQW 0)&& >@ FiF ÿһc WUѭQJFKREjLWRiQ6(5WKD\YuFiFWtQKQăQJFҩp thҩSNKiFQKѭÿӏnh dҥQJÿӝ ӗQPmQăQJ suҩt tuyӃn tính Linear Productivity Code (LPC) [16] Liu [34] sӱ dөng trích xuҩt hӋ sӕ cepstral tҫn sӕ JDPPD*)&&FKR6(5ÿӇ WăQJÿӝ chính xác trӑng sӕ lên tӟi 3,6% so vӟi MFCC Nhà nghiên cӭu Liu và các cӝng sӵ >@ÿmÿӅ xuҩt mӝWSKѭѫQJSKiSFKRKӋ thӕng SER bҵng cách sӱ dөng bӝ dӳ liӋu tiӃng Trung QuӕF>@&$6,$ÿӇ chӑQFiFWtQKQăQJ cҧm xúc ҭn dӵDWUrQP{LWUѭӡQJWѭѫQJTXDQYjVӱ dөng cây quyӃWÿӏnh dӵa trên máy hӑc FKtQK[iF([WUHPH/HDUQLQJ0DFKLQH(/0ÿӇ phân loҥi Fahad và cӝng sӵ >@ÿmP{ tҧ mӝWSKѭѫQJSKiSÿӇ chӑQFiFWtQKQăQJGӵa trên trích xuҩt MFCC và huҩn luyӋn trên mô hình dӵDWUrQ'11ÿѭӧFÿjRWҥRFKR6(5:HLYj=KDR>@ÿmÿӅ xuҩt mӝt mô hình nhұn dҥng cho SER bҵng cách sӱ dөng trích xuҩt MFCC, nhұn dҥng dӵa trên DNN và 690ÿӇ WKXÿѭӧc kӃt quҧ tӕt trên bӝ dӳ liӋu cҧm xúc lӡi nói Trung Quӕc.
Tình hình nghiên cӭXWURQJQѭӟc
Nhұn dҥng lӡLQyLÿһc biӋt là tiӃng ViӋWOjOƭQKYӵc nghiên cӭXÿmÿѭӧc phát triӇn tӯ lâu ӣ ViӋt Nam và có rҩt nhiӅu bài nghiên cӭXOLrQTXDQ1ăPWiFJLҧ TiӃQ7Kѭӡng cùng các cӝng sӵÿҥi hӑc Quӕc Gia thành phӕ Hӗ &Kt0LQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng nói các câu lӋnh ӭng dөQJFKRFiQKWD\URERW>@GQJP{KuQKQѫ-ron và các cách trích xuҩW ÿһF WUѭQJ 67)7 &:7&RQWLQXRXV :DYHOHW 7UDQVIRUP FKR ÿӝ chính [iFFDR1ăPWiFJLҧ 7UXQJ1JKƭDÿҥi hӑc Quӕc Gia Hà Nӝi, trong luұQYăQ thҥFVƭFӫDPuQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng ViӋt sӱ dөng biӃQÿәi Wavelet và mô hình Markov ҭn [27] KӃt quҧ WKXÿѭӧFWѭѫQJÿӕi tӕWÿӝ chính xác 91%
Trong khi ÿyFiFQJKLrQFӭu vӅ nhұn dҥng cҧm xúc thông qua lӡi nói ngôn ngӳ ViӋt Nam chӍ mӟLÿѭӧc triӇn khai trong nhӳQJQăPJҫQÿk\
1ăPEjLEiR³6RViQKKLӋXQăQJPӝt sӕ SKѭѫQJSKiSQKұn dҥng cҧm xúc tiӃng nói ViӋW´>@Fӫa tác giҧ Lê Xuân Thành và các cӝng sӵ ÿѭӧc trình bày trong hӝi nghӏ
5 khoa hӑc quӕc gia lҫn thӭ 9 tҥi CҫQ7Kѫ%jLEiRNKҧo sát trên bӝ dӳ liӋu tӵ thu thұp gӗm
52800 mүu chia làm 4 loҥi cҧP[~FEuQKWKѭӡng, vui, buӗn, tӭc giұn Bài báo sӱ dөQJÿӝ biӃn thiên tҫn sӕ FѫEҧQ)OjPÿһFWUѭQJÿҫu vào, so sánh giӳa nhiӅu hӋ thӕng nhұn diӋn NKiFQKDXQKѭ.OiQJJLӅng gҫn nhҩt KNN (K-Nearest Neighbor), phân biӋt tuyӃn tính LDA (Linear Discriminant Analysis ), máy véc-WѫKӛ trӧ SVM (Support Vector machine) Ĉӝ chính xác cao nhҩt cӫa hӋ thӕng là 56.9ÿӕi vӟi giӑQJQDPYjÿӕi vӟi giӑng nӳ
1ăPWiFJLҧ ĈjR7Kӏ LӋ Thӫy và các cӝng sӵWURQJEjLEiR³ҦQKKѭӣng cӫDÿһc WUѭQJSKә tín hiӋu tiӃQJQyLÿӃn nhұn dҥng cҧm xúc tiӃng ViӋW´>@ÿm[k\Gӵng mô hình nhұn dҥng hӛn hӧp Gauss (GMM - Gauss Mixture Model) sӱ dөng loҥi trích xuҩW ÿһc WUѭQJ0)&&%ӝ dӳ liӋXÿѭӧc sӱ dөng gӗm 5584 mүu phân làm 4 loҥi cҧm xúc bình WKѭӡng, buӗn, vui, tӭc giұn HӋ thӕng nhұn dҥQJFKRÿӝ chính xác khá cao 88.6%
B̫ng 1-1 Các nghiên cͱu liên quan
Paper Dataset ĈһFWUѭQJ Phân loҥi Ĉӝ chính xác
(1440 mүu, 7 loҥLQJѭӡi tham gia)
Gammatone Frequency Cepstral Coefficients (GFCC)
WUѭQJEҵng cҧ KDLSKѭѫQJ pháp MFCC và GFCC
- Paper cho kӃt quҧ: trên nhiӅu model khác nhau, GFCC FKRÿӝ chính [iFFDRKѫQ MFCC tӯ 3.6% ӣ bài toán nhұn dҥng cҧm xúc
[18] Speech emotion recognition based on feature selection and extreme learning machine decision tree
CASIA - Chinese Emotion Speech database
MFCC SVM 88% - Nhұn dҥng trên bӝ database tiӃng nói Trung QuӕFFKRÿӝ chính xác khá cao
- 'DWDEDVHÿѭӧc thu không nhiӉu nӅn
- Mô phӓng và test trên matlab yêu cҫu phҫn cӭng mҥnh
IITKGP:SEHSC (10,039 mүu, 4 loҥLQJѭӡi)
64.2% - Nhұn dҥng trên bӝ database tiӃng nói Ҩn Ĉӝ và tiӃng Anh
- Sӱ dөng kӃt hӧp 2 mô hình phân loҥi Deep neuron network và hidden Markov
95% - Nhұn dҥng trên bӝ database tiӃng nói Trung Quӕc vӟi sӕ Oѭӧng lӟn mүu
- Yêu cҫu phҫn cӭng lӟn CPU core i5 vӟi GPU
WѭѫQJÿӕi tӕt, Oѭӧng dataset không nhiӅu QrQFNJQJҧnh KѭӣQJÿӃn chҩt Oѭӧng
Speaker gender detection framework for monitoring gender equality
REPERE challenge corpus QJѭӡi)
MFCC CNN 97% - Sӱ dөng nhiӅu loҥi trích xuҩt ÿһFWUѭQJNKiF QKDXÿӇ so sánh kӃt quҧ
- Ĉӝ chính xác cao nhӡ sӱ dөng mô hình phҫn loҥi CNN
100% - Ĉӝ chính xác cao tuy nhiên ÿҫu vào chӍ gӗm 14 chӳ trong tiӃng ViӋt
ViӋt sӱ dөng biӃn ÿәi Wavelet và mô hình
Wavelet HMM 91% - Bài báo không công bӕ bӝ dӳ liӋu sӱ dөng
- Mô hình nhұn dҥQJFKRÿӝ chính xác cao WX\QKLrQFKѭD có sӵ so sánh vӟi các mô hình khác
SKѭѫQJSKiS nhұn dҥng cҧm xúc tiӃng nói
57.7% - Bài báo cho ra sӵ so sánh giӳa nhiӅXSKѭѫQJ thӭc nhұn dҥng khác nhau
- Mô hình nhұn dҥQJFKRÿӝ FKtQK[iFFKѭD cao
[29] ҦQKKѭӣng cӫa ÿһFWUѭQJSKә tín hiӋu tiӃng nói ÿӃn nhұn dҥng cҧm xúc tiӃng
MFCC GMM 88.6% - HӋ thӕQJFyÿӝ chính xác WѭѫQJÿӕi khá tӕt tuy nhiên các mүXÿѭӧc thu không chӭa nhiӉu.
Bӕ cөc luұQYăQ
VӟLÿӅ tài nhұn diӋn cҧm xúc qua lӡi nói dӵa trên hӑc sâu, luұQYăQÿѭӧc chia thành 6 FKѭѫQJYӟi các nӝLGXQJVDXÿk\
&KѭѫQJ± Giӟi thiӋXÿӅ tài
&KѭѫQJQj\WUuQKEj\QKӳng giӟi thiӋu vӅ tài, lí do chӑQÿӅ tài, tình hình nghiên cӭXWURQJYjQJRjLQѭӟFWURQJFiFOƭQKYӵc liên quan; tӯ ÿyÿѭDUDPөFWLrXYjÿӕLWѭӧng nghiên cӭu, nhӳQJêQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài
&KѭѫQJ± &ѫVӣ lý thuyӃt vӅ tín hiӋu tiӃng nói và máy hӑc
&KѭѫQJQj\WUuQKEj\YӅ các khái niӋPOLrQTXDQÿӃn viӋc xӱ lí và xây dӵng mô hình nhұn dҥng: tәng quan vӅ bài toán nhұn dҥng cҧm xúc qua lӡLQyLÿһFWUѭQJFӫa âm WKDQKSKѭѫQJSKiSSKkQELӋt tín hiӋu lӡi nói trong thӡi gian thӵFÿһFWUѭQJkPWKDQK MFCC, GFCC, mҥQJQѫ-ron hӑc sâu, mҥQJQѫ-ron tích chұp
&KѭѫQJ± Xây dӵng giҧi thuұt nhұn diӋn cҧm xúc lӡi nói
&KѭѫQJQj\ÿӅ xuҩt mӝt mô hình nhұn dҥng hoàn chӍnh cho bài toán nhұn diӋn cҧm xúc lӡi nói ӭng dөng mô hình hӑc sâu bao gӗPFiFEѭӟc: tiӅn xӱ lí, trích xuҩWÿһc WUѭQJSKkQOӟp, nhұn dҥng
&KѭѫQJ± ThiӃt kӃ và hiӋn thӵc hӋ thӕng lên máy tính nhúng Jetson Nano
&KѭѫQJQj\WUình bày thiӃt kӃ và hiӋn thӵc hӋ thӕng nhұn diӋn cҧm xúc lӡi nói lên máy tính nhúng Nӝi dөng chính bao gӗm: giӟi thiӋu vӅ phҫn cӭng và phҫn mӅPÿѭӧc sӱ dөng, trình bày cách thӭc kӃt nӕi các khӕi vӟi nhau
&KѭѫQJ± KӃt quҧ thӵc hiӋn
&KѭѫQJQj\ÿiQKJLichҩWOѭӧng cӫa mô hình nhұn dҥng dӵDWUrQFiFWLrXFKtÿӝ chính xác cӫa hӋ thӕQJÿӗng thӡi so sánh các kӃt quҧ khi thӵc hiӋQWKD\ÿәi các siêu tham sӕ cӫa bài toán
&KѭѫQJ± KӃt luұQYjKѭӟng phát triӇn
&KѭѫQJQj\Wәng kӃWÿiQKJLiFiFѭXQKѭӧFÿLӇm sau khi hoàn thành luұQYăQ ÿѭDUDFiFKѭӟng phát triӇQWURQJWѭѫQJODL
&+ѬѪ1* &Ѫ6Ӣ LÝ THUYӂT Vӄ XӰ LÍ TÍN HIӊU TIӂNG
&KѭѫQJQj\WUuQKEj\FiFNKiLQLӋm lý thuyӃt nӅn tҧQJÿӇ giҧi quyӃt bài toán nhұn dҥng cҧm xúc lӡi nói NӝLGXQJFKѭѫQJQj\Fhia làm 5 phҫn chính: tәng quan vӅ bài toán nhұn dҥng cҧm xúc lӡLQyLÿһFWUѭQJkPWKDQKEjLWRiQSKiWKLӋn tín hiӋu tiӃng nói trong thӡi gian thӵc, trích xuҩWÿһFWUѭQJkPWKDQKPҥng hӑc sâu và mҥQJQѫ-ron tích chұp Mӝt khi các lý thuyӃWOLrQTXDQÿѭӧFÿҫ\ÿӫ ta có thӇ xây dӵQJÿѭӧc ӭng dөQJÿӇ giҧi quyӃt bài WRiQÿӅ ra
&KѭѫQJQj\ÿѭӧc tә chӭc theo 8 mөc sau: Mөc 2.1 giӟi thiӋu tәng quan vӅ bài toán nhұn dҥng cҧm xúc qua lӡi nói Trong mөc 2.2 sӁ làm rõ vӅ ÿһFWUѭQJFӫa âm thanh trong ÿӡi sӕQJYjWURQJNƭWKXұt sӕ Mөc 2.3 trình bày vӅ bài toán phát hiӋn tín hiӋu tiӃng nói thӡi gian thӵc Mөc 2.4, 2.5 giҧi thích vӅ cách trích xuҩt ÿһFWUѭQJ0)&& và GFCC Mөc 2.6 sӁ giӟi thiӋu vӅ mҥQJQѫ-ron hӑc sâu, và mөc 2.7 vӅ mҥQJQѫ-ron tích chұp Cuӕi cùng mөc 2.8 sӁ trình bày kӃt luұn tәng quát cӫDFKѭѫQJÿӇ chuҭn bӏ sang phҫn xây dӵng thiӃt kӃ ӣ FKѭѫQJVDX
Tәng quan vӅ nhұn dҥng cҧm xúc qua lӡi nói
Bài toán nhұn dҥng cҧm xúc
Nhұn dҥng cҧm xúc là mӝt khái niӋPÿmWӗn tҥi trong mӝt thӡi gian dài và vì vұ\ÿmFy rҩt nhiӅXP{KuQKÿmÿѭӧFÿӅ xuҩWFKRÿӅ tài nà\FKRÿӃQQD\ĈӇ nhұn biӃt cҧm xúc, các nhà nghiên cӭXÿmÿѭDUDPӝt sӕ kӻ thuұt dӵa trên các nguӗQÿҫu vào khác nhau có thӇ ÿѭӧc sӱ dөQJ&iFSKѭѫQJSKiSQKұn dҥng cҧm xúc sӱ dөQJPi\WtQKWKѭӡQJÿѭӧc chia thành 5 nhóm (Hình 2-1): x Sӱ dөng các câu hӓi khҧRViWWKѭӡQJÿѭӧc áp dөng trong khoa hӑc nghiên cӭu tâm lí hӑc) x Sӱ dөng cỏc tớn hiӋu sinh hӑc cӫDFѫWKӇ (tớn hiӋXÿLӋQWkPÿӗ, nhӏSWLPô x Sӱ dөng cӱ chӍ cӫDQJѭӡi cҫn nhұn dҥng x Sӱ dөng trҥng thái khuôn mһt x Sӱ dөng lӡi nói
7URQJÿyFiFFiFKGӵa trên tín hiӋu sinh hӑc, khuôn mһt và lӡi nói tӓ UDÿiQJWLQFұy KѫQWURQJEjLWRiQWKӵc tӃ7URQJÿӅ tài này, nghiên cӭu tìm hiӇu sâu vӅ viӋc nhұn diӋn cҧm xúc trên lӡi nói
Hình 2-1 Các ngu͛n tín hi Xÿ̯u vào nh̵n di n c̫m xúc
Nhұn dҥQJkPWKDQKQJѭӡLQyLÿѭӧc chia thành nhiӅu loҥLWURQJÿyFyORҥi chính dӵa trên ӭng dөng cӫDQyWURQJÿӡi sӕng (Hình 2-2): x Nhұn dҥng ngӳ QJKƭDWLӃng nói x Nhұn dҥng loҥi hình ngôn ngӳ x ĈӏQKGDQKQJѭӡi nói x Nhұn dҥng cҧm xúc
Bài toán nhұn dҥng ngӳ QJKƭDOӡi nói là mӝt bài toán rҩt quan trӑng trong các hӋ thӕng chuyӇQÿәi ngụn ngӳ, hӋ thӕQJÿLӅu khiӇn dӵa trờn lӡLQyLô7X\QKLrQÿӝ chớnh xỏc và các tiӃp cұn cӫa bài toán này lҥi phө thuӝc rҩt nhiӅu vào loҥi hình ngôn ngӳ mjQyÿѭӧc sӱ dөng Ví dө QKѭWLӃng Anh, tiӃng Trung là ngôn ngӳ ÿѭӧc sӱ dөng phә biӃn trên thӃ giӟi nên viӋFѭXWLrQQJKLrQFӭXYjÿӝ chính xác nhұn dҥQJOjWѭѫQJÿӕi cao
Bài toán nhұn dҥng loҥi hình ngôn ngӳ FNJQJOjPӝt hình thӭc cҫn thiӃWÿһc biӋt là trong viӋc chuyӇQÿәi ngôn ngӳ+ѫQWKӃ nӳDEjLWRiQQj\ÿѭӧc sӱ dөng trӵc tiӃp cho bài toán nhұn dҥng ngӳ QJKƭDEӣi tính phө thuӝc cӫa nó
%jLWRiQÿӏQKGDQKQJѭӡLQyLÿѭӧc chia thành 2 loҥi nhұn dҥQJQJѭӡi nói và xác thӵc QJѭӡi nói Nhұn dҥQJQJѭӡi nói là mӝt tiӃQWUuQK[iFÿӏnh rҵQJQJѭӡLQyLFyÿѭӧFÿăQJNt tӯ WUѭӟc không dӵa vào cách nói cӫa hӑ Xác thӵFQJѭӡi nói là tiӃn trình chҩp nhұn hoһc tӯ chӕi mӝWQJѭӡi dӵa vào giӑng nói cӫa hӑ Phҫn lӟn ӭng dөng cӫa bài toán này là nhұn dҥQJQJѭӡLQyLVDXÿy[ác thӵc
Bài toán nhұn diӋn cҧm xúc thông qua lӡi nói là bài toán nhҵm nâng cao chҩWOѭӧng giao tiӃp giӳDQJѭӡLYjPi\Ĉѭӧc áp dөng nhiӅu các hӋ thӕng máy hӑc tӵ ÿӝng, phөc vө tӕWKѫQFKRÿӡi sӕQJFRQQJѭӡi
Cҧm xúc cӫDFRQQJѭӡi trong lӡi nói rҩt phӭc tҥSÿӇ mô hình hóa do sӵ phө thuӝc cӫa lӡi nói vào nhiӅu yӃu tӕ bao gӗPQJѭӡi nói [9], giӟi tính [10], tuәL >@YăQKyD>@SKѭѫQJQJӳ [13], và các yӃu tӕ khác Các nhà nghiên cӭXÿmNKiPSKiQKLӅXSKѭѫQJSKiS bao gӗm các mô hình cә ÿLӇn, chҷng hҥQQKѭPô hình Markov ҭn, Support vertor machine
(SVM) và mҥQJOѭӟi thҫQNLQKVkX'11ÿӇ nhұn dҥng cҧm xúc giӑQJQyLWURQJÿyFiF P{KuQK'11WKѭӡng thӇ hiӋn hiӋu suҩt tӕWKѫQVRYӟi các mô hình cә ÿLӇn [14], [15] HiӋn nay, sӵ phә biӃn cӫDFiFP{KuQK'11ÿӇ nhұn dҥng cҧm xúc lӡLQyLÿDQJWăQJ mҥnh
Nhìn chung, viӋc nhұn dҥng cҧm xúc cӫDQJѭӡi nói sӁ là công cө hӳXtFKÿӇ máy tính có thӇ hiӇXÿѭӧFYjÿiSӭQJFKtQK[iFKѫQFiFQKXFҫXPjFRQQJѭӡLÿѭDUDQKҳPKѭӟng tӟi mӝWWѭѫQJODLNKLPjPi\PyFFjQJQJj\FjQg thân thiӋQKѫQYӟLFRQQJѭӡLĈyFNJQJ là mөFÿtFKYjÿӝng lӵc cҩp thiӃWÿӇ thӵc hiӋQêWѭӣQJÿmQrX
Hình 2-2 T͝ng quan bài toán nh̵n d̩QJQJ˱ͥi nói.
ĈһFWUѭQJFӫa âm thanh
ĈһFWUѭQJFѫEҧn cӫa âm thanh
Trong vұt lý hӑFkPWKDQKÿѭӧc tҥo ra khi mӝt vұWGDRÿӝng, tҥo ra mӝt sóng áp suҩt Sóng áp suҩt này làm cho các hҥWWURQJP{LWUѭӡQJ[XQJTXDQKNK{QJNKtQѭӟc hoһc chҩt rҳQGDRÿӝng theo 7DLQJѭӡi phát hiӋn ra sóng âm thanh khi các hҥt không khí rung ÿӝQJOjPUXQJPjQJQKƭErQWURQJWDLWҥLÿyFyFiFWKө thӇ làm nhiӋm vө QKѭFiLFҧm biӃQÿӇ mang tín hiӋXÿӃn bӝ QmRÿӇ [iFÿӏnh tӯng loҥi âm thanh ĈLӅu gì làm cho âm nhҥc khác vӟi tiӃng ӗn? TiӃng hót cӫa mӝWFRQFKLPGXGѭѫQJKѫQ là tiӃng FKX{QJ[HKѫL9jFK~QJWDWKѭӡng có thӇ phân biӋWÿѭӧc sӵ khác biӋt giӳa còi EiRÿӝng cӫa xe cӭXWKѭѫQJYjFҧnh sát Âm thanh có ba thuӝFWtQKÿӇ ÿһFWUѭQJNKiF QKDXFDRÿӝFѭӡQJÿӝ, âm sҳc (tông màu)
- &DRÿӝOjÿһc tính cho phép chúng ta phân loҥi âm thanh là mӓng hay trҫPĈѭӧc ÿiQKJLiGӵa trên mӝWWKDQJÿRYӅ tҫn sӕ Âm cao, tҫn sӕ cao khi các phân tӱ dao ÿӝng nhanh, còn âm thҩp, tҫn sӕ thҩp khi các phân tӯ GDRÿӝng chұPKѫQ&DRÿӝ
13 chӍ có thӇ ÿѭӧF[iFÿӏnh khi âm thanh có tҫn sӕ ÿӫ rõ ràng và nhҩWTXiQÿӇ phân biӋt vӟi tiӃng ӗn Dҧi tҫn sӕ PjFRQQJѭӡi có thӇ QJKHÿѭӧc là 20 Hz ± 20000 Hz
- %LrQÿӝOjÿһc tính cho phép chúng ta phân loҥi âm thanh là to hay nhӓ7KDQJÿR GQJÿӇ ÿRELrQÿӝ cӫDkPWKDQKOjGHFLEHOG%%LrQÿӝ FDRKѫQWѭѫQJӭng vӟi âm thanh lӟQKѫQYjQJѭӧc lҥi
- Âm sҳFOjÿһc tính cho phép chúng ta phân loҥLkPWKDQKOjGXGѭѫQJKD\Gӳ dӝi, là hay hay tӋ Mӝt nӕW6RONKLÿѭӧFFKѫLEӣi guitar sӁ dӉ GjQJÿѭӧc phân biӋt vӟi mӝt nӕW6ROÿѭӧFFKѫLEӣi piano dù cҧ FQJFKXQJFDRÿӝ vjELrQÿӝ.
ĈһFWUѭQJFѫEҧn cӫa âm thanh sӕ hóa
Âm thanh kӻ thuұt sӕ sӱ dөng ÿLӅu chӃ mã xung (PCM) và các tín hiӋu kӻ thuұt sӕ ÿӇ tái tҥo lҥi âm thanh, bao gӗm chuyӇQ ÿәi tӯ tín hiӋX WѭѫQJ Wӵ sang tín hiӋu sӕ (ADC), chuyӇQÿәi tӯ tín hiӋu sӕ sang tín hiӋXWѭѫQJWӵ '$&OѭXWUӳ, và truyӅn Tính hӳu ích chính cӫa mӝt hӋ thӕng kӻ thuұt sӕ là khҧ QăQJOѭXWUӳ, truy xuҩt và truyӅn tín hiӋu mà không có bҩt kǤ tәn thҩt nào vӅ mһt chҩWOѭӧng ChҩWOѭӧQJDXGLRNKLÿmÿѭӧc mã hóa sӁ phө thuӝFYjRFiFÿһc tính sau: tӕFÿӝ lҩy mүu (sample rate), sӕ bit mã hóa (bit depth), sӕ kênh lҩy mүu (channel)
- TӕFÿӝ lҩy mүX7DLQJѭӡi có thӇ QJKHÿѭӧc âm thanh ӣ tҫn sӕ trong khoҧng 20 Hz-
20 kHz, theo ÿӏnh lý Nyquist thì tҫn sӕ lҩy mүu tӕi thiӇu phҧi lӟQKѫQOҫn tҫn sӕ cao nhҩt cӫa tín hiӋXÿӇ tái hiӋn lҥi hoàn toàn tín hiӋu, vì vұ\QJѭӡLWDWKѭӡng lҩy mүu vӟi tҫn sӕ 44.1 kHz (CD), 48 kHz (pro audio) hay 96 kHz HiӋn nay, công nghӋ lҩy mүXFy[XKѭӟng sӱ dөng tҫn sӕ lҩy mүXYѭӧt quá các yêu cҫXFѫEҧn, ví dө 96 kHz hay thұm chí là 192 kHz ĈLӅXQj\WUiLQJѭӧc vӟi nhӳng kӃt quҧ trong phòng thí nghiӋm chӭng minh rҵQJWDLQJѭӡi không thӇ QJKHÿѭӧc nhӳng âm thanh ӣ tҫn sӕ siêu âm, tuy vұy trong mӝWYjLWUѭӡng hӧp, thì nhӳng siêu âm có khҧ QăQJ WѭѫQJWiFYjÿLӅu chӍnh mӝt phҫn cӫa phә tҫn âm thanh (biӃn dҥQJGRÿLӅu biӃn WѭѫQJKӛ, intermodulation distortion hay IMD) Sӵ biӃn dҥQJÿLӅu biӃn này không có trong âm thanh thӵc và vì vұy nyOjÿһFÿLӇPÿһFWUѭQJFӫa âm thanh nhân tҥo MӝWÿLӇm lӧi thӃ là nӃu tҫn sӕ lҩy mүXFDRYѭӧt mӭc thì sӁ giҧPÿѭӧc nhӳng yêu cҫu cӫa bӝ lӑc thông thҩp trong ADC và DAC
- %LWGHSWKặPWKDQKWKѭӡQJÿѭӧFOѭӧng tӱ húa vӟLÿӝ sõu sӕ 8, 16 hoһc 20 bit, trờn mһt lý thuyӃt thì cӵF ÿҥi cӫa tӹ sӕ tín hiӋu trên nhiӉX Oѭӧng tӱ' (signal to quantization noise ratio; SQNR) sӁ cho ra dҥng sóng sin chuҭn (pure sine wave) là khoҧng 49.93dB, 98.09 dB và 122.17 dB Âm thanh 8-bit nói chung là không còn ÿѭӧc sӱ dөng nӳa do nhiӉXOѭӧng tӱ (cӵFÿҥi cӫa tӹ sӕ SQNR thҩp) ChҩWOѭӧng âm thanh cӫa CD ÿѭӧc mã hóa vӟi 16 bit NhiӉu nhiӋt (thermal noise) làm hҥn chӃ sӕ Oѭӧng các bit thӵc sӵ có thӇ ÿѭӧc sӱ dөng trRQJTXiWUuQKOѭӧng tӱ hóa Vài hӋ thӕQJ DQDORJ WѭѫQJ Wӵ) có tӍ sӕ tín hiӋu trên tҥp âm 615 KD\ 61 Yѭӧt quá
120 G%GRÿyVӁ cҫQKѫQELWÿӇ Oѭӧng tӱ hóa
- Kênh: mô phӓng âm thanh trong không gian, kênh càng cao, âm thanh càng sӕng ÿӝng, giúp ta hình dung giӕQJQKѭFҧm nhұQÿѭӧc vӏ trí âm phát ra trong không gian Trong nhұn dҥQJkPWKDQKWDÿѭDWtQKLӋu vӅ dҥng mono tӭc là 1 kênh
- ĈѫQYӏ ÿRFѭӡQJÿӝ tín hiӋu sӕ hóa là dBFS Ta có khái niӋm Full Scale là mӭc FѭӡQJÿӝ tӕLÿDPjSKҫn cӭng có thӇ mô tҧ ÿѭӧF.KLÿyG%)6OjPӭFFѭӡQJÿӝ tӕLÿDÿyNӃu tín hiӋXÿҥt -G%)6FyQJKƭDOjWtQKLӋXÿyQKӓ KѫQPӭc tӕLÿD dB
Phát hiӋn tín hiӋu tiӃng nói thӡi gian thӵc
Hàm ZCR
Vӟi tín hiӋu âm thanh rӡi rҥc, mӝt lҫQTXDÿLӇm có giá trӏ bҵQJ]HURFURVVLQJVÿѭӧc [iFÿӏnh khi hai mүu liên tiӃp có dҩXÿҥi sӕ khác nhau ZCR (Zero-FURVVLQJUDWHOjWKѭӟc ÿRVӕ lҫn tín hiӋXTXDÿLӇm 0 trong mӝt khoҧng thӡi gian/ khung thӡi gian nhҩWÿӏnh Công thӭF[iFÿӏnh:
7URQJÿyKjPsgn[x(n)] là hàm dҩu có công thӭc:
1, ( )x n 0 t ®¯ w(n) là hàm cӱa sә vӟLÿӝ dài N mүu vӟi công thӭF[POjELrQÿӝ tín hiӋu
Trong thӵc tӃ, giá trӏ =&5WKѭӡQJFDRKѫQÿӕi vӟi nhiӉXYjQJѭӧc lҥi nhӓ KѫQÿӕi vӟi tín hiӋu tiӃQJQyLWK{QJWKѭӡng Hình 2-QJD\ErQGѭӟi thӇ hiӋn giá trӏ =&5ÿӕi vӟi mӝt tín hiӋu âm thanh Ta có thӇ thҩy giá trӏ Qj\OjFDRKѫQÿӕi vӟi các phҫn tín hiӋu nhiӉu 7K{QJWKѭӡng trong các hӋ thӕng nhұn diӋn vӅ tín hiӋu tiӃng nói, khi áp dөng hàm ZCR, Eѭӟc tiӅn xӱ lý cҫn tính toán giá trӏ QJѭӥQJÿӇ phù hӧp vӟi phҫn cӭng khác nhau
Hình 2-5 Tính toán Zero-crossing rate trong m̳u tín hi u
2.3.2 +jPQăQJOѭӧng thӡi gian ngҳn
%LrQÿӝ cӫa mӝt tín hiӋu âm thanh thay ÿәi theo thӡLJLDQ7K{QJWKѭӡQJELrQÿӝ cӫa tín hiӋu nhiӉu sӁ nhӓ KѫQELrQÿӝ cӫa tín hiӋu tiӃQJQyL1ăQJOѭӧQJFKtQKOjÿҥLOѭӧQJÿӇ phҧn ánh sӵ WKD\ÿәi cӫDELrQÿӝ trong mӝt khoҧng thӡLJLDQ[iFÿӏQK7ѭѫQJWӵ QKѭELrQ ÿӝQăQJOѭӧng cӫa tín hiӋu nhiӉXFNJQJWKѭӡng nhӓ KѫQWtQKLӋu tiӃQJQyLÿLӅu này giúp chúng ta có thӇ dӉ dàng phân biӋWÿѭӧc tín hiӋu và nhiӉu Công thӭF[iFÿӏnh: x(m)2 n m
Hình 2-ErQGѭӟLOjÿӗ thӏ thӇ hiӋn giá trӏ cӫDKjPQăQJOѭӧng thӡi gian ngҳQÿӕi vӟi mӝt tín hiӋu âm thanh Ta có thӇ dӉ dàng thҩy rҵQJELrQÿӝ cӫDÿӗ thӏ lӟQÿӕi vӟi khoҧng có tín hiӋu âm thanh và nhӓ KѫQÿӕi vӟi nhӳng khoҧng nhiӉu
Hình 2-6 Tính toán hàm short time energy trong m̳u tín hi u
ĈһFWUѭQJ0)&&
Pre-emphasis
ViӋc thӵc hiӋn Pre-HPSKDVLVWUѭӟc tiên nhҵPJL~SWăQJOѭӧQJQăQJOѭӧng ӣ tҫn sӕ cao Ĉӕi vӟLFiFSKkQÿRҥn có tiӃQJQKѭQJX\rQkPFyQKLӅXQăQJOѭӧQJKѫQӣ tҫn sӕ thҩp KѫQWҫn sӕ FDRKѫQĈLӅu này cҧi thiӋQÿӝ chính xác phát hiӋQkPWKDQKĈӕi vӟLFRQQJѭӡi, chúng ta bҳWÿҫu gһp vҩQÿӅ vӅ thính giác khi không thӇ nghe thҩy nhӳng âm thanh tҫn sӕ cao này Ngoài ra, tiӃng ӗn có tҫn sӕ thҩS7URQJOƭQKYӵc kӻ thuұWFK~QJWDWKѭӡng sӱ dөng Pre-HPSKDVLVÿӇ làm cho hӋ thӕng ít bӏ ҧQKKѭӣng bӣi tiӃng ӗQÿѭӧFÿѭDYjRWURQJ quy trình sau này Pre-emphasis là bӝ lӑc thông cao trong miӅn tҫn sӕ Trong miӅn thӡi gian, bӝ lӑFQj\FySKѭѫQJWUuQK
Hình 2-ErQGѭӟLELӇXGLӉQFѭӡQJÿӝSKәF{QJVXҩWFӫDPӝWVyQJkPGҥQJWLӃQJQyL WUѭӟFYjVDXNKLSUH-emphasis
Hình 2-9 Tín hi XkPWKDQKWU˱ͣc và sau khi pre-emphasis
Hình 2-10 Ph͝ t̯n s͙ thͥi gian ng̷n tín hi XWU˱ͣc và sau khi pre-emphasis
Window
Quá trình cӱa sә KyD:LQGRZLQJOLrQTXDQÿӃn viӋc lҩy mүu cӫa tín hiӋu và nhân nó vӟLSKѭѫQJWUuQKFӱa sә Hay nói cách khác là chúng ta sӁ cҳt các sóng tӯ FiFNKXQJWUѭӧt 1KѭQJFK~QJWDNK{QJWKӇ cҳt nó ӣ rìa khung hình ViӋFÿӝt ngӝt giҧPELrQÿӝ sӁ tҥo ra rҩt nhiӅu tiӃng ӗn xuҩt hiӋn ӣ tҫn sӕ FDRĈӇ cҳWkPWKDQKELrQÿӝ sӁ giҧm dҫn gҫn cҥnh cӫa khung
Hình 2-114XiWUuQKWU˱ͫt khung c͵a s͝ trên m̳u âm thanh
Mӝt vài lӵa chӑQGQJÿӇ OjPNKXQJWUѭӧt là cӱa sә Hamming và cӱa sә +DQQLQJ6ѫ ÿӗ sau cho biӃt dҥng sóng hình sin sӁ ÿѭӧc cҳt ra bҵng cách sӱ dөng các cӱa sә Qj\1Kѭ ÿѭӧc hiӇn thӏÿӕi vӟi cӱa sә +DPPLQJYj+DQQLQJELrQÿӝ giҧm xuӕng gҫn rìa (cӱa sә Hamming có mӝt sӵ sөt giҧPÿӝt ngӝt ӣ rìa trong khi cӱa sә Hanning thì không.)
Hình 2-12 Các d̩ng c͵a s͝ KyDWK˱ͥng dùng
DFT
BiӃQÿәi Fourier rӡi rҥc (DFT) là mӝt trong nhӳng biӃQÿәLÿѭӧc sӱ dөng rӝng rãi nhҩt, ÿһc biӋWWURQJOƭQKYӵc xӱ lý sӕ tín hiӋu bӣi vì nó biӃQÿәi mӝt tín hiӋu trong miӅn thӡi gian sang miӅn tҫn sӕ YjQJѭӧc lҥi BiӃQÿәi DFT có thӇ biӇu diӉn bӣLSKѭѫQJWUuQK
7URQJÿye OjFѫVӕFӫDORJDULWWӵQKLrQLOjÿѫQYӏҧRS là pi, k=0, ,N-1
%LӃQÿәL')7FyWKӇWKҩ\WURQJKuQK-YӟLFKXӛL1 PүX')7')7VDXÿyÿѭӧF iSGөQJFKRWtQKLӋXÿmÿѭӧFFӱDVәKyD.ӃWTXҧFӫDSKѭѫQJWUuQKQj\FKRUDELrQÿӝYjSKDFӫDWtQKLӋXQKѭKuQKGѭӟL
Hình 2-13 Hình ̫nh tín hi u sau khi bi͇Qÿ͝i DFT
Mel Filter-Bank
&iFSKpSÿRkPWKDQKWUrQFiFWKLӃt bӏ không giӕQJQKѭQKұn thӭc thính giác cӫa chúng WDĈӕi vӟLFRQQJѭӡLÿӝ ӗn cҧm nhұQWKD\ÿәi theo tҫn sӕ1JRjLUDÿӝ phân giҧi tҫn sӕ cҧm nhұn giҧm khi tҫn sӕ WăQJ7ӭFOjFRQQJѭӡi ít nhҥy cҧPKѫQYӟi tҫn sӕ FDRKѫQ%LӇu ÿӗ bên trái cho biӃWWKDQJÿR0HOiQK[ҥ tҫn sӕ ÿRÿӃn mӭc chúng ta cҧm nhұQÿѭӧc trong bӕi cҧnh phân giҧi tҫn sӕ=ZLFNHUÿmP{KuQKKyDKӋ thӕQJWKtQKJLiFFRQQJѭӡLYjÿѭD ra thang Mel sӱ dөQJEDQGILOWHU[iFÿӏnh phҥPYLPjFRQQJѭӡi có thӇ nghe Tai con QJѭӡLWKѭӡng sӁ ít nhҥy cҧPKѫQYӟi tҫn sӕ 1000Hz, nên tӯ tҫn sӕ Gѭӟi 1000 Hz thang do Mel sӁ là tuyӃn tính sau 1000 Hz sӁ OjWKDQJÿRSKLWX\Ӄn
Các bӝ lӑc mel là dҥng tam giác cân, bӝ lӑc thӭ k sӁ ÿѭӧc bҳWÿҫu tҥLÿLӇm chính giӳa cӫa bô lӑc thӭ k-1 và kӃt thúc ӣ giӳa bӝ lӑc k+1, các bӝ lӑc chӗng lҩQĈӝ rӝng tәng cӝng cӫa các bӝ lӑc sӁ bao phӫ tӯ tҫn sӕ nhӓ nhҩWÿӃn tҫn sӕ lӟn nhҩWĈӇ ÿҥWÿѭӧFÿLӅu ÿyÿҫu tiên ta phҧL[iFÿӏQKÿѭӧc giá trӏ tҫn sӕ nhӓ nhҩt và tҫn sӕ lӟn nhҩWVDXÿyFKX\Ӈn ÿә tҫn sӕ này sang miӅQPHO6DXÿyFKLDÿӅu trong miӅQ0HOÿѭӧc gӑLOjFiFÿLӇm tҫn sӕ trung tâm bӝ lӑFVDXÿyFKX\ӇQÿәLQJѭӧc lҥi sang miӅn tҫn sӕ 3KѭѫQJWUuQKFKX\Ӈn ÿәi giӳa miӅn tҫn sӕ và miӅn mel:
Hình 2-14 B͡ l͕c Mel tam giác vͣi t̯n s͙ ḽy m̳u 16000Hz
Hình 2-15 Mel Spectrogram cͯa tín hi u âm thanh vͣi t̯n s͙ 8000Hz
IDFT
BiӃQÿәLQJѭӧc Fourier rӡi rҥc cӫa phә 0HOVDXÿyÿѭӧc tính, cho ra hӋ sӕ MFCC Các giá trӏ ÿҫu cӫa Cepstrum chӭa nhӳng thông tin quan trӑQJÿӇ cung cҩp nhӳQJÿһc tính riêng biӋt cӫa sóng tín hiӋu
Hình 2-16 Ph͝ h s͙ MFCC cͯa m͡t tín hi u.
Trích xuҩWQăQJOѭӧng
TәQJQăQJOѭӧng cӫDNKXQJÿҫXYjRÿѭӧc tính ViӋFWtQKWRiQQj\ÿѭӧc thӵc hiӋQÿӗng thӡi khi tính toán các trӑng sӕ MFCC ChӍ sӕ QăQJOѭӧng cӫa tín hiӋu âm thanh sӁ ÿѭӧc WKrPYjRQKѭPӝt hӋ sӕ ÿһFWUѭQJWK{QJWKѭӡng.
ĈһFWUѭQJ*)&&
Bӝ lӑc Gammatone
Bӝ lӑF*DPPDWRQHÿѭӧc thiӃt kӃ ÿӇ mô phӓng quá trình hoҥWÿӝng cӫa hӋ thӕng thính JLiFFRQQJѭӡi Bӝ lӑc Gammatone gӗm mӝt chuӛi các bӝ lӑc thông dҧi, mӛi bӝ lӑc có mӝt tҫn sӕ trung tâm f c ÿѭӧF[iFÿӏnh bӣi công thӭc sau:
7URQJÿyM OjSKDWKѭӡng lҩy giá trӏ 0, a là hҵng sӕ ÿӝ lӧLWKѭӡng gҫn bҵng 1), n là bұc cӫa bӝ lӑc Thành phҫn b là hӋ sӕ suy giҧm cӫa bӝ lӑF[iFÿӏnh bӣi:
Tҫn sӕ trung tâm cӫa bӝ lӑc thӭ m Gammatone có thӇ ÿѭӧF[iFÿӏnh bӣi công thӭc:
M Đ Đ ãã Đăâ ãáạ ăâ ăâ Đăâ ãáạ Đăâ ãáạáạáạ (2.9)
7URQJÿy f H và f L lҫQOѭӧt là tҫn sӕ ÿi\YjWҫn sӕ ÿӍnh cӫa chuӛi bӝ lӑc
Hình 2-17 Gammatone Filter Bank vͣi t̯n s͙ ḽy m̳u 16000Hz
1KѭÿmWUuQKEj\0)&&Yj*)&&FyQKLӅXÿLӇPWѭѫQJÿӗng trong quá trình tính toán, chӍ khác biӋt lӟn nhҩt ӣ Eѭӟc áp dөng bӝ lӑc Mӝt trong nhӳQJѭXÿLӇm cӫa hӋ sӕ GFCC là tính әQÿӏnh vӟi nhiӉu, WX\QKLrQOѭӧng tính toán cҫn thiӃt lҥLWăQJOrQÿiQJNӇ
B̫ng 2-1 So sánh vi FWtQKWRiQÿ̿FWU˱QJ0)&&Yj*)&&
Pre-emphasis 7ăQJQăQJOѭӧng tín hiӋu ӣ tҫn sӕ FDRÿӇ cҧi thiӋn vӟi nhiӉu
7ăQJQăQJOѭӧng tín hiӋu ӣ tҫn sӕ FDRÿӇ cҧi thiӋn vӟi nhiӉu Framing Chia tín hiӋu thành nhiӅu khung Chia tín hiӋu thành nhiӅu khung
Windowing Áp dөng cӱa sә ÿӇ cho tӯng khung Áp dөng cӱa sә ÿӇ cho tӯng khung
DFT ChuyӇQÿәi khung tín hiӋXÿm tách vӅ miӅn tҫn sӕ
ChuyӇQÿәi khung tín hiӋXÿm tách vӅ miӅn tҫn sӕ
Filter Bank Mel Filter Bank Gammatone Filter Bank
IDFT ChuyӇQÿәLQJѭӧc vӅ miӅn thӡi gian
ChuyӇQÿәLQJѭӧc vӅ miӅn thӡi gian
Hình 2-18 Ph͝ h s͙ GFCC cͯa tín hi u
Sau khi thӵc hiӋn xong trích xuҩWÿһFWUѭQJWDVӁ có mӝt ma trұn hai chiӅXOjPÿҫu vào cӫa bӝ nhұn dҥng Mӝt chiӅXFyÿӝ dài phө thuӝFYjRÿӝ dài cӫa mүu âm thanh, chiӅu còn lҥLFyÿӝ dài phө thuӝc vào sӕ bӝ lӑFÿѭӧc sӱ dөng cӝng vӟi mӝt hӋ sӕ cӫDQăQJOѭӧng ĈӇ có thӇ WKXÿѭӧc cҧm xúc tӯ ÿҫu vào này ta cҫn áp dөng các mô hình tính toán phù hӧp cho quá trình nhұn dҥng Các mô hình nhұn dҥQJWKѭӡQJÿѭӧc sӱ dөng là K láng giӅng gҫn nhҩt (KNN ± K nearest neighbor), bӝ phân lӟp Nạve Bayes (Nạve Bayes Classifier), bӝ phân lӟp tuyӃn tính (Linearly separable), máy vertor hӛ trӧ (SVM - Support Vector Machine) Tuy nhiên, các mô hình nhұn dҥng này có mӝt sӕ QKѭӧFÿLӇm ví dө QKѭ.11 tuy không cҫn qua quá trình huҩn luyӋn phӭc tҥSQKѭQJOҥi rҩt tӕn thӡi gian trong quá trình kiӇm tra vì thuұt toán yêu cҫu tính toán khoҧQJFiFKÿӕi vӟi tҩt cҧ FiFÿLӇm trong bӝ dӳ liӋu; bӝ phân lӟp tuyӃn tính, SVM, Nạve Bayes thì phù hӧSKѫQÿӕi vӟi các bӝ dӳ liӋu tuyӃn tính (tӭc là bӝ dӳ liӋu dӉ phân tách)
Mô hình mҥQJQѫ-ron hӑc sâu, mô phӓng quá trình truyӅn thông tin trong mҥQJQѫ-ron thҫn kinh cӫDFRQQJѭӡi, có rҩt nhiӅu lӟp hàm phi tuyӃn ҭn ӣ giӳDP{KuQKWtQKWRiQÿҧm bҧRÿӫ khҧ QăQJFyWKӇ mô tҧ tҩt cҧ trҥng thái cӫa bӝ dӳ liӋu phi tuyӃn.
MҥQJQѫ-ron hӑc sâu
Lan truyӅn tiӃn
Tҩt cҧ các nӕt mҥQJÿѭӧc kӃt hӧSÿ{LPӝt vӟi nhau theo mӝt chiӅu duy nhҩt tӯ tҫng vào tӟi tҫng ra ӭc là mӛi nӕt ӣ mӝt tҫQJQjRÿyVӁ nhұQÿҫu vào là tҩt cҧ các nӕt ӣ tҫng WUѭӟFÿyPjNK{QJVX\OXұQQJѭӧc lҥi Hay nói cách khác, viӋc suy luұn trong mҥng NN là suy luұn tiӃn (feed forward):
7URQJ ÿy n (l) sӕ Oѭӧng nút ӣ tҫnglWѭѫQJ ӭng và a (l) j là nút mҥng thӭ j cӫa tҫng l Còn
(l 1) w ij là tham sӕ trӑQJ Oѭӧng cӫD ÿҫu vào
(l) a j ÿӕi vӟi nút mҥng thӭ i cӫa tҫng l+1 và
(l 1) b i Ojÿӝ lӋch (bias) cӫa nút mҥng thӭ i cӫa tҫng l1Ĉҫu ra cӫa nút mҥng
Qj\ÿѭӧc biӇu diӉn bҵng a i (l 1) ӭng vӟi hàm kích hoҥt f(z ) i WѭѫQJӭng Mӝt nӕt ӣ lӟp sau sӁ ÿѭӧc tính toán dӵa trên các nӕt lӟSWUѭӟc nó
Hình 2-20 Quá trình lan truy͉n trong m̩QJQ˯-ron
Hàm mҩt mát
Có mӝt sӕ hàm mҩt mát có thӇ ÿѭӧc sӱ dөng trong các bài toán phân loҥLÿk\FyWKӇ ÿѭӧc coi là mӝt siêu tham sӕ cӫa mô hình Mӝt sӕ hàm mҩt mát có thӇ ÿѭӧFÿHPUDFkQ nhҳc là trӏ tuyӋWÿӕi trung bình sai lӋch hay L1 loss (MAE -Mean Absolute Error loss), WUXQJEuQKEuQKSKѭѫQJVDLOӋch hay còn gӑi là L2 loss (MSE ± Mean Squared Error loss), hӗi quy logistic nhiӅu lӟp, support vertor machine, softmax (bao gӗm hàm softmax và hàm FURVVHQWURS\ĈӇ chӑn hàm mҩt mát phù hӧp ta cҫn quá trình thӱ nghiӋm nhiӅu lҫn và rút ra kӃt quҧ tӕt nhҩt Trong sӕ ÿyKjPVRIWPD[OjKjPPҩWPiWWKѭӡQJÿѭӧc sӱ dөng nhҩWÿӕi vӟi mҥQJQѫ-ron hӑc sâu nhiӅu lӟp vì hàm này trӯng phҥt rҩt nһng tҥLÿLӇm sai lӋch giúp quá trình huҩn luyӋn diӉQUDQKDQKFKyQJKѫQ
7URQJÿyܮ là hàm mҩt mҩt ӭng vӟi giá trӏ cӫDQKmQÿ~QJWURQJTXiWUuQKKXҩn luyӋn, ݏሺݕ ሻ OjJLiWUӏWtQKWRiQFӫDNӃWTXҧGӵÿRiQӭQJYӟLQKmQÿ~QJ s j j ¦ e OjWәQJFӫDWҩWFҧJLiWUӏWtQKWRiQVDXNKLTXDKjPH[S
Giҧi thuұt lan truyӅQQJѭӧc
Giҧi thuұt lan truyӅQQJѭӧc (back SURSDJDWLRQGQJÿӇ WtQKÿҥo hàm cӫa hàm mҩt mát ܧሺߠሻ*LҧLWKXұWODQWUX\ӅQQJѭӧFÿѭӧFWtQKWRiQQKѭVDX
/ҫQOѭӧWWtQKFiFSHUFHSWURQa ( ) l YӟLO ặ /WKHRF{QJWKӭF
%ѭӟF7tQKÿҥRKjPWKHR]ӣOӟSÿҫXUD
7tQKÿҥRKjPWKHR]QJѭӧFOҥLWӯOӟSO /- 1) ặ WKHRF{QJWKӭF
9ӟLa ( l 1) WtQKWӯEѭӟFYj E ( ) l z w w WtQKWӯEѭӟF 6DXNKLFyÿѭӧFFҩXWU~FFѫEҧQFӫDPӝWP{KuQKPҥQJKӑFVkXWDFҫQ[iFÿӏQKFiF
KjPWtQKWRiQWX\ӃQWtQKSKLWX\ӃQWKXӝFWURQJFiFOӟSҭQ&iFKjPWtQKWRiQQj\VӁÿѭӧF
WUuQKEj\WURQJSKҫQWLӃSWKHRPҥQJQѫ-URQWtFKFKұS
MҥQJQѫ-ron tích chұp
Lӟp tích chұp
Lӟp tích chұp là lӟSÿҫXWLrQÿӇ WUtFKÿһFWUѭQJWӯ ҧQKÿҫu vào SӁ có mӝt ma trұn kích WKѭӟc 2x2 hoһc 3x3 gӑi là Convolution Filter hay NHUQHOĈk\OjPӝt ma trұn sӁ quét qua ma trұn dӳ liӋXÿҫu vào, tӯ trái qua phҧi, trên xuӕQJGѭӟLYjQKkQWѭѫQJӭng tӯng giá trӏ cӫa ma trұQÿҫu vào mà ma trұn kernel rӗi cӝng tәng lҥi
Ma trân ҧnh vӟi sӕ chiӅu h w du u
.tFKWKѭӟFÿҫu ra cӫa ҧnh sӁ tính theo công thӭc:
SNtFKWKѭӟc khoҧng trҳQJÿѭӧc chèn thêm bên ngoài viӅn ҧnh gӕc
Các trӑng sӕ cӫa bӝ lӑc sӁ ÿѭӧc khӣi tҥo mӝt cách ngүXQKLrQYjÿѭӧc cұp nhұt xuyên suӕt quá trình huҩn luyӋn.
Lӟp kích hoҥt phi tuyӃn
Sau khi qua lӟp tích chұSÿӇ ÿҧm bҧo tính phi tuyӃn cӫa mô hình huҩn luyӋn Lӟp kích hoҥt phi tuyӃn sӁ ÿѭӧc ỏp dөQJQKѭ5H/8VLJPRLGWDQKôÿӇ giӟi hҥn phҥPYLELrQÿӝ cӫDÿҫXUD+jP5H/8WKѭӡQJÿѭӧc chӑQYuÿѫQJLҧn và tính toán nhanh Phép ReLU sӁ chuyӇn tҩt cҧ các giá trӏ âm thành 0, cө thӇ:
Hình 2-23 Lͣp kích ho̩t phi tuy͇n Ngu͛n: Lecture 7, slide 17, Stanford University
C231n: Convolutional Neural Networks for Visual Recognition
Lӟp pooling
Ĉ{LNKLҧnh gӕFFKѭDTXiQKLӅXWK{QJWLQÿѭӧc xem là nhiӉu Lӟp Pooling sӁ ÿѭӧc thêm YjRÿӇ OjPÿѫQJLҧn hóa khӕLOѭӧng tính toán tránh overfitting LoҥLSRROLQJWDWKѭӡng gһp nhҩt là max pooling, lҩy giá trӏ lӟn nhҩt trong mӝt pooling window Pooling hoҥWÿӝng gҫn giӕng vӟLFRQYROXWLRQQyFNJQJFyFӱa sә WUѭӧt gӑi là pooling window, cӱa sә này WUѭӧt qua tӯng giá trӏ cӫa ma trұn dӳ liӋX ÿҫX YjR WKѭӡng là các feature map trong convolutional layer), chӑn ra mӝt giá trӏ tӯ các giá trӏ nҵm trong cӱa sә WUѭӧt (vӟi max pooling ta sӁ lҩy giá trӏ lӟn nhҩt) ví dө VDXSRROLQJZLQGRZFyNtFKWKѭӟc là 2 * 2, stride ÿӇ ÿҧm bҧo không trùng nhau, và áp dөng max pooling:
Lӟp fully connected
Sau khi ҧQKÿѭӧc truyӅn qua nhiӅXFRQYROXWLRQDOOD\HUYjSRROLQJOD\HUWKuPRGHOÿm hӑFÿѭӧFWѭѫQJÿӕLFiFÿһFÿLӇm cӫa ҧnh (vớ dө mҳWPNJLNKX{QPһWôWKuWHQVRUFӫa output cӫa layer cuӕi cùQJNtFKWKѭӟc H*W*D, sӁ ÿѭӧc chuyӇn vӅ YHFWRUNtFKWKѭӟc +:'6DXÿyWDGQJFiFOӟSIXOO\FRQQHFWHGÿӇ kӃt hӧSFiFÿһFÿLӇm cӫa ҧQKÿӇ ra ÿѭӧc output cӫa model
Lӟp này có cҩu trúc giӕng mҥQJQѫ-ron truyӅn thӕng, tӭc là mӛi unit sӁ kӃt nӕi vӟi tҩt cҧ các unit cӫa lӟp tiӃp theo
Lӟp Drop-out
Mӝt vҩQÿӅ quan trӑQJWKѭӡng gһp phҧi trong quá trình huҩn luyӋn mҥng là over-fitting Trong mӝt mҥQJQѫ-ron quá phӭc tҥp thì sӵ phө thuӝc lүn nhau giӳa các layer là rҩt lӟn ĈLӅu này rҩt dӉ gây ra over-ILWWLQJĈӇ giҧi quyӃt vҩQÿӅ Qj\NƭWKXұt Drop-RXWÿmUDÿӡi
Drop-out giҧ ÿӏnh mӝt phҫn các unit bӏ ҭQÿLWURQJTXiWUuQKWUDLQLQJTXDÿyOjPJLҧm tính phө thuӝc lүn nhau giӳa các layer Tҥi mӛi step trong quá trình train, khi thӵc hiӋn Eѭӟc lan truyӅn thuұQÿӃn lӟp Drop-out, thay vì tính toán tҩt cҧ unit có trên layer, ta sӁ chӑn ngүu nhiên theo tӍ lӋ nhӳQJXQLWQjRÿѭӧc giӳ lҥi và nhӳng unit nào sӁ bӏ bӓ ÿL
KӃt luұQFKѭѫQJ
&KѭѫQJQj\ÿmWUuQKEj\FKLWLӃt các phҫn lý thuyӃWÿѭӧc sӱ dөQJÿӇ xây dӵng mô hình tính toán trong luұQYăQ3Kҫn trình bày bao gӗm các phҫn chính là giӟi thiӋXFiFKѭӟng tiӃp cұn bài toán nhұn dҥng cҧm xúc lӡLQyLSKѭѫQJSKiSSKiWKLӋn tiӃng nói thӡi gian thӵFSKѭѫQJSKiSWUtFK[XҩWÿһFWUѭQJ0)&&*)&&PҥQJQѫ-ron hӑc sâu, mҥQJQѫ- ron tích chұp Ngoài ra, mӝt sӕ vҩQÿӅ QKѭRYHU-fitting, vҩQÿӅ vӅ nhiӉu, các siêu tham sӕ vӅ hàm mҩt mát, mô hình nhұn dҥQJFNJQJÿѭӧFÿӅ cұp và phân tích
6DXNKLÿmQҳm rõ các lý thuyӃWFѫEҧn, các lý thuyӃt này sӁ ÿѭӧc áp dөng nhҵm mô hình hóa, phân tích và phát triӇn giҧi thuұt tәng quát cho bài toán nhұn dҥng cҧm xúc qua lӡi nói
&+ѬѪ1* XÂY DӴNG GIҦI THUҰT NHҰN DҤNG CҦM
&KѭѫQJQj\ÿӅ xuҩt mô hình nhұn dҥng cҧm xúc qua lӡi nói dӵa trên nhӳng lý thuyӃt liên quan NӝL GXQJ FKѭѫQJ Jӗm 2 phҫn chính: giӟi thiӋu bӝ dӳ liӋu cҧm xúc lӡi nói RAVDESS, xây dӵng mô hình nhұn dҥQJ7URQJÿyYLӋc xây dӵng mô hình nhұn dҥng ÿѭӧc chia nhӓ thành ba phҫn riêng biӋt, liên tiӃp nhau, kӃt quҧ ÿҫu ra cӫa phҫQQj\Ojÿҫu vào cӫa phҫn liӅn kӅ sau
&KѭѫQJQj\ÿѭӧc tә chӭc gӗm 3 mөc: Mөc 3.1 giӟi thiӋu vӅ bô dӳ liӋu cҧm xúc lӡi nói RAVDESS Trong 3.2, luұQYăQWұp trung trình bày viӋc xây dӵng mô hình nhұn dҥng cҧm xúc Mөc 3.3 KӃt luұQFKѭѫQJ
Bӝ dӳ liӋu cҧm xúc lӡi nói RAVDESS
RAVDESS là mӝWE{FѫVӣ dӳ liӋXÿDSKѭѫQJGLӋn vӅ lӡLQyLÿmÿѭӧc xác thӵF&ѫVӣ dӳ liӋXÿѭӧc cân bҵng vӅ giӟi tính bao gӗm 24 diӉn viên chuyên nghiӋp, phát âm các câu FKRWUѭӟc bҵng giӑng BҳF0ƭWUXQJWtQK'ӳ liӋu lӡLQyLÿmÿѭӧFÿiQKQKmQEDRJӗm các trҥng thái cҧP[~FQKѭEuQKWƭQKYXLEXӗn, tӭc giұn, sӧ hãi, ngҥc nhiên, ghê tӣPÿӗng thӡi là cái lӡi nhҥc vӟi các trҥng thái cҧP[~FWѭѫQJWӵ Mӛi trҥng thái cҧm xúc sӁ ÿѭӧc thu vӟi hai mӭFFѭӡQJÿӝ biӇu lӝ cҧm xúc, vӟi mӝt biӇu lӝ trung tính bә sung Dӳ liӋu còn có sҹn ӣ FiFÿӏnh dҥQJNKiFQKDXQKѭYӯa âm thanh vӯa hình ҧnh khuôn mһt, chӍ âm thanh hoһc chӍ hình ҧnh Bӝ gӗm 1440 file: 60 file cho tӯng diӉn viên x 24 diӉn viên (12 nam
12 nӳ) Tҩt cҧ các bҧQ WKX ÿӅX ÿѭӧc cung cҩp miӉn phí theo giҩy phép cӫa Creative Commons License và có thӇ tҧi xuӕng mӝt cách dӉ dàng
Hình 3-1 B͡ dataset c̫m xúc lͥi nói RAVDESS[33]
Xây dӵng mô hình nhұn dҥng cҧm xúc lӡi nói
ThiӃt kӃ hӋ thӕng phát hiӋn lӡi nói thӡi gian thӵc
Ӣ Eѭӟc này chúng ta cҫn thӵc hiӋn phân loҥLÿkXOjWtQKLӋu tiӃng nói cҫQÿHPÿLQKұn diӋQÿkXOjWtQKLӋu nhiӉXEuQKWKѭӡQJ1KѭÿmWUuQKEj\ӣ WUrQFiFKjPÿѭӧc sӱ dөng sӁ là Zero-Crossing Rate (ZCR) và Short Time Energy (STE) Hai hàm này cҫn chӑQQJѭӥng kích hoҥt ӣ Eѭӟc tiӅn xӱ lí
Hình 3-3 Mô hình phát hi n lͥi nói thͥi gian thc
1Jѭӥng kích hoҥWÿѭӧc chӑn phҧLWѭѫQJӭng vӟi phҫn cӭQJÿѭӧc sӱ dөng nhҵm tránh sai sót dүQÿӃn phân loҥi nhҫm tín hiӋu lӡi nói
1Jѭӥng kích hoҥt cho hàm STE: 100
1Jѭӥng kích hoҥt cho hàm ZCR: 0.1
ThiӃt kӃ hӋ thӕng nhұn dҥng giӟi tính qua tín hiӋu lӡi nói
Mô hình sӱ dөng ba loҥi trích xuҩWÿһFWUѭQJÿӇ tính toán và so sánh kӃt quҧ: log-mel, GFCC, MFCC NhӳQJÿһFWUѭQJQj\ÿѭӧFGQJÿӇ OjPÿҫu vào cho mô hình mҥng hӑc sâu KӃt quҧ huҩn luyӋn cuӕi cùng nhұQÿѭӧc tӯ bӝ DNN
Hình 3-4 Mô hình hṷn luy n nh̵n d̩ng giͣi tính qua lͥi nói
0{KuQKÿӅ xuҩt gӗm 3 khӕi tích chұp và 2 khӕi fully-connected chi tiӃWÿѭӧc cho trong bҧng 5 Khӕi tích chұp ÿҫu tiên, kí hiӋu là C01, nhұQÿҫXYjROjÿһFWUѭQJVDXÿyTXDOӟp tích chұp Conv01 64 kênh, kernel 5x5, lӟS%DWFK1RUPYj'URS2XWÿѭӧc thêm vào làm nhiӋm vө giúp chӕng over-fitting và giҧm thӡi gian huҩn luyӋn, lӟp Max Pooling, kernel 4x4 cuӕLFQJÿӇ giҧm khӕLOѭӧQJWtQKWRiQÿӗng thӡLFNJQJFKӕng over-fitting Khӕi tích chұp thӭ hai và thӭ ba có cҩu trúc gҫQQKѭWѭѫQJWӵ chӍ khác vӅ ÿҫu ra cӫa lӟp tích chұp
(128 ӭng vӟi khӕi thӭ 2 và 256 ӭng vӟi khӕi thӭ Ĉҫu ra cӫa khӕi tích chұp cuӕi cùng
37 ÿѭӧc trҧi thành vector mӝt chiӅXVDXÿyTXDOӟp fully-connected vӟi hàm activation là VRIWPD[ÿӇ xuҩt ra giá trӏ nhұn diӋn
B̫ng 3-1 Tham s͙ mô hình nh̵n d̩ng giͣi tính quá lͥi nói
.tKLӋX /ӟS tFKWKѭӟFÿҫXUD 6ӕKӋVӕSKҧLKӑF
ThiӃt kӃ hӋ thӕng nhұn dҥng cҧm xúc qua tín hiӋu lӡi nói
Mô hình sӱ dөng kӃt quҧ cӫa viӋc nhұn diӋn giӟLWtQKQKѭPӝWÿһFWUѭQJSKө cho quá WUuQK[iFÿӏnh cҧP[~F7KHRÿyGӳ liӋXGQJÿӇ train sӁ ÿѭӧc chia làm 2 loҥi dӵa trên giӟi tính cӫDQJѭӡLQyL6DXÿyP{KuQKKXҩn luyӋn sӁ ÿѭӧc áp dөng riêng cho tӯng loҥi NKiFQKDXYjOѭXOҥi khi hoàn tҩt quá trình huҩn luyӋn Lúc chҥy thӵc nghiӋm hӋ thӕng sӁ nhұn diӋn giӟLWtQKWUѭӟc và áp dөng loҥi mô hình cҧP[~FÿmKXҩn luyӋQWKHRÿ~QJORҥi giӟLWtQKÿmÿѭӧF[iFÿӏQKWUѭӟFÿy
Hình 3-5 Mô hình nh̵n d̩ng c̫m xúc lͥi nói B̫ng 3-2 Tham s͙ mô hình nh̵n d̩ng c̫m xúc lͥi nói
.tKLӋX /ӟS tFKWKѭӟFÿҫXUD 6ӕKӋVӕSKҧLKӑF
Mô KuQKÿӅ xuҩt dӵDWUrQP{KuQK9&*NKiWѭѫQJWӵ mô hình nhұn diӋn giӟi tính
Mô hình gӗm 4 khӕi tích chұp và 3 khӕi fully-connected (bә sung thêm mӝt khӕi tích chұp C04 và mӝt khӕi fully-connected) Các lӟp tích chұp sӱ dөQJNHUQHOFyNtFKWKѭӟc 5x5 và cyNrQKÿҫXUDWăQJGҫn Các lӟp Max Pooling sӱ dөng kernel 2x2
Hình 3-6 Mô hình hṷn luy n nh̵n d̩ng c̫m xúc qua lͥi nói
KӃt luұQFKѭѫQJ
&KѭѫQJQj\ÿmWUuQKEj\FKLWLӃt giҧi thuұt xây dӵng mô hình nhұn dҥng cҧm xúc qua lӡi nói gӗPFiFEѭӟc: thu thұp dӳ liӋXSKѭѫQJSKiSSKiWKLӋn tín hiӋu tiӃng nói thӡi gian thӵc, mô hình nhұn dҥng giӟi tính, mô hình nhұn dҥng cҧP[~F&KѭѫQJWLӃp theo sӁ trình bày chi tiӃWFiFEѭӟc thiӃt kӃ và thӵc hiӋn giҧi thuұt này trên máy tính nhúng Jetson Nano
&+ѬѪ1* THIӂT Kӂ VÀ THӴC HIӊN ӬNG DӨNG LÊN
7URQJFKѭѫQJQj\OXұQYăQVӁ giӟi thiӋu vӅ tҩt cҧ các thành phҫQÿѭӧc sӱ dөng bao gӗm cҧ phҫn cӭng và phҫn mӅm, cách thӭc hiӋn thӵc nhӳng mô hình thiӃt kӃ ÿmÿѭӧc xây dӵng tӯ FKѭѫQJWUѭӟFOrQPi\WtQKQK~QJ-HWVRQ1DQR&KѭѫQJQj\FzQWұp trung phân WtFKÿiQKJLiYӅ các lӵa chӑn khác nhau cӫa phҫn cӭng và phҫn mӅPÿӇ ÿLÿӃn viӋc chӑn các thành phҫn tham gia phù hӧp nhҩt
&KѭѫQJQj\ÿѭӧc chia làm 4 mөc: Mөc 4.1 sӁ giӟi thiӋu vӅ các phҫn cӭQJÿѭӧc sӱ dөng Trong mөc 4.2, luұQYăQJLӟi thiӋu vӅ các phҫn mӅPÿѭӧc sӱ dөng Mөc 4 tұp trung trình bày cách thӭc thӵc hiӋn mô hình lên máy tính nhúng Mөc 4.4 kӃt luұQFKѭѫQJ
Giӟi thiӋu phҫn cӭng
Máy tính nhúng NVIDIA® Jetson Nano
Máy tính nhúng NVIDIA® Jetson Nano mang lҥi hiӋu suҩt mҥnh mӁ ÿӇ chҥy khӕi Oѭӧng lӟn công viӋc AI hiӋn nay vӟi chi phí không cao Nhà phát triӇn có thӇ sӱ dөng máy tính nhúng cho các công viӋc phân loҥi hình ҧQKÿӕLWѭӧQJSKkQÿRҥn và xӱ lí giӑng nói
Khi sӱ dөng kit phát triӇn Jetson Nano, nhà phát triӇQÿѭӧc cung cҩp micro-86%YjÿL kèm vӟi các I/O mӣ rӝng, tӯ *3,2ÿӃQ&6,ĈLӅu này giúp chúng ta dӉ dàng kӃt nӕi mӝt loҥt các loҥi cҧm biӃn mӟi các thiӃt bӏ gҳn rӡLNKiFQKDXÿӇ phөc vө cho các ӭng dөng AI
Và nó cӵc kì tiӃt kiӋPÿLӋn, tiêu thө ít nhҩWOjZDWW-HWVRQ1DQRFNJQJÿѭӧc hӛ trӧ bӣi NVIDIA JetPack, bao gӗm gói hӛ trӧ bo mҥch (BSP), hӋ ÿLӅXKjQK/LQX[8EXQWXWKѭ viӋn phҫn mӅP19,',$&8'$FX'11Yj7HQVRU57ÿӇ phөc vө cho các tác vө hӑc sâu, thӏ giác máy tính, tính toán GPU, xӱ OêÿDSKѭѫQJWLӋQYjKѫQWKӃ nӳa Phҫn mӅm thұm chí có sҹn bҵng cách sӱ dөng thӇ 6'FKRSKpSFjLÿһt dӉ dàng, nhanh chóng Cùng mӝt SDK JetPaFNÿѭӧc sӱ dөQJÿӗng bӝ trên toàn bӝ các sҧn phҭm cӫa NVIDIA và hoàn toàn WѭѫQJWKtFKÿӃn các nӅQWjQJ$,KjQJÿҫu thӃ giӟi cӫD19,',$ĈLӅu này cho phép dӉ dàng huҩn luyӋn và triӇn khai phҫn mӅm AI trên nhiӅu nӅn tҧng khác nhau
Hình 4-1 Máy tính nhúng NVIDIA Jetson Nano B̫ng 4-1 Thông s͙ chi ti͇t máy tính nhúng NVIDIA Jetson Nano
Memory 4 GB 64 Bit LPDDR4 | 25.6 GB/s
*LҧLPmYLGHR 4Kp60 | 2x 4Kp30 | 8x 1080p30 | 16x 720p30 | (H.264/H.265) Camera 1x MIPI CSI-2 DPHY lanes
&әQJNӃWQӕL Gigabit Ethernet, M.2 Key E
1JRҥLYL GPIO, I2C, I2S, SPI, UART
Giӟi thiӋu phҫn mӅm
Python
Python là mӝt ngôn ngӳ lұp trình bұc cao cho các mөFÿtFKOұSWUuQKÿDQăQJGR Guido van Rossum tҥo ra và lҫQÿҫu ra mҳWYjRQăm 19913\WKRQÿѭӧc thiӃt kӃ vӟLѭXÿLӇm mҥnh là dӉ ÿӑc, dӉ hӑc và dӉ nhӟ Python là ngôn ngӳ có hình thӭc rҩt sáng sӫa, cҩu trúc rõ ràng, thuұn tiӋQFKRQJѭӡi mӟi hӑc lұp trình Cҩu trúc cӫa PytKRQFzQFKRSKpSQJѭӡi sӱ dөng viӃt mã lӋnh vӟi sӕ lҫn gõ phím tӕi thiӇu Python hoàn toàn tҥo kiӇXÿӝng và dùng FѫFKӃ cҩp phát bӝ nhӟ tӵ ÿӝng; do vұ\QyWѭѫQJWӵ QKѭ Perl, Ruby, Scheme, Smalltalk 3\WKRQÿѭӧc phát triӇn trong mӝt dӵ án mã mӣ, do tә chӭc phi lӧi nhuұn Python Software Foundation quҧn lý
Trong các ngôn ngӳ khác, khӕi lӋQKWKѭӡng ÿѭӧFÿiQKGҩu bҵng cһp ký hiӋu hoһc tӯ khóa Ví dө, trong C/C++, cһp ngoһc nhӑn { } ÿѭӧF GQJ ÿӇ bao bӑc mӝt khӕi lӋnh Python, trái lҥi, có mӝt cách rҩWÿһc biӋWÿӇ tҥo khӕi lӋQKÿyOjWKөt các câu lӋnh trong khӕLYjRVkXKѫQYӅ bên phҧi) so vӟi các câu lӋnh cӫa khӕi lӋnh cha chӭa nó
Python có thӇ ÿѭӧc mӣ rӝng: nӃu ta biӃt sӱ dөng C, ta có thӇ dӉ dàng viӃt và tích hӧp vào Python nhiӅu hàm tùy theo nhu cҫu Các hàm này sӁ trӣ thành hàm xây dӵng sҹn (built-in) cӫD3\WKRQ7DFNJQJFyWKӇ mӣ rӝng chӭFQăQJFӫa trình thông dӏch, hoһc liên kӃWFiFFKѭѫQJWUuQK3\WKRQYӟLFiFWKѭYLӋn chӍ ӣ dҥng nhӏ SKkQQKѭFiFWKѭYLӋQÿӗ hӑa do nhà sҧn xuҩt thiӃt bӏ cung cҩp)
Python là mӝt ngôn ngӳ lұp trình dҥng thông dӏchGRÿyFyѭXÿLӇm tiӃt kiӋm thӡi gian phát triӇn ӭng dөng vì không cҫn phҧi thӵc hiӋn biên dӏch và liên kӃt Trình thông dӏch có thӇ ÿѭӧc sӱ dөQJÿӇ chҥy file script, hoһc FNJQJFyWKӇ ÿѭӧc sӱ dөQJWKHRFiFKWѭѫQJWiF Ӣ chӃ ÿӝ WѭѫQJWiFWUuQKWK{QJGӏFK3\WKRQWѭѫQJWӵ shell cӫa các hӋ ÿLӅu hành hӑ Unix, tҥLÿyWDFyWKӇ nhұp vào tӯng biӇu thӭc rӗi gõ Enter, và kӃt quҧ thӵc thi sӁ ÿѭӧc hiӇn thӏ ngay lұp tӭFĈһFÿLӇm này rҩt hӳXtFKFKRQJѭӡi mӟi hӑc, giúp hӑ nghiên cӭXWtQKQăQJ cӫa ngôn ngӳ; hoһFÿӇ các lұp trình viên chҥy thӱ mã lӋnh trong suӕt quá trình phát triӇn phҫn mӅm ĈDQăQJ
Python là mӝt ngôn ngӳ lұSWUuQKÿѫQJLҧQQKѭQJUҩt hiӋu quҧ x So vӟi Unix shell, Python hӛ trӧ FiFFKѭѫQJWUuQKOӟQKѫQYjFXQJFҩp nhiӅu cҩXWU~FKѫQ x So vӟi C, Python cung cҩp nhiӅX Fѫ FKӃ kiӇm tra lӛL KѫQ 1y FNJQJ Fy Vҹn nhiӅu kiӇu dӳ liӋu cҩp cao, ví dө QKѭ FiF Pҧng (array) linh hoҥt và tӯ ÿLӇn (dictionary) mà ta sӁ phҧi mҩt nhiӅu thӡi gian nӃu viӃt bҵng C
Python là mӝt ngôn ngӳ lұp trình cҩp cao có thӇ ÿiSӭng phҫn lӟn yêu cҫu cӫa lұp trình viên: x Python thích hӧp vӟLFiFFKѭѫQJWUuQKOӟQKѫQFҧ AWK và Perl x 3\WKRQÿѭӧc sӱ dөQJÿӇ lұp trình Web Nó có thӇ ÿѭӧc sӱ dөQJQKѭPӝt ngôn ngӳ kӏch bҧn x 3\WKRQÿѭӧc thiӃt kӃ ÿӇ có thӇ nhúng và phөc vө QKѭPӝt ngôn ngӳ kӏch bҧn ÿӇ tuǤ biӃn và mӣ rӝng các ӭng dөng lӟQKѫQ x 3\WKRQÿѭӧc tích hӧp sҹn nhiӅu công cө và có mӝt WKѭYLӋn chuҭn phong phú, 3\WKRQFKRSKpSQJѭӡi dùng dӉ dàng tҥo ra các dӏch vө Web, sӱ dөng các thành phҫn COM hay CORBA, hӛ trӧ các loҥi ÿӏnh dҥng dӳ liӋu Internet QKѭ email, HTML, XML và các ngôn ngӳ ÿiQK dҩu khác Python FNJQJ ÿѭӧc cung cҩS FiF WKѭ YLӋn xӱ lý các giao thӭc Internet thông dөng QKѭ HTTP, FTPô x Python có khҧ QăQJJLDRWLӃSÿӃn hҫu hӃt các loҥi FѫVӣ dӳ liӋu, có khҧ QăQg xӱ OêYăQEҧn, tài liӋu hiӋu quҧ, và có thӇ làm viӋc tӕt vӟi các công nghӋ Web khác x 3\WKRQ ÿһc biӋt hiӋu quҧ trong lұp trình tính toán khoa hӑc nhӡ các công cө Python Imaging Library, pyVTK, MayaVi 3D Visualization Toolkits, Numeric Python, ScientificPythonô
44 x Python có thӇ ÿѭӧc sӱ dөQJ ÿӇ phát triӇn các ӭng dөng desktop Lұp trình viên có thӇ dùng wxPython, PyQt, PyGtk ÿӇ phát triӇn các ӭng dөng giao diӋn ÿӗ hӑa (GUI) chҩWOѭӧng cao Python còn hӛ trӧ các nӅn tҧng phát triӇn phҫn mӅPNKiFQKѭ MFC, Carbon, Delphi, X11, Motif, Tk, Fox, FLTKô x 3\WKRQFNJQJFyVҹn mӝt unit testing framework ÿӇ tҥo ra các bӝ test (test suites).
TensorFlow
TensorFlow là mӝWWKѭYLӋn quan trӑng trong Python giúp các nhà nghiên cӭu triӇn khai mô hình tính toán trong các bài toán vӅ nhұn dҥng Ngoài TensorFlow thì có mӝt sӕ WKѭ viӋQNKiFQKѭ3\WRUFKÿѭӧc phát triӇn bӣi Facebook) Tuy nhiên, TensorFlow lҥLÿѭӧc tӕLѭXWUrQ*RRJOHFRODEF{QJFө ÿLӋQWRiQÿiPPk\JL~SOѭXWUӳ dӳ liӋu và huҩn luyӋn QKDQKKѫQGRFQJQKjSKiWWULӇn Google, nên luұQYăQѭXWLrQVӱ dөQJ7HQVRU)ORZÿӇ xây dӵng mô hình huҩn luyӋn
9jLQăPWUѭӟc, khi phҧi xӱ OêOѭӧng dӳ liӋu khәng lӗ, deep learning bҳWÿҫu cho thҩy hiӋXQăQJYѭӧt trӝi so vӟi tҩt cҧ các thuұt toán machine learning khác Google sӟm nhұn ra tiӅPQăQJQj\YjQJKƭUҵng hӑ nên sӱ dөng GHHSQHXUDOQHWZRUNÿӇ cҧi thiӋn các dӏch vө cӫDPuQKWURQJÿy có: x Gmail x Hình ҧnh x Google search engine
ThӃ rӗi các nhà nghiên cӭu vӅ AI cӫa Google dӵng 1 framework có tên là TensorFlow ÿӇ có thӇ làm viӋc cùng nhau trên các model A.I MӝWNKLÿmÿѭӧc phát triӇn và scale hoàn chӍnh, rҩt nhiӅXQJѭӡLÿmFyWKӇ sӱ dөQJÿѭӧc nó Ra mҳt lҫQÿҫu vào cuӕLQăP phiên bҧn TensorFlow әQÿӏnh cuӕLFQJFNJQJ[Xҩt hiӋQYjRQăP/jPmQJXӗn mӣ Gѭӟi sӵ cho phép cӫa Apache Open Source, giӡ ÿk\Eҥn có thӇ sӱ dөQJÿLӅu chӍnh và tái ÿyQJJySSKLrQEҧQÿѭӧFÿLӅu chӍQKÿyÿәi lҥi không cҫn phҧi trҧ bҩt cӭ ÿӗng nào cho Google
TensorFlow là mӝt nӅn tҧng mã nguӗn mӣ end-to-end dành cho hӑc máy Nó có mӝt hӋ sinh thái toàn diӋn, linh hoҥt gӗm các công cөWKѭYLӋn và tài nguyên cӝQJÿӗng cho phép các nhà nghiên cӭXWK~Fÿҭ\WtQKQăQJWLrQWLӃn trong hӑc sâu và các nhà phát triӇn dӉ dàng xây dӵng và triӇn khai các ӭng dөng hӛ trӧ hӑFVkXĈѭӧc viӃt bҵng C++ và thao tác interface bҵng Python nên phҫn performance cӫa TensorFlow cӵc kǤ tӕWĈӕLWѭӧng sӱ dөQJQyFNJQJÿDGҥng không kém: tӯ các nhà nghiên cӭu, nhà khoa hӑc dӳ liӋXYjGƭQKLrQ không thӇ thiӃu các lұp trình viên
KiӃn trúc TensorFlow hoҥWÿӝQJÿѭӧc chia thành 3 phҫn: x TiӅn xӱ lý dӳ liӋu x Dӵng model x 7UDLQYjѭӟc tính model
Cách TensorFlow hoҥWÿӝng
TensorFlow cho phép các lұp trình viên tҥo ra dataflow graph, cҩu trúc mô tҧ làm thӃ nào dӳ liӋu có thӇ di chuyӇn qua 1 biӇXÿӗ, hay 1 sê-ri các QRGHÿDQJ[ӱ lý Mӛi node WURQJÿӗ thӏ ÿҥi diӋn 1 operation toán hӑc, và mӛi kӃt nӕi hay edge giӳa các node là 1 mҧng dӳ liӋXÿDFKLӅXKD\FzQÿѭӧc gӑLOjàWHQVRUả
TensorFlow cung cҩp tҩt cҧ nhӳQJÿLӅu này cho lұSWUuQKYLrQWKHRSKѭѫQJWKӭc cӫa ngôn ngӳ Python Vì Python khá dӉ hӑc và làm viӋc, ngoài ra còn cung cҩp nhiӅu cách tiӋn lӧLÿӇ ta hiӇXÿѭӧc làm thӃ nào các high-level abstractions có thӇ kӃt hӧp cùng nhau 1RGHYjWHQVRUWURQJ7HQVRU)ORZOjFiFÿӕLWѭӧng Python, và các ӭng dөng TensorFlow bҧn tKkQFK~QJFNJQJOjFiFӭng dөng Python
Các operation toán hӑc thӵc sӵ WKuNK{QJÿѭӧc thi hành bҵQJ3\WKRQ&iFWKѭYLӋn biӃn ÿәi có sҹQWK{QJTXD7HQVRU)ORZÿѭӧc viӃt bҵng các binary C++ hiӋu suҩt cao Python chӍ ÿLӅXKѭӟQJOѭXOѭӧng giӳa các phҫn và cung cҩp các high-level abstraction lұp trình ÿӇ nӕi chúng lҥi vӟi nhau
7HQVRU)ORZÿѭӧc ra mҳWYjRWKiQJQăPFҧi tiӃn framework theo nhiӅu cách dӵa trên phҧn hӗi cӫDQJѭӡLGQJÿӇ dӉ dàng và hiӋu quҧ KѫQNKLOjPYLӋc cùng nó (ví dө: bҵng cách sӱ dөQJFiF.HUDV$3,OLrQTXDQÿѫQJLҧn cho viӋc train model) Train phân tán dӉ chҥ\KѫQQKӡ vào API mӟi và sӵ hӛ trӧ cho TensorFlow Lite cho phép triӇn khai các mô hình trên khá nhiӅu nӅn tҧng khác nhau Tuy nhiên, nӃXÿmYLӃt code trên các phiên bҧQWUѭӟFÿyFӫa TensorFlow thì bҥn phҧi viӃt lҥLÿ{LO~FtWÿ{LO~FFNJQJNKiÿiQJ kӇÿӇ tұn dөng tӕLÿDFiFWtQKQăQJPӟi cӫa TensorFlow 2.0
&iFKjPÿѭӧc dӵng sҹQWURQJWKѭYLӋn cho tӯng bài toán cho phép TensorFlow xây dӵQJÿѭӧc nhiӅu neural network Nó còn cho phép bҥn tính toán song song trên nhiӅu máy tính khác nhau, thұm chí trên nhiӅu CPU, GPU trong cùng 1 máy hay tҥo ra các dataflow graph ± ÿӗ thӏ luӗng dӳ liӋXÿӇ dӵng nên các model.
Google Colab
Google Colab hay còn gӑi là Colaboratory, là mӝt dӏch vө ÿLӋQWRiQÿiPPk\Vҧn phҭm tӯ Google Research, nó cho phép chҥy các dòng code python thông qua trình duyӋWÿһc biӋt phù hӧp vӟi Data analysis, machine learning và giáo dөc Colab không cҫn yêu cҫu FjLÿһt hay cҩu hình máy tính, mӑi thӭ có thӇ chҥy thông qua trình duyӋt, bҥn có thӇ sӱ dөng tài nguyên máy tính tӯ CPU tӕFÿӝ cao và cҧ GPUs và cҧ 738VÿӅXÿѭӧc cung cҩp cho bҥn Colab cung cҩp nhiӅu loҥL*38WKѭӡng là Nvidia K80s, T4s, P4s and P100s, tuy QKLrQQJѭӡi dùng không thӇ chӑn loҥi GPU trong ColaE*38WURQJ&RODEWKD\ÿәi theo thӡi gian Vì là dӏch vө miӉn phí, nên Colab sӁ có nhӳng thӭ tӵ ѭXWLrQWURQJYLӋc sӱ dөng tài nguyên hӋ thӕQJFNJQJQKѭJLӟi hҥn thӡi gian sӱ dөng, thӡi gian sӱ dөng tӕLÿDOrQWӟi
Hình 4-4 Google Colab Ĉѭӧc phát triӇn dӵa trên Jupiter Notebook nên viӋc sӱ dөQJ*RRJOH&RODEFNJQJWѭѫQJ tӵ QKѭYLӋc sӱ dөQJ-XSLWHU1RWHERRN*RRJOH&RODEFNJQJFjLÿһt sҹn nhӳng bӝ WKѭYLӋn phә biӃn cӫa Python trong nghiên cӭXGHHSOHDUQLQJQKѭ3\WRUFK7HQVRU)ORZ.HUDVYj OpenCV
B̫ng 4-2 C̭u hình ph̯n cͱng Google Colab cung c̭p
9L[ӱOt,QWHO;HRQYӟL core 2.3 GHz and 13 GB
*''595$09L[ӱOê Intel Xeon, 2 core 2.2 GHz và 13 GB RAM
738YӟLKӋVӕWtQK WRiQWHUDIORSVYL[ӱOê Intel Xeon, 2 core 2.3 GHz và 13 GB RAM
HiӋn thӵc thiӃt kӃ
Quá trình huҩn luyӋn
ĈӇ tránh sӵ ÿӗQJÿLӋu giӳa các mүu cҧP[~FYjWăQJKLӋu xuҩt nhұn dҥQJÿӅ WjLÿӅ xuҩt nhұn dҥng 4 loҥi cҧm xúc thông dөng và có tác dөQJWURQJÿLӅu trӏ WkPOtÿyOjFҧm [~FWUXQJWtQKEuQKWKѭӡng), sӧ sӋt, giұn dӳ, buӗn bã Dӳ liӋXÿѭӧc sӱ dөQJÿӇ huҩn luyӋn bao gӗm các mүXFyFѭӡQJÿӝ biӇu lӝ cҧm xúc cao cӫa nhӳng cҧm xúc cҫn nhұn dҥng ӣ trên trong bӝ dataset RAVDESS và các mүXÿѭӧc cҳt trӵc tiӃp tӯ FiFÿRҥn video và tӵ ÿiQKQKmQ&iFPүu dӳ liӋu VDXNKLÿѭӧc tәng hӧSÿӗng bӝ các thông sӕ và loҥi bӓ nhiӉu sӁ ÿѭӧc upload lên server cloud miӉn phí cӫD*RRJOH&RODEÿӇ huҩn luyӋn Quá trình huҩn luyӋn trên cloud bao gӗPFiF Eѭӟc: trích xuҩWÿһFWUѭQJKXҩn luyӋQÿһFWUѭQJYjWLQK chӍnh các siêu tham sӕ cho mô hình nhұn dҥQJ6DXNKLÿmFKӑQÿѭӧc các siêu tham sӕ cҫn thiӃt, mô hình huҩn luyӋn tӕLѭXVӁ ÿѭӧc tҧi xuӕQJÿӇ tiӃn hành chҥy thӵc nghiӋm trên phҫn cӭng, kӃt thúc quá trình huҩn luyӋn
Hình 4-5 Mô hình t͝ng quát quá trình hṷn luy n
Các mүXÿҫu vào cҳt khung vӟLÿӝ GjLVVDXÿyWKrPQKLӉXÿӇ OjPWăQJWtQKÿDGҥng cӫa mүu dӳ liӋu NhiӉXÿѭӧc sӱ dөng trong luұQYăQOjQKLӉu Gauss, viӋc áp dөng nhiӉu này giúp mô phӓng lҥi nhiӉu nӅQWѭѫQJWӵ QKѭWtQKLӋu thӵc tӃ mà ta thu âm tӯ micro Sau NKLÿDGҥng dӳ liӋu bҵng nhiӉu, ta sӁ có gҩSÿ{LVӕ Oѭӧng mүu dӳ liӋu cho quá trình tính toán def noise(x): noise_amp = 0.05*np.random.uniform()*np.amax(x) x = x.astype('float64') + noise_amp * np.random.normal(size=x.shape
%rQ WUrQ Oj ÿRҥQ Pm S\WKRQ ÿӇ tҥo nhiӉX JDXVV ÿRҥn mã sӱ dөng hàm QSUDQGRPQRUPDOWURQJWKѭYLӋQQXPS\ÿӇ tҥo vector nhiӉu vӟLÿӝ dài chính bҵng vӟLÿӝ GjLÿҫXYjR[ELrQÿӝ bҵng 0.05
Hình 4-6 Thêm nhi͍u vào m̳Xÿ͋ OjPÿDG̩ng dͷ li u
Trích xuҩWÿһFWUѭQJ
1KѭÿmWUuQKEj\FiFÿһFWUѭQJÿѭӧc sӱ dөQJÿӇ tính toán là Log-mel, MFCC, GFCC Python có sҹn các bӝ WKѭ YLrQ SKөc vө quá trình trích xuҩW ÿһF WUѭQJ QKѭ S\WKRQBVSHHFKBIHDWXUHVVSDIHIHDWXUHĈҫu ra cӫa quá trình trích xuҩWÿһFWUѭQJOjPDWUұn dӳ liӋu hai chiӅu thích hӧp cho viӋc sӱ dөng mҥQJQѫ-ron tích chұp Ĉҫu tiên tín hiӋu sӁ ÿѭӧc cҳt lӑFÿӝ dài lҥi còn 3s nӃu tín hiӋu lӟQKѫQVKRһc thêm phҫn tӯ bҵQJFKRÿӫ vӟLÿӝ dài vector 3s nӃu tín hiӋu nhұQÿѭӧc nhӓ KѫQV
49 if len(sig) > time*sr: temp = sig[0:time*sr] else: temp = np.concatenate((sig, np.zeros(time*sr - len(sig))))
KӃt quҧ ÿҥWÿѭӧc là mӝWYHFWRUFyÿӝ dài chuҭn bҵng thӡi gian nhân vӟi tӕFÿӝ lҩy mүu Trích xuҩWÿһFWUѭQJ/RJ-mel: from python_speech_features import logfbank def log_mel_ft_by_python_speech(sig, sr000, num_mel8, hopQ2, num_fft 48, time=3): if len(sig) > time*sr: temp = sig[0:time*sr] else: temp = np.concatenate((sig, np.zeros(time*sr - len(sig)))) mfcc_python_speech = logfbank(temp, samplerate=sr, nfilt=num_mel, winstep=hop/sr, winlen=num_fft/sr, nfft=num_fft) return mfcc_python_speech.T #[num_mel, time*sr/hop]
6DXÿyKjPWUtFK[XҩWÿһFWUѭQJORJBPHOWӯ WKѭYLӋn S\WKRQBVSHHFKBIHDWXUHVFyÿҫu vào gӗm tín hiӋXÿҫu vào ӣ dҥng vector (temp), tӕFÿӝ lҩy mүu tín hiӋu (samplerate), sӕ bӝ lӑc mel (nfilt), khoҧng cách giӳa các cӱa sә ZLQVWHSÿӝ dài cӱa sә (winlen), hӋ sӕ fft (nfft) KӃt quҧ trҧ vӅ cӫa hàm trích xuҩt là mӝt vector 2 chiӅu có mӝt chiӅu là sӕ bӝ lӑc mel còn chiӅu còn lҥi chính bҵQJÿӝ GjLYHFWRUÿҫXYjRÿӝ dài mүu nhân vӟi tӕFÿӝ lҩy mүXFKLDFKRÿӝ dài khoҧng cách cӫa sә
Trích xuҩWÿһFWUѭQJ0)&& from python_speech_features import mfcc def mfcc_ft_by_python_speech(sig, srD100, num_mfccR, hopQ2, nu m_fft 48, time=3): if len(sig) > time*sr: temp = sig[0:time*sr] else: temp = np.concatenate((sig, np.zeros(time*sr - len(sig)))) mfcc_python_speech = mfcc(temp, samplerate=sr, numcep=num_mfcc, nf ilt`, winstep=hop/sr, winlen=num_fft/sr, nfft=num_fft, preemph=0.0 , ceplifter=0, appendEnergy=True, winfunc=np.hanning) return mfcc_python_speech.T #[num_mfcc, time*sr/hop]
Hàm trích xuҩWÿһFWUѭQJPIFFWӯ bӝ WKѭYLӋn python_speech_features sӱ dөng các biӃn là tín hiӋX ÿҫu vào dҥng vector, tӕF ÿӝ lҩy mүu (samplerate), sӕ hӋ sӕ PIFF WKX ÿѭӧc (numcep), sӕ bӝ lӑc mel cҫn sӱ dөng (nfilt), khoҧng cách cӱa sә ZLQVWHSÿӝ dài cӱa sә (winlen), hӋ sӕ fft (nfft), hӋ sӕ pre-emphasis (0.0), dҥng bӝ lӑc (winfunc, luұQYăQVӱ dөng bӝ lӑc hanning), biӃn xác nhұn có thêm phҫQORJQăQJOѭӧQJOjPÿһFWUѭQJKD\NK{QJ DSSHQ(QHUJ\ÿk\FNJQJOjPӝt hӋ sӕ quan trӑng khi chúng ta nhұn dҥng giӳa nhӳng cҧm xúc buӗn, giұn dӳ hay trung tính KӃt quҧ trҧ vӅ có dҥng ma trұn 2 chiӅu, mӝt chiӅu là sӕ hӋ sӕ mfcc cҫn trích xuҩt và chiӅu còn lҥi bҵQJÿӝ GjLYHFWRUÿҫu vào chia cho khoҧng cách cӱa sә
Trích xuҩWÿһFWUѭQJ*)&& from spafe.features.gfcc import gfcc def gfcc_ft_py_spafe(sig, srD100, num_gfccR, hopQ2, num_fft
48, time=3): if len(sig) > time*sr: temp = sig[0:time*sr] else: temp = np.concatenate((sig, np.zeros(time*sr - len(sig)))) gfcc_python_speech = gfcc(sig=temp, fs=sr, num_ceps=num_gfcc, nfil ts`, win_hop =hop/sr, win_len =num_fft/sr, nfft=num_fft, use_energ y=True) return gfcc_python_speech.T #[num_gfcc, time*sr/hop]
Hàm trích xuҩWÿһFWUѭQJPIFFWӯ bӝ WKѭYLӋn spafe sӱ dөQJÿҫu vào là tín hiӋu cҫn trích xuҩt ӣ dҥng vector, tӕFÿӝ lҩy mүu (fs), sӕ hӋ sӕ JIFFWKXÿѭӧc (numceps), sӕ bӝ lӑc mel cҫn sӱ dөng (nfilts), khoҧng cách cӱa sә ZLQBKRS ÿӝ dài cӱa sә (win_len), hӋ sӕ fft (num_fft), biӃn xác nhұn có thêm phҫQ ORJ QăQJ OѭӧQJ OjP ÿһF WUѭQJ KD\ NK{QJ (use_energy) KӃt quҧ trҧ vӅ có dҥng ma trұn 2 chiӅu, mӝt chiӅu là sӕ hӋ sӕ gfcc và chiӅu còn lҥi bҵQJÿӝ GjLYHFWRUÿҫu vào chia cho khoҧng cách cӱa sә
Xây dӵng mô hình huҩn luyӋn
Mô hình huҩn luyӋQÿѭӧc xây dӵng dӵa trên mô hình VCG16 ± P{KuQKÿѭӧc áp dөng rӝng rãi cho các bài toán nhұn dҥng hình ҧnh trên thӃ giӟi, cҧi thiӋn mӝt sӕ lӟp tính toán ÿӇ phù hӧp vӟi mүXÿҫu vào cӫa mô hình
#1 layer 1 model.add(Conv2D(64, 5,padding='same', input_shape=(52, 91, 1) ))
51 model.add(Activation(act_func)) model.add(BatchNormalization()) model.add(Dropout(drop_out)) model.add(MaxPooling2D(pool_size=(2)))
#2 layer 2 model.add(Conv2D(128, 5,padding='same',kernel_regularizer=l2(0.01), bias_regularizer=l2(0.01))) model.add(Activation(act_func)) model.add(BatchNormalization()) model.add(Dropout(drop_out)) model.add(MaxPooling2D(pool_size=(2)))
#3 layer 3 model.add(Conv2D(256, 5,padding='same',kernel_regularizer=l2(0.01), bias_regularizer=l2(0.01))) model.add(Activation(act_func)) model.add(BatchNormalization()) model.add(Dropout(drop_out)) model.add(MaxPooling2D(pool_size=(2)))
#4 layer 4 model.add(Conv2D(256, 5,padding='same',kernel_regularizer=l2(0.01), bias_regularizer=l2(0.01))) model.add(Activation(act_func)) model.add(BatchNormalization()) model.add(Dropout(drop_out)) model.add(MaxPooling2D(pool_size=(2)))
#5 Flatten model.add(Flatten()) model.add(Dense(128, activationt_func))
#6 Softmax model.add(Dense(4, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy']) model_history=model.fit(X_train, y_train, batch_sized, epochs0, validation_data=(X_val, y_val))
Mô hình huҩn luyӋn sӱ dөQJP{KuQKÿѭӧc xây dӵng tӯ KuQKFKѭѫQJ&iFWKjQK phҫn cҫQFK~êQKѭVDX
Hàm thờm lӟp tớch chұp 2 chiӅu, cú cӱa sә chұp NtFKWKѭӟF[SDGGLQJ ảVDPHảFy QJKƭDOjNtFKWKѭӟc kӃt quҧ ÿҫu ra cӫa lӟp bҵQJNtFKWKѭӟFÿҫu vào, các hӋ sӕ bias và UHJXODUL]HUÿѭӧFWKrPYjRÿӇ tránh hiӋQWѭӧQJRYHUILWWLQJQKѭÿmÿѭӧFÿӅ cұp ӣ FKѭѫQJ
2 model.add(Conv2D(128, 5,padding='same',kernel_regularizer=l2(0.01), bias_regularizer=l2(0.01)))
Hàm thêm lӟp maxpooling 2 chiӅu vӟLNtFKWKѭӟc cӱa sә chұp là 2x2 model.add(MaxPooling2D(pool_size=(2)))
Mô hình nhұn dҥng sӱ dөng hàm mҩWPiWOjFURVVHQWURS\VDXNKLFKRYHFWRUÿҫu ra qua mӝt hàm VRIWPD[ÿӇ ÿӗng bӝ hóa trӑng sӕ KӃt quҧ ÿҫu ra cӫa hàm cross entropy sӁ là dҥng vector có chiӅu dài bҵng sӕ class nhұn dҥng là tәng bҵng 1
Mô hình huҩn luyӋn có mӝt sӕ siêu tham sӕ cҫQÿѭӧc tinh chӍnh trong quá trình huҩn luyӋQQKѭVӕ epochs (mӝt lҫn duyӋt hӃt tҩt cҧ các mүu trong tұp huҩn luyӋn), batch size (sӕ Oѭӧng mүu trong mӝt bó sӁ ÿѭӧc huҩn luyӋn cùng mӝt lúc), hàm kích hoҥt (activation function), chӍ sӕ dropout, ViӋc tinh chӍnh các siêu tham sӕ này sӁ ÿѭӧc trình bày ӣ phҫn kӃt quҧ thӵc hiӋn.
Quá trình thӵc thi trên phҫn cӭng
Ĉҫu tiên, sau khi kӃt nӕLYjÿҧm bҧRWKXÿѭӧc dӳ liӋu giӑng nói tӯ micro, các giá trӏ QJѭӥng kích hoҥt cӫa hàm ZCR và STE sӁ ÿѭӧc tinh chӍQKÿҫXWLrQÿӇ giúp nhұn diӋn tín hiӋu giӑng nói vӟi nhiӉX6DXÿyP{KuQKQKұn dҥQJÿmÿѭӧc huҩn luyӋn sӁ ÿѭӧc load lên -HWVRQ1DQRÿӇ sҹn sàng cho quá trình nhұn dҥng Các kӃt quҧ vӅ nhұn dҥng sӁ ÿѭӧc hiӇn thӏ WK{QJTXDPi\WtQKÿѭӧc kӃt nӕi sҹn vӟL-HWVRQ1DQRWK{QJTXDÿѭӡng truyӅn RJ45
Hình 4-7 Mô hình thc hi n trên ph̯n cͱng
KӃt nӕi máy tính vӟi máy tính nhúng Jetson Nano
ViӋc kӃt nӕi máy tính vӟLPi\WtQKQK~QJ-HWVRQQDQRÿѭӧc thӵc hiӋn thông qua cәng mҥng RJ45 khi hai thiӃt bӏ chung mӝt mҥng IP thông qua giao thӭc TCP/IP SDXNKLÿm chung lӟp mҥng, ta tiӃQKjQKÿăQJQKұS66+YjR-HWVRQ1DQRÿӇ thӵc hiӋn lұp trình và load mô hình nhұn dҥQJ&iFEѭӟc thӵc hiӋn:
%ѭӟc 1: Quét IP cӫa máy tính nhúng trong mҥQJWK{QJTXDÿӏa chӍ Mac
Hình 4-84XpWÿ͓a ch͑ IP cͯa Jetson Nano
%ѭӟFĈăQJQKұp vào Jetson Nano thông qua SSH port 22
Hình 4-9ĈăQJQK̵p SSH vào Jetson Nano
%ѭӟc 3: CҩXKuQKÿӏa chӍ WƭQKFKR-HWVRQ1DQRÿӇ tiӋn cho nhӳng lҫQÿăQJQKұp sau 7KD\ÿәi chi tiӃWFyWURQJILOHHWFQHWZRUNLQWHUIDFHVGQKѭKuQKÿӇ cҩXKuQKÿӏa chӍ WƭQK
Hình 4-10 C̭XKuQKÿ͓a ch͑ WƭQKFKR-HWVRQ1DQR
KӃt nӕi micro vӟi máy tính nhúng Jetson Nano
0LFURÿѭӧc kӃt nӕi vӟi Jetson Nano thông qua cәng kӃt nӕi USB, không cҫQFjLÿһt driver gì thêm Python cung cҩSWKѭYLӋQS\DXGLRÿӇ thu thұp dӳ liӋu tӯ micro trong thӡi gian thӵc Nhӳng dӳ liӋu này sӁ Ojÿҫu vào cӫa bӝ nhұn dҥQJ/ѭXêFiFWK{QJVӕ cҩu hình cho viӋc thu thұp dӳ liӋu tӯ micro cҫn trùng khӟp vӟi mүu dùng cho quá trình huҩn luyӋn ÿӇ tránh sai xót trong quá trình nhұn diӋn import pyaudio import wave import numpy as np
# start Recording audio = pyaudio.PyAudio() stream = audio.open(format=FORMAT, channels=CHANNELS,
55 rate=RATE, input=True, frames_per_buffer=CHUNK) print("recording ") frames = [] for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)): data = stream.read(CHUNK) frames.append(np.frombuffer(data, dtype=np.float32)) print("finished recording")
# stop Recording stream.stop_stream() stream.close() audio.terminate()
Các hҵng sӕ ÿѭӧFNKDLEiRWURQJÿRҥn mã gӗm:
- Dҥng sӕ ÿҫu ra: FORMAT = pyaudio.paInt16
KӃt luұQFKѭѫQJ
&KѭѫQJQj\ÿmJLӟi thiӋu vӅ kit Jetson Nano, các cҩXKuQKFѫEҧQÿӇ ÿăQJQKұp sӱ dөng, vӅ kӃt nӕi vӟi micro, ngôn ngӳ lұSWUuQKWKѭYLӋn sӱ dөQJYjP{LWUѭӡng huҩn luyӋn
&KѭѫQJQj\FNJQJWUuQKEj\FiFKWKӵc hiӋn trích xuҩWÿһFWUѭQJYj[k\Gӵng mô hình huҩn luyӋn tӯ FiFWKѭYLӋn có sҹn Phҫn tiӃp theo sӁ trình bày kӃt quҧ ÿҥWÿѭӧc, hiӋu chӍnh các siêu tham sӕ, các chӍ sӕ ÿӇ ÿiQKJLDÿӝ chính xác cӫa hӋ thӕng và so sánh vӟi các nghiên cӭu liên quan
7URQJFKѭѫQJQj\OXұQYăQVӁ giӟi thiӋu vӅ tұp dӳ liӋXÿѭӧc sӱ dөQJÿӇ huҩn luyӋn, cách thӭc thu thұp dӳ liӋXÿiQKJLiWұp dӳ liӋu, kӃt quҧ cӫa quá trình huҩn luyӋn, kӃt quҧ thӵc nghiӋm trên phҫn cӭng
&KѭѫQJQj\ÿѭӧc tә chӭc thành 4 mөc Mөc 5.1 giӟi thiӋu tұp dӳ liӋu sӱ dөng Mөc 5.2 trình bày chi tiӃt kӃt quҧ quá trình huҩn luyӋn tӯng phҫQÿӗng thӡi so sánh kӃt quҧ huҩn luyӋn vӟi các nghiên cӭu khác Mөc 5.3 trình bày vӅ kӃt quҧ thӵc hiӋn trên phҫn cӭng Mөc 5.4 kӃt luұQFKѭѫQJ
Tұp dӳ liӋXÿѭӧc sӱ dөng
Tұp dӳ liӋXÿѭӧc dùng cho huҩn luyӋn bao gӗm mӝt phҫn tӯ tұp RAVDESS, mӝt phҫn ÿѭӧc cҳt tӯ FiFÿRҥn video có sҹn trên internet và phҫn còn lҥLÿӃn tӯ viӋc thu âm trӵc tiӃp tӯ các tình nguyӋn viên Ta có thӇ thҩy, trong thӵc tӃ ta có thӇ dӉ dҥng nhұn dҥQJÿѭӧc cҧm xúc cӫDQJѭӡi nói dӵa trên ngӳ ÿLӋu lӡLQyLÿѭӧc phát ra mà không cҫQTXDQWkPÿӃn loҥi ngôn ngӳ, chính vì thӃ luұQYăQÿmVӱ dөng tұp ngӳ liӋu tiӃng Anh RAVDESS cho quá trình huҩn luyӋn ViӋc lҩy mүu dӳ liӋu tӯ nhiӅu nguӗn có thӇ JL~SWăQJmӭFÿӝ ÿD dҥQJÿӗng thӡLWăQJWtQKNKҧ thi cӫa luұQYăQNKLiSGөQJYjRÿӡi sӕQJ.tFKWKѭӟc cӫa tұp dӳ liӋXÿѭӧc sӱ dөQJQKѭVDX
Ta có thӇ thҩy sӕ Oѭӧng mүXWѭѫQJÿӗng giӳa 2 class nam và nӳ, mӛi loҥi chiӃm 50% Ĉӗng thӡi khi cӝng nhiӉu ta sӁ có sӕ OѭӧQJÿҫu vào huҩn luyӋQÿѭӧFWăQJWKrP
Hình 5-2 Ngu͛n ngͷ li u v͉ c̫m xúc
Nguӗn dӳ liӋu vӅ cҧm xúc có sӵ khác biӋt lӟn vӅ tӍ lӋ sӕ Oѭӧng mүu cӫa mӛi class, giҧi thích bӣi khҧ QăQJGӉ dàng tìm kiӃm và thu thұp mүu Ví dө mүu trung tính là mүu dӉ
GjQJÿӇ thu thұp vì các tình nguyӋn viên không cҫn phҧi thӇ hiӋn cҧm xúc trong lӡi nói, viӋc thu thұp tӯ viӋc cҳt lӑc tӯ FiFYLGHRFNJQJGӉ GjQJKѫQGRNK{QJFҫn phҧi tìm kiӃm phӭc tҥp.
KӃt quҧ huҩn luyӋn
KӃt quҧ nhұn dҥng giӟi tính
Thӵc hiӋn hiӋu chӍnh các siêu tham sӕ gӗm trӑng sӕ Dropout, hàm kích hoҥWÿһFWUѭQJ kích hoҥt Siêu tham sӕ Dropout giúp thӇ hiӋn mӭF ÿӝ RYHUILWWLQJ QKѭ ÿm WUuQK Ej\ ӣ FKѭѫQJ&iFKjPNtFKKRҥWÿѭӧc thêm vào vӟi mөFÿtFKOjPWăQJNKҧ QăQJSKkQWiFK
59 phi tuyӃn cӫa mô hình Các hàm kích hoҥt khác nhau có thӇ cho ra các kӃt quҧ khác nhau dӵa trên sӵ WѭѫQJÿӗng cӫa nó vӟi khҧ QăQJSKkQWiFKSKLWX\Ӄn cӫa tұp dӳ liӋu
B̫ng 5-1 K͇t qu̫ hi u ch͑nh siêu tham s͙ nh̵n d̩ng giͣi tính
Act Func Dropout Log_mel GFCC MFCC
Ta có thӇ thҩy kӃt quҧ trên tұp kiӇm thӱ không chênh lӋch nhiӅu và trҧi trong khoҧng tӯ ÿӃn 98%, chӭng tӓ mүu dӳ liӋu có khҧ QăQJSKkQWiFKWKHRJLӟi tính khá rõ ràng KLWăQJFKӍ sӕ GURSRXWOrQWKuÿӝ FKtQK[iFWKѭӡng giҧm nhҽÿLӅu này là có thӇ hiӇXÿѭӧc vì chӍ sӕ dropout càng lӟQWKuÿӝ phӭc tҥp mô hình càng nhӓ Vì mӭFÿӝ chênh lӋch không nhiӅu nên ta có thӇ cân nhҳc viӋc chӑn các siêu tham sӕ sao cho không chӍ tӕLѭXYӅ ÿӝ chính xác mà còn giúp cҧi thiӋn tӕFÿӝ xӱ lí cho quá trình nhұn dҥng cҧm xúc sau này (cùng loҥi trích xuҩWÿһFWUѭQJFyWKӇ cҧi thiӋn tӕFÿӝ xӱ lí trong thӡi gian thӵc)
KӃt quҧ huҩn luyӋn nhұn dҥng giӟi tính ӭng vӟi dҥng trích xuҩWÿһFWUѭQJ*)&&KjP kích hoҥW³VLJPRLG´YjWUӑng sӕ drop out là 0.1:
Hình 5-4Ĉ͛ th͓ hṷn luy n nh̵n d̩ng giͣi tính vͣLÿ̿FWU˱QJ*)&&KjPNtFKKR̩t sigmoid và dropout 0.1
Tӯ ÿӗ thӏ huҩn luyӋn nhұn dҥng giӟi tính, ta có thӇ thҩ\ÿӗ thӏ hàm mҩt mát tuyӃn trong khoҧng tӯ ÿӃn 60 epochs và có mӝt vӃt gãy nҵm ӣ khoҧng tӯ ÿӃQHSRFKV'Rÿy ta cҫn cân nhҳc viӋc chӑn sӕ epochs cҫn huҩn luyӋn có thӇ nҵm trong khoҧng tӯ ÿӃn 60 epochs hoһFFDRKѫQHSRFKV
B̫ng 5-2 K͇t qu̫ ki͋m th͵ nh̵n d̩ng giͣi tính vͣLÿ̿FWU˱QJ*)&&KjPNtFKKR̩t sigmoid và dropout 0.1
Hình 5-5 Ma tr̵QW˱˯QJTXDQKX̭n luy n nh̵n d̩ng giͣLWtQKÿ̿FWU˱QJ*)&&KjP kích ho̩t sigmoid và dropout 0.1
Ma trұQWѭѫQJTXDQFKRNӃt quҧ khҧ quan Có 6/255 mүu giӟi tính nӳ QKѭQJEӏ nhұn nhҫm sang giӟi WtQKQDPÿҥt tӍ lӋ sai là 2% Có 8/215 mүu giӟLWtQKQDPQKѭQJEӏ nhұn nhҫm sang giӟi tính nӳ ÿҥt tӍ lӋ sai là 3.7%.
KӃt quҧ nhұn dҥng cҧm xúc
Thӵc hiӋn huҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋu vӟi giӟi tính nӳ
B̫ng 5-3 K͇t qu̫ hi u ch͑nh siêu tham s͙ nh̵n d̩ng c̫m xúc t̵p dͷ li u giͣi tính nͷ
Activation Func Dropout Log_mel GFCC MFCC
Bҧng kӃt quҧ hiӋu chӍnh siêu tham sӕ khi nhұn dҥng cҧm xúc giӟi tính nӳ cho thҩy khҧ QăQJSKkQWiFKYүQFDRNKLÿӝ FKtQK[iFGDRÿӝng trong khoҧng tӯ ÿӃn 96% Tuy nhiên, ngoҥi trӯ SKѭѫQJWKӭc trích xuҩWÿһFWUѭQJWӯ MFCC, thì các loҥi trích xuҩWÿһc WUѭQg còn lҥi cho kӃt quҧ WKD\ÿәi khá lӟQNKLWăQJFKӍ sӕ GURSRXWFKѭDNӇ ÿӝ chính xác còn phө thuӝc vào hàm kích hoҥWKjP5HOXYjKjPVLJPRLGFKRÿӝ FKtQK[iFFDRKѫQ hàm Tanh
Hình 5-6Ĉ͛ th͓ hṷn luy n nh̵n d̩ng c̫m xúc trên t̵p dͷ li u nͷ vͣLÿ̿FWU˱QJ
GFCC, hàm kích ho̩t relu và dropout 0.2 Ĉӗ thӏ hàm mҩt mát cho thҩy khҧ QăQJKӝi tө tӕt ӣ khoҧng tӯ ÿӃn 90 epochs Có 2 vӃt gãy ӣ khoҧng 100 epochs và tӯ ÿӃn 140 epochs Ta nên chӑn sӕ HSRFKVFDRKѫQ ÿӇ tránh các vӃt gãy này
B̫ng 5-4 K͇t qu̫ ki͋m th͵ nh̵n d̩ng c̫m xúc t̵p dͷ li u giͣi tính nͷ vͣLÿ̿FWU˱QJ
GFCC, hàm kích ho̩t sigmoid và dropout 0.2
Hình 5-7 Ma tr̵n nh̯m l̳n hṷn luy n nh̵n d̩ng c̫m xúc vͣi t̵p dͷ li u nͷ ÿ̿FWU˱QJ
GFCC, hàm kích ho̩t relu và dropout 0.2
Ma trұQWѭѫQJTXDQFKRWKҩy mүu trung tính cho kӃt quҧ tӕt nhҩt, recall và precision ÿӅu cao, chӍ 3/124 mүu trung tính bӏ nhұn sai và tӍ lӋ chính xác tuyӋWÿӕi nӃu xét trên tәng sӕ mүu dӵ ÿRiQ7URQJNKLÿyPүu buӗn cho kӃt quá recall không tӕt khi có
64 ÿӃn 11/141 mүu bӏ nhұn sai nhãn, mүu giұn dӳ có precision thҩp (39/53) khi chӍ có 39 mүu nhұn chính xác trong 53 mүXÿѭӧc dӵ ÿRiQOjJLұn dӳĈӗng thӡi kӃt quҧ còn cho thҩy sӵ hҥn chӃ vӅ sӕ Oѭӧng mүu kiӇm thӱ ÿӕi vӟi mүu hoҧng sӧ
Thӵc hiӋn huҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋu giӟi tính nam
B̫ng 5-5 K͇t qu̫ hi u ch͑nh siêu tham s͙ nh̵n d̩ng c̫m xúc t̵p dͷ li u giͣi tính nam
Dropout Log_mel GFCC MFCC
Overall by Act Func Tanh
KӃt quҧ hiӋu chӍnh siêu tham sӕ khi nhұn dҥng cҧP[~Fÿӕi vӟi tұp dӳ liӋu giӟi tính nam có kӃt quҧ thҩSKѫQVRYӟi giӟi tính nӳ, kӃt quҧ GDRÿӝng trong khoҧng tӯ ÿӃn Ĉӝ FKtQK[iFWKD\ÿәi lӟn khi lӵa chӑn các siêu tham sӕ khác nhau
Hình 5-8Ĉ͛ th͓ hṷn luy n nh̵n d̩ng c̫m xúc trên t̵p dͷ li u nam vͣLÿ̿FWU˱QJ
GFCC, hàm kích ho̩t relu và dropout 0.2 Ĉӗ thӏ mҩt mát cho thҩ\NKX\QKKѭӟng tuyӃQWtQKQKѭQJFNJQJNK{QJәQÿӏnh khi chӍ sӕ GURSRXWWăQJ
B̫ng 5-6 K͇t qu̫ ki͋m th͵ nh̵n d̩ng c̫m xúc t̵p dͷ li u giͣi tính nam vͣLÿ̿c
WU˱QJ*)&&KjPNtFKKR̩t sigmoid và dropout 0.2
Hình 5-9 Ma tr̵QW˱˯QJTXDQKX̭n luy n nh̵n d̩ng c̫m xúc vͣi t̵p dͷ li XQDPÿ̿c
WU˱QJ*)&&KjPNtFKKR̩t relu và dropout 0.2
Ma trұQWѭѫQJTXDQFKRNӃt quҧ khҧ TXDQÿӕi vӟi các mүXWUXQJWtQK7URQJNKLÿy mүu giұn dӳ có recall thҩp khi có tӟi 12 mүu bӏ nhұn nhҫm thành buӗn bã, 3 mүu nhұn nhҫm thành hoҧng sӧ
Thӵc hiӋn huҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp mүu không phân chia theo giӟi tính
B̫ng 5-7 K͇t qu̫ hi u ch͑nh siêu tham s͙ nh̵n d̩ng c̫m xúc t̵p dͷ li u không phân chia giͣi tính
Activation Function Dropout Log_mel GFCC MFCC
Overall by act func Tanh
KӃt quҧ hiӋu chӍnh siêu tham sӕ khi nhұn dҥng cҧP[~Fÿӕi vӟi tұp dӳ liӋu khi không có phân biӋt theo giӟi tính có kӃt quҧ thҩSKѫQNKLFySKkQELӋt giӟLWtQKQKѭQJÿӝ chính xác vүn khá tӕt, kӃt quҧ GDRÿӝng trong khoҧng tӯ ÿӃQĈӝ FKtQK[iFWKD\ÿәi lӟn khi lӵa chӑn các siêu tham sӕ khác nhau Ta có thӇ thҩ\U}Ojÿӝ chính xác tӕt nhҩt khi sӱ dөng trích xuҩW*)&&ÿӝ chính xác giҧm khi dùng MFCC rӗLÿӃn Log-mel Hàm kích hoҥt Sigmoid và Relu cho kӃt quҧ tӕWKѫQKjP7DQK&KӍ sӕ 'URSRXWWiFÿӝng lӟQÿӃQÿӝ chính xác khi sӱ dөng trích xuҩt Log-PHOQKѭQJNK{QJWKD\ÿәi lӟn khi dùng trích xuҩt GFCC và MFCC
Dùng công thӭc xác suҩt hӧSÿӇ kiӇm tra kӃt quҧ WtQKWRiQÿӝ chính xác khi sӱ dөng tұp dӳ liӋu có phân biӋt theo giӟi tính(tính vӟi kӃt quҧ tӕt nhҩt): ܲ ௫௨ ൌ ൫ܲ ൈ ܲሺ௫௨ȁሻ ܲ ௨ ൈ ܲሺ௫௨ȁ௨ሻ൯ (6.1) ൌ ሺͲǤͶͶͲͶ ൈ ͻͶǤͶ ͲǤͷʹͻ ൈ ͻǤͷͺሻ ൌ ͻ͵ǤͶͳ%
1KѭYұ\ÿӝ chính xác cӫa tұp dӳ liӋXÿѭӧc phân biӋt theo giӟLWtQKFDRKѫQ[ҩp xӍ 2 % so vӟLÿӝ chính xác khi huҩn luyӋn vӟi tұp dӳ liӋu không phân biӋt giӟi tính (91.67%).
So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy
B̫ng 5-8 So sánh k͇t qu̫ hṷn luy n vͣi các công trình nghiên cͱXÿmFy
Bài báo Dataset ĈһFWUѭQJ Mô hình phân loҥi Ĉӝ chính xác
7 loҥi ,24 QJѭӡi tham gia)
Gammatone Frequency Cepstral Coefficients (GFCC)
[18] Speech emotion recognition based on feature selection and extreme learning machine decision tree
CASIA - Chinese Emotion Speech database
[28] So sánh hiӋXQăQJPӝt sӕ SKѭѫQJSKiSQKұn dҥng cҧm xúc tiӃng nói
WUѭQJSKә tín hiӋu tiӃng
QyLÿӃn nhұn dҥng cҧm xúc tiӃng ViӋt
MFCC GFCC Log-mel Giӟi tính
LuұQYăQWULӇn khai mӝWKѭӟng tiӃp cұn mӟi cho bài toán nhұn dҥng cҧm xúc khi thêm giӟi tính cӫDQJѭӡi nói vào làm mӝWÿһc WUѭQJSKөĈӝ chính xác cӫa luұQYăQNKҧ quan KѫQQKѭQJWURQJNKLÿӝ ÿDGҥng mүu không bҵQJFiLEjLEiRWUѭӟFÿy7X\QKLrQGRNK{QJ
69 cùng sӱ dөng chung mӝt tұp dӳ liӋu huҩn luyӋn nên các kӃt quҧ trên không thӇ ÿѭӧc sӱ dөng vӟi mөFÿtFKVRViQKFKtQK[iF
KӃt quҧ thӵc nghiӋm trên phҫn cӭng
KiӇm thӱ vӟLQJѭӡi nói trӵc tiӃSTXDPLFURQJѭӡi nói trӵc tiӃp vào micro vӟi mӝt câu hӝi thoҥLFKRWUѭӟc 10 lҫn vӟi ngӳ ÿLӋXWUXQJWtQK³1Kұn dҥng cҧP[~FQJѭӡLQyL´ÿk\ là câu thoҥi hoàn toàn không có trong nhӳng dҥng câu hӝi thoҥi có trong tұp dӳ liӋXÿm ÿѭӧc sӱ dөng cho các tính nguyӋn viên
Hình 5-10 Mô hình thc nghi m thc t͇ vͣi ph̯n cͱng B̫ng 5-9 K͇t qu̫ thc nghi m ph̯n cͱQJQJ˱ͥi nói trc ti͇p
STT 1KmQWKӵFWӃ 1KmQGӵÿRiQ
1 Nam Trung tính Nam Trung tính
2 Nam Trung tính Nam Trung tính
3 Nam Trung tính Nam %XӗQEm
4 Nam Trung tính Nam Trung tính
5 Nam Trung tính Nam *LұQGӳ
6 Nam Trung tính Nam Trung tính
7 Nam Trung tính Nam Trung tính
8 Nam Trung tính Nam %XӗQEm
9 Nam Trung tính Nam %XӗQEm
10 Nam Trung tính Nam Trung tính
KӃt quҧ thӵc nghiӋm vӟLQJѭӡi nói trӵc tiӃSFyÿӝ FKtQK[iFFKѭDWKұt sӵ tӕt (6/10) Ta FNJQJFyWKӇ thҩy mүu cҧm xúc trung tính và buӗn bã khá dӉ bӏ nhұQVDLWURQJÿLӅu kiӋn thӵc tӃ
Hình 5-11 Thc nghi m trên ph̯n cͱng vͣi m̳XQJ˱ͥi nói trc ti͇p trung tính, nh̵n di n sai
Hình 5-12 Thc nghi m trên ph̯n cͱng vͣi m̳XQJ˱ͥi nói trc ti͇p trung tính, nh̵n di Qÿ~QJ
KiӇm thӱ vӟLILOHJKLkPÿѭӧFSKiWTXDORDÿLӋn thoҥi:
Chӑn ngүu nhiên 10 file ghi âm trong tұp dӳ liӋXWHVWÿӇ phát TXDORDÿLӋn thoҥi truyӅn ÿӃQPLFURÿӇ nhұn diӋn
B̫ng 5-10 K͇t qu̫ thc nghi m trên ph̯n cͱng vͣi 10 file ghi âm trong t̵p dͷ li u test
STT 1KmQGӵÿRiQ 1KmQWKӵFWӃ
1 Nam Trung tính Nam Trung tính
2 Nam Trung tính Nam Trung tính
Hình 5-13 K͇t qu̫ thc nghi m ph̯n cͱng ͱng vͣi m̳u nam c̫m xúc gi̵n dͷ
Hình 5-14 K͇t qu̫ thc nghi m ph̯n cͱng ͱng vͣi m̳u nͷ c̫m xúc bu͛n bã
KӃt quҧ thӵc nghiӋm sӱ dөng mүu thӱ là file ghi âm trong tұp dӳ liӋu test cho kӃt quҧ FKtQK[iFWѭѫQJÿӕi tӕt
KӃt luұn
LuұQYăQWuPKLӇu, nghiên cӭu bài toán nhұn dҥng cҧm xúc lӡLQyLÿӅ xuҩt mô hình giҧi quyӃt bài toán dӵa trên viӋc tiӃc xúc vӟi nhiӅXKѭӟng tiӃp cұQNKiFQKDXÿѭӧc công bӕ trên các bài báo quӕc tӃ Tӯ mөFÿtFKÿyOXұQYăQÿmÿҥWÿѭӧc nhӳng kӃt quҧ WѭѫQJ ӭng vӟi mөFWLrXÿӅ UDQKѭVDX
- Nghiên cӭu tәng quan vӅ nhұn dҥng cҧm xúc, nhұn dҥng lӡLQyLFRQQJѭӡi, các ÿһc WtQKFѫEҧn cӫa lӡi nói trong tӵ QKLrQYjWURQJNƭWKXұt sӕ
- Thu thұp bӝ dӳ liӋu vӅ cҧm xúc lӡi nói bao gӗm các nhãn: trung tính, giұn dӳ, buӗn bã, hoҧng sӧ
- Tìm hiӇu vӅ các trích xuҩWÿһFWUѭQJ0)&&*)&&ORJ-Mel tӯ bӝ dӳ liӋXFѫVӣ OjPÿҫu vào viӋc huҩn luyӋQFNJQJQKѭVRViQKVӵ WѭѫQJTXDQFӫa các kӃt quҧ sau này Tìm hiӇu vӅ các lӟp tính toán trong mô hình mҥQJQѫ-ron tích chұp và các thuұt toán tӕLѭXWURQJKӑc sâu
- Xây dӵng mô hình nhұn dҥng cho bài toán kӃ thӯa tӯ các mô hình nhұn nәi tiӃng Yjÿѭӧc áp dөng rӝng rãi trong viӋc hӑc sâu trên thӃ giӟLKѭӟng cҧi tiӃn tӯ viӋc nhұn dҥng giӟi tính cӫDQJѭӡi nói Huҩn luyӋn mô hình, so sánh kӃt quҧ WKXÿѭӧc tӯ các nguӗQÿҫXYjRNKiFQKDXFNJQJQKѭFiFSKѭѫQJSKiSNKiFQKDX
- Thӵc hiӋn mô hình tính toán lên phҫn cӭng máy tính nhúng Jetson Nano và kiӇm nghiӋm kӃt quҧ WKXÿѭӧc tӯ thӵc tӃ.
Giӟi hҥQYjKѭӟng phát triӇn
Giӟi hҥn
- Sӕ Oѭӧng mүu thu thұSFzQtWYjNK{QJÿѭӧFÿDGҥng dүQÿӃn quá trình kiӇm thӱ kӃt quҧ trӵc tiӃp có sai xót
- ThiӃt bӏ thu âm không có công cө chӕng ӗn dүQÿӃn kӃt quҧ có thӇ bӏ nhiӉu bӣi nhiӅu loҥi tiӃQJÿӝQJNKiFQKDXFNJQJQKѭFӫa nhiӅXQJѭӡi khác nhau
- CҩXKuQKPi\WtQKQK~QJ-HWVRQ1DQRÿӫ ÿӇ thӵc hiӋn tác vө nhұn dҥng cҧm xúc trên thӡi gian thӵc, tuy nhiên nhiӅu lúc quá trình tính toán vүn bӏ ngҳt quãng hoһc bӏ chұPÿѭDUDNӃt quҧ dӵ ÿRiQ&ҫn có thêm chӭFQăQJSOD\EDFNÿӇ giúp linh hoҥt KѫQWLӃn trình kiӇm nghiӋm
- CҫQWăQJFѭӡng sӕ OѭӧQJFNJQJQKѭVӵ ÿDGҥng vӅ mүu các mүu âm thanh tӯ nhiӅu vùng miӅn NKiFQKDXFNJQJQKѭOjQKLӅu loҥi ngôn ngӳ khác nhau
- Cҧi thiӋQÿӝ FKtQK[iFWURQJP{LWUѭӡng thӵc tӃ Cҧi thiӋQP{KuQKÿӇ giҧi quyӃt bài toán nhiӉXFNJQJQKѭQKұn dҥQJFNJQJO~FFҧm xúc và giӟi tính cӫa nhiӅXÿӕi Wѭӧng trong mүu tín hiӋu lӡi nói
- Thêm chӭFQăQJFKӕng ӗn trên phҫn cӭQJÿӇ cҧi thiӋn nguӗn tín hiӋXÿҫu vào, dùng phҫn cӭng mҥQKKѫQÿӇ cҧi thiӋn tӕFÿӝ xӱ OtFNJQJQKѭ[ӱ lí thêm các tác vө khác
QKѭFKӭFQăQJSOD\EDFNJL~SQJѭӡi nói nghe lҥi mүXÿҫu vào
[1] M E Ayadi, M S Kamel and F Karray, "Survey on speech emotion recognition: Features, classification schemes, and databases" Canada Patent 44
[2] F Burkhardt, J Ajmera, R Englert, J Stegmann and W Burleson, "Detecting anger in automated voice portal dialogs," in Ninth International Conference, PA,
[3] Z Huang, J Epps and D Joachim, "Speech Landmark Bigrams for Depression Detection from Naturalistic Smartphone Speech," in ICASSP 2019 - 2019 IEEE
International Conference on Acoustics, Speech and Signal Processing, 2019
[4] R Rana, S Latif, R Gururajan , A Gray , G Mackenzie, G Humphris and J Dunn, "Automated Screening for Distress: A Perspective for the Future,"
European journal of cancer care, 2019
[5] K.-Y Huang, C.-H Wu, M.-H Su and Y.-T Kuo, "Detecting unipolar and bipolar depressive disorders from elicited speech responses using latent affective structure model," IEEE Transactions on Affective Computing,
[6] M Merler, K.-N C Mac, D Joshi, Q.-B Nguyen, S Hammer, J Kent, J Xiong,
M N Do, J R Smith and R Feris, "Automatic curation of sports highlights using multimodal excitement features," IEEE Transactions on Multimedia, vol
[7] H.-J Vogel, T Hubregtsen, B Schuller, E Andrộ, J Họrri, J Conradt, A Adi,
A Zadorojniy, J Terken and J Beskow, "Emotion-Awareness for Intelligent Vehicle Assistants: A Research Agenda," in 2018 IEEE/ACM 1st International
Workshop on Software Engineering for AI in Autonomous Systems (SEFAIAS),
[8] L S Roberts, "A forensic phonetic study of the vocal responses of individuals in distress," University of York, 2012
[9] N Ding, V Sethu, J Epps and E Ambikairajah, "Speaker variability in emotion recognition - an adaptation based approach," in 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto,
[10] T Vogt and E André, "Improving Automatic Emotion Recognition from Speech via Gender Differentiaion," in Proc Language Resources and Evaluation Conference (LREC 2006), Genoa, 2006
[11] A Mill, J Allik, A Realo and R Valk, "Age-related differences in emotion recognition ability: A cross-sectional study," Emotion, vol 9, no 5, p 619,
[12] S Latif, A Qayyum, M Usman and J Qadir, "Cross lingual speech emotion recognition: Urdu vs western languages," in 2018 International Conference on
Frontiers of Information Technology (FIT), Islamabad, Pakistan, 2018
[13] P Laukka, H A Elfenbein and D Neiberg, "Evidence for cultural dialects in vocal emotion expression: Acoustic classificationwithin and across five nations," Emotion, vol 14, no 3, p 445, 2014
[14] B W Schuller, "Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends," Communications of the ACM , vol 61, no 5, pp 90-99, 2018
[15] S Latif, R Rana, S Khalifa and R Jurdak, "Direct modelling of speech emotion from raw speech," in Interspeech 2019, 2019
[16] N Dave, "Feature extraction methods LPC, PLP and MFCC in speech recognition," England Technology, 2013
[17] 6*XUEX]%(URO0*$PLQDQG066H\ILR÷OX'DWD-driven cepstral and neural learning of features for robust micro-Doppler classification," in
Conference: Radar Sensor Technology XXII, USA, 2018
[18] Z.-T Liu, M Wu, W Cao, J.-W Mao, J.-P Xu and G.-Z Tan, "Speech emotion recognition based on feature selection and extreme learning machine decision tree," Neurocomputing, p 271±280, 2017
[19] C.-L Liu, F Yin, D.-H Wang and Q.-F Wang, "CASIA online and offline Chinese handwriting databases," in Proceedings of the 2011 International Conference on Document Analysis and Recognition, Beijing, China, 2011
[20] S Fahad, J Yadav, G Pradhan and A Deepak, "DNN-HMM based Speaker Adaptive Emotion Recognition using Proposed Epoch and MFCC Features,"
2020 [Online] Available: https://arxiv.org/abs/1806.00984
[21] L Zhu, L Chen, D Zhao, J Zhou and W Zhang, "Emotion Recognition from Chinese Speech for Smart Affective Services Using a Combination of SVM and DBN," Sensors, vol 17, no 7, p 1694, 2017
[22] H Harb and L Chen, "Gender identification using a general audio classifier," in 2003 International Conference on Multimedia and Expo ICME '03 Proceedings (Cat No.03TH8698), Baltimore, MD, USA, 2003
[23] D Doukhan, J Carrive, F Vallet, A Larcher and S Meignier, "An Open-Source Speaker Gender Detection Framework for Monitoring Gender Equality," in
2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, 2018
[24] N Srivastava, G Hinton, A Krizhevsky, I Sutskever and R Salakhutdinov,
"Dropout: A Simple Way to Prevent Neural Networks from Overfitting,"
Journal of Machine Learning Research, vol 15, no 1, pp 1929-1958, 2014
[25] W Abdulla, "Auditory based feature vectors for speech recognition systems," The University of Auckland, New Zealand, 2012
[26] T L.- Tien and H D Chien, "Vietnamese Speech Recognition applied to Robot Communications," Engineering, 2004
[27] 3 7 1JKƭD 1Kұn dҥng tiӃng ViӋt sӱ dөng biӃQ ÿәi Wavelet và mô hình Markov ҭn," The university of Education, Hà Nӝi, 2006
[28] /;7KjQKĈ7/7Kӫy, N H Quang và T V Loan, "So sánh hiӋXQăQJ mӝt sӕ SKѭѫQJ SKiS QKұn dҥng cҧm xúc tiӃng ViӋt," in H͡i ngh͓ Khoa H͕c Qu͙c Gia l̯n thͱ 9, CҫQ7Kѫ
[29] Ĉ7/7Kӫy, T V Loan, N H Quang và L X Thành, "ҦQKKѭӣng cӫDÿһc WUѭQJSKә tín hiӋu tiӃQJQyLÿӃn nhân dҥng cҧm xúc tiӃng ViӋt," in H͡i ngh͓
Khoa H͕c Qu͙c Gia l̯n thͱ 10Ĉj1ҹng, 2017
[30] N Srivastava, G Hinton, A Krizhevsky, I Sutskever and R Salakhutdinov,
"Dropout: A Simple Way to Prevent Neural Networks from Overfitting,"
Journal of Machine Learning Research , vol 15, pp 1929-1958, 2014
[31] D Shete and S Patil, "Zero crossing rate and Energy of the Speech Signal of Devanagari Script," IOSR Journal of VLSI and Signal processing, vol 4, no 1, pp 1-05, 2014
[32] M Hussain, J J Bird and D R Faria, "A Study on CNN Transfer Learning for Image Classification," in Conference: UKCI 2018: 18th Annual UK Workshop on Computational Intelligence, Nottingham, 2018
[33] F A Russo and S R Livingstone, "The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English.," Public Library of Science, vol 13, no 5, 2018
[34] G K Liu, "Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech," 23 Jun 2018 [Online] Available: https://arxiv.org/abs/1806.09010.