1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận diện cảm xúc kết hợp tiếng nói và văn bản

50 64 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 2,19 MB

Nội dung

Nhận dạng cảm xúc từ tín hiệu tiếng nói cho phép ta có thể nhận dạng được các cảm xúc như vui, buồn, tức giận hay chán nản chứa đựng trong tiếng nói.

Ngày đăng: 07/07/2021, 01:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] IBM Data and AI, USA, Nanjing Tech University, China, IBM Research AI, USA, Mingke Xu, Fan Zhang, Xiaodong Cui and Wei Zhang,"SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA,"p. 5, 03/02/2021 Sách, tạp chí
Tiêu đề: SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA
[2] J. Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova and Lee Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for," p. 16, 24/05/2019 Sách, tạp chí
Tiêu đề: BERT: Pre-training of Deep Bidirectional Transformers for
[3] University of Southern California, IMSC, SIPI and EE-Systems, "The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database," 2004 Sách, tạp chí
Tiêu đề: The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database
[4] L. Robert, "Understanding the Mel Spectrogram," 6 2020. [Online]. Available: https://medium.com/analytics-vidhya/understanding-the-mel-spectrogram-fca2afa2ce53 Sách, tạp chí
Tiêu đề: Understanding the Mel Spectrogram
[5] N. T. Trung, "Feature Extraction - MFCC cho xử lý tiếng nói," 29 8 2020. [Online]. Available: https://viblo.asia/p/feature-extraction-mfcc-cho-xu-ly-tieng-noi-4dbZN2xmZYM Sách, tạp chí
Tiêu đề: Feature Extraction - MFCC cho xử lý tiếng nói
[6] N. T. TUAN, "Convolution Neural Network," [Online]. Available: https://nttuan8.com/bai-6-convolutional-neural-network/ Sách, tạp chí
Tiêu đề: Convolution Neural Network
[7] G. R. U. o. T. Google Brain, "Attention Is All You Need," p. 11 Sách, tạp chí
Tiêu đề: Attention Is All You Need
[8] P. D. Khanh, "BERT model," [Online]. Available: https://phamdinhkhanh.github.io/2020/05/23/BERTModel.html Sách, tạp chí
Tiêu đề: BERT model
[9] A. S. Jaswal, "Byte Pair Encoding — The Dark Horse of Modern NLP," 22 11 2019. [Online]. Available: https://towardsdatascience.com/byte-pair-encoding-the-dark-horse-of-modern-nlp-eb36c7df4f10 Sách, tạp chí
Tiêu đề: Byte Pair Encoding — The Dark Horse of Modern NLP
[10] Maxime, "What is a Transformer?," 5 1 2019. [Online]. Available: https://medium.com/inside-machine-learning/what-is-a-transformer-d07dd1fbec04 Sách, tạp chí
Tiêu đề: What is a Transformer
[12] N. H. Tiep, "Multi-layer Perceptron và Backpropagation," [Online]. Available: https://machinelearningcoban.com/2017/02/24/mlp/ Sách, tạp chí
Tiêu đề: Multi-layer Perceptron và Backpropagation
[13] N. H. Tiep, "Logistic Regression," [Online]. Available: https://machinelearningcoban.com/2017/01/27/logisticregression/ Sách, tạp chí
Tiêu đề: Logistic Regression
[15] "Understanding LSTM Networks," 27 8 2015. [Online]. Available: https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Sách, tạp chí
Tiêu đề: Understanding LSTM Networks

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Mô hình chung các thuật toán học có giám sát - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 1.1. Mô hình chung các thuật toán học có giám sát (Trang 14)
Hình 1.2. Mô hình chung cho các thuật toán học không giám sát - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 1.2. Mô hình chung cho các thuật toán học không giám sát (Trang 15)
Hình 1.3. Hình ảnh kiến trúc mạng neuron đại diện cho học sâu - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 1.3. Hình ảnh kiến trúc mạng neuron đại diện cho học sâu (Trang 16)
Hình 2.1. Hình ảnh cuộc đối thoại giữ a2 diễn viên trong IEMOCAP dataset [3] - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.1. Hình ảnh cuộc đối thoại giữ a2 diễn viên trong IEMOCAP dataset [3] (Trang 21)
Hình 2.2. Hình ảnh phòng thu âm, gắn nhãn cho dữ liệu [3] - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.2. Hình ảnh phòng thu âm, gắn nhãn cho dữ liệu [3] (Trang 21)
Hình 2.3. Thông tin vị trí đầu, biểu cảm trên khuôn mặt diễn viên sẽ được ghi lại [3] - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.3. Thông tin vị trí đầu, biểu cảm trên khuôn mặt diễn viên sẽ được ghi lại [3] (Trang 22)
Hình 2.5. Phần mềm để chú thích biểu cảm và các thuộc tính của cuộc đối thoại [3] - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.5. Phần mềm để chú thích biểu cảm và các thuộc tính của cuộc đối thoại [3] (Trang 23)
Hình 2.4. Biểu diễn không gian của các nhãn chiều: activation, valence và dominance - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.4. Biểu diễn không gian của các nhãn chiều: activation, valence và dominance (Trang 23)
Hình 2.7. Biểu diễn tín hiệu tiếng nói theo miền thời gian - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.7. Biểu diễn tín hiệu tiếng nói theo miền thời gian (Trang 26)
Hình 2.9. Ảnh phổ thu được sau biến đổi Fourier - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.9. Ảnh phổ thu được sau biến đổi Fourier (Trang 27)
Hình 2.10. Quy trình để trích xuất được quang phổ (Spectrogram) - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.10. Quy trình để trích xuất được quang phổ (Spectrogram) (Trang 28)
Hình 2.11. Ảnh quang phổ (Spectrogram) - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.11. Ảnh quang phổ (Spectrogram) (Trang 29)
Hình 2.13. Sơ đồ khối của trích xuất đặc trưng MFCC - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.13. Sơ đồ khối của trích xuất đặc trưng MFCC (Trang 30)
dựng mô hình nhận dạng cảm xúc từ tín hiệu tiếng nói. Dưới đây là kiến trúc tổng quan của mô hình mạng neuron này. - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
d ựng mô hình nhận dạng cảm xúc từ tín hiệu tiếng nói. Dưới đây là kiến trúc tổng quan của mô hình mạng neuron này (Trang 31)
Hình 2.16. Kiến trúc Convolution layer trong deep learning - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.16. Kiến trúc Convolution layer trong deep learning (Trang 32)
Hình 2.18. Kiến trúc Fully connect layer [6] trong deep learning - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.18. Kiến trúc Fully connect layer [6] trong deep learning (Trang 33)
2.5.2 Xây dựng mô hình - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
2.5.2 Xây dựng mô hình (Trang 36)
Hình 2.21. Kiến trúc transformer sử dụng cơ chế attention - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 2.21. Kiến trúc transformer sử dụng cơ chế attention (Trang 37)
Sau khi tiến hành huấn luyện và kiểm thử mô hình với các tham số đã trình bày ở mục 2.4.3 ở trên thì em thu được bảng kết quả sau:  - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
au khi tiến hành huấn luyện và kiểm thử mô hình với các tham số đã trình bày ở mục 2.4.3 ở trên thì em thu được bảng kết quả sau: (Trang 40)
Bảng 3.2. Kết quả nhận diện cảm xúc từ tiếng nói khi tăng cường dữ liệu (độ đo accuracy)  - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Bảng 3.2. Kết quả nhận diện cảm xúc từ tiếng nói khi tăng cường dữ liệu (độ đo accuracy) (Trang 41)
Mô hình Đặc  - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
h ình Đặc (Trang 41)
Hình 4.1. Trang chủ của ứng dụng - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 4.1. Trang chủ của ứng dụng (Trang 44)
Hình 4.6. Kết quả cảm xúc được nhận diện từ văn bản và xác suất dự đoán đúng khi ấn nút Submit  - Nhận diện cảm xúc kết hợp tiếng nói và văn bản
Hình 4.6. Kết quả cảm xúc được nhận diện từ văn bản và xác suất dự đoán đúng khi ấn nút Submit (Trang 46)

TỪ KHÓA LIÊN QUAN

w