1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số giải pháp nâng cao chất lượng nhận dạng cảm xúc sử dụng bộ dữ liệu sinh học của mit và bộ dữ liệu deap

93 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một số giải pháp nâng cao chất lượng nhận dạng cảm xúc sử dụng bộ dữ liệu sinh học của MIT và bộ dữ liệu DEAP
Tác giả Phạm Văn Dũng
Người hướng dẫn TS. Cung Thành Long
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Kỹ thuật điều khiển và tự động hóa
Thể loại luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 93
Dung lượng 15,58 MB

Nội dung

ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Một số giải pháp nâng cao chất lượng nhận dạng cảm xúc sử dụng liệu sinh học MIT liệu DEAP PHẠM VĂN DŨNG dung.pv202248M@sis.hust.edu.vn Ngành Kỹ thuật điều khiển tự động hóa Giảng viên hướng dẫn: TS Cung Thành Long Trường: Điện - Điện tử HÀ NỘI, 4/2023 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Phạm Văn Dũng Đề tài luận văn: Một số giải pháp nâng cao chất lượng nhận dạng cảm xúc sử dụng liệu sinh học MIT liệu DEAP Chuyên ngành: Kỹ thuật điều khiển tự động hóa Mã số HV: 20202248M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày… .………… với nội dung sau: x Chỉnh sửa lại lỗi tả luận văn, chỉnh sửa lỗi font chữ với cơng thức tốn học x Đổi thứ tự hai đoạn văn mục 3.3.1 x Sửa lại, dịch Bảng 3.1, Hình 3.8, 3.9 sang tiếng Việt x Thêm mô tả phương pháp Leave-One-Out Cross-validation Hình 3.14, thêm lưu đồ thuật tốn cho phương pháp đề xuất luận văn Hình 3.15 x Thêm danh mục cơng trình liên quan cơng bố trình thực luận văn phụ lục A4 Ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG ĐỀ TÀI LUẬN VĂN Tên đề tài: Một số giải pháp nâng cao chất lượng nhận dạng cảm xúc sử dụng liệu sinh học MIT liệu DEAP Giảng viên hướng dẫn: TS Cung Thành Long Giảng viên hướng dẫn Ký ghi rõ họ tên Lời cảm ơn Lời đầu tiên, tác giả xin gửi lời cảm ơn chân thành đến thầy cô, cán nhân viên trường nói chung thầy cô giảng viên Trường Điện - Điện tử nói riêng giảng dạy truyền đạt cho tác giả nhiều kiến thức quý báu suốt trình học tập trường Tác giả xin kính chúc thầy cô thật nhiều sức khỏe, gặt hái nhiều thành công, danh hiệu để tiếp tục truyền đạt kiến thức cho hệ sinh viên Bách Khoa sau Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn Thầy - TS Cung Thành Long bạn sinh viên DREAM LAB tận tình động viên, bảo, giúp đỡ tháo gỡ khúc mắc suốt trình thực luận văn Bên cạnh đó, khơng thể khơng nhắc tới hỗ trợ từ gia đình người bạn thân thiết Mọi người đồng hành, khích lệ hậu phương vững cho tác giả vào giai đoạn khó khăn Tóm tắt nội dung luận văn Nhận dạng cảm xúc có tiềm ứng dụng thực tiễn lớn lĩnh vực kiểm tra an ninh, phát nói dối, phát triển robot có khả nhận dạng, hiểu giao tiếp có cảm xúc với người, xây dựng ứng dụng thấu cảm phục vụ đào tạo từ xa, ứng dụng hỗ trợ lái xe, phi công bay đường dài, ứng dụng chăm sóc sức khỏe, … nhiều ứng dụng khác Trong lĩnh vực nhận dạng cảm xúc, phương pháp nhận dạng cảm xúc sử dụng tín hiệu sinh học (physiological signals) có nhiều ưu điểm so với phương pháp tiền nhiệm khác sử dụng ảnh biểu cảm gương mặt hay sử dụng giọng nói Tuy nhiên, phương pháp cịn nhiều khó khăn, thách thức cần nghiên cứu giải quyết, đặc biệt liệu Do đó, mục tiêu luận văn nhằm đưa số phương pháp giúp cải thiện chất lượng nhận dạng cảm xúc hai liệu MIT DEAP Kết luận văn phần đạt mục tiêu đề đưa phương pháp nâng cao chất lượng nhận dạng liệu nêu Đối với liệu MIT, áp dụng kỹ thuật phân đoạn liệu, tập liệu chồng chập không chồng chập xây dựng Thuật toán Random Forest sử dụng đặc trưng thống kê giúp đạt độ xác nhận dạng 97.72% với trạng thái cảm xúc Khi sử dụng tín hiệu EEG liệu DEAP, phương pháp biến đổi EEG-slic-graph đề xuất cho phép lựa chọn số lượng nút đầu vào đồ thị giúp làm giảm kích thước mơ hình Những mơ hình mạng nơ ron Spectral Convolutional Graph huấn luyện đạt độ xác cho hai nhãn Valence /arousal 93.29 %/92.7 % với subject-independent 60.12 %/62.39% với subject-dependent Các kết tương đương tốt so với cơng trình cơng bố Hướng mở rộng đề tài sử dụng kiến trúc mạng GCN khác ưu việt hơn, thử nghiệm liệu khác với số lượng kênh EEG lớn kiểm chứng kết Cuối cùng, sử dụng phương pháp nhận dạng thử nghiệm để phát triển thuật toán nhận dạng online, ứng dụng tương tác người máy có cảm xúc HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC SỬ DỤNG CÁC TÍN HIỆU SINH HỌC 1.1 Giới thiệu chung 1.2 Các mơ hình cảm xúc Mơ hình cảm xúc gián đoạn Mơ hình khơng gian cảm xúc đa chiều 1.3 Ưu điểm, nhược điểm phương pháp nhận dạng cảm xúc Nhận dạng cảm xúc sử dụng hình ảnh Nhận dạng cảm xúc sử dụng giọng nói Nhận dạng cảm xúc sử dụng tín hiệu sinh học 1.4 Khó khăn phương pháp nhận dạng cảm xúc sử dụng tín hiệu sinh học 1.5 học Quy trình tốn nhận dạng cảm xúc sử dụng tín hiệu sinh Tiền xử lý liệu Áp dụng kỹ thuật phân lớp Ra định nhận dạng CƠ SỞ LÝ THUYẾT 11 2.1 Một số kỹ thuật trích chọn đặc trưng, lựa chọn đặc trưng 11 Sequential Feature Algorithms (SFAs) 11 Principal Components Analysis (PCA) 12 Linear Discriminant Analysis (LDA) 14 2.2 Kỹ thuật tăng cường liệu (data augmentation) 16 Phương pháp sinh liệu từ dataset sẵn có 17 Phương pháp phân đoạn liệu (segmenting) 18 Phương pháp thêm nhiễu vào tín hiệu 19 2.3 Một số kỹ thuật phân lớp 20 Softmax Regression 20 Support Vector Machine (SVM) 25 Random Forest 30 2.4 Mạng nơ ron nhân tạo 31 Multilayer Perceptrons - MLP 32 Mạng nơ ron tích chập (Convolutional Neural Network - CNN) 37 Mạng nơ ron hồi quy (Recurrent Neural Network - RNN) 41 Mạng nơ ron đồ thị (Graph Neural Network) 46 2.5 Bài toán nhận dạng cảm xúc nội dung luận văn 53 NHẬN DẠNG CẢM XÚC TRÊN BỘ DỮ LIỆU MIT VÀ BỘ DỮ LIỆU DEAP 55 3.1 Nhận dạng cảm xúc liệu MIT 55 Đặc điểm liệu cảm xúc MIT 55 Tiền xử lý liệu 55 Tính tốn đặc trưng 56 liệu MIT 3.2 Mơ hình kết phân loại trạng thái cảm xúc 57 Nhận dạng cảm xúc liệu DEAP 60 Đặc điểm liệu DEAP 60 Rò rỉ liệu (data leakage) phương pháp tăng cường liệu huấn luyện mơ hình nhận dạng cảm xúc 61 Các mơ hình mạng nơ ron đồ thị (GCNN) nhận dạng sắc thái cảm xúc liệu DEAP 63 Phương pháp chuyển đổi EEG-slic-graph cho nhận dạng cảm xúc sử dụng liệu DEAP 67 KẾT LUẬN CHUNG 75 TÀI LIỆU THAM KHẢO 77 PHỤ LỤC 81 DANH MỤC HÌNH VẼ Hình 1.1 Bánh xe cảm xúc Plutchik Hình 1.2 Khơng gian cảm xúc chiều Hình 1.3 Không gian cảm xúc chiều Hình 1.4 Quy trình tốn nhận dạng cảm xúc sử dụng tín hiệu sinh học Hình 1.5 Mơ hình kết hợp (ensemble model) 10 Hình 2.1 Thuật tốn PCA 12 Hình 2.2 Thuật toán LDA 15 Hình 2.3 Đồ thị hàm sigmoid 20 Hình 2.4 Mơ hình hồi quy logistic 22 Hình 2.5 Mơ hình hồi quy softmax 23 Hình 2.6 Đường thẳng phân chia liệu không gian chiều 25 Hình 2.7 Lề (margin) thuật tốn SVM 26 Hình 2.8: Bài toán hard-margin SVM với điểm gây nhiễu 28 Hình 2.9 Dữ liệu khơng phân biệt tuyến tính 29 Hình 2.10 Mô tả cách hoạt động kernel SVM 29 Hình 2.11 Cấu trúc nơ-ron sinh học 32 Hình 2.12 Perceptron 32 Hình 2.13 Biểu diễn nơ ron sinh học góc nhìn tốn 33 Hình 2.14 Multilayer perceptron - mạng nơ ron với lớp ẩn 34 Hình 2.15 Ví dụ kết nối đầy đủ (dưới) kêt nối thưa (trên) 39 Hình 2.16 Cách tính tích chập ảnh 39 Hình 2.17 Minh họa phép tốn max pooling average pooling ảnh 41 Hình 2.18 Biểu đồ tính tốn mạng RNN 42 Hình 2.19 Cấu trúc lớp LSTM so với RNN 42 Hình 2.20 Chi tiết cấu trúc lớp LSTM 43 Hình 2.21 Cơ chế attention toán dịch máy sử dụng RNN 45 Hình 2.22 Một số cách biểu diễn loại liệu theo dạng đồ thị 47 Hình 2.23 Hai loại mạng GCN 48 Hình 2.24 Cạnh nút đồ thị 48 Hình 2.25 Biểu diễn ma trận liền kề cho đồ thị có hướng 49 Hình 2.26 Biểu diễn ma trận bậc ma trận Laplacian 49 Hình 2.27 Ma trận có hướng vô hướng 50 Hình 2.28 Mơ hình mạng GCN 51 Hình 2.29 Xử lý liệu mạng CNN GCN 53 Hình 3.1 Các tín hiệu sinh học liệu MIT 55 Hình 3.2 Đồ thị điểm CV thuật toán SFFS SBFS 57 Hình 3.3 Đồ thị hàm ReLU 58 Hình 3.4 Các confusion matrix kết phân loại RF 59 Hình 3.5 Mơ hình ACRNN [9] 62 Hình 3.6 Ví dụ kết nối kênh EEG 64 Hình 3.7 Mơ hình DGCNN 65 Hình 3.8 Quy trình huấn luyện mơ hình DGCNN [7] 66 Hình 3.9 Quy trình huấn luyện mơ hình SparseDGCNN [11] 67 Hình 3.10 Quy trình chuyển từ ảnh dạng lưới truyền thống sang superpixel graph [42] 69 Hình 3.11 Cách xếp vị trí điện cực EEG liệu DEAP không gian chiều, vị trí tơ đỏ điện cực có thơng tin liệu DEAP 69 Hình 3.12 Topology mapping sau sử dụng thuật toán nội suy clough-touch dải tần số EEG 70 Hình 3.13 Topology mappings dải tần số EEG sau phân vùng sử dụng SLIC với số lượng phân vùng 5, 10 70 Hình 3.14 Mơ tả thuật tốn Leave-One-Out Cross-validation 71 Hình 3.15 Lưu đồ thực chuyển đổi EEG-slic-graph 72 DANH MỤC BẢNG BIỂU Bảng 3.1 Cơng thức tính đặc trưng thống kê 56 Bảng 3.2 Kết nhận dạng tập liệu chồng chập không chồng chập 58 Bảng 3.3 Kết độ xác subject-dependent mơ hình ACRNN (accuracy: mean ± std) 63 Bảng 3.4 Kết subject-independent mơ hình ACRNN (accuracy: mean)63 Bảng 3.5 Kết phương pháp DGCNN SparseDGCNN thực lại so với kết công bố [11] nhận dạng trạng thái cao/thấp valence arousal liệu DEAP sử dụng phương pháp LOTO (trung bình độ xác / std) 73 Bảng 3.6 Kết subject-dependent phương pháp đề xuất 73 Bảng 3.7 Kết subject-independent báo, thực lại phương pháp đề xuất 74 Hình 3.10 Quy trình chuyển từ ảnh dạng lưới truyền thống sang superpixel graph [42] b Slic-graph cho tín hiệu EEG (EEG-slic-graph) Để sử dụng kỹ thuật SLIC cho kênh EEG, trước tiên liệu từ kênh EEG cần đưa dạng ma trận chiều Ở phương án đề xuất, kênh tín hiệu EEG xếp theo hệ thống 10-20 [47] mô tả Hình 3.11, với vị trí ma trận giá trị đặc trưng DE phân đoạn tín hiệu EEG điện cực Với điện cực khơng có liệu, giá trị chúng ảnh gán Trong phương pháp đề xuất, số lượng điện cực liệu DEAP tương đối nhỏ (32 điện cực), ma trận có kích thước 9x9 lựa chọn để biểu diễn vị trí điện cực mặt phẳng hai chiều Khi đó, điện cực khơng tồn q nhiều vị trí khơng có thơng tin, ảnh hương đến kết thuật toán nội suy bước Hình 3.11 Cách xếp vị trí điện cực EEG liệu DEAP khơng gian chiều, vị trí tơ đỏ điện cực có thơng tin c liệu DEAP Sau có ma trận 9x9 điện cực, với vị trí điện cực bị thiếu thơng tin (Hình 3.11Hình 3.11), thuật toán nội suy clough-tocher sử dụng để ước lượng giá trị vị trí khơng ma trận đặc trưng Thuật toán Clough-Tocher [40] phương pháp nội suy phổ biến thường sử dụng cho tín hiệu EEG vị trí điện cực khơng có sẵn liệu Thuật tốn dựa phương pháp phần tử hữu hạn, vùng cần nội suy biểu diễn dạng lưới tam giác giá trị mơ hình hóa dạng hàm tuyến tính theo vị trí lưới Thuật tốn hoạt động cách tính trung bình có trọng số điểm liệu lân cận cho điểm lưới, với trọng số xác định khoảng cách vị trí điểm lưới vị trí điểm cần tìm Trọng số xác định kỹ thuật distancebased (dựa khoảng cách), RBF-based (sử dụng hàm RBF) hay phương pháp tọa độ baricentric [40] Thuật toán Clough-Tocher đặc biệt hữu ích cho việc nội suy đồ cấu trúc liên kết EEG (EEG topology mapping), thuật tốn sử dụng để ước tính giá trị điện cực EEG vị trí 69 Hình 3.12 thể ví dụ ma trận topology mapping (dạng lưới 9x9) trước sau thực nội suy mẫu liệu DEAP, với chấm đen vị trí điện cực có thơng tin Hình 3.12 Topology mapping sau sử dụng thuật toán nội suy clough-touch dải tần số EEG Ma trận topology mapping phân vùng sử dụng thuật tốn SLIC [28] (Hình 3.13) vùng ảnh sau coi nút đồ thị, giá trị đặc trưng ma trận liền kề đồ thị tính tốn biến đổi thành RAG tương tự nghiên cứu [42] Cuối đồ thị EEG (eeg-slic-graph) sử dụng để train mô hình sparceDGCNN Hình 3.13 Topology mappings dải tần số EEG sau phân vùng sử dụng SLIC với số lượng phân vùng 5, 10 Thực nghiệm kết liệu DEAP Để đảm bảo độ tin cậy mơ hình nhận dạng cảm xúc sử dụng tín hiệu sinh học, nghiên cứu gần thực training theo phương pháp LeaveOne-Trial-Out (LOTO) Leave-One-Subject-Out (LOSO) Trong đó, phương pháp LOTO sử dụng cho mơ hình subject dependent Tương tự phương pháp leave-one-out cross-validation (Hình 3.14), LOTO tiến hành bỏ trial đối tượng làm liệu kiểm thử, trial lại sử dụng cho huấn luyện, kết cuối trung bình tất trial Với mơ hình subjectindependent, phương pháp LOSO thực tương tự phương pháp K-fold cross-validation Trong trường hợp này, liệu đối tượng 70 sử dụng làm liệu kiểm thử (tương tự fold phương pháp K-fold cross-validation), liệu đối tượng cịn lại dùng để huấn luyện mơ hình Kết cuối tính trung bình kết tất đối tượng liệu Các nghiên cứu [7,11,12] sử dụng hai phương pháp LOTO LOSO để đánh giá hiệu mơ hình đề xuất Một số kết nghiên cứu thực lại trình bày phần sở để đánh giá hiệu mơ hình đề xuất luận văn Hình 3.14 Mơ tả thuật toán Leave-One-Out Cross-validation Dữ liệu tăng cường phương pháp phân đoạn sau áp dụng phương pháp huấn luyện LOTO LOSO Độ dài phân đoạn chọn giây tỉ lệ chồng chập phân đoạn liên tiếp 50 % Đặc trưng DE trích xuất cho đoạn liệu dải tần số khác Tổng cộng thử nghiệm 60 giây có 59 phân đoạn, phân đoạn có đặc trưng tương ứng với dải tần số theta (4-7Hz), alpha (8-12Hz), beta (12-30Hz) gamma (>30 Hz) tín hiệu EEG Các đặc trưng tương ứng với 32 kênh EEG đưa vào mơ hình DGCNN, SparseDGCNN Với phương pháp đề xuất, đặc trưng tiếp tục xếp tạo thành eeg-slic-graph theo bước mục 4.3.2.4 Hình 3.15 với số lượng nút từ đến 10 nút 71 Hình 3.15 Lưu đồ thực chuyển đổi EEG-slic-graph Các mạng DGCNN SparseDGCNN luận văn sử dụng cấu trúc:  lớp spectral Graph convolution sử dụng để trích xuất đặc trưng đồ thị EEG: o Số lượng nút đồ thị: khoảng [5, 10] o Số đặc trưng đầu vào: đặc trưng DE tương ứng với dải tần số tín hiệu EEG o Số nơ ron đầu ra: 128 nơ ron  Lớp tích chập: o Kích thước kernel: 1x1  Lớp Fully-connected: lớp o Lớp gồm 256 nơ ron o Lớp output gồm nơ ron ứng với nhãn cảm xúc (cao/thấp) Các thông số huấn luyện sau:  Learning rate: 1e-3  O PT 2.41: 0.5  D PT 2.41: 1e-5  Batch size: 256  Số epoch: 80 Việc huấn luyện mơ hình sở DGCNN SparseDGCNN mơ hình đề xuất thực theo phương pháp LOTO LOSO Các kết trình bày Bảng 3.5, Bảng 3.6 Bảng 3.7 72 Bảng 3.5 Kết phương pháp DGCNN SparseDGCNN thực lại so với kết công bố [11] nhận dạng trạng thái cao/thấp valence arousal liệu DEAP sử dụng phương pháp LOTO (trung bình độ xác / std) Subject dependent Thực lại báo Dải tần số bands DGCNN Valence Kết công bố báo SparseDGCNN Arousal Valence theta 71.15/6.6 70.2/7.58 75.76/9.4 theta 72.81/5.3 71.52/7.2 beta 74.63/7.5 gamm a Tất Arousal DGCNN SparseDGCNN Valence Arousal Valence Arousal 72.52/7.7 82.53/8.37 79.77/7.4 91.61/8.6 88.30/8.3 77.72/8.0 74.59/7.3 83.41/8.90 80.13/8.7 92.20/9.0 87.92/8.4 73.41/7.0 79.91/8.6 77.1/7.77 83.98/9.29 81.44/9.2 93.24/8.3 88.07/8.1 80.2/6.13 78.38/6.7 84.47/6.7 81.38/7.4 84.25/10.4 80.42/8.4 92.09/9.5 87.97/8.3 83.23/6.1 80.86/6.1 86.4/7.07 83.61/7.6 86.32/6.04 83.68/5.6 95.72/3.7 91.75/5.2 Bảng 3.6 Kết subject-dependent phương pháp đề xuất Subject dependent EEG slic-graph + SparseDGCNN Số lượng nút Valence Arousal 91.38/7.64 87.81/8.21 88.03/8.04 83.61/7.91 87.24/9.39 83.77/9.02 85.35/10.03 83.91/8.23 89.78/7.65 86.4/6.87 10 93.29/6.52 92.7/6.71 Theo phương pháp LOSO, kết thực lại theo báo, kết báo kết phương pháp đề xuất trình bày Bảng 3.7: 73 Bảng 3.7 Kết subject-independent báo, thực lại phương pháp đề xuất Kết Mơ hình Valence Bài báo SparseDGCNN 60.65/6.24 65.39/9.41 DGCNN 58.46/7.85 61.65/13.34 SparseDGCNN 59.31/7.67 59.72/7.41 DGCNN 55.26/6.44 56.13/6.04 Thực lại Phương xuất pháp Arousal đề SparseDGCNN 59.58/5.93 62.25/11.09 (số lượng nút đầu vào khác nhau) 58.75/6.82 62.39/10.04 60.12/6.61 61.51/11.00 59.37/5.92 61.01/11.77 59.29/5.90 61.32/8.92 10 58.57/6.94 61.79/10.28 Từ bảng trên, độ xác nhận dạng thực lại thử nghiệm chưa tốt kết công bố, xu hướng thể tương đồng với kết công bố nghiên cứu [11] Độ xác việc nhận dạng sắc thái valence với subject-dependent cao so với arousal tất trường hợp (công bố báo, thực lại phương pháp đề xuất) Đồng thời kết tốt ghi nhận sử dụng đặc trưng toàn dải tần số tín hiệu EEG Từ Bảng 3.5, thấy kết tốt phương pháp đề xuất thấy slic-graph với 10 nút đồ thị với trường hợp subject dependent Độ xác trung bình tốt tất đối tượng cho nhãn Valence/Arousal đạt đầu vào eeg graph với 10 nút 93.29 % 92.7 % - tương đối gần với kết công bố báo, chênh lệch từ đến % (93.29 % so với 95.72 % 92.7 % so với 91.75 %) Điều cho thấy hiệu phương pháp đề xuất nhiệm vụ nhận dạng cảm xúc đối tượng riêng lẻ Ngoài ra, tất kết với số lượng nút đồ thị eeg đầu vào khác phương pháp đề xuất tốt so với kết thực lại thử nghiệm báo Trong trường hợp subject-independent, Bảng 3.7 cho thấy ba trường hợp (công bố báo, thực lại phương pháp đề xuất), kết chưa thực tốt tác vụ nhận dạng cảm xúc Chất lượng nhận dạng tương đối thấp, tốt đạt 65.39 % độ xác với nhãn Arousal 60.65 % với nhãn Valence (công bố báo [11]) Kết nhận dạng phương pháp đề xuất trường hợp đạt 62.39% 60.12 % với nhãn Arousal Valence 74 KẾT LUẬN CHUNG  Các kết đạt được: Luận văn trình bày số phương pháp giúp cải thiện chất lượng nhận dạng cảm xúc sử dụng tín hiệu sinh học (physiological signals) Trong đó, đặc điểm toán nhận dạng cảm xúc sử dụng tín hiệu sinh học liệu, xử lý liệu, trích chọn đặc trưng, kỹ thuật phân lớp,…đã trình bày Luận văn trình bày theo cấu trúc chương Trong chương 1, khái bản, khó khăn, tầm quan trọng ứng dụng toán nhận dạng cảm xúc sử dụng tín hiệu sinh học trình bày Tiếp theo, sở lý thuyết phương pháp trích chọn đặc trưng, tăng cường liệu phân lớp, nhận dạng phổ biến sử dụng cho tốn trình bày chương Ở chương 3, tác giả giới thiệu liệu MIT DEAP phương pháp nâng cao chất lượng nhận dạng cảm xúc hai liệu Đối với liệu MIT, thông qua việc sử dụng phương pháp phân đoạn tín hiệu, hai tập liệu chồng chập không chồng chập tạo nên Các đặc trưng thống kê sử dụng kết hợp với phương pháp lựa chọn đặc trưng SFFS nhằm tăng chất lượng nhận dạng cảm xúc liệu Một số kết đạt liệu MIT:  Đối với liệu khơng chồng chập, độ xác cao đạt 76.56% trạng thái cảm xúc sử dụng phân loại Random Forest  Với liệu chồng chập, kết trung bình trạng thái cảm xúc 97.72% đạt thơng qua mơ hình Random Forest Ngồi ra, độ xác ba mơ hình SVM, RF MLP cao 90%  Các kết liệu MIT tổng hợp công bố báo tạp chí Bulletin of Electrical Engineering and Informatics, thuộc danh mục Scopus Q3, IF: 1.9 [35] Khi sử dụng liệu DEAP, thử nghiệm nhằm kiểm tra tượng rò rỉ liệu (data leakage) trình huấn luyện mơ hình nhận dạng thực Các kết cho thấy liệu test bị rò rỉ sang liệu train trình chia train/test bỏ qua tính phân biệt trial đối tượng hay đối tượng khác Từ đó, việc sử dụng phương pháp LOTO LOSO cần thiết với tốn nhận dạng cảm xúc sử dụng tín hiệu sinh học Bên cạnh đó, phương pháp xử lý liệu đầu vào nhằm tăng chất lượng nhận dạng liệu DEAP đề xuất Theo phương pháp đề xuất, điện cực EEG xếp ma trận chiều phân vùng thành siêu điểm ảnh (superpixel) nhờ phương pháp SLIC Sau đó, đồ thị slic-EEG-graph hình thành với nút siêu điểm ảnh cạnh liên kết siêu điểm ảnh Cùng với phương pháp đề xuất, mơ hình nhận dạng cho kết tốt sử dụng mạng Spectral Graph Convolution thực lại nhằm kiểm 75 chứng hiệu phương pháp đề xuất Các kết phương pháp đề xuất liệu DEAP:  Những kết thực lại mơ hình DGCNN SparseDGCNN thấp so với công bố báo đôi chút (cỡ vài %) xu hướng kết trùng với kết cơng bố (độ xác subject-dependent nhãn valence cao arousal, kết tốt đạt sử dụng tất dải tần số EEG)  Phương pháp đề xuất cho kết tốt tương đương với mơ hình DGCNN SparseDGCNN với hai trường hợp subject-independent (93.29 %/92.7 % cho valence/arousal) subject-dependent (60.12 %/62.39 % cho valence/arousal) Điều phương pháp đề xuất có hiệu tốt với nhiệm vụ nhận dạng cảm xúc  Phương pháp đề xuất giúp biến đổi đầu vào thành đồ thị có số nút thay 32 nút thử nghiệm gốc báo, làm giảm số lượng tham số cho mô hình  Do tự lựa chọn số lượng nút đồ thị đầu vào, phương pháp mở rộng cho đồ thị lớn với nhiều điện cực EEG Từ mơ hình trích xuất đầy đủ thơng tin mà khơng làm tăng chi phí tính tốn  Hướng phát triển luận văn tương lai: Từ kết có với liệu MIT DEAP, tác giả mong muốn ứng dụng chúng để tiếp tục phát triển thực công việc tương lai:  Thử nghiệm phương pháp đề xuất với liệu EEG khác với số lượng điện cực EEG lớn/nhỏ để kiểm chứng kết  Thử nghiệm kiến trúc mạng GCN khác phức tạp GraphSaGE, GraphAttention  Kết hợp mơ hình chuỗi thời gian LSTM với mơ hình GCN nhằm trích xuất thêm đặc trưng tiềm ẩn mặt thời gian, nghiên cứu ảnh hưởng đặc trưng với thay đổi cảm xúc  Thiết kế ứng dụng tương tác người máy có cảm xúc sử dụng phương pháp đề xuất 76 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] I Goodfellow et al., “Generative adversarial networks,” Communications of the ACM, vol 63, no 11, pp 139–144, 2020 D P Kingma and M Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013 Y Luo and B.-L Lu, “EEG data augmentation for emotion recognition using a conditional Wasserstein GAN,” in 2018 40th annual international conference of the IEEE engineering in medicine and biology society (EMBC), 2018, pp 2535–2538 Y Luo, L.-Z Zhu, and B.-L Lu, “A GAN-based data augmentation method for multimodal emotion recognition,” in Advances in Neural Networks ISNN 2019: 16th International Symposium on Neural Networks, ISNN 2019, Moscow, Russia, July 10 12, 2019, Proceedings, Part I 16, 2019, pp 141–150 S Bhat and E Hortal, “GAN-Based Data Augmentation for Improving the Classification of EEG Signals,” in The 14th PErvasive Technologies Related to Assistive Environments Conference, 2021, pp 453–458 K G Hartmann, R T Schirrmeister, and T Ball, “EEG-GAN: Generative adversarial networks for electroencephalograhic (EEG) brain signals,” arXiv preprint arXiv:1806.01875, 2018 T Song, W Zheng, P Song, and Z Cui, “EEG emotion recognition using dynamical graph convolutional neural networks,” IEEE Transactions on Affective Computing, vol 11, no 3, pp 532–541, 2018 P Sarkar and A Etemad, “Self-supervised ECG representation learning for emotion recognition,” IEEE Transactions on Affective Computing, vol 13, no 3, pp 1541–1554, 2020 W Tao et al., “EEG-based emotion recognition via channel-wise attention and self attention,” IEEE Transactions on Affective Computing, 2020 Y Ding et al., “Tsception: a deep learning framework for emotion detection using EEG,” in 2020 international joint conference on neural networks (IJCNN), 2020, pp 1–7 G Zhang, M Yu, Y.-J Liu, G Zhao, D Zhang, and W Zheng, “SparseDGCNN: Recognizing emotion from multichannel EEG signals,” IEEE Transactions on Affective Computing, 2021 Y Ding, N Robinson, C Tong, Q Zeng, and C Guan, “LGGNet: Learning from local-global-graph representations for brain computer interface,” IEEE Transactions on Neural Networks and Learning Systems , 2023 P Zhong, D Wang, and C Miao, “EEG-based emotion recognition using regularized graph neural networks,” IEEE Transactions on Affective Computing, vol 13, no 3, pp 1290–1301, 2020 Y LeCun, L Bottou, Y Bengio, and P Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol 86, no 11, pp 2278–2324, 1998 77 [15] I Goodfellow, Y Bengio, and A Courville, Deep Learning MIT Press, 2016 [16] S Hochreiter and J Schmidhuber, “Long Short-Term Memory,” Neural Computation, vol 9, no 8, pp 1735–1780, 1997, doi: 10.1162/neco.1997.9.8.1735 [17] D Bahdanau, K Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014 [18] M.-T Luong, H Pham, and C D Manning, “Effective approaches to attention-based neural machine translation,” arXiv preprint arXiv:1508.04025, 2015 [19] A Vaswani et al., “Attention is all you need,” Advances in neural information processing systems, vol 30, 2017 [20] J Gilmer, S S Schoenholz, P F Riley, O Vinyals, and G E Dahl, “Neural message passing for quantum chemistry,” in International conference on machine learning, 2017, pp 1263–1272 [21] R Ying, R He, K Chen, P Eksombatchai, W L Hamilton, and J Leskovec, “Graph convolutional neural networks for web-scale recommender systems,” in Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery \& data mining, 2018, pp 974–983 [22] M Kampffmeyer, Y Chen, X Liang, H Wang, Y Zhang, and E P Xing, “Rethinking knowledge graph propagation for zero-shot learning,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp 11487–11496 [23] T N Kipf and M Welling, “Semi-supervised classification with graph convolutional networks,” arXiv preprint arXiv:1609.02907, 2016 [24] Z Wu, S Pan, F Chen, G Long, C Zhang, and S Y Philip, “A comprehensive survey on graph neural networks,” IEEE transactions on neural networks and learning systems, vol 32, no 1, pp 4–24, 2020 [25] M Balcilar, G Renton, P Héroux, B Gauzere, S Adam, and P Honeine, “Bridging the gap between spectral and spatial domains in graph neural networks,” arXiv preprint arXiv:2003.11702, 2020 [26] D K Hammond, P Vandergheynst, and R Gribonval, “Wavelets on graphs via spectral graph theory,” Applied and Computational Harmonic Analysis, vol 30, no 2, pp 129–150, 2011 [27] T Song, W Zheng, P Song, and Z Cui, “EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks,” IEEE Transactions on Affective Computing, vol 11, no 3, pp 532–541, 2020, doi: 10.1109/TAFFC.2018.2817622 [28] R Achanta, A Shaji, K Smith, A Lucchi, P Fua, and S Süsstrunk, “SLIC superpixels compared to state-of-the-art superpixel methods,” IEEE transactions on pattern analysis and machine intelligence, vol 34, no 11, pp 2274–2282, 2012 [29] F Pedregosa et al., “Scikit-learn: Machine Learning in {P}ython,” Journal 78 [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] of Machine Learning Research, vol 12, pp 2825–2830, 2011 S Raschka, “MLxtend: Providing machine learning and data science utilities and extensions to Python’s scientific computing stack,” The Journal of Open Source Software, vol 3, no 24, Apr 2018, doi: 10.21105/joss.00638 Martín~Abadi et al., “{TensorFlow}: Large-Scale Machine Learning on Heterogeneous Systems.” 2015, [Online] Available: https://www.tensorflow.org/ A Paszke et al., “PyTorch: An Imperative Style, High-Performance Deep Learning Library,” in Advances in Neural Information Processing Systems 32, Curran Associates, Inc., 2019, pp 8024–8035 R W Picard, E Vyzas, and J Healey, “Toward machine emotional intelligence: Analysis of affective physiological state,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 23, no 10, pp 1175– 1191, Oct 2001, doi: 10.1109/34.954607 J Wagner, J Kim, and E André, “From physiological signals to emotions: Implementing and comparing selected methods for feature extraction and classification,” in IEEE International Conference on Multimedia and Expo, ICME 2005, 2005, vol 2005, pp 940–943, doi: 10.1109/ICME.2005.1521579 V.-D Pham and T.-L Cung, “An approach of re-organizing input dataset to enhance the quality of emotion recognition using the bio-signals dataset of MIT,” Bulletin of Electrical Engineering and Informatics, vol 10, no 6, pp 3220–3227, 2021 S Koelstra et al., “Deap: A database for emotion analysis; using physiological signals,” IEEE transactions on affective computing, vol 3, no 1, pp 18–31, 2011 S Katsigiannis and N Ramzan, “DREAMER: A Database for Emotion Recognition Through EEG and ECG Signals From Wireless Low-cost Offthe-Shelf Devices,” IEEE Journal of Biomedical and Health Informatics, vol 22, no 1, pp 98–107, 2018, doi: 10.1109/JBHI.2017.2688239 F P Such et al., “Robust spatial filtering with graph convolutional neural networks,” IEEE Journal of Selected Topics in Signal Processing, vol 11, no 6, pp 884–896, 2017 L.-C Shi, Y.-Y Jiao, and B.-L Lu, “Differential entropy feature for EEGbased vigilance estimation,” in 2013 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 2013, pp 6627–6630 P Alfeld, “A trivariate clough—tocher scheme for tetrahedral data,” Computer Aided Geometric Design, vol 1, no 2, pp 169–181, 1984 P Sellars, A I Aviles-Rivero, and C.-B Schönlieb, “Superpixel contracted graph-based learning for hyperspectral image classification,” IEEE Transactions on Geoscience and Remote Sensing, vol 58, no 6, pp 4180–4193, 2020 P H C Avelar, A R Tavares, T L T da Silveira, C R Jung, and L C Lamb, “Superpixel image classification with graph attention networks,” in 79 [43] [44] [45] [46] [47] 2020 33rd SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI), 2020, pp 203–209 A Vedaldi and S Soatto, “Quick shift and kernel methods for mode seeking,” in Computer Vision ECCV 2008: 10th European Conference on Computer Vision, Marseille, France, October 12-18, 2008, Proceedings, Part IV 10, 2008, pp 705–718 P F Felzenszwalb and D P Huttenlocher, “Efficient graph-based image segmentation,” International journal of computer vision, vol 59, pp 167– 181, 2004 Z Li and J Chen, “Superpixel segmentation using linear spectral clustering,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp 1356–1363 H Xiao, K Rasul, and R Vollgraf, “Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms,” arXiv preprint arXiv:1708.07747, 2017 R W Homan, J Herman, and P Purdy, “Cerebral location of international 10 20 system electrode placement,” Electroencephalography and clinical neurophysiology, vol 66, no 4, pp 376–382, 1987 80 PHỤ LỤC A1 CẤU HÌNH MẠNG GNN SỬ DỤNG TRONG LUẬN VĂN: Model SparseDGCNN sử dụng phương pháp chuyển đổi EEG-SLIC-Graph với 10 nút đồ thị LitModel( (input_embedding): Linear(in_features=4, out_features=32, bias=True) (batch_norm): BatchNorm1d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (GC_layer): ChebConv(32, 128, K=4, normalization=sym) (GC_layer1): ChebConv(128, 128, K=4, normalization=sym) (conv11): Conv1d(10, 1, kernel_size=(1,), stride=(1,)) (relu): LeakyReLU(negative_slope=0.1) (fc): Sequential( (0): Linear(in_features=128, out_features=256, bias=True) (1): LeakyReLU(negative_slope=0.1) (2): Dropout(p=0.0, inplace=False) (3): Linear(in_features=256, out_features=2, bias=True) ) (accuracy): Accuracy() ) A2 DANH MỤC TỪ VIẾT TẮT AI Artificial Intelligence ANN Artificial Neural Network ANS Autonomic Nervous System CNS Central Nervous System DGCNN Dynamical Graph Convolutional Neural Network DE Differential Entropy DL Deep learning ECG Electrocardiography EEG Electroencephalography EMG Electromyography GAN Generative Adversarial Network GD Gradient Descent GSR Galvanic Skin Response KNN K-Nearest Neighbors 81 LDA Linear Discriminant Analysis LOSO Leave One Trial Out LOTO Leave One Subject Out LSTM Long-Short Term Memory MLP Multilayer Perceptron NBC Naive Bayes Classifier NN Neural Network PCA Principal Components Analysis PSD Power Spectral Density RAG Region Adjacency Graph RF Random Forest RNN Reccurent Neural Network RSP SBS SBFS Respiration Sequential Backward Selection Sequential Backward Floating Selection SFAs SFS SFFS Sequential Feature Algorithms Sequential Forward Selection SGD Stochastic Gradient Descent SLIC Simple Linear Iterative Clustering SparseDGCNN Sparse Dynamical Convolutional Graph Neural Network SVM Support Vector Machine Ký hiệu Sequential Forward Floating Selection A3 DANH MỤC CÁC KÝ HIỆU TOÁN HỌC Ý nghĩa Chữ thường (vd: x,a,…) Các số vô hướng Chữ thường in đậm (vd: x, a ,…) Các vector Chữ hoa in đậm (vd: X, A ,…) Các ma trận A T Ma trận chuyển vị ma trận A A1 rank (A ) Ma trận nghịch đảo ma trận A arg J Tối thiểu hàm mục tiêu J theo biến W W arg max J W Hạng ma trận A Tối đa hàm mục tiêu J theo biến W 82 wf wx Đạo hàm riêng hàm f theo biến x Tập hợp số thực n Tập hợp vector có n phần tử m n Tập hợp ma trận số thực có kích thước m u n ( m hàng n cột) log x xi Logarit số tự nhiên x Norm i vector x A3 DANH MỤC CÁC BÀI BÁO KHOA HỌC ĐÃ CÔNG BỐ TRONG QUÁ TRÌNH THỰC HIỆN LUẬN VĂN V.-D Pham and T.-L Cung, An approach of re-organizing input dataset to enhance the quality of emotion recognition using the bio-signals dataset of mit, Bulletin of Electrical Engineering and Informatics, jourvol 10, number 6, pages 3220–3227, 2021 T.-D Bui, V.-D Pham and T.-L Cung, Multilayer perceptron neural network and eddy current technique for estimation of the crack depth on massive metal structures, Journal of Military Science and Technology, number 77, pages 3– 12, 2022 83

Ngày đăng: 08/12/2023, 17:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w