Trang 1 PHÙNG THỊ HỒNG DUNG NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC SÂU DÙNG MẠNG NEURAL TÍCH CHẬP CNN CHO NHẬN DẠNG CẢM XÚC THƠNG QUA TÍN HIỆU ĐIỆN NÃO Ngành: Khoa học máy tính Mã số: 8 48 01
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHÙNG THỊ HỒNG DUNG NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC SÂU DÙNG MẠNG NEURAL TÍCH CHẬP (CNN) CHO NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU ĐIỆN NÃO Ngành: Khoa học máy tính Mã số: 8 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Phùng Trung Nghĩa THÁI NGUYÊN - 2022 i LỜI NÓI ĐẦU Sau một thời gian tìm hiểu và nghiên cứu, học viên đã hoàn thành luận văn với đề tài: “Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng Neural tích chập (CNN) cho nhận dạng cảm xúc thông qua tín hiệu điện não” Học viên xin bày tỏ lòng biết ơn sâu sắc đến: Trường Đại học công nghệ Thông tin và truyền thông, Trường Đại học Sư Phạm Thái Nguyên - nơi học viên học tập và công tác đã trao đổi, đóng góp các ý kiến quý báu trong quá trình thực hiện đề tài Đặc biệt, học viên xin bày tỏ lòng biết ơn tới PGS TS Phùng Trung Nghĩa đã tận tình hướng dẫn, cung cấp nhiều tài liệu cần thiết và hỗ trợ, để học viên có thể hoàn thành luận văn đúng thời hạn Xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ học viên trong suốt quá trình nghiên cứu và hoàn thành đề tài đề tài này Thái Nguyên, ngày 03 tháng 10 năm 2022 Học viên Phùng Thị Hồng Dung ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn khoa học của PGS.TS Phùng Trung Nghĩa, các kết quả lý thuyết được trình bày trong luận văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được tác giả thực hiện là hoàn toàn trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm Thái Nguyên, ngày 03 tháng 10 năm 2022 Học viên Phùng Thị Hồng Dung iii MỤC LỤC LỜI NÓI ĐẦU .i LỜI CAM ĐOAN .ii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG BIỂU viii MỞ ĐẦU 1 1 Tính khoa học và cấp thiết của đề tài .1 2 Đối tượng và phạm vi nghiên cứu: 3 3 Phương pháp luận nghiên cứu 4 4 Ý nghĩa khoa học của luận văn .4 5 Nội dung và bố cục của đề tài 4 CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU ĐIỆN NÃO .6 1.1 Giới thiệu chương 6 1.2 Bài toán nhận dạng cảm xúc .6 1.2.1 Các phương pháp nhận dạng cảm xúc .6 1.2.2 Mô hình nhận dạng cảm xúc 10 1.3 Nhận dạng cảm xúc thông qua tín hiệu điện não 11 1.3.1 Tổng quan về tín hiệu điện não .11 1.3.2 Hệ thống nhận dạng cảm xúc dựa trên tín hiệu sóng điện não 20 1.3.3 Một số kỹ thuật cơ bản trong triển khai hệ thống nhận dạng cảm xúc dựa trên tín hiệu điện não .21 1.4 Cập nhật một số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc dựa trên tín hiệu EEG 28 1.4.1 Nghiên cứu trên thế giới 28 1.4.2 Nghiên cứu trong nước 31 1.5 Kết luận chương 32 CHƯƠNG 2 MẠNG HỌC SÂU CNN VÀ ỨNG DỤNG TRONG NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU EEG 33 iv 2.1 Giới thiệu chương .33 2.2 Giới thiệu về mạng CNN 33 2.2.1 Mạng nơ-ron sinh học 33 2.2.2 Mạng nơ-ron nhân tạo 35 2.2.3 Mạng nơ-ron CNN 37 2.2.4 Kiến trúc mạng CNN .38 2.2.5 Ứng dụng CNN trong nhận dạng tín hiệu 42 2.3 Ứng dụng mạng CNN cho nhận dạng tín hiệu điện não 43 2.3.1 Trường tiếp nhận cục bộ (Local receptive fields) 44 2.3.2 Trọng số chia sẻ và độ lệch (Shared weights and biases) 48 2.3.3 Lớp chứa hay lớp tổng hợp (Pooling layer) 48 2.4 Xây dựng kiến trúc và tham số mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não 51 2.4.1 Cách chọn tham số cho CNN 51 2.4.2 Đánh giá hiệu quả hoạt động của mạng CNN 52 2.4.3 Lựa chọn kiến trúc mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não .56 2.5 Kết luận chương 57 CHƯƠNG 3 ÐÁNH GIÁ THỰC NGHIỆM 58 3.1 Giới thiệu chương .58 3.2 Chuẩn bị công cụ thực hiện 58 3.3 Chuẩn bị cơ sở dữ liệu 58 3.3.1 Thu thập dữ liệu DEAP 58 3.3.2 Trích chọn đặc trưng tín hiệu 60 3.4 Tìm kiếm kiến trúc mạng CNN phù hợp 61 3.5 Một số kết quả thực nghiệm .64 3.6 Kết luận chương 67 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 TÀI LIỆU THAM KHẢO .71 v DANH MỤC CÁC TỪ VIẾT TẮT Từ hoặc cụm từ Từ tiếng Anh Từ tiếng Việt AI ANN Artificial Intelligence Trí tuệ nhân tạo AR BCI Artificial Neural Network Mạng nơron nhân tạo CNN CV Autoregressive Modeling Mô hình tự hồi quy DL DWT Brain-Computer Interface Giao tiếp máy – điện não EEG FFT Convolutional Neural Mạng nơron tích chập Network Thị giác máy tính ICA Computer Vision KNN Deep Learning Học sâu LDA Discrete Wavelet Transform Biến đối Wavelet rời rạc Electroencephalogram Điện não đồ Fast Fourier Tranform Biên đổi Fourier nhanh Independent Component Phân tích thành phần Analysis độc lập K Nearest Neighbor Thuật toán K láng giềng gần nhất Linear Discriminant Phương pháp phân tích sự Analysis khác biệt tuyến tính LSTM Long short-term memory Mạng bộ nhớ dài-ngắn NN Neural Network Mạng Nơron PCA Principal Component ReLU Analysis Phương pháp phân tích SVM Rectified Linear Units thành phần chính Support Vector Machine Hàm tinh chỉnh các đơn vị tuyến tính Học máy vectơ hỗ trợ WNN Wavelet neural network Mạng nơ ron Wavelet vi DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Thiết lập ghi tín hiệu EEG 11 Hình 1.2 Thiết lập ghi tín hiệu EEG 11 Hình 1.3 Một số phương pháp thu thập thông tin của não 13 Hình 1.4 Quá trình hình thành tín hiệu EEG từ nơ ron hình chóp 16 Hình 1.5 Nhận dạng các dạng sóng theo tần số 17 Hình 1.6 Sóng Alpha 18 Hình 1.7 Sóng Beta 19 Hình 1.8 Sóng Theta 19 Hình 1.9 Sóng Delta 20 Hình 1.10 Kiến Kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc theo EEG 21 Hình 1.11 Ví dụ minh họa quá trình nhận dạng cảm xúc 21 Hình 1.12 Thu thập tín hiệu EEG 22 Hình 1.13 Vị trí đặt điện cực EEG của hệ thống 10-20 23 Hình 1.14 Một số cách sắp xếp vị trí điện cực EEG 16, 32, 64 kênh 24 Hình 1.15 Một kênh sau khi được xử lí loại bỏ artifact 25 Hình 1.16 Một số phương pháp phân lớp trong nhận dạng tín hiệu EEG [7] 27 Hình 2.1 Cấu trúc cơ bản của nơron sinh học 33 Hình 2.2 Nơron nhân tạo 35 Hình 2.3 Cách máy tính “nhìn” một hình [13] 37 Hình 2.4 Mạng nơ-ron thông thường (trái) và CNN (phải) 39 Hình 2.5 Kiến trúc mạng CNN 40 Hình 2.6 Max pooling kích thước 2×2 41 Hình 2.7 Lớp kết nối đầy đủ 42 Hình 2.8 Lớp input gồm 28x28 nơ ron cho nhận dạng dữ liệu EEG với 28 điện cực và được lấy thành 28 mẫu theo thời gian 44 vii Hình 2.9 Kết nối vùng 5x5 nơ ron input với nơ ron lớp ẩn 44 Hình 2.10 Vị trí bắt đầu của trường tiếp nhận cục bộ 45 Hình 2.11 Vị trí thứ 2 của trường tiếp nhận cục bộ và nơ ron lớp ẩn 45 Hình 2.12 Trường tiếp nhận cục bộ với ba bản đồ đặc trưng 46 Hình 2.13 Trường tiếp nhận cục bộ với 20 bản đồ đặc trưng 47 Hình 2.14 Ví dụ về Max pooling 2x2 49 Hình 2.15 Max pooling với ba bản đồ đặc trưng 49 Hình 2.16 Ví dụ về một kiến trúc mạng CNN cho nhận dạng tín hiệu EEG 50 Hình 2.17 Minh họa các tham số đánh giá 53 Hình 2.18 Lựa chọn kiến trúc mạng CNN 56 Hình 3.1 Sự phụ thuộc của độ chính xác mô hình theo số chu kỳ luyện mạng CNN 65 Hình 3.2 Sự phụ thuộc của tổn thất mô hình theo số chu kỳ luyện mạng CNN 66 Hình 3.3 Đánh giá hoạt động của mạng CNN thông qua mẫu kiểm tra 66 Hình 3.4 Ma trận nhầm lẫn khi luyện mạng CNN 67 viii DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Thông số tổng quan của bộ dữ liệu DEAP 59 Bảng 3.2 Mô tả các tham số FFT 60 Bảng 3.3 Đánh giá số chu kỳ luyện mạng 62 Bảng 3.4 Các tham số trong luyện mạng CNN 63 Bảng 3.5 Kết quả hoạt động của mạng CNN khi số bộ lọc thay đổi 64 Bảng 3.6 Kết quả khi thay đổi tỷ lệ phân chia thử nghiệm 64 Bảng 3.7 Kết quả khi thay đổi tỷ lệ phân chia thử nghiệm với các cảm xúc 65 1 MỞ ĐẦU 1 Tính khoa học và cấp thiết của đề tài Cảm xúc đóng một vai trò quan trọng trong cuộc sống và công việc hàng ngày của chúng ta Đánh giá và điều chỉnh cảm xúc theo thời gian thực sẽ cải thiện và làm cho cuộc sống của con người tốt hơn Ví dụ, trong giao tiếp tương tác giữa con người với máy móc, việc nhận biết cảm xúc sẽ làm cho quá trình này trở nên dễ dàng và tự nhiên hơn Một ví dụ khác, trong điều trị bệnh nhân, đặc biệt là những bệnh nhân có vấn đề về biểu hiện, trạng thái cảm xúc thực sự của bệnh nhân sẽ giúp bác sĩ đưa ra phương pháp chăm sóc y tế phù hợp hơn [8] Trước đây, để nhận dạng cảm xúc của con người, chúng ta thường căn cứ vào cử chỉ khuôn mặt, giọng nói, cử chỉ, phản ứng của da v.v [11] Trong những năm gần đây, nhận dạng cảm xúc từ điện não đồ (Electroencephalogram – EEG) đã thu hút được sự chú ý của rất nhiều nghiên cứu Ngoài ra, nó là một yếu tố rất quan trọng trong hệ thống giao diện máy tính não (Brain Computer Interface - BCI), sẽ cải thiện hiệu quả giao tiếp giữa con người và máy móc [11] Quy trình nhận dạng tín hiệu EEG điển hình bao gồm loại bỏ nhiễu, trích chọn đặc trưng và phân lớp Ở cấp độ cơ bản nhất, tập dữ liệu EEG bao gồm ma trận 2D (biên độ và thời gian) của các giá trị thực đại diện cho các điện thế do não tạo ra được ghi lại trên da đầu gắn với các điều kiện nhiệm vụ cụ thể [8] Hình thức có cấu trúc cao này làm cho dữ liệu EEG phù hợp cho học máy Chính vì thế, một số lượng lớn các thuật toán học máy và nhận dạng mẫu truyền thống đã được áp dụng trên dữ liệu EEG Ví dụ, phân tích thành phần độc lập (ICA) thường được sử dụng để loại bỏ nhiễu; phân tích thành phần chính (PCA) và phân tích phân biệt địa phương của Fisher (LFDA)