Trang 1 PHÙNG THỊ HỒNG DUNG NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC SÂU DÙNG MẠNG NEURAL TÍCH CHẬP CNN CHO NHẬN DẠNG CẢM XÚC THƠNG QUA TÍN HIỆU ĐIỆN NÃO Ngành: Khoa học máy tính Mã số: 8 48 01
Trang 1NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Phùng Trung Nghĩa
THÁI NGUYÊN - 2022
Trang 2LỜI NÓI ĐẦU
Sau một thời gian tìm hiểu và nghiên cứu, học viên đã hoàn thành
luận văn với đề tài: “Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng
Neural tích chập (CNN) cho nhận dạng cảm xúc thông qua tín hiệu điện não”
Học viên xin bày tỏ lòng biết ơn sâu sắc đến:
Trường Đại học công nghệ Thông tin và truyền thông, Trường Đại học
Sư Phạm Thái Nguyên - nơi học viên học tập và công tác đã trao đổi, đóng góp các ý kiến quý báu trong quá trình thực hiện đề tài
Đặc biệt, học viên xin bày tỏ lòng biết ơn tới PGS TS Phùng Trung Nghĩa đã tận tình hướng dẫn, cung cấp nhiều tài liệu cần thiết và hỗ trợ, để học viên có thể hoàn thành luận văn đúng thời hạn
Xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ học viên trong suốt quá trình nghiên cứu và hoàn thành đề tài đề tài này
Thái Nguyên, ngày 03 tháng 10 năm 2022
Học viên
Phùng Thị Hồng Dung
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn khoa học của PGS.TS Phùng Trung Nghĩa, các kết quả lý thuyết được trình bày trong luận văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được tác giả thực hiện là hoàn toàn trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm
Thái Nguyên, ngày 03 tháng 10 năm 2022
Học viên
Phùng Thị Hồng Dung
Trang 4MỤC LỤC
LỜI NÓI ĐẦU i
LỜI CAM ĐOAN ii
DANH MỤC CÁC TỪ VIẾT TẮT v
DANH MỤC CÁC BẢNG BIỂU viii
MỞ ĐẦU 1
1 Tính khoa học và cấp thiết của đề tài 1
2 Đối tượng và phạm vi nghiên cứu: 3
3 Phương pháp luận nghiên cứu 4
4 Ý nghĩa khoa học của luận văn 4
5 Nội dung và bố cục của đề tài 4
CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU ĐIỆN NÃO 6
1.1 Giới thiệu chương 6
1.2 Bài toán nhận dạng cảm xúc 6
1.2.1 Các phương pháp nhận dạng cảm xúc 6
1.2.2 Mô hình nhận dạng cảm xúc 10
1.3 Nhận dạng cảm xúc thông qua tín hiệu điện não 11
1.3.1 Tổng quan về tín hiệu điện não 11
1.3.2 Hệ thống nhận dạng cảm xúc dựa trên tín hiệu sóng điện não 20
1.3.3 Một số kỹ thuật cơ bản trong triển khai hệ thống nhận dạng cảm xúc dựa trên tín hiệu điện não 21
1.4 Cập nhật một số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc dựa trên tín hiệu EEG 28
1.4.1 Nghiên cứu trên thế giới 28
1.4.2 Nghiên cứu trong nước 31
1.5 Kết luận chương 32
CHƯƠNG 2 MẠNG HỌC SÂU CNN VÀ ỨNG DỤNG TRONG NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU EEG 33
Trang 52.1 Giới thiệu chương 33
2.2 Giới thiệu về mạng CNN 33
2.2.1 Mạng nơ-ron sinh học 33
2.2.2 Mạng nơ-ron nhân tạo 35
2.2.3 Mạng nơ-ron CNN 37
2.2.4 Kiến trúc mạng CNN 38
2.2.5 Ứng dụng CNN trong nhận dạng tín hiệu 42
2.3 Ứng dụng mạng CNN cho nhận dạng tín hiệu điện não 43
2.3.1 Trường tiếp nhận cục bộ (Local receptive fields) 44
2.3.2 Trọng số chia sẻ và độ lệch (Shared weights and biases) 48
2.3.3 Lớp chứa hay lớp tổng hợp (Pooling layer) 48
2.4 Xây dựng kiến trúc và tham số mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não 51
2.4.1 Cách chọn tham số cho CNN 51
2.4.2 Đánh giá hiệu quả hoạt động của mạng CNN 52
2.4.3 Lựa chọn kiến trúc mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não 56
2.5 Kết luận chương 57
CHƯƠNG 3 ÐÁNH GIÁ THỰC NGHIỆM 58
3.1 Giới thiệu chương 58
3.2 Chuẩn bị công cụ thực hiện 58
3.3 Chuẩn bị cơ sở dữ liệu 58
3.3.1 Thu thập dữ liệu DEAP 58
3.3.2 Trích chọn đặc trưng tín hiệu 60
3.4 Tìm kiếm kiến trúc mạng CNN phù hợp 61
3.5 Một số kết quả thực nghiệm 64
3.6 Kết luận chương 67
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69
TÀI LIỆU THAM KHẢO 71
Trang 6DANH MỤC CÁC TỪ VIẾT TẮT
Từ hoặc cụm từ Từ tiếng Anh Từ tiếng Việt
AI Artificial Intelligence Trí tuệ nhân tạo
ANN Artificial Neural Network Mạng nơron nhân tạo
AR Autoregressive Modeling Mô hình tự hồi quy
BCI Brain-Computer Interface Giao tiếp máy – điện não
CNN Convolutional Neural
Network Mạng nơron tích chập
CV Computer Vision Thị giác máy tính
DWT Discrete Wavelet Transform Biến đối Wavelet rời rạc EEG Electroencephalogram Điện não đồ
FFT Fast Fourier Tranform Biên đổi Fourier nhanh
ICA Independent Component
Analysis
Phân tích thành phần độc lập
KNN K Nearest Neighbor Thuật toán K láng giềng
gần nhất
LDA Linear Discriminant
Analysis
Phương pháp phân tích sự khác biệt tuyến tính
LSTM Long short-term memory Mạng bộ nhớ dài-ngắn
PCA Principal Component
Analysis
Phương pháp phân tích thành phần chính
ReLU Rectified Linear Units Hàm tinh chỉnh các đơn vị
tuyến tính SVM Support Vector Machine Học máy vectơ hỗ trợ WNN Wavelet neural network Mạng nơ ron Wavelet
Trang 7DANH MỤC CÁC HÌNH ẢNH
Hình 1.1 Thiết lập ghi tín hiệu EEG 11
Hình 1.2 Thiết lập ghi tín hiệu EEG 11
Hình 1.3 Một số phương pháp thu thập thông tin của não 13
Hình 1.4 Quá trình hình thành tín hiệu EEG từ nơ ron hình chóp 16
Hình 1.5 Nhận dạng các dạng sóng theo tần số 17
Hình 1.6 Sóng Alpha 18
Hình 1.7 Sóng Beta 19
Hình 1.8 Sóng Theta 19
Hình 1.9 Sóng Delta 20
Hình 1.10 Kiến Kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc theo EEG 21
Hình 1.11 Ví dụ minh họa quá trình nhận dạng cảm xúc 21
Hình 1.12 Thu thập tín hiệu EEG 22
Hình 1.13 Vị trí đặt điện cực EEG của hệ thống 10-20 23
Hình 1.14 Một số cách sắp xếp vị trí điện cực EEG 16, 32, 64 kênh 24
Hình 1.15 Một kênh sau khi được xử lí loại bỏ artifact 25
Hình 1.16 Một số phương pháp phân lớp trong nhận dạng tín hiệu EEG [7] 27 Hình 2.1 Cấu trúc cơ bản của nơron sinh học 33
Hình 2.2 Nơron nhân tạo 35
Hình 2.3 Cách máy tính “nhìn” một hình [13] 37
Hình 2.4 Mạng nơ-ron thông thường (trái) và CNN (phải) 39
Hình 2.5 Kiến trúc mạng CNN 40
Hình 2.6 Max pooling kích thước 2×2 41
Hình 2.7 Lớp kết nối đầy đủ 42
Hình 2.8 Lớp input gồm 28x28 nơ ron cho nhận dạng dữ liệu EEG với 28 điện cực và được lấy thành 28 mẫu theo thời gian 44
Trang 8Hình 2.9 Kết nối vùng 5x5 nơ ron input với nơ ron lớp ẩn 44
Hình 2.10 Vị trí bắt đầu của trường tiếp nhận cục bộ 45
Hình 2.11 Vị trí thứ 2 của trường tiếp nhận cục bộ và nơ ron lớp ẩn 45
Hình 2.12 Trường tiếp nhận cục bộ với ba bản đồ đặc trưng 46
Hình 2.13 Trường tiếp nhận cục bộ với 20 bản đồ đặc trưng 47
Hình 2.14 Ví dụ về Max pooling 2x2 49
Hình 2.15 Max pooling với ba bản đồ đặc trưng 49
Hình 2.16 Ví dụ về một kiến trúc mạng CNN cho nhận dạng tín hiệu EEG 50 Hình 2.17 Minh họa các tham số đánh giá 53
Hình 2.18 Lựa chọn kiến trúc mạng CNN 56
Hình 3.1 Sự phụ thuộc của độ chính xác mô hình theo số chu kỳ luyện mạng CNN 65
Hình 3.2 Sự phụ thuộc của tổn thất mô hình theo số chu kỳ luyện mạng CNN 66
Hình 3.3 Đánh giá hoạt động của mạng CNN thông qua mẫu kiểm tra 66
Hình 3.4 Ma trận nhầm lẫn khi luyện mạng CNN 67
Trang 9DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1 Thông số tổng quan của bộ dữ liệu DEAP 59
Bảng 3.2 Mô tả các tham số FFT 60
Bảng 3.3 Đánh giá số chu kỳ luyện mạng 62
Bảng 3.4 Các tham số trong luyện mạng CNN 63
Bảng 3.5 Kết quả hoạt động của mạng CNN khi số bộ lọc thay đổi 64
Bảng 3.6 Kết quả khi thay đổi tỷ lệ phân chia thử nghiệm 64
Bảng 3.7 Kết quả khi thay đổi tỷ lệ phân chia thử nghiệm với các cảm xúc 65
Trang 10MỞ ĐẦU
1 Tính khoa học và cấp thiết của đề tài
Cảm xúc đóng một vai trò quan trọng trong cuộc sống và công việc hàng ngày của chúng ta Đánh giá và điều chỉnh cảm xúc theo thời gian thực sẽ cải thiện và làm cho cuộc sống của con người tốt hơn Ví dụ, trong giao tiếp tương tác giữa con người với máy móc, việc nhận biết cảm xúc sẽ làm cho quá trình này trở nên dễ dàng và tự nhiên hơn Một ví dụ khác, trong điều trị bệnh nhân, đặc biệt là những bệnh nhân có vấn đề về biểu hiện, trạng thái cảm xúc thực sự của bệnh nhân sẽ giúp bác sĩ đưa ra phương pháp chăm sóc y tế phù hợp hơn [8]
Trước đây, để nhận dạng cảm xúc của con người, chúng ta thường căn
cứ vào cử chỉ khuôn mặt, giọng nói, cử chỉ, phản ứng của da v.v [11]
Trong những năm gần đây, nhận dạng cảm xúc từ điện não đồ (Electroencephalogram – EEG) đã thu hút được sự chú ý của rất nhiều nghiên cứu Ngoài ra, nó là một yếu tố rất quan trọng trong hệ thống giao diện máy tính não (Brain Computer Interface - BCI), sẽ cải thiện hiệu quả giao tiếp giữa con người và máy móc [11]
Quy trình nhận dạng tín hiệu EEG điển hình bao gồm loại bỏ nhiễu, trích chọn đặc trưng và phân lớp Ở cấp độ cơ bản nhất, tập dữ liệu EEG bao gồm
ma trận 2D (biên độ và thời gian) của các giá trị thực đại diện cho các điện thế do não tạo ra được ghi lại trên da đầu gắn với các điều kiện nhiệm vụ cụ thể [8] Hình thức có cấu trúc cao này làm cho dữ liệu EEG phù hợp cho học máy Chính vì thế, một số lượng lớn các thuật toán học máy và nhận dạng mẫu truyền thống đã được áp dụng trên dữ liệu EEG Ví dụ, phân tích thành phần độc lập (ICA) thường được sử dụng để loại bỏ nhiễu; phân tích thành phần chính (PCA) và phân tích phân biệt địa phương của Fisher (LFDA)
Trang 11thường được sử dụng để giảm số chiều của các vectơ đặc trưng; các phương pháp học có giám sát cổ điển như phân tích phân tách tuyến tính (LDA), máy vectơ hỗ trợ (SVM), cây quyết định, mạng nơ-ron thường được sử dụng để phân lớp tín hiệu EEG [8]
Mạng nơ-ron không ngay lập tức nhận được sự chú ý cao như ngày nay trong các ứng dụng phân loại nơ-ron vì hạn chế về thời gian tính toán Tuy nhiên, sự sẵn có của các bộ dữ liệu lớn và sự phát triển gần đây của các đơn vị
xử lý đồ họa (GPU) đã mang lại cho các nhà nghiên cứu về mạng nơ-ron một giải pháp rẻ và mạnh mẽ nhằm khám phá các kiến trúc học sâu (Deep learning
- DL) Những đổi mới này đã dẫn đến sự quan tâm và ứng dụng của học sâu tăng theo cấp số nhân trong thập kỷ qua Thật vậy, nó đã cải thiện đáng kể hiệu suất trong một loạt các lĩnh vực thách thức truyền thống như hình ảnh, video, âm thanh và văn bản [12]
Do mạng nơ-ron lặp đi lặp lại và tự động tối ưu hóa các tham số nên chúng thường được cho là yêu cầu ít kiến thức chuyên môn hơn về tập dữ liệu
để có thể hoạt động tốt Ưu điểm này đã dẫn đến những ứng dụng ngày càng nhiều trong lĩnh vực tín hiệu y sinh, vốn thường liên quan đến các bộ dữ liệu lớn mà rất khó giải thích, ngay cả bởi các chuyên gia Gần đây, do sự sẵn có ngày càng tăng của các bộ dữ liệu EEG lớn [19] , các kiến trúc học sâu đã được áp dụng để giải mã và phân loại các tín hiệu EEG trong đó có bài toán nhận diện cảm xúc [17]
Trên thế giới đã có nhiều nghiên cứu về ứng dụng kỹ thuật học sâu để nhận dạng cảm xúc thông qua tín hiệu EEG ([8] -[15] ) Trong đó, có thể thấy mạng nơ-ron tích chập (Convolutional Neural Network – CNN) là công cụ được sử dụng nhiều nhất[8] Hiệu quả nhận dạng của một kiến trúc mạng học sâu phụ thuộc vào rất nhiều yếu tố như: tập mẫu dữ liệu lớn, thông tin đầu vào
Trang 12mạng (dữ liệu thô, các đặc trưng được tính toán hay các ảnh phổ từ dữ liệu), các tham số kiến trúc bên trong của mạng
Tại Việt Nam cũng có một số nghiên cứu ban đầu về ứng dụng học sâu cho bài toán nhận dạng cảm xúc thông qua tín hiệu EEG Tuy nhiên, chưa có nhiều các nghiên cứu đánh giá một cách tổng hợp về hiệu quả của các công
cụ học sâu để từ đó đưa ra các khuyến nghị chi tiết hơn cho cộng đồng nghiên cứu
Từ các phân tích trên, học viên đã lựa chọn đề tài cho luận văn của mình
là “Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng Neural tích chập
(CNN) cho nhận dạng cảm xúc thông qua tín hiệu điện não” Hướng
nghiên cứu của luận văn là nghiên cứu về nhận dạng cảm xúc thông qua tín hiệu EEG và đánh hiệu quả của việc sử dụng công cụ học sâu là mạng CNN cho bài toán này Trong đó, luận văn tập trung nghiên cứu các vấn đề lý thuyết về cách thức xây dựng kiến trúc mạng, cách thức thiết lập các đầu vào/ra cho luyện mạng, tìm kiếm tham số tối ưu của kiến trúc mạng sao cho hiệu quả nhận dạng là lớn nhất Luận văn cũng nghiên cứu đánh giá kết quả thực nghiệm trên bộ mẫu Cơ sở dữ liệu để phân tích cảm xúc bằng cách sử dụng các tín hiệu sinh lý” (Database for Emotion Analysis using Physiological Signals - DEAP)
2 Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu của luận văn là công cụ học sâu CNN ứng dụng trong nhận dạng cảm xúc thông qua tín hiệu EEG Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây
Phạm vi của luận văn bao gồm nghiên cứu hiệu quả nhận dạng của kiến trúc mạng CNN trên bài toán nhận dạng cảm xúc từ bộ mẫu DEAP) [18]
Trang 13Đây là bộ dữ liệu được sử dụng nhiều nhất cho các nghiên cứu về nhận dạng cảm xúc thông qua tín hiệu EEG [17]
3 Phương pháp luận nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tổng hợp, nghiên cứu các tài liệu đã
có trên thế giới [1-11] để phân tích, đánh giá về việc áp dụng công cụ của học sâu, đặc biệt là mạng CNN trong nhận dạng cảm xúc thông qua tín hiệu EEG; Tìm hiểu các kiến thức liên quan như xử lý tín hiệu số, lý thuyết nhận dạng
- Phương pháp nghiên cứu thực nghiệm: Dựa trên các cơ sở lý thuyết và
các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một đánh giá hiệu quả của việc sử dụng mạng CNN trên bộ mẫu dữ liệu DEAP Cài đặt phần mềm theo ngôn ngữ Python dựa trên công cụ Colab của Google
- Phương pháp trao đổi khoa học: Thảo luận, xemina, lấy ý kiến chuyên
gia, công bố các kết quả nghiên cứu trên tạp chí khoa học
4 Ý nghĩa khoa học của luận văn
Như đã trình bày trong phần 1, nghiên cứu về nhận dạng cảm xúc thông qua tín hiệu EEG có vai trò quan trọng trong các hệ thống giao tiếp giữa người và máy Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam Đặc biệt, nghiên cứu về ứng dụng của kỹ thuật học sâu trong bài toán nhận dạng cảm xúc chưa được nghiên cứu nhiều ở Việt Nam Do vậy, kết quả của đề tài sẽ là tài liệu tham khảo hữu ích cho các nghiên cứu trong lĩnh vực nhận dạng cảm xúc, học máy, học sâu
5 Nội dung và bố cục của đề tài
Ngoài phần mở đầu, kết luận và hướng phát triển, đề tài được bố cục thành ba chương chính như sau:
Trang 14Chương 1 Tổng quan về nhận dạng cảm xúc thông qua tín hiệu điện não
Nội dung chính của chương nhằm giới thiệu về nhận dạng cảm xúc, tổng quan tín hiệu EEG, vấn đề nhận dạng cảm xúc thông qua tín hiệu EEG; Cập nhật các nghiên cứu đã đạt được trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG
Chương 2 Mạng học sâu CNN và ứng dụng trong nhận dạng cảm xúc thông qua tín hiệu EEG
Chương này trình bày cơ sở lý thuyết về mạng CNN; Ứng dụng mạng CNN trong nhận dạng cảm xúc thông qua tín hiệu EEG: Phương pháp xác định kiến trúc và các tham số tối ưu của mạng CNN ứng dụng trong nhận dạng cảm xúc thông qua tín hiệu EEG
Chương 3 Đánh giá thực nghiệm
Nội dung chương tập trung vào các bước xây dựng thực nghiệm và đánh giá kết quả đạt được khi áp dụng mạng CNN cho bài toán nhận diện cảm xúc
từ bộ dữ liệu DEAP Các bước tiến hành bao gồm: Thu thập cơ sở dữ liệu DEAP, cài đặt công cụ học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG trên Python mạng CNN, đánh giá phương pháp, thống kê các kết quả đánh giá, phân tích, đánh giá, đưa ra kiến nghị
Trang 15CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC THÔNG QUA
TÍN HIỆU ĐIỆN NÃO 1.1 Giới thiệu chương
Chương 1 của luận văn nhằm mục đích giới thiệu các kiến thức tổng quan về vấn đề nhận dạng cảm xúc tín thông qua hiệu điện nào EEG
Phần đầu chương sẽ giới thiệu về bài toán nhận dạng cảm xúc một số phương pháp cơ bản đã và đang được sử dụng để thực hiện bài toán này Phần tiếp sau sẽ trình bày chi tiết các kiến thức về tín hiệu EEG, nguồn gốc của tín hiệu EEG, việc thu nhận các tín hiệu EEG trong thực tế và các dạng sóng EEG cơ bản và cách thức triển khai bài toán nhận dạng cảm xúc thông qua tín hiệu EEG Kế đó, nội dung chương sẽ phân tích kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc dựa trên EEG và các kỹ thuật cơ bản trong triển khai hệ thống nhận dạng trên thực tế
Phần cuối chương sẽ cập nhật số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG, đồng thời chỉ ra một số ứng dụng của hệ thống nhận dạng cảm xúc thông qua tín hiệu điện não trong thực tế
1.2 Bài toán nhận dạng cảm xúc
1.2.1 Các phương pháp nhận dạng cảm xúc
Cảm xúc đi cùng với mỗi người trong cuộc sống hàng ngày và đóng một vai trò quan trọng trong giao tiếp phi ngôn ngữ của con người Đó là một trong những điều kiện quan trọng để hiểu được các hành vi ứng xử của con người Chính vì thế mà bài toán nhận dạng cảm xúc của con người tuy là một bài toán khó nhưng được rất nhiều các nhà khoa học quan tâm nghiên cứu Nhận dạng cảm xúc đã và đang được ứng dụng trong rất nhiều bài toán thực
tế Cụ thể như:
Trang 16- Giáo dục: Phản ứng (cảm xúc) của người học trong thời gian thực và sự tham gia vào nội dung giáo dục là một thước đo lường cho hiệu quả của bài giảng
- Tiếp thị: Đây là một cách tuyệt vời để các công ty kinh doanh phân tích cách khách hàng phản hồi với quảng cáo, sản phẩm, bao bì và thiết kế cửa hàng của họ
- Chơi game: Với sự ra đời của game thực tế ảo gần với trải nghiệm thực
tế Nhận dạng cảm xúc đóng một vai trò quan trọng để cải thiện trải nghiệm chơi trò chơi
- Bảo mật: Nó có thể giúp xác định hành vi đáng ngờ trong đám đông và
có thể được sử dụng để ngăn chặn tội phạm và những kẻ khủng bố tiềm năng
- Chăm sóc sức khỏe: Nó có thể hữu ích trong việc tự động hóa dịch vụ y
tế Cả sức khỏe thể chất và tinh thần có thể được phân tích thông qua ứng dụng này
- Dịch vụ khách hàng: Quản lý dịch vụ khách hàng có thể hiệu quả hơn bằng cách sử dụng hệ thống nhận dạng cảm xúc khuôn mặt Phân tích phản hồi của khách hàng và phản ứng của máy tính sẽ đảm bảo tương tác máy tính với con người trong cuộc sống thực Hệ thống nhận diện cảm xúc khuôn mặt được sử dụng nhiều trong cuộc sống: điều trị y tế, giao tiếp song ngôn ngữ, đánh giá đau của bệnh nhân, phát hiện nói dối, giám sát trạng thái của người lái xe phát hiện trạng thái buồn ngủ dựa vào cảm xúc trên khuôn mặt được phát triển để cảnh báo cho người lái xe khi thấy dấu hiệu buồn ngủ, mệt mỏi Việc thực thi các bài toán nhận dạng cảm xúc có thể được thực hiện thông qua rất nhiều loại thông tin đầu vào như văn bản, tiếng nói, biểu hiện khuôn mặt và thông qua các tín hiệu sinh lý [9]
Trang 17 Nhận đạng cảm xúc thông qua văn bản
Nhận dạng cảm xúc từ văn bản là một lĩnh vực được nghiên cứu phát triển rộng rãi trong thực tế cùng với xử lý ngôn ngữ tự nhiên (NLP) Có thể lấy ví dụ như việc phân tích tình cảm trực tuyến là một trong những cách thông thường và phổ biến nhất để diễn giải trạng thái tâm trí của người dùng thông qua văn bản viết và hoạt động của họ trên web Theo truyền thống, nhận dạng cảm xúc thông qua văn bản được thực hiện bằng cách chọn các từ khóa cảm xúc, bộ từ điển và N-gram Để nâng cao hiệu quả nhận dạng cảm xúc qua văn bản, rất nhiều kỹ thuật đã được đề xuất bao gồm cả các công cụ
ML truyền thống như ANN, SVM lẫn các công cụ học sâu hiện đại
Nhận đạng cảm xúc dựa trên tiếng nói
Tiếng nói là cách thức trao đổi thông tin tự nhiên nhất, cho phép tương tác giữa con người với hệ thống nhanh và dễ dàng Đối thoại dùng ngôn ngữ nói không chỉ đơn giản, thuận tiện và tiết kiệm thời gian mà còn góp phần đảm bảo khía cạnh an toàn trong những môi trường có tính rủi ro
Để có thể thiết lập hệ thống tương tác có tính linh hoạt cao, kiến trúc của các hệ thống đối thoại người - máy cần được trang bị thêm các chức năng mới Các chức năng này bao gồm nhận dạng cảm xúc tiếng nói, phát hiện các tham biến dựa trên tình huống cũng như trạng thái của người dùng và quản lý tình huống để đưa ra các mô hình dựa trên các tham biến đã được phát hiện làm cho quá trình đối thoại phù hợp Chính vì vậy, trong nhiều năm qua, các nghiên cứu về cảm xúc tiếng nói đã thu hút mối quan tâm mạnh mẽ trong lĩnh vực tương tác người - máy và mong muốn tìm ra cách làm thế nào có thể tích hợp trạng thái cảm xúc của người nói vào hệ thống đối thoại người – máy dùng tiếng nói
Trang 18 Nhận đạng cảm xúc dựa trên biểu hiện khuôn mặt
Khuôn mặt của con người biểu hiện nhiều cảm xúc mà không cần phải nói ra Đó là một trong những phương tiện mạnh mẽ và tự nhiên nhất để con người truyền đạt thể hiện cảm xúc Không giống như các hình thức giao tiếp phi ngôn ngữ khác, cảm xúc trên khuôn mặt nó phổ quát Hiện nay, nhận dạng
và phân tích cảm xúc khuôn mặt tự động là một vấn đề thú vị và đầy thách thức, có ảnh hưởng to lớn đến xã hội Cảm xúc trên khuôn mặt và hành động của chúng ta là phương tiện giao tiếp phi ngôn ngữ, bao gồm 93% cảm xúc giao tiếp của con người, trong đó 55% thể hiện cử chỉ khuôn mặt và hành động của con người Cảm xúc khuôn mặt có thể được phân tích dễ dàng thông qua hình ảnh khuôn mặt và máy tính có thể tương tác với con người, như cách con người tương tác với nhau Đó là lý do tại sao nhận dạng cảm xúc qua khuôn mặt ngày càng được sự quan tâm trong mọi lĩnh vực Các nhà nghiên cứu đã chỉ ra rằng cảm xúc trên khuôn mặt là phổ quát và bẩm sinh trong tất cả các chủng tộc, giới tính và độ tuổi Thêm cảm xúc trung tính là
có bảy cảm xúc cơ bản, gồm: trung tính, giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn và bất ngờ
Nhận đạng cảm xúc dựa trên tín hiệu sinh lý
Tín hiệu sinh lý là các tín hiệu sinh hóa được tạo ra như một phản ứng với các kích thích Các tín hiệu sinh lý rất khó trích xuất và xử lý, do đó đòi hỏi một quá trình tiền xử lý rộng rãi Hai tín hiệu sinh lý thường được sử dụng
là tín hiệu điện não EEG và tín hiệu điện tim (ECG)
Tín hiệu ECG là những tín hiệu điện được ghi lại để theo dõi hoạt động của tim người Một số kỹ thuật rất hứa hẹn đã được đưa ra gần đây để phát hiện cảm xúc của con người từ hoạt động của tim
Tín hiệu EEG là những tín hiệu điện được ghi lại để theo dõi hoạt động của não bộ Những tín hiệu này được ghi lại thông qua các kênh hoặc điểm
Trang 19khác nhau trên não, và sau đó được phân hủy Trước đây, việc nhận dạng cảm xúc có thể được thực hiện thông qua văn bản, hội thoại, cử chỉ cơ thể và biểu hiện khuôn mặt Tuy nhiên, trong xu hướng phát triển của con người, các hệ thống nhận dạng cảm xúc thông qua những tín hiệu “bên trong” như sóng điện não (Electro EncephaloGraphy - EEG) sẽ trở nên cần thiết, quan trọng và tạo ra sự phát triển mạnh mẽ không ngừng của các ứng dụng tương tác Não - Máy (Brain Computer Interface - BCI), đặt con người vào vị trí trung tâm của mối tương tác số trong kỷ nguyên hiện đại Có rất nhiều phương pháp nghiên cứu được áp dụng để ghi nhận cảm xúc theo thời gian thực Ví dụ, các nhà nghiên cứu sử dụng các tín hiệu điện não đồ (EEG) và sinh lý ngoại vi như điện tâm đồ, hô hấp, sức đề kháng của da và huyết áp để thực hiện nghiên cứu nhận dạng cảm xúc (Horlings và cộng sự, 2008) Trong số đó, tín hiệu EEG trong tín hiệu sinh lý khách quan được tạo ra trực tiếp bởi hệ thần kinh trung ương, có liên quan mật thiết đến các trạng thái cảm xúc của con người (Jiang
số tham số khác như sự yêu thích (like), sự tương tự (similarity)…
Mô hình rời rạc: chứa một tập số lượng hữu hạn các cảm xúc của người, ví dụ: joy, sadness, surprise, fear, anger, disgust… Với các mô hình rời rạc, việc nhận biết sẽ trở lên khó khăn hơn rất nhiều, do trong không gian cảm
Trang 20xúc, việc biểu thị đang ở trạng thái tích cực là không hoàn toàn giống nhau
Cụ thể là khi ta nghe 1 bài nhạc vui khác hoàn toàn với một video hài kịch…
Hình 1.1 Thiết lập ghi tín hiệu EEG
Thông thường, các nghiên cứu gần đây thường kết hợp 2 mô hình này lại với nhau để thu được kết quả tối ưu hơn
1.3 Nhận dạng cảm xúc thông qua tín hiệu điện não
1.3.1 Tổng quan về tín hiệu điện não
1.3.1.1 EEG là gì
Hình 1.2 Thiết lập ghi tín hiệu EEG
Trang 21EEG là phương pháp ghi lại hoạt động điện của não Thông thường đây
là phương pháp không xâm lấn (không gây ảnh hưởng đến đối tượng) Trong phương pháp này, một số điện cực được đặt dọc theo da đầu, đo dao động điện áp ở các vị trí khác nhau (Hình 1.2) EEG được phát hiện bởi Berger năm
1924 bằng 1 dụng cụ đo dòng điện với 1 điện cực bề mặt trên đầu con trai ông
và ghi lại được 1 mẫu nhịp nhàng những dao động điện
1.3.1.2 Tại sao phải thu nhận tín hiệu EEG
Não bộ của con người là một tổ chức phức tạp, tinh vi nhất của hệ thần kinh Thông qua các giác quan như mắt, tai, da, bộ não tiếp thu các thông tin
về thị giác, thính giác, xúc giác để từ đó nhận thức ra đối tượng, xử lý và giải đáp thông tin qua các hình thức vận động Do vậy bộ não giữ vai trò quan trọng trong hoạt động toàn diện, đa dạng của con người, giúp con người thích ứng với các hoàn cảnh xã hội Ngày nay, khi thế giới ngày càng phát triển thì các bệnh về não cũng ngày càng phát triển như: các bệnh về động kinh, viêm não, u não … Do vậy, tìm hiều vể cấu trúc của não bộ cũng như cách thức não bộ truyền nhận thông tin là một lĩnh vực chứa nhiều tiềm năng đem tới những phát kiến khoa học lớn Để thực hiện được việc đó, một trong những việc đầu tiên và quan trọng nhất là phải thu nhận được những tín hiệu/thông tin do não bộ sản sinh Một số phương pháp khác nhau ghi lại hoạt động của não (Hình 1.3), đó là [1] :
Trang 22Hình 1.3 Một số phương pháp thu thập thông tin của não
- Điện não đồ (Electroencephalography - EEG),
- Chụp quang phổ cận hồng ngoại chức năng (Functional Near-Infrared Spectroscopy - fNIRS),
- Điện não xâm lấn (Electro-corticography - ECoG),
- Chụp cắt lớp (Computed Topography - CT)
- Từ não đồ (Magnetoencephalography - MEG),
- Chụp cắt lớp phát xạ positron (Positron emission tomography - PET)
- Chụp cộng hưởng từ chức năng (functional magnetic resonance imaging - fMRI)
Các phương pháp thu tín hiệu hình ảnh từ não như CT, PET, MRI thường có thiết kế cồng kềnh, giá thành rất cao Phương pháp điện não xâm lấn ECoG cho tín hiệu có độ tin cậy cao, chất lượng và độ phân giải tốt tuy nhiên lại là phương pháp xâm lấn, không dễ thực hiện và đòi hỏi phải có can thiệp y khoa để mở hộp sọ đặt điện cực thu tín hiệu So với các phương pháp này, điện não đồ EEG cho kết quả là tín hiệu điện não có độ phân giải và chất
Trang 23lượng tốt Thiết bị thu EEG thường nhỏ gọn, có thể di chuyển linh hoạt và giá thành thấp Tín hiệu điện não EEG là một phương thức được sử dụng phổ biến nhất thu nhận tín hiệu đầu vào cho các ứng dụng giao diện não – máy tính, phù hợp với điều kiện kinh tế - xã hội nếu được triển khai áp dụng tại Việt Nam
1.3.1.3 Nguồn gốc của tín hiệu EEG
Vỏ não là nguồn gốc của các hoạt động điện của não thu được từ bề mặt của da đầu, các dạng khác nhau của hoạt động điện và dẫn tới trường điện thế được tạo ra bởi các tế bào thần kinh vỏ não
Sự sắp xếp của các tế bào ở các khu vực khác nhau trên vỏ não là khác nhau, mỗi vùng có kiểu hình thái khác nhau Hầu hết các tế bào vỏ não được sắp xếp thành các cột, trong các cột này các neuron được phân bố dọc theo trục chính của các cây dạng nhánh, song song với mỗi cây khác và trực giao với bề mặt vỏ não
Vỏ não gồm các lớp khác nhau, các lớp này là không gian của cấu trúc các tế bào thần kinh đặc biệt, với các trạng thái và chức năng khác nhau trong đáp ứng xung điện Tế bào thần kinh pyramidal là thành phần cấu tạo chủ yếu của vỏ não Điện thế EEG ghi được từ các điện cực được đặt tiếp xúc với lớp
da đầu là sự tổng hợp các thay đổi về điện thế ngoài của tế bào pyramidal Màng tế bào pyramidal không bao giờ trong trạng thái nghỉ bởi vì nó bị tác động liên tiếp bởi hoạt động sinh ra do các neuron khác có các liên kết synaptic (mối nối giữa một axon và tế bào kế tiếp mà chúng trao đổi thông tin được gọi là synapse) Các liên kết synaptic có thể là kích thích hoặc ức chế sự thay đổi tương ứng tính thẩm thấu của màng tế bào đối với ion K và ion Cl làm phát sinh dòng điện
Điện thế postsynaptic (phần synapse cạnh tế bào kế tiếp) kích thích là tổng hợp của dòng đi vào trong màng tế bào gây ra bởi các ion dương và dòng
Trang 24đi ra ngoài màng tế bào tạo dọc theo phần mở rộng của tế bào extra-synaptic Điện trường bên ngoài tế bảo là hàm của điện thế xuyên màng
Mặc dù các điện thế bên ngoài tế bào riêng rẽ là nhỏ nhưng tổng điện thế của chúng cũng đáng kể đối với nhiều tế bào Điều này là do các neuron pyramidal được kích hoạt tức thời lớn hơn hoặc nhỏ hơn cách mà liên kết synaptic và các thành phần dọc trục của dòng bên ngoài màng được thêm vào, trong khi đó các thành phần nằm ngang lại có xu hướng làm giảm điện thế này Ngoài ra các nguồn khác cũng góp phần tạo ra tín hiệu EEG Sự giảm điện thế màng tế bào tới mức giới hạn xấp xỉ 10 mV nhỏ hơn điện thế tái khử cực tại trạng thái nghỉ của màng tế bào Điện thế hoạt động của các neuron não là nguồn gốc của EEG, chúng góp phần nhỏ trong việc tạo ra tín hiệu EEG ghi được tại bề mặt của não Do chúng thường hoạt động không đồng bộ trong cùng một thời gian đối với một số lượng lớn các sợi trục, các sợi trục này di chuyển theo nhiều hướng tương đối với bề mặt vỏ não Nguyên nhân khác là phần của màng tế bảo bị khử cực bởi điện thế hoạt động tại các thời điểm cố định nhỏ hơn so với thành phần của màng tế bào được kích thích bởi một EPSP và điện thế hoạt động tồn tại trong thời gian ngắn hơn(cỡ 1 - 2ms)
so với của EPSPs hoặc IPSPs là 10 – 250ms
Trang 25Hình 1.4 Quá trình hình thành tín hiệu EEG từ nơ-ron hình chóp
Qua các điểm trình bày ở trên thì EEG thu được tại bề mặt da đầu có thể coi là kết quả của nhiều thành phần tích cực, trong đó điện thế của postsynaptic từ tế bào pyramidal là thành phần chính tạo ra tín hiệu điện não
Hình 1.4 mô tả các dao động điện áp gây ra bởi các tế bào thần kinh pyramidal Trên cùng bên trái là kết quả của điện não đồ, dạng sóng ở giữa cho thấy những thay đổi trong trường điện thế trường bên trong, phía dưới bên trái hiển thị dao động của một nơ-ron pyramidal
Năm 1924, nhà tâm thần học người Áo tên là Hans Berger là người đầu tiên ghi được EEG Ông nhận thấy trên bản ghi EEG bình thường, nhịp của các sóng điện não gồm có vài loại sóng có thể phân biệt theo tần số Đây còn gọi là các dạng sóng đặc trưng sinh lý
Trang 261.3.1.4 Các dạng sóng EEG cơ bản
Hình 1.5 Nhận dạng các dạng sóng theo tần số
Sóng Alpha (α)
Dạng sóng hình sin là chủ yếu, có tần số từ 8 -13 chu kỳ/giây
Alpha nhanh: 11-13 chu kỳ/giây
Alpha trung bình: 10 chu kỳ/giây
Alpha chậm: 8-9 chu kỳ/giây
Alpha 10 Hz, biên độ thấp
Alpha 10Hz, biên độ cao
Trang 27Alpha 10Hz, xuất hiện từng chùm
Hình 1.6 Sóng Alpha
Sóng thường có biên độ khoảng 50µV (mặc dù cũng có thể giao động từ
5 tới 100 µV) Sóng này thấy rõ nhất ở phần phía sau của não người, vốn là nơi xử lý các tín hiệu thị giác, tức là vùng chẩm (occipital region) ở cả 2 bên,
ít ở vùng đỉnh và giảm dần về phía thái dương Vì vậy, đôi khi người ta còn gọi nhịp alpha là nhịp trội ở phía sau (the posterior-dominant rhythm)
Có nhiều giả thuyết giải thích cơ chế này Theo P.V simonov (1956) cho rằng alpha có vai trò lớn trong cơ chế điều chỉnh giữa nội môi và ngoại môi của chức năng ngăn cản các tín hiệu đi vào não Theo Bunch alpha có vai trò điều chỉnh đồng bộ của các tín hiệu vào và ra khỏi não; D.G Shmelkin (1955) thấy alpha luôn đi cùng với trạng thái cân bằng liên quan đền hưng phấn và ức chế Sóng alpha trở nên rõ nhất khi nhắm mắt lại, bị triệt tiêu khi mở mắt Như vậy sóng alpha là dấu hiệu cho biết não đang ở tình trạng không chú ý (inattentive brain), và đang chờ để được kích thích Thực tế là có một vài tác giả đã gọi nó là “nhịp chờ đợi” ("waiting rhythm") Đây là nhịp sóng chủ yếu thấy được trên người lớn bình thường và thư giãn – sóng hiện diện trong hầu hết các thời kỳ của cuộc đời, nhất là khi trên 30 tuổi, khi ấy sóng này chiếm
ưu thế trên đường ghi EEG lúc nghỉ ngơi
Trang 28thường được coi là nhịp bình thường, nó là nhịp chiếm ưu thế ở những người đang thức tỉnh cảnh giác hoặc lo sợ, hoặc khi mở mắt
ở người lớn nhiều hay ít, lan tỏa hay khu trú đều liên quan đến rối loan chức năng của não, đặc biệt ở cấu trúc dưới vỏ
Sóng Delta (δ)
Dạng sóng hình chuông, tần số từ 0,5-4 Hz, biên độ sóng trung bình tương đương điện thế alpha, cũng có khi cao gấp 2 đến 3 lần biên độ alpha, đây là loại sóng chậm nhất và có biên độ cao nhất Sóng Delta xuất hiện ở trẻ
em dưới 7 tuổi, giảm dần theo lứa tuổi, xuất hiện ở người lớn trong giấc ngủ sâu (ở giai đoạn 3 hoặc 4 của giấc ngủ) Nói chung, nếu sóng Delta xuất hiện
Trang 29trên một người lớn (trừ khi đang ngủ) thì chứng tỏ não có vấn đề nào đó: ví
dụ u não, động kinh, tăng áp lực nột sọ, khiếm khuyết về trí tuệ, hay hôn mê Khi đã xuất hiện, thì nhịp Delta có khuynh hướng thay thế cho nhịp alpha Cả sóng beta lẫn sóng delta đều không bị ảnh hưởng bởi mở mắt hay nhắm mắt ) Nó có thể xuất hiện cục bộ khi có tổn thương dưới vỏ và phân bố rộng khắp khi có tổn thương lan tràn, trong bệnh não do chuyển hóa (metabolic encephalopathy), bệnh não nước (hydrocephalus) hay tổn thương đường giữa trong sâu (deep midline lesions) Nó thường trội nhất ở vùng trán ở người lớn (ví dụ FIRDA - Frontal Intermittent Rhythmic Delta – sóng delta có nhịp cách hồi ở vùng trán) và phân bố trội ở các vùng phía sau trên trẻ em (ví dụ OIRDA - Occipital Intermittent Rhythmic Delta - sóng delta có nhịp cách hồi
ở vùng chẩm)
Hình 1.9 Sóng Delta
1.3.2 Hệ thống nhận dạng cảm xúc dựa trên tín hiệu sóng điện não
Một hệ thống nhận diện cảm xúc (được minh họa trong Hình 1.10) về
cơ bản hoạt động như sau: Đầu tiên, các tín hiệu não được cảm nhận, khuếch đại và tiền xử lý Các tín hiệu như vậy thường được ghi lại bằng EEG, một phương pháp không xâm lấn để đo hoạt động điện của vỏ não Thứ hai, hệ thống tìm kiếm và trích xuất các tính năng điện sinh lý hữu ích của tín hiệu EEG, phản ánh mong muốn của người Cuối cùng, hệ thống liên kết các tính năng EEG có ý nghĩa và phân lớp các cảm xúc của con người Hình 1.11 đưa
ra một ví dụ minh họa trong trường hợp xây dựng một hệ thống giúp nhận dạng cảm xúc vui, buồn, sợ hãi và bình thường của con người thông qua sóng não
Trang 30Hình 1.10 Kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc theo EEG
Hình 1.11 Ví dụ minh họa quá trình nhận dạng cảm xúc
1.3.3 Một số kỹ thuật cơ bản trong triển khai hệ thống nhận dạng cảm xúc
dựa trên tín hiệu điện não
Từ sơ đồ khối Hình 1.10, ta có thể thấy rằng ba khâu quan trọng nhất trong hệ thống nhận dạng cảm xúc dựa trên tín hiệu EEG là: Xử lý số tín hiệu EEG, trích chọn đặc trưng, phân lớp (ra quyết định) Cũng chính vì thế, qua khảo sát các công trình nghiên cứu đã công bố liên quan đến bài toán nhận
Trang 31dạng cảm xúc dựa trên tín hiệu EEG đều chủ yếu tập trung vào cải tiến các bước chính này
1.3.3.1 Thu nhận và xử lý số tín hiệu EEG
Việc tiến hành đo đạc EEG thường được thực hiện bằng cách gắn nhiều điện cực rải ráp xung quanh đầu, mỗi điện cực sẽ thu nhận được các xung điện tại từng khu vực riêng biệt, mỗi điện cực được coi như là 1 kênh (channel)
Các điện cực dùng trong điện não đồ thường là những đĩa kim loại Có 2 loại điện cực là điện cực châm và điện cực dán
Chỗ đặt điện cực trên da đầu được bôi kem dẫn điện, trước đó cần tẩy da đầu bằng chất tẩy chuyên dụng, hoặc dùng cồn để tẩy sạch chất mỡ nhờn trên
da đầu, sao cho điện trở giữa điện cực và da đầu không vượt quá một mức ngưỡng nào đó (thường là không quá 5 kΩ)
Hình 1.12 Thu thập tín hiệu EEG
Nếu làm sạch da đầu tốt, cũng có thể không dùng kem dẫn điện trên điện cực ghi, mà dùng miếng xốp tẩm dung dịch muối Người ta cũng hay dùng loại mũ cao su có gắn sẵn điện cực, và đặt trùm lên đầu người được thu thập
Vì các điện cực được đặt rải ráp xung quanh đầu nên để cụ thể, mỗi channel đo tại 1 vùng riêng biệt sẽ có 1 quy ước đặt tên riêng Ngoài ra, mỗi
Trang 32điện cực đo xung điện đều dựa trên sự chênh lệch điện thế với 1 điểm gọi là reference Việc chọn điểm reference tại đâu trên đầu (2 dái tai, 2 xương chũm, đỉnh đầu) cũng đều gây ảnh hưởng tới kết quả thu được của tín hiệu
Trong thực tế, số lượng điện cực gán trên vỏ mũ không cố định, thông thường sẽ là 14, 32 hoặc 64 channel, mỗi bản thiết kế điện cực sẽ có 1 tên riêng quy chuẩn và số lượng channel cũng khác nhau [3]
Hiệp hội quốc tế về sinh lí thần kinh lâm sàng và điện não đã đưa ra chuẩn đặt điện cực cho 21 điện cực (gồm cả điện cực tại dái tai) gọi là hệ thống 10-20 Các điện cực đặt tại dái tai được gọi là A1, A2 được nối tương ứng với tai trái và tai phải được sử dụng làm điện cực tham chiếu Hệ thống 10-20 tránh đặt điện cực tại vị trí nhãn cầu, và cân nhắc một vài khoảng cách không đổi bởi sử dụng các mốc giải phẫu cụ thể Các điện cực lẻ được đặt bên trái và các điện cực chẵn được đặt bên phải Để thiết lập số lượng các điện cực nhiều hơn mà vẫn tuân theo qui ước trên, các điện cực còn lại ngoài 21 điện cực chuẩn được đặt giữa các điện cực trên và cách đều nhau giữa chúng
Ví dụ C1 được đặt giữa C3 và Cz Hai dạng khác nhau dùng để ghi tín hiệu điện não là dạng vi sai và dạng tham chiếu Đối với dạng vi sai hai đầu vào của mỗi bộ khuếch đại vi sai là hai cực, còn kiểu tham chiếu thì chỉ một trong hai điện cực tham chiếu được dùng
Hình 1.13 Vị trí đặt điện cực EEG của hệ thống 10-20
Trang 33Hình 1.14 Một số cách sắp xếp vị trí điện cực EEG 16, 32, 64 kênh
Trước khi ghi điện não đồ, cần thực hiện việc đo chuẩn độ (calibration)
để đảm bảo là máy sẽ cho đường ghi chính xác Sóng ghi chuẩn độ cung cấp cho ta giá trị so sánh biên độ các sóng điện não Người ta dùng một xung điện hình chữ nhật, hình tam giác, hay hình sin, có biên độ biết trước, đưa vào đầu vào của bộ khuếch đại của máy ghi điện não đồ Như vậy tín hiệu chuẩn độ sẽ
đi vào tất cả các đường ghi EEG, tạo ra một sóng chuẩn độ trên bản ghi Căn
cứ vào sóng chuẩn độ này, người ta đánh giá các sóng điện não về mặt biên
độ
Bên cạnh đó cần có một bộ lọc (EEG filter) để lọc bỏ các dao động điện xuất phát từ tim, cơ và từ môi trường bên ngoài Bộ lọc chỉ cho phép những hoạt động điện có tần số trong một giới hạn nhất định (frequency range) đã được định sẵn được ghi vào máy điện não, những dao động có tần số cao hơn hoặc thấp hơn khoảng giới hạn đó sẽ bị lọc bỏ Giới hạn của tần số điện não
đồ là từ 0,5Hz đến 70Hz (có một số tài liệu cho rằng từ 0,16Hz hoặc thấp hơn nữa đến 70Hz) Như vậy những dao động có tần số cao hơn 70 Hz sẽ được ghi thành đường thẳng
Trang 34
Hình 1.15 Một kênh sau khi được xử lí loại bỏ artifact
Ngoài lọc tín hiệu, trong xử lý tin hiệu EEG còn phải kể đến một số các phương pháp xử lí khác như: triệt nhiễu noise, loại bỏ actifact Một vài phương pháp có thể kể đến như: ICA (Independent Component Analysis), SSP (Signal Subspace Projectors), Wavelet Denoising
1.3.3.2 Trích chọn đặc trưng tín hiệu EEG
Pha quan trọng thứ hai của nhận dạng suy nghĩ thông qua tín hiệu EEG chính là trích chọn đặc trưng Trong hướng tiếp cận truyền thống, có một số
kỹ thuật trích chọn đặc trưng tiêu biểu phải kể đến là:
- Trích chọn tín hiệu trên miền thời gian
- Trích chọn tín hiệu trên miền tần số
- Trích chọn tín hiệu trên miền thời gian-tần số
- Phương pháp mô hình mẫu chung (Common Spatial Pattern - CSP) Trong các phương pháp trích chọn đặc trưng miền thời gian, người ta quan tâm đến một số các đặc trưng như giá trị trung bình, kỳ vọng, phương sai, công suất, tương quann…Với phương pháp trích chọn đặc trưng trên miền
Trang 35tần số, người ta quan tâm đến một số tham số của biến đổi FFT Trên miền thời gian tần số là biến đổi Fourier thời gian ngắn SFFT
Bên cạnh đó, dựa trên các ưu điểm biểu diễn tín hiệu phi tuyến, một số công trình công bố trên thế giới đã tập trung vào áp dụng kỹ thuật biến đổi Wavelet, hoặc sử dụng mạng nơ-ron cho phân tích đặc trưng của tín hiệu EEG
và thu được hiệu quả cao hơn so với các phương pháp truyền thống
Vì dữ liệu dạng liên tục, để xử lí thông thường ta sẽ chuyển từ digital signal sang analog signal (continoue signal > discrete signal) để làm việc dễ dàng hơn Tuy nhiên, số lượng mẫu thu được trong một chu kỳ lấy mẫu vẫn khá lớn Lấy ví dụ, tín hiệu EEG với 32 channels, sampling rate = 100, tiến hành xử lí 1 với 1 epoch = 30s thì số lượng samples cần xử lí = 100 * 30 * 32
= 96000 samples, 1 con số khá lớn chỉ với 1 epoch! Sau khi áp dụng các phương pháp tríc chọn đặc trưng bên trên, ta có thể sử dụng thêm một số phương pháp lựa chọn đặc trưng để giảm thiểu số lượng đặc trưng, giảm chi phí tính toán và chọn lọc ra các tham số đặc trưng nhất Một vài phương pháp chú ý trong EEG như:
- Phương pháp phân tích thành phần chính (Principal Component Analysis - PCA) và phân tích thành phần độc lập (Independent Component Analysis - ICA): PCA là 1 trong các giải thuật về giảm bậc tuyến tính và lựa chọn đặc trưng được sử dụng phổ biến nhất Còn ICA
là giải thuật giảm bậc phí tuyến và thường được kết hợp với biến đổi wavelet để trích rút các đặc trưng không gian và đặc trưng thời gian-tần
Trang 361.3.3.3 Phân lớp tín hiệu EEG
Để hệ thống nhận dạng suy nghĩ hoạt động hiệu quả, ngoài việc xác định phương pháp phù hợp để trích chọn đặc trưng của tín hiệu EEG còn phải lựa chọn một kỹ thuật phân lớp phù hợp Trên thực tế, có một số phương pháp học máy cơ bản thường được dùng đó là: phân lớp dựa trên khoảng cách (Euclides, KNN), phân lớp dựa trên cây quyết định, phân lớp dựa trên phân cụm, phân lớp dựa trên kỹ thuật học máy vector hỗ trợ (Support Vecto Machine - SVM), phân lớp dựa trên mạng nơ-ron nhân tạo Một số kết quả được thống kế trong Hình 1.16 [8]
Hình 1.16 Một số phương pháp phân lớp trong nhận dạng tín hiệu EEG [8]
Phương pháp đơn giản nhưng cũng kém chính xác nhất là phân lớp theo khoảng cách Euclides Phương pháp sử dụng SVM cho kết quả tốt hơn nhưng tốc độ phân lớp chậm, đòi hỏi bộ nhớ lớn ở giai đoạn huấn luyện Phương pháp sử dụng mạng nơ-ron cho tốc độ xử lý nhanh, dễ cài đặt, linh hoạt và dễ bảo trì Tuy nhiên, các thuật toán học máy truyền thống này vẫn cho hiệu quả nhận dạng không cao
Trang 371.4 Cập nhật một số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc dựa trên tín hiệu EEG
1.4.1 Nghiên cứu trên thế giới
Trong những năm gần đây, trong lĩnh vực nhận dạng, một công cụ mới được đề xuất và cho hiệu quả nhận dạng hơn hẳn các thuật toán học máy truyền thống Đó chính là Deep learning, là một tập hợp các máy học nơi mạng nơ-ron nhân tạo, các thuật toán mô phỏng bộ não con người, học hỏi từ một lượng lớn dữ liệu Tương tự như cách chúng ta học hỏi từ kinh nghiệm, thuật toán Deep learning sẽ thực hiện một nhiệm vụ nhiều lần, mỗi lần tinh chỉnh một chút để cải thiện kết quả Bất kỳ vấn đề nào đòi hỏi sự tư duy để tìm ra lời giải học sâu đều có thể học cách giải quyết Các thành quả của Deep learning đã được khẳng định trong nhận dạng hình ảnh và nhận dạng tiếng nó [13] [16] Hoàn toàn có thể áp dụng Deep learning cho nhận dạng tín hiệu EEG Đặc biệt, trong Deep learning đã tích hợp luôn cả hai khâu trích chọn đặc trưng và phân lớp tín hiệu
Trong Deep learning, tùy thuộc vào kiến trúc mạng học sâu mà có thể phân biệt thành các mạng khác nhau như Mạng nơ-ron Wavelet (Wavelet neural network - WNN), mạng nơ-ron tích chập (Convolutional Neural Network – CNN), mạng bộ nhớ dài-ngắn (Long short-term memory - LSTM), Deep Belief Networks (DBNs), Autoencoders (AEs) [13] [16] Mỗi một loại mạng khi thay đổi kiến trúc bên trong đều ảnh hưởng đến kết quả nhận dạng
Vì thế, thách thức đặt ra là cần tìm ra loại mạng phù hợp (WNN, CNN, LSTM, DBN, AE) Với mỗi loại mạng phù hợp đó, cần xác định kiến trúc bên trong hợp lý (số lớp ẩn, số nơ ron lớp ẩn…) để khi áp dụng cho bài toán nhận dạng tín hiệu EEG cho kết quả tốt nhất Tài liệu [10] đã tổng kết các công trình công bố gần nhất về việc ứng dụng học sâu cho nhận dạng cảm xúc dựa trên tín hiệu EEG như dưới đây
Trang 38lhagry và cộng sự (2017 ) đã thảo luận về tầm quan trọng của hệ thống nhận dạng cảm xúc dựa trên hệ thống tương tác giữa Người và Máy tính (HCI) Họ đã xác định ba vấn đề chính: trạng thái, mức độ và tỷ lệ thích, không giống như hầu hết các nghiên cứu trong lĩnh vực này chỉ thảo luận về hai cấp độ (kích thích và hóa trị) Sử dụng tập dữ liệu DEAP, họ trích xuất các tính năng sử dụng LSTM-RNN để phân loại, đạt độ chính xác tốt 85,65%, 85,45% và 87,99% tương ứng với các danh mục trạng thái, mức độ và tỷ lệ thích Cần lưu ý rằng họ đã sử dụng các phương pháp end-to-end mà không
sử dụng các phương pháp trích xuất đặc trưng, bởi vì các thuật toán học sâu
có khả năng trích xuất các đặc trưng và phân loại chúng trong cùng một khâu
Seeja và cộng sự (2019) đã nghiên cứu phản ứng cảm xúc đối với các kích thích từ tín hiệu điện não đồ, sử dụng tập dữ liệu DEAP và chọn hai phương pháp khai thác đặc điểm: Phân hủy theo chế độ biến đổi (VMD) và Phân hủy chế độ theo kinh nghiệm (EMD) Các nhà nghiên cứu cũng sử dụng phương pháp DNN để phân loại cảm xúc Đây được coi là một phương pháp hiệu quả, với độ chính xác về mức độ là 62% và độ chính xác về trạng thái là 63% Nghiên cứu cho thấy rằng mô hình nhận dạng cảm xúc đạt được hiệu suất tốt hơn với bộ phân loại mạng nơ-ron sâu so với mô hình với bộ phân loại SVM Các nhà nghiên cứu lập luận rằng phương pháp tính năng dựa trên VMD mang lại hiệu suất tốt hơn so với phương pháp dựa trên EMD và giảm
độ phức tạp của tín hiệu Tuy nhiên, độ chính xác vẫn cần được cải thiện bằng cách cải thiện độ phân giải tần số của EMD, sử dụng các phép toán mask khác nhau cho tỷ lệ biên độ giữa các thành phần đơn âm
Trong một nghiên cứu khác của Yin Y., Zheng và các cộng sự (2020), mạng nơ-ron tích chập đồ thị (GCNN) đã được sử dụng để triển khai mô hình nhận dạng cảm xúc bằng cách sử dụng điện não đồ Thử nghiệm đã được áp dụng cho cơ sở dữ liệu DEAP Sau khi phân đoạn dữ liệu và trích xuất các
Trang 39đặc trưng entropy vi phân, một phương pháp được gọi là ECLGCNN, dựa trên việc hợp nhất GCNN và LSTM đã được sử dụng Các nhà nghiên cứu đã xác nhận tính hiệu quả của các phương pháp được sử dụng, vì chúng đạt độ chính xác 90,45% đối với nhãn mức độ và 90,60% đối với trạng thái phụ thuộc vào đối tượng và 85,04% trong các thử nghiệm độc lập Cần giảm độ phức tạp của tính toán yêu cầu trong phương pháp này bằng cách phát triển các phương pháp trích xuất nhiều đặc trưng hơn
Cimtay Y Và các cộng sự (2020) đã sử dụng phương pháp end-to-end
để phân loại cảm xúc bằng mô hình CNN, mô hình này đã chứng minh khả năng khai thác đặc trưng hiệu quả Nghiên cứu này đã thêm các lớp bổ sung vào mô hình CNN để tăng độ sâu và cải thiện khả năng phân loại Ba bộ dữ liệu, DEAP, LUMED và SEED, đã được sử dụng trong nghiên cứu này Mô hình đạt được độ chính xác 86,56% và 78,3% trong tập dữ liệu SEED, 72,81% trong tập dữ liệu DEAP và 81,8% trong tập dữ liệu LUMED
Một mô hình nhận dạng cảm xúc được phát triển bởi Wei C và cộng sự (2020) để xác định ba cảm xúc (tích cực, trung tính và tiêu cực) Các mô hình đơn vị hồi qui đơn giản (SRU) được tạo bằng cách sử dụng bốn tính năng trên năm dải tần số bằng cách sử dụng tập dữ liệu SEED SRU được đề xuất vì một số lý do Nó có thể xử lý dữ liệu trình tự và giải quyết vấn đề phụ thuộc dài hạn trong RNN Thời gian, tần số và các đặc trưng phi tuyến được trích xuất bằng cách sử dụng phương pháp truyền sóng kép cây kép (DT-CWT), đạt độ chính xác 80,02% Mô hình này dựa trên phương pháp thử-và-sai
Với những tiến bộ nhanh chóng trong lĩnh vực nhận dạng cảm xúc, Chao và cộng sự (2020) đã thảo luận về vấn đề nhiều kênh tín hiệu điện não
đồ (EEG) Họ đã trình bày một cách tiếp cận nâng cao để giải quyết vấn đề này và đề xuất một trường ngẫu nhiên có điều kiện niềm tin sâu (DBN-CRF)
để phát triển mạng niềm tin sâu với chuỗi glia (DBN-GC) Mô hình được áp
Trang 40dụng bằng cách sử dụng ba bộ dữ liệu khác nhau (AMIGOS, SEED và DEAP) Các phương pháp này hoạt động tốt, với độ chính xác trung bình là 76,13%
Trong một nghiên cứu khác của Ozdemir M.A và cộng sự, độ chính xác của kết quả mạng CNN cũng đã được xác minh, khi các nhà nghiên cứu sử dụng kết quả này để phát hiện trạng thái cảm xúc của con người bằng cách phân tích 32 tín hiệu điện não đồ Các nhà nghiên cứu đã thu được kết quả với
độ chính xác là 95,96% đối với mức độ và 96,09% đối với trạng thái
1.4.2 Nghiên cứu trong nước
Ở trong nước, nghiên cứu về xử lý tín hiệu EEG được bắt đầu từ năm
2011 [2] Tiếp đó, có thể kể đến một số nghiên cứu ứng dụng bước đầu của nhóm nghiên cứu tại Đại học Công nghệ ứng dụng EEG cho dự đoán bệnh động kinh năm 2014 [5] Dựa vào tín hiệu EEG và đặc trưng của gai động kinh (spike, sharp wave), quá trình phát hiện gai tự động được chia thành nhiều giai đoạn, kết hợp các phương pháp xử lý tín hiệu và học máy, sử dụng tổng hợp các thông tin về hình dạng, thời gian, tần số và không gian giúp hệ thống dự đoán đưa ra các quyết định đáng tin cậy
Gần đây, hướng nghiên cứu về ứng dụng EEG cho nhận dạng cảm xúc đang được đẩy mạnh, thể hiện ở một số đề tài thạc sĩ cũng như đề tài nghiên cứu [3] [4] Các nghiên cứu này tập trung vào việc áp dụng các phương pháp trích chọn đặc trưng, các phương pháp phân lớp trong học máy nhằm tạo ra các hệ thống BCI cho các ứng dụng thực tế
Như vậy, có thể thấy rằng, các công trình nghiên cứu trong nước mới chỉ tập trung vào việc sử dụng các công cụ học máy cho nhận dạng tín hiệu điện não nói chung Việc sử dụng các kỹ thuật học sâu cũng như tập trung vào bài toán nhận diện cảm xúc đang còn là vấn đề mới mẻ