Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng neural tích chập (cnn) cho nhận dạng cảm xúc thông qua tín hiệu điện não

Trang 1 PHÙNG THỊ HỒNG DUNG NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC SÂU DÙNG MẠNG NEURAL TÍCH CHẬP CNN CHO NHẬN DẠNG CẢM XÚC THƠNG QUA TÍN HIỆU ĐIỆN NÃO Ngành: Khoa học máy tính Mã số: 8 48 01

Trang 1

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Phùng Trung Nghĩa

THÁI NGUYÊN - 2022

Trang 2

LỜI NÓI ĐẦU

Sau một thời gian tìm hiểu và nghiên cứu, học viên đã hoàn thành

luận văn với đề tài: “Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng

Neural tích chập (CNN) cho nhận dạng cảm xúc thông qua tín hiệu điện não”

Học viên xin bày tỏ lòng biết ơn sâu sắc đến:

Trường Đại học công nghệ Thông tin và truyền thông, Trường Đại học

Sư Phạm Thái Nguyên - nơi học viên học tập và công tác đã trao đổi, đóng góp các ý kiến quý báu trong quá trình thực hiện đề tài

Đặc biệt, học viên xin bày tỏ lòng biết ơn tới PGS TS Phùng Trung Nghĩa đã tận tình hướng dẫn, cung cấp nhiều tài liệu cần thiết và hỗ trợ, để học viên có thể hoàn thành luận văn đúng thời hạn

Xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ học viên trong suốt quá trình nghiên cứu và hoàn thành đề tài đề tài này

Thái Nguyên, ngày 03 tháng 10 năm 2022

Học viên

Phùng Thị Hồng Dung

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn khoa học của PGS.TS Phùng Trung Nghĩa, các kết quả lý thuyết được trình bày trong luận văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được tác giả thực hiện là hoàn toàn trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm

Thái Nguyên, ngày 03 tháng 10 năm 2022

Học viên

Phùng Thị Hồng Dung

Trang 4

MỤC LỤC

LỜI NÓI ĐẦU i

LỜI CAM ĐOAN ii

DANH MỤC CÁC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG BIỂU viii

MỞ ĐẦU 1

1 Tính khoa học và cấp thiết của đề tài 1

2 Đối tượng và phạm vi nghiên cứu: 3

3 Phương pháp luận nghiên cứu 4

4 Ý nghĩa khoa học của luận văn 4

5 Nội dung và bố cục của đề tài 4

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU ĐIỆN NÃO 6

1.1 Giới thiệu chương 6

1.2 Bài toán nhận dạng cảm xúc 6

1.2.1 Các phương pháp nhận dạng cảm xúc 6

1.2.2 Mô hình nhận dạng cảm xúc 10

1.3 Nhận dạng cảm xúc thông qua tín hiệu điện não 11

1.3.1 Tổng quan về tín hiệu điện não 11

1.3.2 Hệ thống nhận dạng cảm xúc dựa trên tín hiệu sóng điện não 20

1.3.3 Một số kỹ thuật cơ bản trong triển khai hệ thống nhận dạng cảm xúc dựa trên tín hiệu điện não 21

1.4 Cập nhật một số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc dựa trên tín hiệu EEG 28

1.4.1 Nghiên cứu trên thế giới 28

1.4.2 Nghiên cứu trong nước 31

1.5 Kết luận chương 32

CHƯƠNG 2 MẠNG HỌC SÂU CNN VÀ ỨNG DỤNG TRONG NHẬN DẠNG CẢM XÚC THÔNG QUA TÍN HIỆU EEG 33

Trang 5

2.2 Giới thiệu về mạng CNN 33

2.2.1 Mạng nơ-ron sinh học 33

2.2.2 Mạng nơ-ron nhân tạo 35

2.2.3 Mạng nơ-ron CNN 37

2.2.4 Kiến trúc mạng CNN 38

2.2.5 Ứng dụng CNN trong nhận dạng tín hiệu 42

2.3 Ứng dụng mạng CNN cho nhận dạng tín hiệu điện não 43

2.3.1 Trường tiếp nhận cục bộ (Local receptive fields) 44

2.3.2 Trọng số chia sẻ và độ lệch (Shared weights and biases) 48

2.3.3 Lớp chứa hay lớp tổng hợp (Pooling layer) 48

2.4 Xây dựng kiến trúc và tham số mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não 51

2.4.1 Cách chọn tham số cho CNN 51

2.4.2 Đánh giá hiệu quả hoạt động của mạng CNN 52

2.4.3 Lựa chọn kiến trúc mạng CNN cho nhận dạng cảm xúc thông qua tín hiệu điện não 56

CHƯƠNG 3 ÐÁNH GIÁ THỰC NGHIỆM 58

3.2 Chuẩn bị công cụ thực hiện 58

3.3 Chuẩn bị cơ sở dữ liệu 58

3.3.1 Thu thập dữ liệu DEAP 58

3.3.2 Trích chọn đặc trưng tín hiệu 60

3.4 Tìm kiếm kiến trúc mạng CNN phù hợp 61

3.5 Một số kết quả thực nghiệm 64

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69

TÀI LIỆU THAM KHẢO 71

Trang 6

DANH MỤC CÁC TỪ VIẾT TẮT

Từ hoặc cụm từ Từ tiếng Anh Từ tiếng Việt

AI Artificial Intelligence Trí tuệ nhân tạo

ANN Artificial Neural Network Mạng nơron nhân tạo

AR Autoregressive Modeling Mô hình tự hồi quy

BCI Brain-Computer Interface Giao tiếp máy – điện não

CNN Convolutional Neural

Network Mạng nơron tích chập

CV Computer Vision Thị giác máy tính

DWT Discrete Wavelet Transform Biến đối Wavelet rời rạc EEG Electroencephalogram Điện não đồ

FFT Fast Fourier Tranform Biên đổi Fourier nhanh

ICA Independent Component

Analysis

Phân tích thành phần độc lập

KNN K Nearest Neighbor Thuật toán K láng giềng

gần nhất

LDA Linear Discriminant

Analysis

Phương pháp phân tích sự khác biệt tuyến tính

LSTM Long short-term memory Mạng bộ nhớ dài-ngắn

PCA Principal Component

Analysis

Phương pháp phân tích thành phần chính

ReLU Rectified Linear Units Hàm tinh chỉnh các đơn vị

tuyến tính SVM Support Vector Machine Học máy vectơ hỗ trợ WNN Wavelet neural network Mạng nơ ron Wavelet

Trang 7

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1 Thiết lập ghi tín hiệu EEG 11

Hình 1.2 Thiết lập ghi tín hiệu EEG 11

Hình 1.3 Một số phương pháp thu thập thông tin của não 13

Hình 1.4 Quá trình hình thành tín hiệu EEG từ nơ ron hình chóp 16

Hình 1.5 Nhận dạng các dạng sóng theo tần số 17

Hình 1.6 Sóng Alpha 18

Hình 1.7 Sóng Beta 19

Hình 1.8 Sóng Theta 19

Hình 1.9 Sóng Delta 20

Hình 1.10 Kiến Kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc theo EEG 21

Hình 1.11 Ví dụ minh họa quá trình nhận dạng cảm xúc 21

Hình 1.12 Thu thập tín hiệu EEG 22

Hình 1.13 Vị trí đặt điện cực EEG của hệ thống 10-20 23

Hình 1.14 Một số cách sắp xếp vị trí điện cực EEG 16, 32, 64 kênh 24

Hình 1.15 Một kênh sau khi được xử lí loại bỏ artifact 25

Hình 1.16 Một số phương pháp phân lớp trong nhận dạng tín hiệu EEG [7] 27 Hình 2.1 Cấu trúc cơ bản của nơron sinh học 33

Hình 2.2 Nơron nhân tạo 35

Hình 2.3 Cách máy tính “nhìn” một hình [13] 37

Hình 2.4 Mạng nơ-ron thông thường (trái) và CNN (phải) 39

Hình 2.5 Kiến trúc mạng CNN 40

Hình 2.6 Max pooling kích thước 2×2 41

Hình 2.7 Lớp kết nối đầy đủ 42

Hình 2.8 Lớp input gồm 28x28 nơ ron cho nhận dạng dữ liệu EEG với 28 điện cực và được lấy thành 28 mẫu theo thời gian 44

Trang 8

Hình 2.9 Kết nối vùng 5x5 nơ ron input với nơ ron lớp ẩn 44

Hình 2.10 Vị trí bắt đầu của trường tiếp nhận cục bộ 45

Hình 2.11 Vị trí thứ 2 của trường tiếp nhận cục bộ và nơ ron lớp ẩn 45

Hình 2.12 Trường tiếp nhận cục bộ với ba bản đồ đặc trưng 46

Hình 2.13 Trường tiếp nhận cục bộ với 20 bản đồ đặc trưng 47

Hình 2.14 Ví dụ về Max pooling 2x2 49

Hình 2.15 Max pooling với ba bản đồ đặc trưng 49

Hình 2.16 Ví dụ về một kiến trúc mạng CNN cho nhận dạng tín hiệu EEG 50 Hình 2.17 Minh họa các tham số đánh giá 53

Hình 2.18 Lựa chọn kiến trúc mạng CNN 56

Hình 3.1 Sự phụ thuộc của độ chính xác mô hình theo số chu kỳ luyện mạng CNN 65

Hình 3.2 Sự phụ thuộc của tổn thất mô hình theo số chu kỳ luyện mạng CNN 66

Hình 3.3 Đánh giá hoạt động của mạng CNN thông qua mẫu kiểm tra 66

Hình 3.4 Ma trận nhầm lẫn khi luyện mạng CNN 67

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1 Thông số tổng quan của bộ dữ liệu DEAP 59

Bảng 3.2 Mô tả các tham số FFT 60

Bảng 3.3 Đánh giá số chu kỳ luyện mạng 62

Bảng 3.4 Các tham số trong luyện mạng CNN 63

Bảng 3.5 Kết quả hoạt động của mạng CNN khi số bộ lọc thay đổi 64

Bảng 3.6 Kết quả khi thay đổi tỷ lệ phân chia thử nghiệm 64

Bảng 3.7 Kết quả khi thay đổi tỷ lệ phân chia thử nghiệm với các cảm xúc 65

Trang 10

MỞ ĐẦU

1 Tính khoa học và cấp thiết của đề tài

Cảm xúc đóng một vai trò quan trọng trong cuộc sống và công việc hàng ngày của chúng ta Đánh giá và điều chỉnh cảm xúc theo thời gian thực sẽ cải thiện và làm cho cuộc sống của con người tốt hơn Ví dụ, trong giao tiếp tương tác giữa con người với máy móc, việc nhận biết cảm xúc sẽ làm cho quá trình này trở nên dễ dàng và tự nhiên hơn Một ví dụ khác, trong điều trị bệnh nhân, đặc biệt là những bệnh nhân có vấn đề về biểu hiện, trạng thái cảm xúc thực sự của bệnh nhân sẽ giúp bác sĩ đưa ra phương pháp chăm sóc y tế phù hợp hơn [8]

Trước đây, để nhận dạng cảm xúc của con người, chúng ta thường căn

cứ vào cử chỉ khuôn mặt, giọng nói, cử chỉ, phản ứng của da v.v [11]

Trong những năm gần đây, nhận dạng cảm xúc từ điện não đồ (Electroencephalogram – EEG) đã thu hút được sự chú ý của rất nhiều nghiên cứu Ngoài ra, nó là một yếu tố rất quan trọng trong hệ thống giao diện máy tính não (Brain Computer Interface - BCI), sẽ cải thiện hiệu quả giao tiếp giữa con người và máy móc [11]

Quy trình nhận dạng tín hiệu EEG điển hình bao gồm loại bỏ nhiễu, trích chọn đặc trưng và phân lớp Ở cấp độ cơ bản nhất, tập dữ liệu EEG bao gồm

ma trận 2D (biên độ và thời gian) của các giá trị thực đại diện cho các điện thế do não tạo ra được ghi lại trên da đầu gắn với các điều kiện nhiệm vụ cụ thể [8] Hình thức có cấu trúc cao này làm cho dữ liệu EEG phù hợp cho học máy Chính vì thế, một số lượng lớn các thuật toán học máy và nhận dạng mẫu truyền thống đã được áp dụng trên dữ liệu EEG Ví dụ, phân tích thành phần độc lập (ICA) thường được sử dụng để loại bỏ nhiễu; phân tích thành phần chính (PCA) và phân tích phân biệt địa phương của Fisher (LFDA)

Trang 11

thường được sử dụng để giảm số chiều của các vectơ đặc trưng; các phương pháp học có giám sát cổ điển như phân tích phân tách tuyến tính (LDA), máy vectơ hỗ trợ (SVM), cây quyết định, mạng nơ-ron thường được sử dụng để phân lớp tín hiệu EEG [8]

Mạng nơ-ron không ngay lập tức nhận được sự chú ý cao như ngày nay trong các ứng dụng phân loại nơ-ron vì hạn chế về thời gian tính toán Tuy nhiên, sự sẵn có của các bộ dữ liệu lớn và sự phát triển gần đây của các đơn vị

xử lý đồ họa (GPU) đã mang lại cho các nhà nghiên cứu về mạng nơ-ron một giải pháp rẻ và mạnh mẽ nhằm khám phá các kiến trúc học sâu (Deep learning

- DL) Những đổi mới này đã dẫn đến sự quan tâm và ứng dụng của học sâu tăng theo cấp số nhân trong thập kỷ qua Thật vậy, nó đã cải thiện đáng kể hiệu suất trong một loạt các lĩnh vực thách thức truyền thống như hình ảnh, video, âm thanh và văn bản [12]

Do mạng nơ-ron lặp đi lặp lại và tự động tối ưu hóa các tham số nên chúng thường được cho là yêu cầu ít kiến thức chuyên môn hơn về tập dữ liệu

để có thể hoạt động tốt Ưu điểm này đã dẫn đến những ứng dụng ngày càng nhiều trong lĩnh vực tín hiệu y sinh, vốn thường liên quan đến các bộ dữ liệu lớn mà rất khó giải thích, ngay cả bởi các chuyên gia Gần đây, do sự sẵn có ngày càng tăng của các bộ dữ liệu EEG lớn [19] , các kiến trúc học sâu đã được áp dụng để giải mã và phân loại các tín hiệu EEG trong đó có bài toán nhận diện cảm xúc [17]

Trên thế giới đã có nhiều nghiên cứu về ứng dụng kỹ thuật học sâu để nhận dạng cảm xúc thông qua tín hiệu EEG ([8] -[15] ) Trong đó, có thể thấy mạng nơ-ron tích chập (Convolutional Neural Network – CNN) là công cụ được sử dụng nhiều nhất[8] Hiệu quả nhận dạng của một kiến trúc mạng học sâu phụ thuộc vào rất nhiều yếu tố như: tập mẫu dữ liệu lớn, thông tin đầu vào

Trang 12

mạng (dữ liệu thô, các đặc trưng được tính toán hay các ảnh phổ từ dữ liệu), các tham số kiến trúc bên trong của mạng

Tại Việt Nam cũng có một số nghiên cứu ban đầu về ứng dụng học sâu cho bài toán nhận dạng cảm xúc thông qua tín hiệu EEG Tuy nhiên, chưa có nhiều các nghiên cứu đánh giá một cách tổng hợp về hiệu quả của các công

cụ học sâu để từ đó đưa ra các khuyến nghị chi tiết hơn cho cộng đồng nghiên cứu

Từ các phân tích trên, học viên đã lựa chọn đề tài cho luận văn của mình

là “Nghiên cứu ứng dụng kỹ thuật học sâu dùng mạng Neural tích chập

(CNN) cho nhận dạng cảm xúc thông qua tín hiệu điện não” Hướng

nghiên cứu của luận văn là nghiên cứu về nhận dạng cảm xúc thông qua tín hiệu EEG và đánh hiệu quả của việc sử dụng công cụ học sâu là mạng CNN cho bài toán này Trong đó, luận văn tập trung nghiên cứu các vấn đề lý thuyết về cách thức xây dựng kiến trúc mạng, cách thức thiết lập các đầu vào/ra cho luyện mạng, tìm kiếm tham số tối ưu của kiến trúc mạng sao cho hiệu quả nhận dạng là lớn nhất Luận văn cũng nghiên cứu đánh giá kết quả thực nghiệm trên bộ mẫu Cơ sở dữ liệu để phân tích cảm xúc bằng cách sử dụng các tín hiệu sinh lý” (Database for Emotion Analysis using Physiological Signals - DEAP)

2 Đối tượng và phạm vi nghiên cứu:

Đối tượng nghiên cứu của luận văn là công cụ học sâu CNN ứng dụng trong nhận dạng cảm xúc thông qua tín hiệu EEG Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây

Phạm vi của luận văn bao gồm nghiên cứu hiệu quả nhận dạng của kiến trúc mạng CNN trên bài toán nhận dạng cảm xúc từ bộ mẫu DEAP) [18]

Trang 13

Đây là bộ dữ liệu được sử dụng nhiều nhất cho các nghiên cứu về nhận dạng cảm xúc thông qua tín hiệu EEG [17]

3 Phương pháp luận nghiên cứu

- Phương pháp nghiên cứu lý thuyết: Tổng hợp, nghiên cứu các tài liệu đã

có trên thế giới [1-11] để phân tích, đánh giá về việc áp dụng công cụ của học sâu, đặc biệt là mạng CNN trong nhận dạng cảm xúc thông qua tín hiệu EEG; Tìm hiểu các kiến thức liên quan như xử lý tín hiệu số, lý thuyết nhận dạng

- Phương pháp nghiên cứu thực nghiệm: Dựa trên các cơ sở lý thuyết và

các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một đánh giá hiệu quả của việc sử dụng mạng CNN trên bộ mẫu dữ liệu DEAP Cài đặt phần mềm theo ngôn ngữ Python dựa trên công cụ Colab của Google

- Phương pháp trao đổi khoa học: Thảo luận, xemina, lấy ý kiến chuyên

gia, công bố các kết quả nghiên cứu trên tạp chí khoa học

4 Ý nghĩa khoa học của luận văn

Như đã trình bày trong phần 1, nghiên cứu về nhận dạng cảm xúc thông qua tín hiệu EEG có vai trò quan trọng trong các hệ thống giao tiếp giữa người và máy Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam Đặc biệt, nghiên cứu về ứng dụng của kỹ thuật học sâu trong bài toán nhận dạng cảm xúc chưa được nghiên cứu nhiều ở Việt Nam Do vậy, kết quả của đề tài sẽ là tài liệu tham khảo hữu ích cho các nghiên cứu trong lĩnh vực nhận dạng cảm xúc, học máy, học sâu

5 Nội dung và bố cục của đề tài

Ngoài phần mở đầu, kết luận và hướng phát triển, đề tài được bố cục thành ba chương chính như sau:

Trang 14

Chương 1 Tổng quan về nhận dạng cảm xúc thông qua tín hiệu điện não

Nội dung chính của chương nhằm giới thiệu về nhận dạng cảm xúc, tổng quan tín hiệu EEG, vấn đề nhận dạng cảm xúc thông qua tín hiệu EEG; Cập nhật các nghiên cứu đã đạt được trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG

Chương 2 Mạng học sâu CNN và ứng dụng trong nhận dạng cảm xúc thông qua tín hiệu EEG

Chương này trình bày cơ sở lý thuyết về mạng CNN; Ứng dụng mạng CNN trong nhận dạng cảm xúc thông qua tín hiệu EEG: Phương pháp xác định kiến trúc và các tham số tối ưu của mạng CNN ứng dụng trong nhận dạng cảm xúc thông qua tín hiệu EEG

Chương 3 Đánh giá thực nghiệm

Nội dung chương tập trung vào các bước xây dựng thực nghiệm và đánh giá kết quả đạt được khi áp dụng mạng CNN cho bài toán nhận diện cảm xúc

từ bộ dữ liệu DEAP Các bước tiến hành bao gồm: Thu thập cơ sở dữ liệu DEAP, cài đặt công cụ học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG trên Python mạng CNN, đánh giá phương pháp, thống kê các kết quả đánh giá, phân tích, đánh giá, đưa ra kiến nghị

Trang 15

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC THÔNG QUA

TÍN HIỆU ĐIỆN NÃO 1.1 Giới thiệu chương

Chương 1 của luận văn nhằm mục đích giới thiệu các kiến thức tổng quan về vấn đề nhận dạng cảm xúc tín thông qua hiệu điện nào EEG

Phần đầu chương sẽ giới thiệu về bài toán nhận dạng cảm xúc một số phương pháp cơ bản đã và đang được sử dụng để thực hiện bài toán này Phần tiếp sau sẽ trình bày chi tiết các kiến thức về tín hiệu EEG, nguồn gốc của tín hiệu EEG, việc thu nhận các tín hiệu EEG trong thực tế và các dạng sóng EEG cơ bản và cách thức triển khai bài toán nhận dạng cảm xúc thông qua tín hiệu EEG Kế đó, nội dung chương sẽ phân tích kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc dựa trên EEG và các kỹ thuật cơ bản trong triển khai hệ thống nhận dạng trên thực tế

Phần cuối chương sẽ cập nhật số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc thông qua tín hiệu EEG, đồng thời chỉ ra một số ứng dụng của hệ thống nhận dạng cảm xúc thông qua tín hiệu điện não trong thực tế

1.2 Bài toán nhận dạng cảm xúc

1.2.1 Các phương pháp nhận dạng cảm xúc

Cảm xúc đi cùng với mỗi người trong cuộc sống hàng ngày và đóng một vai trò quan trọng trong giao tiếp phi ngôn ngữ của con người Đó là một trong những điều kiện quan trọng để hiểu được các hành vi ứng xử của con người Chính vì thế mà bài toán nhận dạng cảm xúc của con người tuy là một bài toán khó nhưng được rất nhiều các nhà khoa học quan tâm nghiên cứu Nhận dạng cảm xúc đã và đang được ứng dụng trong rất nhiều bài toán thực

tế Cụ thể như:

Trang 16

- Giáo dục: Phản ứng (cảm xúc) của người học trong thời gian thực và sự tham gia vào nội dung giáo dục là một thước đo lường cho hiệu quả của bài giảng

- Tiếp thị: Đây là một cách tuyệt vời để các công ty kinh doanh phân tích cách khách hàng phản hồi với quảng cáo, sản phẩm, bao bì và thiết kế cửa hàng của họ

- Chơi game: Với sự ra đời của game thực tế ảo gần với trải nghiệm thực

tế Nhận dạng cảm xúc đóng một vai trò quan trọng để cải thiện trải nghiệm chơi trò chơi

- Bảo mật: Nó có thể giúp xác định hành vi đáng ngờ trong đám đông và

có thể được sử dụng để ngăn chặn tội phạm và những kẻ khủng bố tiềm năng

- Chăm sóc sức khỏe: Nó có thể hữu ích trong việc tự động hóa dịch vụ y

tế Cả sức khỏe thể chất và tinh thần có thể được phân tích thông qua ứng dụng này

- Dịch vụ khách hàng: Quản lý dịch vụ khách hàng có thể hiệu quả hơn bằng cách sử dụng hệ thống nhận dạng cảm xúc khuôn mặt Phân tích phản hồi của khách hàng và phản ứng của máy tính sẽ đảm bảo tương tác máy tính với con người trong cuộc sống thực Hệ thống nhận diện cảm xúc khuôn mặt được sử dụng nhiều trong cuộc sống: điều trị y tế, giao tiếp song ngôn ngữ, đánh giá đau của bệnh nhân, phát hiện nói dối, giám sát trạng thái của người lái xe phát hiện trạng thái buồn ngủ dựa vào cảm xúc trên khuôn mặt được phát triển để cảnh báo cho người lái xe khi thấy dấu hiệu buồn ngủ, mệt mỏi Việc thực thi các bài toán nhận dạng cảm xúc có thể được thực hiện thông qua rất nhiều loại thông tin đầu vào như văn bản, tiếng nói, biểu hiện khuôn mặt và thông qua các tín hiệu sinh lý [9]

Trang 17

 Nhận đạng cảm xúc thông qua văn bản

Nhận dạng cảm xúc từ văn bản là một lĩnh vực được nghiên cứu phát triển rộng rãi trong thực tế cùng với xử lý ngôn ngữ tự nhiên (NLP) Có thể lấy ví dụ như việc phân tích tình cảm trực tuyến là một trong những cách thông thường và phổ biến nhất để diễn giải trạng thái tâm trí của người dùng thông qua văn bản viết và hoạt động của họ trên web Theo truyền thống, nhận dạng cảm xúc thông qua văn bản được thực hiện bằng cách chọn các từ khóa cảm xúc, bộ từ điển và N-gram Để nâng cao hiệu quả nhận dạng cảm xúc qua văn bản, rất nhiều kỹ thuật đã được đề xuất bao gồm cả các công cụ

ML truyền thống như ANN, SVM lẫn các công cụ học sâu hiện đại

 Nhận đạng cảm xúc dựa trên tiếng nói

Tiếng nói là cách thức trao đổi thông tin tự nhiên nhất, cho phép tương tác giữa con người với hệ thống nhanh và dễ dàng Đối thoại dùng ngôn ngữ nói không chỉ đơn giản, thuận tiện và tiết kiệm thời gian mà còn góp phần đảm bảo khía cạnh an toàn trong những môi trường có tính rủi ro

Để có thể thiết lập hệ thống tương tác có tính linh hoạt cao, kiến trúc của các hệ thống đối thoại người - máy cần được trang bị thêm các chức năng mới Các chức năng này bao gồm nhận dạng cảm xúc tiếng nói, phát hiện các tham biến dựa trên tình huống cũng như trạng thái của người dùng và quản lý tình huống để đưa ra các mô hình dựa trên các tham biến đã được phát hiện làm cho quá trình đối thoại phù hợp Chính vì vậy, trong nhiều năm qua, các nghiên cứu về cảm xúc tiếng nói đã thu hút mối quan tâm mạnh mẽ trong lĩnh vực tương tác người - máy và mong muốn tìm ra cách làm thế nào có thể tích hợp trạng thái cảm xúc của người nói vào hệ thống đối thoại người – máy dùng tiếng nói

Trang 18

 Nhận đạng cảm xúc dựa trên biểu hiện khuôn mặt

Khuôn mặt của con người biểu hiện nhiều cảm xúc mà không cần phải nói ra Đó là một trong những phương tiện mạnh mẽ và tự nhiên nhất để con người truyền đạt thể hiện cảm xúc Không giống như các hình thức giao tiếp phi ngôn ngữ khác, cảm xúc trên khuôn mặt nó phổ quát Hiện nay, nhận dạng

và phân tích cảm xúc khuôn mặt tự động là một vấn đề thú vị và đầy thách thức, có ảnh hưởng to lớn đến xã hội Cảm xúc trên khuôn mặt và hành động của chúng ta là phương tiện giao tiếp phi ngôn ngữ, bao gồm 93% cảm xúc giao tiếp của con người, trong đó 55% thể hiện cử chỉ khuôn mặt và hành động của con người Cảm xúc khuôn mặt có thể được phân tích dễ dàng thông qua hình ảnh khuôn mặt và máy tính có thể tương tác với con người, như cách con người tương tác với nhau Đó là lý do tại sao nhận dạng cảm xúc qua khuôn mặt ngày càng được sự quan tâm trong mọi lĩnh vực Các nhà nghiên cứu đã chỉ ra rằng cảm xúc trên khuôn mặt là phổ quát và bẩm sinh trong tất cả các chủng tộc, giới tính và độ tuổi Thêm cảm xúc trung tính là

có bảy cảm xúc cơ bản, gồm: trung tính, giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn và bất ngờ

 Nhận đạng cảm xúc dựa trên tín hiệu sinh lý

Tín hiệu sinh lý là các tín hiệu sinh hóa được tạo ra như một phản ứng với các kích thích Các tín hiệu sinh lý rất khó trích xuất và xử lý, do đó đòi hỏi một quá trình tiền xử lý rộng rãi Hai tín hiệu sinh lý thường được sử dụng

là tín hiệu điện não EEG và tín hiệu điện tim (ECG)

Tín hiệu ECG là những tín hiệu điện được ghi lại để theo dõi hoạt động của tim người Một số kỹ thuật rất hứa hẹn đã được đưa ra gần đây để phát hiện cảm xúc của con người từ hoạt động của tim

Tín hiệu EEG là những tín hiệu điện được ghi lại để theo dõi hoạt động của não bộ Những tín hiệu này được ghi lại thông qua các kênh hoặc điểm

Trang 19

khác nhau trên não, và sau đó được phân hủy Trước đây, việc nhận dạng cảm xúc có thể được thực hiện thông qua văn bản, hội thoại, cử chỉ cơ thể và biểu hiện khuôn mặt Tuy nhiên, trong xu hướng phát triển của con người, các hệ thống nhận dạng cảm xúc thông qua những tín hiệu “bên trong” như sóng điện não (Electro EncephaloGraphy - EEG) sẽ trở nên cần thiết, quan trọng và tạo ra sự phát triển mạnh mẽ không ngừng của các ứng dụng tương tác Não - Máy (Brain Computer Interface - BCI), đặt con người vào vị trí trung tâm của mối tương tác số trong kỷ nguyên hiện đại Có rất nhiều phương pháp nghiên cứu được áp dụng để ghi nhận cảm xúc theo thời gian thực Ví dụ, các nhà nghiên cứu sử dụng các tín hiệu điện não đồ (EEG) và sinh lý ngoại vi như điện tâm đồ, hô hấp, sức đề kháng của da và huyết áp để thực hiện nghiên cứu nhận dạng cảm xúc (Horlings và cộng sự, 2008) Trong số đó, tín hiệu EEG trong tín hiệu sinh lý khách quan được tạo ra trực tiếp bởi hệ thần kinh trung ương, có liên quan mật thiết đến các trạng thái cảm xúc của con người (Jiang

số tham số khác như sự yêu thích (like), sự tương tự (similarity)…

Mô hình rời rạc: chứa một tập số lượng hữu hạn các cảm xúc của người, ví dụ: joy, sadness, surprise, fear, anger, disgust… Với các mô hình rời rạc, việc nhận biết sẽ trở lên khó khăn hơn rất nhiều, do trong không gian cảm

Trang 20

xúc, việc biểu thị đang ở trạng thái tích cực là không hoàn toàn giống nhau

Cụ thể là khi ta nghe 1 bài nhạc vui khác hoàn toàn với một video hài kịch…

Hình 1.1 Thiết lập ghi tín hiệu EEG

Thông thường, các nghiên cứu gần đây thường kết hợp 2 mô hình này lại với nhau để thu được kết quả tối ưu hơn

1.3 Nhận dạng cảm xúc thông qua tín hiệu điện não

1.3.1 Tổng quan về tín hiệu điện não

1.3.1.1 EEG là gì

Hình 1.2 Thiết lập ghi tín hiệu EEG

Trang 21

EEG là phương pháp ghi lại hoạt động điện của não Thông thường đây

là phương pháp không xâm lấn (không gây ảnh hưởng đến đối tượng) Trong phương pháp này, một số điện cực được đặt dọc theo da đầu, đo dao động điện áp ở các vị trí khác nhau (Hình 1.2) EEG được phát hiện bởi Berger năm

1924 bằng 1 dụng cụ đo dòng điện với 1 điện cực bề mặt trên đầu con trai ông

và ghi lại được 1 mẫu nhịp nhàng những dao động điện

1.3.1.2 Tại sao phải thu nhận tín hiệu EEG

Não bộ của con người là một tổ chức phức tạp, tinh vi nhất của hệ thần kinh Thông qua các giác quan như mắt, tai, da, bộ não tiếp thu các thông tin

về thị giác, thính giác, xúc giác để từ đó nhận thức ra đối tượng, xử lý và giải đáp thông tin qua các hình thức vận động Do vậy bộ não giữ vai trò quan trọng trong hoạt động toàn diện, đa dạng của con người, giúp con người thích ứng với các hoàn cảnh xã hội Ngày nay, khi thế giới ngày càng phát triển thì các bệnh về não cũng ngày càng phát triển như: các bệnh về động kinh, viêm não, u não … Do vậy, tìm hiều vể cấu trúc của não bộ cũng như cách thức não bộ truyền nhận thông tin là một lĩnh vực chứa nhiều tiềm năng đem tới những phát kiến khoa học lớn Để thực hiện được việc đó, một trong những việc đầu tiên và quan trọng nhất là phải thu nhận được những tín hiệu/thông tin do não bộ sản sinh Một số phương pháp khác nhau ghi lại hoạt động của não (Hình 1.3), đó là [1] :

Trang 22

Hình 1.3 Một số phương pháp thu thập thông tin của não

- Điện não đồ (Electroencephalography - EEG),

- Chụp quang phổ cận hồng ngoại chức năng (Functional Near-Infrared Spectroscopy - fNIRS),

- Điện não xâm lấn (Electro-corticography - ECoG),

- Chụp cắt lớp (Computed Topography - CT)

- Từ não đồ (Magnetoencephalography - MEG),

- Chụp cắt lớp phát xạ positron (Positron emission tomography - PET)

- Chụp cộng hưởng từ chức năng (functional magnetic resonance imaging - fMRI)

Các phương pháp thu tín hiệu hình ảnh từ não như CT, PET, MRI thường có thiết kế cồng kềnh, giá thành rất cao Phương pháp điện não xâm lấn ECoG cho tín hiệu có độ tin cậy cao, chất lượng và độ phân giải tốt tuy nhiên lại là phương pháp xâm lấn, không dễ thực hiện và đòi hỏi phải có can thiệp y khoa để mở hộp sọ đặt điện cực thu tín hiệu So với các phương pháp này, điện não đồ EEG cho kết quả là tín hiệu điện não có độ phân giải và chất

Trang 23

lượng tốt Thiết bị thu EEG thường nhỏ gọn, có thể di chuyển linh hoạt và giá thành thấp Tín hiệu điện não EEG là một phương thức được sử dụng phổ biến nhất thu nhận tín hiệu đầu vào cho các ứng dụng giao diện não – máy tính, phù hợp với điều kiện kinh tế - xã hội nếu được triển khai áp dụng tại Việt Nam

1.3.1.3 Nguồn gốc của tín hiệu EEG

Vỏ não là nguồn gốc của các hoạt động điện của não thu được từ bề mặt của da đầu, các dạng khác nhau của hoạt động điện và dẫn tới trường điện thế được tạo ra bởi các tế bào thần kinh vỏ não

Sự sắp xếp của các tế bào ở các khu vực khác nhau trên vỏ não là khác nhau, mỗi vùng có kiểu hình thái khác nhau Hầu hết các tế bào vỏ não được sắp xếp thành các cột, trong các cột này các neuron được phân bố dọc theo trục chính của các cây dạng nhánh, song song với mỗi cây khác và trực giao với bề mặt vỏ não

Vỏ não gồm các lớp khác nhau, các lớp này là không gian của cấu trúc các tế bào thần kinh đặc biệt, với các trạng thái và chức năng khác nhau trong đáp ứng xung điện Tế bào thần kinh pyramidal là thành phần cấu tạo chủ yếu của vỏ não Điện thế EEG ghi được từ các điện cực được đặt tiếp xúc với lớp

da đầu là sự tổng hợp các thay đổi về điện thế ngoài của tế bào pyramidal Màng tế bào pyramidal không bao giờ trong trạng thái nghỉ bởi vì nó bị tác động liên tiếp bởi hoạt động sinh ra do các neuron khác có các liên kết synaptic (mối nối giữa một axon và tế bào kế tiếp mà chúng trao đổi thông tin được gọi là synapse) Các liên kết synaptic có thể là kích thích hoặc ức chế sự thay đổi tương ứng tính thẩm thấu của màng tế bào đối với ion K và ion Cl làm phát sinh dòng điện

Điện thế postsynaptic (phần synapse cạnh tế bào kế tiếp) kích thích là tổng hợp của dòng đi vào trong màng tế bào gây ra bởi các ion dương và dòng

Trang 24

đi ra ngoài màng tế bào tạo dọc theo phần mở rộng của tế bào extra-synaptic Điện trường bên ngoài tế bảo là hàm của điện thế xuyên màng

Mặc dù các điện thế bên ngoài tế bào riêng rẽ là nhỏ nhưng tổng điện thế của chúng cũng đáng kể đối với nhiều tế bào Điều này là do các neuron pyramidal được kích hoạt tức thời lớn hơn hoặc nhỏ hơn cách mà liên kết synaptic và các thành phần dọc trục của dòng bên ngoài màng được thêm vào, trong khi đó các thành phần nằm ngang lại có xu hướng làm giảm điện thế này Ngoài ra các nguồn khác cũng góp phần tạo ra tín hiệu EEG Sự giảm điện thế màng tế bào tới mức giới hạn xấp xỉ 10 mV nhỏ hơn điện thế tái khử cực tại trạng thái nghỉ của màng tế bào Điện thế hoạt động của các neuron não là nguồn gốc của EEG, chúng góp phần nhỏ trong việc tạo ra tín hiệu EEG ghi được tại bề mặt của não Do chúng thường hoạt động không đồng bộ trong cùng một thời gian đối với một số lượng lớn các sợi trục, các sợi trục này di chuyển theo nhiều hướng tương đối với bề mặt vỏ não Nguyên nhân khác là phần của màng tế bảo bị khử cực bởi điện thế hoạt động tại các thời điểm cố định nhỏ hơn so với thành phần của màng tế bào được kích thích bởi một EPSP và điện thế hoạt động tồn tại trong thời gian ngắn hơn(cỡ 1 - 2ms)

so với của EPSPs hoặc IPSPs là 10 – 250ms

Trang 25

Hình 1.4 Quá trình hình thành tín hiệu EEG từ nơ-ron hình chóp

Qua các điểm trình bày ở trên thì EEG thu được tại bề mặt da đầu có thể coi là kết quả của nhiều thành phần tích cực, trong đó điện thế của postsynaptic từ tế bào pyramidal là thành phần chính tạo ra tín hiệu điện não

Hình 1.4 mô tả các dao động điện áp gây ra bởi các tế bào thần kinh pyramidal Trên cùng bên trái là kết quả của điện não đồ, dạng sóng ở giữa cho thấy những thay đổi trong trường điện thế trường bên trong, phía dưới bên trái hiển thị dao động của một nơ-ron pyramidal

Năm 1924, nhà tâm thần học người Áo tên là Hans Berger là người đầu tiên ghi được EEG Ông nhận thấy trên bản ghi EEG bình thường, nhịp của các sóng điện não gồm có vài loại sóng có thể phân biệt theo tần số Đây còn gọi là các dạng sóng đặc trưng sinh lý

Trang 26

1.3.1.4 Các dạng sóng EEG cơ bản

Hình 1.5 Nhận dạng các dạng sóng theo tần số

 Sóng Alpha (α)

Dạng sóng hình sin là chủ yếu, có tần số từ 8 -13 chu kỳ/giây

Alpha nhanh: 11-13 chu kỳ/giây

Alpha trung bình: 10 chu kỳ/giây

Alpha chậm: 8-9 chu kỳ/giây

Alpha 10 Hz, biên độ thấp

Alpha 10Hz, biên độ cao

Trang 27

Alpha 10Hz, xuất hiện từng chùm

Hình 1.6 Sóng Alpha

Sóng thường có biên độ khoảng 50µV (mặc dù cũng có thể giao động từ

5 tới 100 µV) Sóng này thấy rõ nhất ở phần phía sau của não người, vốn là nơi xử lý các tín hiệu thị giác, tức là vùng chẩm (occipital region) ở cả 2 bên,

ít ở vùng đỉnh và giảm dần về phía thái dương Vì vậy, đôi khi người ta còn gọi nhịp alpha là nhịp trội ở phía sau (the posterior-dominant rhythm)

Có nhiều giả thuyết giải thích cơ chế này Theo P.V simonov (1956) cho rằng alpha có vai trò lớn trong cơ chế điều chỉnh giữa nội môi và ngoại môi của chức năng ngăn cản các tín hiệu đi vào não Theo Bunch alpha có vai trò điều chỉnh đồng bộ của các tín hiệu vào và ra khỏi não; D.G Shmelkin (1955) thấy alpha luôn đi cùng với trạng thái cân bằng liên quan đền hưng phấn và ức chế Sóng alpha trở nên rõ nhất khi nhắm mắt lại, bị triệt tiêu khi mở mắt Như vậy sóng alpha là dấu hiệu cho biết não đang ở tình trạng không chú ý (inattentive brain), và đang chờ để được kích thích Thực tế là có một vài tác giả đã gọi nó là “nhịp chờ đợi” ("waiting rhythm") Đây là nhịp sóng chủ yếu thấy được trên người lớn bình thường và thư giãn – sóng hiện diện trong hầu hết các thời kỳ của cuộc đời, nhất là khi trên 30 tuổi, khi ấy sóng này chiếm

ưu thế trên đường ghi EEG lúc nghỉ ngơi

Trang 28

thường được coi là nhịp bình thường, nó là nhịp chiếm ưu thế ở những người đang thức tỉnh cảnh giác hoặc lo sợ, hoặc khi mở mắt

ở người lớn nhiều hay ít, lan tỏa hay khu trú đều liên quan đến rối loan chức năng của não, đặc biệt ở cấu trúc dưới vỏ

 Sóng Delta (δ)

Dạng sóng hình chuông, tần số từ 0,5-4 Hz, biên độ sóng trung bình tương đương điện thế alpha, cũng có khi cao gấp 2 đến 3 lần biên độ alpha, đây là loại sóng chậm nhất và có biên độ cao nhất Sóng Delta xuất hiện ở trẻ

em dưới 7 tuổi, giảm dần theo lứa tuổi, xuất hiện ở người lớn trong giấc ngủ sâu (ở giai đoạn 3 hoặc 4 của giấc ngủ) Nói chung, nếu sóng Delta xuất hiện

Trang 29

trên một người lớn (trừ khi đang ngủ) thì chứng tỏ não có vấn đề nào đó: ví

dụ u não, động kinh, tăng áp lực nột sọ, khiếm khuyết về trí tuệ, hay hôn mê Khi đã xuất hiện, thì nhịp Delta có khuynh hướng thay thế cho nhịp alpha Cả sóng beta lẫn sóng delta đều không bị ảnh hưởng bởi mở mắt hay nhắm mắt ) Nó có thể xuất hiện cục bộ khi có tổn thương dưới vỏ và phân bố rộng khắp khi có tổn thương lan tràn, trong bệnh não do chuyển hóa (metabolic encephalopathy), bệnh não nước (hydrocephalus) hay tổn thương đường giữa trong sâu (deep midline lesions) Nó thường trội nhất ở vùng trán ở người lớn (ví dụ FIRDA - Frontal Intermittent Rhythmic Delta – sóng delta có nhịp cách hồi ở vùng trán) và phân bố trội ở các vùng phía sau trên trẻ em (ví dụ OIRDA - Occipital Intermittent Rhythmic Delta - sóng delta có nhịp cách hồi

ở vùng chẩm)

Hình 1.9 Sóng Delta

1.3.2 Hệ thống nhận dạng cảm xúc dựa trên tín hiệu sóng điện não

Một hệ thống nhận diện cảm xúc (được minh họa trong Hình 1.10) về

cơ bản hoạt động như sau: Đầu tiên, các tín hiệu não được cảm nhận, khuếch đại và tiền xử lý Các tín hiệu như vậy thường được ghi lại bằng EEG, một phương pháp không xâm lấn để đo hoạt động điện của vỏ não Thứ hai, hệ thống tìm kiếm và trích xuất các tính năng điện sinh lý hữu ích của tín hiệu EEG, phản ánh mong muốn của người Cuối cùng, hệ thống liên kết các tính năng EEG có ý nghĩa và phân lớp các cảm xúc của con người Hình 1.11 đưa

ra một ví dụ minh họa trong trường hợp xây dựng một hệ thống giúp nhận dạng cảm xúc vui, buồn, sợ hãi và bình thường của con người thông qua sóng não

Trang 30

Hình 1.10 Kiến trúc cơ bản của một hệ thống nhận dạng cảm xúc theo EEG

Hình 1.11 Ví dụ minh họa quá trình nhận dạng cảm xúc

1.3.3 Một số kỹ thuật cơ bản trong triển khai hệ thống nhận dạng cảm xúc

dựa trên tín hiệu điện não

Từ sơ đồ khối Hình 1.10, ta có thể thấy rằng ba khâu quan trọng nhất trong hệ thống nhận dạng cảm xúc dựa trên tín hiệu EEG là: Xử lý số tín hiệu EEG, trích chọn đặc trưng, phân lớp (ra quyết định) Cũng chính vì thế, qua khảo sát các công trình nghiên cứu đã công bố liên quan đến bài toán nhận

Trang 31

dạng cảm xúc dựa trên tín hiệu EEG đều chủ yếu tập trung vào cải tiến các bước chính này

1.3.3.1 Thu nhận và xử lý số tín hiệu EEG

Việc tiến hành đo đạc EEG thường được thực hiện bằng cách gắn nhiều điện cực rải ráp xung quanh đầu, mỗi điện cực sẽ thu nhận được các xung điện tại từng khu vực riêng biệt, mỗi điện cực được coi như là 1 kênh (channel)

Các điện cực dùng trong điện não đồ thường là những đĩa kim loại Có 2 loại điện cực là điện cực châm và điện cực dán

Chỗ đặt điện cực trên da đầu được bôi kem dẫn điện, trước đó cần tẩy da đầu bằng chất tẩy chuyên dụng, hoặc dùng cồn để tẩy sạch chất mỡ nhờn trên

da đầu, sao cho điện trở giữa điện cực và da đầu không vượt quá một mức ngưỡng nào đó (thường là không quá 5 kΩ)

Hình 1.12 Thu thập tín hiệu EEG

Nếu làm sạch da đầu tốt, cũng có thể không dùng kem dẫn điện trên điện cực ghi, mà dùng miếng xốp tẩm dung dịch muối Người ta cũng hay dùng loại mũ cao su có gắn sẵn điện cực, và đặt trùm lên đầu người được thu thập

Vì các điện cực được đặt rải ráp xung quanh đầu nên để cụ thể, mỗi channel đo tại 1 vùng riêng biệt sẽ có 1 quy ước đặt tên riêng Ngoài ra, mỗi

Trang 32

điện cực đo xung điện đều dựa trên sự chênh lệch điện thế với 1 điểm gọi là reference Việc chọn điểm reference tại đâu trên đầu (2 dái tai, 2 xương chũm, đỉnh đầu) cũng đều gây ảnh hưởng tới kết quả thu được của tín hiệu

Trong thực tế, số lượng điện cực gán trên vỏ mũ không cố định, thông thường sẽ là 14, 32 hoặc 64 channel, mỗi bản thiết kế điện cực sẽ có 1 tên riêng quy chuẩn và số lượng channel cũng khác nhau [3]

Hiệp hội quốc tế về sinh lí thần kinh lâm sàng và điện não đã đưa ra chuẩn đặt điện cực cho 21 điện cực (gồm cả điện cực tại dái tai) gọi là hệ thống 10-20 Các điện cực đặt tại dái tai được gọi là A1, A2 được nối tương ứng với tai trái và tai phải được sử dụng làm điện cực tham chiếu Hệ thống 10-20 tránh đặt điện cực tại vị trí nhãn cầu, và cân nhắc một vài khoảng cách không đổi bởi sử dụng các mốc giải phẫu cụ thể Các điện cực lẻ được đặt bên trái và các điện cực chẵn được đặt bên phải Để thiết lập số lượng các điện cực nhiều hơn mà vẫn tuân theo qui ước trên, các điện cực còn lại ngoài 21 điện cực chuẩn được đặt giữa các điện cực trên và cách đều nhau giữa chúng

Ví dụ C1 được đặt giữa C3 và Cz Hai dạng khác nhau dùng để ghi tín hiệu điện não là dạng vi sai và dạng tham chiếu Đối với dạng vi sai hai đầu vào của mỗi bộ khuếch đại vi sai là hai cực, còn kiểu tham chiếu thì chỉ một trong hai điện cực tham chiếu được dùng

Hình 1.13 Vị trí đặt điện cực EEG của hệ thống 10-20

Trang 33

Hình 1.14 Một số cách sắp xếp vị trí điện cực EEG 16, 32, 64 kênh

Trước khi ghi điện não đồ, cần thực hiện việc đo chuẩn độ (calibration)

để đảm bảo là máy sẽ cho đường ghi chính xác Sóng ghi chuẩn độ cung cấp cho ta giá trị so sánh biên độ các sóng điện não Người ta dùng một xung điện hình chữ nhật, hình tam giác, hay hình sin, có biên độ biết trước, đưa vào đầu vào của bộ khuếch đại của máy ghi điện não đồ Như vậy tín hiệu chuẩn độ sẽ

đi vào tất cả các đường ghi EEG, tạo ra một sóng chuẩn độ trên bản ghi Căn

cứ vào sóng chuẩn độ này, người ta đánh giá các sóng điện não về mặt biên

độ

Bên cạnh đó cần có một bộ lọc (EEG filter) để lọc bỏ các dao động điện xuất phát từ tim, cơ và từ môi trường bên ngoài Bộ lọc chỉ cho phép những hoạt động điện có tần số trong một giới hạn nhất định (frequency range) đã được định sẵn được ghi vào máy điện não, những dao động có tần số cao hơn hoặc thấp hơn khoảng giới hạn đó sẽ bị lọc bỏ Giới hạn của tần số điện não

đồ là từ 0,5Hz đến 70Hz (có một số tài liệu cho rằng từ 0,16Hz hoặc thấp hơn nữa đến 70Hz) Như vậy những dao động có tần số cao hơn 70 Hz sẽ được ghi thành đường thẳng

Trang 34

Hình 1.15 Một kênh sau khi được xử lí loại bỏ artifact

Ngoài lọc tín hiệu, trong xử lý tin hiệu EEG còn phải kể đến một số các phương pháp xử lí khác như: triệt nhiễu noise, loại bỏ actifact Một vài phương pháp có thể kể đến như: ICA (Independent Component Analysis), SSP (Signal Subspace Projectors), Wavelet Denoising

1.3.3.2 Trích chọn đặc trưng tín hiệu EEG

Pha quan trọng thứ hai của nhận dạng suy nghĩ thông qua tín hiệu EEG chính là trích chọn đặc trưng Trong hướng tiếp cận truyền thống, có một số

kỹ thuật trích chọn đặc trưng tiêu biểu phải kể đến là:

- Trích chọn tín hiệu trên miền thời gian

- Trích chọn tín hiệu trên miền tần số

- Trích chọn tín hiệu trên miền thời gian-tần số

- Phương pháp mô hình mẫu chung (Common Spatial Pattern - CSP) Trong các phương pháp trích chọn đặc trưng miền thời gian, người ta quan tâm đến một số các đặc trưng như giá trị trung bình, kỳ vọng, phương sai, công suất, tương quann…Với phương pháp trích chọn đặc trưng trên miền

Trang 35

tần số, người ta quan tâm đến một số tham số của biến đổi FFT Trên miền thời gian tần số là biến đổi Fourier thời gian ngắn SFFT

Bên cạnh đó, dựa trên các ưu điểm biểu diễn tín hiệu phi tuyến, một số công trình công bố trên thế giới đã tập trung vào áp dụng kỹ thuật biến đổi Wavelet, hoặc sử dụng mạng nơ-ron cho phân tích đặc trưng của tín hiệu EEG

và thu được hiệu quả cao hơn so với các phương pháp truyền thống

Vì dữ liệu dạng liên tục, để xử lí thông thường ta sẽ chuyển từ digital signal sang analog signal (continoue signal > discrete signal) để làm việc dễ dàng hơn Tuy nhiên, số lượng mẫu thu được trong một chu kỳ lấy mẫu vẫn khá lớn Lấy ví dụ, tín hiệu EEG với 32 channels, sampling rate = 100, tiến hành xử lí 1 với 1 epoch = 30s thì số lượng samples cần xử lí = 100 * 30 * 32

= 96000 samples, 1 con số khá lớn chỉ với 1 epoch! Sau khi áp dụng các phương pháp tríc chọn đặc trưng bên trên, ta có thể sử dụng thêm một số phương pháp lựa chọn đặc trưng để giảm thiểu số lượng đặc trưng, giảm chi phí tính toán và chọn lọc ra các tham số đặc trưng nhất Một vài phương pháp chú ý trong EEG như:

- Phương pháp phân tích thành phần chính (Principal Component Analysis - PCA) và phân tích thành phần độc lập (Independent Component Analysis - ICA): PCA là 1 trong các giải thuật về giảm bậc tuyến tính và lựa chọn đặc trưng được sử dụng phổ biến nhất Còn ICA

là giải thuật giảm bậc phí tuyến và thường được kết hợp với biến đổi wavelet để trích rút các đặc trưng không gian và đặc trưng thời gian-tần

Trang 36

1.3.3.3 Phân lớp tín hiệu EEG

Để hệ thống nhận dạng suy nghĩ hoạt động hiệu quả, ngoài việc xác định phương pháp phù hợp để trích chọn đặc trưng của tín hiệu EEG còn phải lựa chọn một kỹ thuật phân lớp phù hợp Trên thực tế, có một số phương pháp học máy cơ bản thường được dùng đó là: phân lớp dựa trên khoảng cách (Euclides, KNN), phân lớp dựa trên cây quyết định, phân lớp dựa trên phân cụm, phân lớp dựa trên kỹ thuật học máy vector hỗ trợ (Support Vecto Machine - SVM), phân lớp dựa trên mạng nơ-ron nhân tạo Một số kết quả được thống kế trong Hình 1.16 [8]

Hình 1.16 Một số phương pháp phân lớp trong nhận dạng tín hiệu EEG [8]

Phương pháp đơn giản nhưng cũng kém chính xác nhất là phân lớp theo khoảng cách Euclides Phương pháp sử dụng SVM cho kết quả tốt hơn nhưng tốc độ phân lớp chậm, đòi hỏi bộ nhớ lớn ở giai đoạn huấn luyện Phương pháp sử dụng mạng nơ-ron cho tốc độ xử lý nhanh, dễ cài đặt, linh hoạt và dễ bảo trì Tuy nhiên, các thuật toán học máy truyền thống này vẫn cho hiệu quả nhận dạng không cao

Trang 37

1.4 Cập nhật một số kết quả nghiên cứu trong và ngoài nước về ứng dụng học sâu trong nhận dạng cảm xúc dựa trên tín hiệu EEG

1.4.1 Nghiên cứu trên thế giới

Trong những năm gần đây, trong lĩnh vực nhận dạng, một công cụ mới được đề xuất và cho hiệu quả nhận dạng hơn hẳn các thuật toán học máy truyền thống Đó chính là Deep learning, là một tập hợp các máy học nơi mạng nơ-ron nhân tạo, các thuật toán mô phỏng bộ não con người, học hỏi từ một lượng lớn dữ liệu Tương tự như cách chúng ta học hỏi từ kinh nghiệm, thuật toán Deep learning sẽ thực hiện một nhiệm vụ nhiều lần, mỗi lần tinh chỉnh một chút để cải thiện kết quả Bất kỳ vấn đề nào đòi hỏi sự tư duy để tìm ra lời giải học sâu đều có thể học cách giải quyết Các thành quả của Deep learning đã được khẳng định trong nhận dạng hình ảnh và nhận dạng tiếng nó [13] [16] Hoàn toàn có thể áp dụng Deep learning cho nhận dạng tín hiệu EEG Đặc biệt, trong Deep learning đã tích hợp luôn cả hai khâu trích chọn đặc trưng và phân lớp tín hiệu

Trong Deep learning, tùy thuộc vào kiến trúc mạng học sâu mà có thể phân biệt thành các mạng khác nhau như Mạng nơ-ron Wavelet (Wavelet neural network - WNN), mạng nơ-ron tích chập (Convolutional Neural Network – CNN), mạng bộ nhớ dài-ngắn (Long short-term memory - LSTM), Deep Belief Networks (DBNs), Autoencoders (AEs) [13] [16] Mỗi một loại mạng khi thay đổi kiến trúc bên trong đều ảnh hưởng đến kết quả nhận dạng

Vì thế, thách thức đặt ra là cần tìm ra loại mạng phù hợp (WNN, CNN, LSTM, DBN, AE) Với mỗi loại mạng phù hợp đó, cần xác định kiến trúc bên trong hợp lý (số lớp ẩn, số nơ ron lớp ẩn…) để khi áp dụng cho bài toán nhận dạng tín hiệu EEG cho kết quả tốt nhất Tài liệu [10] đã tổng kết các công trình công bố gần nhất về việc ứng dụng học sâu cho nhận dạng cảm xúc dựa trên tín hiệu EEG như dưới đây

Trang 38

lhagry và cộng sự (2017 ) đã thảo luận về tầm quan trọng của hệ thống nhận dạng cảm xúc dựa trên hệ thống tương tác giữa Người và Máy tính (HCI) Họ đã xác định ba vấn đề chính: trạng thái, mức độ và tỷ lệ thích, không giống như hầu hết các nghiên cứu trong lĩnh vực này chỉ thảo luận về hai cấp độ (kích thích và hóa trị) Sử dụng tập dữ liệu DEAP, họ trích xuất các tính năng sử dụng LSTM-RNN để phân loại, đạt độ chính xác tốt 85,65%, 85,45% và 87,99% tương ứng với các danh mục trạng thái, mức độ và tỷ lệ thích Cần lưu ý rằng họ đã sử dụng các phương pháp end-to-end mà không

sử dụng các phương pháp trích xuất đặc trưng, bởi vì các thuật toán học sâu

có khả năng trích xuất các đặc trưng và phân loại chúng trong cùng một khâu

Seeja và cộng sự (2019) đã nghiên cứu phản ứng cảm xúc đối với các kích thích từ tín hiệu điện não đồ, sử dụng tập dữ liệu DEAP và chọn hai phương pháp khai thác đặc điểm: Phân hủy theo chế độ biến đổi (VMD) và Phân hủy chế độ theo kinh nghiệm (EMD) Các nhà nghiên cứu cũng sử dụng phương pháp DNN để phân loại cảm xúc Đây được coi là một phương pháp hiệu quả, với độ chính xác về mức độ là 62% và độ chính xác về trạng thái là 63% Nghiên cứu cho thấy rằng mô hình nhận dạng cảm xúc đạt được hiệu suất tốt hơn với bộ phân loại mạng nơ-ron sâu so với mô hình với bộ phân loại SVM Các nhà nghiên cứu lập luận rằng phương pháp tính năng dựa trên VMD mang lại hiệu suất tốt hơn so với phương pháp dựa trên EMD và giảm

độ phức tạp của tín hiệu Tuy nhiên, độ chính xác vẫn cần được cải thiện bằng cách cải thiện độ phân giải tần số của EMD, sử dụng các phép toán mask khác nhau cho tỷ lệ biên độ giữa các thành phần đơn âm

Trong một nghiên cứu khác của Yin Y., Zheng và các cộng sự (2020), mạng nơ-ron tích chập đồ thị (GCNN) đã được sử dụng để triển khai mô hình nhận dạng cảm xúc bằng cách sử dụng điện não đồ Thử nghiệm đã được áp dụng cho cơ sở dữ liệu DEAP Sau khi phân đoạn dữ liệu và trích xuất các

Trang 39

đặc trưng entropy vi phân, một phương pháp được gọi là ECLGCNN, dựa trên việc hợp nhất GCNN và LSTM đã được sử dụng Các nhà nghiên cứu đã xác nhận tính hiệu quả của các phương pháp được sử dụng, vì chúng đạt độ chính xác 90,45% đối với nhãn mức độ và 90,60% đối với trạng thái phụ thuộc vào đối tượng và 85,04% trong các thử nghiệm độc lập Cần giảm độ phức tạp của tính toán yêu cầu trong phương pháp này bằng cách phát triển các phương pháp trích xuất nhiều đặc trưng hơn

Cimtay Y Và các cộng sự (2020) đã sử dụng phương pháp end-to-end

để phân loại cảm xúc bằng mô hình CNN, mô hình này đã chứng minh khả năng khai thác đặc trưng hiệu quả Nghiên cứu này đã thêm các lớp bổ sung vào mô hình CNN để tăng độ sâu và cải thiện khả năng phân loại Ba bộ dữ liệu, DEAP, LUMED và SEED, đã được sử dụng trong nghiên cứu này Mô hình đạt được độ chính xác 86,56% và 78,3% trong tập dữ liệu SEED, 72,81% trong tập dữ liệu DEAP và 81,8% trong tập dữ liệu LUMED

Một mô hình nhận dạng cảm xúc được phát triển bởi Wei C và cộng sự (2020) để xác định ba cảm xúc (tích cực, trung tính và tiêu cực) Các mô hình đơn vị hồi qui đơn giản (SRU) được tạo bằng cách sử dụng bốn tính năng trên năm dải tần số bằng cách sử dụng tập dữ liệu SEED SRU được đề xuất vì một số lý do Nó có thể xử lý dữ liệu trình tự và giải quyết vấn đề phụ thuộc dài hạn trong RNN Thời gian, tần số và các đặc trưng phi tuyến được trích xuất bằng cách sử dụng phương pháp truyền sóng kép cây kép (DT-CWT), đạt độ chính xác 80,02% Mô hình này dựa trên phương pháp thử-và-sai

Với những tiến bộ nhanh chóng trong lĩnh vực nhận dạng cảm xúc, Chao và cộng sự (2020) đã thảo luận về vấn đề nhiều kênh tín hiệu điện não

đồ (EEG) Họ đã trình bày một cách tiếp cận nâng cao để giải quyết vấn đề này và đề xuất một trường ngẫu nhiên có điều kiện niềm tin sâu (DBN-CRF)

để phát triển mạng niềm tin sâu với chuỗi glia (DBN-GC) Mô hình được áp

Trang 40

dụng bằng cách sử dụng ba bộ dữ liệu khác nhau (AMIGOS, SEED và DEAP) Các phương pháp này hoạt động tốt, với độ chính xác trung bình là 76,13%

Trong một nghiên cứu khác của Ozdemir M.A và cộng sự, độ chính xác của kết quả mạng CNN cũng đã được xác minh, khi các nhà nghiên cứu sử dụng kết quả này để phát hiện trạng thái cảm xúc của con người bằng cách phân tích 32 tín hiệu điện não đồ Các nhà nghiên cứu đã thu được kết quả với

độ chính xác là 95,96% đối với mức độ và 96,09% đối với trạng thái

1.4.2 Nghiên cứu trong nước

Ở trong nước, nghiên cứu về xử lý tín hiệu EEG được bắt đầu từ năm

2011 [2] Tiếp đó, có thể kể đến một số nghiên cứu ứng dụng bước đầu của nhóm nghiên cứu tại Đại học Công nghệ ứng dụng EEG cho dự đoán bệnh động kinh năm 2014 [5] Dựa vào tín hiệu EEG và đặc trưng của gai động kinh (spike, sharp wave), quá trình phát hiện gai tự động được chia thành nhiều giai đoạn, kết hợp các phương pháp xử lý tín hiệu và học máy, sử dụng tổng hợp các thông tin về hình dạng, thời gian, tần số và không gian giúp hệ thống dự đoán đưa ra các quyết định đáng tin cậy

Gần đây, hướng nghiên cứu về ứng dụng EEG cho nhận dạng cảm xúc đang được đẩy mạnh, thể hiện ở một số đề tài thạc sĩ cũng như đề tài nghiên cứu [3] [4] Các nghiên cứu này tập trung vào việc áp dụng các phương pháp trích chọn đặc trưng, các phương pháp phân lớp trong học máy nhằm tạo ra các hệ thống BCI cho các ứng dụng thực tế

Như vậy, có thể thấy rằng, các công trình nghiên cứu trong nước mới chỉ tập trung vào việc sử dụng các công cụ học máy cho nhận dạng tín hiệu điện não nói chung Việc sử dụng các kỹ thuật học sâu cũng như tập trung vào bài toán nhận diện cảm xúc đang còn là vấn đề mới mẻ

Tiêu đề	Nghiên Cứu Ứng Dụng Kỹ Thuật Học Sâu Dùng Mạng Neural Tích Chập (CNN) Cho Nhận Dạng Cảm Xúc Thông Qua Tín Hiệu Điện Não
Tác giả	Phùng Thị Hồng Dung
Người hướng dẫn	PGS. TS. Phùng Trung Nghĩa
Trường học	Đại học Thái Nguyên
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Thái Nguyên

Định dạng
Số trang	82
Dung lượng	1,87 MB