1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt

54 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Tác giả Trần Xuân Đạt
Người hướng dẫn PGS.TS. Lê Thanh Hà, TS. Tạ Việt Cường
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Khoa học máy tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 54
Dung lượng 4,32 MB

Cấu trúc

  • 2.1 Căn chỉnh tín hiệu theo phiên thu, đối tượng (29)
  • 2.2 Căn chỉnh tín hiệu theo nhãn (30)
  • 3.1 EEGNet (32)
  • 3.2 EEG-ITNet (33)
  • 2.1 Giới thiệu (38)
  • 2.2 Phương pháp đánh giá (38)
  • 2.3 Kết quả thực nghiệm (39)
  • 3.1 Giới thiệu (41)
  • 3.2 Phương pháp đánh giá (42)
  • 3.3 Kết quả thực nghiệm (44)
  • competition IV 2a [23] (0)

Nội dung

Căn chỉnh tín hiệu theo phiên thu, đối tượng

Euclidean Alignment (EA) là phương pháp hiệu quả để căn chỉnh dữ liệu tín hiệu EEG, giúp đồng nhất phân phối dữ liệu giữa các phiên thu và đối tượng khác nhau Nhờ vào quy trình tính toán đơn giản và không cần sử dụng nhãn tín hiệu EEG, EA cho phép các mô hình phân loại được huấn luyện trên nhiều dữ liệu khác nhau hoạt động hiệu quả với dữ liệu từ các phiên thu hoặc đối tượng mới.

Mỗi đối tượng trong bộ dữ liệu có n đoạn tín hiệu EEG được biểu diễn dưới dạng X i ∈ R N×T, trong đó N đại diện cho số kênh của tín hiệu EEG và T là số mẫu (độ dài) của một đoạn tín hiệu theo thời gian Ví dụ, với T = t ∗ s.f req = 256, độ dài đoạn tín hiệu EEG là t = 2s và tần số lấy mẫu là s.f req = 128Hz.

X i ′ = R −1 2 ∗ X i (3.3) trong đó, C i ∈ R N×N là ma trận hiệp phương sai của một đoạn tín hiệu EEG,

Ma trận hiệp phương sai trung bình R ∈ R N×N và đoạn tín hiệu EEG mới X i ′ ∈ R N ×T được căn chỉnh từ X Các ma trận C i và R là các ma trận đối xứng xác định dương.

(3.4) trong đó,R ′ ∈ R N xN là ma trận hiệp phương sai trung bình sau khi căn chỉnh bằng

EA.R ′ i , R ′ j tương ứng với hai đối tượngivàj bất kỳ,δ(R ′ i , R ′ j )là khoảng cách giữaR ′ i và

Đối với hai đoạn tín hiệu EEG bất kỳ C i ′ và C j ′ thuộc cùng một đối tượng, ma trận hiệp phương sai được xác định sau khi căn chỉnh bằng EA Ma trận khả nghịch R −1 2 cho phép tính toán độ tương đồng giữa hai đoạn tín hiệu thông qua công thức δ(C i ′ , C j ′ ) = δ((R −1 2 ∗ X i ) ∗ (R −1 2 ∗ X i ) T , (R −1 2 ∗ X j ) ∗ (R −1 2 ∗ X j ) T).

Sau khi áp dụng EA để căn chỉnh dữ liệu tín hiệu EEG, ma trận hiệp phương sai trung bình giữa các phiên thu và đối tượng trở nên đồng nhất, đều bằng ma trận đơn vị I Việc này giúp thu nhỏ khoảng cách giữa các ma trận hiệp phương sai, làm cho phân phối dữ liệu giữa các phiên thu và đối tượng khác nhau trở nên tương đồng, từ đó nâng cao hiệu quả của các mô hình phân loại với dữ liệu mới Đồng thời, EA cũng không làm thay đổi khoảng cách giữa hai đoạn tín hiệu EEG bất kỳ của cùng một đối tượng.

Căn chỉnh tín hiệu theo nhãn

Label Alignment (LA) là một phương pháp căn chỉnh dữ liệu tín hiệu EEG, giúp làm cho phân phối dữ liệu của các phiên thu và đối tượng khác nhau trở nên tương đồng với phân phối dữ liệu của phiên thu và đối tượng mục tiêu theo từng nhãn Nhờ đó, phân phối dữ liệu của cả phiên thu và đối tượng cũng trở nên đồng nhất Khác với phương pháp EA, LA yêu cầu một phần dữ liệu tín hiệu EEG từ phiên thu của đối tượng mục tiêu được gán nhãn.

Giả sử có một nhãn c bất kỳ, hai đối tượng src và tgt với n src,c và n tgt,c đoạn tín hiệu EEG, được biểu diễn dưới dạng X src,c,i và X tgt,c,i thuộc R N ×T Ở đây, N đại diện cho số kênh của tín hiệu EEG, trong khi T là số mẫu (độ dài) của một đoạn tín hiệu theo thời gian.

Trong công thức (3.6), R src,c và R tgt,c là hai ma trận hiệp phương sai trung bình thuộc không gian R N x N, đại diện cho đối tượng src và tgt với nhãn c Đồng thời, X src,c,i ′ là đoạn tín hiệu EEG mới của X src,c,i sau khi đã được căn chỉnh, nằm trong không gian R N×T.

R ′ src,c ∈ R N xN là ma trận hiệp phương sai trung bình của đối tượng src với nhãn sau khi được căn chỉnh bằng LA Khoảng cách δ(R ′ src,c , R tgt,c ) thể hiện sự khác biệt giữa R ′ src,c và R tgt,c trong không gian RM.

Sau khi áp dụng phương pháp LA để căn chỉnh dữ liệu tín hiệu EEG theo từng nhãn, ma trận hiệp phương sai trung bình giữa các phiên thu của các đối tượng trở nên giống nhau (R src,c ′ = R tgt,c), giúp phân phối dữ liệu trở nên tương đồng Phương pháp LA cho phép mở rộng lượng dữ liệu của phiên thu, đối tượng mục tiêu bằng cách sử dụng dữ liệu từ các phiên thu hoặc bộ dữ liệu khác Tương tự như EA, LA không làm thay đổi khoảng cách giữa các đoạn tín hiệu EEG thuộc cùng một nhãn của đối tượng Nghiên cứu của [18] đã thử nghiệm phương pháp LA trên bộ dữ liệu BCI competition, cho thấy sự khác biệt về nhãn của tín hiệu EEG giữa các đối tượng.

Hình 3.3 mô tả khái quát các bước thực hiện hai phương pháp căn chỉnh dữ liệu

EA, LA Các điểm trong hình vẽ biểu diễn ma trận hiệp phương sai của các đoạn tín hiệuEEG trên không gian RM.

Hình 3.3: Phương pháp căn chỉnh dữ liệu EA - LA với tín hiệu EEG [18]

3 Mô hình học sâu trong phân loại tín hiệu điện não

Trong các nghiên cứu gần đây về phân loại tín hiệu EEG, mô hình học sâu ngày càng được ứng dụng rộng rãi để tạo ra các mô hình tổng quát cho nhiều tác vụ khác nhau, đồng thời giảm thiểu sự phụ thuộc vào kiến thức chuyên môn Mạng nơ-ron tích chập (CNN) đã chứng minh hiệu quả cao trong việc xử lý tín hiệu điện não, đặc biệt trong tác vụ phân loại tưởng tượng vận động.

EEGNet

V.J Lawhern và cộng sự đã phát triển EEGNet, một mô hình CNN nhỏ gọn dành cho việc phân loại tín hiệu EEG trong các hệ thống giao tiếp não-máy (BCI) Mô hình này áp dụng các lớp tích chập tách biệt và lớp tích chập tách biệt theo chiều sâu, nhằm tối ưu hóa quá trình trích xuất đặc trưng từ tín hiệu EEG thông qua các bộ lọc không gian và tần số.

Hình 3.4: Kiến trúc mạng EEGNet [14]

Kiến trúc của EEGNet (hình 3.4) bao gồm ba khối chính Ở khối đầu tiên (Conv2D

+ DepthwiseConv2D), EEGNet sử dụng hai lớp tích chập (kích thước ma trận nhân là

Trong quá trình xử lý tín hiệu EEG, chúng tôi sử dụng hai bước tích chập tách biệt theo chiều sâu với kích thước ma trận nhân là N ∗ 1, nhằm học các đặc trưng theo tần số và không gian cho từng lớp đặc trưng về tần số Hai bước tích chập này tương tự như mô hình Filter-bank CSP được đề cập trong tài liệu [8] Kết quả sau bước này là kích thước đoạn tín hiệu EEG sẽ thay đổi từ N × T.

EEGNet sử dụng tín hiệu một chiều theo thời gian (1 × T) và áp dụng lớp tích chập tách biệt theo chiều sâu (SeparableConv2D) cùng lớp tích chập điểm (Pointwise Convolution) để giảm số lượng tham số và học các mối liên kết giữa các lớp đặc trưng Lớp tích chập tách biệt tổng hợp các lớp đặc trưng độc lập và kết hợp chúng một cách tối ưu Ở khối phân loại cuối cùng, EEGNet sử dụng lớp tuyến tính và hàm Softmax để tính xác suất cho mỗi nhãn dữ liệu Hệ thống cũng tích hợp các lớp chuẩn hóa đặc trưng (Batch Normalization), hàm kích hoạt ELU, lớp tổng hợp trung bình (Average Pooling), kỹ thuật chính quy hóa (Dropout) và ràng buộc chuẩn tối đa ở lớp tích chập tách biệt theo chiều sâu đầu tiên (||w depthwise || 2 < 1).

EEG-ITNet

A Salami và cộng sự [23] đã giới thiệu EEG-ITNet, một mô hình CNN nhỏ gọn kết hợp mạng tích chập đa nhánh (Inception) và mạng tích chập giãn nở một chiều (Dilated).

Phép toán tích chập giãn nở là cơ sở cho các mô hình tích chập theo thời gian, hay còn gọi là Mạng Tích Chập Thời Gian (Temporal Convolutional Network - TCN) Mô hình TCN đã được ứng dụng rộng rãi trong các bài toán xử lý dữ liệu theo thời gian, đặc biệt trong nghiên cứu phân loại tín hiệu EEG, mang lại nhiều kết quả khả quan.

(b) Khối Temporal Convolution Network (TCN)

(c) Khối Dimension Reduction (DR) (d) Khối Classification

Hình 3.5: Kiến trúc mạng EEG-ITNet [23]

Kiến trúc EEG-ITNet bao gồm bốn khối chính, trong đó khối đầu tiên (Inception block) sử dụng ba nhánh tích chập song song với các lớp tích chập theo chiều thời gian và chiều sâu, tương tự như mạng EEGNet Kích thước ma trận nhân được điều chỉnh theo tần số lấy mẫu của tín hiệu, giúp mô hình học được đặc trưng trên nhiều dải tần số khác nhau Việc sử dụng ba nhánh với kích thước ma trận nhân khác nhau giúp loại bỏ hạn chế về kích thước cố định, cho phép mô hình nhận diện đặc trưng ở cả dải tần số thấp và cao Khối thứ hai (TC block) sử dụng mạng TCN để tách các đặc trưng phân biệt trên miền thời gian từ tín hiệu đã được xử lý bởi khối Inception.

TCN bao gồm các khối tích chập phần dư, trong đó mỗi khối sử dụng lớp tích chập giãn một chiều theo chiều sâu để trích rút các đặc trưng độc lập từ tín hiệu Kích thước vùng tiếp nhận của các khối tích chập tăng dần theo lũy thừa của 2, cho phép kết hợp các đặc trưng trên nhiều dải tần số thông qua lớp tích chập 1 × 1 ở khối DR Ở khối phân loại cuối cùng, EEG-ITNet áp dụng lớp tuyến tính và hàm Softmax để tính xác suất cho mỗi nhãn dữ liệu Tương tự như EEGNet, EEG-ITNet cũng sử dụng lớp chuẩn hóa đặc trưng để cải thiện hiệu suất mạng.

Normalization differs from the use of Weight Normalization in TCN, while the ELU activation function, Average Pooling layer, Dropout regularization technique, and the constraint ||w depthwise||2 < 1 are also important components.

Trong nghiên cứu sử dụng bộ dữ liệu BCI competition IV - 2a cho tác vụ tưởng tượng ảnh vận động, mô hình EEG-ITNet đã đạt được độ chính xác trung bình cao nhất so với các mô hình CNN trước đây, bao gồm cả EEGNet, theo ba tiêu chí đánh giá.

Bảng 3.1: Độ chính xác trung bình các mô hình CNN trên bộ dữ liệu BCI competition

Mô hình Trên từng đối tượng Trên toàn bộ đối tượng Trên toàn bộ đối tượng và tinh chỉnh theo từng đối tượng

Chương này trình bày các thông số đánh giá mô hình phân loại và kết quả thực nghiệm của luận văn trên hai bộ dữ liệu tín hiệu điện não liên quan đến tác vụ tưởng tượng ảnh vận động, bao gồm Physionet Motor Movement/Imagery và HMI EEG-ET.

1 Thông số đánh giá mô hình phân loại

Các mô hình phân loại tín hiệu điện não EEG thường được đánh giá dựa trên bốn chỉ số chính, bao gồm Accuracy/Balanced Accuracy, Cohen’s Kappa và F1-Score, tương tự như nhiều bài toán phân loại phổ biến khác.

Bảng 4.1: Ma trận lỗi (Confusion matrix) cho phân lớp nhị phân

Ground truth Positive True Positive (TP) False Negative (FN)

Negative False Positive (FP) True Negative (TN)

Precision là tỷ lệ giữa số dự đoán chính xác và tổng số dự đoán thuộc cùng một nhãn Nó phản ánh độ tin cậy của mô hình trong việc xác định một mẫu thuộc về nhãn đang được xem xét.

Recall là tỷ lệ giữa số dự đoán chính xác và số lượng thực tế của dữ liệu có cùng nhãn (ground truth) Chỉ số này đánh giá độ chính xác của các dự đoán liên quan đến nhãn được xem xét.

Accuracy: là độ chính xác dự đoán của mô hình trên toàn bộ tập dữ liệu.

Balanced Accuracy (BAC) là một chỉ số đo lường độ chính xác dự đoán của mô hình trên toàn bộ tập dữ liệu, đặc biệt hữu ích khi dữ liệu phân bố không đồng đều giữa các nhãn Trong phân loại tín hiệu EEG, sự không đồng đều này thường thấy, chẳng hạn như khi phân biệt trạng thái nghỉ ngơi "rest" với các trạng thái khác trong các bộ dữ liệu về MI.

Tổng quát trong phân loạiK nhãn,BAC là giá trị trung bình củarecall tương ứng với mỗi nhãn.

Cohen’s Kappa là một chỉ số được sử dụng để đánh giá mức độ đồng thuận giữa nhãn thực sự của dữ liệu (ground truth) và nhãn dự đoán của mô hình Giá trị Kappa nằm trong khoảng từ -1 đến 1, trong đó giá trị càng gần 1 cho thấy mức độ đồng thuận càng cao, trong khi giá trị bằng 0 tương ứng với các lựa chọn ngẫu nhiên.

P olà giá trị đồng thuận quan sát được (độ chính xác dự đoán của mô hình).

P e là tổng xác suất giả định của khả năng đồng thuận theo từng nhãn.

F1-Score: là trung bình điều hòa của precisionvàrecall, thường được sử dụng để đánh giá mô hình khi phân bố nhãn của dữ liệu không cân bằng.

2 Bộ dữ liệu Physionet Motor Movement/Imagery

Giới thiệu

Bộ dữ liệu Physionet EEG Motor Movement/Imagery (Physionet MMIDB) là một nguồn dữ liệu mở chứa tín hiệu EEG của 109 đối tượng, bao gồm hai tác vụ chính: thực hiện vận động và tưởng tượng ảnh vận động Tín hiệu EEG được ghi lại bởi hệ thống BCI2000 với 64 kênh theo chuẩn Standard 10-05 và tần số lấy mẫu 160Hz Trong tác vụ tưởng tượng ảnh vận động, mỗi đối tượng thực hiện 3 lần chạy cho các hoạt động nắm tay trái (L), nắm tay phải (R), nắm cả hai tay (LR) và chuyển động hai bàn chân (F), mỗi lần chạy kéo dài 120 giây và bao gồm 14 lần thử Giữa các lần thử có khoảng nghỉ (resting - 0), và các đối tượng thực hiện thí nghiệm trong trạng thái mở mắt, cố định ánh mắt vào một vị trí nhất định, dẫn đến tổng cộng 21 lần thử cho mỗi loại vận động khác nhau.

Hình 4.1: Mô hình thực nghiệm của bộ dữ liệu Physionet MMIDB [20]

Trong nghiên cứu này, luận văn tập trung vào việc sử dụng dữ liệu từ tác vụ tưởng tượng ảnh vận động (MI) để phát triển mô hình học sâu (CNN) nhằm phân loại 3 nhãn (LR0: nắm tay trái, nắm tay phải và trạng thái nghỉ) cùng với 4 nhãn (LRF0: nắm tay trái, nắm tay phải, cả hai chân và trạng thái nghỉ) Dữ liệu được thu thập từ 105 đối tượng, trong đó 4 đối tượng (S88, S92, S100 và S104) đã bị loại bỏ do sai sót trong dữ liệu, tương tự như các nghiên cứu trước đó [20], [15].

Phương pháp đánh giá

Phương thức đánh giá trong thực nghiệm áp dụng dữ liệu từ nhiều đối tượng để huấn luyện và dự đoán cho các đối tượng mới (cross-subject) Độ chính xác của mô hình được xác định dựa trên độ chính xác trung bình của 5 lần kiểm định chéo (cross-validation).

Mô hình được huấn luyện với dữ liệu từ 84 đối tượng, chiếm 80% tổng số, và được đánh giá trên 21 đối tượng còn lại, tương đương 20% Phương pháp đánh giá thực nghiệm được mô tả chi tiết trong Hình 4.2.

Hình 4.2: Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu Physionet MMIDB [15]

Kết quả thực nghiệm

Trong nghiên cứu này, luận văn đã sử dụng các đoạn tín hiệu EEG từ bộ dữ liệu Physionet MMIDB với 64 kênh, mỗi đoạn có độ dài 3 giây (từ 0 đến 3 giây theo hình 4.1) thông qua phương pháp phân tách tín hiệu trialwise Tín hiệu EEG đã được điều chỉnh tần số lấy mẫu xuống còn 128Hz.

160Hz) và được lọc theo tần số trong khoảng 4 - 38Hz.

Mô hình CNN được áp dụng trong nghiên cứu là EEGNet với các tham số (K, n, d) = (64, 8, 4) cho hai lớp tích chập đầu tiên, và EEG-ITNet với các tham số (K, n, d) = {(16, 2, 2), (32, 4, 2), (64, 8, 2)} cùng với 4 lớp tích chập phần dư (Residual block) trong TCN với K = 4 Mô hình này được huấn luyện trong 150 epochs, sử dụng thuật toán tối ưu Adam với tốc độ học lr = 1e − 3 và áp dụng Dropout để cải thiện hiệu suất.

Kích thước các lớp tích chập trong mô hình được xác định dựa trên tần số lấy mẫu tín hiệu EEG là 128Hz và sự ưu tiên của các đặc trưng ở dải tần số thấp Tín hiệu EEG của 105 đối tượng đã được căn chỉnh để đảm bảo tính chính xác trong quá trình phân tích.

Trước khi được áp dụng cho huấn luyện và đánh giá, EA được sử dụng để xử lý dữ liệu Mô hình EEG-ITNet sử dụng phương pháp tiền xử lý EA kết hợp với mạng nơ-ron tích chập Tên các mô hình được đặt dựa trên các phương pháp căn chỉnh dữ liệu đã áp dụng và mô hình học sâu tương ứng.

(a) Trước khi áp dụng EA (b) Sau khi áp dụng EA

Hình 4.3: Biểu diễn tín hiệu EEG của các đối tượng trên không gian Riemannian Mani- fold của bộ dữ liệu Physionet MMIDB (tSNE)

Hình 4.3a minh họa dữ liệu của 10 đối tượng trong không gian Riemannian Manifold, với các điểm trong mỗi vòng tròn đại diện cho cùng một đối tượng Sau khi thực hiện căn chỉnh dữ liệu bằng phương pháp EA, các điểm biểu diễn tín hiệu EEG đã được tập trung lại, thay vì phân tán theo từng đối tượng khác nhau.

Bảng 4.2: Độ chính xác trung bình trên bộ dữ liệu Physionet MMIDB

[15] [EA] EEGNet 8,4 ∗ [EA] EEG-ITNet ∗

∗ độ chính xác trung bình được tính bằng BAC trên từng đối tượng

Hình 4.4: Ma trận lỗi trung bình của mô hình [EA] EEG-ITNet trên bộ dữ liệu Physionet MMIDB

3 Bộ dữ liệu HMI EEG-ET

Giới thiệu

Bộ dữ liệu HMI EEG-ET bao gồm tín hiệu EEG và tín hiệu chuyển động mắt (Eye-tracking - ET), phục vụ cho việc phát triển hệ thống đánh vần nhằm cải thiện khả năng giao tiếp cho những người bị tổn thương chức năng vận động Hiện tại, bộ dữ liệu này chứa thông tin của 90 đối tượng khỏe mạnh với độ tuổi trung bình 26.0 và 5 bệnh nhân mắc bệnh xơ cứng teo cơ một bên ALS, có độ tuổi trung bình 48.0 Dữ liệu EEG trong bộ dữ liệu này rất phong phú và đa dạng.

Ba tác vụ chính trong nghiên cứu này bao gồm tưởng tượng ảnh vận động, tưởng tượng và thực hiện vận động, cùng với việc sử dụng hệ thống đánh vần bằng mắt để nhập nội dung Trong quá trình tưởng tượng ảnh vận động, đối tượng sẽ nhắm mắt Tín hiệu EEG được thu thập bằng thiết bị Emotiv EPOC Flex 1 với 32 kênh theo chuẩn Standard 10-20 và tần số lấy mẫu 128Hz Mỗi phiên thu thập dữ liệu bao gồm 9 kịch bản, trong đó có 7 loại vận động và chuyển động các bộ phận cơ thể.

2 loại ý định) và được thực hiện lần lượt trong cùng một phiên thu.

So với các bộ dữ liệu mở khác về tín hiệu EEG như Physionet MMIDB và BCI competition IV - 2a, bộ dữ liệu HMI EEG-ET có thời gian thực hiện mỗi lần thử không xác định trước, kéo dài từ 4 đến 20 giây và số lần thử cho mỗi loại vận động trong một phiên thu là 3 lần, được thực hiện liên tiếp trước khi chuyển kịch bản thu Hình 4.5 minh họa quy trình thu dữ liệu của một kịch bản trong phiên thu Đối với bệnh nhân ALS, các phiên thu dữ liệu sẽ không bao gồm.

1 https://www.emotiv.com/epoc-flex/ tác vụ “tưởng tượng và thực hiện vận động”.

Hình 4.5: Quy trình thu dữ liệu một kịch bản trong phiên thu của bộ dữ liệu HMI EEG- ET

Trong bộ dữ liệu HMI EEG-ET, mỗi đối tượng bình thường chỉ có một phiên thu duy nhất, trong khi các bệnh nhân ALS có thể có tối đa 10 phiên thu Tuy nhiên, thời gian giữa hai phiên thu liên tiếp của cùng một bệnh nhân ALS thường khá lớn, khoảng 6 đến 7 ngày.

Trong nghiên cứu này, luận văn sử dụng tín hiệu EEG từ tác vụ "tưởng tượng vận động" và các đoạn tín hiệu "nghỉ" để phân tích 4 kịch bản: nâng tay trái, nâng tay phải, nâng chân trái và nâng chân phải Mô hình học sâu CNN được huấn luyện để phân biệt 3 nhãn (nâng tay trái, nâng tay phải và nghỉ) và 4 nhãn (nâng tay trái, nâng tay phải, nâng chân trái/phải và nghỉ) Dữ liệu từ hai kịch bản nâng chân trái và nâng chân phải được gộp lại do sự khó khăn trong việc phân biệt bên trái và bên phải Nghiên cứu cũng so sánh khả năng tưởng tượng ảnh vận động giữa các đối tượng khỏe mạnh và bệnh nhân ALS.

Phương pháp đánh giá

Phương thức đánh giá trong nghiên cứu này sử dụng dữ liệu từ nhiều đối tượng để huấn luyện và dự đoán cho những đối tượng mới (cross-subject) Các thông số đánh giá được tính toán dựa trên giá trị trung bình từ các lần kiểm định chéo (cross-validation) giữa các đối tượng và các phiên thu của cùng một bệnh nhân ALS Luận văn tập trung vào khả năng sử dụng dữ liệu từ các phiên thu và đối tượng khác nhau, đặc biệt là việc áp dụng dữ liệu của đối tượng khỏe mạnh để huấn luyện mô hình học sâu cho bệnh nhân ALS.

Luận văn thực hiện ba thực nghiệm với bộ dữ liệu HMI EEG-ET:

Thực nghiệm Exp0 tập trung vào việc huấn luyện và đánh giá mô hình bằng cách sử dụng dữ liệu từ các đối tượng khỏe mạnh Luận văn cũng tiến hành so sánh hiệu quả của mô hình học sâu thông qua việc sử dụng ba vùng điện cực riêng biệt, nhằm phân tích sự khác biệt trong hiệu suất của mô hình với các vùng điện cực khác nhau.

Hình 4.6: Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp0

Trong thực nghiệm Exp1, chúng tôi đã tiến hành huấn luyện mô hình bằng cách sử dụng dữ liệu từ các đối tượng khỏe mạnh Sau đó, mô hình được đánh giá dựa trên dữ liệu thu thập từ các phiên của bệnh nhân ALS.

Hình 4.7: Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp1

Trong thực nghiệm Exp2, mô hình được huấn luyện bằng cách sử dụng dữ liệu từ các đối tượng khỏe mạnh kết hợp với dữ liệu thu thập từ bệnh nhân ALS Phương pháp căn chỉnh dữ liệu LA được áp dụng với nhãn từ 9/10 phiên thu của cùng một bệnh nhân ALS, và sau đó mô hình được đánh giá trên phiên thu còn lại Luận văn cũng tiến hành so sánh hiệu suất giữa mô hình học sâu và mô hình học máy SVM khi thực hiện huấn luyện và đánh giá trên dữ liệu của từng bệnh nhân ALS.

Hình 4.8: Phân chia dữ liệu huấn luyện/đánh giá trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp2

Kết quả thực nghiệm

Trong các thực nghiệm Exp0, Exp1 và Exp2, luận văn sử dụng tín hiệu EEG từ bộ dữ liệu HMI EEG-ET với 28/32 kênh, mỗi đoạn tín hiệu dài 2 giây, cách nhau 0.5 giây và có tỉ lệ chồng lấn 75% Tín hiệu EEG được lọc trong khoảng tần số 8 - 30Hz, bao gồm hai dải tần số chính của MI là Mu/Alpha (8-12Hz) và Beta (12-30Hz).

Mô hình CNN được áp dụng trong nghiên cứu bao gồm EEGNet với các tham số (K, n, d) = (64, 8, 4) cho hai lớp tích chập đầu tiên, như thể hiện trong hình 3.4, và EEG-ITNet với các tham số (K, n, d) = {(16, 2, 2), (32, 4, 2), (64, 8, 2)} cùng với 3 lớp tích chập phần dư (Residual block) trong TCN với K = 4, theo hình 3.5 Kích thước của các lớp tích chập được xác định dựa trên tần số lấy mẫu của tín hiệu EEG là 128Hz và sự ưu tiên cho các đặc trưng ở dải tần số thấp của tín hiệu.

Mô hình được huấn luyện với 50 epochs, sử dụng thuật toán tối ưuAdam (lr = 3e − 4),

Trong nghiên cứu này, chúng tôi áp dụng phương pháp Dropout với xác suất p = 0.25 và p = 0.2, như được thể hiện trong hình 3.5 Các mô hình được đặt tên dựa trên các phương pháp căn chỉnh dữ liệu đã được áp dụng theo thứ tự, nếu có, cùng với mô hình học sâu tương ứng.

Trong thực nghiệm Exp0, nghiên cứu đã sử dụng dữ liệu từ 85 đối tượng khỏe mạnh để huấn luyện mô hình và tiến hành đánh giá trên 5 đối tượng còn lại Tín hiệu EEG của 90 đối tượng được căn chỉnh bằng phương pháp EA trước khi sử dụng Kết quả từ mô hình CNN được so sánh với mô hình học máy CSP-BP-SVM trong hai trường hợp: có và không có sử dụng EA.

Bảng 4.3: Kết quả phân loại trung bình trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp0

CSP-BP-SVM [EA] CSP-BP-SVM [EA] EEGNet 8,4 [EA] EEG-ITNet

BAC Kappa BAC Kappa BAC Kappa BAC Kappa

Hình 4.9: Ma trận lỗi trung bình của mô hình [EA] EEG-ITNet trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp0

Hình 4.10: Các mẫu không gian của tín hiệu EEG được học từ mô hình [EA] EEG-ITNet

Mô hình học sâu CNN trong thực nghiệm Exp0 cho thấy khả năng phân biệt rõ rệt giữa các trạng thái tưởng tượng ảnh vận động của đối tượng khỏe mạnh, đặc biệt là giữa trạng thái nghỉ và các trạng thái tưởng tượng Kết quả này có thể liên quan đến thiết kế thí nghiệm và cách thu thập dữ liệu trong bộ dữ liệu HMI EEG-ET, khi các đối tượng nhắm mắt trong quá trình tưởng tượng Sự nhắm mắt dẫn đến sự xuất hiện rõ ràng của nhịp sóng Alpha (8 - 12Hz) trong tín hiệu EEG, đặc biệt ở vùng thùy đỉnh và thùy chẩm, so với trạng thái nghỉ ngơi khi mở mắt.

Hình 4.11: Mật độ phổ năng lượng của tín hiệu EEG (8 - 30Hz)

Luận văn đã so sánh hiệu quả của mô hình CNN với các nhóm kênh khác nhau trong 32 kênh tín hiệu EEG Kết quả cho thấy rằng mô hình CNN đạt hiệu suất tối ưu khi sử dụng toàn bộ các kênh của tín hiệu EEG.

(a) Toàn bộ các vùng trên vỏ não

(28 kênh) (b) Vùng thùy trán và vùng vận động

Hình 4.12: Vị trí các nhóm điện cực của bộ dữ liệu HMI EEG-ET

Bảng 4.4: Kết quả phân loại trung bình của mô hình học sâu với các nhóm kênh trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp0

Toàn bộ các vùng trên vỏ não

Vùng thùy trán và vùng vận động C3, Cz, C4

BAC Kappa BAC Kappa BAC Kappa

Trong thực nghiệm Exp2, luận văn đã sử dụng dữ liệu từ 90 đối tượng khỏe mạnh để huấn luyện mô hình và đánh giá trên từng phiên thu của các bệnh nhân ALS Kết quả phân loại của mô hình được tính bằng cách lấy trung bình tất cả các phiên thu của từng bệnh nhân ALS Trước khi sử dụng, tín hiệu EEG của 90 đối tượng khỏe mạnh và các phiên thu của 4 bệnh nhân ALS đã được căn chỉnh bằng EA.

Bảng 4.5: Kết quả phân loại trung bình của mô hình [EA] EEG-ITNet trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp1

ALS01 ALS02 ALS04 ALS05 ALS ∗

BAC Kappa BAC Kappa BAC Kappa BAC Kappa BAC Kappa

∗ trung bình tính theo phiên thu của tất cả bệnh nhân ALS

Luận văn sử dụng dữ liệu từ 90 đối tượng khỏe mạnh để huấn luyện mô hình và đánh giá trên từng phiên thu của bệnh nhân ALS Đối với mỗi bệnh nhân, dữ liệu từ một phiên thu được sử dụng để đánh giá, trong khi dữ liệu từ 90 đối tượng khỏe mạnh được căn chỉnh bằng phương pháp LA với nhãn từ 9/10 phiên thu còn lại của cùng bệnh nhân Sau đó, dữ liệu từ tất cả các phiên thu của bệnh nhân ALS và dữ liệu từ 90 đối tượng khỏe mạnh (đã được căn chỉnh bằng LA) sẽ được căn chỉnh bằng phương pháp EA trước khi sử dụng Quá trình tiền xử lý dữ liệu tín hiệu EEG bao gồm các bước LA và EA.

Bảng 4.6: Kết quả phân loại trung bình của mô hình [LA,EA] EEG-ITNet trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp2

ALS01 ALS02 ALS04 ALS05 ALS ∗

BAC Kappa BAC Kappa BAC Kappa BAC Kappa BAC Kappa

∗ trung bình tính theo phiên thu của tất cả bệnh nhân ALS

Để so sánh kết quả của mô hình CNN, luận văn đã áp dụng mô hình CSP-BP-SVM được huấn luyện và đánh giá trên từng phiên thu của bệnh nhân ALS, mà không sử dụng dữ liệu từ các đối tượng khỏe mạnh (thực nghiệm Exp2-ALS).

Bảng 4.7: Kết quả phân loại trung bình của mô hình [EA] CSP-BP-SVM trên bộ dữ liệu HMI EEG-ET trong thực nghiệm Exp2-ALS

ALS01 ALS02 ALS04 ALS05 ALS ∗

BAC Kappa BAC Kappa BAC Kappa BAC Kappa BAC Kappa

∗ trung bình tính theo phiên thu của tất cả bệnh nhân ALS

Hình 4.13: So sánh kết quả thực nghiệm Exp1, Exp2 và Exp2-ALS

Kết quả từ các thực nghiệm Exp1 và Exp2 cho thấy, việc sử dụng dữ liệu từ các đối tượng khỏe mạnh được điều chỉnh theo một phần dữ liệu từ bệnh nhân ALS mang lại hiệu quả tốt hơn so với việc chỉ sử dụng dữ liệu từ các đối tượng khỏe mạnh để huấn luyện mô hình phân loại Điều này được thể hiện rõ trong hầu hết các thử nghiệm, ngoại trừ trường hợp của bệnh nhân ALS05 trong phân loại LR0.

Kết quả từ thực nghiệm Exp0 và Exp2-ALS cho thấy bệnh nhân ALS có khả năng tưởng tượng ảnh vận động kém hơn so với nhóm đối tượng khỏe mạnh, với sự phân loại trung bình theo phiên thu không phân biệt đối tượng Tuy nhiên, sự khác biệt này có thể do chênh lệch độ tuổi, khi hầu hết đối tượng khỏe mạnh nằm trong độ tuổi 19-20 Trong số 4 bệnh nhân ALS tham gia thí nghiệm, bệnh nhân ALS01 đạt kết quả phân loại tốt nhất với nhiều phương pháp khác nhau.

Mô hình [EA] CSP-BP-SVM đã được áp dụng để phân loại trung bình trên bộ dữ liệu HMI EEG-ET, cho thấy sự khác biệt rõ rệt giữa đối tượng khỏe mạnh và bệnh nhân ALS, với kết quả được phân tích theo từng phiên thu.

ALS Đối tượng khỏe mạnh

Các thí nghiệm trên bộ dữ liệu HMI EEG-ET cho thấy rằng các phương pháp căn chỉnh tín hiệu điện não EEG như EA và LA đã cải thiện độ chính xác của các mô hình phân loại Việc sử dụng dữ liệu từ nhiều phiên thu và đối tượng khác nhau giúp khắc phục hạn chế về dữ liệu của từng đối tượng Tuy nhiên, mô hình học sâu CNN lại có độ chính xác thấp hơn so với mô hình học máy CSP-PB-SVM, nguyên nhân có thể do số lượng dữ liệu cho mỗi phiên thu và đối tượng còn rất hạn chế (chỉ 3 lần thử liên tục mỗi phiên thu), dẫn đến các đặc trưng tín hiệu EEG học được từ mô hình CNN không đủ tính tổng quát.

Chương này tóm tắt các kết luận chính của luận văn dựa trên kết quả thực nghiệm, đồng thời nêu rõ những hạn chế hiện tại và đề xuất các hướng phát triển tiềm năng cho nghiên cứu trong tương lai.

Bài luận văn đã phát triển và kiểm tra mô hình học sâu, kết hợp phương pháp căn chỉnh dữ liệu cho tín hiệu EEG nhằm phân loại tín hiệu điện não trong tác vụ tưởng tượng hình ảnh vận động Kết quả thực nghiệm cho thấy các mô hình học sâu có tiềm năng ứng dụng trong hệ thống đánh vần, khi kết hợp với hệ thống theo dõi ánh mắt, có thể nâng cao khả năng nhập liệu hiệu quả.

Ngày đăng: 05/10/2022, 09:16

HÌNH ẢNH LIÊN QUAN

DANH MỤC CÁC BẢNG - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
DANH MỤC CÁC BẢNG (Trang 9)
Hình 1.1: Hệ thống nhập liệu sử dụng tín hiệu điện não (thực hiện /tưởng tượng ảnh vận động) và theo dõi ánh mắt [1] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 1.1 Hệ thống nhập liệu sử dụng tín hiệu điện não (thực hiện /tưởng tượng ảnh vận động) và theo dõi ánh mắt [1] (Trang 13)
Hình 2.1: Tổng quan hệ thống BCI [Nguồn: how2electronics] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.1 Tổng quan hệ thống BCI [Nguồn: how2electronics] (Trang 17)
Hình 2.2: Tín hiệu điện não EEG - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.2 Tín hiệu điện não EEG (Trang 18)
Hình 2.4: Vị trí đặt các điện cực theo chuẩn Standard 10-10 [Nguồn: Wikipedia] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.4 Vị trí đặt các điện cực theo chuẩn Standard 10-10 [Nguồn: Wikipedia] (Trang 19)
Hình 2.3: Vị trí các thùy trên vỏ não [1] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.3 Vị trí các thùy trên vỏ não [1] (Trang 19)
Bảng 2.1 mô tả khái quát đặc điểm và trạng thái xuất hiện các nhịp sóng chính của tín hiệu EEG. - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Bảng 2.1 mô tả khái quát đặc điểm và trạng thái xuất hiện các nhịp sóng chính của tín hiệu EEG (Trang 20)
Hình 2.5: Vị trí các vùng trên vỏ não vận động [3] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.5 Vị trí các vùng trên vỏ não vận động [3] (Trang 22)
Hình 2.6: ERD và ERS của nhịp sóng Mu (Alpha) và Beta tại hai điện cực C3 và C4 [5] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.6 ERD và ERS của nhịp sóng Mu (Alpha) và Beta tại hai điện cực C3 và C4 [5] (Trang 23)
Hình 2.7: Biểu diễn khơng gian Riemannian Manifold (RM) của ma trận đối xứng xác định dương (SPD) [12] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 2.7 Biểu diễn khơng gian Riemannian Manifold (RM) của ma trận đối xứng xác định dương (SPD) [12] (Trang 24)
Hình 3.1: Phân tách tín hiệu EEG [Nguồn: braindecode] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 3.1 Phân tách tín hiệu EEG [Nguồn: braindecode] (Trang 28)
- Bước 4: Xây dựng, huấn luyện mơ hình học sâu phân lớp: xây dựng, huấn luyện và đánh giá các mơ hình học sâu (CNN) phân loại tín hiệu EEG của tác vụ tưởng tượng ảnh vận động: EEGNet, EEG-ITNet, - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
c 4: Xây dựng, huấn luyện mơ hình học sâu phân lớp: xây dựng, huấn luyện và đánh giá các mơ hình học sâu (CNN) phân loại tín hiệu EEG của tác vụ tưởng tượng ảnh vận động: EEGNet, EEG-ITNet, (Trang 28)
Hình 3.3 mơ tả khái qt các bước thực hiện hai phương pháp căn chỉnh dữ liệu EA, LA. Các điểm trong hình vẽ biểu diễn ma trận hiệp phương sai của các đoạn tín hiệu EEG trên khơng gian RM. - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 3.3 mơ tả khái qt các bước thực hiện hai phương pháp căn chỉnh dữ liệu EA, LA. Các điểm trong hình vẽ biểu diễn ma trận hiệp phương sai của các đoạn tín hiệu EEG trên khơng gian RM (Trang 31)
Hình 3.3: Phương pháp căn chỉnh dữ liệu EA - LA với tín hiệu EEG [18] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 3.3 Phương pháp căn chỉnh dữ liệu EA - LA với tín hiệu EEG [18] (Trang 32)
Hình 3.4: Kiến trúc mạng EEGNet [14] - Phân loại tín hiệu điện não dựa trên học sâu hướng đến xây dựng hệ thống đánh vần bằng mắt
Hình 3.4 Kiến trúc mạng EEGNet [14] (Trang 33)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w