- Tìm hiểu và áp dụng phương pháp phân tích cụm thuộc lĩnh vực trí tuệ nhân tạo để xử lí vấn đề nhiễu nhãn trong các nghiên cứu về trạng thái thần kinh sử dụng tín hiệu điện não.. Trong
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TƯỞNG MINH QUỐC
NGHIÊN CỨU XÁC THỰC NHÃN CHO TÍN HIỆU ĐIỆN NÃO ĐỒ TRONG PHÂN TÍCH TRẠNG THÁI THẦN KINH
BẰNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO
Chuyên ngành: Vật Lý Kỹ Thuật
Mã số: 8520401
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 7 năm 2023
Trang 2Công trình được hoàn thành tại: Trường đại học bách khoa –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS.TS HUỲNH QUANG LINH
Cán bộ hướng dẫn khoa học: ThS LÊ QUỐC KHẢI
Cán bộ chấm nhận xét 1: TS HOÀNG MẠNH HÀ
Cán bộ chấm nhận xét 2: TS LÝ ANH TÚ
5 ỦY VIÊN: TS NGUYỄN TRƯỜNG THANH HẢI
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: TƯỞNG MINH QUỐC MSHV: 2070633
Ngày, tháng, năm sinh: 26/02/1998 Nơi sinh: Vĩnh Long
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu ảnh hưởng của nhiễu nhãn với các nghiên cứu về điện não, đặc biệt
là các nghiên cứu về trạng thái thần kinh và các phương pháp để xử lí
- Tìm hiểu và áp dụng phương pháp phân tích cụm thuộc lĩnh vực trí tuệ nhân tạo để xử lí vấn đề nhiễu nhãn trong các nghiên cứu về trạng thái thần kinh sử dụng tín hiệu điện não
- Lựa chọn dữ liệu mẫu hoặc mô phỏng và kết hợp trên dữ liệu đo thực nghiệm
để đánh giá phương pháp trên nhiều phương diện
- Phân tích, so sánh, đánh giá kết quả
III NGÀY GIAO NHIỆM VỤ : 25/02/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023
V CÁN BỘ HƯỚNG DẪN : PGS.TS HUỲNH QUANG LINH
ThS LÊ QUỐC KHẢI
PGS TS Huỳnh Quang Linh ThS Lê Quốc Khải PGS TS Huỳnh Quang Linh
TRƯỞNG KHOA KHOA HỌC ỨNG DỤNG
(Họ tên và chữ ký) ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc
Trang 4LỜI CẢM ƠN
Trong suốt quá trình học tập và hoàn thành luận văn thạc sĩ, tôi đã nhận được
sự ủng hộ và giúp đỡ từ gia đình, thầy cô, bạn bè
Tôi xin cảm ơn quý thầy cô của Khoa Khoa học Ứng dụng - Trường Đại học Bách Khoa Tp.HCM đã tạo nhiều điều kiện cho em học tập và đưa ra nhiều góp ý cho em trong quá trình thực hiện luận văn
Tôi xin gửi lời cảm ơn chân thành đến PGS.TS Huỳnh Quang Linh và ThS Lê Quốc Khải là hai giảng viên đã hướng dẫn luận văn này Cảm ơn hai thầy đã tận hình hướng dẫn những kiến thức bổ ích và những kinh nghiệm quý báu về chuyên môn để
em có thể thực nghiệm và hoàn thành luận văn
Tôi xin chân thành cảm ơn thầy Th.S Lê Cao Đăng đã tạo điều kiện thuận lợi
để tôi có thể tham gia thí nghiệm tại phòng thí nghiệm 204B4
Tôi xin cảm ơn thầy TS Nguyễn Trung Hậu đã cho tôi những góp ý và bình luận để tôi có thể hoàn thiện hơn cho nghiên cứu trong luận văn này
Ngoài ra, tôi cũng xin cảm ơn đến các bạn sinh viên đã động viên, giúp đỡ trong quá trình làm luận văn Xin cảm ơn đến các anh chị em, bạn bè đã đồng ý tham gia
và thực nghiệm đo trong luận văn
Và cuối cùng, tôi xin cảm ơn gia đình tôi đã luôn ủng hộ, quan tâm và tạo điều kiện để tôi có thể hoàn thành luận văn này
Xin chân thành cảm ơn!
TP Hồ Chí Minh, tháng 7 năm 2023
Học viên thực hiện
Tưởng Minh Quốc
Trang 5TÓM TẮT
Nhiễu nhãn (label noise) trong lĩnh vực học máy và xử lí dữ liệu là một vấn đề gây ảnh hưởng xấu tới quá trình phân tích, xử lý dữ liệu hoặc huấn luyện các mô hình phân loại nhưng lại không được chú ý nhiều như nhiễu thuộc tính Dó đó, các phương pháp xử lí nhiễu nhãn khá ít, đặc biệt là với riêng lĩnh vực xử lí tín hiệu điện não (EEG) Đề tài này nhằm mục đích xác thực nhãn cho tín hiệu EEG để giảm tối đa tác động xấu của nhiễu nhãn lên dữ liệu phổ mật độ công suất (PSD) của EEG cũng như tăng hiệu quả cho các bước tiếp theo Phương pháp xử lí nhiễu nhãn được đề xuất trong đề tài này là dựa trên phương pháp phân tích cụm (Cluster Analysis) thường được áp dụng trong lĩnh vực trí tuệ nhân tạo Quy trình được đề xuất là sự kết hợp giữa dữ liệu đã nhúng với các thuật toán phân cụm để tìm ra các nhiễu nhãn là các mẫu dữ liệu có nhãn bất đồng nhất với cụm của nó Đề tài này sử dụng các phương pháp t-SNE, UMAP và nlPCA cho bước nhúng, và sau đó sử dụng các phương pháp KNN, GMM và DBSCAN cho bước phân cụm Kết quả cho thấy hiệu suất phát hiện được 86,6% nhiễu nhãn và chỉ nhận nhầm khoảng 4% nhãn sạch Kết quả phân loại bằng SVM với kernel RBF còn cho thấy việc xử lí nhiễu nhãn giúp hiệu suất phân loại tăng cao hơn, độ chính xác trung bình tăng từ 73,9% lên 86,9% và AUC từ 0,79 lên 0,93 so với nhãn gốc Bên cạnh đó, các kết quả trong xác thực chéo 10-folds của
mô hình học trên tập dữ liệu sau khi xử lí nhãn cũng ổn định hơn hẳn cho thấy việc
xử lí nhiễu nhãn giúp tăng hiệu suất mô hình mà lại không bị chưa khớp hay quá khớp Ngoài ra, một phương pháp giả lập dữ liệu mới và chỉ số FPS dùng cho việc đánh giả hiệu quả phân cụm cũng được đề xuất trong đề tài này
Trang 6ABSTRACT
Label noise presents a significant challenge in machine learning and data processing, as it can have a detrimental impact on data analysis, processing, and the training of classification models However, compared to attribute noise, label noise has received less attention, resulting in relatively limited methods for handling it, particularly in the field of electroencephalogram (EEG) signal processing This thesis aims to address this issue by detecting and managing label noise in order to validate the EEG labels to minimize negative effects of label noise on EEG data and improve the subsequent analysis The proposed method for label-noise processing, based on Cluster Analysis, combines embedded data with clustering algorithms that usually be used in the field of Artificial Intelligence to identify label noise Label noise refers to data samples that have inconsistent labels within their respective clusters In this thesis, the t-SNE, UMAP, and nlPCA methods are utilized for embedding the data, while the KNN, GMM, and DBSCAN methods are used for clustering The results of this research demonstrate an 86.6% detection rate for label noise, with a mere 4% misclassification rate for clean labels The classification results using SVM with RBF kernel also demonstrate that label noise handling contributes to improved classification performance The accuracy increased from 73.9% to 86.9% and the AUC increased from 0.79 to 0.93 compared to the original labels Besides, results during 10-fold cross-validation are also more stable on the data set with processed labels showing that this procedure helps improve the performance of the model and still ensures no underfitting or overfitting happens Moreover, a novel data simulation method and the FPS index, which evaluates clustering effectiveness, are also proposed in this work
Trang 7LỜI CAM ĐOAN
Học viên xin cam đoan những kết quả có được trong đề tài là do bản thân học viên thực hiện Ngoài phần tài liệu tham khảo đã được liệt kê, các số liệu và kết quả thực nghiệm là trung thực và chưa được công bố trong bất cứ công trình khoa học nào của các tác giả khác
TP Hồ Chí Minh, tháng 7 năm 2023
Học viên thực hiện
Tưởng Minh Quốc
Trang 8MỤC LỤC
NHIỆM VỤ LUẬN VĂN THẠC SĨ I LỜI CẢM ƠN II TÓM TẮT III ABSTRACT IV LỜI CAM ĐOAN V MỤC LỤC VI DANH SÁCH HÌNH ẢNH IX DANH SÁCH BẢNG XII DANH SÁCH TỪ VIẾT TẮT XIII
MỞ ĐẦU 1
Lý do chọn đề tài 1
Mục đích của đề tài 2
Đối tượng và phạm vi nghiên cứu 3
1.3.1 Mô tả dữ liệu nghiên cứu 3
1.3.2 Phạm vi nghiên cứu cho bộ dữ liệu thực nghiệm: 3
Ý nghĩa khoa học của đề tài 3
Ý nghĩa thực tiễn của đề tài 5
Các nghiên cứu có liên quan 5
TỔNG QUAN 10
Tín hiệu điện não (EEG) 10
2.1.1 Sơ lược về EEG 10
1.1.1 Nguồn gốc sinh học của tính hiệu EEG 11
1.1.2 Sơ đồ hệ thống đặt điện cực trong EEG 12
1.1.3 Kênh và đạo trình sử dụng trong EEG 14
1.1.4 Các vùng tần số của tín hiệu EEG 14
Nghiên cứu trạng thái thần kinh sử dụng tín hiệu điện não 16
2.2.1 Nghiên cứu não bộ ở các trạng thái thần kinh 16
2.2.2 Đặc điểm của dữ liệu EEG trong các nghiên cứu về trạng thái thần kinh 17
Nhiễu nhãn 18
2.3.1 Khái niệm về nhiễu nhãn 18
2.3.2 Tác hại của nhiễu nhãn 20
Trang 92.3.3 Phân loại nhiễu nhãn 22
2.3.4 Các phương thức tiếp cận khi đối phó với nhiễu nhãn 23
Tổng quan về phân tích cụm 25
2.4.1 Khái niệm về cụm dữ liệu 25
2.4.2 Khái niệm về phân tích cụm 26
2.4.3 Nhúng dữ liệu khi phân cụm 27
2.4.4 Phân cụm dữ liệu 29
2.4.5 Chỉ số đánh giá sự phân cụm 32
Phân tích cụm trong dữ liệu y sinh và điện não 34
2.5.1 Tổng quan các nghiên cứu có liên quan trong y sinh 34
2.5.2 Các nghiên cứu có liên quan tới phân tích cụm trong lĩnh vực xử lý tín hiệu điện não 35
Khoảng trống nghiên cứu 37
PHƯƠNG PHÁP NGHIÊN CỨU 39
Mô tả chung về quy trình đề xuất trong nghiên cứu này 39
Mô tả dữ liệu sử dụng trong nghiên cứu 40
3.2.1 Dữ liệu thực nghiệm 40
3.2.2 Dữ liệu giả lập 45
Các phương pháp nhúng dữ liệu 48
3.3.1 Phương pháp t-SNE 48
3.3.2 Phương pháp UMAP 52
3.3.3 Phương pháp nlPCA 56
Các phương pháp phân cụm dữ liệu 59
3.4.1 Phương pháp KNN – K Nearest Neighbors 59
3.4.2 Phương pháp GMM 62
3.4.3 Phương pháp DBSCAN 65
Các chỉ số đánh giá hiệu quả trong quy trình 68
3.5.1 Chỉ số Silhouette 68
3.5.2 Chỉ số Purity 70
3.5.3 Chỉ số FPS (FPS score) 72
Trang 103.5.4 Ma trận nhầm lẫn (Confusion Matrix) 74
Đường cong ROC 76
Xác thực chéo (Cross Validation) 78
Mô hình Máy vector hỗ trợ SVM (Support Vector Machine) 80
3.8.1 Mô tả chung về SVM 80
3.8.2 Thuật toán của SVM 82
3.8.3 Hàm “fitcsvm” trong phần mềm MATLAB 83
KẾT QUẢ VÀ BÀN LUẬN 84
Dữ liệu thực nghiệm và dữ liệu giả lập 84
4.1.1 Dữ liệu thực nghiệm 84
4.1.2 Dữ liệu giả lập 87
Kết quả thêm nhiễu vào dữ liệu giả lập 88
Quá trình chạy dò tham số tối ưu cho t-SNE và UMAP 89
Sự phân bố dữ liệu theo các thuộc tính khi vẽ trên dữ liệu đã nhúng 95
Quá trình chạy tính ra FPS cho KNN, GMM và DBSCAN 98
Đối chiếu FPS với các thông số tính được từ ma trận nhầm lẫn 106
Đánh giá hiệu quả phát hiện nhiễu nhãn 110
Kết quả xử lí các nhiễu nhãn 113
So sánh kết quả của quy trình đã chọn với phương pháp lọc outliers 115
Áp dụng quy trình đề xuất trên dữ liệu thực 117
4.10.1.Nhúng dữ liệu 117
4.10.2.Phân cụm dữ liệu và phát hiện nhiễu nhãn 120
4.10.3.So sánh hiệu suất phân loại trước và sau khi lọc nhiễu nhãn 122
Bàn luận 126
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 128
Kết luận 128
Hướng phát triển của đề tài 129
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 130
TÀI LIỆU THAM KHẢO 164
LÝ LỊCH TRÍCH NGANG 170
Trang 11DANH SÁCH HÌNH ẢNH
Hình 2.1 Bản ghi EEG đầu tiên được công bố của Hans Berger[14] 10
Hình 2.2 Một epoch 30s của một bản ghi EEG hiện đại ngày nay [15] 11
Hình 2.3 Minh họa nguồn gốc của tín hiệu EEG Việt hóa từ [16] 12
Hình 2.4 Sơ đồ hệ thống đặt điện cực EEG 10-20 [18] (a) Nhìn từ trái qua (b) Nhìn từ trên xuống 13
Hình 2.5 Hình dạng các vùng sóng EEG cơ bản [17] 15
Hình 2.6 Minh họa cho nhiễu nhãn và nhiễu thuộc tính qua các trường hợp gặp phải ghi nhận dạng cho “con bọ rùa” hay trong tiếng anh là“Lady bug” 20
Hình 2.7 Sơ đồ phân loại các chỉ số phân cụm Vẽ lại theo [36] 34
Hình 3.1 Sơ đồ tổng quan quy trình đề xuất của nghiên cứu 39
Hình 3.2 Bố trí thí nghiệm cho bộ dữ liệu thực nghiệm [1] 43
Hình 3.3 Quy trình thí nghiệm thu dữ liệu thực nghiệm 43
Hình 3.4 Ví dụ minh họa cho kích thích bằng hiệu ứng MIB [1] 45
Hình 3.5 Quy trình giả lập dữ liệu theo tham chiếu 46
Hình 3.6 Minh họa t-SNE so với các phương pháp khác khi áp dụng cho 6000 mẫu dữ liệu từ bộ dữ liệu chữ viết tay MNIST bới [47] 50
Hình 3.7 Áp dụng t-SNE, UMAP, TriMap và PaCMAP vào bộ dữ liệu MNIST với số điểm lân cận lần lượt là 10, 20 và 40 [52] 53
Hình 3.8 Ví dụ so sánh giữa PCA truyền thống với nlPCA 56
Hình 3.9 Cấu trúc chung của kiểu mạng Autoencoder [58] 57
Hình 3.10 Mô tả KNN với K lần lượt là 1, 3 và 5 61
Hình 3.11 Mô tả GMM với 4 phân phối con để mô tả lại dữ liệu Hình vẽ từ [62] 63 Hình 3.12 Mô phân cụm bằng DBSCAN Vẽ lại từ [65] 66
Hình 3.13 Minh họa chỉ số Silhouette 70
Hình 3.14 Minh họa cách tính cho chỉ số Purity 71
Hình 3.15 Minh họa hiệu quả của chỉ số FPS với hai trường hợp phân cụm 74
Hình 3.16 Minh họa ma trận nhầm lẫn và các chỉ số từ ma trận nhầm lẫn 75
Hình 3.17 Minh họa đường cong ROC và diện tích dưới đường cong AUC 78
Trang 12Hình 3.18 Mô tả xác thực chéo loại K-folds 79
Hình 3.19 Minh họa SVM với kernel đa thức [71] 81
Hình 4.1 Sự phân bố dữ liệu theo các thuộc tính khác nhau của dữ liệu thực 85
Hình 4.2 Phân bố dữ liệu theo các thuộc tính khác nhau của dữ liệu giả lập 87
Hình 4.3 Kết quả thêm nhiễu nhãn cho dữ liệu giả lập 89
Hình 4.4 Quá trình và kết quả chạy dò tham số “Perplexity” tối ưu cho t-SNE 90
Hình 4.5 Kết quả chạy dò “n_neighbors” tối ưu cho UMAP 92
Hình 4.6 Kết quả nhúng dữ liệu bằng nlPCA 93
Hình 4.7 So sánh kết quả nhúng của 3 phương pháp nlPCA, t-SNE và UMAP so với dữ liệu gốc 94
Hình 4.8 Kết quả biểu diễn dữ liệu đã nhúng bằng t-SNE theo các thuộc tính khác nhau của dữ liệu 96
Hình 4.9 Kết quả biểu diễn dữ liệu đã nhúng bằng UMAP theo các thuộc tính khác nhau của dữ liệu 97
Hình 4.10 Kết quả biểu diễn dữ liệu đã nhúng bằng nlPCA theo các thuộc tính khác nhau của dữ liệu 98
Hình 4.11.Kết quả chạy dò KNN và chỉ số FPS được chọn làm chỉ số chấm điểm của quá trình dò KNN max FPS ≈ 0,812 99
Hình 4.12 Các kết quả phân cụm theo KNN trong quá trình dò 100
Hình 4.13 Kết quả chạy dò GMM và chỉ số FPS được chọn làm chỉ số chấm điểm Score của quá trình dò Max GMM FPS ≈ 0,770 101
Hình 4.14 Các kết quả phân cụm theo GMM trong quá trình dò 102
Hình 4.15 Kết quả chạy dò DBSCAN và chỉ số FPS được chọn làm chỉ số chấm điểm Score của quá trình dò 104
Hình 4.16 Các kết quả phân cụm theo DBSCAN trong quá trình dò DBSCAN max FPS≈ 0,752 105
Hình 4.17 So sánh FPS khi chạy KNN với các chỉ số tính từ ma trận nhầm lẫn 107
Hình 4.18 So sánh FPS khi chạy GMM với các chỉ số tính từ ma trận nhầm lẫn 108
Hình 4.19 So sánh FPS khi chạy DBSCAN với các chỉ số tính được từ ma trận nhầm lẫn 109
Trang 13Hình 4.20 Kết quả phát hiện nhiễu nhãn của phương pháp KNN 110Hình 4.21 Kết quả phát hiện nhiễu nhãn của phương pháp GMM 111Hình 4.22 Kết quả phát hiện nhiễu nhãn của phương pháp DBSCAN 112Hình 4.23 Kết quả sửa nhãn cho các dữ liệu được xem là nhiễu nhãn của 3 phương pháp KNN, GMM và DBSCAN 114Hình 4.24 Kết quả cuối cùng sau khi bỏ phiếu 115Hình 4.25 So sánh lọc nhiễu nhãn bằng cách lọc Outliers so với phương pháp phân tích cụm được đề xuất trong nghiên cứu này 116Hình 4.26 Áp dụng các phương pháp nhúng lên nhãn thực 117Hình 4.27 Biễu diễn dữ liệu thực sau khi nhúng bằng t-SNE theo các thuộc tính khác nhau của dữ liệu 118Hình 4.28 Biễu diễn dữ liệu thực sau khi nhúng bằng UMAP theo các thuộc tính khác nhau của dữ liệu 118Hình 4.29 Biễu diễn dữ liệu thực sau khi nhúng bằng nlPCA theo các thuộc tính khác nhau của dữ liệu 119Hình 4.30 Kết quả phân cụm của 3 phương pháp KNN, GMM và DBSCAN lên dữ liệu thực 120Hình 4.31 Kết quả cuối cùng sau khi phát hiện và sửa nhãn cho các điểm nhiễu nhãn trên dữ liệu thực 121Hình 4.32 Kết quả xử lí nhiễu nhãn biểu diễn trên dữ liệu đã nhúng bằng nlPCA 121Hình 4.33 So sánh hiệu suất mô hình phân loại SVM trước và sau khi xử lí nhiễu nhãn trên tập train-validation của dữ liệu thực 122Hình 4.34 Đồ thị hộp so sánh hiệu suất huấn luyện mô hình trên bộ dữ liệu trước và sau khi lọc nhiễu nhãn 123Hình 4.35 So sánh hiệu suất mô hình phân loại SVM trước và sau khi xử lí nhiễu nhãn trên tập test của dữ liệu thực 125
Trang 14DANH SÁCH BẢNG
Bảng 2.1 Đặc trưng các vùng điện não cơ bản [16] 16Bảng 2.2 Tổng hợp các phương pháp đối phó với nhiễu nhãn [21] 25Bảng 2.3 So sánh các phương pháp phân cụm 31Bảng 4.1 Tổng hợp kết quả t-SNE kết hợp với ba phương pháp KNN, GMM và DBSCAN trên bộ dữ liệu giả lập 112Bảng 4.2 So sánh hiệu suất huấn luyện mô hình trên bộ dữ liệu trước và sau khi lọc nhiễu nhãn 123
Trang 15DANH SÁCH TỪ VIẾT TẮT
Trang 16LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
MỞ ĐẦU
Lý do chọn đề tài
Trong lĩnh vực học máy (machine learning), gán nhãn dữ liệu là quá trình nhận diện dữ liệu thô và dán cho nó một hoặc nhiều nhãn (label) có ý nghĩa cùng với thông tin cung cấp ngữ cảnh để mô hình học máy có thể học hỏi từ dữ liệu đó Khi đó, vấn
đề nhãn dữ liệu bị dán không phù hợp cho các mẫu nghiên cứu là một vấn đề xảy ra rất phổ biến trong nhiều lĩnh vực nghiên cứu, bao gồm cả lĩnh vực điện não Điều này
có thể là do sự mệt mỏi, thiếu kinh nghiệm hoặc thậm chí do sự khó khăn trong việc xác định đúng nhãn của dữ liệu, ví dụ như dán nhãn cho tín hiệu điện não Có nhiều thuật ngữ để mô tả sự không phù hợp của nhãn dữ liệu, trong số đó thuật ngữ “nhiễu nhãn” được sử dụng phổ biến nhất nên trong đề tài này, thuật ngữ này sẽ được chọn
để sử dụng
Nhiễu nhãn có thể gây ra sự kém hiệu quả và sai lầm không mong muốn trong kết quả phân tích, ảnh hưởng đến sự chính xác và tin cậy của các nghiên cứu Do tác động xấu của nó, đã có nhiều nghiên cứu trong việc đối phó với nhiễu nhãn Một số phương pháp phổ biến hiện nay để đối phó với nhiễu nhãn bao gồm:
- Kiểm tra và lọc dữ liệu: Phân tích và loại bỏ những điểm dữ liệu có khả năng bị nhiễu nhãn cao hoặc không đáng tin cậy
- Sử dụng mô hình học máy chống nhiễu: Phát triển mô hình học máy đặc biệt để phát hiện và giảm thiểu tác động của nhiễu nhãn
- Sử dụng phương pháp học bán giám sát: Kết hợp cả dữ liệu có nhãn đúng và dữ liệu có nhiễu nhãn để đào tạo mô hình và cải thiện khả năng dự đoán
- Sử dụng kỹ thuật tăng cường dữ liệu: Tăng cường dữ liệu bằng cách tạo ra các biến thể của tín hiệu, giúp mô hình học máy học được những đặc trưng quan trọng và giảm thiểu tác động của nhiễu nhãn
Tuy nhiên, trên đây chỉ là một số phương pháp thông thường cho việc giải quyết nhiễu nhãn nói chung chứ chưa có nghiên cứu đánh giá và xử lý một cách hoàn chỉnh
Trang 17LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
dành riêng cho lĩnh vực xử lí tín hiệu điện não nói chung và trong các nghiên cứu về các trạng thái thần kinh khác nhau của não bộ nói riêng Vì vậy, việc giải quyết vấn
đề nhiễu nhãn để đảm bảo tính khách quan và độ tin cậy của các phân tích thuộc lĩnh vực xử lí tín hiệu điện não trong các nghiên cứu về trạng thái thần kinh là một vấn đề cấp thiết
Trong các nghiên cứu được mô tả trong mục 1.6 đã cho thấy việc áp dụng phân tích cụm (cluster analysis) vào dữ liệu EEG giúp xác được các nhóm tín hiệu điện não tương tự nhau khi chúng gom lại thành các cụm riêng biệt tùy theo đặc tính của từng trạng thái Điều này đã giúp cải thiện chất lượng dữ liệu và hiệu suất phân loại cho các nghiên cứu đó và cũng đồng thời gợi mở về khả năng áp dụng nó cho việc phát hiện các mẫu có nhãn bị sai (nhiễu nhãn) do các điểm này có tính chất khác biệt với các dữ liệu có cùng nhãn Phương pháp phân tích cụm cũng được biết có thể được
sử dụng để loại bỏ các nhãn không chính xác và nhãn bị nhiễu, đảm bảo tính chính xác và đáng tin cậy của dữ liệu cho nhiều ứng dụng khác
Do tính cấp thiết của việc xử lí nhiễu nhãn cộng thêm tiềm năng cao của phương pháp phân tích cụm đối với mục đích xử lí nhiễu nhãn như vừa nêu, đề tài này lấy phương pháp phân tích cụm làm cốt lõi cho việc xử lí nhiễu nhãn cho các nghiên cứu
xử lí tín hiệu điện não để phân tích các trạng thái thần kinh khác nhau làm đề tài cho việc nghiên cứu
Mục đích của đề tài
Trên cơ sở tổng quan trên, đề tài hướng đến giải quyết các mục tiêu như sau:
- Xác định các mẫu dữ liệu có khả năng cao là nhiễu nhãn bằng phương pháp phân tích cụm
- Xử lí nhiễu các mẫu được xác định là nhiễu nhãn (dán nhãn lại hoặc loại ra)
- Tìm hiểu và áp dụng các chỉ số đánh giá cụm để có thể tự động hóa một số công đoạn trong quy trình cũng như có thể đánh giá định lượng cho kết quả
- Đánh giá hiệu suất của quy trình đề xuất và hiệu quả của việc xử lí nhiễu nhãn đối với mô hình phân loại
Trang 18LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Đối tượng và phạm vi nghiên cứu
1.3.1 Mô tả dữ liệu nghiên cứu
Luận văn thạc sĩ này sử dụng dữ liệu từ 2 bộ dữ liệu:
Một là, dữ liệu mô phỏng dựa trên đặc điểm của dữ liệu điện não thu được từ
các nghiên cứu trước đây của tác giả [1], [2] Dữ liệu này được mô phỏng kĩ lưỡng
để đảm bảo tính chính xác so với dữ liệu thực tế nhưng đồng thời đảm bảo được độ chính xác và khách quan để có hiệu quả tổng quát hơn cho các nghiên cứu có liên quan sau này
Hai là, dữ liệu đo được thực tế để làm đối tượng kiểm chứng Đối tượng nghiên
cứu cho dữ liệu thực nghiệm gồm nam và nữ giới là những học sinh tình nguyện trong
độ tuổi từ 18 đến 30 tuổi, không có tiền sử về bệnh thần kinh hay bị liệt, ngủ đầy đủ ngày hôm trước, khỏe mạnh và không sử dụng chất kích thích, rượu, bia, cà phê, trà,… Người thí nghiệm sẽ ngồi trước màn hình và xem một đoạn video clip trên màn hình Nội dung của đoạn video nhằm hướng dẫn đối tượng thực hiện các tác vụ theo thiết kế của thí nghiệm để thu được các đoạn tín hiệu phù hợp cho 2 trạng thái thần kinh là tập trung (concentrate) và nghỉ (rest) Sử dụng các phương pháp thống
kê từ dữ liệu thu được sau khi đo thử nghiệm 3 ca, số mẫu cần có cho mỗi đối tượng
đo là 63 mẫu cho trạng thái kích thích tập trung và 92 mẫu cho trạng thái nghỉ ngơi Chi tiết xem thêm ở mục 3.2.1 của nghiên cứu này
1.3.2 Phạm vi nghiên cứu cho bộ dữ liệu thực nghiệm:
Nghiên cứu trong đề tài này tập trung nghiên cứu trên những đối tượng là sinh viên Tất cả các mẫu thực nghiệm được tiến hành tại phòng thí nghiệm đo điện não 204B4 trường Đại học Bách Khoa – Đại học Quốc Gia thành phố Hồ Chí Minh
Ý nghĩa khoa học của đề tài
Phương pháp phân tích cụm (cluster analysis) để lọc nhiễu nhãn trong nghiên cứu của đề tài này có thể mang lại nhiều ý nghĩa khoa học và thực tiễn Dưới đây là một số ý nghĩa về mặt khoa học mà phương pháp này có thể mang lại:
Trang 19LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Giúp hiểu rõ hơn về tính chất và cấu trúc của dữ liệu tín hiệu điện não Phân tích cụm giúp phân biệt các tín hiệu điện não thành các nhóm khác nhau với các điểm mẫu có tính chất tương tự nhau trong mỗi cụm Việc này giúp tăng hiệu quả trong việc nghiên cứu và hiểu sâu về cấu trúc và tính chất của các trạng thái thần kinh Các hiểu biết này sẽ phần nào như một thông tin phản hồi để cải tiến các quy trình thí nghiệm và xử lí dữ liệu hiệu quả hơn
Thử nghiệm quy trình mới trong việc xử lí nhiễu nhãn dựa trên phương pháp phân tích cụm, đặc biệt là nhiễu nhãn trong các nghiên cứu về trạng thái thần kinh sử dụng tín hiệu EEG Hầu hết các nghiên cứu tương tự chỉ dùng phân tích thủ công hoặc nhầm lẫn trong mục đích sử dụng các phương pháp nhúng trực quan hóa với nhúng giảm chiều dữ liệu Việc sử dụng phân tích cụm để lọc nhiễu nhãn trong nghiên cứu này không chỉ có thể dùng cho riêng điện não mà cũng có thể áp dụng cho các lĩnh vực nghiên cứu lân cận khác
Đưa ra chỉ số định lượng kết hợp mới cho việc đánh giá hiệu quả phân cụm dữ liệu Chỉ số này giúp định lượng hóa hiệu quả của các thuật toán phân cụm, tạo tiền
đề để tự động hóa quy trình tự động hóa công đoạn phân cụm và xác thực cụm Thử nghiệm một phương pháp giả lập dữ liệu dựa trên dữ liệu tham chiếu mới Phương pháp giả lập này giúp mở ra một cánh cửa nghiên cứu mới cho các nghiên cứu khó thu thập mẫu như điện não Các nhà nghiên cứu có thể sử dụng phương pháp này để mở rộng tập dữ liệu hoặc mô phỏng trước để nghiên cứu tính khả thi khi áp dụng thực tế Một tập dữ liệu giả lập cũng sẽ giúp đánh giá định lượng cho kêt quả phân tích của các nghiên cứu về y sinh như điện não, khi mà nhãn đúng là rất khó để
có được
Xác định các mục tiêu cho các phương pháp tiếp theo: Phân tích cụm có thể giúp xác định các mục tiêu cần tiếp tục nghiên cứu và phân tích chi tiết hơn dựa trên các thông tin đã khai thác được Điều này giúp tập trung vào các phương pháp tiếp theo và tạo ra kết quả chất lượng hơn
Trang 20LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Ý nghĩa thực tiễn của đề tài
Từ những ý nghĩa khoa học nêu trên, trong thực tiễn thì kết quả của đề tài này cũng có vài ứng dụng nổi bật có thể nói đến như:
Cải thiện chất lượng dữ liệu cho các nghiên cứu ứng dụng: Phân tích cụm có thể giúp loại bỏ nhiễu nhãn và tăng cường chất lượng dữ liệu tín hiệu điện não, từ đó cải thiện độ chính xác và tin cậy của các phân tích và kết quả nghiên cứu ban đầu của các ứng dụng thực tiễn có liên quan hoặc sử dụng đến trạng thái thần kinh
Hỗ trợ quy trình đánh giá và chẩn đoán: Ngoài việc lọc bỏ nhiễu nhãn cho bộ
dữ liệu, việc phân tích cụm có thể giúp xác định và phân loại các trạng thái thần kinh
từ tín hiệu điện não, cung cấp thông tin hữu ích cho quy trình đánh giá và chẩn đoán các bệnh lý hoặc bất thường về thần kinh
Cải thiện hiệu suất và hiệu quả của các ứng dụng thực tế: Phân tích cụm có thể giúp tối ưu hóa và cải thiện hiệu suất và hiệu quả của các ứng dụng thực tế liên quan đến tín hiệu điện não, như điều khiển máy móc, giao tiếp người-máy, và công nghệ chăm sóc sức khỏe dựa trên tín hiệu điện não
Các nghiên cứu có liên quan
Bài báo “Classification of concentration and rest by power spectral analysis with Support Vector Machine model,” Trình bày tại hội nghị BME 9, tổ chức tại Đại học Quốc Tế năm 2023 của chính tác giả luận văn này cùng với các cộng sự [1] chính là một phần của luận văn thạc sĩ này, và kết quả của bài cũng là tiền đề cho việc thực hiện nghiên cứu trong luận văn này Trong [1], phương pháp “KNN” đã được sử dụng để lọc ra các điểm có vẻ là ngoại lai của mỗi trạng thái (một loại của nhiễu nhãn), hay còn gọi là “likely outliers” như được đề cập trong bài Kết quả cho thấy việc dùng một phương pháp phân tích cụm trên KNN để loại bỏ các nhiễu nhãn loại outliers có thể tăng hiệu quả chống overfitting cho mô hình SVM Tuy nhiên kết quả lọc ra các điểm dữ liệu “likely outliers” trong bài chỉ được thực hiện đơn giản và chưa
có các biện pháp xác thực sâu hơn để phân biệt giữa nhiễu nhãn thực sự và outliers thông thường Vấn đề này sẽ được giải quyết và trình bày trong luận văn này
Trang 21LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Trong bài báo [3] xuất bản 2020 của Alexander Frolov và cộng sự, các phương pháp phân rã tách nguồn và phân tích cụm được sử dụng để tìm và phân loại các mẫu hoạt động điển hình của hoạt động EEG trong các thí nghiệm điều khiển giao diện não-máy (BCI) dựa trên hình dung chuyển động Kết quả cho thấy rằng phân tích thành phần độc lập (ICA) và phân tích thành phần trung gian với độ phức tạp cao (AMICA và PWCICA) là những phương pháp tốt nhất để tìm ra các thành phần có tính chất điểm lưỡng cực và mẫu hoạt động cụ thể cho các tác vụ tưởng tượng chuyển động Ngoài ra Các tác giả của [3] cũng sử dụng một phương pháp phân tích cụm bằng mạng thần kinh hấp dẫn và kết quả cho thấy sự tách biệt của các mẫu hoạt động điện tử phổ biến trong các thí nghiệm
Trong bài báo [4] công bố năm 2003, Adam R.Clarke và cộng sự đã khảo sát hoạt động EEG của các bé gái mắc chứng rối loạn tăng động/hiếu động giảm chú ý (ADHD) Kết quả cho thấy, nhóm người mắc ADHD có tổng công suất lớn hơn, tỷ
lệ sóng theta tương đối cao hơn và tỷ lệ (tương đối) sóng delta, alpha và beta thấp hơn so với nhóm kiểm soát Thêm vào đó, khi phân tích cụm cho dữ liệu phổ mật độ công suất, kết quả đã cho thấy sự tồn tại của hai nhóm phân cụm riêng biệt trong nhóm cô gái mắc ADHD
Nghiên cứu của Ssang-Hee Seo và Jung-Tae Lee in trong chương “Stress and EEG” của quyển “Convergence and Hybrid Information Technologies” xuất bản năm
2010 [5] đã sử dụng các kích thích bằng hình ảnh để khơi dậy trạng thái stress của não bộ Kết quả cho thấy sự thay đổi về phổ công suất ở hai vùng sóng Theta và Beta giữa hai trạng thái Stress và Non-stress Phân tích cụm đã giúp phát hiện được sự phân cụm tách biệt của dữ liệu trong hai trạng thái này
Bài báo [6] xuất bản 2019, của Ioannis Exarchos và cộng sự cũng có sử dụng 2 phương pháp phân loại, một phương pháp học giám sát sử dụng dữ liệu EEG và EMG
đã được gán nhãn trước để huấn luyện cho một bộ phân loại các trạng thái giấc ngủ của chuột bằng mạng nơ-ron tích chập (Convolutional Neural Network - CNN), trong khi phương pháp còn lại là không giám sát sử dụng phân tích cụm nhằm khám phá cấu trúc tiềm ẩn và sự tương đồng trong dữ liệu chưa được gán nhãn từ đó xác định
Trang 22LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
các giai đoạn giấc ngủ Kết quả cho thấy phương pháp phân tích cụm đạt hiệu quả tương tự với CNN mặc dù độ phức tạp của mô hình sử dụng phân tích cụm là đơn giản hơn rất nhiều
Bài báo [7] của Armita Faghani Jadidi xuất bản 2016, tập trung vào phân tích tín hiệu EEG để khám phá sự khác biệt trong mô hình nhận thức khi chúng ta chú ý đến các hình ảnh khác nhau Sử dụng dữ liệu thu được từ 8 điện cực và qua các thuật toán giảm chiều dữ liệu như t-test, t-SNE và kernel t-SNE, nghiên cứu đã trích xuất các đặc trưng từ thành phần ERP và phân loại với độ chính xác 85,5% bằng cách kết hợp thuật toán SVM và KNN Nghiên cứu này tuy nhiên có một nhược điểm, đó là
mô hình huấn luyện với t-SNE và các biến thể của t-SNE sẽ không thể áp dụng được cho các mẫu dữ liệu mới do tính ngẫu nhiên và phụ thuộc dữ liệu của t-SNE [8] Bài báo [9] xuất bản năm 2018 của George Dimitriadis và cộng sự, mô tả rằng, các phương pháp ghi lại đồng thời từ nhiều vùng não với hàng trăm đến hàng ngàn điện cực đã tạo ra thách thức lớn trong việc chuyển đổi dữ liệu gốc thành các tín hiệu sinh lý có ý nghĩa, chẳng hạn như xung sự kiện Phân loại các sự kiện xung của các
tế bào thần kinh riêng lẻ từ dữ liệu trong môi trường điện trường ngoại vi mật độ cao
là một vấn đề đang thu hút sự chú ý nhưng vẫn còn khá khó khăn Trong nghiên cứu này, họ đã giới thiệu phương pháp giảm chiều dữ liệu t-SNE (t-SNE) như một công
cụ trực quan hiệu quả trong quá trình phân loại xung Nghiên cứu này cũng chỉ ra rằng t-SNE giúp nhúng các xung ngoại vi từ không gian đa chiều sang không gian thấp (thường là hai chiều), tạo thành các cụm dữ liệu rõ ràng và có thể được quan sát
và xác định thủ công với độ chính xác cao Những cụm này đại diện cho các đơn vị
tế bào đơn lẻ và đã kiểm tra xác nhận kết quả này trên các tập dữ liệu đã được gán nhãn
Một nghiên cứu khác trong bài báo [10] của Petr Nejedly và cộng sự, xuất bản
2023 thì sử dụng thuật toán UMAP như là một công cụ trực quan hóa dữ liệu để đưa
ra đánh giá cho dữ liệu điện não nội sọ iEEG Các kết quả nhúng của UMAP đã giúp các đặc tính của dữ liệu từ iEEG được thể hiện rõ rệt và giúp các tác giả đưa ra phương hướng xử lí cho dữ liệu tốt hơn
Trang 23LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Bài báo [11] của Alessio Quercia xuất bản năm 2021 tập trung vào dự đoán cơn động kinh bằng việc sử dụng tín hiệu điện não đồ (EEG) Khác với phương pháp tiêu chuẩn, các tác giả đề xuất một phương pháp mới gán nhãn từng cơn động kinh riêng biệt thông qua phân tích cụm trên dữ liệu nhúng bằng UMAP Phương pháp này mang lại cải thiện đáng kể so với phương pháp tiêu chuẩn, giảm nhiễu nhãn và cải thiện hiệu suất của bộ phân loại nhị phân để phân biệt trạng thái trước và sau cơn động kinh Kết quả phân tích cụm cho thấy thời gian trước cơn động kinh là riêng biệt cho từng cơn chứ không phải chỉ riêng theo từng bệnh nhân Cuối cùng, nghiên cứu còn cho thấy rằng phương pháp phân tích cụm giúp dự đoán 17 trong số 18 (94%) cơn động kinh trong khoảng từ 15 đến 85 phút trước khi cơn xảy ra
Bài báo [12] của Adriana Leal xuất bản 2023 đã áp dụng các phương pháp học không giám sát để khám phá các biến đổi tiền động kinh trên từng cá thể của từng cơn động kinh ở những bệnh nhân kháng thuốc Dựa trên các tín hiệu điện não (EEG) thu thập từ 41 bệnh nhân mắc bệnh động kinh kháng thuốc, các đặc trưng tuyến tính
và phi tuyến, đa biến và đơn biến được trích xuất Phương pháp nhúng dữ liệu UMAP
đã được áp dụng để giảm chiều cho từng nhóm đặc trưng và từng cơn động kinh Các phương pháp gom cụm khác nhau như KNN, HDBSCAN, GMM và Hierachical được
sử dụng để tìm kiếm nhóm tiền động kinh trong khoảng thời gian tối đa 2 giờ trước khi cơn động kinh xảy ra Kết quả xác định được các mẫu tiền động kinh trong 90%
số bệnh nhân và 51% số cơn động kinh được kiểm tra bằng mắt thường Kết quả cũng cho thấy, có thể xác định được những dấu hiệu tiền động kinh riêng biệt cho một số bệnh nhân và một số cơn động kinh trong cùng một bệnh nhân sử dụng phương pháp kết hợp phân tích cụm như đã đề xuất cho dữ liệu EEG
Từ những nghiên cứu được mô tả ở trên, có thể rút ra một số nhận xét như sau Thứ nhất, phương pháp phân tích cụm cho thấy hiệu quả cao trong việc gom cụm các
dữ liệu có nhiều điểm tương đồng và tách biệt các dữ liệu khác nhau hơn Trong số
đó, t-SNE và UMAP là hai phương pháp được sử dụng nhiều nhất với hiệu quả được nhận thấy là khá cao Tuy nhiên có một hạn chế là hầu hết các nghiên cứu này chia
Trang 24LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
thành 2 nhóm, hoặc là đầy đủ nhưng thủ công [9]–[11], [13], [14], hoặc là tự động nhưng chưa rõ ràng [1], [3], [6], [7], [10], [12]
Trang 25LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
TỔNG QUAN
Tín hiệu điện não (EEG)
2.1.1 Sơ lược về EEG
Trong lĩnh vực thần kinh học lâm sàng, điện não đồ đã lâu trở thành công cụ quan trọng trong chẩn đoán và đưa ra các quyết định điều trị Mặc dù có sự phát triển của các kỹ thuật hình ảnh tiên tiến như CT, MRI, chụp ảnh y học hạt nhân và fMRI, việc sử dụng EEG vẫn đang được nghiên cứu và phát triển không ngừng Sự khác biệt của EEG nằm ở khả năng theo dõi chức năng não bộ, trong khi các phương pháp hình ảnh khác tập trung vào nghiên cứu giải phẫu Ví dụ, giống như việc chụp X-quang tim không cho chúng ta biết tim đập nhanh hay chậm tỏng khi thông tin này
có thể được dễ dàng nhận thấy từ việc đo đạc điện tâm đồ (ECG)
Các ghi nhận đầu tiên về hoạt động điện của não được thực hiện vào năm 1875 bởi bác sĩ Richard Caton Ông đã viết về việc phát hiện điện trường trong não của thỏ
và khỉ trong một báo cáo y học Anh Sau đó, vào năm 1920, Hans Berger, người được coi là cha đẻ của EEG hiện đại, là người đầu tiên ghi lại EEG ở con người khi ông đang là giáo sư tâm thần học tại Đại học Jena ở Đức [15] Xem bản ghi EEG đầu tiên của Hans Berger trong Hình 2.1
Hình 2.1 Bản ghi EEG đầu tiên được công bố của Hans Berger[15]
Hiện nay, việc thu nhận EEG được thực hiện bằng các hệ thống tiên tiến hơn rất nhiều so với trước đây Các đoạn tín hiệu thu được có độ chính xác cao hơn, hệ thống
có khả năng thu cùng lúc nhiều kênh thông tin hơn và thời gian thu nhận cũng được kéo dài hơn Xem ví dụ trong Hình 2.2
Trang 26LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Hình 2.2 Một epoch 30s của một bản ghi EEG hiện đại ngày nay [16]
1.1.1 Nguồn gốc sinh học của tính hiệu EEG
Tín hiệu EEG được tạo ra bởi hoạt động điện của não khi các xung thần kinh lan truyền qua các tế bào thần kinh trong vỏ não Khi các tế bào thần kinh trong não hoạt động, nó tạo ra dòng điện nhỏ do sự thay đổi trong cân bằng điện giữa các mô
và chất lỏng xung quanh chúng Các xung thần kinh này được gửi từ các vùng khác nhau của não và khi lan truyền, tạo ra một điện trường trong não có thể đo được bên ngoài da đầu Điện trường này được thu nhận và ghi lại bởi các điện cực được đặt trên da đầu, và dữ liệu thu được từ các điện cực này sau đó được sử dụng để phân tích
và đánh giá chức năng não.Xem hình minh họa nguồn gốc của tín hiệu EEG trong Hình 2.3
Trang 27LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Hình 2.3 Minh họa nguồn gốc của tín hiệu EEG Việt hóa từ [17]
Khi xung thần kinh lan truyền trong các tế bào thần kinh, nó tạo ra sự phân cực không chỉ trong tế bào mà còn trong môi trường xung quanh tế bào Quá trình khử cực và tái cực của các tế bào này kết hợp tạo ra tín hiệu điện thế có tần số thấp Tần
số tối đa của tín hiệu này thường nằm trong khoảng từ 80 đến 100 Hz, và biên độ của
nó dao động từ vài μV đến vài chục μV Điều này có nghĩa là tín hiệu EEG có thể đo được là những biến đổi nhỏ và yếu, và yêu cầu các phương pháp thu và xử lý tín hiệu chính xác và nhạy bén để trích xuất thông tin có ý nghĩa từ chúng [18] Các tín hiệu này do có biên độ nhỏ nên cần phải có các điện cực chuyên dụng để thu nhận Ngoài
ra, các nghiên cứu về EEG sẽ tuân theo các hệ thống vị trí điện cực để có tính thống nhất cho nghiên cứu và so sánh kết quả Một hệ thống đặt điện cực phổ biến là hệ thống đặt điện cực quốc tế 10-20 được trình bày ở mục 1.1.3
1.1.2 Sơ đồ hệ thống đặt điện cực trong EEG
Trong nghiên cứu trên tín hiệu EEG, việc đặt các điện cực để thu nhận tín hiệu EEG tuân theo các quy tắc chung để đảm bảo tính thống nhất và khả năng so sánh kết quả giữa các nghiên cứu Một trong những quy tắc quan trọng là về vị trí gắn các điện
Trang 28LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
cực trên da đầu Có nhiều hệ thống điện cực được sử dụng phổ biến trong nghiên cứu EEG, nhưng hệ thống được chấp nhận và sử dụng rộng rãi nhất là “hệ thống đặt điện cực quốc tế 10-20"
Hình 2.4 Sơ đồ hệ thống đặt điện cực EEG 10-20 [19]
(a) Nhìn từ trái qua (b) Nhìn từ trên xuống
Các số 10 và 20 thể hiện khoảng cách giữa các điện cực lân cận là 10% hoặc 20% tổng khoảng cách trước-sau hoặc trái-phải của hộp sọ Các vị trí được xác định bởi 4 điểm sau đây [19]:
- Nasion, đó là điểm giữa trán và mũi, ngang tầm mắt;
- Inon là điểm nổi gò lên của xương chẩm ở hộp sọ ở phía sau đầu, trên đường nối Nasion và Inion
- Hai điểm lõm ở ngay trước 2 tai (hai điểm Preaurical)
Hình 2.4 là minh họa cho sơ đồ hệ thống 10-20 Mỗi vị trí đặt điện cực kí hiệu bằng một cặp kí tự gồm một chữ cái để xác định thùy của não và một số để xác định phía trái phải của bán cầu:
- Các chữ cái gồm F, T, C, P và O lần lượt là Frontal (thùy trán), Temporal (thùy thái dương), Central (rãnh giữa), Parietal (thùy đỉnh) và Occipital (thùy chẩm) Chữ “z” ở chân là để chỉ điện cực đó nằm trên đường giữa trước-sau
Trang 29LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
- Các chữ số chia làm chẵn và lẻ, số chẵn để chỉ các điện cực ở bán cầu não phải,
còn các số lẻ để chỉ các điện cực ở bán cầu não trái
1.1.3 Kênh và đạo trình sử dụng trong EEG
Về bản chất, tín hiệu EEG là sự chênh lệch điện áp giữa hai điện cực, nên có
nhiều cách để tính ra tín hiệu cho từng cặp điện cực đó Tín hiệu từ một cặp điện cực
gọi là một kênh (channel) và cách thiết lập các kênh gọi là đạo trình (montage) Các
đạo trình thông dụng có thể kể ra như:
- Đạo trình lưỡng cực (Bipolar montage): Tạo nên bởi việc lấy hiệu của hai tín hiệu
từ hai cực liền kề Ví dụ: Fp1-F3,F3-C3, C3-P3, P3-O1
- Đạo trình tham chiếu (Referential montage): Tạo nên bởi việc lấy hiệu của tín hiệu
tại điện cực mong muốn với một kênh nhất định Ví dụ: F4-A2, F3-A2,C4-A2,
C3-A2,…
- Đạo trình tham chiếu trung bình: Tương tự như đạo trình tham chiếu nhưng điện
cực tham chiếu được sử dụng là giá trị trung bình cộng của tất cả các kênh
- Đạo trình Laplacian: Được tạo nên bởi hiệu của một điện cực với giá trị trung bình
cộng có trọng số của các kênh xung quanh nó
Thông thường trong các nghiên cứu về xử lý số tín hiệu EEG thì đạo trình tham
chiếu là đạo trình thường được sử dụng nhất Do vậy, đạo trình được sử dụng cho
nghiên cứu này là đạo trình tham chiếu Với đạo trình tham chiếu này, tín hiệu EEG
thu được sẽ là tín hiêu đa hài của các tần số thành phần Các tần số thành phần này
có các tên gọi là các nhịp điện não, các sóng điện não hay các vùng tần số của điện
não
1.1.4 Các vùng tần số của tín hiệu EEG
Tín hiệu EEG là tín hiệu đa hài của nhiều tần số khác nhau với biên độ cũng khác
nhau Thông thường, tín hiệu EEG được phân chia ra thành 5 vùng: alpha (α), theta
(θ), beta (β), delta (δ), and gamma (γ ) [17] mô tả hình dạng các sóng điện não kể
trên Thông tin chi tiết và ứng dụng của các vùng sóng trên được mô tả cụ thể ở
Trang 30LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Bảng 2.1 cuối của mục Các vùng tần số của tín hiệu EEG này
Hình 2.5 Hình dạng các vùng sóng EEG cơ bản [18]
Một số nghiên cứu khác còn chia sóng não ra thành nhiều miền khác như:
- Phi (ϕ) (<4 Hz);
- Kappa (κ) là Alpha khi có chuyển động mắt;
- Tau (τ) là sóng Alpha nhưng của riêng thùy thái dương
Ngoài những thành phần tần số chung như nhịp điện não và sóng điện não, tín hiệu EEG cũng có thể chứa những đặc trưng đặc biệt, được gọi là các phức bộ Ví dụ như phức bộ K-complex, phức bộ Sleep spindle, phức bộ P300, sóng EPR, và nhịp
Mu Các phức bộ này có ý nghĩa và tác động đặc trưng trong nghiên cứu về EEG Tuy nhiên, trong phạm vi nghiên cứu của đề tài này, chúng tôi tập trung vào việc xử lý các thành phần tần số chung và không nghiên cứu các phức bộ đặc thù này
Trang 31LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Bảng 2.1 Đặc trưng các vùng điện não cơ bản [16]
Đặc trưng ở trẻ sơ sinh và giảm dần khi trưởng thành Xuất hiện chủ yếu trong khi ngủ sâu hoặc không suy nghĩ
Chủ yếu trong nghiên cứu giấc ngủ
Theta 4–8 <50 Vùng trán và vùng trung tâm
Xuất hiện trong cảm xúc căng thẳng trỗi dậy, khó chịu do khó hiểu, có cảm hứng, thiền định hoặc khi bắt đầu buồn ngủ
Phát hiện buồn ngủ, cảm xúc có arousal cao hoặc đánh giá mức độ hiểu thông tin
Alpha 8–12 30–50
Toàn khu vực của não nhưng ở vùng chẩm, biên độ cao nhất
Xuất hiện khi mở mắt (thư giãn) hoặc nhắm mắt
Phát hiện trạng thái thư giãn thần kinh, hoặc arousal thấp
Beta 13–30 < 30 Vùng đỉnh và vùng trán
Suy nghĩ, tập trung, căng thẳng, hoảng loạn Bị mất khi vận động hoặc có kích thích xúc giác
Phát hiện các trạng thái tập trung, căng thẳng, lo âu hoặc tiền buồn ngủ Phát hiện u não
Nghiên cứu trạng thái thần kinh sử dụng tín hiệu điện não
2.2.1 Nghiên cứu não bộ ở các trạng thái thần kinh
Việc nghiên cứu về não bộ ở các trạng thái thần kinh khác nhau đã thu hút sự quan tâm lớn trong lĩnh vực nghiên cứu về hệ thần kinh Điều này cho phép chúng ta hiểu rõ hơn về hoạt động và chức năng của não bộ trong các điều kiện khác nhau, từ trạng thái tỉnh táo đến trạng thái giấc ngủ, mất tỉnh, và các trạng thái bệnh lý [16] Trạng thái tỉnh táo (Awake state): Trong trạng thái tỉnh táo, não bộ hoạt động ở mức cao nhất và chịu ảnh hưởng của các tác nhân ngoại vi và nội tại Sóng điện não được sử dụng để nghiên cứu trạng thái này bao gồm sóng alpha (8-12 Hz) và beta
Trang 32LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
(12-30 Hz) Sự tương tác giữa các khu vực não trong trạng thái tỉnh táo có thể được phản ánh qua mạng não (brain network) và đồ thị não (brain graph), chỉ ra tính liên kết và tính tương tác giữa các khu vực não
Trạng thái giấc ngủ (Sleep state): Trạng thái giấc ngủ được chia thành các giai đoạn giấc ngủ khác nhau, bao gồm giai đoạn REM (Rapid Eye Movement) và giai đoạn Non-REM (Non-Rapid Eye Movement) Trong giai đoạn Non-REM, sóng delta (0.5-4 Hz) thường xuất hiện và chịu trách nhiệm cho những hoạt động cơ bản của não trong giấc ngủ sâu Trong giai đoạn REM, sóng theta (4-8 Hz) xuất hiện, đồng thời
có sự tăng cường hoạt động hướng tới quá trình xử lý thông tin và mơ màng
Trạng thái bệnh lý (Pathological state): Nghiên cứu cũng tập trung vào các trạng thái thần kinh bị ảnh hưởng bởi các bệnh lý như bệnh Parkinson, động kinh và trầm cảm Sử dụng các phương pháp phân tích tín hiệu điện não, những nghiên cứu đã phát hiện ra các biểu hiện bất thường trong sóng điện não và tìm ra các đặc điểm phân biệt trong các trạng thái bệnh lý này
Đề tài này nhắm tới các nghiên cứu về trạng thái thần kinh là do các nghiên cứu này có nhiều đặc điểm riêng biệt Các đặc điểm này giúp phương pháp phân tích cụm trở nên dễ dàng áp dụng với nhiều tiềm năng cho ra kết quả tốt trong xử lí nhiễu nhãn
2.2.2 Đặc điểm của dữ liệu EEG trong các nghiên cứu về trạng thái thần kinh
Trong nghiên cứu về trạng thái tỉnh thức của não bộ sử dụng tín hiệu EEG, một đặc điểm chung là sử dụng phổ mật độ công suất (Power Spectral Density - PSD) làm đặc trưng chính PSD là một biểu đồ biểu thị phân phối năng lượng của tín hiệu EEG theo các miền tần số khác nhau [15], [20] Thông thường, PSD sẽ bao gồm công suất
từ năm vùng sòng cơ bản của điện não là Delta, Theta, Alpha, Beta và Gamma Có một số lý do chính cho việc sử dụng PSD trong nghiên cứu về trạng thái tỉnh thức của não bộ như sau
Thứ nhất, Phổ tần số PSD cho phép biểu diễn tần số của tín hiệu EEG, giúp xác định các thành phần tần số quan trọng có mặt trong tín hiệu Điều này cho phép chúng
Trang 33LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
ta phân tích và so sánh sự thay đổi trong hoạt động sóng não ở các trạng thái thần kinh khác nhau mà không cần phân tích các phức bộ phức tạp với hình dạng dễ bị nhầm lẫn
Thứ hai, mối liên hệ giữa chức năng não bộ với PSD Sự phân tích PSD có thể giúp chúng ta hiểu rõ hơn về mối quan hệ giữa các dạng sóng não và chức năng não
bộ Ví dụ, sóng alpha thường được liên kết với trạng thái thư giãn và không tập trung, trong khi sóng beta liên quan đến hoạt động tập trung và xử lý thông tin Do đó, phân tích PSD có thể cung cấp thông tin quan trọng về trạng thái tỉnh thức và chức năng của não bộ nên sẽ được sử dụng nhiều trong các ứng dụng thực tiễn
Thứ ba, Tính ổn định và đồng nhất Hình dạng của phổ PSD được coi là một đặc trưng ổn định và đồng nhất của tín hiệu EEG giữa các cá thể trong các trạng thái khác nhau Điều này giúp đảm bảo tính nhất quán và khả năng so sánh giữa các tín hiệu EEG từ các cá nhân khác nhau và trong các trạng thái khác nhau của não bộ Mặc dù PSD có nhiều ưu điểm nhưng ngoài PSD cũng có những loại đặc trưng khác cũng hay được dùng nghiên cứu về trạng thái tỉnh thức của não bộ như biên độ sóng và mức suy giảm biên độ (như trong aEEG), tính hỗn loạn (như chỉ số HFD hay Entropy), hình học ( như Spectrogram hay Scattergram),v/v Tuy nhiên, PSD vẫn được coi là một công cụ mạnh mẽ để phân tích và hiểu về hoạt động não bộ trong trạng thái tỉnh thức
Nhiễu nhãn
2.3.1 Khái niệm về nhiễu nhãn
Nhiễu (noise) trong ngữ cảnh của machine learning và phân tích dữ liệu được định nghĩa là bất kỳ sự gián đoạn hoặc sai sót nào trong mối quan hệ giữa các đặc trưng của một điểm dữ liệu và nhãn của lớp tương ứng [21], [22] Có hai loại nhiễu
có thể xảy ra: nhiễu thuộc tính (attribute noise) và nhiễu nhãn (label noise)
Nhiễu thuộc tính liên quan đến sự gián đoạn hoặc sai sót trong các đặc trưng hoặc thuộc tính của một điểm dữ liệu Ví dụ, nếu một tập dữ liệu chứa các giá trị
Trang 34LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
không nhất quán hoặc không chính xác trong các đặc trưng, thì có thể coi đó là nhiễu thuộc tính
Nhiễu nhãn, mặt khác, là sự gián đoạn hoặc sai sót trong việc gán nhãn lớp cho các điểm dữ liệu Nó xảy ra khi nhãn được gán cho một điểm dữ liệu không đại diện chính xác cho lớp thật sự của nó Nhiễu nhãn là một vấn đề phổ biến trong các tập dữ liệu thực tế và là một thách thức quan trọng trong machine learning, vì nó có thể ảnh hưởng tiêu cực đến hiệu suất và đáng tin cậy của các mô hình dự đoán
Trong ngữ cảnh của nghiên cứu này, ta tập trung vào nhiễu nhãn thay vì nhiễu thuộc tính Nhiễu nhãn là vấn đề được bắt gặp rộng rãi trong các tập dữ liệu thực tế, nhưng nó đã nhận được ít sự quan tâm so với các phương pháp xử lí nhiễu cho nhiễu thuộc tính Nhiễu nhãn cũng được gọi bằng các tên khác như nhiễu lớp (class noise),
dữ liệu được gán nhãn sai (mislabeled data), dữ liệu được gán nhãn tệ (poorly annotated data) và dữ liệu được gán nhãn cẩu thả (sloppily labeled data) Tuy nhiên, thuật ngữ "nhiễu nhãn" được chọn trong nghiên cứu này vì nó được sử dụng phổ biến hơn
Để dễ hình dung, có thể xem ví dụ trong Hình 2.6 Mặc dù ví dụ là về nhận dạng ảnh nhưng do nếu lấy ví dụ bằng điện não thì khó hình dung hơn nên ví dụ này vẫn được sử dụng Trong hình có mô tả để nhận dạng bọ rùa là “Bọ, Lady, Bug, Thân đỏ, Đốm đen, Thân tròn, 6 chân, 2 râu, ” và 4 trường hợp được dán nhãn là “Lady bug” Trường hợp đầu tiên là cả thuộc tính và nhiễu nhãn đều sạch thì có thể thấy các đối tượng trong hình đúng là con bọ rùa và rất dễ dàng nhận ra Cột thứ 2, một dù vẫn là
bọ rùa nhưng có một số đặc tính bị thay đổi, ví dụ không phải màu đỏ, không phải thân đỏ đốm đen, đang xòe cánh với góc nhìn khác Cột 2 là ví dụ cho nhãn sạch, hay nhãn đúng nhưng có một số nhiễu về mặt thuộc tính Cột 3 và 4 là 2 loại nhiễu nhãn hay gặp Cột 3 là nhiễu nhãn do có một số thuộc tính đúng (nhưng không phải tất cả) nên bị dán nhãn nhầm Cột 4 thì là hoàn toàn sai, cả thuộc tính và nhãn đều sai và gây nhiễu cho bộ dữ liệu Cột 4 này có thể được xem như các điểm ngoại lai (outliers)
Trang 35LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Hình 2.6 Minh họa cho nhiễu nhãn và nhiễu thuộc tính qua các trường hợp gặp phải ghi nhận dạng cho “con bọ rùa” hay trong tiếng anh là“Lady bug”
2.3.2 Tác hại của nhiễu nhãn
Nhiễu nhãn có tác động tiêu cực đáng kể đến quá trình học máy và hiệu suất của các mô hình Điều này xảy ra khi nhãn được gán cho các mẫu dữ liệu không chính xác hoặc nhiễu Theo [21], [22], các tác động tiêu cực mà nhiễu nhãn gây ra có thể liệt kê và mô tả như bên dưới đây
- Gây suy giảm hiệu suất phân loại Khi có sự xuất hiện của nhiễu nhãn, các mô hình phân loại sẽ bị bối rối khi phải “học” các đặc tính của dữ liệu ở lớp A trong khi nhãn được dán là lớp B Điều này dẫn tới một là mô hình sẽ bị overfitting nếu cố
Trang 36LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
gắng học quá sát, hai là underfitting khi mô hình phải cân bằng vùng và ranh giới phân loại đủ lớn đễ không bị ảnh hưởng quá nhiều bởi các nhiễu nhãn
- Tăng độ phức tạp của mô hình và gia tăng các yêu cầu cần thiết để huấn luyện Điều này cũng dễ hiểu bởi nếu muốn cải thiện hiệu suất cho tập dữ liệu có nhiều nhiễu nói chung và nhiễu nhãn nói riêng thì việc cần làm là phải tăng tính phức tạp của mô hình và đặt thêm nhiều điều kiện để kháng được ảnh hưởng của nhiễu Việc này đối với các nghiên cứu học sâu hay liên quan tới big data trở nên bất khả thi
vì các mô hình cho lĩnh vực này vốn đã rất phức tạp
- Làm sai lệch tần suất xảy ra của các trường hợp quan sát được Đối với các nghiên cứu mà số quan sát (mẫu thí nghiệm) khó thu được hay khó xảy ra như trong y học thì mỗi một điểm dữ liệu đều gây ảnh hưởng đến các giá trị trung bình và phương sai của phân bố rất mạnh mẽ Ví dụ khi nghiên cứu về tỉ lệ béo phì ở trẻ em khi uống nước ngọt, nếu nhiễu nhãn quá nhiều có thể khiến cho tỉ lệ này giảm xuống thấp do bị dán nhầm thành không béo phì Kết quả này kéo theo sự chủ quan khi tiêu thụ nước ngọt ở trẻ em, thật sự không tốt
- Gây hậu quả xấu cho các tác vụ liên quan về sau Đối với các nghiên cứu mà dữ liệu dễ bị biến động, ví dụ như phân tích gene, việc xuất hiện nhiễu nhãn có thể dẫn đến sai lệch khi phân tích tính chất của các bộ gene Nếu nhiễu nhãn quá nhiều
có thể gây khó khăn trong các khâu phân tích đặc tính cho các chuyên gia do khối lượng thông tin khi phân tích gene là cực kì lớn, trong khi số mẫu quan sát thì lại cực kì ít dẫn đến rất dễ nhầm lẫn giữa các lớp khi phân loại
Như vậy có thể thấy rằng nhiễu nhãn có tác động tiêu cực đến hiệu suất và độ tin cậy của mô hình phân loại cũng như các tác vụ phân tích dữ liệu về sau Để giải quyết vấn đề này, các phương pháp và kỹ thuật xử lý nhiễu nhãn đã được đề xuất trong nhiều nghiên cứu ở nhiễu lĩnh vực, bao gồm cả cho dữ liệu điện não để cải thiện chất lượng của nhãn dữ liệu và tăng cường hiệu suất của các mô hình phân loại
Trang 37LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
2.3.3 Phân loại nhiễu nhãn
Vấn đề nhiễu nhãn ảnh hưỡng đến hiệu quả phân loại và hiệu suất mô hình cũng như tính khách quan và tin cậy của dữ liệu là không thể bàn cãi, cho nên từ lâu đã có những nghiên cứu chuyên sâu về nhiễu nhãn Các nghiên cứu tùy lĩnh vực sẽ lại có một kiểu phân loại khác nhau tùy vào tính chất của dữ liệu đang dùng cho nghiên cứu
đó Theo [23], nhiễu nhãn có thể chia thành 3 loại: NCAR, NAR và NNAR
Thứ nhất, nhiễu nhãn hoàn toàn ngẫu nhiên (NCAR - Noise Completely At
Random) Trong loại nhiễu này, việc gán nhãn sai xảy ra hoàn toàn ngẫu nhiên mà không có liên quan đến nhãn lớp thực tế hay các đặc trưng của các mẫu Điều này ngụ ý rằng xác suất gán nhãn sai là độc lập với nhãn lớp thực tế hoặc bất kỳ yếu tố nào khác Nhiễu NCAR thường được thấy là các mẫu được gán nhãn sai được phân
bố đều đặn trên tất cả các lớp Ví dụ cho loại này có thể xem cột 4 trong Hình 2.6
Thứ hai, nhiễu nhãn ngẫu nhiên (NAR - Noise At Random) Nhiễu NAR đề cập
đến tình huống trong đó xác suất gán nhãn sai phụ thuộc vào nhãn lớp thực tế nhưng không phụ thuộc vào các đặc trưng của các mẫu Nghĩa là việc gán nhãn sai xảy ra ngẫu nhiên trong mỗi lớp thực tế, nhưng có thể có sự thiên hướng về một số sự phân loại sai cụ thể Việc gán nhãn sai không hoàn toàn ngẫu nhiên mà tuân theo một khuôn mẫu hoặc sự phụ thuộc cụ thể liên quan đến nhãn lớp thực tế Việc gán nhãn sai vẫn
là ngẫu nhiên nhưng có khả năng cao hơn đối với vài lớp cụ thể Ví dụ chúng ta đang làm việc trên một tập dữ liệu gồm các tin nhắn SMS để phân loại chúng thành "Hợp lệ" và "Spam" Trong quá trình thu thập dữ liệu, đa số tin nhắn "Hợp lệ" đã bị gán nhãn sai thành "Spam" Tuy nhiên, việc gán nhãn sai không phụ thuộc vào các đặc trưng của tin nhắn, ví dụ như nội dung, từ khóa hay cấu trúc câu Sự gán nhãn sai xảy
ra ngẫu nhiên và không có mối quan hệ với thông tin thực tế của tin nhắn
Thứ ba, nhiễu nhãn không ngẫu nhiên (NNAR - Noise Not At Random), là
trường hợp tổng quát hơn trong đó xác suất gán nhãn sai cũng phụ thuộc vào giá trị của các đặc trưng của điểm dữ liệu Trong trường hợp này, khả năng gán nhãn sai không chỉ bị ảnh hưởng bởi nhãn đúng mà còn thay đổi dựa trên các đặc điểm hoặc
Trang 38LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
giá trị cụ thể của các đặc trưng Điều này thường thấy khi chúng ta dán nhãn cho các mẫu gần các ranh giới phân loại, nơi việc gán nhãn sai có khả năng xảy ra cao do sự gần gũi của các giá trị đặc trưng với đường ranh giới quyết định Ví dụ như báo đốm thường bị nhầm với báo gấm do có một vài điểm tương đồng Ví dụ có thể xem ở cột
3 của Hình 2.6
Tóm lại, NCAR đại diện cho nhiễu ngẫu nhiên xảy ra độc lập với cả lớp đúng
và giá trị đặc trưng NAR đại diện cho nhiễu ngẫu nhiên chỉ phụ thuộc vào nhãn của
dữ liệu, trong khi NNAR đại diện cho nhiễu phức tạp hơn trong đó xác suất gán nhãn sai bị ảnh hưởng cả bởi nhãn đúng và giá trị đặc trưng
2.3.4 Các phương thức tiếp cận khi đối phó với nhiễu nhãn
Có rất nhiều phương thức tiếp cận đối phó với nhiễu nhãn, mỗi phương thức lại chia thành nhiều phương pháp và mỗi phương pháp lại gồm nhiều cách thức và biến thể Việc này là đễ hiểu bởi mỗi lĩnh vực nghiên cứu đều có những đặc điểm riêng về
dữ liệu và mục đích khác nhau Theo [21], có 3 hướng tiếp cận chính khi đối phó với nhiễu nhãn
Hướng tiếp cận đầu tiên là dựa trên các thuật toán vốn sẵn có tính chống nhiễu nhãn Nhóm này coi nhiễu nhãn và nhiễu thuộc tín là như nhau và cố gắng tăng độ phức tạp của mô hình phân loại cũng như số lượng mẫu lớn để có thể tối thiểu hóa ảnh hưởng của 2 loại nhiễu nói chung Nói cách khác, việc học của các thuật toán này phần nào giúp kháng lại tác động của nhiễu Thực tế cũng ủng hộ cho luận điểm của phương pháp này khi nhiều nghiên cứu đã chỉ ra rằng một số thuật toán ít bị ảnh hưởng bởi nhiễu nhãn hơn những thuật toán khác Tuy nhiên, nhiễu nhãn thực sự không được xem xét là một yếu tố quan trọng hoặc thậm chi không được nhắc tới trong các phương pháp thuộc nhóm này Xử lý nhiễu nhãn được xử lí trong việc tránh
quá khớp (overfitting) khi huấn luyện Nhóm 1 này là hướng tiếp cận được sử dụng
nhiều nhất trong lĩnh vực xử lí tín hiệu điện não Tuy nhiên nhóm này sẽ không phù hợp với các nghiên cứu y sinh như xử lí tín hiệu EEG do hạn chế về số lượng mẫu
Trang 39LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Thứ hai, một phương pháp để cải thiện chất lượng dữ liệu huấn luyện khỏi ảnh hưởng của nhiễu nhãn là sử dụng các phương pháp lọc Nhóm 2 có xu hướng coi nhiễu nhãn là một dạng outliers của các dữ liệu có cùng nhãn do tính chất khác biệt của nó với các mẫu khác có cùng nhãn Trong trường hợp này, các nhãn nhiễu thường được xác định và xử lý trước quá trình huấn luyện trong bước tiền xử lí Các trường hợp bị gán nhãn sai có thể được chỉnh sửa hoặc đơn giản là loại bỏ từ đầu Các phương pháp lọc này thường có chi phí thấp và dễ dàng triển khai, nhưng một số trong số chúng có thể gây mất mát một lượng dữ liệu đáng kể nếu đặt ngưỡng không phù hợp, chẳng hạn như lọc Outliers Tuy nhiên hướng tiếp cận này lại thường nhận nhầm các mẫu dữ liệu nhãn sạch và do đó dẫn đến mất cân bằng giữa các lớp cũng như giảm số lượng mẫu thu được Trong mục 4.9 của đề tài này có so sánh hiệu quả của nhóm này
so với quy trình được đề xuất
Cuối cùng là theo hướng kết hợp nhiễu nhãn thành một phần trong bước xây dựng mô hình hoặc phân tích dữ liệu Phương pháp này tách bạch nhiễu nhãn và dữ liệu riêng và xây dựng mô hình dựa trên các tiêu chí giả định đặt sẵn để huấn luyện Lợi điểm là sau khi huấn luyện, không chỉ ta có thể thu được các phân loại mà còn tách riêng được các điểm nhiễu Quy trình được để xuất trong đề tài này cũng có thể được xếp vào nhóm này
Để dẽ dàng hình dung Benoît Frénay và Michel Verleysen và cộng sự [21] đã tổng hợp một số các phương pháp phổ biến cho mỗi hướng tiếp cận Bảng này được dịch lại như trong Bảng 2.2
Trang 40LUẬN VĂN TỐT NGHIỆP TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Bảng 2.2 Tổng hợp các phương pháp đối phó với nhiễu nhãn [21]
Nhóm 1: Thuật toán kháng nhiễu nhãn Nhóm 3A: Gộp nhiễu nhãn theo xác xuất
• Phân loại chống thiếu sót
• Phương pháp kết hợp như LogitBoost,
BrownBoost hay cực đại hóa Margin
• Phân chia tiêu chí, cây phân loại
• Xác xuất hậu nghiệm Basyesian, bao gồm xác xuất nhiễu, hidden Markov model, đồ thị hóa, chỉ số đa biến
• Tần xuất xảy ra của dữ liệu, bao gồm Mixture Model hay các mô hình tương tự
• Phân tích cụm
• Hàm tin cậy
Nhóm 2: Sử dụng các bộ lọc Nhóm 3B: Gộp nhiễu nhãn theo model
• Dựa trên chỉ số tin cậy hay độ phức tạp
• Bộ lọc dựa trên mô hình (bao gồm cấu trúc
cục bộ, bỏ phiếu và lọc một phần)
• Theo độ ảnh hưởng và tính nội tại
• Dựa theo ý tưởng khoảng cách của KNN
• KNN nhưng dưới dạng biểu đồ
• Phương pháp kết hợp
• Kết hợp nhúng dữ liệu và phân loại, ví dụ SVM
• Mạng ANN tùy biến
• Cây quyết định (Decision Tree)
• Phương pháp tăng cường (Boosting methods)
• Học bán giám sát (semi-supervised)
Tổng quan về phân tích cụm
2.4.1 Khái niệm về cụm dữ liệu
Cho một tập hợp các đối tượng dữ liệu (đối tượng, mẫu đo, các trường hợp, các quan sát, các đơn vị) việc phân cụm cho các dữ liệu là chia chúng thành một số cụm (nhóm, loại, hoặc tập con) nhằm khám phá cấu trúc tiềm ẩn và cung cấp những thông tin hữu ích cho các phân tích về sau trên tập dữ liệu Tuy nhiên, không có một định nghĩa chính xác và được đồng thuận phổ biến về khái niệm "cụm", một phần do tính chủ quan của phân cụm, làm cho việc đánh giá tương đối hiệu quả của các kỹ thuật phân cụm trở nên tương đối khó khăn [24] Định nghĩa tốt nhất sẽ khác nhau từ vấn