Kết quả quá trình giảm chiều dữ liệu

Một phần của tài liệu Nghiên cứu phương pháp cải thiện độ chính xác của chẩn đoán tâm thần phân liệt dựa trên điện não đồ sử dụng học máy (Trang 91 - 93)

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT VỀ ĐIỆN NÃO ĐỒ

4.4 Kết quả quá trình giảm chiều dữ liệu

Theo cách chọn số principal components được trình bày trong mục 3.2.3, số principal components được chọn sao cho lượng thơng tin hao hụt từ thơng tin gốc so với thơng tin sau PCA là 1%, hay nĩi cách khác là bảo tồn được 99% thơng tin ban đầu. Thực hiện giảm chiều giữ liệu bằng phương pháp PCA cho bộ dữ liệu gồm 57 đặc trưng trích xuất từ tín hiệu EEG của bệnh nhân TTPL và các đối chứng khỏe mạnh (19 kênh, mỗi kênh lấy các đặc trưng: Hjorth mobility, Hjorth complexity, entropy hốn vị) cho thấy số principal components lớn hơn 12 thì thơng tin được bảo tồn trên 99% (Hình 4-8). Vậy số principal components

kđược chọn là lớn hơn 12.

Hình 4-8 Kết quả thực hiện PCA với k từ 1 đến 57, với k lớn hơn 11 thì trên 99% thơng tin ban đầu được bảo tồn

Khi tiến hành thực nghiệm với số k = 12, độ chính xác phân loại ở tập kiểm tra giảm so với khơng thực hiện PCA. Hình 4-9 cho thấy với k trong khoảng từ 15 đến 19 cho kết quả accuracy và f1 score ở cả tập train và tập kiểm tra đều cao, nếu tăng k thì kết quả phân loại của tập train cao nhưng tập kiểm tra giảm xuống, hiện tượng over-fitting xảy ra.

Để chọn tham số k tốt nhất cho bài tốn phát hiện bệnh nhân TTPL cần qua những bước sau:

- Thực hiện PCA trên bộ dữ liệu 57 đặc trưng với k từ 15 đến 19, thu được 7 bộ dữ liệu.

80 - Chọn bộ phân lớp baseline (bộ phân lớp cĩ performance cao, các tham số mặc định) dùng chung cho tất cả dữ liệu thu được từ quá trình PCA với tất các trường hợp của k.

Hình 4-9 Kết quả phân loại của mơ hình SVM với dữ liệu qua thực hiện PCA với k từ 1 đến 57

Huấn luyện 7 bộ phân lớp sử dụng 7 bộ dữ liệu tương ứng với các giá trị của k.

- Đánh giá kết quả của từng mơ hình phân lớp. kđược chọn theo các tiêu chí: mơ hình tương ứng cho kết quả tốt nhất và k nhỏ nhất.

Hình 4-10 Kết quả phân loại của mơ hình SVM với dữ liệu qua thực hiện PCA với k từ 15 đến 19. Các tham số accuracy và f1 là trung bình của 30 lần thực

81 Vì số mẫu trong bộ dữ liệu khơng lớn (nhỏ hơn 1000 mẫu) nên kết quả phân loại trên tập kiểm tra bị ảnh hưởng lớn bởi cách tạo tập train và tập kiểm tra. Vì vậy, để quá trình chọn kđược khách quan, thực hiện quy trình trên 30 lần, kết quả accuracy và f1 score sẽ được tính là kết quả trung bình qua 30 lần thực hiện. Hình 4-10 mơ tả các tham sốđánh giá mơ hình SVM với k từ15 đến 19. Từ Hình 4-10, cĩ thể thấy k = 18 cho kết quả tốt nhất trên cả tập train và tập kiểm tra. Vậy chọn k = 18.

Một phần của tài liệu Nghiên cứu phương pháp cải thiện độ chính xác của chẩn đoán tâm thần phân liệt dựa trên điện não đồ sử dụng học máy (Trang 91 - 93)