Các phương pháp đánh giá định lượng cho kết quả ph- 123docz.net

Với các nghiên cứu cho dữ liệu đa thơng số, việc thực hiện các đánh giá định lượng cho kết quả phân loại là rất cần thiết. Việc đánh giá này gồm 2 phần: phân chia dữ liệu huấn luyện thành các tập con và tính tốn các thơng số thống kê trung bình trên kết quả phân loại của tập con đĩ. Việc phân chia thành các tập con được thực hiện bằng phương pháp xác thực chéo (Cross-Validation) cịn việc tính tốn các thơng số thống kê được thực hiện trên ma trận nhầm lẫn (Confusion Matrix) của kết quả phân loại. Ngồi ra, để khảo sát hiệu quả của việc sử dụng đường thẳng chia miền d: y=x+b như trình bày ở mục 3.5.6.2, chúng tơi cũng se tiến hành tính tốn đường cong ROC của kết quả phân loại khi thay đổi giá trị b của đường thẳng phân loại d.

3.5.7.1 Phương pháp đánh giá chéo (Cross Validation - CV)

Trong thống kê xác thực chéo là phương pháp cải tiến của phương pháp xác thực truyền thống. Trong phương pháp xác thực truyền thống thì ta chia dữ liệu thành 2 phần là huấn luyện và xác thực và chỉ đánh giá kết quả trên một tập xác thực đã chọn ban đầu. Cịn trong phương pháp xác thực chéo ta chia dữ liệu thành nhiều tập con mơi tập con lại chia thành huấn luyện và xác thực. Sau đĩ chọn ra một phần xác thực của một tập con làm dữ liệu xác thực và tất cả các phần huấn luyện của các tập con cịn lại se được dùng làm dữ liệu huấn luyện cho mơ hình phân loại, từ đĩ tìm ra được mơ hình cho kết quả tốt nhất với tập dữ liệu. Tuỳ theo cách phân chia tập con ta cĩ 2 kiểu xác thực chéo chính: tồn diện và một phần. Trong kiểu tồn diện loại phổ biến nhất là Leave-one-out cross-validation (LOOCV), trong kiểu một phần loại phổ biến nhất là K-fold. Loại LOOCV tuy cĩ khối lượng tính tốn lớn hơn nhiều so với K-fold nhưng nĩ phù hợp với các tập dữ liệu cĩ số mẫu nhỏ hơn so với K-fold. Tuỳ vào số mẫu của dữ liệu và độ phức tạp của mơ hình phân loại được chọn mà ta se lựa chọn phương pháp CV cho phù hợp [58].

Đối với nghiên cứu này do số mẫu thu được từ 20 ca đo chỉ chọn ra được 198 mẫu dữ liệu nên chúng tơi quyết định sử dụng phương pháp LOOCV. Phương pháp này chọn 1 mẫu

làm dữ liệu kiểm tra (Test) và các dữ liệu cịn lại se làm dữ liệu huấn luyện (Train), từ đây đưa ra một kết quả huấn luyện. Bước tiếp theo se lại chọn một mẫu kế tiếp làm mẫu kiểm tra và lại được một kết quả huấn luyện khác, mơi lần lặp lại như vậy được gọi là một pha huấn luyện (Epoch iteration). Như vậy phương pháp LOOCV này se cĩ số pha huấn luyện bằng với số mẫu của tập dữ liệu. Kết quả đánh giá cho một mơ hình se là kết quả tổng của tất cả pha huấn luyện của mơ hình cĩ bộ tham số cho kết quả tối ưu nhất.

Hình 3.27 Mơ tả phương pháp LOOCV vẽ lại theo [58] .

3.5.7.2 Ma trận nhầm lẫn (Confusion Matrix)

Ma trận nhầm lẫn là một bảng với cách bố trí cho phép chúng ta trực quan hố được hiệu suất của thuật tốn phân loại. Mơi hàng của ma trận đại diện cho kết quả phân loại dự đốn và mơi cột đại diện cho kết quả phân loại thực tế hoặc ngược lại. Ma trận này giúp chúng ta dễ dàng xem xét liệu mơ hình phân loại được áp dụng cĩ gây ra nhầm lẫn trong việc phân loại hay khơng.

Hình 3.28 Minh hoạ cho ma trận nhầm lẫn sử dụng trong nghiên cứu này.

Dựa trên mơ hình của ma trận này, ta cĩ thể tính ra nhiều loại thơng số để biểu diễn hiệu quả phân loại trên nhiều phương diện khác nhau. Đối với nghiên cứu này, với mục tiêu phân biệt được cả hai loại trạng thái cảm xúc của não bộ là căng thẳng và thư giãn, chúng tơi se sử dụng các thơng số sau [59]: Độ chính xác (Accuracy), độ nhạy (Sensitivity), độ đặc hiệu (Specificity) giá trị dự đốn Positive (PPV), giá trị dự đốn Negative (NPV), Tỉ lệ loại trừ nhầm (FNR), Tỉ lệ phát hiện nhầm (FPR) và F1 score.

Đầu tiên, trước khi đi vào tính tốn trên ma trận nhầm lẫn, nghiên cứu này quy ước gọi trạng thái thư giãn là Positive, trạng thái căng thẳng là Negative. Như vậy ta se cĩ khái niệm và cơng thức tính các chỉ số như sau [59]:

Độ chính xác (Accuracy) của một mơ hình phân loại là tỷ lệ của tổng số kết quả mà mơ hình đĩ phân loại đúng với thực tế (cả Positive và Negative) chia cho tổng tất cả các kết quả. Nĩ cho thấy kết quả phân loại của mơ hình sát với thực tế như thế nào. Cơng thức:

𝐴𝑐𝑐��𝑎𝑐� = 𝑇�+𝑇�

�+� (33)

Độ nhạy (Sensitivity), cĩ cịn cĩ tên gọi khác là tỷ lệ nhận đúng các trường hợp Positive (TPR-True Positive Rate) của một mơ hình phân loại. Nĩ đĩng vai trị như accuracy của kết quả phân loại nhưng tính riêng trong lớp Positive. Cơng thức tính độ nhạy:

��𝑠𝑖�𝑖𝑣𝑖��(𝑇�𝑅) = 𝑇�

𝑇�+𝐹� (34)

Độ đặc hiệu (Specificity), tên gọi khác là tỷ lệ phát hiện đúng của lớp Negative (TNR – True Negative Rate) của một mơ hình phân loại cĩ ý nghĩa tương tự như độ nhạy nhưng dành cho lớp Negative. Cơng thức tính độ đặc hiệu:

�𝑝�𝑐𝑖�𝑖𝑐𝑖��(𝑇�𝑅) = 𝑇�

𝑇�+𝐹� (35)

Giá trị dự đốn Positive (Positve Predicion Value) là tỷ số dự đốn đúng của Positive trên tất cả các kết quả dự đốn là Positive, bất kể đúng hay sai. Tên gọi khác của PPV là độ chuẩn xác (Precision). Cơng thức tính PPV:

�� = 𝑇�

𝑇�+𝐹� (36)

Giá trị dự đốn Negative (Negative Predicion Value) là tỷ số dự đốn đúng của

Negative trên tất cả các kết quả dự đốn là Positive, bất kể đúng hay sai. Cơng thức tính NPV:

�� = 𝑇�

𝑇�+𝐹� (37)

Thơng số F1 score là giá trị tổng hợp tính từ độ chính xác và độ chuẩn xác. Nĩ thể hiện sự hài hồ giữa hai giá trị này. Giá trị lí tưởng của F1 score là bằng 1 khi Accuracy và Precision đều cao và tiệm cận về 1. Với các bài tốn phân loại nhiều hơn 2 lớp thì ta se cần phải tính thêm giá trị F1 macro. Cơng thức tính F1 score cho bài tốn phân loại hai lớp:

𝐹1 𝑠𝑐𝑜�� = 𝐴𝑐𝑐��𝑎𝑐�×��𝑐𝑖𝑠𝑖𝑜�𝐴𝑐𝑐��𝑎𝑐�+��𝑐𝑖𝑠𝑖𝑜� (38)

FPR (False Positive Rate) hay cịn gọi là tỉ lệ phát hiện nhầm của kết quả dự đốn Positive. Tỷ lệ này cho biết cĩ bao nhiêu phần trăm nhận sai Negative thành Positive.

Chỉ số cuối cùng là FNR (False Negative Rate), là tỉ lệ loại bỏ nhầm các trường hợp Negative. Nĩ cho biết cĩ bao nhiêu phần trăm trường hợp Negative bị bỏ sĩt khi dự đốn cho lớp Negative (nhận nhầm Negative thành Positive).

FNR = 1 – specifivity (40)

Tổng kết lại, nếu ta quan trọng việc nhận dạng lớp Positive (theo quy ước là thư giãn) thì mơ hình phân loại cho các giá trị Accuracy, Sensitivity, TPR cao và FPR thấp se được đánh giá cao. Ngược lại, nếu ta quan tâm việc nhận dạng Negative (theo quy ước là căng thẳng) thì các giá trị Accuracy, Specificity, NPV cao và FNP thấp se là mục tiêu hướng đến của mơ hình phân loại.

3.5.7.3 Đường cong ROC và giá trị AUC

Đường cong ROC (Receiver Operating Characteristic hoặc Receiver Operating Curve) là một đồ thị để đánh giá khả năng phân loại nhị phân của một mơ hình phân loại khi giá trị ngương thay đổi [59]. Cách thiết lập biểu đồ ROC là biểu diễn sự dao động của giá trị TPR theo FPR khi dịch chuyển ngương cắt phân loại khác nhau trên thang điểm 0-1 (hoặc 0- 100%). Một mơ hình phân loại tốt se cĩ đường ROC đi sát vào gĩc trái trên của đồ thị ROC, tương đương với độ rộng dãy đánh đổi TPR và FPR nhỏ, hay kết quả phân loại ít phụ thuộc vào giá trị ngương. Bên cạnh đĩ, khi đường cong ROC của một mơ hình sat về phía bên trái của đồ thị thì cĩ nghĩa sự đánh đổi của TPR là ít hơn so với FPR. Cũng trên đồ thị ROC này, một giá trị số để định lượng cho mức độ ơm sát gĩc trái trên của đường cong ROC là AUC - Area Under Curve hay diện tích dưới đường cong. Giá trị AUC càng xấp xỉ 1 thì đường ROC càng sát với gĩc trái trên, tức hiệu quả và tính cân bằng của mơ hình phân loại càng tốt [59]. Mơ tả về đồ thị ROC xem Hình 3.29.

Hình 3.29 Mơ tả đường cong ROC và diện tích dưới đường cong AUC [59].

Đối với nghiên cứu này, đường thẳng phân loại khơng phải là y = ngương mà là đường thẳng d: y=x+b với x và y thuộc [-1,1]. Do đĩ, giá trị ngương cần thay đổi se là giá trị b, và giới hạn của b se là từ -2 (giới hạn dưới) đến 2 (giới hạn trên). Xem Hình 3.30.

Hình 3.30 Mơ tả các đường thẳng phân loại thay đổi khi vẽ đồ thị ROC.

Như vậy:

- Nếu b = -2 se cho 100% kết quả dự đốn là thư giãn, tương ứng với TPR=1, FPR=0; - Nếu b = 2 se cho 100% kết quả dự đốn là căng thẳng, tương ứng với TPR=0, FPR=1;

CHƯƠNG 4

KẾT QUÃ VA BAN LUẬN

Các phương pháp đánh giá định lượng cho kết quả phân loại

Trạng thái căng thẳng (stress)

Tiến trình thu nhận dữ liệu