3.3.3 Các tham số đánh giá mơ hình
Việc đánh giá mơ hình phân loại là phù hợp và cĩ thể ứng dụng hay khơng dựa trên một số tham số được trình bày sau đây. Các dữ liệu được dự đốn dựa trên mơ hình học máy cĩ thể rơi vào các trường hợp được liệt kê trong Bảng 3-4.
Bảng 3.3.Các kết quả phân lớp
Thực tế Dự đốn Positive Negative
Positive True positive (TP) False negative (FN) Negative False positive (FP) True negative (TN)
- True positive: cả thực tế và kết quả dự đốn đều là positive.
- True negative: cả thực tế và kết quả dự đốn đều là negative.
- False positive: thực tế là negative nhưng mơ hình dự đốn là positive.
- False negative: thực tế là positive nhưng mơ hình dự đốn là
negative.
Bài tốn phân loại lý tưởng là bài tốn chỉ cĩ TP và TN, khơng cĩ bất kỳ mẫu nào bị phân loại sai (FP và FN), mơ hình dự đốn đúng tuyệt đối. Thực tế, trường
hợp đĩ khĩ cĩ thể xảy ra, đặc biệt với dữ liệu cĩ cấu trúc phức tạp. Một mơ hình
phân loại tốt nếu cĩ FP và FN nhỏ, cụ thể các bài tốn về phân loại trong y tế thường yêu cầu FN rất nhỏ để khơng để sĩt trường hợp positive.
36
Accuracy
Accuracy là độ chính xác trong phân loại của mơ hình. Cơng thức tính Accuracy:
𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝑟𝑟𝑎𝑎𝐴𝐴𝑦𝑦 = 𝑇𝑇𝑃𝑃+𝑇𝑇𝑇𝑇𝑇𝑇𝑃𝑃++𝑇𝑇𝑇𝑇𝐹𝐹𝑃𝑃+𝐹𝐹𝑇𝑇
Trong trường hợp số lượng mẫu khơng cân bằng (ví dụ: tổng số mẫu dương tính chỉ chiếm 0.01%) thì nếu mơ hình dự đốn tất cả kết quả là negative, mơ hình sẽ cĩ Accuracy = 99.9% nhưng mơ hình đĩ khơng phải một mơ hình tốt. Vì vậy cần cĩ các tham số Precision, Recall và F1 score làm tiêu chuẩn đánh giá mơ hình.
Precision
Precision là tỷ lệ số mẫu được dự đốn dương tính là đúng trên tổng số mẫu được dự đốn là dương tính.
𝑃𝑃𝑟𝑟𝑃𝑃𝐴𝐴𝑖𝑖𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃+𝐹𝐹𝑃𝑃
Recall
Recall là tỷ lệ số mẫu được dự đốn dương tính là đúng trên tổng số mẫu thực tế là dương tính.
𝑅𝑅𝑃𝑃𝐴𝐴𝑎𝑎𝑙𝑙𝑙𝑙 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃+𝐹𝐹𝑇𝑇
F1 score
F1 score là tham số kết hợp giữa Precision và Recall:
𝐹𝐹1 𝑠𝑠𝐴𝐴𝑙𝑙𝑟𝑟𝑃𝑃 = 2𝑃𝑃𝑟𝑟𝑃𝑃𝐴𝐴𝑖𝑖𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛𝑃𝑃𝑟𝑟𝑃𝑃𝐴𝐴𝑖𝑖𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛 ∗ 𝑅𝑅𝑃𝑃𝐴𝐴𝑎𝑎𝑙𝑙𝑙𝑙+𝑅𝑅𝑃𝑃𝐴𝐴𝑎𝑎𝑙𝑙𝑙𝑙
F1 càng tiệm cận 1 thì mơ hình cĩ Precision và Recall càng cao (gần 1), cho thấy đĩ là một mơ hình dự đốn tốt và ngược lại [40].
AUC (Area under the ROC curve)
ROC là đường phụ thuộc vào tỷ lệ True Positive và True Negative, nếu hai tỷ lệ này càng lớn thì đường ROC càng cong lên, khiến vùng diện tích dưới đường ROC (Area under the ROC curve – AUC) càng lớn. Vậy một mơ hình phân loại
tốt là mơ hình cĩ AUC lớn. Hình 3-8 mơ tả đường ROC màu đỏ và và AUC là
37
Hình 3. 8.Area under the ROC curve (AUC) 3.3.4 Một số bộ phân loại
Trong bài tốn phân loại, cĩ rất nhiều bộ phân loại với các thuật tốn, ứng dụng và hiệu suất rất khác nhau. Với bài tốn phân loại nhị phân, cĩ thể kể đến một vài thuật tốn phân loại hiệu quả như Support Vector Machine, Decision Tree, K-Nearest Neighbor, Nạve Bayes…
3.3.4.1. Decision Tree
Con người đưa ra các quyết định thường bắt đầu bằng việc quan sát, suy nghĩ và đặt các câu hỏi. Trong học máy cũng cĩ một mơ hình dựa trên các câu hỏi để ra quyết định, cĩ tên là cây quyết định (Decision Tree).
Hình 4-9 minh họa ví dụ phân loại sử dụng mơ hình Decision Tree với hai class màu xanh và đỏ trên khơng gian hai chiều. Bài tốn yêu cầu tìm ranh giới đơn giản giúp phân chia hai class này. Đây là một bài tốn phân loại, ta cần xây dựng một bộ phân loại giúp quyết định một điểm dữ liệu mới thuộc vào class nào. Quan sát hình ta thấy ranh giới cho hai class là các đường song song với các trục
toạ độ. Nếu một điểm cĩ thành phầntung độ (y) lớn hơn ngưỡng y1, ta quyết định
ngay được rằng nĩ thuộc class xanh. Nếu một điểm cĩ thành phần tung độ (y) nhỏ hơn ngưỡng y1 và thành phần hồnh độ (x) nhỏ hơn ngưỡng x1 cũng thuộc class xanh. Các điểm khơng thoả mãn các điều kiện trên được xếp vào class đỏ. Việc ra
quyết định một điểm thuộc class nào được mơ tả trên Decision Tree Hình 3-9.
Decision tree dùng cấu trúc cây để đưa ra một hàm phân lớp cần học. Một
decision tree cĩ thể được biểu diễn bằng một tập các luật if-then dễ hiểu và áp dụng
hiệu quả trong rất nhiều các bài tốn ứng dụng thực tế. Trong mơ hình Decision
38 hiện đầu ra (màu xanh và đỏ) được gọi là node lá (leaf node hay terminal node).
Các node thể hiện câu hỏi là các non-leaf node. Non-leaf node trên cùng (câu hỏi
đầu tiên) được gọi là node gốc (root node). Các non-leaf node nhiều hơn hai node
con (child node). Các child node này cĩ thể là một leaf node hoặc một non-leaf
node khác. Các child node cĩ cùng bố mẹ được gọi là sibling node. Nếu tất cả các
non-leaf node chỉ cĩ hai child node, cây quyết định đĩ được gọi là binary decision
tree (cây quyết định nhị phân).
Hình 3. 9.Ví dụ bài tốn sử dụng mơ hình Decision tree [42]
Biểu diễn của Decision tree:
-Root node (node gốc) là một thuộc tính bất kỳ, sử dụng để tạo nhánh và tạo
các decision nodes.
-Mỗi decision node (node quyết định) biểu diễn một thuộc tính cần kiểm tra
giá trị đối với các quan sát.
-Mối branch (nhánh) từ một node sẽ tương ứng với một giá trị cĩ thể của
thuộc tính gắn với node đĩ.
-Mỗi leaf node (node lá) biểu diễn một lớp
-Một decision tree sẽ thực hiện phân lớp cho một quan sát bằng cách duyệt
cây từ root đến leaf node. Nhãn lớp gắn với leaf node đĩ sẽ được gán cho mẫu.
-Mỗi đường đi (path) từ root node đến leaf node tương ứng với một kết hợp
(conjunction) của các kiểm tra giá trị thuộc tính (attribute tests).
-Decision tree chính là một phép tuyển (disjunction) của các kết hợp
(conjunction).
Hạn chế lớn nhất Decision Tree là việc nếu một điểm dữ liệu mới rơi vào nhầm nhánh ở ngay những node quyết định đầu tiên, kết quả cuối cùng sẽ khác đi rất nhiều. Việc rơi vào nhầm nhánh này rất dễ xảy ra trong trường hợp thuộc
39 tính liên tục được chia thành nhiều nhĩm nhỏ, hai điểm cĩ thuộc tính tương ứng rất gần nhau cĩ thể rơi vào hai nhĩm khác nhau.
3.3.4.2. K-Nearest Neighbor (k-NN)
k-NN là một trong những thuật tốn supervised-learning đơn giản nhất trong
học máy, thuộc nhĩm lazy learner. Khi training, thuật tốn này khơng học điều gì
từ dữ liệu huấn luyện (do đĩ được xếp vào loại lazy learning), mọi tính tốn được
thực hiện khi nĩ cần dự đốn kết quả của dữ liệu mới. Ý tưởng của k-NN là khơng
xây dựng một mơ hình mơ tả rõ ràng cho hàm mục tiêu cần học mà quá trình học chỉ lưu lại các training data, việc dự đốn cho một quan sát mới sẽ dựa vào các lân cận gần nhất (nearest neighbor). Việc xác định nearest neighbor được dựa trên độ đo tương đồng giữa các đối tượng. Trong đĩ, k là số lân cận được sử dụng cho quá trình tính tốn giá trị dự đốn.
Trong bài tốn Classification sử dụng phương pháp K-NN, nhãn (đầu ra) của
một điểm dữ liệu mới được suy luận trực tiếp từ K điểm dữ liệu gần nhất trong tập huấn luyện. Đầu ra của một dữ liệu trong tập kiểm thử được quyết định bằng major voting giữa các điểm gần nhất, hoặc nĩ cĩ thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi trong các điểm gần nhất.
Như vậy, K-NN là thuật tốn đi tìm đầu ra của một điểm dữ liệu mới bằng cách
chỉ dựa trên thơng tin của K điểm dữ liệu trong tập huấn luyện gần nĩ nhất (K-lân
cận. Hình 3-10 là một ví dụ về K-NN trong bài tốn phân loại với K = 1.