Phân lớp dữ liệu

Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp.

25 Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào).

Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.

Hình 11 Mô hình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”) Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.

•Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

•Bước 2.2: Phân lớp dữ liệu mới

2.3.1. Mô hình cây quyết định

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.

26 Màn hình thực hiện qua Orange

2.3.2. Mô hình SVM

SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.

SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.

Màn hình thực hiện trên Orange

2.3.3. Mô hình hồi quy Logistics

Định nghĩa: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)

Mô tả về bài toán phân lớp bằng hồi quy Logistic:

Tập nhãn y={y1,y2,y3,...,yn} với n là số lớp

Một đối tượng dữ liệu x={x1,x2,x3,...,xn} với d là thuộc tính mỗi dòng dữ liệu được biểu diễn dướu dạng vector

Hàm logistic P(y=1)=11+e-(w0+w1x1+w2x2+...+wdxd) dự đoán đối tường xem đối tượng x sỡ hữu các thuộc tính cụ thể sẽ thuộc vào lớp y nào.

Màn hình thực hiện trên Orange

2.3.4. Mô hình Neraul Networking

Neural Network tương tự như bộ não của con người, nó sẽ kết nối các nút đơn giản và các nút này sẽ tạo thành một mạng lưới. Do đó, nó được xem là hệ thống của các tế bào thần kinh nhân tạo. Trong Neural Network, một loạt các thuật toán sẽ được sử dụng với mục đích xác định và nhận ra tất cả các mối quan hệ có trong các tập dữ liệu.

2.3.5 Đánh giá mô hình phần lớp:

Đánh giá qua Test and score của Orange, các chỉ số đánh giá mô hình bao gồm AUC, ROC, F1-score,...

• Cross-validation.

Phương pháp tốt nhất để đánh giá 1 mô hình học máy đó là cross-validation. Cross- validation là một phương pháp kiểm tra độ chính xác của 1 máy học dựa trên một tập dữ liệu học cho trước. Thay vì chỉ dùng một phần dữ liệu làm tập dữ liệu học thì cross- validation dùng toàn bộ dữ liệu để dạy cho máy. Ở bài này mình sẽ sử dụng K-fold, đây là phương pháp dùng toàn bộ dữ liệu và chia thành K tập con. Quá trình học của máy có K lần. Trong mỗi lần, một tập con được dùng để kiểm tra và K-1 tập còn lại dùng để dạy.

• Confusion Matrix

Một phương pháp tốt hơn để đánh giá performance của mô hình phân lớp đó là confusion matrix (ma trận nhầm lẫn). Ý tưởng chính là đếm số lần phần tử thuộc class A bị phân loại nhầm vào class B.

Để thực hiện tính toán ma trận nhầm lẫn, đầu tiên bạn phải có kết quả các dự đoán và so sánh với nhãn thật của nó. Nghĩa là chúng ta phải dự đoán trên tập test, sau đó dúng kết quả dự đoán này để so sánh với nhãn ban đầu.

Ma trận nhầm lẫn sẽ cho chúng ta nhiều thông tin về chất lượng của bộ phân lớp.

TP (True Positive): Số lượng dự đoán chính xác. Là khi mô hình dự đoán đúng một số là số 5.

TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp. Là khi mô hình dự đoán đúng một số không phải số 5, tức là việc không chọn trường hợp số 5 là chính xác.

FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch. Là khi mô hình dự đoán một số là số 5 và số đó lại không phải là số 5

28 FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách gián tiếp.

Là khi mô hình dự đoán một số không phải số 5 nhưng số đó lại là số 5, tức là việc không chọn trường hợp số 5 là sai.

• Precision and Recall

Precision: Trong tất cả các dự đoán Positive được đưa ra, bao nhiêu dự đoán là chính xác? Chỉ số này được tính theo công thức

Recall: Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác? Chỉ số này được tính theo công thức:

• F1-SCORE

Để kết hợp 2 chỉ số này, người ta đưa ra chỉ số F1-score

Một mô hình có chỉ số F-score cao chỉ khi cả 2 chỉ số Precision và Recall để cao. Một trong 2 chỉ số này thấp đều sẽ kéo điểm F-score xuống. Trường hợp xấu nhất khi 1 trong hai chỉ số Precison và Recall bằng 0 sẽ kéo điểm F-score về 0. Trường hợp tốt nhất khi cả điểm chỉ số đều đạt giá trị bằng 1, khi đó điểm F-score sẽ là 1.

Tuy nhiên thì không phải lúc nào ta cũng cần đến F1, 1 vài trường hợp ta chỉ quan tâm đến precision, 1 vài trường hợp ta quan tâm đến recall. Ví dụ, nếu bạn huấn luyện 1 mô hình để phát hiện video an toàn cho trẻ em, bạn phải sử dụng bộ phân lớp mà có thể bỏ sót nhiều video an toàn (recall thấp) nhưng ít bỏ qua các video không an toàn (high precision).

Hay còn gọi là giết nhầm còn hơn bỏ sót, thà không hiển thị video an toàn còn hơn là hiển thị video không an toàn.

Phân cụm theo phương pháp Hierchical Clustering

Phân cụm theo phương pháp K-mean