TỔNG KẾT CHƯƠNG 2

Trong phần này, Tôi đề cập tới hai mô hình quan trọng trong Máy học: Support Vector Machine và Logistic Regression.

Support vector machine là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể. Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới. Mô hình SVM xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực giác, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé.

Tôi cũng đề cập tới cách thức xây dựng siêu phẳng tuyến tính và sử dụng lề cứng (hard – margin), lề mềm (soft – margin); cách tìm các support vectors; xác định các hàm nhân (kernels). Để hiểu rõ tính đúng đắn của thuật toán cần hiểu được những khái niệm trong bài toán tối ưu: Điều kiện Karush–Kuhn–Tucker (KKT conditions) [5], phương pháp nhân tử Lagrange (Lagrange multiplier) [6], quy hoạch toàn phương (quadratic programming) [7]. Những kiến thức liên quan cụ thể tới SVM đã được chứng minh trong [3] và [2] (Chương 9).

Mô hình hồi quy Logistic dùng hàm biến đổi logarit cho biến đầu ra để biến mô hình từ quan hệ phi tuyến tính sang tuyến tính. Nói một cách khác, nó biểu diễn quan hệ hồi quy tuyến tính dưới dạng hàm logarit, nên đôi khi nó cũng được gọi là Logit Regression.

Mô hình Logistic có một giả định rằng biến phụ thuộc (dự đoán) có giá trị rời rạc. Nếu biến dự đoán chỉ lấy hai giá trị rời rạc, đó là mô hình Binary Logistic Regression. Nếu biến dự đoán lấy nhiều hơn hai giá trị, đó là mô hình Multinomial Logistic Regression.

Luận văn này chỉ tập trung vào Binary Logistic Regression, nó rất hay được sử dụng trong thực tế, ví dụ khi bài toán liên quan tới dự báo: Có/không, thành công/thất bại, sống/chết, qua/trượt, bị bệnh/không bị, chấp nhận/từ chối, nam/nữ, v.v...

Binary Logistic Regression được xem như là một trong những thuật toán quan trọng bậc nhất trong Máy học.

CHƯƠNG 3

ÁP DỤNG THUẬT TOÁN SUPPORT VECTOR MACHINE VÀ LOGISTIC REGRESSION ĐỂ DỰ ĐOÁN BỆNH THẬN

ỨNG DỤNG CỦA MÁY HỌC

MÔ HÌNH SUPPORT VECTOR MACHINE