TỔNG KẾT CHƯƠNG 2

Một phần của tài liệu Nghiên cứu các giải thuật máy học và áp dụng vào bài toán dự đoán bệnh thận tại bệnh viện đa khoa tỉnh điện biên dùng ngôn ngữ python (Trang 59 - 61)

Trong phần này, Tôi đề cập tới hai mô hình quan trọng trong Máy học: Support Vector Machine và Logistic Regression.

Support vector machine là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể. Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới. Mô hình SVM xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực giác, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé.

Tôi cũng đề cập tới cách thức xây dựng siêu phẳng tuyến tính và sử dụng lề cứng (hard – margin), lề mềm (soft – margin); cách tìm các support vectors; xác định các hàm nhân (kernels). Để hiểu rõ tính đúng đắn của thuật toán cần hiểu được những khái niệm trong bài toán tối ưu: Điều kiện Karush–Kuhn–Tucker (KKT conditions) [5], phương pháp nhân tử Lagrange (Lagrange multiplier) [6], quy hoạch toàn phương (quadratic programming) [7]. Những kiến thức liên quan cụ thể tới SVM đã được chứng minh trong [3] và [2] (Chương 9).

Mô hình hồi quy Logistic dùng hàm biến đổi logarit cho biến đầu ra để biến mô hình từ quan hệ phi tuyến tính sang tuyến tính. Nói một cách khác, nó biểu diễn quan hệ hồi quy tuyến tính dưới dạng hàm logarit, nên đôi khi nó cũng được gọi là Logit Regression.

50

Mô hình Logistic có một giả định rằng biến phụ thuộc (dự đoán) có giá trị rời rạc. Nếu biến dự đoán chỉ lấy hai giá trị rời rạc, đó là mô hình Binary Logistic Regression. Nếu biến dự đoán lấy nhiều hơn hai giá trị, đó là mô hình Multinomial Logistic Regression.

Luận văn này chỉ tập trung vào Binary Logistic Regression, nó rất hay được sử dụng trong thực tế, ví dụ khi bài toán liên quan tới dự báo: Có/không, thành công/thất bại, sống/chết, qua/trượt, bị bệnh/không bị, chấp nhận/từ chối, nam/nữ, v.v...

Binary Logistic Regression được xem như là một trong những thuật toán quan trọng bậc nhất trong Máy học.

51

CHƯƠNG 3

ÁP DỤNG THUẬT TOÁN SUPPORT VECTOR MACHINE VÀ LOGISTIC REGRESSION ĐỂ DỰ ĐOÁN BỆNH THẬN

Một phần của tài liệu Nghiên cứu các giải thuật máy học và áp dụng vào bài toán dự đoán bệnh thận tại bệnh viện đa khoa tỉnh điện biên dùng ngôn ngữ python (Trang 59 - 61)