Phân loại dựa theo phương thức học

Một phần của tài liệu Ứng dụng học máy trong xây dựng hệ thống gợi ý,khoá luận tốt nghiệp (Trang 29 - 30)

2.2.1. a. Học có giám sát (Supervied Learning)

Học có giám sát là nhóm phổ biến nhất trong các thuật toán ML. Nhóm bao gồm các thuật toán dự đoán đầu ra (output) của một dữ liệu mới (new input) dựa trên các cặp (I/O) đã biết từ trước. Các cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn).

Một cách toán học, Học có giám sát là khi chúng ra có một tập hợp biến đầu vào X = i X1,X2,. . .,Xn } và một tập hợp nhãn tương ứng Y = {y1,y2, . . .,yn }, trong đó xj, yj là các vector. Các cặp dữ liệu biết trước (xj, yj) ∈ X × Y được gọi là tập training data (dữ liệu huấn luyện). Từ tập traing data này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tương ứng của tập Y: yj≈ f (xi), V i 1 ,2 ,..., N. Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có thể tính được nhãn tương ứng của nó y = f(x).

Ví dụ, trong bài toán nhận dạng chữ viết tay, input là ảnh của hàng nghìn chữ số được viết bởi nhiều người khác nhau. Thuật toán cần tạo ra một mô hình tức một hàm số mà đầu vào là một bức ảnh và đầu ra là một chữ số tương ứng, như vậy khi nhận được một bức ảnh mô hình sẽ dự đoán có chữ số nào trong đó.

Học có giám sát còn được tiếp tục chia ra thành hai loại chính là Phân loại (Classification) và Hồi quy (Regression).

Khóa luận tốt nghiệp Ứng dụng học máy trong xây dựng hệ khuyến nghị tự động

- Phân loại là bài toán có các nhãn (label) của dữ liệu đầu vào được chia thành một số hữu hạn nhóm. Ví dụ: nhận dạng email spam hay nhận diện khuôn mặt của Facebook.

- Nếu nhãn của dữ liệu đầu vào là một giá trị thực cụ thể (ví dụ: căn phòng X m2) thì bài toán đó gọi là Hồi quy.

2.2.1. b. Học không giám sát (Unsupervised Learning)

Học không giám sát khác với học có giám sát ở chỉ có dữ liệu đầu vào không biết được outcome hay label. Nói một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu vào X mà không biết nhãn Y tương ứng. Thuật toán sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó như phân nhóm (clustering) hoặc giảm số chiều dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán.

Học không giám sát cũng được chia tiếp thành hai loại là phân nhóm (Clustering) và khai phá luật kết hợp (Association).

- Phân nhóm là bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm. Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng.

- Khai phá luật kết hợp là bài toán giúp khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước. Ví dụ: những khách hàng mua sách thường có xu hướng mua thêm bút hoặc kẹp sách, từ đó có thể tạo ra một RS thúc đẩy nhu cầu mua sắm của khách hàng.

2.2.1. c. Học bán giám sát (Semi-Supervised Learning)

Học bán giám sát nằm giữa hai nhóm học có giám sát và học không giám sát. Nói theo cách toán học là dữ liệu X đầu vào lớn nhưng chỉ một phần trong chúng được gán nhãn. Trên thực tế, rất nhiều các bài toán ML thuộc vào nhóm này vì việc thu tập, gán nhãn dữ liệu tốn nhiều thời gian và chi phí.

2.2.1. d. Học tăng cường (Reinforcement Learning)

Học tăng cường là các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất. Các bài toán này đều không có cặp dữ liệu gán nhãn X, Y đầu vào.

Một phần của tài liệu Ứng dụng học máy trong xây dựng hệ thống gợi ý,khoá luận tốt nghiệp (Trang 29 - 30)

Tải bản đầy đủ (DOCX)

(69 trang)
w