Cĩ hai cách phổ biến phân nhĩm các thuật tốn học máy. Một là dựa trên phương thức học (learning style), hai là dựa trên chức năng (function) của mỗi thuật tốn [10].
a. Phân nhĩm dựa trên phương thức học
Trong phương thức học, các thuật tốn học máy được chia làm 4 nhĩm: học cĩ giám sát (Supervised learning), học khơng giám sát (Unsupervised learning), học bán giám sát (Semi-supervised learning) và học củng cố (Reinforcement learning). Trong một số trường hợp cĩ thể chia thành hai loại tổng quát là học cĩ giám sát và học khơng cĩ giám sát.
- Học cĩ giám sát (Supervised learning)
Học cĩ giám sát (Supervised learning) là thuật tốn dự đốn đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (đầu vào, đầu ra) đã biết trước được. Cặp dữ liệu này cịn được gọi là (dữ liệu, nhãn). Học cĩ giám sát là nhĩm phổ biến nhất trong các thuật tốn học máy.
Một cách tốn học, học cĩ giám sát là khi ta cĩ một tập hợp biến đầu vào và một tập hợp nhãn tương ứng trong đĩ xi, yi là các vector. Các cặp dữ liệu biết trước (xi, yi) thuộc XxY được gọi là dữ liệu đào tạo. Từ tập dữ liệu đào tạo này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tương ứng của tập Y:
Mục đích là xấp xỉ hàm số thật tốt để khi cĩ một dữ liệu x mới, chúng ta cĩ thể tính được nhãn tương ứng của nĩ .
Một ví dụ như trong nhận dạng chữ viết tay, ta cĩ ảnh của hàng nghìn ví dụ của mỗi chữ số được viết bởi nhiều người khác nhau. Chúng ta đưa các bức ảnh này
vào trong một thuật tốn và chỉ cho nĩ biết mỗi bức ảnh tương ứng với chữ số nào. Sau khi thuật tốn tạo ra (sau khi đã học) một mơ hình, tức một hàm số mà đầu vào là một bức ảnh và đầu ra là một chữ số, khi nhận được một bức ảnh mới mà mơ hình chưa nhìn thấy bao giờ, nĩ sẽ dự đốn bức ảnh đĩ chứa chữ số nào.
Ví dụ trên khá giống với cách học của con người khi cịn nhỏ. Ta đưa bảng chữ cái cho một đứa trẻ và chỉ cho chúng đây là chữ A, đây là chữ B. Sau một vài lần được dạy thì trẻ cĩ thể nhận biết được đâu là chữ A, đâu là chữ B. Sau một vài lần được dạy thì trẻ cĩ thể nhận biết đâu là chữ A, đâu là chữ B trong một cuốn sách mà chúng chưa nhìn thấy bao giờ.
Trong thuật tốn Học cĩ giám sát ta cĩ thể chia nhỏ thành hai loại chính: Phân loại (Classification)
Một bài tốn được xếp vào nhĩm Phân loại nếu các nhãn của dữ liệu đầu vào được chia thành một số hữu hạn nhĩm. Ví dụ với dịch vụ thư điện tử Gmail (một dịch vụ của Google) cĩ thể xác định một email cĩ phải là thư rác hay khơng; các ngân hàng cĩ thể xác định một khách hàng cĩ khả năng thanh tốn nợ hay khơng.
Hồi quy (Regression)
Nếu nhãn khơng phân chia thành nhĩm mà là một giá trị thực cụ thể.
- Học khơng giám sát (Unsupervised learning)
Với thuật tốn này đầu ra và nhãn khơng được biết mà chỉ cĩ dữ liệu đầu vào. Thuật tốn học cĩ giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một cơng việc nào đĩ, ví dụ phân nhĩm hoặc giảm số chiều của dữ liệu để thuận tiện trong việc lưu trữ và tính tốn.
Một cách tốn học, học khơng giám sát là khi chúng ta chỉ cĩ dữ liệu đầu vào X mà khơng biết nhãn Y tương ứng.
Những thuật tốn loại này được gọi là Học khơng giám sát vì khơng giống như Học cĩ giám sát, chúng ta khơng biết câu trả lời chính xác cho mỗi dữ liệu đầu vào. Giống như việc đi học khi khơng cĩ thầy cơ giáo nào chỉ cho chúng ta biết đĩ là chữ A hay chữ B. Cụm từ khơng giám sát được đặt tên theo nghĩa này.
Các bài tốn Học khơng giám sát cĩ thể được chia nhỏ thành 2 loại: Phân nhĩm (Clustering)
Một bài tốn phân nhĩm tồn bộ dữ liệu X thành các nhĩm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhĩm.
Sự kết hợp (Association)
Đây là bài tốn khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước. Một ví dụ cho bài tốn này là những khách hàng nam mua quần áo thường cĩ xu hướng mua thêm đồng hồ hoặc thắt lưng.
- Học bán giám sát (Semi-supervised learning)
Các bài tốn khi cĩ một lượng dữ liệu lớn X nhưng chỉ một phần trong chúng được gán nhãn được gọi là Học bán giám sát. Bài tốn như vậy nằm giữa 2 nhĩm Học cĩ giám sát và Học khơng giám sát.
Một ví dụ điển hình của nhĩm này là chỉ cĩ một phần ảnh hoặc văn bản được gán nhãn và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet. Thực tế rất nhiều bài tốn học máy thuộc nhĩm này vì việc thu thập dữ liệu cĩ nhãn tốn rất nhiều thời gian và cĩ chi phí cao. Rất nhiều dữ liệu thậm chí cần phải cĩ chuyên gia mới gán nhãn được (ảnh y học,...). Ngược lại, dữ liệu chưa cĩ nhãn cĩ thể được thu thập với chi phí thấp từ internet.
- Học củng cố (Reinforcement learning)
Học củng cố là bài tốn giúp cho một hệ thống tự động xác định hành vi dựa trên hồn cảnh để đạt được lợi ích cao nhất. Hiện tại, Học củng cố chủ yếu được áp dụng chủ yếu vào lý thuyết trị chơi, các thuật tốn cần xác định nước đi tiếp theo để đạt được điểm số cao nhất.
b. Phân nhĩm dựa trên trên chức năng
- Nhĩm thuật tốn hồi quy
Trong nhĩm thuật tốn hồi quy cĩ các thuật tốn cơ bản như: Thuật tốn hồi quy tuyến tính
Thuật tốn hồi quy Logistic Thuật tốn hồi quy từng bước - Nhĩm thuật tốn phân loại
Trong nhĩm thuật tốn phân loại cĩ các thuật tốn cơ bản như: Thuật tốn phân loại tuyến tính
Thuật tốn phân loại dựa trên biểu hiện thưa - Nhĩm thuật tốn dựa trên cá thể
Trong nhĩm thuật tốn dựa trên cá thể cĩ các thuật tốn cơ bản như: Thuật tốn K – Láng giềng gần nhất
Thuật tốn học lượng tử vector - Nhĩm thuật tốn chuẩn hĩa
Trong nhĩm thuật tốn chuẩn hĩa cĩ các thuật tốn cơ bản như: Thuật tốn hồi quy Ridge
Thuật tốn LASSO
Thuật tốn hồi quy gĩc nhỏ nhất - Nhĩm thuật tốn Bayesian
Trong nhĩm thuật tốn Bayesian cĩ các thuật tốn cơ bản như: Thuật tốn Navie Bayes
Thuật tốn Gaussian Navie Bayes - Nhĩm thuật tốn phân cụm
Trong nhĩm thuật tốn phân cụm cĩ các thuật tốn cơ bản như: Thuật tốn K-Means
Thuật tốn K-Medians
Thuật tốn cực đại hĩa kỳ vọng (EM) - Nhĩm thuật tốn mạng noron nhân tạo
Trong nhĩm thuật tốn mạng noron nhân tạo cĩ các thuật tốn cơ bản như: Thuật tốn Perceptron
Thuật tốn Softmax
Thuật tốn Perceptron nhiều lớp Thuật tốn truyền ngược
- Nhĩm thuật tốn giảm kích thước
Trong nhĩm thuật tốn giảm kích thước cĩ các thuật tốn cơ bản như: Thuật tốn phân tích thành phần chính (PCA)
Thuật tốn phân tích phân biệt tuyến tính (LDA) - Nhĩm thuật tốn tổng hợp
Trong nhĩm thuật tốn tổng hợp cĩ các thuật tốn cơ bản như: Thuật tốn rừng ngẫu nhiên
Thuật tốn Boosting Thuật tốn AdaBoost