3.1. Mô hình Support Vector Machine
Support Vector Machine(SVM) là một mô hình máy học cực kỳ mạnh mẽ. SVM
ứng dụng trong bài toán phân lớp, hồi quy và nhận diện dữ liệu ngoại lai.
SVM là một mô hình rất phổ biến trong học máy và bat cứ ai có học về lĩnh vực này cũng sẽ biết. SVM đặc biệt phù hợp trong việc phân loại các các bộ dữ liệu trung
bình và nhỏ nhưng phức tạp. [10]
3.2. Mô hình Decision Tree
Cũng như SVM, mô hình Decision Tree(DT) là một thuật toán máy học rất phổ biến. DT cũng có thể áp dụng cho bài toán phân loại. Decision Tree là một mô hình
phù hợp với đa dạng các hình dáng và kích thước dữ liệu. [10]
Với đặc điêm là tôc độ cao, tuy nhiên bi ảnh hưởng bởi những cột có nhiêu giá tri
và rât dê ảnh hưởng bởi các biên đâu vào, chỉ cân có sự thay đôi nhỏ cũng đêu
khiến cho độ chính xác tông thé bị thay đối.
3.3. Mô hình Random Forest
Mô hình Decision Tree mặc dù mạnh mẽ những van chưa thật sự đủ tốt trong một
sỐ trường hợp, cho nên dựa trên cơ sở của nó đã nâng cấp lên một mô hình mạnh
mẽ hon là Random Forest(RF). Bản chất của Random Forest là huấn luyện nhiều Decision Tree(được gọi là Random Forest) cho từng phần nhỏ của tập huấn luyện
ban đâu.
Khi thực hiện dự đoán, mỗi cây trong rừng sẽ đưa ra một dự đoán riêng. Trong bài
toán phân loại, dự đoán cuối cùng với"phương pháp bầu cử đa số" (majority voting) trên các dự đoán của các cây trong rừng. Bồ sung được khiếm khuýet của DT về khả năng bị ảnh hưởng bởi nhiễu. Rất phù hợp với các bài toán có nhiều đặc trưng
và cần nhiều góc nhìn linh hoạt khác nhau. [10]
23
3.4. Mô hình Logistic Regression
Logistic Regression(LR) thường được áp dụng trong các bài toán hồi quy nhưng có thể sử dụng cho các bài toán phân lớp. Cơ sở tính toán việc ước tính xác suất một mẫu nào đó rơi vào lớp cụ thể nào. Đối với bài toán phân lớp đa biến. LR sẽ dự
đoán lớp có xác suât xảy ra lớn nhât.
Tuy nhiên, với điêm yêu là đòi hỏi các diém dữ liệu huân luyện phải là được tạo ra
riêng biệt với nhau. Thê nhưng, đữ liệu thực tê thì thường có môi liên hệ với nhau.
Cho nên, thuật này chỉ thích hợp với một số dữ liệu nhất định. [11]
3.5. Mô hình Gradient Boosting
Gradient Boosting là giải pháp mạnh mẽ và phô biến trong việc giải quyết các bài toán bao gồm các bài toán phân loại và hồi quy và cả học có giám sát,. Gradient Boosting là một một mô hình dự đoán đặt hiệu quả cao bằng cách tập hợp nhiều mô hình yếu (weak learners) thành một mô hình mạnh (strong learner).
Ý tưởng cơ bản của Gradient Boosting là kết hợp các mô hình yếu dựa trên quy tắc
"học từ sai lầm"(thêm liên tục các đặc trưng và biến dự đoán vào một nhóm, mỗi yếu t6 sửa lỗi tiền thân của nó). Tuy nhiên phương pháp này thay đổi tham số dựa trên tất cả các lỗi đã diễn ra trước nó. [10]
Trong quá trình Gradient Boosting, các mô hình yếu được xây dựng dựa trên cây quyết định (decision tree), được gọi là Gradient Boosted Tree. Quá trình tối ưu hóa
mô hình dựa trên việc tính toán gradient của hàm mất mát (loss function) kết hợp với điều chỉnh các cây quyết định dựa trên gradient này.
3.6. Mô hình Naive Bayes
Có nguồn gốc từ định lý Bayes cho nên mô hình phân lớp Naive Bayes có công
thức toán học tương tự Bayes.
Công thức [12]:
24
P(y|X) = ee
Trong đó:
ey: biến đầu ra.
e X: tập các cột trong bộ dữ liệu.
© P(ylX) xác suất của y đối với X.
e P(Xly) xác suất X đối với y.
e P(y) được gọi là xác xuất xảy ra của y.
e P(X) được gọi là xác suất xảy ra của X.
X là một vector đặc trưng:
X = (Xu,X¿, Xa, .... Xn)
Và ta có đăng thức Bayes như sau:
— P(¡|y)P(:|y)...P(xs|y)PŒ)
—P(xi)P(%;) ...P(xn)
P0|Xi,1¿, -.. Xn)
Đầu ra y sẽ phụ thuộc vào giá trị lớn nhất của P(ylX):
y = argmaxyP(y)Hi=+P(¡|y)
Đối với mô hình Navie Bayes, cần lưu ý 2 đặc điểm sau:
e Đối với biến đầu ra, từng đặc trưng đưa vào có độ quan trọng như nhau.
e Các cột đều độc lập với nhau, có thé hiểu khi thay đổi một cột bat kỳ thì các
cột khác sẽ không bị ảnh hưởng.
3.7. Mô hình K-Nearest Neighbor
Mô hình K-Nearest Neighbors (KNN) là một thuật toán học máy được sử dụng chủ
yếu trong bài toán phân lớp và hồi quy. KNN dựa trên nguyên tắc răng các mẫu có đặc trưng tương tự thường có cùng nhãn lớp hoặc giá trị đầu ra(instance-based).
25
[10]. Các mẫu gần nhất (k mẫu) sẽ được chọn dé xác định lớp hoặc giá tri đầu ra cho mẫu mới, thông qua biéu quyết đa số (voting) trong bài toán phân loại.
Trong KNN, lựa chọn k có một số lưu ý. Giá trị k càng lớn, mô hình càng phức tạp
và nhạy cảm với nhiễu, trong khi K nhỏ có thé dẫn đến hiện tượng overfitting. Thông thường, giá trị K được chọn dựa trên tập huấn luyện và đánh giá trên tập kiểm thử.
26