CƠ SỞ LÝ THUYET - Khóa luận tốt nghiệp Khoa học dữ- 123docz.net

3.1. Mô hình Support Vector Machine

Support Vector Machine(SVM) là một mô hình máy học cực kỳ mạnh mẽ. SVM

ứng dụng trong bài toán phân lớp, hồi quy và nhận diện dữ liệu ngoại lai.

SVM là một mô hình rất phổ biến trong học máy và bat cứ ai có học về lĩnh vực này cũng sẽ biết. SVM đặc biệt phù hợp trong việc phân loại các các bộ dữ liệu trung

bình và nhỏ nhưng phức tạp. [10]

3.2. Mô hình Decision Tree

Cũng như SVM, mô hình Decision Tree(DT) là một thuật toán máy học rất phổ biến. DT cũng có thể áp dụng cho bài toán phân loại. Decision Tree là một mô hình

phù hợp với đa dạng các hình dáng và kích thước dữ liệu. [10]

Với đặc điêm là tôc độ cao, tuy nhiên bi ảnh hưởng bởi những cột có nhiêu giá tri

và rât dê ảnh hưởng bởi các biên đâu vào, chỉ cân có sự thay đôi nhỏ cũng đêu

khiến cho độ chính xác tông thé bị thay đối.

3.3. Mô hình Random Forest

Mô hình Decision Tree mặc dù mạnh mẽ những van chưa thật sự đủ tốt trong một

sỐ trường hợp, cho nên dựa trên cơ sở của nó đã nâng cấp lên một mô hình mạnh

mẽ hon là Random Forest(RF). Bản chất của Random Forest là huấn luyện nhiều Decision Tree(được gọi là Random Forest) cho từng phần nhỏ của tập huấn luyện

ban đâu.

Khi thực hiện dự đoán, mỗi cây trong rừng sẽ đưa ra một dự đoán riêng. Trong bài

toán phân loại, dự đoán cuối cùng với"phương pháp bầu cử đa số" (majority voting) trên các dự đoán của các cây trong rừng. Bồ sung được khiếm khuýet của DT về khả năng bị ảnh hưởng bởi nhiễu. Rất phù hợp với các bài toán có nhiều đặc trưng

và cần nhiều góc nhìn linh hoạt khác nhau. [10]

3.4. Mô hình Logistic Regression

Logistic Regression(LR) thường được áp dụng trong các bài toán hồi quy nhưng có thể sử dụng cho các bài toán phân lớp. Cơ sở tính toán việc ước tính xác suất một mẫu nào đó rơi vào lớp cụ thể nào. Đối với bài toán phân lớp đa biến. LR sẽ dự

đoán lớp có xác suât xảy ra lớn nhât.

Tuy nhiên, với điêm yêu là đòi hỏi các diém dữ liệu huân luyện phải là được tạo ra

riêng biệt với nhau. Thê nhưng, đữ liệu thực tê thì thường có môi liên hệ với nhau.

Cho nên, thuật này chỉ thích hợp với một số dữ liệu nhất định. [11]

3.5. Mô hình Gradient Boosting

Gradient Boosting là giải pháp mạnh mẽ và phô biến trong việc giải quyết các bài toán bao gồm các bài toán phân loại và hồi quy và cả học có giám sát,. Gradient Boosting là một một mô hình dự đoán đặt hiệu quả cao bằng cách tập hợp nhiều mô hình yếu (weak learners) thành một mô hình mạnh (strong learner).

Ý tưởng cơ bản của Gradient Boosting là kết hợp các mô hình yếu dựa trên quy tắc

"học từ sai lầm"(thêm liên tục các đặc trưng và biến dự đoán vào một nhóm, mỗi yếu t6 sửa lỗi tiền thân của nó). Tuy nhiên phương pháp này thay đổi tham số dựa trên tất cả các lỗi đã diễn ra trước nó. [10]

Trong quá trình Gradient Boosting, các mô hình yếu được xây dựng dựa trên cây quyết định (decision tree), được gọi là Gradient Boosted Tree. Quá trình tối ưu hóa

mô hình dựa trên việc tính toán gradient của hàm mất mát (loss function) kết hợp với điều chỉnh các cây quyết định dựa trên gradient này.

3.6. Mô hình Naive Bayes

Có nguồn gốc từ định lý Bayes cho nên mô hình phân lớp Naive Bayes có công

thức toán học tương tự Bayes.

Công thức [12]:

P(y|X) = ee

Trong đó:

ey: biến đầu ra.

e X: tập các cột trong bộ dữ liệu.

e P(Xly) xác suất X đối với y.

e P(y) được gọi là xác xuất xảy ra của y.

e P(X) được gọi là xác suất xảy ra của X.

X là một vector đặc trưng:

X = (Xu,X¿, Xa, .... Xn)

Và ta có đăng thức Bayes như sau:

— P(¡|y)P(:|y)...P(xs|y)PŒ)

—P(xi)P(%;) ...P(xn)

P0|Xi,1¿, -.. Xn)

Đầu ra y sẽ phụ thuộc vào giá trị lớn nhất của P(ylX):

y = argmaxyP(y)Hi=+P(¡|y)

Đối với mô hình Navie Bayes, cần lưu ý 2 đặc điểm sau:

e Đối với biến đầu ra, từng đặc trưng đưa vào có độ quan trọng như nhau.

e Các cột đều độc lập với nhau, có thé hiểu khi thay đổi một cột bat kỳ thì các

cột khác sẽ không bị ảnh hưởng.

3.7. Mô hình K-Nearest Neighbor

Mô hình K-Nearest Neighbors (KNN) là một thuật toán học máy được sử dụng chủ

yếu trong bài toán phân lớp và hồi quy. KNN dựa trên nguyên tắc răng các mẫu có đặc trưng tương tự thường có cùng nhãn lớp hoặc giá trị đầu ra(instance-based).

[10]. Các mẫu gần nhất (k mẫu) sẽ được chọn dé xác định lớp hoặc giá tri đầu ra cho mẫu mới, thông qua biéu quyết đa số (voting) trong bài toán phân loại.

Trong KNN, lựa chọn k có một số lưu ý. Giá trị k càng lớn, mô hình càng phức tạp

và nhạy cảm với nhiễu, trong khi K nhỏ có thé dẫn đến hiện tượng overfitting. Thông thường, giá trị K được chọn dựa trên tập huấn luyện và đánh giá trên tập kiểm thử.