hàng Google Play vẫn có rất nhiều ứng dụng chứa mã độc trên đó.Bảng 1.1: Số lượng ứng dụng độc hại được tải qua các năm Các cuộc tấn công có thé được thực hiện bang nhiéu phươngthức, như
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG
NGUYEN MINH KHOA - 20520587
KHOA LUAN TOT NGHIEP
MOT NGHIEN CUU TRONG VIEC CHON DAC TRUNG
TRONG PHAN LOAI MA DOC ANDROID
A STUDY ABOUT FEATURES SELECTION IN ANDROID
MALWARE CLASSIFICATION
CU NHAN NGANH AN TOAN THON TIN
GIANG VIEN HUONG DAN
TS NGUYEN TAN CAM
TP HO CHi MINH, 2024
Trang 2LỜI CẢM ƠN
Để có thể hoàn thành khóa luận này, đầu tiên em muốn gửi lời cảm ơn
chân thành đến các giảng viên khoa Mạng Máy Tính và Truyền Thông nói chung
và chuyên ngành An Toàn Thông Tin nói riêng của Trường Đại học Công nghệ
Thông tin - ĐHQG TP HCM đã truyền đạt cho em những kiến thức cơ bản trong
suốt 4 năm đại học vừa qua Đặc biệt em xin cảm ơn thầy Nguyễn Tấn Cầm vì
đã hỗ trợ em trong quá trình thực hiện khóa luận rất nhiều.
Do giới hạn về thời gian cũng như nhân lực nên khóa luận của em còn nhiều sai sót cũng như nhiều điểm chưa hoàn thiện, kính mong thầy cô thông
cảm và bỏ qua cho em Em sẽ cố gắng cải thiện và hoàn thành khóa luận trong
tương lai.
Cuối cùng, em muốn gửi lời chúc sức khoẻ và luôn thuận lợi trong công
việc đến các thầy cô.
Em xin chân thành cảm ơn
Nguyễn Minh Khoa
<TP.HCM, tháng 6 năm 2024>
Trang 3Chương 4:Thực nghiệm và đánh giá 16
Trang 4DANH MỤC HÌNH
Hình 3.1: Mô hình đề xuất của khóa luận -esecccss+ecxseecressrrrsesree 14 Hình 4.1: Sử dụng SimpleImputer cho việc thay thế dữ liệu 16
Hình 4.2: TỈ lệ các loại mã độc trong tập dữ liệu -c-cc.cxre-ee 16
Hình 4.3: Sử dụng SMOTE để xử lý mất cân bằng dữ liệu 17
Hình 4.4: Xử lý ngoại biÊn +cxx th 18 Hình 4.5: Xử lý dữ liệu các đặc trưng -+rxerrtrriirrtrtriirrriiiiiriirrkee 18
Hình 4.6: Mã hóa giá trị phân loại c scxserrertrrirrtriirrrriririiirrirrrrrri 19
Hình 4.7: Sử dụng RFR để xác định độ quan trọng -ccc -ccc-eee 19 Hình 4.8: Sử dung RFE để tạo tập dữ liệu con -ccccccccceceerreeeeree 21
Hình 4.9: Sử dung PCA trong Dimesionality Reduction « .-« ««+ 24
Hình 4.10: Tầng 1 của bước phân loại mã độộc .c sccccsvssscvcxes 25
Hình 4.11: Mô hình Random EOFSE -55+5ccxeEEktrtrkkirtrkirtriirrirrree 26 Hình 4.12: Mô hình K-nearest neighbOrr c«ccxeccxerrketkretkkrtrrirrtrrrrree 27
Trang 5DANH MỤC BANG
Bang 1.1: Số lượng ứng dụng độc hại được tải qua các năm 2-2 25+:
Bảng 1.2: Phân loại mã độc trong tập dữ liệu - - 5 2< 1+2 +svEEsserseeeerse
Bảng 4.1: 56 đặc trưng có độ quan trọng cao sau khi áp dụng xử lý ngoại biên
"” ÔỎÔỎ 20
Bang 4.2: Độ chính xác của mô hình RE s-cccccskeekrieekiirtrireirrrrrrkee 26 Bảng 4.3: Độ chính xác của mô hình KNN . ccxeeserriirrrrrrrrrrrrier 27 Bảng 4.4: Độ chính xác của mô hình nghiên cứu và các mô hình khác 28
Bang 5.5: Thống kê về việc xử lý ngoại biên -ccc-c-cccccvveerrrrrrrreerxee 30
Trang 6DANH MỤC TU VIET TAT
ML Machine Learning
OS Hé diéu hanh(Operating System)
RF Random Forest
KNN K-Nearest neighbor
LSTM Long-Short Term Memory
AI Trí tuệ nhân tạo(Artificial Intelligence)
MLP Multi-Level Perceptrons
SVM Support Vector Machine
SMOTH Synthetice Minority Oversampling
Technige
IQR Interquartile Range
RFE Recursive Feature Elimination
RFR Random Forest Regressior
SFS Sequential Feature Seletion
PCA Principal Component Analysis
DT Decision Tree
Trang 7TÓM TẮT KHÓA LUẬN
Ngày nay, phan lớn điện thoại di động ngoài thị trường đều sử dụng hệ điềuhành Android Bảo mật trở thành một vấn đề vô cùng quan trọng vì hệ điều hành
Android cho phép người dùng cài đặt ứng dụng từ các nguồn bên ngoài, các nguồn
không xác định Với việc hàng nghìn ứng dụng được tạo ra cũng như được khởi
chạy mỗi ngày, phát hiện mã độc sử dụng học máy(Machine Learning) đã thu hút
được nhiều sự chú ý hơn so với các kỹ thuật truyền thống Mặc cho những nỗ lực vềmặt truyền thông cũng như học thuật, việc tìm ra được một giảp pháp tối ưu và đángtin cậy cho việc phân loại mã độc vẫn là một thách thức lớn Chính vì thế, nhiều bộ
dữ liệu cho việc phân loại mã độc đã được tạo ra trong vòng mười năm qua Những
bộ dit liệu này có thé bao gồm các chức năng tĩnh như API calls, hay các chức năngđộng như logcat errors, shared memory và system calls Phân tích động nổi bật hơn
khi nói đến việc trộn mã nguồn Mặc dù phân loại nhị phân và phân loại đa chiều đãđược đưa vào các nghiên cứu gần đây, cái thứ hai cho chúng ta nhiều góc nhìn mớihơn về ban chất của mã độc Vì mỗi loại mã độc sẽ có cách thức hoạt động khác
nhau, phân tích phân loại của mã độc có thê giúp ta tìm ra cách phòng chống nó
Trang 8nội dung va cách tiêp cận của công trình nghiên cứu.
1.1 Tổng quan về nghiên cứu
Các thiết bị đi động đang trở nên ngày càng quan trọng đốivới đời sống con người, dẫn đến việc nhu cầu sử dụng chúng ngày
càng tăng Hệ điều hành Android là hệ điều hành (OS) phổ biến nhất
của các thiết bị Android Với tính chất mã nguồn mở, chỉ phí thấp,
và tinh đơn giản của nó, Android OS đang ngày càng trở nên phốbiến Thị phần Android chiếm 71.54% vào tháng 9 năm 2022 Vào
thời gian đó, cửa hàng Google Play — cửa hàng ứng dụng chính thức của Android OS — có hơn 3.48 triệu ứng dụng trên đó Chính vì sự
phô biến toàn cầu này mà Android OS đã trở thành một mục tiêu hấpdẫn cho các hacker và dễ bị ton thương bởi virus và mã độc hơn.Biểu đồ 1 cho thấy số lượng ứng dụng Android độc hai được tải từnăm 2017 đến năm 2020 Vào giữa năm 2020, có khoảng 10,6 triệumẫu mã độc Android tồn tại Số lượng mã độc này sẽ còn tiếp tục
tăng va lan truyền nhằm mục đích thực hiện các cuộc tan công mạng.
Mặc dù hiện nay có rât nhiêu phân mmè bảo mật nhưng trong của
Trang 9hàng Google Play vẫn có rất nhiều ứng dụng chứa mã độc trên đó.
Bảng 1.1: Số lượng ứng dụng độc hại được tải qua các năm
Các cuộc tấn công có thé được thực hiện bang nhiéu phươngthức, nhưng cách phô biến nhất chính là khiến người dùng cài đặt
một ứng dụng độc hại lên thiết bị Android của họ Ứng dụng này sẽ
chứa những đoạn mã độc, và khi người dùng khởi động ứng dụng thì
kẻ tan công sẽ có quyền điều khiên thiết bị của người dùng, từ đó thu
được các thông tin của người dùng như thông tin hệ thống hay thông
tin về mạng đề thực hiện các hành động độc hại Bằng việc tải xuống
các ứng dụng độc hại từ các trang web hoặc từ những email, các phần
mềm độc hại sẽ được cài vào máy người dùng Khi các phần mềm
này được khởi chạy, các đoạn mã độc hại sẽ được thực thi Các đoạn
mã độc này cũng có thê lây lan cho các máy lân cận có kết nối chung
mạng với máy nạn nhân.
Các hacker cũng đang phát triển các ứng dụng độc hại khiến
chúng trở nên tinh vi hơn, khi mà các ứng dụng bảo mật cũng dang
ngày càng nhiều Việc sử dụng phương thức “thử đến khi đúng”
2020
Trang 10không còn đáng tin cậy nữa khi mà các đoạn mã độc đang ngày cảng
phức tạp hon và van đang ngày càng phát trién nhanh hơn, khiến choviệc phát hiện ra chúng trở nên khó khăn hơn Cụ thé hơn, khi mãđộc sử dụng kĩ thuật đa hình hay kĩ thuật ấn mã, các cách tiếp cậndựa trên đặc trưng thông thường sẽ có độ chính xác thấp Hơn nữa,việc chỉ phân tích một thực thé mã độc duy nhất là không còn hiệuquả Dé có thé sử dụng các chiến lược giảm tải chính xác, việc phântích loại mã độc là cần thiết Trong hơn một thập kỷ qua, các kĩ thuật
học máy (Machine Learning — ML) đã được đưa vào đề nghiên cứu
việc phát hiện mã độc vì nó không dựa vào các nguyên tắc cụ thé,điều này khiến ML tự động và linh hoạt hơn
Các nghiên cứu phân loại mã độc dựa trên ML có thé được
nhóm thành hai loại: phân tích tĩnh và phân tích động Phân tích tĩnh
trích xuất tệp tin cài đặt tên là Android Package Kit dé thu thập những
thông tin chính xác của quyền, các lệnh gọi API, Trong khi đó,
phân tích động tập trung vào việc theo dấu các hoạt động của ứngdụng như “logcat errors, shared memory dirty, system calls, ” bằng
cách chạy ứng dung trong các môi trường giả lập, môi trường
sandbox Phân tích tĩnh có thê tiết kiệm chi phí thiết lập môi trường
và có thời gian thực thi ngắn hơn, nhưng phân tích động có thê chống
lại được việc trộn mã.
Việc phân tích phần mềm độc hại là cực kỳ quan trọng vì các phần mềm này đang ngày càng trở nên phức tạp và phổ biến Nhiều nhà nghiên cứu đang nỗ lực chống lại các cuộc tấn công của phần
mềm độc hại trên Android theo nhiều cách khác nhau Việc có một
tập dữ liệu đủ lớn giúp việc phát hiện và phân loại mã độc trở nên dễ
dàng hơn Tập dữ liệu CCCS-CIC-AndMal2020, một tập dữ liệu vừa
được công bố cách đây không lâu, gồm 12 loại phần mềm độc hại,được sử dụng trong việc phân tích động dựa trên phân loại đa chiều
Trang 11Tuy nhiên, tập dữ liệu này lai bi mat cân bằng vì nó có đến 200,000mẫu dữ liệu độc hại và 200,000 mẫu dữ liệu lành tính Việc huấnluyện một mô hình ML mat cân bằng có thé ảnh hưởng đến độ chínhxác cũng như hiệu suất của mô hình Chính vì thế việc xử lý tập đữ
liệu trước khi huân luyện là vô cùng cân thiệt.
1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.2.1 Mục tiêu của nghiên cứu
Mục tiêu của nghiên cứu là triển khai và phát triển một hệ
thong phân loại mã độc android dựa trên các phương thức học máy phổ biến như Random Forest (RF), K-Nearest Neighbour (KNN),
v.v và lựa chọn đặc trưng dựa trên độ quan trong, dựa trên bộ lọc va
dựa trên wrapper từ đó đưa ra so sánh về độ chính xác của các mô
hình ML khi sử dụng các cách chọn đặc trưng khác nhau.
1.2.2 Pham vi thực hiện nghiên cứu
Sử dụng các tập dữ liệu mã độc Android có sẵn như
CCCS-CIC-AndMal2020 hay các mẫu từ các nguồn công khai nhưVirusShare, Sử dụng các phương pháp tiền xử lý dữ liệu dé tối ưu
thành 12 nhóm chính Đặc biệt, tập dữ liệu này chứa 200,000 ứng
dụng vô hại và 200,000 mẫu phần mềm độc hại Các loại mã độc
được phân loại theo bảng dưới đây:
Trang 12Bang 1.2: Phân loại mã độc trong tập dit liệu
1.2.3 Pham vi nghiên cứu
Sử dụng các tập dữ liệu mã độc Android có sẵn như CIC-AndMal2020 hay các mẫu từ các nguồn công khai như
CCCS-VirusShare, Sử dụng các phương pháp tiền xử lý dữ liệu để tối ưu
hóa mô hình.
Trang 131.2.4 Đối tượng nghiên cứu
Đối tượng nghiên cứu của khóa luận gồm:
- Ung dung Android déc hai
- Ung dung Android lanh tinh
1.2.5 Cấu trúc khóa luận
Chương 1: Tổng quan đề tài: Mở đầu với cái nhìn toàn điện
về đề tài cùng
với việc xem xét các nghiên cứu liên quan đã được thực hiện.
Chương 2: Cơ Sở Lý Thuyết: Trình bày cơ sở lý thuyết và
các nền tảng quan trọng liên quan đến đề tài
Chương 3: Mô Hình Đề Xuất: Mô tả chi tiết về mô hình kếthợp giữa các bước tiền xử lý dit liệu cũng như các mô hình học máy,
sử dụng trong việc phân loại mã độc dựa trên đặc trưng.
Chương 4: Thực nghiệm và đánh giá: Trình bày và phân tích
các kết quả thực nghiệm thu được từ mô hình
Chương 5: Kết Luận: Đưa ra kết luận từ nghiên cứu và bàn
luận về các định hướng phát trién trong tương lai
Trang 14Chương 2 CƠ SỞ LÝ THUYET
Qua nhiều năm, đã có một số bài báo nghiên cứu về phát hiệnphần mềm độc hại trên Android sử dụng các chiến lược lựa chọn đặctrưng và thuật toán học máy khác nhau được xuất bản Phần này thảo
luận vê một sô công trình nghiên cứu có liên quan.
Phân tích tĩnh các phần mềm độc hại là kỹ thuật phân tích cácmẫu phần mềm độc hại mà không thực sự thực thi hoặc vận hànhchúng Ngược lại, khi phân tích động các phần mềm độc hại, chúng
ta xem xét mã nguồn trong khi nó đang được chạy trong môi trườngđược kiểm soát Các hoạt động của phần mềm độc hại được kiểm
soát và quan sát trong một môi trường mô phỏng an toàn, cô lập.
Mặc dù nhiều nghiên cứu sử dụng cả phân tích tĩnh và động,phần lớn chỉ sử dụng chính một loại phân tích, phân tích tĩnh hoặc
động.
2.1 Phân tích động
Các phương pháp phát hiện phần mềm độc hại tập trung vàolưu lượng mạng mà các ứng dụng Android tạo ra Bằng cách tìm
kiếm các hoạt động mạng bắt thường, ta có thê phát hiện được phần
mềm độc hại Vì hầu hết phần lớn các phần mềm độc hại trên
Android thực hiện các hành động nguy hiểm qua hoạt động mạng,
công nghệ phát hiện phần mềm độc hại dựa trên hoạt động mạng này
là rất hữu ích Phần mềm độc hại phải tương tác với hệ thống máychủ qua mạng đề thực hiện các hành động phá hoại Những dấu vétnày cho phép ta giám sát và nhận diện các dạng phần mềm độc hạikhác nhau Hơn nữa, việc tạo ra một hệ thống phát hiện virus dựa
trên hoạt động mạng đơn giản hơn so với các kỹ thuật trước đây Ví
dụ, kỹ thuật này có thể được áp dụng tại công hoặc điểm vào màkhông làm quá tải thiết bị di động Những giải pháp này đảm bao
Trang 15người dùng có thê truy cập các ứng dụng di động cần thiết vì chúng
dựa hoàn toàn vào dữ liệu được tạo ra bởi người dùng Hơn nữa, các
phương pháp này không đòi hỏi sự tham gia của người dùng ngoài việc cho phép truy cập vào dịch vụ nhận diện.
Các kỹ thuật dựa trên lưu lượng mạng nhăm xác định các đặcđiểm đặc biệt của phần mềm độc hai dé phân loại chính xác nó Các
nhà nghiên cứu đã sử dụng các chiến lược khác nhau để xác định
chương trình phần mềm độc hại bằng cách sử dụng các đặc điểmđộng Họ đã tạo ra dữ liệu động bằng cách sử dụng các tính năngđộng bằng cách sử dụng bộ mô phỏng Android Họ đã tạo ra một
vectơ biéu đồ bằng phương pháp mã hóa đồ thị và các lệnh gọi hệ
thống từ Linux kernel Trong nghiên cứu của họ, họ đã tạo ra mộtmạng no-ron xếp chồng và lớp cuối cùng của nó đã được sử dung déphân biệt giữa các ứng dụng lành tính và độc hai Bằng cách áp dụngphân tích động dé trích xuất lệnh gọi API từ các ứng dụng, Tan, Li,
Wang và Xu [1] đã cải thiện việc sử dụng phương pháp đặc điểmđộng Mô hình của họ đã được tối ưu hóa đề đạt độ chính xác và giảm
công suất tính toán bằng cách sử dụng các chiến lược phân chia môhình và kết thúc sớm Mặc dù họ đã tiến hành một nghiên cứu xuấtsắc, họ đã làm điều đó bằng các thiết bị mẫu chứ không phải thiết bịthực tế Trong nghiên cứu của họ, các nhà nghiên cứu đã tạo ra một
mô hình gọi là MaxNet bằng cách sử dụng các lệnh gọi API và lệnhgọi hệ thống được lấy từ các ứng dụng Android Đề tăng độ phức tạp
về thời gian của mô hình, họ đã kết hợp phương pháp mạng nơ-ronhồi quy với LSTM Ho đã sử dụng một bộ dữ liệu gồm 36000 mau,
và mô hình của họ có tỷ lệ chính xác là 96.2% Một nhà nghiên cứu
khác [2] đã đề cập đến loại nghiên cứu này, trong đó sử dụng các
chuỗi lễnh gọi hệ thống Họ đã tạo ra hai mô hình LSTM cho nghiên
Trang 16cứu của họ Tập dữ liệu mẫu độc hại đã được sử dụng dé huấn luyện
mô hình LSTM đầu tiên, trong khi tập dữ liệu mẫu lành tính đã được
sử dung dé huấn luyện mô hình thứ hai Dựa trên kết quả của các môhình đã được huấn luyện, điểm tương đồng được tính toán dé phânloại mẫu phần mềm độc hại/mẫu lành tính mới Mặc dù họ hạn chế
nghiên cứu của mình chỉ vào các khía cạnh động và không phải là
kết hợp, họ vẫn đạt được kết quả tốt Phương pháp được sử dụng bởi
M Jaiswal, Y Malik, F Jaafar [3] dé xác định phần mềm game độchại trên Android đã xem xét các lệnh gọi hệ thống cho cả các ứngdụng độc hại và lành tính băng cách thu thập tần suất của các lệnhgọi hệ thống khác nhau trong cả các ứng dụng độc hại và lành tínhcho các mốc thời gian khác nhau Phương pháp nghiên cứu của họ
bao gồm việc bắt các lệnh gọi hệ thống qua các khoảng thời gian
khác nhau, và họ phát hiện ra rằng các lệnh gọi hệ thống như
clock_gettime, ioctl, brk, mprotect, futex, pread64, read, write, và getPackagelnfo có tỷ lệ được gọi bởi chương trình độc hai cao hon
so với các chương trình không phải độc hại Phương pháp của họ đã
giúp nghiên cứu về cách khai thác các lệnh gọi hệ thống dé xây dựngđặc điểm cho các ứng dụng độc hại
2.2 Học máy (Machine Learning - ML)
Machine Learning (Học máy) là lĩnh vực nghiên cứu trong khoa học máy tinh và trí tuệ nhân tạo (AI) mà mục tiêu là xây dung
và nghiên cứu các phương pháp dé máy tính có thé học hỏi và cảithiện hiệu suất từ dir liệu mà không cần được lập trình cụ thé
Các thuật toán học máy có thé được phân loại thành hai loại
chính:
- Hoc máy giám sat (Supervised Learning): Đây là loại hoc
máy trong đó mô hình được huấn luyện trên một tap dit
Trang 17liệu có nhãn (labelled dataset) Mục tiêu là dé từ đó, môhình có thé học cách dự đoán kết quả cho dit liệu mới chưađược gán nhãn Các ví dụ của học máy giám sát bao gồmphân loại (classification) và hồi quy (regression).
Hoc máy không giám sát (Unsupervised Learning): Trong
loại học máy này, mô hình được huấn luyện trên dữ liệu
không có nhãn Mục tiêu là dé mô hình có thé tìm ra cấutrúc ân trong dữ liệu và tạo ra các nhóm dt liệu (clusters),hay giảm chiều đữ liệu (dimensionality reduction) Các ví
dụ bao gồm phân cụm (clustering) và giảm chiều dữ liệu
(dimensionality reduction).
Hoc may ban giam sat (Semi-supervised Learning): Két
hop giữa hoc máy giám sát và không giám sát, loại học
máy này sử dụng một số dữ liệu có nhãn kèm theo dữ liệukhông có nhãn để huấn luyện mô hình Đây là phươngpháp phô biến khi có it đữ liệu có nhãn và nhiều dit liệu
không có nhãn.
Học máy tăng cường (Reinforcement Learning): Là một
loại học máy mà mô hình học từ các tương tác liên tục với
môi trường dé đạt được mục tiêu nào đó Mô hình học từcác phần thưởng (rewards) hoặc hình phạt (penalties) được
cung câp bởi môi trường.
Các ứng dụng của học máy rất đa dạng, bao gồm nhận dạng
hình ảnh, nhận diện giọng nói, dự báo tài chính, phân tích dữ liệu y
tế, xe tự lái, và nhiều lĩnh vực khác Học máy đã trở thành một trong
những công cụ quan trọng trong cuộc cách mạng sô và được sử dụng
rộng rãi trong các ứng dụng thực tế và công nghiệp.
Một số mô hình học máy phổ biến có thé kể đến như:
10
Trang 18- Random Forest (RF):
o La một thuật toán học máy giám sat trong đó sử
dụng nhiều cây quyết định để tạo ra một mô hình
dự đoán cuôi cùng.
o Random Forest được sử dụng phổ biến trong các
bài toán phân loại và hồi quy
o Đặc tính: linh hoạt, ít bi overfitting, có khả năng xử
ly dữ liệu lớn và dit liệu không đồng nhất
- K-nearest Neighbors
o Một thuật toán hoc máy giám sat đơn giản, dựa trên
việc so sánh các điểm đữ liệu xung quanh để dự
đoán nhãn của điểm dữ liệu mới
o KNN không cần huấn luyện mô hình mà dựa trên
các dữ liệu đã có dé phân loại dữ liệu mới
o Đặc tính: dễ hiểu, có thé áp dụng cho các bài toán
phân loại và hồi quy đơn giản, tuy nhiên yêu cầu
nhiều tài nguyên dé tính toán khi số lượng điểm dit
liệu lớn.
- Multi-Level Perceptrons (MLP):
o Là một loại mang no-ron nhân tạo nhiêu tang, gôm
một hoặc nhiêu tang ân giữa tang input va tang
output.
o MLP được sử dụng rộng rãi trong các bài toán phân
loại và hồi quy phức tạp
11
Trang 19o Đặc tính: có khả năng học được các mô hình phức
tạp hơn, tuy nhiên yêu cầu nhiều đữ liệu huấn luyện
và cần điều chỉnh tham số phù hợp
Decision Trees:
o Là một thuật toán hoc máy giám sát dựa trên cây
đơn giản dé tạo ra một mô hình dự đoán
o Cây quyết định phân chia dữ liệu thành các nhánh
dựa trên các thuộc tính đầu vào và giúp dự đoán
nhãn của dữ liệu mới.
o Đặc tính: dễ hiểu, dễ giải thích, tuy nhiên dễ bị
overfitting nếu không được điều chỉnh thích hợp
Support Vector Machines (SVM):
o Là một thuật toán hoc máy giám sat dùng dé phan
loại các điểm đữ liệu bằng cách tim một ranh giớiphân chia các lớp một cách tối ưu.
o SVM thường được sử dụng trong các bài toán phân
loại nhị phân và cũng có thé mở rộng cho nhiều lớp
o Đặc tính: hiệu qua với các không gian dir liệu lớn,
khả năng xử lý tốt trong không gian chiều cao, tuynhiên đôi khi yêu cầu tinh chỉnh tham số phức tap
Logistic Regression:
o Là một thuật toán học máy giám sát dùng dé phân
loại các điểm dữ liệu vào các lớp rời rạc dựa trên
các biên đâu vào.
12