1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Một nghiên cứu trong việc chọn đặc trưng trong phân loại mã độc android

38 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khóa luận tốt nghiệp An toàn thông tin: Một nghiên cứu trong việc chọn đặc trưng trong phân loại mã độc android
Tác giả Nguyễn Minh Khoa
Người hướng dẫn TS. Nguyễn Tấn Cầm
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Cử nhân ngành An toàn thông tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 38
Dung lượng 32,05 MB

Nội dung

hàng Google Play vẫn có rất nhiều ứng dụng chứa mã độc trên đó.Bảng 1.1: Số lượng ứng dụng độc hại được tải qua các năm Các cuộc tấn công có thé được thực hiện bang nhiéu phươngthức, như

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

NGUYEN MINH KHOA - 20520587

KHOA LUAN TOT NGHIEP

MOT NGHIEN CUU TRONG VIEC CHON DAC TRUNG

TRONG PHAN LOAI MA DOC ANDROID

A STUDY ABOUT FEATURES SELECTION IN ANDROID

MALWARE CLASSIFICATION

CU NHAN NGANH AN TOAN THON TIN

GIANG VIEN HUONG DAN

TS NGUYEN TAN CAM

TP HO CHi MINH, 2024

Trang 2

LỜI CẢM ƠN

Để có thể hoàn thành khóa luận này, đầu tiên em muốn gửi lời cảm ơn

chân thành đến các giảng viên khoa Mạng Máy Tính và Truyền Thông nói chung

và chuyên ngành An Toàn Thông Tin nói riêng của Trường Đại học Công nghệ

Thông tin - ĐHQG TP HCM đã truyền đạt cho em những kiến thức cơ bản trong

suốt 4 năm đại học vừa qua Đặc biệt em xin cảm ơn thầy Nguyễn Tấn Cầm vì

đã hỗ trợ em trong quá trình thực hiện khóa luận rất nhiều.

Do giới hạn về thời gian cũng như nhân lực nên khóa luận của em còn nhiều sai sót cũng như nhiều điểm chưa hoàn thiện, kính mong thầy cô thông

cảm và bỏ qua cho em Em sẽ cố gắng cải thiện và hoàn thành khóa luận trong

tương lai.

Cuối cùng, em muốn gửi lời chúc sức khoẻ và luôn thuận lợi trong công

việc đến các thầy cô.

Em xin chân thành cảm ơn

Nguyễn Minh Khoa

<TP.HCM, tháng 6 năm 2024>

Trang 3

Chương 4:Thực nghiệm và đánh giá 16

Trang 4

DANH MỤC HÌNH

Hình 3.1: Mô hình đề xuất của khóa luận -esecccss+ecxseecressrrrsesree 14 Hình 4.1: Sử dụng SimpleImputer cho việc thay thế dữ liệu 16

Hình 4.2: TỈ lệ các loại mã độc trong tập dữ liệu -c-cc.cxre-ee 16

Hình 4.3: Sử dụng SMOTE để xử lý mất cân bằng dữ liệu 17

Hình 4.4: Xử lý ngoại biÊn +cxx th 18 Hình 4.5: Xử lý dữ liệu các đặc trưng -+rxerrtrriirrtrtriirrriiiiiriirrkee 18

Hình 4.6: Mã hóa giá trị phân loại c scxserrertrrirrtriirrrriririiirrirrrrrri 19

Hình 4.7: Sử dụng RFR để xác định độ quan trọng -ccc -ccc-eee 19 Hình 4.8: Sử dung RFE để tạo tập dữ liệu con -ccccccccceceerreeeeree 21

Hình 4.9: Sử dung PCA trong Dimesionality Reduction « .-« ««+ 24

Hình 4.10: Tầng 1 của bước phân loại mã độộc .c sccccsvssscvcxes 25

Hình 4.11: Mô hình Random EOFSE -55+5ccxeEEktrtrkkirtrkirtriirrirrree 26 Hình 4.12: Mô hình K-nearest neighbOrr c«ccxeccxerrketkretkkrtrrirrtrrrrree 27

Trang 5

DANH MỤC BANG

Bang 1.1: Số lượng ứng dụng độc hại được tải qua các năm 2-2 25+:

Bảng 1.2: Phân loại mã độc trong tập dữ liệu - - 5 2< 1+2 +svEEsserseeeerse

Bảng 4.1: 56 đặc trưng có độ quan trọng cao sau khi áp dụng xử lý ngoại biên

"” ÔỎÔỎ 20

Bang 4.2: Độ chính xác của mô hình RE s-cccccskeekrieekiirtrireirrrrrrkee 26 Bảng 4.3: Độ chính xác của mô hình KNN . ccxeeserriirrrrrrrrrrrrier 27 Bảng 4.4: Độ chính xác của mô hình nghiên cứu và các mô hình khác 28

Bang 5.5: Thống kê về việc xử lý ngoại biên -ccc-c-cccccvveerrrrrrrreerxee 30

Trang 6

DANH MỤC TU VIET TAT

ML Machine Learning

OS Hé diéu hanh(Operating System)

RF Random Forest

KNN K-Nearest neighbor

LSTM Long-Short Term Memory

AI Trí tuệ nhân tạo(Artificial Intelligence)

MLP Multi-Level Perceptrons

SVM Support Vector Machine

SMOTH Synthetice Minority Oversampling

Technige

IQR Interquartile Range

RFE Recursive Feature Elimination

RFR Random Forest Regressior

SFS Sequential Feature Seletion

PCA Principal Component Analysis

DT Decision Tree

Trang 7

TÓM TẮT KHÓA LUẬN

Ngày nay, phan lớn điện thoại di động ngoài thị trường đều sử dụng hệ điềuhành Android Bảo mật trở thành một vấn đề vô cùng quan trọng vì hệ điều hành

Android cho phép người dùng cài đặt ứng dụng từ các nguồn bên ngoài, các nguồn

không xác định Với việc hàng nghìn ứng dụng được tạo ra cũng như được khởi

chạy mỗi ngày, phát hiện mã độc sử dụng học máy(Machine Learning) đã thu hút

được nhiều sự chú ý hơn so với các kỹ thuật truyền thống Mặc cho những nỗ lực vềmặt truyền thông cũng như học thuật, việc tìm ra được một giảp pháp tối ưu và đángtin cậy cho việc phân loại mã độc vẫn là một thách thức lớn Chính vì thế, nhiều bộ

dữ liệu cho việc phân loại mã độc đã được tạo ra trong vòng mười năm qua Những

bộ dit liệu này có thé bao gồm các chức năng tĩnh như API calls, hay các chức năngđộng như logcat errors, shared memory và system calls Phân tích động nổi bật hơn

khi nói đến việc trộn mã nguồn Mặc dù phân loại nhị phân và phân loại đa chiều đãđược đưa vào các nghiên cứu gần đây, cái thứ hai cho chúng ta nhiều góc nhìn mớihơn về ban chất của mã độc Vì mỗi loại mã độc sẽ có cách thức hoạt động khác

nhau, phân tích phân loại của mã độc có thê giúp ta tìm ra cách phòng chống nó

Trang 8

nội dung va cách tiêp cận của công trình nghiên cứu.

1.1 Tổng quan về nghiên cứu

Các thiết bị đi động đang trở nên ngày càng quan trọng đốivới đời sống con người, dẫn đến việc nhu cầu sử dụng chúng ngày

càng tăng Hệ điều hành Android là hệ điều hành (OS) phổ biến nhất

của các thiết bị Android Với tính chất mã nguồn mở, chỉ phí thấp,

và tinh đơn giản của nó, Android OS đang ngày càng trở nên phốbiến Thị phần Android chiếm 71.54% vào tháng 9 năm 2022 Vào

thời gian đó, cửa hàng Google Play — cửa hàng ứng dụng chính thức của Android OS — có hơn 3.48 triệu ứng dụng trên đó Chính vì sự

phô biến toàn cầu này mà Android OS đã trở thành một mục tiêu hấpdẫn cho các hacker và dễ bị ton thương bởi virus và mã độc hơn.Biểu đồ 1 cho thấy số lượng ứng dụng Android độc hai được tải từnăm 2017 đến năm 2020 Vào giữa năm 2020, có khoảng 10,6 triệumẫu mã độc Android tồn tại Số lượng mã độc này sẽ còn tiếp tục

tăng va lan truyền nhằm mục đích thực hiện các cuộc tan công mạng.

Mặc dù hiện nay có rât nhiêu phân mmè bảo mật nhưng trong của

Trang 9

hàng Google Play vẫn có rất nhiều ứng dụng chứa mã độc trên đó.

Bảng 1.1: Số lượng ứng dụng độc hại được tải qua các năm

Các cuộc tấn công có thé được thực hiện bang nhiéu phươngthức, nhưng cách phô biến nhất chính là khiến người dùng cài đặt

một ứng dụng độc hại lên thiết bị Android của họ Ứng dụng này sẽ

chứa những đoạn mã độc, và khi người dùng khởi động ứng dụng thì

kẻ tan công sẽ có quyền điều khiên thiết bị của người dùng, từ đó thu

được các thông tin của người dùng như thông tin hệ thống hay thông

tin về mạng đề thực hiện các hành động độc hại Bằng việc tải xuống

các ứng dụng độc hại từ các trang web hoặc từ những email, các phần

mềm độc hại sẽ được cài vào máy người dùng Khi các phần mềm

này được khởi chạy, các đoạn mã độc hại sẽ được thực thi Các đoạn

mã độc này cũng có thê lây lan cho các máy lân cận có kết nối chung

mạng với máy nạn nhân.

Các hacker cũng đang phát triển các ứng dụng độc hại khiến

chúng trở nên tinh vi hơn, khi mà các ứng dụng bảo mật cũng dang

ngày càng nhiều Việc sử dụng phương thức “thử đến khi đúng”

2020

Trang 10

không còn đáng tin cậy nữa khi mà các đoạn mã độc đang ngày cảng

phức tạp hon và van đang ngày càng phát trién nhanh hơn, khiến choviệc phát hiện ra chúng trở nên khó khăn hơn Cụ thé hơn, khi mãđộc sử dụng kĩ thuật đa hình hay kĩ thuật ấn mã, các cách tiếp cậndựa trên đặc trưng thông thường sẽ có độ chính xác thấp Hơn nữa,việc chỉ phân tích một thực thé mã độc duy nhất là không còn hiệuquả Dé có thé sử dụng các chiến lược giảm tải chính xác, việc phântích loại mã độc là cần thiết Trong hơn một thập kỷ qua, các kĩ thuật

học máy (Machine Learning — ML) đã được đưa vào đề nghiên cứu

việc phát hiện mã độc vì nó không dựa vào các nguyên tắc cụ thé,điều này khiến ML tự động và linh hoạt hơn

Các nghiên cứu phân loại mã độc dựa trên ML có thé được

nhóm thành hai loại: phân tích tĩnh và phân tích động Phân tích tĩnh

trích xuất tệp tin cài đặt tên là Android Package Kit dé thu thập những

thông tin chính xác của quyền, các lệnh gọi API, Trong khi đó,

phân tích động tập trung vào việc theo dấu các hoạt động của ứngdụng như “logcat errors, shared memory dirty, system calls, ” bằng

cách chạy ứng dung trong các môi trường giả lập, môi trường

sandbox Phân tích tĩnh có thê tiết kiệm chi phí thiết lập môi trường

và có thời gian thực thi ngắn hơn, nhưng phân tích động có thê chống

lại được việc trộn mã.

Việc phân tích phần mềm độc hại là cực kỳ quan trọng vì các phần mềm này đang ngày càng trở nên phức tạp và phổ biến Nhiều nhà nghiên cứu đang nỗ lực chống lại các cuộc tấn công của phần

mềm độc hại trên Android theo nhiều cách khác nhau Việc có một

tập dữ liệu đủ lớn giúp việc phát hiện và phân loại mã độc trở nên dễ

dàng hơn Tập dữ liệu CCCS-CIC-AndMal2020, một tập dữ liệu vừa

được công bố cách đây không lâu, gồm 12 loại phần mềm độc hại,được sử dụng trong việc phân tích động dựa trên phân loại đa chiều

Trang 11

Tuy nhiên, tập dữ liệu này lai bi mat cân bằng vì nó có đến 200,000mẫu dữ liệu độc hại và 200,000 mẫu dữ liệu lành tính Việc huấnluyện một mô hình ML mat cân bằng có thé ảnh hưởng đến độ chínhxác cũng như hiệu suất của mô hình Chính vì thế việc xử lý tập đữ

liệu trước khi huân luyện là vô cùng cân thiệt.

1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.2.1 Mục tiêu của nghiên cứu

Mục tiêu của nghiên cứu là triển khai và phát triển một hệ

thong phân loại mã độc android dựa trên các phương thức học máy phổ biến như Random Forest (RF), K-Nearest Neighbour (KNN),

v.v và lựa chọn đặc trưng dựa trên độ quan trong, dựa trên bộ lọc va

dựa trên wrapper từ đó đưa ra so sánh về độ chính xác của các mô

hình ML khi sử dụng các cách chọn đặc trưng khác nhau.

1.2.2 Pham vi thực hiện nghiên cứu

Sử dụng các tập dữ liệu mã độc Android có sẵn như

CCCS-CIC-AndMal2020 hay các mẫu từ các nguồn công khai nhưVirusShare, Sử dụng các phương pháp tiền xử lý dữ liệu dé tối ưu

thành 12 nhóm chính Đặc biệt, tập dữ liệu này chứa 200,000 ứng

dụng vô hại và 200,000 mẫu phần mềm độc hại Các loại mã độc

được phân loại theo bảng dưới đây:

Trang 12

Bang 1.2: Phân loại mã độc trong tập dit liệu

1.2.3 Pham vi nghiên cứu

Sử dụng các tập dữ liệu mã độc Android có sẵn như CIC-AndMal2020 hay các mẫu từ các nguồn công khai như

CCCS-VirusShare, Sử dụng các phương pháp tiền xử lý dữ liệu để tối ưu

hóa mô hình.

Trang 13

1.2.4 Đối tượng nghiên cứu

Đối tượng nghiên cứu của khóa luận gồm:

- Ung dung Android déc hai

- Ung dung Android lanh tinh

1.2.5 Cấu trúc khóa luận

Chương 1: Tổng quan đề tài: Mở đầu với cái nhìn toàn điện

về đề tài cùng

với việc xem xét các nghiên cứu liên quan đã được thực hiện.

Chương 2: Cơ Sở Lý Thuyết: Trình bày cơ sở lý thuyết và

các nền tảng quan trọng liên quan đến đề tài

Chương 3: Mô Hình Đề Xuất: Mô tả chi tiết về mô hình kếthợp giữa các bước tiền xử lý dit liệu cũng như các mô hình học máy,

sử dụng trong việc phân loại mã độc dựa trên đặc trưng.

Chương 4: Thực nghiệm và đánh giá: Trình bày và phân tích

các kết quả thực nghiệm thu được từ mô hình

Chương 5: Kết Luận: Đưa ra kết luận từ nghiên cứu và bàn

luận về các định hướng phát trién trong tương lai

Trang 14

Chương 2 CƠ SỞ LÝ THUYET

Qua nhiều năm, đã có một số bài báo nghiên cứu về phát hiệnphần mềm độc hại trên Android sử dụng các chiến lược lựa chọn đặctrưng và thuật toán học máy khác nhau được xuất bản Phần này thảo

luận vê một sô công trình nghiên cứu có liên quan.

Phân tích tĩnh các phần mềm độc hại là kỹ thuật phân tích cácmẫu phần mềm độc hại mà không thực sự thực thi hoặc vận hànhchúng Ngược lại, khi phân tích động các phần mềm độc hại, chúng

ta xem xét mã nguồn trong khi nó đang được chạy trong môi trườngđược kiểm soát Các hoạt động của phần mềm độc hại được kiểm

soát và quan sát trong một môi trường mô phỏng an toàn, cô lập.

Mặc dù nhiều nghiên cứu sử dụng cả phân tích tĩnh và động,phần lớn chỉ sử dụng chính một loại phân tích, phân tích tĩnh hoặc

động.

2.1 Phân tích động

Các phương pháp phát hiện phần mềm độc hại tập trung vàolưu lượng mạng mà các ứng dụng Android tạo ra Bằng cách tìm

kiếm các hoạt động mạng bắt thường, ta có thê phát hiện được phần

mềm độc hại Vì hầu hết phần lớn các phần mềm độc hại trên

Android thực hiện các hành động nguy hiểm qua hoạt động mạng,

công nghệ phát hiện phần mềm độc hại dựa trên hoạt động mạng này

là rất hữu ích Phần mềm độc hại phải tương tác với hệ thống máychủ qua mạng đề thực hiện các hành động phá hoại Những dấu vétnày cho phép ta giám sát và nhận diện các dạng phần mềm độc hạikhác nhau Hơn nữa, việc tạo ra một hệ thống phát hiện virus dựa

trên hoạt động mạng đơn giản hơn so với các kỹ thuật trước đây Ví

dụ, kỹ thuật này có thể được áp dụng tại công hoặc điểm vào màkhông làm quá tải thiết bị di động Những giải pháp này đảm bao

Trang 15

người dùng có thê truy cập các ứng dụng di động cần thiết vì chúng

dựa hoàn toàn vào dữ liệu được tạo ra bởi người dùng Hơn nữa, các

phương pháp này không đòi hỏi sự tham gia của người dùng ngoài việc cho phép truy cập vào dịch vụ nhận diện.

Các kỹ thuật dựa trên lưu lượng mạng nhăm xác định các đặcđiểm đặc biệt của phần mềm độc hai dé phân loại chính xác nó Các

nhà nghiên cứu đã sử dụng các chiến lược khác nhau để xác định

chương trình phần mềm độc hại bằng cách sử dụng các đặc điểmđộng Họ đã tạo ra dữ liệu động bằng cách sử dụng các tính năngđộng bằng cách sử dụng bộ mô phỏng Android Họ đã tạo ra một

vectơ biéu đồ bằng phương pháp mã hóa đồ thị và các lệnh gọi hệ

thống từ Linux kernel Trong nghiên cứu của họ, họ đã tạo ra mộtmạng no-ron xếp chồng và lớp cuối cùng của nó đã được sử dung déphân biệt giữa các ứng dụng lành tính và độc hai Bằng cách áp dụngphân tích động dé trích xuất lệnh gọi API từ các ứng dụng, Tan, Li,

Wang và Xu [1] đã cải thiện việc sử dụng phương pháp đặc điểmđộng Mô hình của họ đã được tối ưu hóa đề đạt độ chính xác và giảm

công suất tính toán bằng cách sử dụng các chiến lược phân chia môhình và kết thúc sớm Mặc dù họ đã tiến hành một nghiên cứu xuấtsắc, họ đã làm điều đó bằng các thiết bị mẫu chứ không phải thiết bịthực tế Trong nghiên cứu của họ, các nhà nghiên cứu đã tạo ra một

mô hình gọi là MaxNet bằng cách sử dụng các lệnh gọi API và lệnhgọi hệ thống được lấy từ các ứng dụng Android Đề tăng độ phức tạp

về thời gian của mô hình, họ đã kết hợp phương pháp mạng nơ-ronhồi quy với LSTM Ho đã sử dụng một bộ dữ liệu gồm 36000 mau,

và mô hình của họ có tỷ lệ chính xác là 96.2% Một nhà nghiên cứu

khác [2] đã đề cập đến loại nghiên cứu này, trong đó sử dụng các

chuỗi lễnh gọi hệ thống Họ đã tạo ra hai mô hình LSTM cho nghiên

Trang 16

cứu của họ Tập dữ liệu mẫu độc hại đã được sử dụng dé huấn luyện

mô hình LSTM đầu tiên, trong khi tập dữ liệu mẫu lành tính đã được

sử dung dé huấn luyện mô hình thứ hai Dựa trên kết quả của các môhình đã được huấn luyện, điểm tương đồng được tính toán dé phânloại mẫu phần mềm độc hại/mẫu lành tính mới Mặc dù họ hạn chế

nghiên cứu của mình chỉ vào các khía cạnh động và không phải là

kết hợp, họ vẫn đạt được kết quả tốt Phương pháp được sử dụng bởi

M Jaiswal, Y Malik, F Jaafar [3] dé xác định phần mềm game độchại trên Android đã xem xét các lệnh gọi hệ thống cho cả các ứngdụng độc hại và lành tính băng cách thu thập tần suất của các lệnhgọi hệ thống khác nhau trong cả các ứng dụng độc hại và lành tínhcho các mốc thời gian khác nhau Phương pháp nghiên cứu của họ

bao gồm việc bắt các lệnh gọi hệ thống qua các khoảng thời gian

khác nhau, và họ phát hiện ra rằng các lệnh gọi hệ thống như

clock_gettime, ioctl, brk, mprotect, futex, pread64, read, write, và getPackagelnfo có tỷ lệ được gọi bởi chương trình độc hai cao hon

so với các chương trình không phải độc hại Phương pháp của họ đã

giúp nghiên cứu về cách khai thác các lệnh gọi hệ thống dé xây dựngđặc điểm cho các ứng dụng độc hại

2.2 Học máy (Machine Learning - ML)

Machine Learning (Học máy) là lĩnh vực nghiên cứu trong khoa học máy tinh và trí tuệ nhân tạo (AI) mà mục tiêu là xây dung

và nghiên cứu các phương pháp dé máy tính có thé học hỏi và cảithiện hiệu suất từ dir liệu mà không cần được lập trình cụ thé

Các thuật toán học máy có thé được phân loại thành hai loại

chính:

- Hoc máy giám sat (Supervised Learning): Đây là loại hoc

máy trong đó mô hình được huấn luyện trên một tap dit

Trang 17

liệu có nhãn (labelled dataset) Mục tiêu là dé từ đó, môhình có thé học cách dự đoán kết quả cho dit liệu mới chưađược gán nhãn Các ví dụ của học máy giám sát bao gồmphân loại (classification) và hồi quy (regression).

Hoc máy không giám sát (Unsupervised Learning): Trong

loại học máy này, mô hình được huấn luyện trên dữ liệu

không có nhãn Mục tiêu là dé mô hình có thé tìm ra cấutrúc ân trong dữ liệu và tạo ra các nhóm dt liệu (clusters),hay giảm chiều đữ liệu (dimensionality reduction) Các ví

dụ bao gồm phân cụm (clustering) và giảm chiều dữ liệu

(dimensionality reduction).

Hoc may ban giam sat (Semi-supervised Learning): Két

hop giữa hoc máy giám sát và không giám sát, loại học

máy này sử dụng một số dữ liệu có nhãn kèm theo dữ liệukhông có nhãn để huấn luyện mô hình Đây là phươngpháp phô biến khi có it đữ liệu có nhãn và nhiều dit liệu

không có nhãn.

Học máy tăng cường (Reinforcement Learning): Là một

loại học máy mà mô hình học từ các tương tác liên tục với

môi trường dé đạt được mục tiêu nào đó Mô hình học từcác phần thưởng (rewards) hoặc hình phạt (penalties) được

cung câp bởi môi trường.

Các ứng dụng của học máy rất đa dạng, bao gồm nhận dạng

hình ảnh, nhận diện giọng nói, dự báo tài chính, phân tích dữ liệu y

tế, xe tự lái, và nhiều lĩnh vực khác Học máy đã trở thành một trong

những công cụ quan trọng trong cuộc cách mạng sô và được sử dụng

rộng rãi trong các ứng dụng thực tế và công nghiệp.

Một số mô hình học máy phổ biến có thé kể đến như:

10

Trang 18

- Random Forest (RF):

o La một thuật toán học máy giám sat trong đó sử

dụng nhiều cây quyết định để tạo ra một mô hình

dự đoán cuôi cùng.

o Random Forest được sử dụng phổ biến trong các

bài toán phân loại và hồi quy

o Đặc tính: linh hoạt, ít bi overfitting, có khả năng xử

ly dữ liệu lớn và dit liệu không đồng nhất

- K-nearest Neighbors

o Một thuật toán hoc máy giám sat đơn giản, dựa trên

việc so sánh các điểm đữ liệu xung quanh để dự

đoán nhãn của điểm dữ liệu mới

o KNN không cần huấn luyện mô hình mà dựa trên

các dữ liệu đã có dé phân loại dữ liệu mới

o Đặc tính: dễ hiểu, có thé áp dụng cho các bài toán

phân loại và hồi quy đơn giản, tuy nhiên yêu cầu

nhiều tài nguyên dé tính toán khi số lượng điểm dit

liệu lớn.

- Multi-Level Perceptrons (MLP):

o Là một loại mang no-ron nhân tạo nhiêu tang, gôm

một hoặc nhiêu tang ân giữa tang input va tang

output.

o MLP được sử dụng rộng rãi trong các bài toán phân

loại và hồi quy phức tạp

11

Trang 19

o Đặc tính: có khả năng học được các mô hình phức

tạp hơn, tuy nhiên yêu cầu nhiều đữ liệu huấn luyện

và cần điều chỉnh tham số phù hợp

Decision Trees:

o Là một thuật toán hoc máy giám sát dựa trên cây

đơn giản dé tạo ra một mô hình dự đoán

o Cây quyết định phân chia dữ liệu thành các nhánh

dựa trên các thuộc tính đầu vào và giúp dự đoán

nhãn của dữ liệu mới.

o Đặc tính: dễ hiểu, dễ giải thích, tuy nhiên dễ bị

overfitting nếu không được điều chỉnh thích hợp

Support Vector Machines (SVM):

o Là một thuật toán hoc máy giám sat dùng dé phan

loại các điểm đữ liệu bằng cách tim một ranh giớiphân chia các lớp một cách tối ưu.

o SVM thường được sử dụng trong các bài toán phân

loại nhị phân và cũng có thé mở rộng cho nhiều lớp

o Đặc tính: hiệu qua với các không gian dir liệu lớn,

khả năng xử lý tốt trong không gian chiều cao, tuynhiên đôi khi yêu cầu tinh chỉnh tham số phức tap

Logistic Regression:

o Là một thuật toán học máy giám sát dùng dé phân

loại các điểm dữ liệu vào các lớp rời rạc dựa trên

các biên đâu vào.

12

Ngày đăng: 08/12/2024, 15:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN