1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ An toàn thông tin: Một nghiên cứu trong việc phân loại mã độc Android bằng học cộng tác

95 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một nghiên cứu trong việc phân loại mã độc Android bằng học cộng tác
Tác giả Võ Quốc Vương
Người hướng dẫn TS. Nguyễn Tan Cam
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành An toàn thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 95
Dung lượng 33,28 MB

Nội dung

Trong luận văn này, tác giả nghiên cứu và đề xuất một mô hình phát hiện và phân loại mã độc Android sử dụng học cộng tác kết hợp với học sâu, giúp giải quyếtđược bài toán về quyền riêng

Trang 1

VÕ QUOC VƯƠNG

LUẬN VĂN THẠC SĨ NGÀNH AN TOÀN THÔNG TIN

MA SO: 8 48 02 02

TP HO CHÍ MINH - 2023

Trang 2

ĐẠI HỌC QUOC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VÕ QUÓC VƯƠNG

LUẬN VĂN THẠC SĨ NGÀNH AN TOÀN THÔNG TIN

MÃ SO: 8 48 02 02

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYEN TAN CAM

TP HO CHÍ MINH - 2023

Trang 3

Tôi xin cam đoan: Luận văn tốt nghiệp với Đề tài “Một nghiên cứu trong việc

phân loại mã độc Android bằng học cộng tác” là quá trình nghiên cứu của tôi, được

sự hỗ trợ và hướng dẫn của TS Nguyễn Tan Cam

Các tài liệu tham khảo được trong quá trình nghiên cứu này được tôi trích dẫnmột cách đầy đủ, có hệ thống và ghi rõ nguồn góc

Tôi xin chịu hoàn toàn trách nhiệm nếu như có bat kỳ việc sao chép không bất

hợp pháp hoặc vi phạm quy chế đào tạo

Người thực hiện

Võ Quốc Vương

Trang 4

LỜI CẢM ƠN

Trong khi làm Luận văn này, từ lúc hình thành các ý tưởng ban đầu cho đến khi

hoàn thành, tác giả may mắn được nhiều sự giúp đỡ từ mọi người Tác giả xin được

bày tỏ lòng biết ơn chân thành và sâu sắc đến tất cả những người và tổ chức đã đóng

góp, hỗ trợ cho tác giả trong các giai đoạn nghiên cứu và làm luận văn này.

Đầu tiên, tác giả xin phép được gửi lời cảm ơn đến giảng viên hướng dẫn TS.Nguyễn Tan Cam vì đã nhận lời hướng dẫn tác gia, thay cũng đã dành rất nhiều tâm

huyết để định hướng, động viên để tác giả có thể thực hiện Luận văn Sự tận tâm vàchuyên môn của thầy đã giúp tác giả có được nhiều sự tiến bộ và thực hiện xong

nghiên cứu của mình.

Tác giả gửi lời cảm ơn đến Khoa Mạng máy tính và truyền thông, Phòng Đào

Tao SDH, Trung tâm An ninh mạng CNSC, đã hỗ trợ và tạo thuận lợi để giúp đỡ tácgiả trong suốt thời gian nghiên cứu tại trường

Xin gửi lời cảm ơn đến đồng nghiệp tại Trung tâm An ninh Mạng CNSC vàPhòng thí nghiệm An toàn thông tin đã luôn nhiệt tình giúp đỡ, chia sẻ kiến thức và

góp ý cho tác giả vì những lời nhận xét, góp ý đó làm cho tác giả tránh được nhiều

sai sót khi thực hiện Luận văn.

Và sau cùng không thể quên công lao của gia đình và bạn bè trong thời gian tácgiả dành cho luận văn này, tác giả cảm ơn sâu sắc nhất đến Ba mẹ và gia đình trong

nhà luôn là người phía sau, là chỗ dựa tinh thần vững chắc nhất Những lời động viên,

sự hiểu biết và tình yêu thương đó giúp tác giả vượt qua những khó khăn và đạt được

mục tiêu của mình

Tác giả

Võ Quốc Vương

Trang 5

MỤC LỤC

LOI CAM ĐOAN 2222:2222 222 122222111111 1e 3LỜI CẢM ƠN

MỤC LỤC

DANH MỤC CÁC TỪ VIET TẮTT -cvvvvvvvvvvrrrrrrrrrtrrrrrrrrrrrre iv

DANH MỤC CAC BANG BIÊU -22c::222222vvtrirtrrtrrrrrrrrrrrrrrrree vDANH MỤC CÁC HÌNH VE, DO THỊ ccccccc2cccvrreerrirrrrrrrer vi

1.6.3 Nội dung 3 - ch the 3

17 _ Đóng góp và công bố khoa học của tác 5E 3

1.7.1 Đóng góp chính ¿-¿- + St SSkSk kg 3

1.7.2 Công bố khoa học liên quan -:+:z222v+z++zvvvvzcecrrs 41.8 Cấu trúc của luận Văn - 6 Sàn HH ng 4

Trang 6

MỤC LỤC

CHUONG 2 TONG QUAN VAN DE NGHIÊN CỨU VA HƯỚNG TIẾP

CAN CUA DE TAL cesccssssssssssssssssssssssnnsnnssssssssseeceeseeeeessesssssnssnnsnnnunmnsssssesseeeeees 62.1 _ Các vấn đề nghiên cứu ¿:©++++22+++t2tvvxvrrtrrrrrrrrrrvee 6

2.2 Các nghiên cứu liên quan - ¿ 5+55+++s+S++++s+xexeeee+seerre 6 2.2.1 Các kỹ thuật phát hiện va phân loại mã độc Android 7

2.3 Học sâu và hướng tiếp cận -¿-+2++z++22Evxerrtrrkeerrrrrkecrrer 02.3.1 Cơ sở lý thuyết học sâu - ©2222+++2E++ztrEEEEEerrrrrrerrrrrrrcee 0

2.3.2 Giải pháp, hướng tiếp cận phát hiện và phân loại mã độc Android dựa

trên học sâu 3 2.3 Học cộng tác và hướng tiêp cận -+-¿-5-5+ccsccsxzesrersrx 4

2.3.1 Cơ sở lý thuyết học cộng tác -.:¿-v+c++2c+ecetccvscee 4

2.3.2 Ứng dụng học cộng tác vào phát hiện mã độc Android 5

2.4 Kết chương cc2222222222EEEEE2EEcEEEErrrrrrrrerreer 9CHƯƠNG 3 MÔ HÌNH ĐỀ XUẤT -:::ccccvcvvvveeeeerrrrrrrrree 20

3.1 M6 Ninh HOC Sau oo 20

3.1.1 Tiền xử lý đữ GU eee ccccssecsssssseessssseesssssseeessssieeesssseeesssstseessseeses 21

3.1.2 Trinh phát hiện va phân loại mã độc dựa trên học máy 22

3.1.3 Thuật toán huấn Ly6n cccccccssssesssssseesssssseessssseessssssesesssseesesssseeees 27

3.2 Mô hình đề xuất học cộng tC -c tt Hết 32

3.2.1 Mô hình phát hiện và phân loại ở máy khách 35

3.2.2 Mô hình tổng hop và cập nhật tham số ở máy chủ

3.3 Kết chương 22222ccEEEEEEEEEEECEErrrrrrrreereer 39CHƯƠNG 4 THỰC NGHIỆM VA KET QUA

4.1 Mô tả tập dữ | (21) EOS 40 4.2 _ Môi trường thực nghiệm.

Trang 7

4A Tiêu chí đánh gid oicceccccccccssseessssseessssssesccssseessssssecssssssecsessieeeessseeeeenss 42

4.5 Thực nghiệm trên mô hình để xuất ccccccccccssssseeessssseeesssseesssesseeseeess 43

4.5.1 Thực nghiệm kịch bản Non-ÏID - 55s svssceeexsesx 43 4.5.2 Thực nghiệm kịch bản TID - ¿+55 +ce£+cvzxzxeeerxr+ 46 4.5.3 Thực nghiệm kịch bản phân loại Benign và Malware 51

CHUONG 5 KET LUẬN VA HƯỚNG PHAT TRIEN - 56

5.1 Thuận lợi và khó khăn .:¿-+++22vv+++22E+vvrttrvrvrrsrrrrrrrrer 56 Š.I.] Thun lợi c5: Sc 5c + tt SE S3 E1 111111 re 56

5.1.2 Khó KHAN oc cceecccssssecscssssecccsssscccssnssccessusecesssueceessnsesecssnsssessnneesesnies 56

5.2 Kết quả dat được -cccccccccccccvrerrrerrrrrrkrrerrrrrrer 56

5.3 Hướng phát triỂn -¿-52-2c+tc2ccvvrrrtrrvrrrrrrrrrrrrrrer 57TÀI LIEU THAM KHẢO 22:-22222222222+22222E222E2SEvvetrErvrrerrrrrrrrrr 58PHU LUC 1 DANH MỤC CÁC CONG BO KHOA HỌC 64Hội nghị quốc tế

PHU LUC 2 DANH MỤC CÁC HO SƠ LIÊN QUAN - 65

Trang 8

DANH MỤC CÁC TỪ VIET TAT

DANH MỤC CÁC TU VIET TAT

Từ Nội dung Diễn giải

FL Federated Learning Hoc cộng tác

DL Deep Learning Học sâu

ML Machine Learning Hoc may

NN Neural Network Mang no-ron

Non-IID Not independent and identically Phan bố không định danh và độc

distributed lap

HD Identically Distributed Phân phối định danh và độc lập

TP True Positives Duong tinh that

FP False Positves Duong tinh gia

TN True Negatives Âm tính that

FN False Negatives Am tinh gia

API Application Programming

Interfad4 Giao diện lập trình ứng dụng

RMSProp Root Mean Square Propagation Sự lan truyền bình phương

ATS Automated Transfer System Chuyén giao tự động

Trang 9

DANH MỤC CÁC BANG BIEU

Bang 1 Thuật toán tinh trọng số trung bình

Bảng 2 Các thành phan và phiên bản trong môi trường thực nghiệm Al

Bang 3 Bảng phan chia dir liệu Non-IID cho quá trình Train eee 44 Bang 4 Bảng phân chia dữ liệu Non-IID cho quá trình Test - 44

Bang 5 Kết quả đo lường các giá trị và Fl trong kịch bản Non-IID 44

Bang 6 Phân chia dữ liệu IID cho quá trình Train - - ¿55-5-5555 5+5+ 47

Bang 7 Phan chia dữ liệu IID cho quá trình 'Test -¿- 5 +55 5< <cx++s*cecvesee 47

Bảng 8 Ý nghĩa giá trị đặc trưng được trích xuất

Bảng 9 Các đặc trưng được trích Xuất ::222++22v++ttcvvrretvvrvrrerrrrrrrrg 49Bang 10 Kết quả do lường các giá trị trong kịch bản IID -ccc-+2 49

Bang 11 Phân chia dữ liệu phân loại cho quá trình Train -+-<-+ 52

Bang 12 Phân chia dữ liệu phân loại cho quá trình 'Tes( 5 -=+<<<+ 52

Bang 13 Kết qua do lường các giá trị -: 2222222c++stccEvvvvvrrrerrrrrrrrrercee 53

Trang 10

DANH MỤC CÁC HÌNH VE DO THỊ

DANH MỤC CÁC HÌNH VE, DO THỊ

Hình 1: Mô phỏng câu tạo của một mạng Nerral network

Hình 2 Mô hình học cộng tÁC + ¿+5 +1 nghệ 15

Hình 3 Mô hình Framework huấn luyện

Hình 4 Mô phỏng cấu tạo trong mô hình đề xuất

Hình 5 Mô hình phân loại mã đỘC - - ¿+ + + +ESk#k+kEkEEEEEkEkEEEkkrkrkrkeree 23

Hình 6 Luỗng hoạt động của thuật toán huấn luyện + cecesseeeexey 28

Hình 7 Trình bày mô hình học cộng tác - + ¿+55 ++S+S*c+>x+tsrrrerrsrreree 33

Hình 8 Quá trình đào tao ở máy khách

Hình 9 Ma trận hỗn loạn kịch bản Non-IID 22 2£ 2 s2 +££E££E£2££+£+rxzs2 45 Hình 10 Ma trận hỗn loạn kịch bản IID ¿5252++22+++£zxvetvxveerxrrerse 50 Hình 11 Ma trận hỗn loạn kịch bản phát hiện mã độc -. z-+-c5+ 54

Trang 11

MỞ DAU

Trong những năm trở lại đây, hệ điều hành Android và các thiết bị di động đang

trên đà phát triển mạnh mẽ, hàng tỷ thiết bị được phát hành cho đến từ hàng chục

ngàn nhà sản xuất ra đời, thách thức về tội phạm mạng vẫn là mối đe dọa lớn nhấttrên không gian mạng Và mã độc trên các thiết bị này là loại hình tắn công kỹ thuậttan công phổ biến nhất đối với các người dùng, tổ chức tài chính, doanh nghiệp từ cả

trong nước cho đến ngoài nước Tan công mã độc là các hoạt động phi pháp nhằmlấy cắp thông tin có tính chất quan trọng như tên người dùng, mật khẩu đăng nhập,

tài khoản đăng nhập ngân hàng cùng với các dữ liệu nhạy cảm khác được lưu trữ trên

các thiết bị dị động phổ biến ngày nay Ví dụ: Gần đây, kẻ tấn công đã tạo ra một loại

mã độc có tên là Xenomorph, phần mềm độc hại này đã phát hành một phiên bản mới

bổ sung các khả năng quan trọng, thực hiện các cuộc tan công phá hoại, phan mềmnày sử dụng phương thức có tên là khung hệ thống chuyển giao tự động (ATS) và

khả năng đánh cắp thông tin đăng nhập cua hon 400 ngân hàng trong và ngoài nước.Ngoài ra các cuộc tấn công mã độc này có thẻ sẽ trở nên khó phát hiện hơn trong

tương lai vì những kẻ tan công thực hiện liên tục các hành động thay đổi chiến lược

và cô gắng tạo ra các mẫu mã độc mới khiến chúng trông giống thật nhất có thé, bằngcách sử dụng máy học, trí thông minh nhân tạo đề lần tránh và qua mặt các trình phát

hiện phổ biến hiện nay

Trong luận văn này, tác giả nghiên cứu và đề xuất một mô hình phát hiện và

phân loại mã độc Android sử dụng học cộng tác kết hợp với học sâu, giúp giải quyếtđược bài toán về quyền riêng tư của dữ liệu trong phân loại mã độc cũng như là tăng

độ chính xác trong quá trình phát hiện và phân loại phần mềm độc hại Android

TP Hồ Chí Minh, tháng 4 năm 2023

Tác giả

Trang 12

GIỚI THIỆU ĐÈ TÀI

CHƯƠNG1 GIỚI THIỆU ĐÈ TÀI

11 Tên dé tai

Tên Tiếng Việt: Một nghiên cứu trong việc phân loại mã độc andorid bằng

học cộng tác.

Tên Tiếng Anh: A STUDY ON ANDROID MALWARE

CLASSIFICATION BY USING FEDERATED LEARNING.

1.2 Từ khóa

Học cộng tác, phân loại mã độc, tính bảo mật của dữ liệu

1.3 _ Tính khoa học, tính mới của đề tài

Tính khoa học của luận văn được thê hiện bằng việc nghiên cứu về kiến trúc

và hoạt động của mô hình học cộng tác; các kỹ thuật phân tích và các phương pháp

và kỹ thuật học máy được sử dụng để phát hiện và phân loại mẫu mã độc Anroid

Thông qua đó, đề tài luận văn dé ra mô hình học cộng tác để khắc phục nguy cơ mặt

rủi ro về tính riêng tư và toàn vẹn là sử dụng học cộng tác Federated Learning vàoviệc phát hiện mã độc android, đây một cách tiếp cận mới không chỉ nâng cao hiệusuất mà còn giảm thời gian chạy của quá trình đó là sử dụng các mẫu dữ liệu được

thu thập được từ các nguồn khác nhau để tạo ra độ chính xác cao đồng thời bảo vệ

tính riêng tư của dữ liệu.

Tính mới của luận văn thể hiện ở việc giới thiệu một mô hình học cộng tác,

nghĩa là có khả năng ứng dụng trên các loại kỹ thuật nhận diện các mẫu mã độc

android, cụ thé trong đề tài này là kỹ thuật nhận diện dựa trên các đặc trưng của mẫu

và dựa trên sự tương đồng trực quan Một hướng tiếp cận mới của đề tài là áp dụng

phương pháp học cộng tác, sử dụng mô hình được huấn luyện đề phân loại mã độc

làm đầu vào cho mô hình học cộng tác

1.4 Mục tiêu của đề tài

Nghiên cứu hiện thực và xem xét đánh giá việc áp dụng học cộng tác trong việc

nhận diện và phân loại các mẫu mã độc dựa trên hai mục tiêu chính:

Trang 13

e_ Thiết kế và triển khai một mô hình học sâu cùng kết hợp với việc ứng dụng

học cộng tác để tăng cường khả năng nhận diện và phân loại mẫu mã độc

Android ngoài ra cũng đảm bảo tính riêng tư của dữ liệu Trong phạm vi đề tàinày, sử dụng hai phương thức chính: đối với bài toán nhận diện và phân loạihọc viên sử dụng Keras dé phát triển và đánh giá các Neural Network cho bài

toàn phân loại Đối với bài toàn quyền riêng tư của dữ liệu, học viên sử dụngthuật toán Bằng cách kết hợp hai phương pháp này, học viên tạo ra một

famework ứng dụng học liên kết vào việc nhận diện và phân loại mẫu mã độc

android.

e Xem xét và đánh giá tính chính xác của mô hình đã đề ra thông qua sử dụng

các bộ dữ liệu thực nghiệm CICMalDroid2020

1.5 Đối tượng áp dụng, phạm vi nghiên cứu của đề tài

1.5.1 Đối tượng áp dụng

- Tấn công mã độc thông qua thiết bị điện thoại di động

- Mô hình học cộng tác.

1.5.2 Phạm vi nghiên cứu

- Về kỹ thuật sử dụng dé phân loại mã độc android: Kỹ thuật nhận diện và phân

loại dựa trên các đặc trưng của mẫu và kỹ thuật giảm rủi ro về tính riêng tư

Trang 14

GIỚI THIỆU ĐÈ TÀI

- Tìm hiểu và trích xuất các tính năng đặc trưng quan trong của mẫu dữ liệu,

đảm bảo không thay đổi chức năng hoạt động của đoạn của mẫu mã độc trướckhi đưa vào huấn luyện

1.6.2 Nội dung 2

Nội dung: Nghiên cứu triển khai mô hình giảm nguy cơ rủi ro về tính riêng tư

và toàn ven của dữ liệu

Phương pháp:

- Nghiên cứu, khảo sát các công trình liên quan đến mô hình học cộng tác, cụ

thể là các Framework có hỗ trợ học cộng tác

- Tái huấn luyện các trình học máy nhận diện và phân loại mẫu mã độc dựa trên

mô hình học cộng tác Xây dựng kịch bản, thống kê số liệu đánh giá sự cải

thiện độ chính xác nhận diện, phân loại mã độc.

1.6.3 Nội dung 3

Nội dung: Đánh giá hiệu quả mô hình

Phương pháp:

- Phân tích, đánh giá các kết quả thu được, kiểm chứng tính hiệu quả của mô

hình đề xuất thông qua kết quả thực nghiệm của các mô hình đã có và thông

qua các bộ dữ liệu thực nghiệm

1.7 Đóng góp và công bố khoa học của tác giả

1.7.1 Đóng góp chính

Đóng góp của tác giả thông qua việc ứng dụng thành công học cộng tác vào việc

nâng cao hiệu suất nhận diện và phân loại mẫu mã độc Android kết hợp với trình phát

hiện dựa trên học máy có thể được nêu ra như sau:

© Vé mặt khoa hoc, nghiên cứu đề xuất và triển khai thực nghiệm mô hình

học cộng tác, sử dụng các đặc trưng được trích xuất của mẫu mã độc vàkết hợp với học sâu, góp phan giải quyết van đề quyền riêng tư của dữ

liệu trong việc huấn luyện và nâng cao hiệu suất của các trình phát hiện

và phân loại mã độc Android.

Trang 15

« Về mặt thực tiễn, mặc đù học cộng tác còn khá mới mẻ và sẽ tiếp tục phát

triển mạnh trong một số lĩnh vực trong tương lai Việc ứng dụng học cộng

tác kết hợp với học sâu vào việc phát hiện và phân loại mã độc Androidđóng vai trò mau chốt, cung cấp cái nhìn tổng quan về những lợi ích tiềm

tàng mà học cộng tác mang lại Đồng thời mang lại rất nhiều lợi ích chonghiên cứu khi bối cảnh quyền riêng tư và tính bảo mật được đặt trênhàng đầu

1.7.2 Công bố khoa học liên quan

Tác giả đã được chấp nhận công bố bài báo “A STUDY ON ANDROID

MALWARE CLASSIFICATION BY USING FEDERATED LEARNING ” tại

Hội nghị quốc tế lần thứ 6 Tính toán thong minh và tối ưu hóa năm 2023 (6"

International Conference on Intelligent Computing and Optimization April 27-28 ,

2023 )

(Bai báo được đính kèm trong phân Phụ lục của luận văn)

1.8 Cấu trúc của luận văn

Luận văn sẽ được tác giả trình bày trong 5 chương.

CHƯƠNG 1 GIỚI THIỆU ĐÈ TÀI

Trong chương này, tác giả trình bày tong quan về đề tài, mục tiêu, đối tượng,

phạm vi nghiên cứu của đề tài Song song với đó, tác giả cũng liệt kê các nội dung vàphương pháp sẽ được nghiên cứu, cũng như nhắn mạnh tính khoa học, tính mới và

cấu trúc của đề tài Trên cớ sở các nội dung trên, tác giả sẽ tiếp túc vào chương 2 đềtrình bày chỉ tiết về lý thuyết và các công trình nghiên cứu liên quan

CHƯƠNG 2 TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾPCẬN CỦA ĐÈ TÀI

Giới thiệu các phương pháp và kỹ thuật để nhận diện và phân loại mẫu mã độc

Android Khảo sát, tìm hiểu và trình bày các hướng nghiên cứu, giải pháp, thuật toán

học máy đã được áp dụng trong vấn đề phát hiện và phân loại Trong chương này,học cộng tác cũng được giới thiệu như một hướng tiếp cần tiềm năng để giải quyếtvân đề mà đề tài của tác giả đã đặt ra

Trang 16

GIỚI THIỆU ĐÈ TÀI

CHUONG 3 MÔ HÌNH ĐÈ XUAT

Trong chương này, tác giả trình bày hướng tiếp cận tận dụng học cộng tác đểnhận diện các mã độc trên nên tảng android Tác giả giới thiệu cách áp dụng học cộng

tác trong việc nhận diện mã độc android và giải thích lợi ích của phương pháp này.

Ngoài việc phát hiện mã độc, dé tài này cũng ứng dụng mô hình đề xuất trong việcgiải quyết bài toán về quyên riêng tư của dữ liệu

CHƯƠNG 4 THỰC NGHIỆM VÀ KET QUA

Chương này trình bày chỉ tiết về các bộ mẫu dữ liệu, môi trường được ứng dụng

để thực nghiệm Các bộ mẫu dữ liệu sẽ được chọn lựa sao cho phù hợp với mục tiêu

của đề tài và có đủ độ đa dạng để đảm bảo tính khả thi và đáng tin cậy của kết quả

Môi trường thực nghiệm cũng sẽ được mô tả, bao gồm các công cụ và thư viện hỗ trợđược áp dụng để triển khai mô hình và thực hiện các thử nghiệm Chỉ tiết các kịchbản được hiện thực dé chứng minh tính hiệu quả mô hình dé xuất Tác giả sẽ mô tả

các bước thực hiện, các thông số cấu hình và tiêu chí đánh giá trong các kịch bản.Các dữ liệu sẽ được thu thập, tong hợp dé phân tích kết quả

CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHAT TRIÊN

Chương này tác giả tổng kết lại các kết quả, tác giả đánh giá tính hiệu quả và

tính khả thi của phương pháp và xem xét các hạn chế, giới hạn có thé xảy ra trongđược áp dụng phương pháp giải quyết những vấn đề trong phạm vi đề tài này Tác

gia cũng xem xét các cải tiến và điều chỉnh có thé áp dụng dé nâng cao độ chính xác,

giải quyết van đề trong tương lai Cuối cùng, tác giả cung cấp những hướng phát triểntiếp theo cho dé tài, xem xét các khía cạnh mà có thé được nghiên cứu cải tiền để mở

rộng phạm vi và ứng dụng của dé tài Các hướng phát triển này có thể nghiên cứuthêm về các kỹ thuật và phương pháp học cộng tác hoặc mở rộng đề tài sang các lĩnh

vực mới.

Trang 17

CHUONG 2 TONG QUAN VAN DE NGHIEN CUU

vA HUONG TIEP CAN CUA DE TAI

2.1 Các vấn dé nghiên cứu

Trong cuộc sống ngày nay, điện thoại thông minh luôn là lựa chọn phổ biến củangười dùng Số lượng người dùng điện thoại trên toàn cầu đã vượt quá ba tỷ và dựkiến sẽ tiếp tục tăng trong tương lai Cùng với sự bùng nỗ mạnh mẽ của hệ điều hànhAndroid, song song là số lượng phần mềm mã độc phát triển trên các thiết bị nàycũng ngày càng nhiều Thông kế cho thấy năm 2021, các sản phẩm và công nghệ di

động của Kaspersky đã phát hiện: 3,464,756 gói cài đặt độc hại, 97,661 Trojan Banker

mới, 17.372 Trojan ransomware [1] Điều này cho thấy rõ ràng các mã độc Androidđang ngày càng phát triển và liên tục cải tiến

Đã có rất nhiều các nghiên cứu về việc phát hiện và phân loại mã độc android

đã được dé xuất và cho kết quả rất tích cực Tuy nhiên có một điểm yếu đó là tập dữ

liệu mà họ sử dụng đều được tập hợp từ nhiều nơi khác nhau, sau đó các người nghiêncứu sẽ tập hợp lại một nơi có định dé thực hiện quá trình dao tạo Điều này dẫn đến

những lo ngại về các van đề nguy cơ rủi ro, tính bảo mật và riêng tư của dữ liệu, vì

dữ liệu được công khai và được truyền đi, chính vì thế cần đảm bảo tính riêng tư và

toàn vẹn của dữ liệu nhưng cũng đồng thời truyền dữ liệu ít tiêu tốn tài nguyên và

năng lượng nhất có thể Vì vậy đề xuất một phương pháp đề khắc phục vấn dé này là

sử dụng học cộng tác (Federated Learning) vào việc phát hiện mã độc android, đây

một cách tiếp cận mới không chỉ nâng cao hiệu suất mà còn giảm thời gian chạy Họccộng tác sử dụng bộ dữ liệu được thu thập được từ các nguồn khác nhau đề tạo ra độchính xác cao nhưng cũng đồng thời bảo vệ được tính riêng tư của dữ liệu

2.2 _ Các nghiên cứu liên quan

Từ việc những chiếc điện thoại thông minh đang ngày càng trở nên thân thuộcvới người dùng Những chiếc điện thoại này đã góp phần nào cho cuộc sống củachúng ta trở nên thuận dễ dàng hơn, hiện đại hơn, nhưng cũng vì thế mà một lượng

dữ liệu khổng lồ ngày càng được tạo ra Do sự bùng nỗ mạnh mẽ này dẫn đến các

cuộc tan công nhằm vào các thiết bị di động có xu hướng tăng, do vậy mà đã làm thúc

Trang 18

TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

day mạnh mẽ sự ra đời của các nghiên cứu về phát hiện và phân loại mã độc trên các

thiết bị android trong những năm gần đây Nhưng hướng tiệp cận máy học theo cácphương pháp truyền thống đang gặp một số hạn ché về kết nối, băng thông, độ trễ, và

đặc biệt là mối quan tâm nhất hiện nay đó là quyền riêng tư và tính bảo mật dữ liệu

người dùng vì đa phần dữ liệu sử dụng thường là những dữ liệu nhạy cảm, thông tin

cá nhân của người dùng Do đó, dữ liệu riêng tư không nên được chia sẻ cho bat kỳ

ai mà không có cơ chê bảo vệ nào.

Mới đây, Meta đã bị phạt 276 triệu dolar vì rò rỉ dữ liệu trên Facebook liên quan

đến hơn 533 triệu người dùng [2] hay năm 2021, Microsoft đã vô tình phơi bày 250

triệu hồ sơ khách hàng [3] Từ đó làm cho chúng ta ngày càng quan tâm hơn về tínhbảo mật và quyền riêng tư của dữ liệu họ cũng như các nơi lưu trữ dữ liệu an toàn

Việc rò ri thông tin cá nhân dẫn đến một số hậu quả nghiêm trọng Trên toàn thế giới

đã có một số quốc gia cũng đã phát hành những quy định dé đảm bảo an toàn dữ liệu

và quyển riêng tư, việc ban hành này đặt ra những thử thách mới trong các phươngpháp truyền dữ liệu Những van đề nêu trên đã dẫn đến các nghiên cứu đòi hỏi phải

có sự thay đổi các mô hình trong các cách xử lý dữ liệu cũng như nơi lưu trữ tập

trung Máy học thường được ứng dụng để giải quyết các van đề phức tạp nhưng với

sự ra đời của dữ liệu lớn thì đã làm xuất hiện của các công nghệ mới như học liên kết,

điện toán đám mây Vì vậy thời gian gần đây, cho thấy có sự thay đổi nhanh chóng

từ mô hình máy học truyền thống sang mô hình học cộng tác dé giải quyết một số van

đề an ninh dữ liệu

Trong những phần tiếp theo của chương này, tác giả sẽ nêu ra những nghiên cứu

và hướng tiếp cận liên quan đến phương pháp phát hiện và phân loại mã độc android

và những giải pháp giúp giảm thiéu rủi to về Quyền riêng tư và sự bảo mật của dữliệu và người dùng.

2.2.1 Các kỹ thuật phát hiện và phân loại mã độc Android

Các kỹ thuật và phương pháp học máy đã được ứng dụng trong việc phát hiện

mã độc trên thiệt bị di động đã được nghiên cứu phổ biến, các kỹ thuật này tận dụng

một số đặc trưng của ứng dụng di động để xem xét liệu ứng dụng có phải là mã độchay không Tác giả dẫn chứng một số công trình nghiên cứu có liên quan, một số kỹ

Trang 19

thuật phổ biến được sử dung trong nhận biết mã độc trên các ứng dung đi động thông

minh Khác với học truyền thống, học sâu tự động tạo ra các đặc trưng hiệu quả màkhông cần các bước lựa chọn đặc trưng [4], [5] [6] Một số giải pháp hiện có nhằm

phát hiện phần mềm độc hại trên nền tảng Android và phân loại chúng thành ba danh

mục: phân tích tinh [7], [8], [9], [10], [11], [12] [13] phân tích động [14], [15], [16]

và phân tích kết hợp [17], [18], [19] [20] Trong đó, phân tích tinh phân tích các

thành phần tệp manifest hoặc chuỗi cuộc gọi API trong ứng dụng, phân tích độngphân tích hành vi chạy thời gian thực của các ứng dụng Phân tích kết hợp là gồm hai

danh mục phân tích tĩnh và động đề phát hiện phần mềm độc hại

Gần đây, một phương thức kết hợp cho việc phát hiện mã độc Android dựa trên

phát họa luồng điều kiển và máy học, Zhuo Ma và cộng sự [21] đề ra phương thứcphát hiện mã độc android dựa trên phát họa các thông tin API Đầu tiên xây dựngbiểu đồ luồng thực hiện của ứng dụng dé đạt được các thông tin về API, sau đó họ

dựa trên ba bộ dữ liệu và ba mô hình phát hiện là gọi API, tần suất API và thứ tự gọi

API Cuối cùng, một mô hình tổng thể được xây dựng sao cho phù hợp Họ thựcnghiệm phương pháp này với tập dữ liệu bao gồm 10010 mẫu lành tính được tổng

hop từ tập AndroZoo và 10693 mẫu độc hại được tổng hợp từ tap AMD Kết quả độ

chính xác của mô hình huấn luyện này thu được là 98.98% Với phương pháp phathiện này cho kết quả cao tuy nhiên không thê thu thập và tổng hợp các mẫu mã độcandroid Từ đó dẫn đến làm cho thiếu hụt thông tin các mẫu mã độc

Anshul Arora và cộng sự [22] nêu ra phương thức phát hiện bằng cách xác địnhcác cặp quyền có thể nguy hiểm Họ cải tiến model phát hiện mã độc có tên là

PermPair bằng cách xây dựng, so sánh các biểu đồ mã độc và các mẫu bình tườngbằng cách trích xuất các cặp quyền từ tệp tin manifest của ứng dụng Tập dữ liệu được

ho sử dụng dé thực nghiệm trong bài báo này bao gồm 7533 mẫu từ các nguồn khácnhau và độ chính xác của cách thức này là 95.44% Mặc dù tỉ lệ tương đối cao, tuy

thu thập bộ dữ liệu ở ba nguồn khác nhau là Genome, Drebin, Koodous nhưng số

lượng mẫu còn rất thấp (7533 mẫu mã độc), dẫn đến hiệu suất bị giảm đạt được khôngđáng kẻ, tỉ lệ đương tính giả khá cao khi thực nghiệm với dữ liệu lớn

Trang 20

TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

Kartik Khariwal và cộng sự [23] ho cải tiến model phát hiện mã độc bằng cách

tập hợp các thông tin về Intents and Permissions của ứng dụng Sau đó, sắp xếp cácthông tin này và chọn ra những Intents và Permissions tốt nhất để phát hiện mã độc

android với hiệu suất cao Họ cũng đề ra một số thuật toán mới để tìm ra tập hợp tốtnhất bằng cách áp dụng các thuật toán máy học Tập dữ liệu họ sử dụng bao gồm các

mẫu lành tính được tổng hợp từ Google Play Store, các mẫu độc hại họ thu thập từ

các nguồn Genome, Drebin, Koodous Hướng này cho ra được kết quả dương tínhthật là 94%, tuy nhiên có điểm yếu của phương pháp được đề xuất này là chưa thểnhận biết được những mẫu mà có ít intents và permissions do đó dẫn đến độ chính

xác không được cao.

Các hướng tiếp cận về phân loại mã độc Andoird cũng được nghiên cứu và đề

xuất Han Gao và các cộng sự [24] phát triển hệ thống có tên gọi là GDroid ứng dụng

mang neural trong việc phân loại mã độc, y tưởng chung là họ ánh xạ các ứng dung

và API thành một đồ thị lớn không đồng nhất, từ đó thực hiện việc phân loại Kết quảđạt được ở hướng này đối với quá trình phát hiện là 98% và quá trình phân loại là

97% tỉ lệ dương tính giả thấp Họ sử dụng ba tập dữ liệu đó là AMGP, DB, AMD và

tập lành tính thu thấp từ Google Play Store với tổng số là 1200 mẫu mã độc và 2100

mẫu lành tính Nhìn chung về số lượng dữ liệu họ sử dụng không nhiều và cũng không

có đề cập đến làm sao bảo vệ tính riêng tư và tính bảo mật của thông tin và cá nhân

dữ liệu.

Ngoài ra độ chính xác của việc phát hiện và phân loại này cũng phụ thuộc vào

quá trình chọn các tính năng đặc trưng Anam Fatima và các cộng sự [25] đề nghị

một các tiếp cận dựa trên máy học phát hiện và phân loại mã độc android dựa trênthuật toàn di truyền để chọn đặc trưng, các đặc trưng được chọn từ thuật toán di truyền

này sẽ được sử dụng cho đào tạo và phân loại, hiệu suất cho được là 94% Tập dữ

liệu họ sử dụng là 40000 apk trong đó 20000 apk độc hại và 20000 apk lành tính.

Công việc tiếp theo của họ là bằng cách tận dụng bộ dữ liệu lớn hơn đề cải thiện kết

quả và phân tích ảnh hưởng đối với các thuật toán học máy khác khi được sử dụngcùng với thuật toán di truyền

Trang 21

Ngoài ra dé nâng cao tính hiệu qua và độ chính xác trong quá trình phát hiện và

phân loại mã độc andoird, các nhà nghiên cứu cũng sử dụng các bộ dữ liệu lớn Bosun

và cộng sự [26] giới thiệu một cách tiếp cận mới không chỉ nâng cao hiệu suất mà

còn giảm thời gian chạy của quá trình đó là sử dụng bộ dit liệu được thu thập được từ

các nguồn khác nhau dé tao ra độ chính xác cao, có tổng cộng 300k mẫu và 28 họ mã

độc Kết quả độ chính xác cho toàn bộ quá trình này xấp sỉ 99.71 % và quá trình phân

loại là Fl-score (97.5%), precision (96.55%), recall (98.64%).

Ở các nghiên cứu phát hiện va phân loại mã độc nêu trên cho kết qua rất khả

quan, tuy nhiên tập dữ liệu mà họ sử dụng đều được tập hợp từ các nơi khác nhau,

sau đó tập hợp chúng lại một nơi cố định để thực hiện quá trình đào tạo Điều này dẫnđến nguy cơ mặt rủi ro tính riêng tư của dữ liệu và đảm bảo bảo mật của người dùng,

vì dữ liệu được công khai và được truyền đi, chúng ta cần giải quyết van đề của dữliệu đồng thời không làm giảm hiệu suất của quá trình nhất có thể Vì vậy phương

pháp được dé xuất để khắc phục điều này là sử dụng học cộng tác kết hợp với học

sâu.

2.3 Học sâu và hướng tiếp cận

2.3.1 Cơ sở lý thuyết học sâu

Neural Network [27] là một mô hình toán học được thiết kế để mô phỏng cáchhoạt động của các tế bào thần kinh trong bộ não của con người Một Neural Network

gồm nhiều đơn vị tính toán nhỏ gọi là noron nhân tạo (artificial neurons) hoặc nút

(nodes) Các nút này kết nối tạo thành một mạng lưới Mỗi nút nhận đầu vào từ các

nút khác, thực hiện một phép tính toán đơn giản và truyền kết quả cho các nút khác

Quá trình được thực hiện qua các lớp (layers) trong mang Mang Neural Network

thường có ít nhất một lớp đầu vào (input layer), một hoặc nhiều lớp ân (hidden layer),

và một lớp đầu ra (output layer) Qua việc điều chỉnh trọng số (weights) và ngưỡng(biases) của các kết nói giữa các nút, Neural Network có khả năng học dữ liệu đầu

vào và điều chỉnh các tham số đề thực hiện nhiều tác vụ khác nhau như xử lý thông

tin.nhận dạng hoặc phân loại đối tượng Neural Network đã chứng tỏ được khả năng

mạnh mẽ trong nhiều bài toán khó như xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói

„nhận dạng hình ảnh và nhiều lĩnh vực khác nữa Công nghệ này đang được sử dụng

Trang 22

TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

rộng rãi và tiếp tục phát triển dé tạo ra các ứng dụng thông minh và giải quyết các

van đề phức tạp trong thé giới hiện đại

Vé cau tạo cơ bản của một mang NN gồm các thành phan sau :

¢ Lớp đầu vào: Là lớp đầu tiên của mạng, các đầu vào có thé là các đặc

trưng, dữ liệu hình ảnh, văn bản, âm thanh hoặc bất kỳ loại dữ liệu nào

mà mạng cần xử lý

¢ L6p đầu ẩn: Là các lớp nằm giữa lớp đầu vào và lớp đầu ra Số lượng và

kích thước của các lớp an có thể khác nhau tùy thuộc vào kiến trúc mạng

Mỗi lớp ẩn bao gồm no-rơn và các trong số kết nối dé tính toán và suyluận logic của mạng Các lớp 4n giúp mạng học các đặc trưng phức tạp

và biểu diễn quan hệ phi tuyến tính giữa đầu vào và đầu ra

¢ Lớp đầu ra: Là lớp cuối cùng của mạng Số lượng nơ-ron trong lớp phụ

thuộc vào số lượng lớp đầu ra mong muốn Mỗi no-ron trong lớp đầu ra

có thé đại diện cho một lớp của dit liệu đầu ra hoặc một giá trị dự đoán

cụ thể

Trang 23

Trong khi triển khai một mạng nơ-ron, những hàm phi tuyến được áp dụng vàođầu ra của các nơ-ron trong lớp ẩn và làm đầu vào cho các lớp tiếp theo thường được

là khi kích thước của bước học cao thì các trọng số thay đổi liên tục làm cho tất cả

nơ-ron tạm ngưng cập nhật, hoặc có lúc sẽ xảy ra hiện tượng Dying ReLu.

Về cơ bản thuật toán tối ưu hay còn được gọi Optimizer function là nền tảng đểtạo ra mô hình NN với mục đích điều chỉnh quá trình học được các tính năng hay đặctrưng của đữ liệu đầu vào chăng hạn như tốc độc hoc (learning rate) hoặc các trọng

số, từ đó có thé tìm trọng số thích hợp dé tối ưu mô hình hiện tại, hỗ trợ cải thiện độchính xác Các thuật toán tối ưu thường thấy trong các nghiên cứu đó là Adam,

Trang 24

TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

Gradient Descent, Stochastic Gradient Descent, RMSprop Tuy nhién, Adam [30]

được đánh giá là thuật toán tối ưu tốt nhất hiện nay Thuật toán này rất tốt cho moi

vấn đề học sâu trong nghiên cứu Các tham số thường được cấu hình trong thuật toán

để đặt kết quả cao nhất như là tham số beta_1 = 0.9 và tham số beta_2 = 0.999 và

learning rate trong khoảng 0.001 — 0.0001.

Hàm mắt mát (loss function) là một khái niệm trong quá trình triển khai một mô

hình học máy Hàm này thé hiện mối liên hệ giữa giá trị thực nhận và kết quả dự đoáncủa mô hình học máy Ở các thuật toán học máy, hàm mat mát là một hàm mục tiêucủa quá trình tìm kiếm có nhiệm vụ thực hiện các sự thay đổi hay phương pháp thay

đổi trọng số của mô hình có giá trị nhỏ nhất hoặc có thể chấp nhận được, đồng thời

đánh giá độ tốt của mô hình Tùy vào mỗi bài toán cụ thể, mà người dùng sử dụng

các hàm mat mát khác nhau cho những bài toàn khác nhau Ví dụ hàm Mean Squared

Error, Mean Absolute Error sử dụng trong bài toán hồi quy, hàm Cross-Entropy,

Binary cross entropy sử dụng trong bài toán phân loại.

2.3.2 Giải pháp, hướng tiếp cận phát hiện và phân loại mã độc Android dựa trên

học sâu

Học sâu (Deep learning) được xem như là một phần của trí tuệ nhân tạo và đượcxâu dựng dựa trên kiến thức về cách bộ não bộ não con người hoạt động để xử lý dữ

liệu, mục đích của học sâu là sử dụng mạng Neural Network và các kỹ thuật liên quan

để học và và rút trích thông tin từ dữ liệu để thực hiện các bài toán như phân loại,

nhận dạng, dự đoán, và khám phá mẫu Học sâu có mối liên hệ chặt chẽ với các kỹthuật và thuật toán học máy trong việc trích xuất thông tin, khám phá mẫu và đưa ra

kết luận từ tập dữ liệu Mạng Neural Network sẽ tự động tìm hiểu các đặc trưng và

mô hình hóa quan hệ dữ liệu đầu vào và đầu ra Điều này cho phép học sâu xử lý các

dữ liệu phức tạp và đưa ra các quyết định dưa vào việc các mô hình tự động tạo ra.

Trong lĩnh vực phát hiện và phân loại mã độc, học sâu đã được triển khai rộng rãi

Mạng Neural Network có thể học và nhận biết các đặc trưng phức tạp của mã độc, từ

đó đưa ra nhận định phân loại Việc đưa phương pháp học sâu vào các bài toán phân

loại mã độc giúp tăng tính chính xác và hiệu suất so với các phương pháp truyền

thống Học sâu cũng mô hình hóa lại các mối quan hệ vốn rất phức tạp giữa các đặc

Trang 25

trưng của mã độc, từ đó cung cấp thông tin cần thiết dé đưa ra nhận định và giúp bảo

vệ các hệ thống khỏi các mối đe dọa

Trong dé tài nay, tác giả ứng dung và thực nghiệm các thuật toán học sâu cùng

với học cộng tác đề phân loại mã độc android và bảo vệ các tính chất của dữ liệu Sử

dụng thuật toán học sâu và học cộng tác trong việc phân loại mã độc android và bảo

vệ các tính chất của dữ liệu là một ứng dụng quan trọng và hứa hẹn trong lĩnh vựcphòng chống mã độc Một vài thuật toán học sâu có thể học từ dữ liệu lớn và phứctạp, từ đó giúp nhận định và phân loại các loại mã độc và mối đe dọa bảo mật Sự tích

hợp của học sâu trong các phần mềm phòng chống virus và phần mềm bảo mật giúp

cải thiện khả năng nhận biết các mẫu mã độc Học sâu có thể học các đặc trưng củamẫu từ các mẫu đã biết trước và sử dụng chúng dé phân loại các mẫu mới Điều này

cho phép hệ thống chống mã độc nhận ra các biểu hiện mới của mã độc mà trước đây

chưa từng gặp phải Ngoài ra, việc tích hợp học sâu vào các tiện ích trình duyệt web

cũng là một ý tưởng hay giúp ngăn ngừa các tấn công mã độc trực tuyến Các thuậttoán học sâu có thé phân tích và nhận diện các mẫu độc hai trong luồng dữ liệu trình

duyệt, từ đó bảo vệ người dùng khỏi các mối đe dọa bảo mật Bên cạnh đó, triển khai

học sâu trên các hệ thống đám mây cũng cho thấy được nhiều lợi ích trong việc xử lý

và phân loại dữ liệu lớn Các kỹ thuật học sâu có khả năng giải quyết và học từ dữliệu phức tạp trong thời gian thực, giúp nhận biết sớm các mới đe dọa và có cách đối

phó một cách hiệu quả.

Tổng quan, sự tích hợp của học sâu vào các ứng dụng phòng chống mã độcmang lại tính hiệu quả cao hơn, khả năng phát hiện tốt hơn và bảo vệ được các tính

chất của dữ liệu Việc sử dụng các thuật toán học sâu cùng với học cộng tác là một

phương pháp tiên tiến trong lĩnh vực này và góp phần vào sự an toàn hệ thống côngnghệ thông tin và bảo mật dữ liệu cá nhân.

2.3 Học cộng tác và hướng tiếp cận

2.3.1 Cơ sở lý thuyết học cộng tác

Vao năm 2016, Google đã giới thiệu trong bài báo với tiêu đề

Communication-Efficient Learning of Deep Networks from Decentralized Data hay còn gọi là họccộng tác (Federated learning) [31] , hay con được viết tắt là FL, là một hướng tiếp

Trang 26

TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

cận đề thiết lập một mô hình học tương đối mới tránh thu thập dữ liệu tập trung và

đào tạo mô hình Mô hình giới thiệu trong bài báo bao gồm các client, mỗi client có

dữ liệu riêng biệt và một server điều phối quá trình học cộng tác Ở máy khách, quá

trình huấn luyện được thực hiện, sau đó sẽ gửi các tham số liên quan đến quá trìnhhuyền luận tới server, một quá trình tổng hợp sẽ được thực hiện và cập nhật các tham

số xuống cho các client, mô hình được minh họa theo Hình 2

Initial (A) Localtraining

(2) Send parameterto server

© Mô hình Server: Nơi chứa đựng nhiều tài nguyên và khả năng xử lý mạnh mẻ

Máy chủ sẽ có hai hành động được thực hiện: Hành động thứ nhất là khởi tạo

model và tiếp đó là gửi các tham số đến các máy khách, hành động thứ hai làtính toán trọng số tốt nhất mà các client gửi lên sau đó update lại xuống cho

client.

© Mô hình Client: Các client chứa một số mẫu mã độc khác nhau và sử dụng

model local để thực hiện việc phân loại mã độc

Học liên kết về lý thuyết có thể được giải thích ngắn gọn trong các bước bên

dưới như sau:

o Bước 1: Mô hình chung (chia sẻ) được đào tạo phía máy chủ.

Trang 27

o Bước 2: Một số máy khách được chọn để đào tạo trên mô hình chung.o_ Bước 3: Các máy khách được chọn tải xuống mô hình.

o Bước 4: Mô hình chung được huấn luyện trên các thiết bị, tận dụng dữ

liệu cá nhân của chính người dùng, dựa trên thuật toán tối ưu hóa

o Bước 5: Một bản tông hợp về những thay đổi của mộ hình sẽ được tiến

hành đó là sự thay đổi của các trọng số của mạng nơ-ron sau khi được

huấn luyện được gửi đến máy chủ

o_ Bước 6: Máy chủ tổng hợp các bản cải thiện từ thiết bị dé cải thiện mô

hình được chia sẻ Cập nhật tổng hợp được triển khai bằng cách sử dụng

một thuật toán mới được gọi là “thuật toán trung bình liên kết”

o Bước 7: Lap lại quá trình gửi mô hình chung đến thiết bị và cải tiến

chúng dựa theo bản tóm tắt các bản cập nhật nhận được2.3.2 Ứng dụng học cộng tác vào phát hiện mã độc Android

Rafa Galvez và cộng sự [32] giới thiệu cách sử dụng học cộng tác vào việc phát

hiện và phân loại mã độc android Một phương thức kết hợp lợi dụng sức mạnh củahọc cộng tác dé cung cấp một giải pháp phát hiện mã độc đồng thời tôn trọng quyền

riêng tư của người dùng Họ có thể phân loại tất cả các mẫu độc hại được cài đặt trên

thiết bị đi động cá nhân bat ké chúng được lay từ cửa hàng ứng dụng hay các nguồn

hác, cho phép người dùng phát hiện ra ứng dụng độc hại mà không cần dựa vào máy

chủ của cửa hàng ứng dụng (ví dụ: Cửa hàng Google dành cho Play) cho các dịch vụ

phân loại phần mềm độc hại Giảm sự tùy thuộc của cá nhân người dùng vào các cửaang ứng dụng theo cách có lợi cho cả quyên riêng tư và hiệu suất phát hiện phan

mềm độc hại Tập dữ liệu họ sử dụng là AndroZoo với tổng cộng 25.000 ứng dụng

được chọn từ Anzhi, Appchina, Google Play Store Điểm còn hạn chế trong phương

pháp này là phân loại theo nhóm phần mềm độc hại hiện tại nằm ngoài phạm vi củabài báo và các tham số thực nghiệm đã được định nghĩa trước, việc lựa chọn kỹ lưỡngcác tham số sẽ giúp hiểu rõ hơn về hiệu suất của phương pháp này

Rahim Taheri và cộng sự [33] giới thiệu một framework mạnh mẽ có tên 1oT dé phát hiện ứng dụng mẫu mã độc android trong môi trường IoT Fed-IIoT hình

Fed-thành 1 mô hình học cộng tác mạnh mẽ bằng cách điều chỉnh 2 thuật toán đối kháng

Trang 28

TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

dựa trên GAN Một trong những điểm nỗi trội của phương pháp này là các thiết biIoT có thể tham gia một cách an toàn và giao tiếp hiểu quả với nhau và không có van

để riêng tư dit liệu Ngoài ra, để xem xét hiệu quả phương pháp này, ho sử dụng 3 tập

di liệu IoT: Drebin [34] chứa khoảng 131.611 mẫu gồm độc hại và lành tính ,Genome [35] gồm 1.200 mẫu mã độc, Contagio [36] gồm 16.800 mau lành tính và

11.960 mẫu IoT độc hại Kết quả thực nghiệm họ chia thành 2 kịch bản: Kịch bản 1,

ban đầu kết quả ghi nhận được 97% nhưng khi tiền hành các phương án tan công vào

mô hình, kết quả họ thu được giảm từ 20% đến 30% Kịch bản 2, họ áp dụng các cơchế phòng thủ, kết quả tăng 10% đến 15% So sánh hai phương thức GANBased và

FedGAN, có thé thay rằng các phương thức phòng thủ hầu như luôn thành công trước

phương thức tấn công GAN-Based Từ đó có thể nhận xét được tính hiệu quả khi

dùng học cộng tác vào việc phát hiện mã độc trong môi trường IoT.

Changnan Jiang và cộng sự [37] đề ra phương pháp có tên là Fe—dHGCDroid để

phát hiện phần mềm mã độc android Đầu tiên họ sử dụng convolutional neural

network and graph neural network dé thiết kế mô hình phân loại đa chiều tên làHGCDroid Thứ hai họ giới thiệu framework để cho phép các máy khách Android

hợp tác đào tạo mô hình phân loại mã độc Android theo cách bảo vệ quyền riêng tư

đữ liệu về tập dữ liệu họ sử dụng đó là AndroZoo với khoảng 70.000 ứng dụng cho

việc phát hiện và phân loại Hiệu suất đạt được khi không ứng dụng học cộng tác là:

quá trình nhận diện mã độc có độ chính xác là 91.3% và quá trình phân loại mẫu mã

độc có độ chính xác là 83.29% Về độ chính xác tron quá trình ứng dụng học côngtác thu được đối với quá trình phát hiện là 91% và quá trình phân loại là 81% Tuy

nhiên vẫn còn số giới hạn trong bài báo này là về việc cơ chế cập nhật các tham số ở

client-side.

Chaudhuri và cộng sự [38] thiết kế một cơ chế mới dé tính toàn và cập nhậttrọng số gọi là DW-FedAvg Trong đó, các trọng số cho từng mô hình cục bộ được

cập nhật tự động dựa trên hiệu suất của quá trình đào tạo tại các máy khách

DW-FedAvg được đánh giá bằng 4 tập dữ liệu phô biến đó là: Melgenome gồm 3799 mẫutrong đó 2539 mẫu lành tính và 1260 mẫu độc hại, Drebin gồm 15036 mẫu trong đó

9476 mẫu lành tính và 5560 mẫu độc hại, Kronodroid gồm 78137 trong đó 36935

Trang 29

mẫu lành tinh và 41382 mẫu độc hai, Tuandromd gồm 4465 mau trong đó 903 lànhtính và 3565 độc hai, sử dụng cho việc nghiên cứu các bài toán về phân loại các mẫu

độc hại android Độ chính xác khi họ thực hiện với tập dữ liệu Malgenome là 99%,

với tập Drebin là 98%, tập Kronodroid là 96% và tập Tuandromd là 98% Tuy kếtquả trong để xuất này cho các độ đo lường tương đối cao nhưng họ đang thực nghiệm

với mẫu dữ liệu được phân chia theo IID còn về thực nghiệm đối với mẫu dữ liệu

phân chia theo Non-IID thì bài báo không đề cập Vì vậy, cần xem xét tính chính xác

và hiệu suất của để xuất này khi hiện thực với mẫu dữ liệu Non-IID

Kuang-Yao Lin và cộng sự [39] giới thiệu phương pháp phân loại mẫu độc hại

trên Window bằng sử dung FL và dựa trên bộ dữ liệu của VirusTotal Họ sử dụng cácmodel phân loại mã độc truyền thống như SVM, LSTM Sau đó kết hợp với mô hình

học cộng tác với độ chính xác thu được là 91.67% Về tập dữ liệu, họ thu thập cácmẫu mã độc từ Virustotal, các mẫu dữ liệu đều hoạt động trên hệ điều hành Window,

tập dữ liệu chứa 10.907 mẫu mã độc bao gồm 5.907 cho phần đào tạo và 5.000 cho

phần testing Nhìn chung, đây cũng là một nghiên cứu trong việc phân loại các mẫuđộc hại trên hệ điều hành Window, thêm nữa họ đã trình bảy một phương thức phân

loại mã độc với việc thu tập dữ liệu phi tập trung bằng cách ứng dụng học cộng tác

vào việc phân loại này.

Valerian Rey và cộng sự [40] dé ra một Framework sử dụng FL để phát hiện

mẫu độc hại trên các thiết bị IøT Họ tận dụng bộ dữ liệu gồm các lưu lượng mạng

của một số thiết bị IoT bị nhiễm độc hại và bộ lành tính sử dụng dé đánh giáFramework Trong đó có khoảng 100.000 mẫu / 1 thiết bị sử dụng cho giải pháp họcgiám sát và chỉ có 10.000 mẫu cho giải pháp học không giám sát Họ thực hiện sosánh độ chính xác giữa 2 hướng: 99.92 % cho hướng tiếp cận theo học cộng tác và99.96% cho hướng tiếp cận học tập trung Như vậy, công trình này giới thiệuFramework bảo vệ quyền riêng tư trong việc nhận diện phần mềm độc hại trên các

thiết bị loT bằng cách tận dụng học cộng tác để triển khai và xem xét tính hiệu quả

mô hình được giám sát và không được giám sát Bên cạnh đó, họ cũng đã chứng minh

rằng tính riêng tư và toàn vẹn dữ liệu có thể được bảo toàn mà không làm ảnh hưởng

đến hiệu năng của mô hình bằng cách tuân theo phương pháp học cộng tác Khả năng

Trang 30

TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

phuc hồi của các mô hình học cộng tác chống lại các máy khách độc hại đã được kiểmtra thông qua các cuộc tan công mà họ đã trình bay

Tuy nhiên, hầu hết các công trình nghiên cứu được giới thiệu ở trên đều sử dụnghọc cộng tác làm mô hình cơ sở và họ đã bỏ qua van đề thích ứng với việc phân phối

phần mềm độc hại Non-IID trên các máy khách khác nhau Mặc dù một số lược đồ

đã được chuẩn hóa hoặc cắt bớt đối với các trường hợp ngoại lệ, nhưng các mô hìnhphân loại của chúng không thích ứng với một phân bé ở các máy khách Do đó, nó sẽ

dẫn đến thời gian hội tụ lâu cho mô hình phân loại mẫu độc hại dựa trên học cộng tác

và độ chính xác phân loại của các máy khách khác nhau là không lý tưởng Xem xét

mức độ phức tạp của các tình huống có khả năng xảy ra trong thế giới thực, các lược

đồ phân loại phần mềm độc hại dựa trên học cộng tác cần xử lý các tình huống phân

phối dữ liệu khác nhau Do đó, cần phát triển khung học cộng tác thích ứng với việcphân phối ứng dụng độc hại non- IID trên máy khách Android, đề đạt được phân loạimẫu độc hại chính xác và thích ứng

2.4 Kếtchương

Thông qua quá trình khảo sát, tìm hiểu các công trình nghiên cứu liên quan đến

đề tài, tác giả đã thu thập và nắm được một số vấn đề liên quan và hướng tiếp cận của

bài toán nhận diện và phân loại mã độc Android Bên cạnh những khảo sát và tìm

hiệu, tác giả cũng đã phân tích những ưu và nhược điểm của các phương pháp pháthiện, cũng như những vấn đề gặp phải cần được giải quyết của các nghiên cứu hiện

nay Đề xuất việc sử dụng học cộng tác giúp giải quyết bài toán về quyền riêng tư của

dữ liệu mà không làm ảnh hưởng đến hiệu suất của quá trình huấn luyện

Trong những chương tiếp theo, tác giả sẽ thể hiện cụ thé về kiến trúc và thuật

toán huấn luyện của mô hình dé ra, ứng dụng mô hình dé ra vào việc phân loại phần

mềm Android độc hại

Trang 31

CHƯƠNG3 MÔ HÌNH DE XUẤT

Trong chương này, tác giả sẽ đề cập về cấu trúc và thuật toán huấn luyện của

mô hình dé xuất trong nhiệm vụ phân loại mã độc android bằng học cộng tác kết hợp

với học sâu, ứng dụng học cộng tác giúp nâng cao khả năng phân loại mã độc cũng

như bảo mật các tính chất của dữ liệu

3.1 Mô hình học sâu

Dựa trên những lợi ích tiềm năng mà học liên kết mang lại, tác giả giới thiệu

một framework phân loại các mẫu mã độc andoird, tăng số lượng dữ liệu giúp nângcao khả năng nhận biết các mã độc Về mặt tổng quan, mô hình bao gồm hai thànhphan :

- Khối tiền xử ly dữ liệu va đào tạo: Hỗ trợ gán nhãn cho các mẫu mã độc

và bất thường trước khi làm đầu vào cho việc huấn luyện bộ phát hiện và

phân loại Xây dựng quan thé ban đầu gồm tham số của mô hình Keras, sau

đó mô hình Keras sẽ được tạo và chuẩn bị cho giai đoạn huấn luyện kết

hợp.

- _ Khối mô hình học liên kết: Được khởi tạo ở cả Client và Server, có nhiệm

vụ tổng hợp dé tính toán các trọng số đóng góp của các client dé có được

tham số tối ưu nhất Về phía Android Client sử dụng tham số tối ưu nhấtnay dé được mô hình phân loại mã độc phù hợp nhất

Trong kiến trúc framework dé xuất có N client, mỗi client sử dung tập dữ liệu

riêng của nó và được lưu trữ tại mỗi thiết bị android kết hợp với một server phối hợp

Trang 32

MÔ HÌNH ĐÈ XUẤT

để xứ lý học liên kết Minh họa Framework trình bày như trong Hình 3

Khởi tạo model

Tinh toán trọng số.

Server

t Models { Ỷ ‡

Client 1 Client 2 Client n

Traning Đánh giá Đào tạo Đánh giá Đào tạo Đánh giá

model model model model model model

Tiền xử lý dữ liệu Tiền xử lý dữ liệu Tiền xử lý dữ liệu

=— se E—

Tập dữ liệu thiết bị 1 Tập dữ liệu thiết bị 1 Tập dữ liệu thiết bị 1

Thu tập dữ liệu Thu tập dữ liệu Thu tập dữ liệu

|

t i

Android 1 Android 1 Android n

Hình 3 Mô hình Framework huấn luyện

3.1.1 Tiền xử lý dữ liệu

Trong mô hình đề xuất, giai đoạn tiền xử ly dữ liệu đảm nhiệm vai trò quan

trọng trong việc trích xuất các đặc trưng và chuẩn hóa dữ liệu đầu vào Các mẫu đã

được đã gán nhãn từ các mẫu lành tính và các mẫu độc hại được sử dụng cho giai

đoạn này Tùy vào kỹ thuật phân loại mã độc, các dữ liệu đưa vào giai tiền xử lý sẽkhác nhau (ở dạng chuỗi, dạng hình anh, Trong dé tài này, đề xuất của tác giả là sửdụng các mẫu đầu vào được trích xuất và chuẩn hóa có giá trị thuộc khoảng [0-1].Tác giả cũng sử dụng các mẫu đầu vào được trích xuất đặc trưng, nghĩa là tiến hànhvéc tơ hóa định đạng dữ liệu gốc Điều này giúp xây dựng mô hình huấn luyện có

tính linh hoạt, có khả năng áp dụng được cho nhiều kỹ thuật và dạng dữ liệu đầu vào

khác nhau từ Do đó, việc này đã mở ra cơ hội ứng dụng mô hình học cộng tác cho

các nghiên cứu trong tương lai, thông qua việc tinh chỉnh dữ liệu và một số cài đặt

trong mô hình huấn luyện sao cho phù hợp với kỹ thuật cần nghiên cứu và thực

Trang 33

3.1.2 Trình nhận biết mã độc dựa trên học máy

Trong trình nhận biết các mẫu mã độc, đầu vào gồm các mẫu lành tình và mẫuđộc hại Các mẫu này được chuẩn hóa thành các vector đặc trưng Quá trình đầu tiên

là cả hai nhóm mẫu véc tơ này được gán nhãn, điều này có nghĩa mỗi mẫu sẽ đượcđánh nhãn là lành tính hoặc độc hại dựa trên đặc trưng của chúng Tiếp theo, mẫu dữliệu và nhãn vừa được gan sẽ được sử dụng như là tập cơ sở dé thực hiện huấn luyện

cho phát hiện và phân loại Quá trình này sử dụng các thuật toán học máy hoặc mạng

nơ-ron để đào tạo mô hình nhằm nhận biết và phân loại các mẫu độc hại hoặc lành

tính.

Cấu trúc mạng Neural Network được minh họa ở Hình 3.5, tác giả đề xuất với

1 lớp đầu vào gồm 9503 nơ-ron, số lượng đặc trưng của mẫu , tiếp theo gồm 3 lớp ẩn

bao gồm: lớp ấn 1 có số nơ-ron là 128 và được kích hoạt bởi hàm kích hoạt ReLu,hàm này giữ các giá trị không âm và đặt các giá trị âm bằng 0, lớp ân thứ 2 gồm 64

no-ron và lớp ẩn thứ 3 gồm 10 nơ-ron, cuối cùng là lớp đầu ra gồm 5 nơ-ron tươngtứng với 5 loại mã độc cần được phân loại, được kích hoạt bởi hàm kích hoạt softmax

giúp tính toán xác suất phân loại cho mỗi loại mã độc Ngoài ra, mỗi lớp ấn được kíchhoạt bởi hàm kích hoạt ReLU và được chuẩn hóa bởi phương pháp chuẩn hóa hàng

hoạt (Normalization) giúp đạt được sự ôn định trong quá trình huấn luyện Phương

pháp này giúp mô hình học tốt hơn và tránh hiện tượng overfitting trên tập huấn luyện

Tổng quan, Neural Network trong dé tài bao gồm các lớp đầu vào, lớp ẩn và

lớp đầu ra, với kích hoạt ReLU được sử dụng đối với các lớp ân và kích hoạt softmaxđối với lớp đầu ra Điều này cho phép mô hình phân loại các loại mã độc dựa trên các

đặc trưng của chúng.

Trang 34

MÔ HÌNH ĐÈ XUẤT

Lớp ấn 2

Lớp ẩn 3

= ® B 8

Hình 4 Mô phỏng cấu tạo trong mô hình đề xuất

Vecto đầu vào ở bat kỳ lớp nào được nhân với ma trận trọng số kết nối nó vớilớp tiếp theo dé tạo ra vectơ đầu ra Một vecto đầu ra như vậy lại được nhân với ma

trận kết nối lớp của nó với lớp kế tiếp Quá trình diễn tra liên tiếp tục cho đến khi đạt

đến lớp đầu ra Tóm tắt các phép nhân ma trận được trình bài trong hình (3.5)

Backdoor Banker Filelnfector

PUA

1x9503 9503x128 128x64 | = + 1x64 ]

1x64 64x10 10x5 = 1x5

Hình 5 Mô hình phân loại mã độc

Phép nhận ma trận giữa lớp Vecto đầu vào và lớp ấn 1 có kích thước 1x9503

Trang 35

vector có kích thước là 128 là đầu vào cho lớp an 1 Phép nhận ma trận giữa lớp ân 1

(128 nơ-ron) và lớp ân 2 với ma trận trọng số kích thước 128x64, kết quả là mộtvector có kích thước 64 là đầu vào cho lớp ân 2 Phép nhân ma trận giữa lớp an 2 vàlớp an 3, lớp ẩn 2 64 nơ-ron nhân với ma trận trọng số kích thước 64x10 của lớp ân

3, kết quả là một vector có kích thước 10, là đầu vào cho lớp ân 3 Cuối cùng, kết quảđầu ra như vậy được nhân với trọng số giữa lớp ẩn thứ hai, lớp ba và lớp đầu ra có

kích thước 10x5 Kết quả cuối cùng có kích thước 1x5 là đầu ra của mang Neural

Network Mỗi lớp trong mạng Neural Network nhân vectơ đầu vào của nó với matrận kết nói lớp của nó với lớp kế tiếp Lap lại cho đến khi đạt đến lớp đầu ra, tạo ramột vecto đầu ra cuối cùng.Mọi phan tử trong vectơ kết quả như vậy đều tham chiếuđến một lớp đầu ra Mẫu đầu vào được dán nhãn theo lớp có điểm cao nhất

Ngoài ra, trong mỗi lớp ân được kích hoạt bởi hàm kích hoạt ReLU được trình

bày theo công thức (3.1), hàm kích hoạt ReLU (Rectified Linear Unit) đã trở thành

một lựa chọn phô biến trong huấn luyện mạng nơ-ron Các giá trị âm sẽ được Hàm

ReLU là lọc (hoặc bỏ qua) và giữ nguyên các giá trị không âm Hàm ReLU được định nghĩa theo công thức sau: ReLU(x) = max(0, x)

Dưới đây là một số điểm mạnh của hàm ReLU so với Sigmoid và Tanh là:

e Su hội tụ: ReLU có tốc độ hội tụ nhanh hơn trong quá trình huấn luyện

mạng nơ-ron Điều này do ReLU không bị bão hòa ở hai đầu như các hàmSigmoid và hàm Tanh Khi sử dụng các sigmoid và tanh, các giá trị đầu

vào rất lớn hoặc rất nhỏ có thể dẫn đến hiện tượng "bão hòa" (saturation)

va gradient gần như không đủ dé cập nhật trong sé, làm chậm quá trình

học Trong khi đó, ReLU không bị bão hòa và giúp tránh hiện tượng này.

e Tính toán nhanh: ReLU có tính toán nhanh hon so với hàm Sigmoid va

Tanh Ham ReLU chỉ thực hiện một phép so sánh và một phép gan giá tri

0, không yêu cầu các phép tính phức tạp như hàm sigmoid và tanh Điềunày đặc biệt hữu ích khi huấn luyện mạng nơ-ron sâu với nhiều nút

Cần lưu ý rằng hàm ReLU có một số hạn chế Một van dé phô biến là hiện tượng

"Dying ReLU" mà bạn đã đề cập trước đó, khi một nơ-ron với đầu vào âm liên tục sẽkhông được quá trình cập nhật trọng số Điều này có thé xảy ra khi sử dung learning

Trang 36

MÔ HÌNH ĐÈ XUẤT

rate quá lớn hoặc khi khởi tao trọng số mạng không tốt Một giải pháp dé giảm hiện

tượng "Dying ReLU" là sử dụng các biến thể của ReLU như Leaky ReLU hoặc

Parametric ReLU.

Tuy nhiên, hàm ReLU cũng đã có một số nhược điểm, như:

© Sự chết ReLU (ReLU Dead Neurons): Điều này xảy ra khi các nơ-ron có

giá trị đầu vào âm, kích hoạt của ReLU là 0 và đạo hàm cũng là 0 Các

nơ-ron không được cập nhật nữa và không đóng góp vào quá trình học

của mạng Điều này gây mất đi khả năng học và là một nhược điểm của

hàm ReLU Tuy nhiên, các biến thể như Leaky ReLU va ParametricReLU đã được nêu ra dé giải quyết vấn đề này bằng cách cho phép một

độ dốc nhỏ hoặc điều chỉnh độ dốc của các đầu vào âm, nhằm giúp ron không "chết" hoan toàn và tiếp tục cập nhật trọng số

nơ-e Van dé gradinơ-ent nơ-exploding: Trong mạng nơ-ron sâu, việc lan truyền

ngược của gradient sẽ gặp phải mộ số khó khăn về gradient exploding,

khi gradient tăng quá lớn trong quá trình huấn luyện Hàm ReLU không

giới hạn đầu ra và không giới hạn đạo hàm ở phần dương, dẫn đến tìnhtrạng gradient exploding Đề khắc phục vấn đề này, một số biến thể của

ReLU như Leaky ReLU va Parametric ReLU, có giới han giá trị đầu ra

cho phần âm, nhằm giảm khả năng xảy ra gradient exploding

Tổng quan, việc sử dụng các biến thể của ReLU như Leaky ReLU, Parametric

ReLU và Exponential ReLU đã giúp khắc phục nhược điểm của hàm ReLU nâng cao

hiệu suất và khả năng học của mạng nơ-ron Để khắc phục nhược điểm của ReLU,các biến thể của ReLU như Leaky ReLU, Parametric ReLU, va Exponential ReLUđược đề xuất và sử dụng nhiều trong các mạng Neural Network

Để kết thúc lớp đầu ra và sau đó đầu ra sẽ được chuyền thành một phân phối xác

suất, thường được sử dụng hàm Softmax Hàm Softmax được áp dụng cho một mảng

số thực và tính toán giá trị xác suất tương ứng cho mỗi phần tử trong mảng Hàm

Sofimax được tính toán bằng:

Softmax(x_i) = exp(x_i) / sum(exp(x_j)) (3.1)

Trang 37

Với x_i là giá tri đầu vào của phan tử thứ i, exp(x_i) là hàm mũ của x_i, vàsum(exp(x_j)) là tổng của hàm mũ.

Công thức này đảm bảo rằng giá trị Softmax nằm trong khoảng [0, 1] và tổng

của tat cả các giá tri là 1, tạo thành một phân phối xác suất Giá trị xác suất nay théhiện xác suất tương ứng cho mỗi lớp trong bài toán phân loại Hàm Softmax thường

được sử dụng nhiều cho các bài toán phân loại đa lớp, nơi cần xác định xác suất của

mỗi lớp dựa trên đầu ra của mạng nơ-ron Sử dụng hàm Softmax, ta có thể xác định

lớp có xác suất cao nhất cho mỗi mẫu và đưa ra các quyết định phân loại

Tác giả sử dụng thuật toán Adam làm thuật toán tối ưu, thuật toán Adam(Adaptive Moment Estimation) là một phương pháp tối ưu hóa thường được sử dụng

trong một mạng Nơ-ron Bang cách kết hợp hai kỹ thuật chính đó là RMSprop vàmomentum để tối ưu hóa việc cập nhật trọng số Adam sử dụng hai tham số chính:

trạng thái động lượng (m - momentum) và động lượng bình phương (v - squared

momentum) của gradient cho các tham số Các giá trị của m và v được cập nhật sau

mỗi chu kỳ batch bằng cách sử dụng exponential weighted averaging, được tính toán

one-hot encoding, trong đó chỉ có một vị trí tương ứng với lớp của mẫu có giá trị là

1 và các vị trí khác đều là 0 Ví dụ, nếu mẫu thuộc lớp thứ i, thì vector nhãn sẽ có

dang (0, 0, , 1, , 0), với giá trị 1 ở vị trí thứ ¡., trong đó pn là xác suất dự đoán cholớp thứ n, và n là số lượng các lớp Các giá trị này thường được tính bằng hàm kíchhoạt softmax dé đảm bảo tổng các xác suất bằng 1 và các giá tri nằm trong khoảng từ

0 đến 1 Ham mắt mát categorical crossentropy được tính bằng cách so sánh phânphối xác suất dự đoán và phân phối xác suất của nhãn Công thức của hàm mat mát

Trang 38

MÔ HÌNH ĐÈ XUẤT

nay tính tổng của các chênh lệch giữa các phần tử của hai phân phối, được biểu diễnbằng công thức sau:

Cross entropy = — YI yilog (5,) (3.4)

(Trong đó: y^ là giá tri được dy đoán, y là giá tri du đoán đúng, M là số lượng lớp)

Trong đó, y là vector nhãn one-hot encoding, y_pred là phân phối xác suất dự

đoán Mục tiêu mô hình là tối thiểu hóa giá trị của hàm mắt mát này, nhằm dự đoán

chính xác lớp của các mẫu.

Tổng quan, hàm mất mát categorical crossentropy là một hàm quan trọng dé

đo lường sự khác biệt giữa xác suất dự đoán và phân phối xác suất nhãn, đưa ra một

chỉ số đánh giá cho sự hiệu suất của mô hình trong quá trình phân loại đa lớp

3.1.3 Thuật toán huấn luyện

Ở giai đoạn huấn luyện mô hình, quá trình lan truyền ngược (backpropagation)

là một phan quan trọng trong huấn luyện mạng nơ-ron và được coi là giải thuật mau

chốt giúp các mô hình học sâu thực hiện việc tính toán và cập nhật trọng số trong

mạng Quá trình backpropagation cho phép tính toán gradient của ham mat mát theotừng trọng số trong mang nơ-ron Bằng cách sử dụng chuỗi đạo hàm (chain rule) và

lan truyền ngược thông qua mạng, các gradient này có thể được truyền lại từ các lớpsau đến các lớp trước, cho phép tính toán gradient của các trọng số và cập nhật chúng

sử dụng thuật toán như gradient descent dé tối ưu Quá trình backpropagation giúp

tối ưu hóa mạng nơ-ron bằng cách đạo ham của hàm mất mát từ lớp đầu ra về phía

lớp đầu vào Điều này cho phép các trọng số đề giảm thiểu lỗi và cải thiện tính hiệu

quả của mô hình Quan trọng đề quá trình backpropagation có thể hoạt động hiệu quả

là cung cấp các giá trị đầu vào (input) mà giá trị đầu ra (output) chính xác đã biếttrước (có nhãn đúng) Điều này cho phép tính toán sai số (error) giữa dự đoán và đầu

ta thực tế, và từ đó tính toán gradient và cập nhật trọng SỐ Quá trình này diễn tra liên

lục qua nhiều chu kỳ huấn luyện để cải thiện mô hình theo thời gian

Tóm lại, quá trình backpropagation là một phần thiết yếu trong huấn luyệnmạng nơ-ron, tính toán gradient và cập nhật trọng số theo hướng giảm thiểu lỗi Nócùng với thuật toán tối ưu như gradient descent giúp mạng nơ-ron học và cải thiện

Trang 39

khả năng dự đoán dựa trên dé liệu huấn luyện.

Mạng xử lý đầu vào tạo ra các giá trị đầu ra Nếu kết quả không chính xác, cácthay đổi dần dần sẽ được truyền ngược lại qua mạng và phép tính được thực hiện lại

Quá trình này làm lại cho đến khi mạng tính toán đầu ra đúng như mong muốn Mô

hình kết nối

Map in

R Lapin?

“ thần lớp mào, By a

Hinh 6 Luong hoạt động của thuật toán

Quá trình lan từ lớp đầu vào tới lớp đầu ra được gọi là Forward propagation

Quá trình này tính toán giá trị của từng nút trong mang Neural Bắt dau từ lớp đầuvào và di chuyển dần dần tới các lớp phía sau và cuối cùng là lớp đầu ra Giá trị ở

mỗi nút mạng và được biến đổi bằng một hàm kích hoạt gọi là (g)

By = g(Wa1A1 + Wa2A2 + Wo3A3 + -* x

+ Wei28A128 + bạ) Wear Wear ** W6412g Aias

Trang 40

Yo =0(Mạ2qŒi + W¿¿C¿ + Wo3C3 ++ Ø||Wãi Mai

+W2to€o + bạ) Mại War

Ys = g(W31Cy + Wa¿C¿ + W333 ++ Mại Mại

Œ; 2

W310 +|ba

W, - b,410! Io, 4

Ws1o, bs.

Mục tiêu là tìm ra trong số và độ lệch làm giảm thiểu một số hàm chi phí J

được tính theo công thức như sau:

J= tị Im(f) — — Yj)Ln(1 — f1)Tối ưu trọng số và độ lệch có thê có thể được tìm thay bằng số thông qua giảm

dần độ dốc ngẫu nhiên; một phương pháp trong đó một ví dụ đào tạo để cập nhật

trọng s6 và độ lệch theo quy tắc cập nhật Ma trận cập nhật bao gồm các đạo hàm củahàm chỉ phí (J) đối với từng trọng số trong kết nói

a

OWinn

Việc tinh toán Ma trận cập nhật trong số và Vector cập nhật độ lệch cho

Ngày đăng: 08/11/2024, 17:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN