Trong luận văn này, tác giả nghiên cứu và đề xuất một mô hình phát hiện và phân loại mã độc Android sử dụng học cộng tác kết hợp với học sâu, giúp giải quyếtđược bài toán về quyền riêng
Trang 1VÕ QUOC VƯƠNG
LUẬN VĂN THẠC SĨ NGÀNH AN TOÀN THÔNG TIN
MA SO: 8 48 02 02
TP HO CHÍ MINH - 2023
Trang 2ĐẠI HỌC QUOC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÕ QUÓC VƯƠNG
LUẬN VĂN THẠC SĨ NGÀNH AN TOÀN THÔNG TIN
MÃ SO: 8 48 02 02
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYEN TAN CAM
TP HO CHÍ MINH - 2023
Trang 3Tôi xin cam đoan: Luận văn tốt nghiệp với Đề tài “Một nghiên cứu trong việc
phân loại mã độc Android bằng học cộng tác” là quá trình nghiên cứu của tôi, được
sự hỗ trợ và hướng dẫn của TS Nguyễn Tan Cam
Các tài liệu tham khảo được trong quá trình nghiên cứu này được tôi trích dẫnmột cách đầy đủ, có hệ thống và ghi rõ nguồn góc
Tôi xin chịu hoàn toàn trách nhiệm nếu như có bat kỳ việc sao chép không bất
hợp pháp hoặc vi phạm quy chế đào tạo
Người thực hiện
Võ Quốc Vương
Trang 4LỜI CẢM ƠN
Trong khi làm Luận văn này, từ lúc hình thành các ý tưởng ban đầu cho đến khi
hoàn thành, tác giả may mắn được nhiều sự giúp đỡ từ mọi người Tác giả xin được
bày tỏ lòng biết ơn chân thành và sâu sắc đến tất cả những người và tổ chức đã đóng
góp, hỗ trợ cho tác giả trong các giai đoạn nghiên cứu và làm luận văn này.
Đầu tiên, tác giả xin phép được gửi lời cảm ơn đến giảng viên hướng dẫn TS.Nguyễn Tan Cam vì đã nhận lời hướng dẫn tác gia, thay cũng đã dành rất nhiều tâm
huyết để định hướng, động viên để tác giả có thể thực hiện Luận văn Sự tận tâm vàchuyên môn của thầy đã giúp tác giả có được nhiều sự tiến bộ và thực hiện xong
nghiên cứu của mình.
Tác giả gửi lời cảm ơn đến Khoa Mạng máy tính và truyền thông, Phòng Đào
Tao SDH, Trung tâm An ninh mạng CNSC, đã hỗ trợ và tạo thuận lợi để giúp đỡ tácgiả trong suốt thời gian nghiên cứu tại trường
Xin gửi lời cảm ơn đến đồng nghiệp tại Trung tâm An ninh Mạng CNSC vàPhòng thí nghiệm An toàn thông tin đã luôn nhiệt tình giúp đỡ, chia sẻ kiến thức và
góp ý cho tác giả vì những lời nhận xét, góp ý đó làm cho tác giả tránh được nhiều
sai sót khi thực hiện Luận văn.
Và sau cùng không thể quên công lao của gia đình và bạn bè trong thời gian tácgiả dành cho luận văn này, tác giả cảm ơn sâu sắc nhất đến Ba mẹ và gia đình trong
nhà luôn là người phía sau, là chỗ dựa tinh thần vững chắc nhất Những lời động viên,
sự hiểu biết và tình yêu thương đó giúp tác giả vượt qua những khó khăn và đạt được
mục tiêu của mình
Tác giả
Võ Quốc Vương
Trang 5MỤC LỤC
LOI CAM ĐOAN 2222:2222 222 122222111111 1e 3LỜI CẢM ƠN
MỤC LỤC
DANH MỤC CÁC TỪ VIET TẮTT -cvvvvvvvvvvrrrrrrrrrtrrrrrrrrrrrre iv
DANH MỤC CAC BANG BIÊU -22c::222222vvtrirtrrtrrrrrrrrrrrrrrrree vDANH MỤC CÁC HÌNH VE, DO THỊ ccccccc2cccvrreerrirrrrrrrer vi
1.6.3 Nội dung 3 - ch the 3
17 _ Đóng góp và công bố khoa học của tác 5E 3
1.7.1 Đóng góp chính ¿-¿- + St SSkSk kg 3
1.7.2 Công bố khoa học liên quan -:+:z222v+z++zvvvvzcecrrs 41.8 Cấu trúc của luận Văn - 6 Sàn HH ng 4
Trang 6MỤC LỤC
CHUONG 2 TONG QUAN VAN DE NGHIÊN CỨU VA HƯỚNG TIẾP
CAN CUA DE TAL cesccssssssssssssssssssssssnnsnnssssssssseeceeseeeeessesssssnssnnsnnnunmnsssssesseeeeees 62.1 _ Các vấn đề nghiên cứu ¿:©++++22+++t2tvvxvrrtrrrrrrrrrrvee 6
2.2 Các nghiên cứu liên quan - ¿ 5+55+++s+S++++s+xexeeee+seerre 6 2.2.1 Các kỹ thuật phát hiện va phân loại mã độc Android 7
2.3 Học sâu và hướng tiếp cận -¿-+2++z++22Evxerrtrrkeerrrrrkecrrer 02.3.1 Cơ sở lý thuyết học sâu - ©2222+++2E++ztrEEEEEerrrrrrerrrrrrrcee 0
2.3.2 Giải pháp, hướng tiếp cận phát hiện và phân loại mã độc Android dựa
trên học sâu 3 2.3 Học cộng tác và hướng tiêp cận -+-¿-5-5+ccsccsxzesrersrx 4
2.3.1 Cơ sở lý thuyết học cộng tác -.:¿-v+c++2c+ecetccvscee 4
2.3.2 Ứng dụng học cộng tác vào phát hiện mã độc Android 5
2.4 Kết chương cc2222222222EEEEE2EEcEEEErrrrrrrrerreer 9CHƯƠNG 3 MÔ HÌNH ĐỀ XUẤT -:::ccccvcvvvveeeeerrrrrrrrree 20
3.1 M6 Ninh HOC Sau oo 20
3.1.1 Tiền xử lý đữ GU eee ccccssecsssssseessssseesssssseeessssieeesssseeesssstseessseeses 21
3.1.2 Trinh phát hiện va phân loại mã độc dựa trên học máy 22
3.1.3 Thuật toán huấn Ly6n cccccccssssesssssseesssssseessssseessssssesesssseesesssseeees 27
3.2 Mô hình đề xuất học cộng tC -c tt Hết 32
3.2.1 Mô hình phát hiện và phân loại ở máy khách 35
3.2.2 Mô hình tổng hop và cập nhật tham số ở máy chủ
3.3 Kết chương 22222ccEEEEEEEEEEECEErrrrrrrreereer 39CHƯƠNG 4 THỰC NGHIỆM VA KET QUA
4.1 Mô tả tập dữ | (21) EOS 40 4.2 _ Môi trường thực nghiệm.
Trang 74A Tiêu chí đánh gid oicceccccccccssseessssseessssssesccssseessssssecssssssecsessieeeessseeeeenss 42
4.5 Thực nghiệm trên mô hình để xuất ccccccccccssssseeessssseeesssseesssesseeseeess 43
4.5.1 Thực nghiệm kịch bản Non-ÏID - 55s svssceeexsesx 43 4.5.2 Thực nghiệm kịch bản TID - ¿+55 +ce£+cvzxzxeeerxr+ 46 4.5.3 Thực nghiệm kịch bản phân loại Benign và Malware 51
CHUONG 5 KET LUẬN VA HƯỚNG PHAT TRIEN - 56
5.1 Thuận lợi và khó khăn .:¿-+++22vv+++22E+vvrttrvrvrrsrrrrrrrrer 56 Š.I.] Thun lợi c5: Sc 5c + tt SE S3 E1 111111 re 56
5.1.2 Khó KHAN oc cceecccssssecscssssecccsssscccssnssccessusecesssueceessnsesecssnsssessnneesesnies 56
5.2 Kết quả dat được -cccccccccccccvrerrrerrrrrrkrrerrrrrrer 56
5.3 Hướng phát triỂn -¿-52-2c+tc2ccvvrrrtrrvrrrrrrrrrrrrrrer 57TÀI LIEU THAM KHẢO 22:-22222222222+22222E222E2SEvvetrErvrrerrrrrrrrrr 58PHU LUC 1 DANH MỤC CÁC CONG BO KHOA HỌC 64Hội nghị quốc tế
PHU LUC 2 DANH MỤC CÁC HO SƠ LIÊN QUAN - 65
Trang 8DANH MỤC CÁC TỪ VIET TAT
DANH MỤC CÁC TU VIET TAT
Từ Nội dung Diễn giải
FL Federated Learning Hoc cộng tác
DL Deep Learning Học sâu
ML Machine Learning Hoc may
NN Neural Network Mang no-ron
Non-IID Not independent and identically Phan bố không định danh và độc
distributed lap
HD Identically Distributed Phân phối định danh và độc lập
TP True Positives Duong tinh that
FP False Positves Duong tinh gia
TN True Negatives Âm tính that
FN False Negatives Am tinh gia
API Application Programming
Interfad4 Giao diện lập trình ứng dụng
RMSProp Root Mean Square Propagation Sự lan truyền bình phương
ATS Automated Transfer System Chuyén giao tự động
Trang 9DANH MỤC CÁC BANG BIEU
Bang 1 Thuật toán tinh trọng số trung bình
Bảng 2 Các thành phan và phiên bản trong môi trường thực nghiệm Al
Bang 3 Bảng phan chia dir liệu Non-IID cho quá trình Train eee 44 Bang 4 Bảng phân chia dữ liệu Non-IID cho quá trình Test - 44
Bang 5 Kết quả đo lường các giá trị và Fl trong kịch bản Non-IID 44
Bang 6 Phân chia dữ liệu IID cho quá trình Train - - ¿55-5-5555 5+5+ 47
Bang 7 Phan chia dữ liệu IID cho quá trình 'Test -¿- 5 +55 5< <cx++s*cecvesee 47
Bảng 8 Ý nghĩa giá trị đặc trưng được trích xuất
Bảng 9 Các đặc trưng được trích Xuất ::222++22v++ttcvvrretvvrvrrerrrrrrrrg 49Bang 10 Kết quả do lường các giá trị trong kịch bản IID -ccc-+2 49
Bang 11 Phân chia dữ liệu phân loại cho quá trình Train -+-<-+ 52
Bang 12 Phân chia dữ liệu phân loại cho quá trình 'Tes( 5 -=+<<<+ 52
Bang 13 Kết qua do lường các giá trị -: 2222222c++stccEvvvvvrrrerrrrrrrrrercee 53
Trang 10DANH MỤC CÁC HÌNH VE DO THỊ
DANH MỤC CÁC HÌNH VE, DO THỊ
Hình 1: Mô phỏng câu tạo của một mạng Nerral network
Hình 2 Mô hình học cộng tÁC + ¿+5 +1 nghệ 15
Hình 3 Mô hình Framework huấn luyện
Hình 4 Mô phỏng cấu tạo trong mô hình đề xuất
Hình 5 Mô hình phân loại mã đỘC - - ¿+ + + +ESk#k+kEkEEEEEkEkEEEkkrkrkrkeree 23
Hình 6 Luỗng hoạt động của thuật toán huấn luyện + cecesseeeexey 28
Hình 7 Trình bày mô hình học cộng tác - + ¿+55 ++S+S*c+>x+tsrrrerrsrreree 33
Hình 8 Quá trình đào tao ở máy khách
Hình 9 Ma trận hỗn loạn kịch bản Non-IID 22 2£ 2 s2 +££E££E£2££+£+rxzs2 45 Hình 10 Ma trận hỗn loạn kịch bản IID ¿5252++22+++£zxvetvxveerxrrerse 50 Hình 11 Ma trận hỗn loạn kịch bản phát hiện mã độc -. z-+-c5+ 54
Trang 11MỞ DAU
Trong những năm trở lại đây, hệ điều hành Android và các thiết bị di động đang
trên đà phát triển mạnh mẽ, hàng tỷ thiết bị được phát hành cho đến từ hàng chục
ngàn nhà sản xuất ra đời, thách thức về tội phạm mạng vẫn là mối đe dọa lớn nhấttrên không gian mạng Và mã độc trên các thiết bị này là loại hình tắn công kỹ thuậttan công phổ biến nhất đối với các người dùng, tổ chức tài chính, doanh nghiệp từ cả
trong nước cho đến ngoài nước Tan công mã độc là các hoạt động phi pháp nhằmlấy cắp thông tin có tính chất quan trọng như tên người dùng, mật khẩu đăng nhập,
tài khoản đăng nhập ngân hàng cùng với các dữ liệu nhạy cảm khác được lưu trữ trên
các thiết bị dị động phổ biến ngày nay Ví dụ: Gần đây, kẻ tấn công đã tạo ra một loại
mã độc có tên là Xenomorph, phần mềm độc hại này đã phát hành một phiên bản mới
bổ sung các khả năng quan trọng, thực hiện các cuộc tan công phá hoại, phan mềmnày sử dụng phương thức có tên là khung hệ thống chuyển giao tự động (ATS) và
khả năng đánh cắp thông tin đăng nhập cua hon 400 ngân hàng trong và ngoài nước.Ngoài ra các cuộc tấn công mã độc này có thẻ sẽ trở nên khó phát hiện hơn trong
tương lai vì những kẻ tan công thực hiện liên tục các hành động thay đổi chiến lược
và cô gắng tạo ra các mẫu mã độc mới khiến chúng trông giống thật nhất có thé, bằngcách sử dụng máy học, trí thông minh nhân tạo đề lần tránh và qua mặt các trình phát
hiện phổ biến hiện nay
Trong luận văn này, tác giả nghiên cứu và đề xuất một mô hình phát hiện và
phân loại mã độc Android sử dụng học cộng tác kết hợp với học sâu, giúp giải quyếtđược bài toán về quyền riêng tư của dữ liệu trong phân loại mã độc cũng như là tăng
độ chính xác trong quá trình phát hiện và phân loại phần mềm độc hại Android
TP Hồ Chí Minh, tháng 4 năm 2023
Tác giả
Trang 12GIỚI THIỆU ĐÈ TÀI
CHƯƠNG1 GIỚI THIỆU ĐÈ TÀI
11 Tên dé tai
Tên Tiếng Việt: Một nghiên cứu trong việc phân loại mã độc andorid bằng
học cộng tác.
Tên Tiếng Anh: A STUDY ON ANDROID MALWARE
CLASSIFICATION BY USING FEDERATED LEARNING.
1.2 Từ khóa
Học cộng tác, phân loại mã độc, tính bảo mật của dữ liệu
1.3 _ Tính khoa học, tính mới của đề tài
Tính khoa học của luận văn được thê hiện bằng việc nghiên cứu về kiến trúc
và hoạt động của mô hình học cộng tác; các kỹ thuật phân tích và các phương pháp
và kỹ thuật học máy được sử dụng để phát hiện và phân loại mẫu mã độc Anroid
Thông qua đó, đề tài luận văn dé ra mô hình học cộng tác để khắc phục nguy cơ mặt
rủi ro về tính riêng tư và toàn vẹn là sử dụng học cộng tác Federated Learning vàoviệc phát hiện mã độc android, đây một cách tiếp cận mới không chỉ nâng cao hiệusuất mà còn giảm thời gian chạy của quá trình đó là sử dụng các mẫu dữ liệu được
thu thập được từ các nguồn khác nhau để tạo ra độ chính xác cao đồng thời bảo vệ
tính riêng tư của dữ liệu.
Tính mới của luận văn thể hiện ở việc giới thiệu một mô hình học cộng tác,
nghĩa là có khả năng ứng dụng trên các loại kỹ thuật nhận diện các mẫu mã độc
android, cụ thé trong đề tài này là kỹ thuật nhận diện dựa trên các đặc trưng của mẫu
và dựa trên sự tương đồng trực quan Một hướng tiếp cận mới của đề tài là áp dụng
phương pháp học cộng tác, sử dụng mô hình được huấn luyện đề phân loại mã độc
làm đầu vào cho mô hình học cộng tác
1.4 Mục tiêu của đề tài
Nghiên cứu hiện thực và xem xét đánh giá việc áp dụng học cộng tác trong việc
nhận diện và phân loại các mẫu mã độc dựa trên hai mục tiêu chính:
Trang 13e_ Thiết kế và triển khai một mô hình học sâu cùng kết hợp với việc ứng dụng
học cộng tác để tăng cường khả năng nhận diện và phân loại mẫu mã độc
Android ngoài ra cũng đảm bảo tính riêng tư của dữ liệu Trong phạm vi đề tàinày, sử dụng hai phương thức chính: đối với bài toán nhận diện và phân loạihọc viên sử dụng Keras dé phát triển và đánh giá các Neural Network cho bài
toàn phân loại Đối với bài toàn quyền riêng tư của dữ liệu, học viên sử dụngthuật toán Bằng cách kết hợp hai phương pháp này, học viên tạo ra một
famework ứng dụng học liên kết vào việc nhận diện và phân loại mẫu mã độc
android.
e Xem xét và đánh giá tính chính xác của mô hình đã đề ra thông qua sử dụng
các bộ dữ liệu thực nghiệm CICMalDroid2020
1.5 Đối tượng áp dụng, phạm vi nghiên cứu của đề tài
1.5.1 Đối tượng áp dụng
- Tấn công mã độc thông qua thiết bị điện thoại di động
- Mô hình học cộng tác.
1.5.2 Phạm vi nghiên cứu
- Về kỹ thuật sử dụng dé phân loại mã độc android: Kỹ thuật nhận diện và phân
loại dựa trên các đặc trưng của mẫu và kỹ thuật giảm rủi ro về tính riêng tư
Trang 14GIỚI THIỆU ĐÈ TÀI
- Tìm hiểu và trích xuất các tính năng đặc trưng quan trong của mẫu dữ liệu,
đảm bảo không thay đổi chức năng hoạt động của đoạn của mẫu mã độc trướckhi đưa vào huấn luyện
1.6.2 Nội dung 2
Nội dung: Nghiên cứu triển khai mô hình giảm nguy cơ rủi ro về tính riêng tư
và toàn ven của dữ liệu
Phương pháp:
- Nghiên cứu, khảo sát các công trình liên quan đến mô hình học cộng tác, cụ
thể là các Framework có hỗ trợ học cộng tác
- Tái huấn luyện các trình học máy nhận diện và phân loại mẫu mã độc dựa trên
mô hình học cộng tác Xây dựng kịch bản, thống kê số liệu đánh giá sự cải
thiện độ chính xác nhận diện, phân loại mã độc.
1.6.3 Nội dung 3
Nội dung: Đánh giá hiệu quả mô hình
Phương pháp:
- Phân tích, đánh giá các kết quả thu được, kiểm chứng tính hiệu quả của mô
hình đề xuất thông qua kết quả thực nghiệm của các mô hình đã có và thông
qua các bộ dữ liệu thực nghiệm
1.7 Đóng góp và công bố khoa học của tác giả
1.7.1 Đóng góp chính
Đóng góp của tác giả thông qua việc ứng dụng thành công học cộng tác vào việc
nâng cao hiệu suất nhận diện và phân loại mẫu mã độc Android kết hợp với trình phát
hiện dựa trên học máy có thể được nêu ra như sau:
© Vé mặt khoa hoc, nghiên cứu đề xuất và triển khai thực nghiệm mô hình
học cộng tác, sử dụng các đặc trưng được trích xuất của mẫu mã độc vàkết hợp với học sâu, góp phan giải quyết van đề quyền riêng tư của dữ
liệu trong việc huấn luyện và nâng cao hiệu suất của các trình phát hiện
và phân loại mã độc Android.
Trang 15« Về mặt thực tiễn, mặc đù học cộng tác còn khá mới mẻ và sẽ tiếp tục phát
triển mạnh trong một số lĩnh vực trong tương lai Việc ứng dụng học cộng
tác kết hợp với học sâu vào việc phát hiện và phân loại mã độc Androidđóng vai trò mau chốt, cung cấp cái nhìn tổng quan về những lợi ích tiềm
tàng mà học cộng tác mang lại Đồng thời mang lại rất nhiều lợi ích chonghiên cứu khi bối cảnh quyền riêng tư và tính bảo mật được đặt trênhàng đầu
1.7.2 Công bố khoa học liên quan
Tác giả đã được chấp nhận công bố bài báo “A STUDY ON ANDROID
MALWARE CLASSIFICATION BY USING FEDERATED LEARNING ” tại
Hội nghị quốc tế lần thứ 6 Tính toán thong minh và tối ưu hóa năm 2023 (6"
International Conference on Intelligent Computing and Optimization April 27-28 ,
2023 )
(Bai báo được đính kèm trong phân Phụ lục của luận văn)
1.8 Cấu trúc của luận văn
Luận văn sẽ được tác giả trình bày trong 5 chương.
CHƯƠNG 1 GIỚI THIỆU ĐÈ TÀI
Trong chương này, tác giả trình bày tong quan về đề tài, mục tiêu, đối tượng,
phạm vi nghiên cứu của đề tài Song song với đó, tác giả cũng liệt kê các nội dung vàphương pháp sẽ được nghiên cứu, cũng như nhắn mạnh tính khoa học, tính mới và
cấu trúc của đề tài Trên cớ sở các nội dung trên, tác giả sẽ tiếp túc vào chương 2 đềtrình bày chỉ tiết về lý thuyết và các công trình nghiên cứu liên quan
CHƯƠNG 2 TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾPCẬN CỦA ĐÈ TÀI
Giới thiệu các phương pháp và kỹ thuật để nhận diện và phân loại mẫu mã độc
Android Khảo sát, tìm hiểu và trình bày các hướng nghiên cứu, giải pháp, thuật toán
học máy đã được áp dụng trong vấn đề phát hiện và phân loại Trong chương này,học cộng tác cũng được giới thiệu như một hướng tiếp cần tiềm năng để giải quyếtvân đề mà đề tài của tác giả đã đặt ra
Trang 16GIỚI THIỆU ĐÈ TÀI
CHUONG 3 MÔ HÌNH ĐÈ XUAT
Trong chương này, tác giả trình bày hướng tiếp cận tận dụng học cộng tác đểnhận diện các mã độc trên nên tảng android Tác giả giới thiệu cách áp dụng học cộng
tác trong việc nhận diện mã độc android và giải thích lợi ích của phương pháp này.
Ngoài việc phát hiện mã độc, dé tài này cũng ứng dụng mô hình đề xuất trong việcgiải quyết bài toán về quyên riêng tư của dữ liệu
CHƯƠNG 4 THỰC NGHIỆM VÀ KET QUA
Chương này trình bày chỉ tiết về các bộ mẫu dữ liệu, môi trường được ứng dụng
để thực nghiệm Các bộ mẫu dữ liệu sẽ được chọn lựa sao cho phù hợp với mục tiêu
của đề tài và có đủ độ đa dạng để đảm bảo tính khả thi và đáng tin cậy của kết quả
Môi trường thực nghiệm cũng sẽ được mô tả, bao gồm các công cụ và thư viện hỗ trợđược áp dụng để triển khai mô hình và thực hiện các thử nghiệm Chỉ tiết các kịchbản được hiện thực dé chứng minh tính hiệu quả mô hình dé xuất Tác giả sẽ mô tả
các bước thực hiện, các thông số cấu hình và tiêu chí đánh giá trong các kịch bản.Các dữ liệu sẽ được thu thập, tong hợp dé phân tích kết quả
CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHAT TRIÊN
Chương này tác giả tổng kết lại các kết quả, tác giả đánh giá tính hiệu quả và
tính khả thi của phương pháp và xem xét các hạn chế, giới hạn có thé xảy ra trongđược áp dụng phương pháp giải quyết những vấn đề trong phạm vi đề tài này Tác
gia cũng xem xét các cải tiến và điều chỉnh có thé áp dụng dé nâng cao độ chính xác,
giải quyết van đề trong tương lai Cuối cùng, tác giả cung cấp những hướng phát triểntiếp theo cho dé tài, xem xét các khía cạnh mà có thé được nghiên cứu cải tiền để mở
rộng phạm vi và ứng dụng của dé tài Các hướng phát triển này có thể nghiên cứuthêm về các kỹ thuật và phương pháp học cộng tác hoặc mở rộng đề tài sang các lĩnh
vực mới.
Trang 17CHUONG 2 TONG QUAN VAN DE NGHIEN CUU
vA HUONG TIEP CAN CUA DE TAI
2.1 Các vấn dé nghiên cứu
Trong cuộc sống ngày nay, điện thoại thông minh luôn là lựa chọn phổ biến củangười dùng Số lượng người dùng điện thoại trên toàn cầu đã vượt quá ba tỷ và dựkiến sẽ tiếp tục tăng trong tương lai Cùng với sự bùng nỗ mạnh mẽ của hệ điều hànhAndroid, song song là số lượng phần mềm mã độc phát triển trên các thiết bị nàycũng ngày càng nhiều Thông kế cho thấy năm 2021, các sản phẩm và công nghệ di
động của Kaspersky đã phát hiện: 3,464,756 gói cài đặt độc hại, 97,661 Trojan Banker
mới, 17.372 Trojan ransomware [1] Điều này cho thấy rõ ràng các mã độc Androidđang ngày càng phát triển và liên tục cải tiến
Đã có rất nhiều các nghiên cứu về việc phát hiện và phân loại mã độc android
đã được dé xuất và cho kết quả rất tích cực Tuy nhiên có một điểm yếu đó là tập dữ
liệu mà họ sử dụng đều được tập hợp từ nhiều nơi khác nhau, sau đó các người nghiêncứu sẽ tập hợp lại một nơi có định dé thực hiện quá trình dao tạo Điều này dẫn đến
những lo ngại về các van đề nguy cơ rủi ro, tính bảo mật và riêng tư của dữ liệu, vì
dữ liệu được công khai và được truyền đi, chính vì thế cần đảm bảo tính riêng tư và
toàn vẹn của dữ liệu nhưng cũng đồng thời truyền dữ liệu ít tiêu tốn tài nguyên và
năng lượng nhất có thể Vì vậy đề xuất một phương pháp đề khắc phục vấn dé này là
sử dụng học cộng tác (Federated Learning) vào việc phát hiện mã độc android, đây
một cách tiếp cận mới không chỉ nâng cao hiệu suất mà còn giảm thời gian chạy Họccộng tác sử dụng bộ dữ liệu được thu thập được từ các nguồn khác nhau đề tạo ra độchính xác cao nhưng cũng đồng thời bảo vệ được tính riêng tư của dữ liệu
2.2 _ Các nghiên cứu liên quan
Từ việc những chiếc điện thoại thông minh đang ngày càng trở nên thân thuộcvới người dùng Những chiếc điện thoại này đã góp phần nào cho cuộc sống củachúng ta trở nên thuận dễ dàng hơn, hiện đại hơn, nhưng cũng vì thế mà một lượng
dữ liệu khổng lồ ngày càng được tạo ra Do sự bùng nỗ mạnh mẽ này dẫn đến các
cuộc tan công nhằm vào các thiết bị di động có xu hướng tăng, do vậy mà đã làm thúc
Trang 18TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
day mạnh mẽ sự ra đời của các nghiên cứu về phát hiện và phân loại mã độc trên các
thiết bị android trong những năm gần đây Nhưng hướng tiệp cận máy học theo cácphương pháp truyền thống đang gặp một số hạn ché về kết nối, băng thông, độ trễ, và
đặc biệt là mối quan tâm nhất hiện nay đó là quyền riêng tư và tính bảo mật dữ liệu
người dùng vì đa phần dữ liệu sử dụng thường là những dữ liệu nhạy cảm, thông tin
cá nhân của người dùng Do đó, dữ liệu riêng tư không nên được chia sẻ cho bat kỳ
ai mà không có cơ chê bảo vệ nào.
Mới đây, Meta đã bị phạt 276 triệu dolar vì rò rỉ dữ liệu trên Facebook liên quan
đến hơn 533 triệu người dùng [2] hay năm 2021, Microsoft đã vô tình phơi bày 250
triệu hồ sơ khách hàng [3] Từ đó làm cho chúng ta ngày càng quan tâm hơn về tínhbảo mật và quyền riêng tư của dữ liệu họ cũng như các nơi lưu trữ dữ liệu an toàn
Việc rò ri thông tin cá nhân dẫn đến một số hậu quả nghiêm trọng Trên toàn thế giới
đã có một số quốc gia cũng đã phát hành những quy định dé đảm bảo an toàn dữ liệu
và quyển riêng tư, việc ban hành này đặt ra những thử thách mới trong các phươngpháp truyền dữ liệu Những van đề nêu trên đã dẫn đến các nghiên cứu đòi hỏi phải
có sự thay đổi các mô hình trong các cách xử lý dữ liệu cũng như nơi lưu trữ tập
trung Máy học thường được ứng dụng để giải quyết các van đề phức tạp nhưng với
sự ra đời của dữ liệu lớn thì đã làm xuất hiện của các công nghệ mới như học liên kết,
điện toán đám mây Vì vậy thời gian gần đây, cho thấy có sự thay đổi nhanh chóng
từ mô hình máy học truyền thống sang mô hình học cộng tác dé giải quyết một số van
đề an ninh dữ liệu
Trong những phần tiếp theo của chương này, tác giả sẽ nêu ra những nghiên cứu
và hướng tiếp cận liên quan đến phương pháp phát hiện và phân loại mã độc android
và những giải pháp giúp giảm thiéu rủi to về Quyền riêng tư và sự bảo mật của dữliệu và người dùng.
2.2.1 Các kỹ thuật phát hiện và phân loại mã độc Android
Các kỹ thuật và phương pháp học máy đã được ứng dụng trong việc phát hiện
mã độc trên thiệt bị di động đã được nghiên cứu phổ biến, các kỹ thuật này tận dụng
một số đặc trưng của ứng dụng di động để xem xét liệu ứng dụng có phải là mã độchay không Tác giả dẫn chứng một số công trình nghiên cứu có liên quan, một số kỹ
Trang 19thuật phổ biến được sử dung trong nhận biết mã độc trên các ứng dung đi động thông
minh Khác với học truyền thống, học sâu tự động tạo ra các đặc trưng hiệu quả màkhông cần các bước lựa chọn đặc trưng [4], [5] [6] Một số giải pháp hiện có nhằm
phát hiện phần mềm độc hại trên nền tảng Android và phân loại chúng thành ba danh
mục: phân tích tinh [7], [8], [9], [10], [11], [12] [13] phân tích động [14], [15], [16]
và phân tích kết hợp [17], [18], [19] [20] Trong đó, phân tích tinh phân tích các
thành phần tệp manifest hoặc chuỗi cuộc gọi API trong ứng dụng, phân tích độngphân tích hành vi chạy thời gian thực của các ứng dụng Phân tích kết hợp là gồm hai
danh mục phân tích tĩnh và động đề phát hiện phần mềm độc hại
Gần đây, một phương thức kết hợp cho việc phát hiện mã độc Android dựa trên
phát họa luồng điều kiển và máy học, Zhuo Ma và cộng sự [21] đề ra phương thứcphát hiện mã độc android dựa trên phát họa các thông tin API Đầu tiên xây dựngbiểu đồ luồng thực hiện của ứng dụng dé đạt được các thông tin về API, sau đó họ
dựa trên ba bộ dữ liệu và ba mô hình phát hiện là gọi API, tần suất API và thứ tự gọi
API Cuối cùng, một mô hình tổng thể được xây dựng sao cho phù hợp Họ thựcnghiệm phương pháp này với tập dữ liệu bao gồm 10010 mẫu lành tính được tổng
hop từ tập AndroZoo và 10693 mẫu độc hại được tổng hợp từ tap AMD Kết quả độ
chính xác của mô hình huấn luyện này thu được là 98.98% Với phương pháp phathiện này cho kết quả cao tuy nhiên không thê thu thập và tổng hợp các mẫu mã độcandroid Từ đó dẫn đến làm cho thiếu hụt thông tin các mẫu mã độc
Anshul Arora và cộng sự [22] nêu ra phương thức phát hiện bằng cách xác địnhcác cặp quyền có thể nguy hiểm Họ cải tiến model phát hiện mã độc có tên là
PermPair bằng cách xây dựng, so sánh các biểu đồ mã độc và các mẫu bình tườngbằng cách trích xuất các cặp quyền từ tệp tin manifest của ứng dụng Tập dữ liệu được
ho sử dụng dé thực nghiệm trong bài báo này bao gồm 7533 mẫu từ các nguồn khácnhau và độ chính xác của cách thức này là 95.44% Mặc dù tỉ lệ tương đối cao, tuy
thu thập bộ dữ liệu ở ba nguồn khác nhau là Genome, Drebin, Koodous nhưng số
lượng mẫu còn rất thấp (7533 mẫu mã độc), dẫn đến hiệu suất bị giảm đạt được khôngđáng kẻ, tỉ lệ đương tính giả khá cao khi thực nghiệm với dữ liệu lớn
Trang 20TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
Kartik Khariwal và cộng sự [23] ho cải tiến model phát hiện mã độc bằng cách
tập hợp các thông tin về Intents and Permissions của ứng dụng Sau đó, sắp xếp cácthông tin này và chọn ra những Intents và Permissions tốt nhất để phát hiện mã độc
android với hiệu suất cao Họ cũng đề ra một số thuật toán mới để tìm ra tập hợp tốtnhất bằng cách áp dụng các thuật toán máy học Tập dữ liệu họ sử dụng bao gồm các
mẫu lành tính được tổng hợp từ Google Play Store, các mẫu độc hại họ thu thập từ
các nguồn Genome, Drebin, Koodous Hướng này cho ra được kết quả dương tínhthật là 94%, tuy nhiên có điểm yếu của phương pháp được đề xuất này là chưa thểnhận biết được những mẫu mà có ít intents và permissions do đó dẫn đến độ chính
xác không được cao.
Các hướng tiếp cận về phân loại mã độc Andoird cũng được nghiên cứu và đề
xuất Han Gao và các cộng sự [24] phát triển hệ thống có tên gọi là GDroid ứng dụng
mang neural trong việc phân loại mã độc, y tưởng chung là họ ánh xạ các ứng dung
và API thành một đồ thị lớn không đồng nhất, từ đó thực hiện việc phân loại Kết quảđạt được ở hướng này đối với quá trình phát hiện là 98% và quá trình phân loại là
97% tỉ lệ dương tính giả thấp Họ sử dụng ba tập dữ liệu đó là AMGP, DB, AMD và
tập lành tính thu thấp từ Google Play Store với tổng số là 1200 mẫu mã độc và 2100
mẫu lành tính Nhìn chung về số lượng dữ liệu họ sử dụng không nhiều và cũng không
có đề cập đến làm sao bảo vệ tính riêng tư và tính bảo mật của thông tin và cá nhân
dữ liệu.
Ngoài ra độ chính xác của việc phát hiện và phân loại này cũng phụ thuộc vào
quá trình chọn các tính năng đặc trưng Anam Fatima và các cộng sự [25] đề nghị
một các tiếp cận dựa trên máy học phát hiện và phân loại mã độc android dựa trênthuật toàn di truyền để chọn đặc trưng, các đặc trưng được chọn từ thuật toán di truyền
này sẽ được sử dụng cho đào tạo và phân loại, hiệu suất cho được là 94% Tập dữ
liệu họ sử dụng là 40000 apk trong đó 20000 apk độc hại và 20000 apk lành tính.
Công việc tiếp theo của họ là bằng cách tận dụng bộ dữ liệu lớn hơn đề cải thiện kết
quả và phân tích ảnh hưởng đối với các thuật toán học máy khác khi được sử dụngcùng với thuật toán di truyền
Trang 21Ngoài ra dé nâng cao tính hiệu qua và độ chính xác trong quá trình phát hiện và
phân loại mã độc andoird, các nhà nghiên cứu cũng sử dụng các bộ dữ liệu lớn Bosun
và cộng sự [26] giới thiệu một cách tiếp cận mới không chỉ nâng cao hiệu suất mà
còn giảm thời gian chạy của quá trình đó là sử dụng bộ dit liệu được thu thập được từ
các nguồn khác nhau dé tao ra độ chính xác cao, có tổng cộng 300k mẫu và 28 họ mã
độc Kết quả độ chính xác cho toàn bộ quá trình này xấp sỉ 99.71 % và quá trình phân
loại là Fl-score (97.5%), precision (96.55%), recall (98.64%).
Ở các nghiên cứu phát hiện va phân loại mã độc nêu trên cho kết qua rất khả
quan, tuy nhiên tập dữ liệu mà họ sử dụng đều được tập hợp từ các nơi khác nhau,
sau đó tập hợp chúng lại một nơi cố định để thực hiện quá trình đào tạo Điều này dẫnđến nguy cơ mặt rủi ro tính riêng tư của dữ liệu và đảm bảo bảo mật của người dùng,
vì dữ liệu được công khai và được truyền đi, chúng ta cần giải quyết van đề của dữliệu đồng thời không làm giảm hiệu suất của quá trình nhất có thể Vì vậy phương
pháp được dé xuất để khắc phục điều này là sử dụng học cộng tác kết hợp với học
sâu.
2.3 Học sâu và hướng tiếp cận
2.3.1 Cơ sở lý thuyết học sâu
Neural Network [27] là một mô hình toán học được thiết kế để mô phỏng cáchhoạt động của các tế bào thần kinh trong bộ não của con người Một Neural Network
gồm nhiều đơn vị tính toán nhỏ gọi là noron nhân tạo (artificial neurons) hoặc nút
(nodes) Các nút này kết nối tạo thành một mạng lưới Mỗi nút nhận đầu vào từ các
nút khác, thực hiện một phép tính toán đơn giản và truyền kết quả cho các nút khác
Quá trình được thực hiện qua các lớp (layers) trong mang Mang Neural Network
thường có ít nhất một lớp đầu vào (input layer), một hoặc nhiều lớp ân (hidden layer),
và một lớp đầu ra (output layer) Qua việc điều chỉnh trọng số (weights) và ngưỡng(biases) của các kết nói giữa các nút, Neural Network có khả năng học dữ liệu đầu
vào và điều chỉnh các tham số đề thực hiện nhiều tác vụ khác nhau như xử lý thông
tin.nhận dạng hoặc phân loại đối tượng Neural Network đã chứng tỏ được khả năng
mạnh mẽ trong nhiều bài toán khó như xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói
„nhận dạng hình ảnh và nhiều lĩnh vực khác nữa Công nghệ này đang được sử dụng
Trang 22TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
rộng rãi và tiếp tục phát triển dé tạo ra các ứng dụng thông minh và giải quyết các
van đề phức tạp trong thé giới hiện đại
Vé cau tạo cơ bản của một mang NN gồm các thành phan sau :
¢ Lớp đầu vào: Là lớp đầu tiên của mạng, các đầu vào có thé là các đặc
trưng, dữ liệu hình ảnh, văn bản, âm thanh hoặc bất kỳ loại dữ liệu nào
mà mạng cần xử lý
¢ L6p đầu ẩn: Là các lớp nằm giữa lớp đầu vào và lớp đầu ra Số lượng và
kích thước của các lớp an có thể khác nhau tùy thuộc vào kiến trúc mạng
Mỗi lớp ẩn bao gồm no-rơn và các trong số kết nối dé tính toán và suyluận logic của mạng Các lớp 4n giúp mạng học các đặc trưng phức tạp
và biểu diễn quan hệ phi tuyến tính giữa đầu vào và đầu ra
¢ Lớp đầu ra: Là lớp cuối cùng của mạng Số lượng nơ-ron trong lớp phụ
thuộc vào số lượng lớp đầu ra mong muốn Mỗi no-ron trong lớp đầu ra
có thé đại diện cho một lớp của dit liệu đầu ra hoặc một giá trị dự đoán
cụ thể
Trang 23Trong khi triển khai một mạng nơ-ron, những hàm phi tuyến được áp dụng vàođầu ra của các nơ-ron trong lớp ẩn và làm đầu vào cho các lớp tiếp theo thường được
là khi kích thước của bước học cao thì các trọng số thay đổi liên tục làm cho tất cả
nơ-ron tạm ngưng cập nhật, hoặc có lúc sẽ xảy ra hiện tượng Dying ReLu.
Về cơ bản thuật toán tối ưu hay còn được gọi Optimizer function là nền tảng đểtạo ra mô hình NN với mục đích điều chỉnh quá trình học được các tính năng hay đặctrưng của đữ liệu đầu vào chăng hạn như tốc độc hoc (learning rate) hoặc các trọng
số, từ đó có thé tìm trọng số thích hợp dé tối ưu mô hình hiện tại, hỗ trợ cải thiện độchính xác Các thuật toán tối ưu thường thấy trong các nghiên cứu đó là Adam,
Trang 24TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
Gradient Descent, Stochastic Gradient Descent, RMSprop Tuy nhién, Adam [30]
được đánh giá là thuật toán tối ưu tốt nhất hiện nay Thuật toán này rất tốt cho moi
vấn đề học sâu trong nghiên cứu Các tham số thường được cấu hình trong thuật toán
để đặt kết quả cao nhất như là tham số beta_1 = 0.9 và tham số beta_2 = 0.999 và
learning rate trong khoảng 0.001 — 0.0001.
Hàm mắt mát (loss function) là một khái niệm trong quá trình triển khai một mô
hình học máy Hàm này thé hiện mối liên hệ giữa giá trị thực nhận và kết quả dự đoáncủa mô hình học máy Ở các thuật toán học máy, hàm mat mát là một hàm mục tiêucủa quá trình tìm kiếm có nhiệm vụ thực hiện các sự thay đổi hay phương pháp thay
đổi trọng số của mô hình có giá trị nhỏ nhất hoặc có thể chấp nhận được, đồng thời
đánh giá độ tốt của mô hình Tùy vào mỗi bài toán cụ thể, mà người dùng sử dụng
các hàm mat mát khác nhau cho những bài toàn khác nhau Ví dụ hàm Mean Squared
Error, Mean Absolute Error sử dụng trong bài toán hồi quy, hàm Cross-Entropy,
Binary cross entropy sử dụng trong bài toán phân loại.
2.3.2 Giải pháp, hướng tiếp cận phát hiện và phân loại mã độc Android dựa trên
học sâu
Học sâu (Deep learning) được xem như là một phần của trí tuệ nhân tạo và đượcxâu dựng dựa trên kiến thức về cách bộ não bộ não con người hoạt động để xử lý dữ
liệu, mục đích của học sâu là sử dụng mạng Neural Network và các kỹ thuật liên quan
để học và và rút trích thông tin từ dữ liệu để thực hiện các bài toán như phân loại,
nhận dạng, dự đoán, và khám phá mẫu Học sâu có mối liên hệ chặt chẽ với các kỹthuật và thuật toán học máy trong việc trích xuất thông tin, khám phá mẫu và đưa ra
kết luận từ tập dữ liệu Mạng Neural Network sẽ tự động tìm hiểu các đặc trưng và
mô hình hóa quan hệ dữ liệu đầu vào và đầu ra Điều này cho phép học sâu xử lý các
dữ liệu phức tạp và đưa ra các quyết định dưa vào việc các mô hình tự động tạo ra.
Trong lĩnh vực phát hiện và phân loại mã độc, học sâu đã được triển khai rộng rãi
Mạng Neural Network có thể học và nhận biết các đặc trưng phức tạp của mã độc, từ
đó đưa ra nhận định phân loại Việc đưa phương pháp học sâu vào các bài toán phân
loại mã độc giúp tăng tính chính xác và hiệu suất so với các phương pháp truyền
thống Học sâu cũng mô hình hóa lại các mối quan hệ vốn rất phức tạp giữa các đặc
Trang 25trưng của mã độc, từ đó cung cấp thông tin cần thiết dé đưa ra nhận định và giúp bảo
vệ các hệ thống khỏi các mối đe dọa
Trong dé tài nay, tác giả ứng dung và thực nghiệm các thuật toán học sâu cùng
với học cộng tác đề phân loại mã độc android và bảo vệ các tính chất của dữ liệu Sử
dụng thuật toán học sâu và học cộng tác trong việc phân loại mã độc android và bảo
vệ các tính chất của dữ liệu là một ứng dụng quan trọng và hứa hẹn trong lĩnh vựcphòng chống mã độc Một vài thuật toán học sâu có thể học từ dữ liệu lớn và phứctạp, từ đó giúp nhận định và phân loại các loại mã độc và mối đe dọa bảo mật Sự tích
hợp của học sâu trong các phần mềm phòng chống virus và phần mềm bảo mật giúp
cải thiện khả năng nhận biết các mẫu mã độc Học sâu có thể học các đặc trưng củamẫu từ các mẫu đã biết trước và sử dụng chúng dé phân loại các mẫu mới Điều này
cho phép hệ thống chống mã độc nhận ra các biểu hiện mới của mã độc mà trước đây
chưa từng gặp phải Ngoài ra, việc tích hợp học sâu vào các tiện ích trình duyệt web
cũng là một ý tưởng hay giúp ngăn ngừa các tấn công mã độc trực tuyến Các thuậttoán học sâu có thé phân tích và nhận diện các mẫu độc hai trong luồng dữ liệu trình
duyệt, từ đó bảo vệ người dùng khỏi các mối đe dọa bảo mật Bên cạnh đó, triển khai
học sâu trên các hệ thống đám mây cũng cho thấy được nhiều lợi ích trong việc xử lý
và phân loại dữ liệu lớn Các kỹ thuật học sâu có khả năng giải quyết và học từ dữliệu phức tạp trong thời gian thực, giúp nhận biết sớm các mới đe dọa và có cách đối
phó một cách hiệu quả.
Tổng quan, sự tích hợp của học sâu vào các ứng dụng phòng chống mã độcmang lại tính hiệu quả cao hơn, khả năng phát hiện tốt hơn và bảo vệ được các tính
chất của dữ liệu Việc sử dụng các thuật toán học sâu cùng với học cộng tác là một
phương pháp tiên tiến trong lĩnh vực này và góp phần vào sự an toàn hệ thống côngnghệ thông tin và bảo mật dữ liệu cá nhân.
2.3 Học cộng tác và hướng tiếp cận
2.3.1 Cơ sở lý thuyết học cộng tác
Vao năm 2016, Google đã giới thiệu trong bài báo với tiêu đề
Communication-Efficient Learning of Deep Networks from Decentralized Data hay còn gọi là họccộng tác (Federated learning) [31] , hay con được viết tắt là FL, là một hướng tiếp
Trang 26TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
cận đề thiết lập một mô hình học tương đối mới tránh thu thập dữ liệu tập trung và
đào tạo mô hình Mô hình giới thiệu trong bài báo bao gồm các client, mỗi client có
dữ liệu riêng biệt và một server điều phối quá trình học cộng tác Ở máy khách, quá
trình huấn luyện được thực hiện, sau đó sẽ gửi các tham số liên quan đến quá trìnhhuyền luận tới server, một quá trình tổng hợp sẽ được thực hiện và cập nhật các tham
số xuống cho các client, mô hình được minh họa theo Hình 2
Initial (A) Localtraining
(2) Send parameterto server
© Mô hình Server: Nơi chứa đựng nhiều tài nguyên và khả năng xử lý mạnh mẻ
Máy chủ sẽ có hai hành động được thực hiện: Hành động thứ nhất là khởi tạo
model và tiếp đó là gửi các tham số đến các máy khách, hành động thứ hai làtính toán trọng số tốt nhất mà các client gửi lên sau đó update lại xuống cho
client.
© Mô hình Client: Các client chứa một số mẫu mã độc khác nhau và sử dụng
model local để thực hiện việc phân loại mã độc
Học liên kết về lý thuyết có thể được giải thích ngắn gọn trong các bước bên
dưới như sau:
o Bước 1: Mô hình chung (chia sẻ) được đào tạo phía máy chủ.
Trang 27o Bước 2: Một số máy khách được chọn để đào tạo trên mô hình chung.o_ Bước 3: Các máy khách được chọn tải xuống mô hình.
o Bước 4: Mô hình chung được huấn luyện trên các thiết bị, tận dụng dữ
liệu cá nhân của chính người dùng, dựa trên thuật toán tối ưu hóa
o Bước 5: Một bản tông hợp về những thay đổi của mộ hình sẽ được tiến
hành đó là sự thay đổi của các trọng số của mạng nơ-ron sau khi được
huấn luyện được gửi đến máy chủ
o_ Bước 6: Máy chủ tổng hợp các bản cải thiện từ thiết bị dé cải thiện mô
hình được chia sẻ Cập nhật tổng hợp được triển khai bằng cách sử dụng
một thuật toán mới được gọi là “thuật toán trung bình liên kết”
o Bước 7: Lap lại quá trình gửi mô hình chung đến thiết bị và cải tiến
chúng dựa theo bản tóm tắt các bản cập nhật nhận được2.3.2 Ứng dụng học cộng tác vào phát hiện mã độc Android
Rafa Galvez và cộng sự [32] giới thiệu cách sử dụng học cộng tác vào việc phát
hiện và phân loại mã độc android Một phương thức kết hợp lợi dụng sức mạnh củahọc cộng tác dé cung cấp một giải pháp phát hiện mã độc đồng thời tôn trọng quyền
riêng tư của người dùng Họ có thể phân loại tất cả các mẫu độc hại được cài đặt trên
thiết bị đi động cá nhân bat ké chúng được lay từ cửa hàng ứng dụng hay các nguồn
hác, cho phép người dùng phát hiện ra ứng dụng độc hại mà không cần dựa vào máy
chủ của cửa hàng ứng dụng (ví dụ: Cửa hàng Google dành cho Play) cho các dịch vụ
phân loại phần mềm độc hại Giảm sự tùy thuộc của cá nhân người dùng vào các cửaang ứng dụng theo cách có lợi cho cả quyên riêng tư và hiệu suất phát hiện phan
mềm độc hại Tập dữ liệu họ sử dụng là AndroZoo với tổng cộng 25.000 ứng dụng
được chọn từ Anzhi, Appchina, Google Play Store Điểm còn hạn chế trong phương
pháp này là phân loại theo nhóm phần mềm độc hại hiện tại nằm ngoài phạm vi củabài báo và các tham số thực nghiệm đã được định nghĩa trước, việc lựa chọn kỹ lưỡngcác tham số sẽ giúp hiểu rõ hơn về hiệu suất của phương pháp này
Rahim Taheri và cộng sự [33] giới thiệu một framework mạnh mẽ có tên 1oT dé phát hiện ứng dụng mẫu mã độc android trong môi trường IoT Fed-IIoT hình
Fed-thành 1 mô hình học cộng tác mạnh mẽ bằng cách điều chỉnh 2 thuật toán đối kháng
Trang 28TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
dựa trên GAN Một trong những điểm nỗi trội của phương pháp này là các thiết biIoT có thể tham gia một cách an toàn và giao tiếp hiểu quả với nhau và không có van
để riêng tư dit liệu Ngoài ra, để xem xét hiệu quả phương pháp này, ho sử dụng 3 tập
di liệu IoT: Drebin [34] chứa khoảng 131.611 mẫu gồm độc hại và lành tính ,Genome [35] gồm 1.200 mẫu mã độc, Contagio [36] gồm 16.800 mau lành tính và
11.960 mẫu IoT độc hại Kết quả thực nghiệm họ chia thành 2 kịch bản: Kịch bản 1,
ban đầu kết quả ghi nhận được 97% nhưng khi tiền hành các phương án tan công vào
mô hình, kết quả họ thu được giảm từ 20% đến 30% Kịch bản 2, họ áp dụng các cơchế phòng thủ, kết quả tăng 10% đến 15% So sánh hai phương thức GANBased và
FedGAN, có thé thay rằng các phương thức phòng thủ hầu như luôn thành công trước
phương thức tấn công GAN-Based Từ đó có thể nhận xét được tính hiệu quả khi
dùng học cộng tác vào việc phát hiện mã độc trong môi trường IoT.
Changnan Jiang và cộng sự [37] đề ra phương pháp có tên là Fe—dHGCDroid để
phát hiện phần mềm mã độc android Đầu tiên họ sử dụng convolutional neural
network and graph neural network dé thiết kế mô hình phân loại đa chiều tên làHGCDroid Thứ hai họ giới thiệu framework để cho phép các máy khách Android
hợp tác đào tạo mô hình phân loại mã độc Android theo cách bảo vệ quyền riêng tư
đữ liệu về tập dữ liệu họ sử dụng đó là AndroZoo với khoảng 70.000 ứng dụng cho
việc phát hiện và phân loại Hiệu suất đạt được khi không ứng dụng học cộng tác là:
quá trình nhận diện mã độc có độ chính xác là 91.3% và quá trình phân loại mẫu mã
độc có độ chính xác là 83.29% Về độ chính xác tron quá trình ứng dụng học côngtác thu được đối với quá trình phát hiện là 91% và quá trình phân loại là 81% Tuy
nhiên vẫn còn số giới hạn trong bài báo này là về việc cơ chế cập nhật các tham số ở
client-side.
Chaudhuri và cộng sự [38] thiết kế một cơ chế mới dé tính toàn và cập nhậttrọng số gọi là DW-FedAvg Trong đó, các trọng số cho từng mô hình cục bộ được
cập nhật tự động dựa trên hiệu suất của quá trình đào tạo tại các máy khách
DW-FedAvg được đánh giá bằng 4 tập dữ liệu phô biến đó là: Melgenome gồm 3799 mẫutrong đó 2539 mẫu lành tính và 1260 mẫu độc hại, Drebin gồm 15036 mẫu trong đó
9476 mẫu lành tính và 5560 mẫu độc hại, Kronodroid gồm 78137 trong đó 36935
Trang 29mẫu lành tinh và 41382 mẫu độc hai, Tuandromd gồm 4465 mau trong đó 903 lànhtính và 3565 độc hai, sử dụng cho việc nghiên cứu các bài toán về phân loại các mẫu
độc hại android Độ chính xác khi họ thực hiện với tập dữ liệu Malgenome là 99%,
với tập Drebin là 98%, tập Kronodroid là 96% và tập Tuandromd là 98% Tuy kếtquả trong để xuất này cho các độ đo lường tương đối cao nhưng họ đang thực nghiệm
với mẫu dữ liệu được phân chia theo IID còn về thực nghiệm đối với mẫu dữ liệu
phân chia theo Non-IID thì bài báo không đề cập Vì vậy, cần xem xét tính chính xác
và hiệu suất của để xuất này khi hiện thực với mẫu dữ liệu Non-IID
Kuang-Yao Lin và cộng sự [39] giới thiệu phương pháp phân loại mẫu độc hại
trên Window bằng sử dung FL và dựa trên bộ dữ liệu của VirusTotal Họ sử dụng cácmodel phân loại mã độc truyền thống như SVM, LSTM Sau đó kết hợp với mô hình
học cộng tác với độ chính xác thu được là 91.67% Về tập dữ liệu, họ thu thập cácmẫu mã độc từ Virustotal, các mẫu dữ liệu đều hoạt động trên hệ điều hành Window,
tập dữ liệu chứa 10.907 mẫu mã độc bao gồm 5.907 cho phần đào tạo và 5.000 cho
phần testing Nhìn chung, đây cũng là một nghiên cứu trong việc phân loại các mẫuđộc hại trên hệ điều hành Window, thêm nữa họ đã trình bảy một phương thức phân
loại mã độc với việc thu tập dữ liệu phi tập trung bằng cách ứng dụng học cộng tác
vào việc phân loại này.
Valerian Rey và cộng sự [40] dé ra một Framework sử dụng FL để phát hiện
mẫu độc hại trên các thiết bị IøT Họ tận dụng bộ dữ liệu gồm các lưu lượng mạng
của một số thiết bị IoT bị nhiễm độc hại và bộ lành tính sử dụng dé đánh giáFramework Trong đó có khoảng 100.000 mẫu / 1 thiết bị sử dụng cho giải pháp họcgiám sát và chỉ có 10.000 mẫu cho giải pháp học không giám sát Họ thực hiện sosánh độ chính xác giữa 2 hướng: 99.92 % cho hướng tiếp cận theo học cộng tác và99.96% cho hướng tiếp cận học tập trung Như vậy, công trình này giới thiệuFramework bảo vệ quyền riêng tư trong việc nhận diện phần mềm độc hại trên các
thiết bị loT bằng cách tận dụng học cộng tác để triển khai và xem xét tính hiệu quả
mô hình được giám sát và không được giám sát Bên cạnh đó, họ cũng đã chứng minh
rằng tính riêng tư và toàn vẹn dữ liệu có thể được bảo toàn mà không làm ảnh hưởng
đến hiệu năng của mô hình bằng cách tuân theo phương pháp học cộng tác Khả năng
Trang 30TONG QUAN VAN DE NGHIÊN CUU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
phuc hồi của các mô hình học cộng tác chống lại các máy khách độc hại đã được kiểmtra thông qua các cuộc tan công mà họ đã trình bay
Tuy nhiên, hầu hết các công trình nghiên cứu được giới thiệu ở trên đều sử dụnghọc cộng tác làm mô hình cơ sở và họ đã bỏ qua van đề thích ứng với việc phân phối
phần mềm độc hại Non-IID trên các máy khách khác nhau Mặc dù một số lược đồ
đã được chuẩn hóa hoặc cắt bớt đối với các trường hợp ngoại lệ, nhưng các mô hìnhphân loại của chúng không thích ứng với một phân bé ở các máy khách Do đó, nó sẽ
dẫn đến thời gian hội tụ lâu cho mô hình phân loại mẫu độc hại dựa trên học cộng tác
và độ chính xác phân loại của các máy khách khác nhau là không lý tưởng Xem xét
mức độ phức tạp của các tình huống có khả năng xảy ra trong thế giới thực, các lược
đồ phân loại phần mềm độc hại dựa trên học cộng tác cần xử lý các tình huống phân
phối dữ liệu khác nhau Do đó, cần phát triển khung học cộng tác thích ứng với việcphân phối ứng dụng độc hại non- IID trên máy khách Android, đề đạt được phân loạimẫu độc hại chính xác và thích ứng
2.4 Kếtchương
Thông qua quá trình khảo sát, tìm hiểu các công trình nghiên cứu liên quan đến
đề tài, tác giả đã thu thập và nắm được một số vấn đề liên quan và hướng tiếp cận của
bài toán nhận diện và phân loại mã độc Android Bên cạnh những khảo sát và tìm
hiệu, tác giả cũng đã phân tích những ưu và nhược điểm của các phương pháp pháthiện, cũng như những vấn đề gặp phải cần được giải quyết của các nghiên cứu hiện
nay Đề xuất việc sử dụng học cộng tác giúp giải quyết bài toán về quyền riêng tư của
dữ liệu mà không làm ảnh hưởng đến hiệu suất của quá trình huấn luyện
Trong những chương tiếp theo, tác giả sẽ thể hiện cụ thé về kiến trúc và thuật
toán huấn luyện của mô hình dé ra, ứng dụng mô hình dé ra vào việc phân loại phần
mềm Android độc hại
Trang 31CHƯƠNG3 MÔ HÌNH DE XUẤT
Trong chương này, tác giả sẽ đề cập về cấu trúc và thuật toán huấn luyện của
mô hình dé xuất trong nhiệm vụ phân loại mã độc android bằng học cộng tác kết hợp
với học sâu, ứng dụng học cộng tác giúp nâng cao khả năng phân loại mã độc cũng
như bảo mật các tính chất của dữ liệu
3.1 Mô hình học sâu
Dựa trên những lợi ích tiềm năng mà học liên kết mang lại, tác giả giới thiệu
một framework phân loại các mẫu mã độc andoird, tăng số lượng dữ liệu giúp nângcao khả năng nhận biết các mã độc Về mặt tổng quan, mô hình bao gồm hai thànhphan :
- Khối tiền xử ly dữ liệu va đào tạo: Hỗ trợ gán nhãn cho các mẫu mã độc
và bất thường trước khi làm đầu vào cho việc huấn luyện bộ phát hiện và
phân loại Xây dựng quan thé ban đầu gồm tham số của mô hình Keras, sau
đó mô hình Keras sẽ được tạo và chuẩn bị cho giai đoạn huấn luyện kết
hợp.
- _ Khối mô hình học liên kết: Được khởi tạo ở cả Client và Server, có nhiệm
vụ tổng hợp dé tính toán các trọng số đóng góp của các client dé có được
tham số tối ưu nhất Về phía Android Client sử dụng tham số tối ưu nhấtnay dé được mô hình phân loại mã độc phù hợp nhất
Trong kiến trúc framework dé xuất có N client, mỗi client sử dung tập dữ liệu
riêng của nó và được lưu trữ tại mỗi thiết bị android kết hợp với một server phối hợp
Trang 32MÔ HÌNH ĐÈ XUẤT
để xứ lý học liên kết Minh họa Framework trình bày như trong Hình 3
Khởi tạo model
Tinh toán trọng số.
Server
t Models { Ỷ ‡
Client 1 Client 2 Client n
Traning Đánh giá Đào tạo Đánh giá Đào tạo Đánh giá
model model model model model model
Tiền xử lý dữ liệu Tiền xử lý dữ liệu Tiền xử lý dữ liệu
=— se E—
Tập dữ liệu thiết bị 1 Tập dữ liệu thiết bị 1 Tập dữ liệu thiết bị 1
Thu tập dữ liệu Thu tập dữ liệu Thu tập dữ liệu
|
t i
Android 1 Android 1 Android n
Hình 3 Mô hình Framework huấn luyện
3.1.1 Tiền xử lý dữ liệu
Trong mô hình đề xuất, giai đoạn tiền xử ly dữ liệu đảm nhiệm vai trò quan
trọng trong việc trích xuất các đặc trưng và chuẩn hóa dữ liệu đầu vào Các mẫu đã
được đã gán nhãn từ các mẫu lành tính và các mẫu độc hại được sử dụng cho giai
đoạn này Tùy vào kỹ thuật phân loại mã độc, các dữ liệu đưa vào giai tiền xử lý sẽkhác nhau (ở dạng chuỗi, dạng hình anh, Trong dé tài này, đề xuất của tác giả là sửdụng các mẫu đầu vào được trích xuất và chuẩn hóa có giá trị thuộc khoảng [0-1].Tác giả cũng sử dụng các mẫu đầu vào được trích xuất đặc trưng, nghĩa là tiến hànhvéc tơ hóa định đạng dữ liệu gốc Điều này giúp xây dựng mô hình huấn luyện có
tính linh hoạt, có khả năng áp dụng được cho nhiều kỹ thuật và dạng dữ liệu đầu vào
khác nhau từ Do đó, việc này đã mở ra cơ hội ứng dụng mô hình học cộng tác cho
các nghiên cứu trong tương lai, thông qua việc tinh chỉnh dữ liệu và một số cài đặt
trong mô hình huấn luyện sao cho phù hợp với kỹ thuật cần nghiên cứu và thực
Trang 333.1.2 Trình nhận biết mã độc dựa trên học máy
Trong trình nhận biết các mẫu mã độc, đầu vào gồm các mẫu lành tình và mẫuđộc hại Các mẫu này được chuẩn hóa thành các vector đặc trưng Quá trình đầu tiên
là cả hai nhóm mẫu véc tơ này được gán nhãn, điều này có nghĩa mỗi mẫu sẽ đượcđánh nhãn là lành tính hoặc độc hại dựa trên đặc trưng của chúng Tiếp theo, mẫu dữliệu và nhãn vừa được gan sẽ được sử dụng như là tập cơ sở dé thực hiện huấn luyện
cho phát hiện và phân loại Quá trình này sử dụng các thuật toán học máy hoặc mạng
nơ-ron để đào tạo mô hình nhằm nhận biết và phân loại các mẫu độc hại hoặc lành
tính.
Cấu trúc mạng Neural Network được minh họa ở Hình 3.5, tác giả đề xuất với
1 lớp đầu vào gồm 9503 nơ-ron, số lượng đặc trưng của mẫu , tiếp theo gồm 3 lớp ẩn
bao gồm: lớp ấn 1 có số nơ-ron là 128 và được kích hoạt bởi hàm kích hoạt ReLu,hàm này giữ các giá trị không âm và đặt các giá trị âm bằng 0, lớp ân thứ 2 gồm 64
no-ron và lớp ẩn thứ 3 gồm 10 nơ-ron, cuối cùng là lớp đầu ra gồm 5 nơ-ron tươngtứng với 5 loại mã độc cần được phân loại, được kích hoạt bởi hàm kích hoạt softmax
giúp tính toán xác suất phân loại cho mỗi loại mã độc Ngoài ra, mỗi lớp ấn được kíchhoạt bởi hàm kích hoạt ReLU và được chuẩn hóa bởi phương pháp chuẩn hóa hàng
hoạt (Normalization) giúp đạt được sự ôn định trong quá trình huấn luyện Phương
pháp này giúp mô hình học tốt hơn và tránh hiện tượng overfitting trên tập huấn luyện
Tổng quan, Neural Network trong dé tài bao gồm các lớp đầu vào, lớp ẩn và
lớp đầu ra, với kích hoạt ReLU được sử dụng đối với các lớp ân và kích hoạt softmaxđối với lớp đầu ra Điều này cho phép mô hình phân loại các loại mã độc dựa trên các
đặc trưng của chúng.
Trang 34MÔ HÌNH ĐÈ XUẤT
Lớp ấn 2
Lớp ẩn 3
= ® B 8
Hình 4 Mô phỏng cấu tạo trong mô hình đề xuất
Vecto đầu vào ở bat kỳ lớp nào được nhân với ma trận trọng số kết nối nó vớilớp tiếp theo dé tạo ra vectơ đầu ra Một vecto đầu ra như vậy lại được nhân với ma
trận kết nối lớp của nó với lớp kế tiếp Quá trình diễn tra liên tiếp tục cho đến khi đạt
đến lớp đầu ra Tóm tắt các phép nhân ma trận được trình bài trong hình (3.5)
Backdoor Banker Filelnfector
PUA
1x9503 9503x128 128x64 | = + 1x64 ]
1x64 64x10 10x5 = 1x5
Hình 5 Mô hình phân loại mã độc
Phép nhận ma trận giữa lớp Vecto đầu vào và lớp ấn 1 có kích thước 1x9503
Trang 35vector có kích thước là 128 là đầu vào cho lớp an 1 Phép nhận ma trận giữa lớp ân 1
(128 nơ-ron) và lớp ân 2 với ma trận trọng số kích thước 128x64, kết quả là mộtvector có kích thước 64 là đầu vào cho lớp ân 2 Phép nhân ma trận giữa lớp an 2 vàlớp an 3, lớp ẩn 2 64 nơ-ron nhân với ma trận trọng số kích thước 64x10 của lớp ân
3, kết quả là một vector có kích thước 10, là đầu vào cho lớp ân 3 Cuối cùng, kết quảđầu ra như vậy được nhân với trọng số giữa lớp ẩn thứ hai, lớp ba và lớp đầu ra có
kích thước 10x5 Kết quả cuối cùng có kích thước 1x5 là đầu ra của mang Neural
Network Mỗi lớp trong mạng Neural Network nhân vectơ đầu vào của nó với matrận kết nói lớp của nó với lớp kế tiếp Lap lại cho đến khi đạt đến lớp đầu ra, tạo ramột vecto đầu ra cuối cùng.Mọi phan tử trong vectơ kết quả như vậy đều tham chiếuđến một lớp đầu ra Mẫu đầu vào được dán nhãn theo lớp có điểm cao nhất
Ngoài ra, trong mỗi lớp ân được kích hoạt bởi hàm kích hoạt ReLU được trình
bày theo công thức (3.1), hàm kích hoạt ReLU (Rectified Linear Unit) đã trở thành
một lựa chọn phô biến trong huấn luyện mạng nơ-ron Các giá trị âm sẽ được Hàm
ReLU là lọc (hoặc bỏ qua) và giữ nguyên các giá trị không âm Hàm ReLU được định nghĩa theo công thức sau: ReLU(x) = max(0, x)
Dưới đây là một số điểm mạnh của hàm ReLU so với Sigmoid và Tanh là:
e Su hội tụ: ReLU có tốc độ hội tụ nhanh hơn trong quá trình huấn luyện
mạng nơ-ron Điều này do ReLU không bị bão hòa ở hai đầu như các hàmSigmoid và hàm Tanh Khi sử dụng các sigmoid và tanh, các giá trị đầu
vào rất lớn hoặc rất nhỏ có thể dẫn đến hiện tượng "bão hòa" (saturation)
va gradient gần như không đủ dé cập nhật trong sé, làm chậm quá trình
học Trong khi đó, ReLU không bị bão hòa và giúp tránh hiện tượng này.
e Tính toán nhanh: ReLU có tính toán nhanh hon so với hàm Sigmoid va
Tanh Ham ReLU chỉ thực hiện một phép so sánh và một phép gan giá tri
0, không yêu cầu các phép tính phức tạp như hàm sigmoid và tanh Điềunày đặc biệt hữu ích khi huấn luyện mạng nơ-ron sâu với nhiều nút
Cần lưu ý rằng hàm ReLU có một số hạn chế Một van dé phô biến là hiện tượng
"Dying ReLU" mà bạn đã đề cập trước đó, khi một nơ-ron với đầu vào âm liên tục sẽkhông được quá trình cập nhật trọng số Điều này có thé xảy ra khi sử dung learning
Trang 36MÔ HÌNH ĐÈ XUẤT
rate quá lớn hoặc khi khởi tao trọng số mạng không tốt Một giải pháp dé giảm hiện
tượng "Dying ReLU" là sử dụng các biến thể của ReLU như Leaky ReLU hoặc
Parametric ReLU.
Tuy nhiên, hàm ReLU cũng đã có một số nhược điểm, như:
© Sự chết ReLU (ReLU Dead Neurons): Điều này xảy ra khi các nơ-ron có
giá trị đầu vào âm, kích hoạt của ReLU là 0 và đạo hàm cũng là 0 Các
nơ-ron không được cập nhật nữa và không đóng góp vào quá trình học
của mạng Điều này gây mất đi khả năng học và là một nhược điểm của
hàm ReLU Tuy nhiên, các biến thể như Leaky ReLU va ParametricReLU đã được nêu ra dé giải quyết vấn đề này bằng cách cho phép một
độ dốc nhỏ hoặc điều chỉnh độ dốc của các đầu vào âm, nhằm giúp ron không "chết" hoan toàn và tiếp tục cập nhật trọng số
nơ-e Van dé gradinơ-ent nơ-exploding: Trong mạng nơ-ron sâu, việc lan truyền
ngược của gradient sẽ gặp phải mộ số khó khăn về gradient exploding,
khi gradient tăng quá lớn trong quá trình huấn luyện Hàm ReLU không
giới hạn đầu ra và không giới hạn đạo hàm ở phần dương, dẫn đến tìnhtrạng gradient exploding Đề khắc phục vấn đề này, một số biến thể của
ReLU như Leaky ReLU va Parametric ReLU, có giới han giá trị đầu ra
cho phần âm, nhằm giảm khả năng xảy ra gradient exploding
Tổng quan, việc sử dụng các biến thể của ReLU như Leaky ReLU, Parametric
ReLU và Exponential ReLU đã giúp khắc phục nhược điểm của hàm ReLU nâng cao
hiệu suất và khả năng học của mạng nơ-ron Để khắc phục nhược điểm của ReLU,các biến thể của ReLU như Leaky ReLU, Parametric ReLU, va Exponential ReLUđược đề xuất và sử dụng nhiều trong các mạng Neural Network
Để kết thúc lớp đầu ra và sau đó đầu ra sẽ được chuyền thành một phân phối xác
suất, thường được sử dụng hàm Softmax Hàm Softmax được áp dụng cho một mảng
số thực và tính toán giá trị xác suất tương ứng cho mỗi phần tử trong mảng Hàm
Sofimax được tính toán bằng:
Softmax(x_i) = exp(x_i) / sum(exp(x_j)) (3.1)
Trang 37Với x_i là giá tri đầu vào của phan tử thứ i, exp(x_i) là hàm mũ của x_i, vàsum(exp(x_j)) là tổng của hàm mũ.
Công thức này đảm bảo rằng giá trị Softmax nằm trong khoảng [0, 1] và tổng
của tat cả các giá tri là 1, tạo thành một phân phối xác suất Giá trị xác suất nay théhiện xác suất tương ứng cho mỗi lớp trong bài toán phân loại Hàm Softmax thường
được sử dụng nhiều cho các bài toán phân loại đa lớp, nơi cần xác định xác suất của
mỗi lớp dựa trên đầu ra của mạng nơ-ron Sử dụng hàm Softmax, ta có thể xác định
lớp có xác suất cao nhất cho mỗi mẫu và đưa ra các quyết định phân loại
Tác giả sử dụng thuật toán Adam làm thuật toán tối ưu, thuật toán Adam(Adaptive Moment Estimation) là một phương pháp tối ưu hóa thường được sử dụng
trong một mạng Nơ-ron Bang cách kết hợp hai kỹ thuật chính đó là RMSprop vàmomentum để tối ưu hóa việc cập nhật trọng số Adam sử dụng hai tham số chính:
trạng thái động lượng (m - momentum) và động lượng bình phương (v - squared
momentum) của gradient cho các tham số Các giá trị của m và v được cập nhật sau
mỗi chu kỳ batch bằng cách sử dụng exponential weighted averaging, được tính toán
one-hot encoding, trong đó chỉ có một vị trí tương ứng với lớp của mẫu có giá trị là
1 và các vị trí khác đều là 0 Ví dụ, nếu mẫu thuộc lớp thứ i, thì vector nhãn sẽ có
dang (0, 0, , 1, , 0), với giá trị 1 ở vị trí thứ ¡., trong đó pn là xác suất dự đoán cholớp thứ n, và n là số lượng các lớp Các giá trị này thường được tính bằng hàm kíchhoạt softmax dé đảm bảo tổng các xác suất bằng 1 và các giá tri nằm trong khoảng từ
0 đến 1 Ham mắt mát categorical crossentropy được tính bằng cách so sánh phânphối xác suất dự đoán và phân phối xác suất của nhãn Công thức của hàm mat mát
Trang 38MÔ HÌNH ĐÈ XUẤT
nay tính tổng của các chênh lệch giữa các phần tử của hai phân phối, được biểu diễnbằng công thức sau:
Cross entropy = — YI yilog (5,) (3.4)
(Trong đó: y^ là giá tri được dy đoán, y là giá tri du đoán đúng, M là số lượng lớp)
Trong đó, y là vector nhãn one-hot encoding, y_pred là phân phối xác suất dự
đoán Mục tiêu mô hình là tối thiểu hóa giá trị của hàm mắt mát này, nhằm dự đoán
chính xác lớp của các mẫu.
Tổng quan, hàm mất mát categorical crossentropy là một hàm quan trọng dé
đo lường sự khác biệt giữa xác suất dự đoán và phân phối xác suất nhãn, đưa ra một
chỉ số đánh giá cho sự hiệu suất của mô hình trong quá trình phân loại đa lớp
3.1.3 Thuật toán huấn luyện
Ở giai đoạn huấn luyện mô hình, quá trình lan truyền ngược (backpropagation)
là một phan quan trọng trong huấn luyện mạng nơ-ron và được coi là giải thuật mau
chốt giúp các mô hình học sâu thực hiện việc tính toán và cập nhật trọng số trong
mạng Quá trình backpropagation cho phép tính toán gradient của ham mat mát theotừng trọng số trong mang nơ-ron Bằng cách sử dụng chuỗi đạo hàm (chain rule) và
lan truyền ngược thông qua mạng, các gradient này có thể được truyền lại từ các lớpsau đến các lớp trước, cho phép tính toán gradient của các trọng số và cập nhật chúng
sử dụng thuật toán như gradient descent dé tối ưu Quá trình backpropagation giúp
tối ưu hóa mạng nơ-ron bằng cách đạo ham của hàm mất mát từ lớp đầu ra về phía
lớp đầu vào Điều này cho phép các trọng số đề giảm thiểu lỗi và cải thiện tính hiệu
quả của mô hình Quan trọng đề quá trình backpropagation có thể hoạt động hiệu quả
là cung cấp các giá trị đầu vào (input) mà giá trị đầu ra (output) chính xác đã biếttrước (có nhãn đúng) Điều này cho phép tính toán sai số (error) giữa dự đoán và đầu
ta thực tế, và từ đó tính toán gradient và cập nhật trọng SỐ Quá trình này diễn tra liên
lục qua nhiều chu kỳ huấn luyện để cải thiện mô hình theo thời gian
Tóm lại, quá trình backpropagation là một phần thiết yếu trong huấn luyệnmạng nơ-ron, tính toán gradient và cập nhật trọng số theo hướng giảm thiểu lỗi Nócùng với thuật toán tối ưu như gradient descent giúp mạng nơ-ron học và cải thiện
Trang 39khả năng dự đoán dựa trên dé liệu huấn luyện.
Mạng xử lý đầu vào tạo ra các giá trị đầu ra Nếu kết quả không chính xác, cácthay đổi dần dần sẽ được truyền ngược lại qua mạng và phép tính được thực hiện lại
Quá trình này làm lại cho đến khi mạng tính toán đầu ra đúng như mong muốn Mô
hình kết nối
Map in
R Lapin?
“ thần lớp mào, By a
Hinh 6 Luong hoạt động của thuật toán
Quá trình lan từ lớp đầu vào tới lớp đầu ra được gọi là Forward propagation
Quá trình này tính toán giá trị của từng nút trong mang Neural Bắt dau từ lớp đầuvào và di chuyển dần dần tới các lớp phía sau và cuối cùng là lớp đầu ra Giá trị ở
mỗi nút mạng và được biến đổi bằng một hàm kích hoạt gọi là (g)
By = g(Wa1A1 + Wa2A2 + Wo3A3 + -* x
+ Wei28A128 + bạ) Wear Wear ** W6412g Aias
Trang 40Yo =0(Mạ2qŒi + W¿¿C¿ + Wo3C3 ++ Ø||Wãi Mai
+W2to€o + bạ) Mại War
Ys = g(W31Cy + Wa¿C¿ + W333 ++ Mại Mại
Œ; 2
W310 +|ba
W, - b,410! Io, 4
Ws1o, bs.
Mục tiêu là tìm ra trong số và độ lệch làm giảm thiểu một số hàm chi phí J
được tính theo công thức như sau:
J= tị Im(f) — — Yj)Ln(1 — f1)Tối ưu trọng số và độ lệch có thê có thể được tìm thay bằng số thông qua giảm
dần độ dốc ngẫu nhiên; một phương pháp trong đó một ví dụ đào tạo để cập nhật
trọng s6 và độ lệch theo quy tắc cập nhật Ma trận cập nhật bao gồm các đạo hàm củahàm chỉ phí (J) đối với từng trọng số trong kết nói
a
OWinn
Việc tinh toán Ma trận cập nhật trong số và Vector cập nhật độ lệch cho