HO CHÍMINH CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP Tên đề tài: Phương pháp phát hiện xâm nhậ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYEN HỮU QUYEN
KHOA LUAN TOT NGHIEP
TREN DU LIEU PHAN PHOI KHONG DONG NHAT CHO
MẠNG VAN VAT KET NOI CÔNG NGHIỆP DỰA TREN
MANG SINH DOI KHANG VA HOC TANG CUONG
CU NHÂN NGANH KHOA HỌC MAY TÍNH
TP HO CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYEN HỮU QUYEN - 18521321
KHOA LUAN TOT NGHIEP PHUONG PHAP PHAT HIEN XAM NHAP CONG TAC
CU NHÂN NGANH KHOA HỌC MAY TÍNH
GIANG VIEN HUONG DAN
TS PHAM VAN HAU
ThS PHAN THE DUY
TP HO CHÍ MINH, 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TI8ầY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 PGS.TS Lê Dinh Duy — Chủ tịch.
2 ThS Đỗ Văn Tiến — Thư ký.
3 TS Lê Kim Hùng - Ủy viên.
Trang 4ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
Tên khóa luân:
PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP CỘNG TÁC TRÊN DỮ LIỆU PHÂN
PHÓI KHÔNG ĐÒNG NHÁT CHO MẠNG VẠN VẬT KÉT NÓI CÔNG NGHIỆP
DỰA TREN MẠNG SINH DOI KHÁNG VÀ HỌC TANG CƯỜNG
Nhóm SV thực hiện: Cán bô hướng dẫn:
Nguyễn Hữu Quyên - 18521321 TS Phạm Văn Hậu
ThS Phan Thế Duy
Đánh giá Khóa luận
1 Về cuôn báo cao:
Số trang © Số chương
SỐ bảng sô liệu So hình vẽ
Sô tài liệu tham khảo Sản phâm
Một sô nhận xét vê hình thức cuôn báo cáo:
Trang 5Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 6ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
Tên khóa luân:
PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP CỘNG TÁC TRÊN DỮ LIỆU PHÂN
PHÓI KHÔNG ĐÒNG NHÁT CHO MẠNG VẠN VẬT KÉT NÓI CÔNG NGHIỆP
DỰA TREN MẠNG SINH DOI KHÁNG VÀ HỌC TANG CƯỜNG
Nhóm SV thực hiện: Can bộ phản biên:
Nguyễn Hữu Quyền - 18521321 TS Lê Kim Hùng
Đánh giá Khóa luận
1 Về cuôn báo cao:
Số trang © Số chương
SỐ bảng sô liệu So hình vẽ
Sô tài liệu tham khảo Sản phâm
Một sô nhận xét vê hình thức cuôn báo cáo:
Trang 7Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 8ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
Tên đề tài: Phương pháp phát hiện xâm nhập cộng tác trên dữ liệu phân phối
không đồng nhất cho mạng Vạn vật kết nối công nghiệp dựa trên mạng sinh đối
kháng và học tăng cường
Tên dé tài tiếng Anh: Federated Intrusion Detection on Non-IID Data for Industrial
Internet of Things using Generative Adversarial Networks and Reinforcement
Learning
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: TS Phạm Văn Hậu
ThS Phan Thế Duy Thời gian thực hiện: Từ ngày 28/02/2021 đến ngày 28/07/2021.
Sinh viên thực hiện:
Nguyễn Hữu Quyền - 18521321 Lớp: KHCL2018.3
Email: 18521321@gm.uit.edu.vn Điện thoại: 0965823565
Nội dung đề tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của dé tài)
Giới thiệu:
e Sự phát triển nhanh chóng trong lĩnh vực truyền thông và internet đã dẫn đến sự
gia tăng đáng kê về quy mô mạng và đữ liệu Đặc biệt là với lượng lớn các thiết
bị Internet of Things (IoT) đã góp phần vào sự phát triển nhanh chóng về lượng
dữ liệu được tạo ra trong quá trình hoạt động, nhưng nó cũng mang đến nhiều
thách thức trong việc bảo mật thông tin của chính các thiết bị ấy khỏi bị đánh cắp Hệ thống phát hiện tan công (Intrusion Detection System — IDS) được xem
là yếu tố quan trọng giúp phát hiện và ngăn chặn các hành động tấn công Cùng
Trang 9với sự phát triển của ngành khoa học máy tính, ngày càng nhiều hệ thống phát hiện tấn công (IDS) được xây dựng có áp dụng các mô hình học máy (Machine
Learning - ML) nhằm tận dụng được nguồn di liệu to lớn và đa dang của các
thiết bị IoT [1] [2] Với sự hỗ trợ của các phương pháp học máy (ML), dé các
trình nhận diện tấn công có khả năng nhận diện được các tác nhân gây rủi ro mat
an toàn mạng với độ chính xác cao hon [3] Song lượng dữ liệu lớn và đa dang
cũng là một thách thức dé có thé tập trung dữ liệu cho quá trình huấn luyện Học cộng tác (Federated Learning - FL) [4] chính là chìa khóa dé giải quyết van dé
ấy Phương pháp này cho phép việc huấn luyện được thực thi trên chính thiết bị đang nam lượng dit liệu thay vì phải huấn luyện tập trung và kiến trúc của mô
hình hoc cộng tác (FL) được mô tả như Hình 1.
.='- Aggregation Server -—.
Global Model
w wi tuf| |2 WN w
_-: Local Training — .=: LocalTraining — .—: localTraining —.
( Device 1 ` ( Device 2 \ { Device N \
Hình 1: Kiến trúc mô hình học cộng tac (FL)
Áp dụng phương pháp này không chỉ làm giảm áp lực xử lí trên máy chủ mà còn giúp đảm bảo được quyền riêng tư của dữ liệu Hiện nay cũng đã có nhiều nghiên cứu tập trung vào việc huấn luyện mô hình học máy (FL) cho hệ thống phát hiện tan công (IDS) áp dung học tăng cường (FL) cho ra độ chính xác cao.
Ví như tác giả Nguyễn Đức Thiện [5] và các cộng sự đã đề xuất mô hình học
máy cho hệ thống phát hiện tan công (IDS) dựa trên học tăng cường (FL) đặt ở
Trang 10các security gateway của mỗi hệ thông mạng của các máy tham gia huấn luyện
dé tự động phát hiện các mối de doa cho các thiết bị IoT Tương tự vậy tác giả
Nguyễn Chí Vỹ [6] và các cộng sự đã phát triển mạng học sâu kết hợp với học
tăng cường (FL) dé xây dựng hệ thống phát hiện tan công (IDS) trong ngữ cảnh
Industrial Internet of Things (IIoT).
Bên cạnh lợi ich nổi bật nhất của học tăng cường (FL), tuy nhiên phương pháp
này vẫn còn một vải nhược điểm đặc biệt là sự ảnh hưởng của bộ dữ liệu huấn
luyện mất cân bang (Non Independent and Identically Distributed — NonIID), lam anh hưởng lớn dén két qua của mô hình hoc may được tong hop tai server Dé giải quyết vấn dé này nhiều nhóm nghiên cứu đã dé xuất ra nhiều phương pháp, hướng nghiên cứu mới nhằm giải quyết sự ảnh hưởng của dữ liệu không đồng nhất (NonIID) lên hiệu suất của mô hình học cộng tac (FL) Hangyu [7] cùng nhóm nghiên cứu đã thực hiện bài khảo sát nhằm phân tích chỉ tiết về ảnh hưởng của dữ liệu không đồng nhất (NonIID) trên các mô hình học cộng tác (FL) Và kết quả khảo sát đã chỉ ra được kết quả của các mô hình huấn luyện trên thiết bị trả về có sự hội tụ không đồng nhất do dữ liệu bi mat cân bằng
(NonIID) va mô hình được tổng hợp trên server sẽ hội tu chậm va đạt hiệu suất
không cao Và thông qua phân tích về việc phân phối dữ liệu, nhóm tác giả chỉ
ra phương pháp xử lý phân phối dữ liệu mất cân bằng (NonIID) băng cách tiếp
cận vào dữ liệu đầu vào và tiếp cận bang bằng phương pháp dit liệu cá nhân hóa
(Personalization Methods) Trong bài nghiên cứu [8], Hao Wang cùng nhóm
nghiên cứu đã đề xuất phương pháp FAVOR với mục tiêu nhằm tối ưu hiệu suất của mô hình huấn luyện sử dụng phương pháp học tăng cường (FL) cho bộ đữ liệu không đồng nhất (NonIID) Phương pháp được nhóm tác giả đề xuất dựa trên Deep Q-Learning giúp chọn ra tập các thiết bị có hiệu suất tốt trong mỗi vòng lặp huấn luyện giúp cho mô hình được tông hợp tai server ở các vòng huấn luyện sau sẽ đạt được hiệu suất tốt hơn Bên cạnh đó, Qinbin Li [9] cùng nhóm
nghiên cứu đã đề xuất phương pháp phân vùng dữ liệu dé có thé giải quyết được
ảnh hưởng do dữ liệu không đồng nhất (NonIID) Nhóm tác giả cũng đã thực
Trang 11nghiệm với các thuật toán học cộng tác (FL) hiện đại nhất nhằm chỉ ra mức độ ảnh hưởng của dữ liệu không đồng nhất (NonIID) đến độ chính xác của mô
hình Va cũng tương tự với bai nghiên cứu trên, Pravin Chandran [10] cùng
nhóm nghiên cứu đã đề xuất phương pháp nhằm giúp các thuật toán học cộng
tác (FL) dé có thé khắc phục được van đề khi đữ liệu không đồng nhất (NonIID)
dựa trên thuật toán chia để trị (Divide-and-conquer) Nhóm tác giả Ryo Yonetani [11] cũng đã thực hiện nghiên cứu áp dụng mạng sinh đối kháng (Generative adversarial networks-GAN) dé đựng mô hình học máy áp dụng cho
dữ liệu không đồng nhất (NonIID) Trong nghiên cứu này, họ mong muốn tìm được một bản phân phối liên quan đến tất cả các lớp mà đữ liệu đầu vào có thể thuộc về, trong khi vẫn giữ cho dit liệu được phân cấp trong mỗi bộ lưu trữ của
máy khách.
Hơn thế nữa, nhằm gia tăng hiệu suất huấn luyện của mô hình trong học cộng tác (FL), nhóm nghiên cứu của tác giả Nguyễn Gia Trí [12] đã đề xuất phương
pháp DeepMonitor áp dụng trong giám sát lưu lượng mang, sử dụng cho các
thiết bị IoT trong mang khả lập trình (SDN) Cùng với đó nhóm tác giả cũng đề xuất thuật toán (Double Deep Q-network - DDQN) nhăm cải thiện hiệu suất
huấn luyện của mô hình trong mạng khả lập trình (SDN).
Khi kết hợp với bộ điều khiển SDN, các hệ thống phát hiện xâm nhập có thé tận
dụng được cơ chế linh động của mạng khả lập trình (SDN) cho việc thu thập,
giám sát lưu lượng mạng dùng trong bài toán phát hiện, cảnh báo tấn công mạng Các IDS trong hệ thống mạng các thiết bi Vạn vật kết nối cần phải giải
quyết các vấn đề liên quan đến tính riêng tư của dữ liệu huấn luyện cũng như việc chon lựa mô hình huấn luyện phù hợp Và gần đây, mô hình học tăng cường
(Reinforcement Learning - RL) [13] được xem như một phương pháp hiệu qua
nhằm tối ưu hóa một cách tự động hiệu suất của các mô hình huấn luyện trong các lĩnh vực mạng Hơn nữa, các mô hình huấn luyện trong các hệ thống phát hiện xâm nhập (IDS) luôn hướng tới mục tiêu tối ưu hóa một cách tự động hiệu suất cũng như chỉ phí huấn luyện của của mô hình Đặt biệt trong ngữ cảnh mô
Trang 12hình huan luyện học cộng tác (FL), các hệ thông server sẽ luôn tối ưu hóa hiệu suất của mô hình được tông hợp.
e Do vậy, trong khóa luận tốt nghiệp này, tôi đề xuất phương pháp học cộng tác
(FL) kết hợp phương pháp học tăng cường (RL) dé xây dựng hệ thống phát hiện tấn công mạng (IDS) Việc kết hợp phương pháp học cộng tác (FL) và học tăng cường (RL) nhằm tăng hiệu suất của mô hình trong việc đưa ra kết quả trong
thời gian thực Ngoài ra, tôi cũng nghiên cứu các giải pháp nhằm khắc phục vấn
đề liên quan đến sự ảnh hưởng của dit liệu không đồng nhất (NonIID) lên hiệu suất hiệu của mô hình huấn luyện được áp dụng học cộng tác (FL).
Mục tiêu:
e Xây dựng mô hình học cộng tác (FL) phát hiện tắn công mạng (IDS), sử dung
kết hợp phương pháp học tăng cường (RL).
e Nghiên cứu phương pháp làm giảm ảnh hưởng của dữ liệu không đồng nhất
(NonIID) lên hiệu suất huấn luyện của mô hình sử dụng phương pháp sinh dữ liệu bằng mang sinh đối kháng (GAN) và phương pháp học tăng cường (RL).
Phạm vi nghiên cứu:
e _ Hệ thống phát hiện tan công mang (IDS) sử dụng phương pháp hoc máy (ML).
e Các mô hình học máy được huấn luyện và đánh giá trên bộ dữ liệu Kitsune
Network Attack Dataset [14].
e Phương pháp học cộng tác (FL) và học tăng cường (RL) cho hệ thống phát hiện
tan công mang (IDS).
Đối tượng nghiên cứu:
e Phương pháp học tăng cường (RL) và cộng tác (FL).
e©_ Mạng sinh đối khang (GAN)
e - Hệ thống phát hiện tan công mang (IDS) trên mạng khả lập trình (SDN).
e Bộ dữ liệu mat cân bang (NonIID).
e Các thư viện hỗ trợ lập trình học máy Tensorflow, Keras
Phương pháp thực hiện:
Trang 13a) Nội dung 1: Tìm hiểu phương pháp học cộng tác (FL) kết hợp phương pháp học
tăng cường (RL) áp dụng cho các hệ thống phát hiện tan công (IDS).
e Muc tiêu: Nắm được ý tưởng, nguyên lí và áp dụng vào việc xây dựng hệ thống
phát hiện tan công (IDS).
e Phương pháp: Nghiên cứu tài liệu, bài báo khoa học về phương pháp học cộng
tác (FL) và phương pháp học tăng cường (RL).
b) Nội dung 2: Tìm hiểu về mạng sinh đối kháng (GAN) và khảo sát các mô hình
GANs cho ngữ cảnh an ninh mạng.
e Mục tiêu:
o Nắm được ý tưởng, nguyên lí hoạt động, cách huấn luyện mô hình của
mạng sinh đối kháng (GAN).
o Tìm hiểu một số mô hình mạng sinh đối kháng (GAN) phổ biến, chú
trọng đến các phiên bản được dùng tương thích hơn với các dạng dữ liệu
thuộc lĩnh vực an toàn thông tin.
o Xây dựng được mạng sinh đối kháng (GAN) dé áp dung trong thực
nghiệm.
e Phương pháp:
o Tham khảo và nghiên cứu các bài báo khoa học có liên quan về mạng sinh
đối kháng (GAN) và ứng dụng của nó trong lĩnh vực an toàn thông tin.
o Chọn lựa mô hình mang sinh đối kháng (GAN) phù hợp cho bài toán.
c) Nội dung 3: Nghiên cứu sự ảnh hưởng và phương pháp làm giảm ảnh hưởng
của dữ liệu mat cân bằng (NonIID) lên hiệu suất của mô hình học máy (ML).
e Mục tiêu:
o Phân tích, đánh giá được sự ảnh hưởng của dữ liệu mat cân bằng lên việc
huấn luyện mô hình theo phương pháp FL.
o_ Thiết kế phương pháp sử dụng mạng sinh đối kháng (GAN) và học tăng
cường (RL) nhằm làm giảm sự ảnh hưởng của dữ liệu mat cân bằng (NonIID) lên hiệu suất mô hình.
Trang 14e Phương pháp:
o Đưa bộ dữ liệu mat cân bằng vào thực nghiệm và quan sát kết quả.
o Tìm kiếm các bài nghiên cứu và tài liệu có liên quan dé đưa ra phương
pháp phù hợp.
d) Nội dung 4: Xây dựng, thực nghiệm và đánh giá kết quả.
e Mục tiêu:
o Xây dựng và triển khai mô hình học cộng tác (FL) phát hiện tấn công
mang (IDS), sử dụng kết hợp phương pháp học tăng cường (RL) trong hệ
thống được xây dựng trên mạng khả lập trình (SDN).
o_ Đánh giá hiệu năng của phương pháp thiết kế trong việc giải quyết được
van dé dir liệu mất cân bằng (NonIID) ảnh hưởng đến độ chính xác của
mô hình.
e Phương pháp:
o Xây dựng mô hình học cộng tác (FL) kết hợp học tăng cường (RL).
o Triển khai phương pháp làm giảm ảnh hưởng của dit liệu mat cân bằng
(NonHD) trên bộ dữ liệu thực tế Kitsune Network Attack Dataset.
o Thực nghiệm nhiều trường hợp khác nhau dé đánh giá hiệu năng và độ
chính xác.
Kết quả mong đợi:
e Tài liệu mô ta mô hình áp dụng được phương pháp học cộng tác (FL) kết hợp
học tăng cường (RL) vào các hệ thống phát hiện tấn công (IDS).
e Giải quyết vấn dé di liệu không đồng nhất (NonIID) bằng phương pháp sử dung
mạng sinh đối kháng (GAN) và phương pháp học tăng cường (RL).
e Triển khai mô hình phát hiện tan công (IDS) trên mạng khả lập trình (SDN).
e Kết quả thực nghiệm khả quan, đưa ra các đánh giá về hiệu năng, độ chính xác
và có báo cáo chi tiết cho đê tài.
Tài liệu tham khảo:
Trang 15K A d Costa, J P Papa, C O Lisboa, R Munoz and V H C d Albuquerque,
"Internet of Things: A survey on machine learning-based intrusion detection approaches," Computer Networks, vol 151, pp 147-157, 2019.
M A Al-Garadi, A Mohamed, A K Al-Ali, X Du, I Ali and M Guizani, "A
Survey of Machine and Deep Learning Methods for Internet of Things (IoT)
Security," JEEE Communications Surveys Tutorials, vol 22, pp 1646-1685,
2020.
R Sommer and V Paxson, "Outside the Closed World: On Using Machine Learning for Network Intrusion Detection," in 20/0 IEEE Symposium on Security and Privacy, 2010, pp 305-316.
M Aledhari, R Razzak, R M Parizi and F Saeed, "Federated Learning: A Survey on Enabling Technologies, Protocols, and Applications," JEEE Access,
vol 8, pp 140699-140725, 2020.
Nguyen, Thien Duc and Marchal, Samuel and Miettinen, Markus and Fereidooni,
Hossein and Asokan, N and Sadeghi, Ahmad-Reza, D/oT: A Federated
Self-learning Anomaly Detection System for IoT, 2019 IEEE 39th International
Conference on Distributed Computing Systems (ICDCS), 2019, pp 756-767.
Vy, Nguyen Chi; Quyen, Nguyen Huu; Duy, Phan The; Pham, Van-Hau,
"Federated learning-based intrusion detection in the context of IloT networks:
Poisoning Attack and defense," in /5th International Conference on Network and System Security, Tianjin, 2021.
H Zhu, J Xu, S Liu and Y Jin, Federated Learning on Non-IID Data: A Survey,
2021.
H Wang, Z Kaplan, D Niu and B Li, "Optimizing Federated Learning on
Non-IID Data with Reinforcement Learning," in JEEE INFOCOM 2020 - IEEE
Conference on Computer Communications, 2020, pp 1698-1707.
Q Li, Y Diao, Q Chen and B He, Federated Learning on Non-IID Data Silos:
An Experimental Study, 2021, pp 1698-1707.
[10] P Chandran, R Bhat, A Chakravarthi and S Chandar, Weight Divergence
Driven Divide-and-Conquer Approach for Optimal Federated Learning from non-IID Data, 2021.
Trang 16[11] R Yonetani, T Takahashi, A Hashimoto and Y Ushiku, Decentralized Learning
of Generative Adversarial Networks from Non-iid Data, 2019.
[12] T G Nguyen, T V Phan, D T Hoang, T N Nguyen and C So-In, "Federated
Deep Reinforcement Learning for Traffic Monitoring in SDN-Based IoT Networks," JEEE Transactions on Cognitive Communications and Networking,
2021.
[13] N C Luong, D T Hoang, S Gong, D Niyato, P Wang, Y.-C Liang and D I.
Kim, Applications of Deep Reinforcement Learning in Communications and
Networking: A Survey, 2018.
[14] Y Mirsky, T Doitshman, Y Elovici and A Shabtai, "Kitsune: An Ensemble of
Autoencoders for Online Network Intrusion Detection," in The Network and Distributed System Security Symposium (NDSS) 2018, 2018.
Kế hoạch thực hién:(M6 ta tom tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia)
Thời gian Sinh viên
28/02/2022 — 28/03/2022 Tham khảo các nghiên cứu về hoc tăng cường
(RL), học cộng tác (FL), mô hình học máy, hệ
thống phát hiện tấn công (IDS) Chọn các bộ dữ liệu và các thư viện, framework phù hợp dé hiện
thực mô hình.
28/03/2022 — 28/04/2022 Tham khảo và nghiên cứu mang kha lập trình
(SDN), sự ảnh hưởng của dữ liệu mất cân bằng
(NonIID) và phương pháp học tăng cường (RL) và
mạng sinh đối kháng (GAN) Tiền xử lí dữ liệu,
huân luyện các mô hình học máy.
28/04/2022 — 28/06/2022 Thực nghiệm, đánh giá kết qua đạt được va viết
báo cáo.
28/06/2022 — 28/07/2022 Hoan thién bao cao.
Xác nhận của CBHD TP HCM, ngày 18 thang 03 năm 2021
Trang 17(Ký tên và ghi rõ họ tên)
Nguyễn Hữu Quyền
Trang 18LỜI CẢM ƠN
Qua thời gian tìm hiểu và nghiên cứu, tôi đã hoàn thành được khoá luận "Phươngpháp phát hiện xâm nhập cộng tác trên dữ liệu phân phối không đồng nhất chomạng Vạn vật kết nổi công nghiệp dựa trên mang sinh đối kháng va học tăng
cường" Kết quả này không chỉ là sự nổ lực cá nhân mà còn nhờ vào sự trợ giúp
của thay cô và bạn bè Tôi xin gửi lời cảm on chân thành đến Phòng Thí Nghiệm
An Toàn Thông Tin - InsecLab của trường Đại học Công Nghệ Thông Tin TP.HCM
đã tạo điều kiện cho tôi được nghiên cứu để tài khoa học cũng như làm khoá luận
này Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến khoa Khoa Học Máy Tính củatrường Đại học Công Nghệ Thông Tin TP.HCM đã tạo điều kiện tốt nhất cho tôi
hoàn thành khóa luận này.
Tôi xin cảm ơn thầy Phan Thế Duy đã hướng dẫn tôi trong suốt thời giannghiên cứu và thực hiện khóa luận, thầy đã đưa ra những định hướng, chia sẻ
các kinh nghiệm nghiên cứu giúp tôi từng bước hoàn thành khoá luận Bên cạnh
đó, tôi xin cảm ơn thầy Phạm Văn Hậu đã cùng với Thầy Duy đã đồng hướng dẫntôi Cảm ơn thay đã chỉ bảo tôi nhiều van dé chuyên môn và giới thiệu các công
cụ cần thiết giúp tôi hoàn thành khoá luận
Một lần nữa tôi xin gửi lời cảm ơn sâu sắc đến quý thầy cô và các bạn!
Trang 191.3 Câu trúc Khóa luận tốt nghiệp 6
2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRÌNH LIÊN QUAN 8
8
8
8 9
11
: : 112.1.2.2 Mạng nơron hồi qUY| 14
2.1.2.3 Mạng sinh đôi kháng ủáA 17
HH 18 : = rz 5 Z 20
2.1.5 Phương pháp học tăng cường| 23
2.2_ Các công trình lên quan| 25
Trang 20đôi kháng để giảm ảnh hưởng của dé liệu NonIID
4.5 Huấn luyện mô hình học cộng tác FedIDS với dữ liệu NonIID
4.5.1 So sánh hiệu suất của phương pháp hoc tăng cường so với
phương pháp Top-5 thông thường| 56
4.5.2 So sánh hiệu suất của ba phương pháp khi huấn luyện mô
Trang 21Danh sách hình ve
2.1 Mô hình hệ thống phát hiện tan công áp dụng học máy 10
Ha 12
" ad eevee, 15 ebb eben eens 16
¬ MS -a eens 17
HS NHƠN 18
2.7 Cac góc nhìn khác nhau của Laptop| - 21
chủ của mô hình học cộng tác.| -.- 28
3.1 Kiến trúc của phương pháp học cộng tác| - 31
3.2 Kiến trúc Eed[lDS] 33
Trang 224.4 Hiệu suất của mô hình FedIDS trên các mức dữ liệu NonIID khác
Trang 23Danh sách bảng
4.2 Tổng số vòng cập nhật để đạt được độ chính xác dé ra ở 4 mức
đánh giá dtr liệu NonlIID| 58
Trang 24Danh mục từ viết tắt
FL Federated Learning
IDS Intrusion Detection System
IID Independent and Identically Distributed
DL Deep Learning
CNN Convolutional Neural Network
RNN _ Recurrent Neural Network LSTM Long Short Term Memmory
GRU Gate Recurrent Units
GAN _ Generative Adversarial Networks
CGAN Conditional Generative Adversarial Networks
ANN Artificial Neural Network
Trang 25Danh mục từ tạm dịch
Phương pháp học cộng tác Federated Learning
Phương pháp học tăng cường Reinforcement Learning
Hệ thống phát hiện tấn công Intrusion Detection system
Phân phối không đồng nhất Independent and Identically Distributed
Học sâu Deep Learning
Mạng nơron nhân tạo Artificial Neural Network
Mạng tích chập Convolutional Neural Network
Mang noron hồi quy Recurrent neural network
Chuỗi nhớ dài ngắn Long short term memory
Mang sinh đối kháng Generative Adversarial Networks
Mạng sinh đối kháng có điều kiện Conditional Generative Adversarial NetworksHọc cộng tác theo chiều dọc Vertical federated learning
Học cộng tác theo chiều ngang Horizontal federated learning
Bộ dữ liệu Dataset
Đặc trưng Feature
Bản dé đặc trưng Feature map
Trang 26TÓM TẮT KHOÁ LUẬN
Ngày nay, với sự phát triển vượt bậc và nhanh chóng của khoa học công nghệ nói
chung và trí tuệ nhân tạo nói riêng nhiều ứng dụng, chương trình thông minh
được ra đời để phục vụ cuộc sống con người Đi kèm với đó sự phát triển của
khoa học công nghệ cũng mang đến sự bùng nổ của dữ liệu mang lại nguồn tài
nguyên giúp cho việc khai thác dữ luyện các mô hình máy học ngày càng trở nên
dé dang Bên cạnh những lợi ích thì lượng di liệu lớn cũng đối điện với những
nguy cơ bị đánh cắp nhằm mục đích khai thác Và trong lĩnh vực an ninh mạng,
ngày càng nhiều các hệ thống phát hiện tấn công (Intrusion Detection System IDS) mạng được nghiên cứu Đặc biệt là các hệ thống được áp dụng mô hình máyhọc đã mang lại hiệu quả tích cực Tuy nhiên, trong quá trình huấn luyện thì các
-mô hình này vẫn đang gặp phải khó khăn về việc đảm bảo dữ liệu khi tập trung
lại để huấn luyện được đảm bảo an toàn và cũng như hệ thống vận hành đáp ứng
được cho lượng dữ liệu Ấy Và phương pháp học cộng tác (Federated Learning
-FL) được sinh ra nhằm giải quyết được các van dé ấy Học cộng tác đã trở thành
phương pháp day hứa hen để xây dựng mô hình học cộng tác phát hiện tan côngmạng, khi cung cap sự đảm bảo quyền riêng tư giữa những người nắm giữ dữliệu Tuy nhiên, trong các tình huống thực tế thi dữ liệu phân phối không đồngnhất (Non-Independent and Identically Distributed - NonIID) đã tác động tiêucực đến hiệu suất của các mô hình học máy Và cụ thể hơn trong ngữ cảnh các hệthống phát hiện tấn công mạng được xây dựng dựa trên mô hình học cộng tácthì mô hình máy học đã có hiệu suất không được như kì vọng khi huấn luyện
mô hình với dữ liệu NonIID Vì vậy, trong khoá luận nay, tôi giới thiệu phương pháp xây dựng mô hình học cộng tác phát hiện xâm nhập trên dữ liệu NonIID
bằng cách sử dụng Mạng sinh đối kháng (GAN) và phương pháp học tăng cường
(Reinforcement Learning).
Trang 27Chương 1
TỔNG QUAN
11 Giới thiệu bài toán
Với sự phát triển nhanh chóng của lĩnh vực công nghệ thông tin đã làm cho
các thiết bị điện tử bao phủ rộng khắp Đặc biệt, các thiết bị IoT được ra đời ngàycàng nhiều và đa dạng dẫn đến sự gia tăng lượng lớn dữ liệu trong suốt quá
trình vận hành Từ đó dẫn đến nhiều thách thức cho các van dé về an toàn thông
qua việc chia sẽ dữ liệu (13) Hơn thé nữa, các thiết bị IơT chưa dam bao được
tính bảo mật dẫn đến nguy cơ bị khai thác bởi các mã độc, những cuộc tấn công
từ các tin tặc, dẫn đến những thách thức nghiêm trong cho các thiết bị và dữ
liệu cá nhân Trong lĩnh vực an ninh mạng việc đưa ra các dự đoán một cách
chính xác để có thể ngăn chặn nguy cơ ở không gian mạng van là một van
dé cần được quan tâm Và các hệ thống phát hiện tấn công (Instrusion DetectionSystem — IDS) này chính là giải pháp thiết yêu IDS được phát triển và được xem
là một thành phan quan trong để ngăn chặn các hoạt động tấn công mạng Và
để IDS có thể hoạt động hiệu quả cần phải cập nhật liên tục để có thể xác địnhđược cái nguy cơ gây hại cho hệ thống Hơn thế nữa với mong muốn đạt hiệu
quả dự đoán tốt hơn đối với chẩn đoán những lưu lượng mạng độc hại chưa biếttrước, IDS được áp dụng các phương pháp học máy nhằm tăng khả năng phát
hiện bat thường trong các lưu lượng mang [27] Một số nghiên cứu trong các năm
Trang 28Chương 1 TONG QUAN 4
gần đây đã chứng minh được hiệu quả của việc áp dụng máy họctrong các hệ thống IDS Nhưng lượng lớn đữ liệu và ngày càng tăng thêm cũng
là một thách thức lớn trong việc áp dụng các mô hình máy học tập trung này vào
thực tế, bởi vì các chỉ phí duy trì máy chủ và hệ thống mạng huấn luyện với lượng
đữ liệu lớn thường rất lớn Cùng với đó, việc đảm bảo dữ liệu được giữ bí mật an
toàn cũng là một van dé lớn (8) Đối với các hệ thống IDS rất cần các dir liệu lưu
lượng mạng và các dữ liệu này cũng chính là nguyên nhân chính dẫn đến cácvấn dé liên quan đến bảo mật dữ liệu nhạy cảm và quyển riêng tư Nên đây làmột trong những van dé chính cần được giải quyết dé máy học có thể ứng dụng
được trong nhiều loại thiết bị IoT khác nhau
Federated Learning được coi là một trong những giải pháp máy học mang lại
hiệu quả bảo vệ quyền riêng tư và tránh rò rỉ quyền riêng tư [16] Muc dich chinh
của là Federated Learning giảm tải lên server, bằng cách tao ra nhiều mô hình trên
nhiều máy tham gia và chính máy tham gia này sẽ trực tiếp huấn luyện lượng dữ
liệu mà nó đang nắm giữ Sau đó tổng hợp lại thành một mô hình chung ở máy
chủ [32] Phương pháp này không chỉ giải quyết van dé của việc huấn luyện tập
trung mà còn bảo đảm được quyền riêng tư về di liệu bởi vì dữ liệu không ra
khỏi tổ chức, cá nhân sở hữu chúng Sự ra đời của Federated Learning giải quyết
được vấn dé hợp tác từ các nguồn khác nhau giúp phát triển được mô hình phát
hiện tan công Federated Learning cho phép các máy cộng tác tự huấn luyện trên
dit liệu mình đang có và chia sé các thông số của mô hình, trong khi đó vẫn bảo
đảm dt liệu không bị tiết 16, vậy là vừa giúp giải quyết van dé tập trung, lưu trữ,huấn luyện với quá nhiều dữ liệu vừa đảm bảo được quyền riêng tư cho dir liệucủa các cá nhân tổ chức tham gia
Cùng chung xu hướng này, an ninh mạng là một trong những lĩnh vực tiềm
năng nhất để áp dụng phương pháp Federated Learning để hình thành mô hình
hoc cộng tác và chia sẻ thông qua những người tham gia huấn luyện (31, (9) Vi
du, có nhiều công trình sử dung Federated Learning để thu lợi từ sự đóng góp
Trang 29Chương 1 TONG QUAN 5
từ cộng đồng an ninh mạng mà không cần chia sẻ dữ liệu thô Các cách tiếp cận
như vậy có thể được đề cập đến bao gồm phát hiện URL độc hại (14), san tim méi
de doa (Threat Hunting) (1), [33], IDS (2), (61, (41, [15], phát hiện dt liệu bất
thường (Anomaly Data Detection) [40], [19], [39] và phát hiện phần mềm độc hai
(Malware Detection) [23], [11], [28]
Tuy nhiên, Federated Learning thường gặp phải dữ liệu NonIID khi ap dung
các mô hình học máy vào trong các tình huống thực tế [5] Vì dữ liệu huấn luyện
trên các thiết bị cục bộ là đữ liệu NonIID, thì di liệu này sẽ mang lại hiệu suấtkém hơn cho mô hình toàn cầu so với mô hình huấn luyện tập trung do các thuật
toán tổng hợp không mạnh mẽ [42] Dé giải quyết van dé này, một số công trình
sử dung cách tiếp cận dựa trên dữ liệu, bao gồm chia sẻ dữ liệu và tăng dữ liệu
để sửa đổi các phân phối trong máy cộng tác Trong đó, Generative Adversarial
Networks (GAN) được coi là giải pháp tiềm năng để tạo và bổ sung dir liệu ở
các lớp nhỏ Thay vì tập trung dữ liệu để huấn luyện GAN, khi cân bằng dữ
liệu NonIID, tất cả những máy cộng tác tham gia quá trình huấn luyện FL cần
tự cân bằng dir liệu thô của họ trước khi huấn luyện để tránh chia sẻ dữ liệu
tránh vi phạm nguyên tắc chính của EL là giữ dữ liệu riêng tư cục bộ Tuy nhiên,việc huấn luyện GAN cho tất cả các thành viên tham gia sẽ tốn nhiều chi phí và
thời gian, mang lại hiệu quả thấp cho việc thực hiện mô hình FL Bên cạnh đó,
cũng nhằm mục đích giải quyết dữ liệu NonIID, học tăng cường (Reinforcement
Learning - RL) được sử dụng như một phương pháp dựa trên kinh nghiệm để
chọn máy cộng tác tham gia vào mỗi vòng huấn luyện nhằm giảm sự sai lệch
về dữ liệu NonlID để tăng tốc độ hội tụ mô hình [wang] Tuy nhiên, với các thửnghiệm trong [wang], kết quả của họ đã chứng minh rằng FL kết hop RL sẽ matrất nhiều vòng giao tiếp để đạt được hiệu năng mục tiêu nếu chỉ tập trung vàoviệc chọn một nhóm máy cộng tác mong muốn mang lại hiệu suất cao mô hình
toàn cầu trong vòng tiếp theo mà không cân bằng dữ liệu thô của khách hàng
Và để giải quyết những van dé này, tôi đưa ra một phân tích thực nghiệm toàn
Trang 30Chương 1 TONG QUAN 6
diện về tác động của dữ liệu NonIID đối với mô hình FL Sau đó để giải quyếtvan đề dữ liệu NonlID, tôi đã áp dụng 3 biện pháp sử dung GAN, RL và RL kếthợp GAN để thực nghiệm, đánh giá và tìm ra giải pháp tốt nhất khi áp dụng các
biện pháp này vào trong FL.
1.2 Mục tiêu khóa luận
Đề tài nhằm nghiên cứu và và áp dụng các phương pháp nhằm giải quyếtđược van đề của dữ liệu NonIID lên mô hình máy học xác định và ngăn chặn các
cuộc tân công mạng dựa trên phương pháp học cộng tác
e Đầu tiên, tôi đánh giá lại mô hình FedIDS, một mô hình học sâu dựa trên
CNNGRU được đề xuất trong bài báo đã được nghiên cứu, dựa trên
kịch bản huấn luyện dữ liệu NonIID để chỉ ra ảnh hưởng của dữ liệu đếnhiệu suất của mô hình dựa trên tập dữ liệu mang Kitsune [dataset]
¢ Sau đó, tôi sử dung hai phương pháp để giảm ảnh hưởng của dữ liệu
Non-IID lên mô hình FedIDS, bao gồm GAN và RL Cụ thể, việc phân phối dữ
liệu của máy cộng tác được cân bằng dựa trên GAN, trong khi đó RL được
sử dụng để chọn nhóm máy cộng tác cho hiệu năng tốt nhất để tổng hợp
mô hình Và dựa trên kết quả đó để chỉ ra những hạn chế về mặt hiệu quả
huấn luyện của 2 biện pháp trên đối với FedIDS
* Cuối cùng, dé tài này giới thiệu một cách tiếp cận mới khi huấn luyện cho
FedIDS đối với dữ liệu NonIID bang cách sử dung RL kết hợp với GAN dé
cải thiện nhược điểm của 2 phương pháp nêu trên.
1.3 Câu trúc Khóa luận tot nghiệp
Nội dung Khóa luận được tổ chức như sau:
Trang 31Chương 1 TONG QUAN
° Chương] Giới thiệu tổng quan về khóa luận.
° Chương] Cơ sở lý thuyết và các công trình liên quan.
« Chương 3| Phương pháp và mô hình dé xuất.
s Chương Thực nghiệm và đánh giá
e Chương 5| Kết luận và hướng phát triển.
Trang 32Hiện nay, các hình thức tấn công mạng (Cyber attack) ngày càng đa dạng và
phức tạp [25] Hàng nghìn cuộc tấn công được thực hiện thông qua các hoạt động
tấn công vào hệ thống của các tập thể, hay lừa đảo qua các giao dịch trực tuyến,
hay phát video trực tiếp, chơi game và duyệt web trực tuyến nhằm vào người
dùng Internet trên toàn thé giới để lay thông tin nhạy cảm của người dùng hay
thậm chí là vô hiệu hoá, phá huỷ dữ liệu cá nhân Và đặc biệt là trong ngữ cảnh
mang vạn vật kết nối công nghiệp (Industrial Internet of Things - IIoT) tấncông mạng trở thành van dé vô cùng quan trọng Vì kẻ xấu có thể lợi dụng việccác thiết bị máy móc được liên kết với trong mạng IIoT và chi cần tìm ra một liênkết yếu trong một mạng thì các thiết bị được kết nối với mạng sẽ trở thành mụctiêu chính của những kẻ tấn công Tuy nhiên, không phải hầu hết các cuộc tấn
công đều mang mục đích xâu nhằm đánh cắp thông tin nhạy cảm vẫn có nhiều
Trang 33Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 9
nhóm nghiên cứu thực hiện các cuộc tấn công nhằm giúp phát hiện các lỗ hổng
cuả hệ thống
2.1.1.2 Hệ thống phát hiện tan công
Trong lĩnh vực an ninh mạng, hệ thống phát hiện tan công được xây dựng dé
giám sát các lưu lượng mạng (network traffic) để phát hiện các hoạt động đáng
ngờ và tạo ra cảnh báo khi chúng được phát hiện Dựa trên những cảnh báo này,
nhà phân tích có thể điều tra van dé và thực hiện các hành động thích hợp đểkhắc phục mối đe doa Và các hệ thống phát hiện tan công này được phân thành
5 loại bao gồm:
® Network Intrusion Detection Systems - NIDS: được thiết lập tại một điểm
dự kiến trong mạng để kiểm tra lưu lượng từ tất cả các thiết bị trên mạng.Khi một cuộc tan công được xác định hoặc quan sát thấy hành vi bất thường,cảnh báo có thể được gửi đến quản trị viên
¢ Host Intrusion Detection Systems - HIDS: chạy trên các máy chủ hoặc thiết
bị độc lập trên mạng HIDS chỉ giám sát các gói đến và đi từ thiết bị và sẽcảnh báo cho quản trị viên nếu phát hiện hoạt động đáng ngờ hoặc độc hại
No chụp nhanh các tệp hệ thống hiện có và so sánh nó với ảnh chụp nhanh
trước đó Nếu các tệp hệ thống phân tích bị chỉnh sửa hoặc xóa, một cảnhbáo sẽ được gửi đến quản trị viên để điều tra
® Protocol-based Intrusion Detection System (PIDS): bao gồm một hệ thống
thường nằm ở đầu phía trước của máy chủ, kiểm soát giao thức giữa ngườidùng thiết bị và máy chủ Để gắng bảo mật máy chủ web bằng cách thường
xuyên theo đõi luồng giao thức HTTPS va chấp nhận giao thức HTTP liên
quan.
Trang 34Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 10
¢ Application Protocol-based Intrusion Detection System (APIDS): được thực
hiện bằng sự kết hợp của hai hoặc nhiều cách tiếp cận của hệ thống phát
hiện xâm nhập Trong hệ thống phát hiện xâm nhập hỗn hợp, dữ liệu hệthống được kết hợp với thông tin mạng để phát triển hoàn chỉnh về hệ
thống mạng
Ngày nay, hệ thống phát hiện tan công là một hệ thống giữ vai trò quan trọng
trong các hệ thống hoạt động của mỗi tổ chức, cá nhân giúp hạn chế các cuộc tấn
công từ kẻ xấu Tuy nhiên, các hệ thống truyền thống này các được chuyên gia
nghiên cứu dựa trên dữ liệu thống kê được từ các cuộc tấn công trước và đưa ra
bộ luật có thể xác định được đâu là tan công hay bình thường Nên các hệ thốngđược này ngày càng trở nên kém hiệu quả và khó có thể phát hiện được nhữngtấn công mới Vì vậy, việc ứng dụng được sự hiệu quả linh hoạt của các phươngpháp học máy, các hệ thống phát hiện tân công có áp dụng máy học được nghiên
cứu có mô hình tương tự như Hình|2.1| nhằm tạo ra các mô hình máy học với khả
năng liên tục cập nhật các dữ liệu mới có thể đưa ra những dự đoán chính xác
Trang 35Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 11
2.1.2 Lý thuyết học sâu
Học sâu (Deep Learning - DL) là một nhánh con của máy học (Machine
Learn-ing - ML) về cơ ban là một mạng nơ-ron có ba lớp trở lên Những mạng lưới thầnkinh này cố mô phỏng hành vi của não người, cho phép nó học từ một lượng
lớn dữ liệu Mặc dù, học sâu đã được Masahiko Fukushima giới thiệu vào năm
1980 nhưng ở thời điểm đó học sâu được xem là không thiết thực vì cần nhiềutài nguyên cũng như dữ liệu để huấn luyện Những năm gần đây, sự phát triểnnhanh chóng của các thiết bị phần cứng đặc biệt là bộ xử lí đồ hoạ (Graphics Pro-cessing Unit - GPU) với khả năng xử lí song song giúp việc huấn luyện các manghọc sâu trở nên dễ dàng hơn Cùng với đó lượng dữ liệu khổng lồ được sinh ratrong quá trình hoạt động từ những thiết bị hiện đại ngày nay đã giúp cho mạng
học sâu dé tạo ra được mô hình với độ chính xác cao.
2.1.2.1 Mang nơron nhân tạo
Mạng nơron nhân tạo (Artificial neural networks - ANNs) là sự mô phỏng
lại mang noron của não bộ con người Mạng ANNs là sự kết hợp cuả các lớp
(Layer) trong mỗi lớp chứa các nơron (Nodes) bao gồm một lớp đầu vào (Input),
một hoặc nhiều lớp ẩn (Hidden Layers) và một lớp đầu ra (Output) Cầu tạo của
mang ANNs được mô tả như Hình|2.2|
Trong mạng ANNs, mỗi noron sẽ có một giá trị và sẽ kết nối với nơron khác
qua các cạnh có trọng số (Weight) và ngưỡng (Threshold) Giá trị đầu ra của nơronbằng giá trị nơron nhân với trọng số, và giá trị của nào vượt quá giá trị ngưỡng
được chỉ định thì nơron đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo củamạng Và giá trị tại một nơron được tính bằng cách lấy tổng các tích của giá trịnơron liên kết đến nó và trọng số trên cạnh liên kết đó
Để so sánh được kết quả đầu ra của mạng so với kết quả mong muốn, ta sẽ
tính độ chênh lệch của 2 kết quả này với hàm mat mát (loss function) Hàm mat
Trang 36Chương 2 CƠ SỞ LÝ THUYET VÀ CÁC CONG TRÌNH LIEN QUAN 12
Input layer ; Hidden layer ; Ou utput layer
Trang 37Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 13
mát này có nhiều loại và được định nghĩa khác nhau tuỳ vào bài toán Ví dụ thực
tế có thể thay đối với bài toán hồi quy tuyến tính dự đoán giá nhà thì hàm mat
mát có thể được tính bằng trung bình bình phương (Mean squared error - MSE)
độ chênh lệch giữa giá nhà thực tế và giá dự đoán, khi giá trị MSE bằng 0 nghĩa làkhông có sự chênh lệch giữa dự đoán và thực tế Nhưng thực tế gần như không
có mô hình máy học nào có thể dự đoán được mà chỉ là có gắng để giá trị chênh
lệch là nhỏ nhất.
Và để tìm ra giá trị nhỏ nhất của hàm mắt mát thì cần điều chỉnh các trọng sốnày dựa trên một chiến lược tối ưu nào đó Có rất nhiều chiến lược tối ưu, và mộttrong những chiến lược phổ biến nhất là dựa trên đạo hàm của hàm mat mát Khiđạo hàm có thể tìm ra được xu hướng của hàm số là tăng hay giảm Từ đó có thể
đưa ra quyết định đi tới hay đi ngược lại sẽ có khả năng rất cao là tìm được bộ
trọng số làm cho giá trị của ham mất mát thấp hơn Sau khi định được hướng đithì cần xác định độ dài bước đi (Learning rate) Và việc chọn learning rate sẽ phụthuộc vào dữ liệu và chiến thuật dùng để tối ưu Dé tránh cho mang ANNs trởthành mô hình tuyến tính thì hàm kích hoạt (Activation function) sẽ được thêm
vào trong các lớp ẩn Một số hàm kích hoạt thông dụng như sau:
¢ Hàm sigmoid có phạm vi giá trị từ 0 đến 1 và tính theo công thức|2.1|
Trang 38Chương 2 CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 14
Cuối cùng, mạng nơron nhân tạo sau khi được huấn luyện sẽ tìm bộ ra trọng
số sao cho độ chênh giữa kết quả tạo ra của ANNs và thực tế là nhỏ nhất
Mạng tích chập Mạng tích chập (Convolutional Neural Network - CNN) là
một loại mạng ANNs đóng vai trò không thể thiếu trong các bài toán thị giác
máy tính CNN được phân biệt với các mạng nơron khác bởi hiệu suất vượt trội
của chúng với đầu vào tín hiệu hình ảnh, giọng nói hoặc âm thanh CNN có ba
lớp chính bao gồm:
* Convolutional layer: trích xuất dữ liệu đầu vào thành các ban dé đặc trưng
(feature map) Và được tính bằng cách thực hiện phép nhân tích chập trên
ảnh, với từng vùng cục bộ trên anh sẽ nhân với một bộ loc (filter hay kernel).
* Pooling layer: giảm kích thước của dữ liệu bằng cách kết hợp dau ra của các
cụm nơron ở một lớp thành một nơron duy nhất ở lớp tiếp theo
® Fully-connected (FC) layer: kết nỗi mọi noron trong một lớp với mọi nơron
trong lớp khác
Và với bài toán có kích thước của đầu vào lớn đặc biệt như dữ liệu ảnh thì
bộ trọng số sẽ có kích thước rất lớn Ảnh đầu vào có kích thước 1000 x 1000 khi
đi qua một lớp ẩn có 100 nơron thì phải cần tới 1000 x 1000 x 100 = 100.000.000
trọng số cho lớp ẩn đó Với lượng trọng số lớn như vậy việc huấn luyện với ANNsrat khó khăn Nhưng khi áp dung CNN với kích thước kernel là 10 x 10 thì chỉ
sử dụng có 10 x 10 = 100 trọng số khi qua lớp ẩn đầu tiên Số lượng trọng số đãgiảm đi 1 triệu lần giúp cho việc lưu trữ và tính toán dé dàng hon
2.1.2.2 Mạng nơron hồi quy
Mạng RNN (Recurrent Neural Network - RNN) là một loại ANNs sử dụng
cho dữ liệu tuần tự hoặc dit liệu chuỗi thời gian bang cách trích xuất các thông
tin dưới dang chuỗi và đảm bảo được thứ tự nội dung Với câu tao của RNN được
Trang 39Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 15
mô tả ở Hình có thể thấy các thành phần trong chuỗi thông tin sẽ được thựchiện với các bước giống nhau và được lặp lại cho đến khi hết chuỗi
Trong thực tế với các bài toán xử lí ngôn ngữ tự nhiên, ta quan tâm đến thứ tự
của các từ trong câu Hãy lay một ví dụ, như "Cậu làm bài chưa" là câu để hỏi Dé
câu có ý nghĩa, nó cần được diễn đạt theo thứ tự cụ thể đó Đối với ANNs thông
thường, câu "Cậu chưa làm bài" cũng có thể trích xuất ra các đặc trưng tương tự
câu trên, nhưng lại khác về ý nghĩa Do đó, RNN tính đến vị trí của mỗi từ trong
câu và chúng sử dụng thông tin đó để giữ được ý nghĩa của câu cũng như có thể
dự đoán từ tiếp theo trong chuỗi
/£6 © © ©
c cœ> om on = Rõ
-® -® @
HINH 2.3: Mạng nơron hồi quy - RNNs
Khi áp dụng RNN vào bài toán dự đoán từ tiếp theo, nếu trạng thái trước đóảnh hưởng đến dự đoán hiện tại không phải là gần đây, thì mô hình RNN có thểkhông thể dự đoán chính xác trạng thái hiện tại Giả sử muốn dự đoán các từ còntrống, “A bị dị ứng với các loại hạt Anh ấy không thể ăn " Bối cảnh của dị ứng
hạt có thể giúp chúng ta biết trước rằng thực phẩm không thể ăn được có chứa
các loại hạt Tuy nhiên, nếu bối cảnh đó là một vài câu trước đó, thì RNN sẽ khó
hoặc thậm chí không thể kết nối thông tin
Mạng LSTM là mạng RNN có khả năng nhớ được các nội dung ở xa nhau
trong chuỗi thông tin giúp giải quyết vấn dé phụ thuộc này (long-term
depen-đencies) LSTM có cấu tạo như Hình|2.4| ở mỗi ô nhớ của LSTM sẽ phức tạo hơn
RNN,nó bổ sung thêm trục thông tin ngữ cảnh Vì vậy kết quả ở mỗi ô nhớ không
Trang 40Chương 2 CƠ SỞ LÝ THUYET VÀ CÁC CONG TRÌNH LIEN QUAN 16
giải quyết được van dé phụ thuộc xa
Mạng GRU là một biến thể RNN tương tự như LSTM và có câu tạo như
Hình [2.5] Vì nó cũng hoạt động để giải quyết vấn dé bộ nhớ ngắn hạn của các
mô hình RNN Thay vì sử dụng thông tin điều chỉnh c; nó sử dụng các trạng thái
ẩn h; nhằm tối ưu khả năng tính toán ở mỗi ô nhớ và tăng tốc đáng kể trong quátrình huấn luyện