1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Phương pháp phát hiện xâm nhập cộng tác trên dữ liệu phân phối không đồng nhất cho mạng Vạn vật kết nối công nghiệp dựa trên mạng sinh đối kháng và học tăng cường

93 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp phát hiện xâm nhập cộng tác trên dữ liệu phân phối không đồng nhất cho mạng Vạn vật kết nối công nghiệp dựa trên mạng sinh đối kháng và học tăng cường
Tác giả Nguyen Huu Quyen
Người hướng dẫn TS. Pham Van Hau, ThS. Phan The Duy
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 93
Dung lượng 42,08 MB

Nội dung

HO CHÍMINH CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP Tên đề tài: Phương pháp phát hiện xâm nhậ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYEN HỮU QUYEN

KHOA LUAN TOT NGHIEP

TREN DU LIEU PHAN PHOI KHONG DONG NHAT CHO

MẠNG VAN VAT KET NOI CÔNG NGHIỆP DỰA TREN

MANG SINH DOI KHANG VA HOC TANG CUONG

CU NHÂN NGANH KHOA HỌC MAY TÍNH

TP HO CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYEN HỮU QUYEN - 18521321

KHOA LUAN TOT NGHIEP PHUONG PHAP PHAT HIEN XAM NHAP CONG TAC

CU NHÂN NGANH KHOA HỌC MAY TÍNH

GIANG VIEN HUONG DAN

TS PHAM VAN HAU

ThS PHAN THE DUY

TP HO CHÍ MINH, 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TI8ầY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 PGS.TS Lê Dinh Duy — Chủ tịch.

2 ThS Đỗ Văn Tiến — Thư ký.

3 TS Lê Kim Hùng - Ủy viên.

Trang 4

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

Tên khóa luân:

PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP CỘNG TÁC TRÊN DỮ LIỆU PHÂN

PHÓI KHÔNG ĐÒNG NHÁT CHO MẠNG VẠN VẬT KÉT NÓI CÔNG NGHIỆP

DỰA TREN MẠNG SINH DOI KHÁNG VÀ HỌC TANG CƯỜNG

Nhóm SV thực hiện: Cán bô hướng dẫn:

Nguyễn Hữu Quyên - 18521321 TS Phạm Văn Hậu

ThS Phan Thế Duy

Đánh giá Khóa luận

1 Về cuôn báo cao:

Số trang © Số chương

SỐ bảng sô liệu So hình vẽ

Sô tài liệu tham khảo Sản phâm

Một sô nhận xét vê hình thức cuôn báo cáo:

Trang 5

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 6

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

Tên khóa luân:

PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP CỘNG TÁC TRÊN DỮ LIỆU PHÂN

PHÓI KHÔNG ĐÒNG NHÁT CHO MẠNG VẠN VẬT KÉT NÓI CÔNG NGHIỆP

DỰA TREN MẠNG SINH DOI KHÁNG VÀ HỌC TANG CƯỜNG

Nhóm SV thực hiện: Can bộ phản biên:

Nguyễn Hữu Quyền - 18521321 TS Lê Kim Hùng

Đánh giá Khóa luận

1 Về cuôn báo cao:

Số trang © Số chương

SỐ bảng sô liệu So hình vẽ

Sô tài liệu tham khảo Sản phâm

Một sô nhận xét vê hình thức cuôn báo cáo:

Trang 7

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 8

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP

Tên đề tài: Phương pháp phát hiện xâm nhập cộng tác trên dữ liệu phân phối

không đồng nhất cho mạng Vạn vật kết nối công nghiệp dựa trên mạng sinh đối

kháng và học tăng cường

Tên dé tài tiếng Anh: Federated Intrusion Detection on Non-IID Data for Industrial

Internet of Things using Generative Adversarial Networks and Reinforcement

Learning

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Phạm Văn Hậu

ThS Phan Thế Duy Thời gian thực hiện: Từ ngày 28/02/2021 đến ngày 28/07/2021.

Sinh viên thực hiện:

Nguyễn Hữu Quyền - 18521321 Lớp: KHCL2018.3

Email: 18521321@gm.uit.edu.vn Điện thoại: 0965823565

Nội dung đề tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,

kết quả mong đợi của dé tài)

Giới thiệu:

e Sự phát triển nhanh chóng trong lĩnh vực truyền thông và internet đã dẫn đến sự

gia tăng đáng kê về quy mô mạng và đữ liệu Đặc biệt là với lượng lớn các thiết

bị Internet of Things (IoT) đã góp phần vào sự phát triển nhanh chóng về lượng

dữ liệu được tạo ra trong quá trình hoạt động, nhưng nó cũng mang đến nhiều

thách thức trong việc bảo mật thông tin của chính các thiết bị ấy khỏi bị đánh cắp Hệ thống phát hiện tan công (Intrusion Detection System — IDS) được xem

là yếu tố quan trọng giúp phát hiện và ngăn chặn các hành động tấn công Cùng

Trang 9

với sự phát triển của ngành khoa học máy tính, ngày càng nhiều hệ thống phát hiện tấn công (IDS) được xây dựng có áp dụng các mô hình học máy (Machine

Learning - ML) nhằm tận dụng được nguồn di liệu to lớn và đa dang của các

thiết bị IoT [1] [2] Với sự hỗ trợ của các phương pháp học máy (ML), dé các

trình nhận diện tấn công có khả năng nhận diện được các tác nhân gây rủi ro mat

an toàn mạng với độ chính xác cao hon [3] Song lượng dữ liệu lớn và đa dang

cũng là một thách thức dé có thé tập trung dữ liệu cho quá trình huấn luyện Học cộng tác (Federated Learning - FL) [4] chính là chìa khóa dé giải quyết van dé

ấy Phương pháp này cho phép việc huấn luyện được thực thi trên chính thiết bị đang nam lượng dit liệu thay vì phải huấn luyện tập trung và kiến trúc của mô

hình hoc cộng tác (FL) được mô tả như Hình 1.

.='- Aggregation Server -—.

Global Model

w wi tuf| |2 WN w

_-: Local Training — .=: LocalTraining — .—: localTraining —.

( Device 1 ` ( Device 2 \ { Device N \

Hình 1: Kiến trúc mô hình học cộng tac (FL)

Áp dụng phương pháp này không chỉ làm giảm áp lực xử lí trên máy chủ mà còn giúp đảm bảo được quyền riêng tư của dữ liệu Hiện nay cũng đã có nhiều nghiên cứu tập trung vào việc huấn luyện mô hình học máy (FL) cho hệ thống phát hiện tan công (IDS) áp dung học tăng cường (FL) cho ra độ chính xác cao.

Ví như tác giả Nguyễn Đức Thiện [5] và các cộng sự đã đề xuất mô hình học

máy cho hệ thống phát hiện tan công (IDS) dựa trên học tăng cường (FL) đặt ở

Trang 10

các security gateway của mỗi hệ thông mạng của các máy tham gia huấn luyện

dé tự động phát hiện các mối de doa cho các thiết bị IoT Tương tự vậy tác giả

Nguyễn Chí Vỹ [6] và các cộng sự đã phát triển mạng học sâu kết hợp với học

tăng cường (FL) dé xây dựng hệ thống phát hiện tan công (IDS) trong ngữ cảnh

Industrial Internet of Things (IIoT).

Bên cạnh lợi ich nổi bật nhất của học tăng cường (FL), tuy nhiên phương pháp

này vẫn còn một vải nhược điểm đặc biệt là sự ảnh hưởng của bộ dữ liệu huấn

luyện mất cân bang (Non Independent and Identically Distributed — NonIID), lam anh hưởng lớn dén két qua của mô hình hoc may được tong hop tai server Dé giải quyết vấn dé này nhiều nhóm nghiên cứu đã dé xuất ra nhiều phương pháp, hướng nghiên cứu mới nhằm giải quyết sự ảnh hưởng của dữ liệu không đồng nhất (NonIID) lên hiệu suất của mô hình học cộng tac (FL) Hangyu [7] cùng nhóm nghiên cứu đã thực hiện bài khảo sát nhằm phân tích chỉ tiết về ảnh hưởng của dữ liệu không đồng nhất (NonIID) trên các mô hình học cộng tác (FL) Và kết quả khảo sát đã chỉ ra được kết quả của các mô hình huấn luyện trên thiết bị trả về có sự hội tụ không đồng nhất do dữ liệu bi mat cân bằng

(NonIID) va mô hình được tổng hợp trên server sẽ hội tu chậm va đạt hiệu suất

không cao Và thông qua phân tích về việc phân phối dữ liệu, nhóm tác giả chỉ

ra phương pháp xử lý phân phối dữ liệu mất cân bằng (NonIID) băng cách tiếp

cận vào dữ liệu đầu vào và tiếp cận bang bằng phương pháp dit liệu cá nhân hóa

(Personalization Methods) Trong bài nghiên cứu [8], Hao Wang cùng nhóm

nghiên cứu đã đề xuất phương pháp FAVOR với mục tiêu nhằm tối ưu hiệu suất của mô hình huấn luyện sử dụng phương pháp học tăng cường (FL) cho bộ đữ liệu không đồng nhất (NonIID) Phương pháp được nhóm tác giả đề xuất dựa trên Deep Q-Learning giúp chọn ra tập các thiết bị có hiệu suất tốt trong mỗi vòng lặp huấn luyện giúp cho mô hình được tông hợp tai server ở các vòng huấn luyện sau sẽ đạt được hiệu suất tốt hơn Bên cạnh đó, Qinbin Li [9] cùng nhóm

nghiên cứu đã đề xuất phương pháp phân vùng dữ liệu dé có thé giải quyết được

ảnh hưởng do dữ liệu không đồng nhất (NonIID) Nhóm tác giả cũng đã thực

Trang 11

nghiệm với các thuật toán học cộng tác (FL) hiện đại nhất nhằm chỉ ra mức độ ảnh hưởng của dữ liệu không đồng nhất (NonIID) đến độ chính xác của mô

hình Va cũng tương tự với bai nghiên cứu trên, Pravin Chandran [10] cùng

nhóm nghiên cứu đã đề xuất phương pháp nhằm giúp các thuật toán học cộng

tác (FL) dé có thé khắc phục được van đề khi đữ liệu không đồng nhất (NonIID)

dựa trên thuật toán chia để trị (Divide-and-conquer) Nhóm tác giả Ryo Yonetani [11] cũng đã thực hiện nghiên cứu áp dụng mạng sinh đối kháng (Generative adversarial networks-GAN) dé đựng mô hình học máy áp dụng cho

dữ liệu không đồng nhất (NonIID) Trong nghiên cứu này, họ mong muốn tìm được một bản phân phối liên quan đến tất cả các lớp mà đữ liệu đầu vào có thể thuộc về, trong khi vẫn giữ cho dit liệu được phân cấp trong mỗi bộ lưu trữ của

máy khách.

Hơn thế nữa, nhằm gia tăng hiệu suất huấn luyện của mô hình trong học cộng tác (FL), nhóm nghiên cứu của tác giả Nguyễn Gia Trí [12] đã đề xuất phương

pháp DeepMonitor áp dụng trong giám sát lưu lượng mang, sử dụng cho các

thiết bị IoT trong mang khả lập trình (SDN) Cùng với đó nhóm tác giả cũng đề xuất thuật toán (Double Deep Q-network - DDQN) nhăm cải thiện hiệu suất

huấn luyện của mô hình trong mạng khả lập trình (SDN).

Khi kết hợp với bộ điều khiển SDN, các hệ thống phát hiện xâm nhập có thé tận

dụng được cơ chế linh động của mạng khả lập trình (SDN) cho việc thu thập,

giám sát lưu lượng mạng dùng trong bài toán phát hiện, cảnh báo tấn công mạng Các IDS trong hệ thống mạng các thiết bi Vạn vật kết nối cần phải giải

quyết các vấn đề liên quan đến tính riêng tư của dữ liệu huấn luyện cũng như việc chon lựa mô hình huấn luyện phù hợp Và gần đây, mô hình học tăng cường

(Reinforcement Learning - RL) [13] được xem như một phương pháp hiệu qua

nhằm tối ưu hóa một cách tự động hiệu suất của các mô hình huấn luyện trong các lĩnh vực mạng Hơn nữa, các mô hình huấn luyện trong các hệ thống phát hiện xâm nhập (IDS) luôn hướng tới mục tiêu tối ưu hóa một cách tự động hiệu suất cũng như chỉ phí huấn luyện của của mô hình Đặt biệt trong ngữ cảnh mô

Trang 12

hình huan luyện học cộng tác (FL), các hệ thông server sẽ luôn tối ưu hóa hiệu suất của mô hình được tông hợp.

e Do vậy, trong khóa luận tốt nghiệp này, tôi đề xuất phương pháp học cộng tác

(FL) kết hợp phương pháp học tăng cường (RL) dé xây dựng hệ thống phát hiện tấn công mạng (IDS) Việc kết hợp phương pháp học cộng tác (FL) và học tăng cường (RL) nhằm tăng hiệu suất của mô hình trong việc đưa ra kết quả trong

thời gian thực Ngoài ra, tôi cũng nghiên cứu các giải pháp nhằm khắc phục vấn

đề liên quan đến sự ảnh hưởng của dit liệu không đồng nhất (NonIID) lên hiệu suất hiệu của mô hình huấn luyện được áp dụng học cộng tác (FL).

Mục tiêu:

e Xây dựng mô hình học cộng tác (FL) phát hiện tắn công mạng (IDS), sử dung

kết hợp phương pháp học tăng cường (RL).

e Nghiên cứu phương pháp làm giảm ảnh hưởng của dữ liệu không đồng nhất

(NonIID) lên hiệu suất huấn luyện của mô hình sử dụng phương pháp sinh dữ liệu bằng mang sinh đối kháng (GAN) và phương pháp học tăng cường (RL).

Phạm vi nghiên cứu:

e _ Hệ thống phát hiện tan công mang (IDS) sử dụng phương pháp hoc máy (ML).

e Các mô hình học máy được huấn luyện và đánh giá trên bộ dữ liệu Kitsune

Network Attack Dataset [14].

e Phương pháp học cộng tác (FL) và học tăng cường (RL) cho hệ thống phát hiện

tan công mang (IDS).

Đối tượng nghiên cứu:

e Phương pháp học tăng cường (RL) và cộng tác (FL).

e©_ Mạng sinh đối khang (GAN)

e - Hệ thống phát hiện tan công mang (IDS) trên mạng khả lập trình (SDN).

e Bộ dữ liệu mat cân bang (NonIID).

e Các thư viện hỗ trợ lập trình học máy Tensorflow, Keras

Phương pháp thực hiện:

Trang 13

a) Nội dung 1: Tìm hiểu phương pháp học cộng tác (FL) kết hợp phương pháp học

tăng cường (RL) áp dụng cho các hệ thống phát hiện tan công (IDS).

e Muc tiêu: Nắm được ý tưởng, nguyên lí và áp dụng vào việc xây dựng hệ thống

phát hiện tan công (IDS).

e Phương pháp: Nghiên cứu tài liệu, bài báo khoa học về phương pháp học cộng

tác (FL) và phương pháp học tăng cường (RL).

b) Nội dung 2: Tìm hiểu về mạng sinh đối kháng (GAN) và khảo sát các mô hình

GANs cho ngữ cảnh an ninh mạng.

e Mục tiêu:

o Nắm được ý tưởng, nguyên lí hoạt động, cách huấn luyện mô hình của

mạng sinh đối kháng (GAN).

o Tìm hiểu một số mô hình mạng sinh đối kháng (GAN) phổ biến, chú

trọng đến các phiên bản được dùng tương thích hơn với các dạng dữ liệu

thuộc lĩnh vực an toàn thông tin.

o Xây dựng được mạng sinh đối kháng (GAN) dé áp dung trong thực

nghiệm.

e Phương pháp:

o Tham khảo và nghiên cứu các bài báo khoa học có liên quan về mạng sinh

đối kháng (GAN) và ứng dụng của nó trong lĩnh vực an toàn thông tin.

o Chọn lựa mô hình mang sinh đối kháng (GAN) phù hợp cho bài toán.

c) Nội dung 3: Nghiên cứu sự ảnh hưởng và phương pháp làm giảm ảnh hưởng

của dữ liệu mat cân bằng (NonIID) lên hiệu suất của mô hình học máy (ML).

e Mục tiêu:

o Phân tích, đánh giá được sự ảnh hưởng của dữ liệu mat cân bằng lên việc

huấn luyện mô hình theo phương pháp FL.

o_ Thiết kế phương pháp sử dụng mạng sinh đối kháng (GAN) và học tăng

cường (RL) nhằm làm giảm sự ảnh hưởng của dữ liệu mat cân bằng (NonIID) lên hiệu suất mô hình.

Trang 14

e Phương pháp:

o Đưa bộ dữ liệu mat cân bằng vào thực nghiệm và quan sát kết quả.

o Tìm kiếm các bài nghiên cứu và tài liệu có liên quan dé đưa ra phương

pháp phù hợp.

d) Nội dung 4: Xây dựng, thực nghiệm và đánh giá kết quả.

e Mục tiêu:

o Xây dựng và triển khai mô hình học cộng tác (FL) phát hiện tấn công

mang (IDS), sử dụng kết hợp phương pháp học tăng cường (RL) trong hệ

thống được xây dựng trên mạng khả lập trình (SDN).

o_ Đánh giá hiệu năng của phương pháp thiết kế trong việc giải quyết được

van dé dir liệu mất cân bằng (NonIID) ảnh hưởng đến độ chính xác của

mô hình.

e Phương pháp:

o Xây dựng mô hình học cộng tác (FL) kết hợp học tăng cường (RL).

o Triển khai phương pháp làm giảm ảnh hưởng của dit liệu mat cân bằng

(NonHD) trên bộ dữ liệu thực tế Kitsune Network Attack Dataset.

o Thực nghiệm nhiều trường hợp khác nhau dé đánh giá hiệu năng và độ

chính xác.

Kết quả mong đợi:

e Tài liệu mô ta mô hình áp dụng được phương pháp học cộng tác (FL) kết hợp

học tăng cường (RL) vào các hệ thống phát hiện tấn công (IDS).

e Giải quyết vấn dé di liệu không đồng nhất (NonIID) bằng phương pháp sử dung

mạng sinh đối kháng (GAN) và phương pháp học tăng cường (RL).

e Triển khai mô hình phát hiện tan công (IDS) trên mạng khả lập trình (SDN).

e Kết quả thực nghiệm khả quan, đưa ra các đánh giá về hiệu năng, độ chính xác

và có báo cáo chi tiết cho đê tài.

Tài liệu tham khảo:

Trang 15

K A d Costa, J P Papa, C O Lisboa, R Munoz and V H C d Albuquerque,

"Internet of Things: A survey on machine learning-based intrusion detection approaches," Computer Networks, vol 151, pp 147-157, 2019.

M A Al-Garadi, A Mohamed, A K Al-Ali, X Du, I Ali and M Guizani, "A

Survey of Machine and Deep Learning Methods for Internet of Things (IoT)

Security," JEEE Communications Surveys Tutorials, vol 22, pp 1646-1685,

2020.

R Sommer and V Paxson, "Outside the Closed World: On Using Machine Learning for Network Intrusion Detection," in 20/0 IEEE Symposium on Security and Privacy, 2010, pp 305-316.

M Aledhari, R Razzak, R M Parizi and F Saeed, "Federated Learning: A Survey on Enabling Technologies, Protocols, and Applications," JEEE Access,

vol 8, pp 140699-140725, 2020.

Nguyen, Thien Duc and Marchal, Samuel and Miettinen, Markus and Fereidooni,

Hossein and Asokan, N and Sadeghi, Ahmad-Reza, D/oT: A Federated

Self-learning Anomaly Detection System for IoT, 2019 IEEE 39th International

Conference on Distributed Computing Systems (ICDCS), 2019, pp 756-767.

Vy, Nguyen Chi; Quyen, Nguyen Huu; Duy, Phan The; Pham, Van-Hau,

"Federated learning-based intrusion detection in the context of IloT networks:

Poisoning Attack and defense," in /5th International Conference on Network and System Security, Tianjin, 2021.

H Zhu, J Xu, S Liu and Y Jin, Federated Learning on Non-IID Data: A Survey,

2021.

H Wang, Z Kaplan, D Niu and B Li, "Optimizing Federated Learning on

Non-IID Data with Reinforcement Learning," in JEEE INFOCOM 2020 - IEEE

Conference on Computer Communications, 2020, pp 1698-1707.

Q Li, Y Diao, Q Chen and B He, Federated Learning on Non-IID Data Silos:

An Experimental Study, 2021, pp 1698-1707.

[10] P Chandran, R Bhat, A Chakravarthi and S Chandar, Weight Divergence

Driven Divide-and-Conquer Approach for Optimal Federated Learning from non-IID Data, 2021.

Trang 16

[11] R Yonetani, T Takahashi, A Hashimoto and Y Ushiku, Decentralized Learning

of Generative Adversarial Networks from Non-iid Data, 2019.

[12] T G Nguyen, T V Phan, D T Hoang, T N Nguyen and C So-In, "Federated

Deep Reinforcement Learning for Traffic Monitoring in SDN-Based IoT Networks," JEEE Transactions on Cognitive Communications and Networking,

2021.

[13] N C Luong, D T Hoang, S Gong, D Niyato, P Wang, Y.-C Liang and D I.

Kim, Applications of Deep Reinforcement Learning in Communications and

Networking: A Survey, 2018.

[14] Y Mirsky, T Doitshman, Y Elovici and A Shabtai, "Kitsune: An Ensemble of

Autoencoders for Online Network Intrusion Detection," in The Network and Distributed System Security Symposium (NDSS) 2018, 2018.

Kế hoạch thực hién:(M6 ta tom tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

Thời gian Sinh viên

28/02/2022 — 28/03/2022 Tham khảo các nghiên cứu về hoc tăng cường

(RL), học cộng tác (FL), mô hình học máy, hệ

thống phát hiện tấn công (IDS) Chọn các bộ dữ liệu và các thư viện, framework phù hợp dé hiện

thực mô hình.

28/03/2022 — 28/04/2022 Tham khảo và nghiên cứu mang kha lập trình

(SDN), sự ảnh hưởng của dữ liệu mất cân bằng

(NonIID) và phương pháp học tăng cường (RL) và

mạng sinh đối kháng (GAN) Tiền xử lí dữ liệu,

huân luyện các mô hình học máy.

28/04/2022 — 28/06/2022 Thực nghiệm, đánh giá kết qua đạt được va viết

báo cáo.

28/06/2022 — 28/07/2022 Hoan thién bao cao.

Xác nhận của CBHD TP HCM, ngày 18 thang 03 năm 2021

Trang 17

(Ký tên và ghi rõ họ tên)

Nguyễn Hữu Quyền

Trang 18

LỜI CẢM ƠN

Qua thời gian tìm hiểu và nghiên cứu, tôi đã hoàn thành được khoá luận "Phươngpháp phát hiện xâm nhập cộng tác trên dữ liệu phân phối không đồng nhất chomạng Vạn vật kết nổi công nghiệp dựa trên mang sinh đối kháng va học tăng

cường" Kết quả này không chỉ là sự nổ lực cá nhân mà còn nhờ vào sự trợ giúp

của thay cô và bạn bè Tôi xin gửi lời cảm on chân thành đến Phòng Thí Nghiệm

An Toàn Thông Tin - InsecLab của trường Đại học Công Nghệ Thông Tin TP.HCM

đã tạo điều kiện cho tôi được nghiên cứu để tài khoa học cũng như làm khoá luận

này Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến khoa Khoa Học Máy Tính củatrường Đại học Công Nghệ Thông Tin TP.HCM đã tạo điều kiện tốt nhất cho tôi

hoàn thành khóa luận này.

Tôi xin cảm ơn thầy Phan Thế Duy đã hướng dẫn tôi trong suốt thời giannghiên cứu và thực hiện khóa luận, thầy đã đưa ra những định hướng, chia sẻ

các kinh nghiệm nghiên cứu giúp tôi từng bước hoàn thành khoá luận Bên cạnh

đó, tôi xin cảm ơn thầy Phạm Văn Hậu đã cùng với Thầy Duy đã đồng hướng dẫntôi Cảm ơn thay đã chỉ bảo tôi nhiều van dé chuyên môn và giới thiệu các công

cụ cần thiết giúp tôi hoàn thành khoá luận

Một lần nữa tôi xin gửi lời cảm ơn sâu sắc đến quý thầy cô và các bạn!

Trang 19

1.3 Câu trúc Khóa luận tốt nghiệp 6

2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRÌNH LIÊN QUAN 8

8

8

8 9

11

: : 112.1.2.2 Mạng nơron hồi qUY| 14

2.1.2.3 Mạng sinh đôi kháng ủáA 17

HH 18 : = rz 5 Z 20

2.1.5 Phương pháp học tăng cường| 23

2.2_ Các công trình lên quan| 25

Trang 20

đôi kháng để giảm ảnh hưởng của dé liệu NonIID

4.5 Huấn luyện mô hình học cộng tác FedIDS với dữ liệu NonIID

4.5.1 So sánh hiệu suất của phương pháp hoc tăng cường so với

phương pháp Top-5 thông thường| 56

4.5.2 So sánh hiệu suất của ba phương pháp khi huấn luyện mô

Trang 21

Danh sách hình ve

2.1 Mô hình hệ thống phát hiện tan công áp dụng học máy 10

Ha 12

" ad eevee, 15 ebb eben eens 16

¬ MS -a eens 17

HS NHƠN 18

2.7 Cac góc nhìn khác nhau của Laptop| - 21

chủ của mô hình học cộng tác.| -.- 28

3.1 Kiến trúc của phương pháp học cộng tác| - 31

3.2 Kiến trúc Eed[lDS] 33

Trang 22

4.4 Hiệu suất của mô hình FedIDS trên các mức dữ liệu NonIID khác

Trang 23

Danh sách bảng

4.2 Tổng số vòng cập nhật để đạt được độ chính xác dé ra ở 4 mức

đánh giá dtr liệu NonlIID| 58

Trang 24

Danh mục từ viết tắt

FL Federated Learning

IDS Intrusion Detection System

IID Independent and Identically Distributed

DL Deep Learning

CNN Convolutional Neural Network

RNN _ Recurrent Neural Network LSTM Long Short Term Memmory

GRU Gate Recurrent Units

GAN _ Generative Adversarial Networks

CGAN Conditional Generative Adversarial Networks

ANN Artificial Neural Network

Trang 25

Danh mục từ tạm dịch

Phương pháp học cộng tác Federated Learning

Phương pháp học tăng cường Reinforcement Learning

Hệ thống phát hiện tấn công Intrusion Detection system

Phân phối không đồng nhất Independent and Identically Distributed

Học sâu Deep Learning

Mạng nơron nhân tạo Artificial Neural Network

Mạng tích chập Convolutional Neural Network

Mang noron hồi quy Recurrent neural network

Chuỗi nhớ dài ngắn Long short term memory

Mang sinh đối kháng Generative Adversarial Networks

Mạng sinh đối kháng có điều kiện Conditional Generative Adversarial NetworksHọc cộng tác theo chiều dọc Vertical federated learning

Học cộng tác theo chiều ngang Horizontal federated learning

Bộ dữ liệu Dataset

Đặc trưng Feature

Bản dé đặc trưng Feature map

Trang 26

TÓM TẮT KHOÁ LUẬN

Ngày nay, với sự phát triển vượt bậc và nhanh chóng của khoa học công nghệ nói

chung và trí tuệ nhân tạo nói riêng nhiều ứng dụng, chương trình thông minh

được ra đời để phục vụ cuộc sống con người Đi kèm với đó sự phát triển của

khoa học công nghệ cũng mang đến sự bùng nổ của dữ liệu mang lại nguồn tài

nguyên giúp cho việc khai thác dữ luyện các mô hình máy học ngày càng trở nên

dé dang Bên cạnh những lợi ích thì lượng di liệu lớn cũng đối điện với những

nguy cơ bị đánh cắp nhằm mục đích khai thác Và trong lĩnh vực an ninh mạng,

ngày càng nhiều các hệ thống phát hiện tấn công (Intrusion Detection System IDS) mạng được nghiên cứu Đặc biệt là các hệ thống được áp dụng mô hình máyhọc đã mang lại hiệu quả tích cực Tuy nhiên, trong quá trình huấn luyện thì các

-mô hình này vẫn đang gặp phải khó khăn về việc đảm bảo dữ liệu khi tập trung

lại để huấn luyện được đảm bảo an toàn và cũng như hệ thống vận hành đáp ứng

được cho lượng dữ liệu Ấy Và phương pháp học cộng tác (Federated Learning

-FL) được sinh ra nhằm giải quyết được các van dé ấy Học cộng tác đã trở thành

phương pháp day hứa hen để xây dựng mô hình học cộng tác phát hiện tan côngmạng, khi cung cap sự đảm bảo quyền riêng tư giữa những người nắm giữ dữliệu Tuy nhiên, trong các tình huống thực tế thi dữ liệu phân phối không đồngnhất (Non-Independent and Identically Distributed - NonIID) đã tác động tiêucực đến hiệu suất của các mô hình học máy Và cụ thể hơn trong ngữ cảnh các hệthống phát hiện tấn công mạng được xây dựng dựa trên mô hình học cộng tácthì mô hình máy học đã có hiệu suất không được như kì vọng khi huấn luyện

mô hình với dữ liệu NonIID Vì vậy, trong khoá luận nay, tôi giới thiệu phương pháp xây dựng mô hình học cộng tác phát hiện xâm nhập trên dữ liệu NonIID

bằng cách sử dụng Mạng sinh đối kháng (GAN) và phương pháp học tăng cường

(Reinforcement Learning).

Trang 27

Chương 1

TỔNG QUAN

11 Giới thiệu bài toán

Với sự phát triển nhanh chóng của lĩnh vực công nghệ thông tin đã làm cho

các thiết bị điện tử bao phủ rộng khắp Đặc biệt, các thiết bị IoT được ra đời ngàycàng nhiều và đa dạng dẫn đến sự gia tăng lượng lớn dữ liệu trong suốt quá

trình vận hành Từ đó dẫn đến nhiều thách thức cho các van dé về an toàn thông

qua việc chia sẽ dữ liệu (13) Hơn thé nữa, các thiết bị IơT chưa dam bao được

tính bảo mật dẫn đến nguy cơ bị khai thác bởi các mã độc, những cuộc tấn công

từ các tin tặc, dẫn đến những thách thức nghiêm trong cho các thiết bị và dữ

liệu cá nhân Trong lĩnh vực an ninh mạng việc đưa ra các dự đoán một cách

chính xác để có thể ngăn chặn nguy cơ ở không gian mạng van là một van

dé cần được quan tâm Và các hệ thống phát hiện tấn công (Instrusion DetectionSystem — IDS) này chính là giải pháp thiết yêu IDS được phát triển và được xem

là một thành phan quan trong để ngăn chặn các hoạt động tấn công mạng Và

để IDS có thể hoạt động hiệu quả cần phải cập nhật liên tục để có thể xác địnhđược cái nguy cơ gây hại cho hệ thống Hơn thế nữa với mong muốn đạt hiệu

quả dự đoán tốt hơn đối với chẩn đoán những lưu lượng mạng độc hại chưa biếttrước, IDS được áp dụng các phương pháp học máy nhằm tăng khả năng phát

hiện bat thường trong các lưu lượng mang [27] Một số nghiên cứu trong các năm

Trang 28

Chương 1 TONG QUAN 4

gần đây đã chứng minh được hiệu quả của việc áp dụng máy họctrong các hệ thống IDS Nhưng lượng lớn đữ liệu và ngày càng tăng thêm cũng

là một thách thức lớn trong việc áp dụng các mô hình máy học tập trung này vào

thực tế, bởi vì các chỉ phí duy trì máy chủ và hệ thống mạng huấn luyện với lượng

đữ liệu lớn thường rất lớn Cùng với đó, việc đảm bảo dữ liệu được giữ bí mật an

toàn cũng là một van dé lớn (8) Đối với các hệ thống IDS rất cần các dir liệu lưu

lượng mạng và các dữ liệu này cũng chính là nguyên nhân chính dẫn đến cácvấn dé liên quan đến bảo mật dữ liệu nhạy cảm và quyển riêng tư Nên đây làmột trong những van dé chính cần được giải quyết dé máy học có thể ứng dụng

được trong nhiều loại thiết bị IoT khác nhau

Federated Learning được coi là một trong những giải pháp máy học mang lại

hiệu quả bảo vệ quyền riêng tư và tránh rò rỉ quyền riêng tư [16] Muc dich chinh

của là Federated Learning giảm tải lên server, bằng cách tao ra nhiều mô hình trên

nhiều máy tham gia và chính máy tham gia này sẽ trực tiếp huấn luyện lượng dữ

liệu mà nó đang nắm giữ Sau đó tổng hợp lại thành một mô hình chung ở máy

chủ [32] Phương pháp này không chỉ giải quyết van dé của việc huấn luyện tập

trung mà còn bảo đảm được quyền riêng tư về di liệu bởi vì dữ liệu không ra

khỏi tổ chức, cá nhân sở hữu chúng Sự ra đời của Federated Learning giải quyết

được vấn dé hợp tác từ các nguồn khác nhau giúp phát triển được mô hình phát

hiện tan công Federated Learning cho phép các máy cộng tác tự huấn luyện trên

dit liệu mình đang có và chia sé các thông số của mô hình, trong khi đó vẫn bảo

đảm dt liệu không bị tiết 16, vậy là vừa giúp giải quyết van dé tập trung, lưu trữ,huấn luyện với quá nhiều dữ liệu vừa đảm bảo được quyền riêng tư cho dir liệucủa các cá nhân tổ chức tham gia

Cùng chung xu hướng này, an ninh mạng là một trong những lĩnh vực tiềm

năng nhất để áp dụng phương pháp Federated Learning để hình thành mô hình

hoc cộng tác và chia sẻ thông qua những người tham gia huấn luyện (31, (9) Vi

du, có nhiều công trình sử dung Federated Learning để thu lợi từ sự đóng góp

Trang 29

Chương 1 TONG QUAN 5

từ cộng đồng an ninh mạng mà không cần chia sẻ dữ liệu thô Các cách tiếp cận

như vậy có thể được đề cập đến bao gồm phát hiện URL độc hại (14), san tim méi

de doa (Threat Hunting) (1), [33], IDS (2), (61, (41, [15], phát hiện dt liệu bất

thường (Anomaly Data Detection) [40], [19], [39] và phát hiện phần mềm độc hai

(Malware Detection) [23], [11], [28]

Tuy nhiên, Federated Learning thường gặp phải dữ liệu NonIID khi ap dung

các mô hình học máy vào trong các tình huống thực tế [5] Vì dữ liệu huấn luyện

trên các thiết bị cục bộ là đữ liệu NonIID, thì di liệu này sẽ mang lại hiệu suấtkém hơn cho mô hình toàn cầu so với mô hình huấn luyện tập trung do các thuật

toán tổng hợp không mạnh mẽ [42] Dé giải quyết van dé này, một số công trình

sử dung cách tiếp cận dựa trên dữ liệu, bao gồm chia sẻ dữ liệu và tăng dữ liệu

để sửa đổi các phân phối trong máy cộng tác Trong đó, Generative Adversarial

Networks (GAN) được coi là giải pháp tiềm năng để tạo và bổ sung dir liệu ở

các lớp nhỏ Thay vì tập trung dữ liệu để huấn luyện GAN, khi cân bằng dữ

liệu NonIID, tất cả những máy cộng tác tham gia quá trình huấn luyện FL cần

tự cân bằng dir liệu thô của họ trước khi huấn luyện để tránh chia sẻ dữ liệu

tránh vi phạm nguyên tắc chính của EL là giữ dữ liệu riêng tư cục bộ Tuy nhiên,việc huấn luyện GAN cho tất cả các thành viên tham gia sẽ tốn nhiều chi phí và

thời gian, mang lại hiệu quả thấp cho việc thực hiện mô hình FL Bên cạnh đó,

cũng nhằm mục đích giải quyết dữ liệu NonIID, học tăng cường (Reinforcement

Learning - RL) được sử dụng như một phương pháp dựa trên kinh nghiệm để

chọn máy cộng tác tham gia vào mỗi vòng huấn luyện nhằm giảm sự sai lệch

về dữ liệu NonlID để tăng tốc độ hội tụ mô hình [wang] Tuy nhiên, với các thửnghiệm trong [wang], kết quả của họ đã chứng minh rằng FL kết hop RL sẽ matrất nhiều vòng giao tiếp để đạt được hiệu năng mục tiêu nếu chỉ tập trung vàoviệc chọn một nhóm máy cộng tác mong muốn mang lại hiệu suất cao mô hình

toàn cầu trong vòng tiếp theo mà không cân bằng dữ liệu thô của khách hàng

Và để giải quyết những van dé này, tôi đưa ra một phân tích thực nghiệm toàn

Trang 30

Chương 1 TONG QUAN 6

diện về tác động của dữ liệu NonIID đối với mô hình FL Sau đó để giải quyếtvan đề dữ liệu NonlID, tôi đã áp dụng 3 biện pháp sử dung GAN, RL và RL kếthợp GAN để thực nghiệm, đánh giá và tìm ra giải pháp tốt nhất khi áp dụng các

biện pháp này vào trong FL.

1.2 Mục tiêu khóa luận

Đề tài nhằm nghiên cứu và và áp dụng các phương pháp nhằm giải quyếtđược van đề của dữ liệu NonIID lên mô hình máy học xác định và ngăn chặn các

cuộc tân công mạng dựa trên phương pháp học cộng tác

e Đầu tiên, tôi đánh giá lại mô hình FedIDS, một mô hình học sâu dựa trên

CNNGRU được đề xuất trong bài báo đã được nghiên cứu, dựa trên

kịch bản huấn luyện dữ liệu NonIID để chỉ ra ảnh hưởng của dữ liệu đếnhiệu suất của mô hình dựa trên tập dữ liệu mang Kitsune [dataset]

¢ Sau đó, tôi sử dung hai phương pháp để giảm ảnh hưởng của dữ liệu

Non-IID lên mô hình FedIDS, bao gồm GAN và RL Cụ thể, việc phân phối dữ

liệu của máy cộng tác được cân bằng dựa trên GAN, trong khi đó RL được

sử dụng để chọn nhóm máy cộng tác cho hiệu năng tốt nhất để tổng hợp

mô hình Và dựa trên kết quả đó để chỉ ra những hạn chế về mặt hiệu quả

huấn luyện của 2 biện pháp trên đối với FedIDS

* Cuối cùng, dé tài này giới thiệu một cách tiếp cận mới khi huấn luyện cho

FedIDS đối với dữ liệu NonIID bang cách sử dung RL kết hợp với GAN dé

cải thiện nhược điểm của 2 phương pháp nêu trên.

1.3 Câu trúc Khóa luận tot nghiệp

Nội dung Khóa luận được tổ chức như sau:

Trang 31

Chương 1 TONG QUAN

° Chương] Giới thiệu tổng quan về khóa luận.

° Chương] Cơ sở lý thuyết và các công trình liên quan.

« Chương 3| Phương pháp và mô hình dé xuất.

s Chương Thực nghiệm và đánh giá

e Chương 5| Kết luận và hướng phát triển.

Trang 32

Hiện nay, các hình thức tấn công mạng (Cyber attack) ngày càng đa dạng và

phức tạp [25] Hàng nghìn cuộc tấn công được thực hiện thông qua các hoạt động

tấn công vào hệ thống của các tập thể, hay lừa đảo qua các giao dịch trực tuyến,

hay phát video trực tiếp, chơi game và duyệt web trực tuyến nhằm vào người

dùng Internet trên toàn thé giới để lay thông tin nhạy cảm của người dùng hay

thậm chí là vô hiệu hoá, phá huỷ dữ liệu cá nhân Và đặc biệt là trong ngữ cảnh

mang vạn vật kết nối công nghiệp (Industrial Internet of Things - IIoT) tấncông mạng trở thành van dé vô cùng quan trọng Vì kẻ xấu có thể lợi dụng việccác thiết bị máy móc được liên kết với trong mạng IIoT và chi cần tìm ra một liênkết yếu trong một mạng thì các thiết bị được kết nối với mạng sẽ trở thành mụctiêu chính của những kẻ tấn công Tuy nhiên, không phải hầu hết các cuộc tấn

công đều mang mục đích xâu nhằm đánh cắp thông tin nhạy cảm vẫn có nhiều

Trang 33

Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 9

nhóm nghiên cứu thực hiện các cuộc tấn công nhằm giúp phát hiện các lỗ hổng

cuả hệ thống

2.1.1.2 Hệ thống phát hiện tan công

Trong lĩnh vực an ninh mạng, hệ thống phát hiện tan công được xây dựng dé

giám sát các lưu lượng mạng (network traffic) để phát hiện các hoạt động đáng

ngờ và tạo ra cảnh báo khi chúng được phát hiện Dựa trên những cảnh báo này,

nhà phân tích có thể điều tra van dé và thực hiện các hành động thích hợp đểkhắc phục mối đe doa Và các hệ thống phát hiện tan công này được phân thành

5 loại bao gồm:

® Network Intrusion Detection Systems - NIDS: được thiết lập tại một điểm

dự kiến trong mạng để kiểm tra lưu lượng từ tất cả các thiết bị trên mạng.Khi một cuộc tan công được xác định hoặc quan sát thấy hành vi bất thường,cảnh báo có thể được gửi đến quản trị viên

¢ Host Intrusion Detection Systems - HIDS: chạy trên các máy chủ hoặc thiết

bị độc lập trên mạng HIDS chỉ giám sát các gói đến và đi từ thiết bị và sẽcảnh báo cho quản trị viên nếu phát hiện hoạt động đáng ngờ hoặc độc hại

No chụp nhanh các tệp hệ thống hiện có và so sánh nó với ảnh chụp nhanh

trước đó Nếu các tệp hệ thống phân tích bị chỉnh sửa hoặc xóa, một cảnhbáo sẽ được gửi đến quản trị viên để điều tra

® Protocol-based Intrusion Detection System (PIDS): bao gồm một hệ thống

thường nằm ở đầu phía trước của máy chủ, kiểm soát giao thức giữa ngườidùng thiết bị và máy chủ Để gắng bảo mật máy chủ web bằng cách thường

xuyên theo đõi luồng giao thức HTTPS va chấp nhận giao thức HTTP liên

quan.

Trang 34

Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 10

¢ Application Protocol-based Intrusion Detection System (APIDS): được thực

hiện bằng sự kết hợp của hai hoặc nhiều cách tiếp cận của hệ thống phát

hiện xâm nhập Trong hệ thống phát hiện xâm nhập hỗn hợp, dữ liệu hệthống được kết hợp với thông tin mạng để phát triển hoàn chỉnh về hệ

thống mạng

Ngày nay, hệ thống phát hiện tan công là một hệ thống giữ vai trò quan trọng

trong các hệ thống hoạt động của mỗi tổ chức, cá nhân giúp hạn chế các cuộc tấn

công từ kẻ xấu Tuy nhiên, các hệ thống truyền thống này các được chuyên gia

nghiên cứu dựa trên dữ liệu thống kê được từ các cuộc tấn công trước và đưa ra

bộ luật có thể xác định được đâu là tan công hay bình thường Nên các hệ thốngđược này ngày càng trở nên kém hiệu quả và khó có thể phát hiện được nhữngtấn công mới Vì vậy, việc ứng dụng được sự hiệu quả linh hoạt của các phươngpháp học máy, các hệ thống phát hiện tân công có áp dụng máy học được nghiên

cứu có mô hình tương tự như Hình|2.1| nhằm tạo ra các mô hình máy học với khả

năng liên tục cập nhật các dữ liệu mới có thể đưa ra những dự đoán chính xác

Trang 35

Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 11

2.1.2 Lý thuyết học sâu

Học sâu (Deep Learning - DL) là một nhánh con của máy học (Machine

Learn-ing - ML) về cơ ban là một mạng nơ-ron có ba lớp trở lên Những mạng lưới thầnkinh này cố mô phỏng hành vi của não người, cho phép nó học từ một lượng

lớn dữ liệu Mặc dù, học sâu đã được Masahiko Fukushima giới thiệu vào năm

1980 nhưng ở thời điểm đó học sâu được xem là không thiết thực vì cần nhiềutài nguyên cũng như dữ liệu để huấn luyện Những năm gần đây, sự phát triểnnhanh chóng của các thiết bị phần cứng đặc biệt là bộ xử lí đồ hoạ (Graphics Pro-cessing Unit - GPU) với khả năng xử lí song song giúp việc huấn luyện các manghọc sâu trở nên dễ dàng hơn Cùng với đó lượng dữ liệu khổng lồ được sinh ratrong quá trình hoạt động từ những thiết bị hiện đại ngày nay đã giúp cho mạng

học sâu dé tạo ra được mô hình với độ chính xác cao.

2.1.2.1 Mang nơron nhân tạo

Mạng nơron nhân tạo (Artificial neural networks - ANNs) là sự mô phỏng

lại mang noron của não bộ con người Mạng ANNs là sự kết hợp cuả các lớp

(Layer) trong mỗi lớp chứa các nơron (Nodes) bao gồm một lớp đầu vào (Input),

một hoặc nhiều lớp ẩn (Hidden Layers) và một lớp đầu ra (Output) Cầu tạo của

mang ANNs được mô tả như Hình|2.2|

Trong mạng ANNs, mỗi noron sẽ có một giá trị và sẽ kết nối với nơron khác

qua các cạnh có trọng số (Weight) và ngưỡng (Threshold) Giá trị đầu ra của nơronbằng giá trị nơron nhân với trọng số, và giá trị của nào vượt quá giá trị ngưỡng

được chỉ định thì nơron đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo củamạng Và giá trị tại một nơron được tính bằng cách lấy tổng các tích của giá trịnơron liên kết đến nó và trọng số trên cạnh liên kết đó

Để so sánh được kết quả đầu ra của mạng so với kết quả mong muốn, ta sẽ

tính độ chênh lệch của 2 kết quả này với hàm mat mát (loss function) Hàm mat

Trang 36

Chương 2 CƠ SỞ LÝ THUYET VÀ CÁC CONG TRÌNH LIEN QUAN 12

Input layer ; Hidden layer ; Ou utput layer

Trang 37

Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 13

mát này có nhiều loại và được định nghĩa khác nhau tuỳ vào bài toán Ví dụ thực

tế có thể thay đối với bài toán hồi quy tuyến tính dự đoán giá nhà thì hàm mat

mát có thể được tính bằng trung bình bình phương (Mean squared error - MSE)

độ chênh lệch giữa giá nhà thực tế và giá dự đoán, khi giá trị MSE bằng 0 nghĩa làkhông có sự chênh lệch giữa dự đoán và thực tế Nhưng thực tế gần như không

có mô hình máy học nào có thể dự đoán được mà chỉ là có gắng để giá trị chênh

lệch là nhỏ nhất.

Và để tìm ra giá trị nhỏ nhất của hàm mắt mát thì cần điều chỉnh các trọng sốnày dựa trên một chiến lược tối ưu nào đó Có rất nhiều chiến lược tối ưu, và mộttrong những chiến lược phổ biến nhất là dựa trên đạo hàm của hàm mat mát Khiđạo hàm có thể tìm ra được xu hướng của hàm số là tăng hay giảm Từ đó có thể

đưa ra quyết định đi tới hay đi ngược lại sẽ có khả năng rất cao là tìm được bộ

trọng số làm cho giá trị của ham mất mát thấp hơn Sau khi định được hướng đithì cần xác định độ dài bước đi (Learning rate) Và việc chọn learning rate sẽ phụthuộc vào dữ liệu và chiến thuật dùng để tối ưu Dé tránh cho mang ANNs trởthành mô hình tuyến tính thì hàm kích hoạt (Activation function) sẽ được thêm

vào trong các lớp ẩn Một số hàm kích hoạt thông dụng như sau:

¢ Hàm sigmoid có phạm vi giá trị từ 0 đến 1 và tính theo công thức|2.1|

Trang 38

Chương 2 CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 14

Cuối cùng, mạng nơron nhân tạo sau khi được huấn luyện sẽ tìm bộ ra trọng

số sao cho độ chênh giữa kết quả tạo ra của ANNs và thực tế là nhỏ nhất

Mạng tích chập Mạng tích chập (Convolutional Neural Network - CNN) là

một loại mạng ANNs đóng vai trò không thể thiếu trong các bài toán thị giác

máy tính CNN được phân biệt với các mạng nơron khác bởi hiệu suất vượt trội

của chúng với đầu vào tín hiệu hình ảnh, giọng nói hoặc âm thanh CNN có ba

lớp chính bao gồm:

* Convolutional layer: trích xuất dữ liệu đầu vào thành các ban dé đặc trưng

(feature map) Và được tính bằng cách thực hiện phép nhân tích chập trên

ảnh, với từng vùng cục bộ trên anh sẽ nhân với một bộ loc (filter hay kernel).

* Pooling layer: giảm kích thước của dữ liệu bằng cách kết hợp dau ra của các

cụm nơron ở một lớp thành một nơron duy nhất ở lớp tiếp theo

® Fully-connected (FC) layer: kết nỗi mọi noron trong một lớp với mọi nơron

trong lớp khác

Và với bài toán có kích thước của đầu vào lớn đặc biệt như dữ liệu ảnh thì

bộ trọng số sẽ có kích thước rất lớn Ảnh đầu vào có kích thước 1000 x 1000 khi

đi qua một lớp ẩn có 100 nơron thì phải cần tới 1000 x 1000 x 100 = 100.000.000

trọng số cho lớp ẩn đó Với lượng trọng số lớn như vậy việc huấn luyện với ANNsrat khó khăn Nhưng khi áp dung CNN với kích thước kernel là 10 x 10 thì chỉ

sử dụng có 10 x 10 = 100 trọng số khi qua lớp ẩn đầu tiên Số lượng trọng số đãgiảm đi 1 triệu lần giúp cho việc lưu trữ và tính toán dé dàng hon

2.1.2.2 Mạng nơron hồi quy

Mạng RNN (Recurrent Neural Network - RNN) là một loại ANNs sử dụng

cho dữ liệu tuần tự hoặc dit liệu chuỗi thời gian bang cách trích xuất các thông

tin dưới dang chuỗi và đảm bảo được thứ tự nội dung Với câu tao của RNN được

Trang 39

Chương 2 CƠ SỞ LÝ THUYET VA CÁC CÔNG TRINH LIÊN QUAN 15

mô tả ở Hình có thể thấy các thành phần trong chuỗi thông tin sẽ được thựchiện với các bước giống nhau và được lặp lại cho đến khi hết chuỗi

Trong thực tế với các bài toán xử lí ngôn ngữ tự nhiên, ta quan tâm đến thứ tự

của các từ trong câu Hãy lay một ví dụ, như "Cậu làm bài chưa" là câu để hỏi Dé

câu có ý nghĩa, nó cần được diễn đạt theo thứ tự cụ thể đó Đối với ANNs thông

thường, câu "Cậu chưa làm bài" cũng có thể trích xuất ra các đặc trưng tương tự

câu trên, nhưng lại khác về ý nghĩa Do đó, RNN tính đến vị trí của mỗi từ trong

câu và chúng sử dụng thông tin đó để giữ được ý nghĩa của câu cũng như có thể

dự đoán từ tiếp theo trong chuỗi

/£6 © © ©

c cœ> om on = Rõ

-® -® @

HINH 2.3: Mạng nơron hồi quy - RNNs

Khi áp dụng RNN vào bài toán dự đoán từ tiếp theo, nếu trạng thái trước đóảnh hưởng đến dự đoán hiện tại không phải là gần đây, thì mô hình RNN có thểkhông thể dự đoán chính xác trạng thái hiện tại Giả sử muốn dự đoán các từ còntrống, “A bị dị ứng với các loại hạt Anh ấy không thể ăn " Bối cảnh của dị ứng

hạt có thể giúp chúng ta biết trước rằng thực phẩm không thể ăn được có chứa

các loại hạt Tuy nhiên, nếu bối cảnh đó là một vài câu trước đó, thì RNN sẽ khó

hoặc thậm chí không thể kết nối thông tin

Mạng LSTM là mạng RNN có khả năng nhớ được các nội dung ở xa nhau

trong chuỗi thông tin giúp giải quyết vấn dé phụ thuộc này (long-term

depen-đencies) LSTM có cấu tạo như Hình|2.4| ở mỗi ô nhớ của LSTM sẽ phức tạo hơn

RNN,nó bổ sung thêm trục thông tin ngữ cảnh Vì vậy kết quả ở mỗi ô nhớ không

Trang 40

Chương 2 CƠ SỞ LÝ THUYET VÀ CÁC CONG TRÌNH LIEN QUAN 16

giải quyết được van dé phụ thuộc xa

Mạng GRU là một biến thể RNN tương tự như LSTM và có câu tạo như

Hình [2.5] Vì nó cũng hoạt động để giải quyết vấn dé bộ nhớ ngắn hạn của các

mô hình RNN Thay vì sử dụng thông tin điều chỉnh c; nó sử dụng các trạng thái

ẩn h; nhằm tối ưu khả năng tính toán ở mỗi ô nhớ và tăng tốc đáng kể trong quátrình huấn luyện

Ngày đăng: 03/11/2024, 19:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN