Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
2,14 MB
Nội dung
ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu, thực thuật toán học máy sử dụng cho an ninh mạng thiết bị nhúng Edge - Cloud PHẠM TRUNG HIẾU Hieu.PT202671M@sis.hust.edu.vn Ngành Kỹ thuật Viễn thông Giảng viên hướng dẫn: PGS TS Nguyễn Hữu Thanh Chữ ký GVHD Trường: Điện – Điện tử HÀ NỘI, 03/2023 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Phạm Trung Hiếu Đề tài luận văn: Nghiên cứu, thực thuật toán học máy sử dụng cho an ninh mạng thiết bị nhúng Edge – Cloud Chuyên ngành: Kỹ thuật viễn thông Mã số HV: 20202671M Tác giả, người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2023 với nội dung sau: • Chỉnh sửa lỗi tả cịn tồn tồn luận văn • Kết hợp chương chương thành chương chương luận văn chỉnh sửa • Điều chỉnh văn phong tuần luận văn • Chỉnh sửa bảng thống kê từ viết tắt theo cho đầy đủ thứ tự • Bổ sung phần giải thích ý nghĩa ROC, AUC mục 3.5 Hà Nội, ngày tháng 06 năm 2023 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG LỜI CAM ĐOAN Tôi Phạm Trung Hiếu, mã số học viên 20202671M, học viên lớp kĩ thuật viễn thơng, khóa 2020B Người hướng dẫn đề tài PGS TS Nguyễn Hữu Thanh Tơi xin cam đoan tồn nội dung trình bày luận văn “Nghiên cứu, thực thuật toán học máy sử dụng cho an ninh mạng thiết bị nhúng Edge - Cloud” kết q trình tìm hiểu, nghiên cứu trung thực tơi Các liệu nêu luận văn hoàn toàn trùng với kết nghiên cứu thực tế Các tài liệu sử dụng luận văn trích dẫn rõ ràng Tơi xin cam đoan chịu hồn toàn trách nhiệm với nội dung viết luận văn Hà Nội, ngày 30 tháng 03 năm 2023 Người cam đoan Phạm Trung Hiếu MỞ ĐẦU Trong bối cảnh phát triển mạnh mẽ hệ thống mạng, người dùng trải nghiệm ứng dụng, tiện ích nơi, với chất lượng dịch vụ ngày cao Tuy nhiên, bên cạnh việc nhận lợi ích từ hạ tầng mạng phát triển, người dùng đối mặt với nguy bị xâm hại loại cơng mạng Thiết bị họ bị nhiễm loại mã độc thông qua việc truy cập vào trang web khơng thống, ấn vào đường dẫn lạ thư điện tử Các loại mã độc giao tiếp với máy chủ lệnh điều khiển (Command and Control server) để nhận u cầu phát động cơng Do để phát sớm công mạng, phát giao tiếp từ mã độc tới máy chủ lệnh điều khiển đóng vai trị quan trọng Các máy chủ lệnh điều khiển thường kẻ cơng đăng kí tên miền có tính ngẫu nhiên, tạo thuật toán tạo tên miền (Domain – generated Algorithm - DGA) Trong bối cảnh liệu công ngày lớn, việc xây dựng mơ hình tính tốn điện tốn đám mây nghiên cứu truyền thống gặp phải nhiều khó khăn Một lượng liệu lớn xử lí tập trung đám mây dẫn tới trễ cho tồn hệ thống chi phí để xây dựng hạ tầng phục vụ tính tốn tăng nhanh chóng Như vậy, ứng dụng yêu cầu thời gian thực phát công mạng không đạt mục đích Do đó, tính tốn biên với ưu đặt gần nguồn liệu phù hợp với ứng dụng an ninh mạng Các thuật tốn sử dụng để phịng tránh, phát cơng mạng truyền thống phân tích đặc trưng loại cơng, sau lưu chúng vào hệ sở liệu, áp dụng vào tường lửa Phương pháp khơng cịn phù hợp với thay đổi nhanh loại công mạng Do đó, thuật tốn học máy nghiên cứu rộng rãi, đáp ứng nhu cầu thời gian thực độ xác cao Hơn nữa, phương pháp học máy phân tán, phù hợp để triển khai cài đặt thiết bị biên Một tảng học máy phân tán phổ biến Google federated learning sử dụng đề tài nhằm triển khai thuật tốn học máy mơi trường tính tốn biên Cuối cùng, để đề tài thành công, xin gửi lời cảm ơn tới PGS TS Nguyễn Hữu Thanh có góp ý sâu sắc trình tìm hiểu, nghiên cứu thử nghiệm Thêm vào đó, tập thể thành viên phịng thí nghiệm Future Internet Lab cung cấp mơi trường làm việc hịa động, sở vật chất trình nghiên cứu diễn thuận lợi HỌC VIÊN TÓM TẮT LUẬN VĂN Mục tiêu luận văn áp dụng thuật toán học máy, sử dụng mơ hình federated learning để phát thuật tốn tạo tên miền cài đặt chúng môi trường tính tốn biên Mơ hình thành cơng việc triển khai tảng giúp thiết bị máy tính giao tiếp với theo giao thức tương tự federated learning qua mạng Internet Mơ hình kiểm thử với tập liệu có tính thực tế cao, sử dụng nhiều báo khoa học để đảm bảo tính khách quan kết Các kết nghiên cứu cho thấy, mơ hình có khả nhận diện thuật tốn tạo tên miền với độ xác cao, biến thiên thông số đánh giá phù hợp với đánh giá, nghiên cứu trước Luận văn trình bày qua chương sau Chương trình bày tổng quan lí thuyết an ninh mạng, cơng mạng thực trạng chúng Thêm vào đó, bước công mạng phổ biến nghiên cứu để tìm điểm chung nhiều loại cơng khác Chương hai trình bày sở lí thuyết điện tốn đám mây, điện toán biên ứng dụng thuật toán học máy mơi trường Qua phân tích, tìm hiểu, đánh giá lí thuyết nghiên cứu có, phương pháp học máy phân tán Google nghiên cứu cho thấy phù hợp cho môi trường tính tốn biên Chương ba trình bày cụ thể lí thiết kế hệ thống, bước thiết kế hệ thống kiểm thử phương án đánh giá hệ thống Thêm vào đó, kết thử nghiệm lí giải nhằm xác định hiệu nghiên cứu HỌC VIÊN MỤC LỤC CHƯƠNG AN NINH MẠNG VÀ MỐI LIÊN HỆ VỚI THUẬT TOÁN TẠO TÊN MIỀN 1.1 Tổng quan an ninh mạng 1.1.1 Khái niệm phân loại an ninh mạng 1.1.2 Thực trạng an ninh mạng 1.2 Phân tích quy trình cơng mạng phổ biến 1.3 Thuật toán tạo tên miền (DGA) 1.4 1.3.1 Khái niệm phân loại thuật toán tạo tên miền (DGA) 1.3.2 Các phương pháp phổ biến nhận diện DGA 10 Kết luận chương 12 CHƯƠNG MƠ HÌNH FEDERATED LEARNING TRÊN ĐIỆN TỐN BIÊN 14 2.1 2.2 2.3 2.4 2.5 Điện toán đám mây – điện toán biên 14 2.1.1 Điện toán đám mây 14 2.1.2 Điện toán biên 15 2.1.3 So sánh điện toán đám mây điện toán biên 17 Tổng quan phân loại thuật toán học máy 17 2.2.1 Định nghĩa học máy 17 2.2.2 Phân loại thuận toán học máy 18 Phương pháp học máy phân tán 20 2.3.1 Khái niệm học máy phân tán 20 2.3.2 Một số mơ hình học máy phân tán phổ biến 22 Mơ hình federated learning 25 2.4.1 Đặt vấn đề 25 2.4.2 Quá trình huấn luyện federated learning 25 2.4.3 Ưu điểm ứng dụng federated learning 29 Kết luận chương 32 CHƯƠNG TRIỂN KHAI FEDERATED LEARNING ĐỂ PHÁT HIỆN DGA CHO ĐIỆN TOÁN BIÊN 34 3.1 Lựa chọn phương án cài đặt 34 3.2 Dữ liệu tên miền tạo thuật toán 34 3.3 Thuật toán học máy LSTM (Long – short term memory) 36 3.4 Triển khai hệ thống đánh giá 38 3.4.1 Xây dựng hệ thống kết nối máy khách – máy chủ 38 3.4.2 Thiết kế chương trình phần mềm 40 3.5 Đánh giá kết triển khai 42 3.6 Kết luận chương 46 CHƯƠNG KẾT LUẬN 47 4.1 Kết luận 47 4.2 Hướng phát triển đề tài 47 TÀI LIỆU THAM KHẢO 48 PHỤ LỤC 51 DANH MỤC TỪ VIẾT TẮT Từ viết tắt AGD AI API ARP AUC CNN DDoS DGA DNS FL HTTP HTTPS IoT IP LAN LSTM MAC OSI RDD RNN ROC SVM TCP TLD VLAN Từ gốc Algorithm – generated domain Artificial Intelligence Application Programming Interface Address Resolution Protocol Area Under Curve Convolutional Neural Network Distributed Denial of Service Domain – generated algorithm Domain name system Federated learning Hyper Text Transfer Protocol Hyper Text Transfer Protocol Security Internet of Thing Internet Protocol Local Area Network Long - short term memory Medium Access Control Open system interconnection Resilient Distributed Datasets Recurrent Neural Network Receiver Operating Characteristic Support Vecter Machine Transmission Control Protocol Top – level Domain Virtual Local Area Network DANH MỤC HÌNH VẼ Hình 1.1: Các yêu cầu cần đạt an ninh mạng [4] Hình 1.2: Thống kê lưu lượng công DDoS theo thời gian [5] Hình 1.3: Mơ tả quy trình công DDoS [6] Hình 1.4: Mơ tả quy trình cơng Botnet [7] Hình 1.5: Mơ tả thuật tốn DGA [10] 10 Hình 1.6: Mơ tả hệ thống nghiên cứu [18] 12 Hình 2.1: Kiến trúc điện toán đám mây[11] 14 Hình 2.2: Các tầng dịch vụ điện toán đám mây [12] 15 Hình 2.3: Mơ tả liệu điện tốn đám mây 16 Hình 2.4: Mơ tả liệu điện tốn biên 16 Hình 2.5 Quan hệ AI, học máy, học sâu 18 Hình 2.6: Mơ tả ý nghĩa học bán giám sát 20 Hình 2.7: Ví dụ thực huấn luyện 21 Hình 2.8: Ví dụ thực huấn luyện song song 21 Hình 2.9: Mô tả ứng dụng Gboard Google 25 Hình 2.10: Mơ tả giao thức federated learning 26 Hình 2.11: Mơ hình vai trị máy chủ [30] 28 Hình 2.12: Mơ tả thuật tốn học liệu tập trung 30 Hình 2.13: Mơ tả trình học máy khách 30 Hình 2.14: Mơ tả kết học federated learning 31 Hình 2.15: Phương pháp secure aggregation 31 Hình 3.1: Một cell state LSTM 37 Hình 3.2: Các layer model 37 Hình 3.3: Giao diện mạng tạo Zerotier - One 38 Hình 3.4: Hệ thống VLAN tạo Zerotier - One 39 Hình 3.5: Kết testbed 39 Hình 3.6: Các bước federated learning cài đặt 40 Hình 3.7: Pha khởi tạo 41 Hình 3.8: Pha Flearn 41 Hình 3.9: Pha kết thúc 42 Hình 3.10: Confusion matrix trường hợp (a) 42 Hình 3.11: ROC curve trường hợp (a) 43 Hình 3.12: Confusion matrix trường hợp (b) 43 Hình 3.13: ROC curve trường hợp (b) 43 Hình 3.14: Confusion matrix trường hợp (c) 44 Hình 3.15: ROC curve trường hợp (c) 44 Hình 3.16: Confusion matrix trường hợp (d) 45 Hình 3.17: ROC curve trường hợp (d) 45 Hình 3.18: Đánh giá accuracy testcase 46 Hình 3.1: Một cell state LSTM Vai trị mơ hình LSTM đặt tế bào nhớ (memory cell) hay gọi tế bào trạng thái (cell state) Các trạng thái tổ chức theo dạng nằm ngang, chạy từ đầu cuối mơ tả Hình 4.1 Thơng tin tế bào thêm vào hay lược bỏ tùy thuộc trạng thái cửa (được thể phép nhân trỏ tới mũi tên hình) Về mơ hình tốn học đầu vào, đầu hệ thống LSTM tóm tắt qua cơng thức sau 𝑓𝑡 , 𝑖𝑡 , 𝑜𝑡 𝑙ầ𝑛 𝑙ượ𝑡 𝑙à 𝑓𝑜𝑟𝑔𝑒𝑡 𝑔𝑎𝑡𝑒, 𝑖𝑛𝑝𝑢𝑡 𝑔𝑎𝑡𝑒, 𝑜𝑢𝑡𝑝𝑢𝑡 𝑔𝑎𝑡𝑒 PT 3.1 𝑓𝑡 = 𝜎(𝑈𝑓 ∗ 𝑥𝑡 + 𝑊𝑓 ∗ ℎ𝑡−1 + 𝑏𝑓 ) 𝑖𝑡 = 𝜎(𝑈𝑖 ∗ 𝑥𝑡 + 𝑊𝑖 ∗ ℎ𝑡−1 + 𝑏𝑖 ) PT 3.2 𝑜𝑡 = 𝜎(𝑈𝑜 ∗ 𝑥𝑡 + 𝑊𝑜 ∗ ℎ𝑡−1 + 𝑏𝑜 ) Với < 𝑓𝑡 , 𝑖𝑡 , 𝑜𝑡 < 1; 𝑏𝑓 , 𝑏𝑖 , 𝑏𝑜 𝑙à 𝑐á𝑐 ℎệ 𝑠ố 𝑏𝑖𝑎𝑠 PT 3.3 𝑐𝑡 = 𝑓𝑡 ∗ 𝑐𝑡 + 𝑖𝑡 ∗ 𝑐~𝑡 ℎ𝑡 = 𝑜𝑡 ∗ (𝑐𝑡 ) PT 3.4 Vậy, ta có: LSTM sử dụng rộng rãi thuật toán RNN khác khả giảm thiểu vấn đề vanishing gradient Trong nghiên cứu mình, mơ hình huấn luyện tơi gồm lớp sau: Hình 3.2: Các layer model Embedding layer có vai trị trích xuất điểm liệu, biến vector liệu ban đầu miền không gian embedding Dropout có vai trị giảm thiểu ovefitting cho mơ hình Nhân tố LSTM có vai trị nhận diện liệu lớp cuối softmax 37 3.4 Triển khai hệ thống đánh giá 3.4.1 Xây dựng hệ thống kết nối máy khách – máy chủ Với mục tiêu truyền thơng máy thơng qua Internet, phần mềm hỗ trợ tạo, quản lí mạng VLAN có tên Zerotier – One sử dụng Các máy tính cài Zerotier – One có thêm giao diện mạng (interface) ảo máy, tưởng tượng kết nối mạng LAN tới thiết khác xếp vào mạng Hình 3.3 làm rõ interface tạo phần mềm ZeroTier – One mà máy tính sử dung Tiếp theo, máy tính khác thêm vào mạng VLAN tạo sẵn để chúng dễ dàng giao tiếp với qua lập trình socket Sử dụng mạng VLAN cần thiết môi trường mạng Internet, sử dụng socket để gửi tin trực tiếp tới địa mạng LAN máy tính mơ tả Hình 3.4 địa IP LAN mang tính nội bộ, khơng sử dụng để định tuyến Internet Với quy mô sở vật chất có thời điểm thực nghiên cứu, testcase từ sử dụng nhỏ 10 máy khách chạy trực tiếp hệ thống mạng VLAN mà tạo quản lí Với trường hợp 28 máy khách, hạn chế lượng thiết bị, việc kiểm tra hiệu thuật tốn mơ hình federated learning đánh giá mơ hình dựng máy ảo Hình 3.3: Giao diện mạng tạo Zerotier - One Mạng VLAN tạo tạo lợi cho việc lập trình kết tìm lỗi, trình lập trình cần sử dụng mạng LAN cài đặt, triển khai qua đường truyền Internet khơng cần thay đổi mã chương trình 38 Hình 3.4: Hệ thống VLAN tạo Zerotier - One Kết bước cấu hình, tạo hệ thống kết nối VLAN cho hệ thống federated learning testbed mô tả Hình 3.5 Ở đó, máy tính có địa 10.147.17.111 đóng vai trị máy chủ, máy tính cịn lại đóng vai trị máy khách Hình 3.5: Kết testbed Trước thực cài đặt cụ thể phần mềm, tơi có q trình đánh giá độ ổn định kết nối thiết bị, tảng quản lí Zerotier – One Kết cho thấy hệ thống có chất lượng tương đồng với chất lượng mạng Internet 39 thiết bị, nghĩa thiết bị tham gia vào mơ hình với điều kiện kết nối Internet ổn định 3.4.2 Thiết kế chương trình phần mềm Về góc độ thiết kế phần mềm để hoạt động theo giao thức federated learning, bước hoạt động máy khách máy chủ tóm lược Hình 3.6 Hình 3.6 mơ tả bước chu kì làm việc máy khách máy chủ để làm tảng lập trình chức cho hệ thống Trong đề tài này, máy khách làm chức năng: tải mơ hình từ máy chủ, huấn luyện mơ hình sử dụng liệu nội bộ, cập nhật thông số checkpoint mơ hình (cụ thể trọng số - weight); chức đánh giá mơ hình phía máy khách; gửi kết cập nhật phía máy chủ Máy chủ cần thực công việc tương ứng với máy khách như: huấn luyện mơ hình ban đầu, gửi mơ hình ban đầu, tổng hợp trọng số, đánh giá kết cập nhật mơ hình Quy trình lặp lặp lại qua chu kì Để đơn giản cho trình lập lịch hệ thống Trong phiên cài đặt này, thời gian cho chu kì cài đặt xấp xỉ 20 phút, đủ cho máy khách huấn luyện, trả kết máy chủ Hình 3.6: Các bước federated learning cài đặt Bước tiếp theo, giao tiếp máy khách máy chủ cụ thể hóa hệ thống tin, chia làm pha: • Pha khởi tạo: pha khởi tạo, máy khách gửi tin “hello” tới máy chủ thơng báo diện chờ cho máy chủ cung cấp ID tương ứng Có hai tin sử dụng pha khởi tạo “hello_message”, gửi từ máy khách tới máy chủ tin 40 “hello_response” gửi theo chiều ngược lại, có chứa ID cấp phát máy khách • Pha flearn: thực đầy đủ trao đổi máy khách máy chủ để thực tác vụ thực nhiệm vụ, trao đổi mô hình học máy, trao đổi cập nhật, … Pha pha mà máy khách thực tác vụ huấn luyện mơ tả Hình 3.8 Bản tin “Flearn_request” để máy khách tham gia nhận nhiệm vụ; tin “Flearn_population” để máy chủ thông báo đặc điểm mơ hình Ngồi ra, pha này, hai tin với mục đích khác so với mơ hình federated learning Google cơng bố thêm vào nhằm mục đích giúp máy khách khơng cần cập nhật mơ hình số trường hợp, ví dụ kết huấn luyện tốt, hay thiết bị đột ngột tiếp tục trình huấn luyện Hai tin “model_request” – máy khách sử dụng để chủ động yêu cầu mơ hình “model_fine” – máy khách sử dụng để chủ động thơng báo khơng cần mơ hình Hình 3.7: Pha khởi tạo Hình 3.8: Pha Flearn 41 Hình 3.9: Pha kết thúc Máy chủ tổ chức thành ứng dụng đa luồng (multi – threading) với luồng xử lí, tiếp nhận yêu cầu máy khách 3.5 Đánh giá kết triển khai Kết huấn luyện mơ hình đánh giá tập liệu gồm 20 000 liệu Với trường hợp đánh giá, thông số confusion matrix chu kì huấn luyện cuối trường hợp biến đổi ROC qua chu kì đưa ROC (Receiver Operating Characteristic) đường cong biểu diễn khả phân loại mơ hình ngưỡng khác nhau, cụ thể đề tài, ngưỡng khoảng đến AUC (Area Under Curve) diện tích vùng nằm đường ROC AUC lớn, thể thuật toán có khả phân loại tốt a) Trường hợp huấn luyện độc lập Hình 3.10: Confusion matrix trường hợp (a) Trường hợp ta thấy kết huấn luyện cuối mơ hình tốt, độ xác đạt 92% ổn định đường ROC Điều cho thấy, thân mơ hình học máy xây dựng có độ hiệu cao với liệu 42 Hình 3.11: ROC curve trường hợp (a) b) Trường hợp máy khách, 200 điểm liệu hợp lệ, 100 AGD Hình 3.12: Confusion matrix trường hợp (b) Hình 3.13: ROC curve trường hợp (b) 43 Ở trường hợp ta thấy độ xác tương đương với việc huấn luyện độc lập, 91% Tuy nhiên, khác biệt đến từ đường ROC Có thể thấy rằng, chu kì huấn luyện đầu tiên, mơ hình cho kết false positive khơng tốt (đường xanh nước biển) Tuy nhiên qua 10 chu kì training, AUC tiệm cận tới mức 0.96 c) Trường hợp máy khách, 200 liệu hợp lệ, 100 AGD Với trường này, ta tiếp tục quan sát chiều hướng thay đổi tương tự tăng số lượng máy khách lên mà bảo toàn tổng lượng liệu đưa vào hệ thống Trong trường hợp này, độ xác mơ hình giảm cịn 90% với thay đổi lớn đường ROC Điều thể tính chất phép lấy tổng cập nhật từ máy khách máy khách có gradient khác Ở bước tổng hợp ban đầu, khác biệt lớn gradient, hiệu mô hình sụt giảm nhanh chóng (AUC = 0.727), độ xác khơng tới 70% Nhưng sau vài chu kì training, kết dự đốn mơ hình xác hơn, với AUC đạt 0.947 Hình 3.14: Confusion matrix trường hợp (c) Hình 3.15: ROC curve trường hợp (c) 44 d) Trường hợp 28 máy khách, 30 liệu hợp lệ, 10 AGD Trường hợp đánh giá cuối thể rõ ràng đặc tính phức tạp thuật toán federated learning Khi số lượng máy khách tăng nhanh chóng, độ xác mơ hình sụt giảm khoảng 81%, với đường ROC biến thiên mạnh Hình 3.16: Confusion matrix trường hợp (d) Hình 3.17: ROC curve trường hợp (d) Ở chu kì đầu tiên, chí khả dự đốn sai mơ hình cịn cao dự đốn đường ROC cịn có lúc tụt mức cân bằng, có nghĩa khơng thể chọn ngưỡng đầu phù hợp cho tốn Các kết testcase khác mơ hình xem thêm [34] 45 Accuracy comparision 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 client 200b 100d 4client 600b 100d 8client 100b 50d 8client 200b 100d 28client 30b 10d standalone Hình 3.18: Đánh giá accuracy testcase Như vậy, qua kết thu thập được, tơi đưa nhận xét Với lượng liệu đưa vào huấn luyện mơ hình, nhiều máy khách gây xáo trộn lớn tới kết đánh giá chung hệ thống Tuy nhiên, với kết khác lưu [34], với số lượng máy khách tham gia vào trình huấn luyện, tăng số điểm liệu máy khách nhận chu kì tăng hiệu hệ thống Hình 3.18 tổng hợp độ xác hệ thống qua testcase, qua chu kì huấn luyện Có thể thấy rằng, trường hợp 28 máy khách, 30 điểm liệu hợp lệ, 10 AGD chưa đạt thông số cao trường hợp khác Trong trường hợp huấn luyện độc lập huấn luyện với lượng máy khách nhỏ, với nhiều liệu – máy khách, 600 liệu hợp lệ, 100 AGD cho kết ổn định 3.6 Kết luận chương Vậy chương đưa lựa chọn cài đặt để thể đề tài thơng qua việc đánh giá, lựa chọn phương án phát công mạng sử dụng DGA, thiết kế mơ hình, phần mềm cho hệ thống federated learning đánh giá kết có Kết phù hợp với lí thuyết, đánh giá nhiều nghiên cứu khác federated learning việc đột ngột số lượng máy khách ảnh hưởng xấu cho kết huấn luyện ban đầu Thêm vào đó, việc giữ nguyên số lượng máy khách tăng số mẫu huấn luyện chu kì cải thiện kể 46 CHƯƠNG KẾT LUẬN 4.1 Kết luận Trong đề tài mình, tơi thực phát cơng mạng sử dụng thuật tốn học máy tảng Edge – Cloud Cụ thể tơi tìm hiểu, phân tích đặc điểm loại cơng mạng, yêu cầu đặt cho an ninh mạng, để từ xác định mục tiêu tồn phát DGA Việc tìm hiểu thuật tốn học máy, đặc biệt thuật toán học máy phân tán, hệ thống federated learning giúp lựa chọn mơ hình học máy hiệu quả, đáp ứng u cầu tốc độ, mức độ bảo mật Kết tơi có hai đóng góp xây dựng mơ hình testbed hoạt động theo giao thức federated learning, cho phép kiểm thử thiết bị vật lí qua mạng Internet hệ thống máy ảo đánh giá hiệu thuật toán học máy LSTM, áp dụng mơ hình federated để phát DGA 4.2 Hướng phát triển đề tài Tuy cố gắng thực đề tài với mong muốn đóng góp điều cho việc tìm hiểu, phát cơng mạng Song, đề tài cịn hạn chế: • Số lượng thiết bị vật lí, thiết bị tính tốn biên triển khai thật chưa lớn mong muốn • Chưa cài đặt phương pháp secure aggregation • Phương pháp tổng hợp cập nhật chưa linh hoạt Vì vậy, tiếp tục nghiên cứu để cải thiện đề tài theo hướng: • Giải vấn đề máy tính vật lí việc dựng container máy chủ tính tốn • Cài đặt phương pháp secure aggregation để tăng cao mức độ bảo mật liệu • Tạo giao diện lập trình cấp cao cho phần mềm, biến đề tài thành tảng dùng chung cho Lab nghiên cứu • Phát triển lập lịch cho hệ thống federated learning nhằm tăng cao tốc độ training • Mở rộng ứng dụng toán sang lĩnh vực khác xử lí ảnh, phát cơng DDoS (các đề tài mà Lab nghiên cứu quan tâm) 47 TÀI LIỆU THAM KHẢO [1] https://www.crowdstrike.com/cybersecurity-101/cyberattacks/mostcommon-types-of-cyberattacks/, truy cập cuối ngày 30/03/2023 [2] https://viblo.asia/p/cac-kieu-tan-cong-mang-pho-bien-hien-nayDo754z2QZM6, truy cập cuối ngày 30/03/2023 [3] https://aws.amazon.com/vi/what-is/cybersecurity/, truy cập cuối ngày 30/03/2023 [4] https://bizflycloud.vn/tin-tuc/tong-quan-ve-an-ninh-mang20180309115432479.htm, truy cập cuối ngày 30/03/2023 [5] https://blog.cloudflare.com/cloudflare-mitigates-record-breaking-71million-request-per-second-ddos-attack/, truy cập cuối ngày 30/03/2023 [6] https://www.kaspersky.com/resource-center/definitions/what-is-cybersecurity, truy cập cuối ngày 30/03/2023 [7] https://www.f5.com/labs/learning-center/what-is-a-distributed-denial-ofservice-attack, truy cập cuối ngày 30/03/2023 [8] X Guo, G Cheng, Y Hu and M Dai, "Progress in Command and Control Máy chủ Finding Schemes of Botnet," 2016 IEEE Trustcom/BigDataSE/ISPA, Tianjin, China, 2016, pp 1723-1727, doi: 10.1109/TrustCom.2016.0264 [9] https://ieeexplore.ieee.org/abstract/document/9492239 [10] https://www.techtarget.com/searchsecurity, truy cập cuối ngày 30/03/2023 [11] https://www.spiceworks.com/tech/cloud/articles/what-is-cloud-computing/ [12] D Kapil, P Tyagi, S Kumar and V P Tamta, "Cloud Computing: Overview and Research Issues," 2017 International Conference on Green Informatics (ICGI), Fuzhou, China, 2017, pp 71-76, doi: 10.1109/ICGI.2017.18 [13] W Shi, J Cao, Q Zhang, Y Li and L Xu, "Edge Computing: Vision and Challenges," in IEEE Internet of Things Journal, vol 3, no 5, pp 637-646, Oct 2016, doi: 10.1109/JIOT.2016.2579198 [15] T A Tuan, N Viet Anh and H V Long, "Assessment of Machine Learning Models in Detecting DGA Botnet in Characteristics by TF-IDF," 2021 IEEE International Conference on Machine Learning and Applied Network Technologies (ICMLANT), Soyapango, El Salvador, 2021, pp 1-5, doi: 10.1109/ICMLANT53170.2021.9690546 [16] F Bisio, S Saeli, P Lombardo, D Bernardi, A Perotti and D Massa, "Realtime behavioral DGA detection through machine learning," 2017 International Carnahan Conference on Security Technology (ICCST), Madrid, Spain, 2017, pp 1-6, doi: 10.1109/CCST.2017.8167790 48 [17] H Shahzad, A R Sattar and J Skandaraniyam, "DGA Domain Detection using Deep Learning," 2021 IEEE 5th International Conference on Cryptography, Security and Privacy (CSP), Zhuhai, China, 2021, pp 139143, doi: 10.1109/CSP51677.2021.9357591 [18] Y Li, K Xiong, T Chin and C Hu, "A Machine Learning Framework for Domain Generation Algorithm-Based Malware Detection," in IEEE Access, vol 7, pp 32765-32782, 2019, doi: 10.1109/ACCESS.2019.2891588 [19] S Zhou, L Lin, J Yuan, F Wang, Z Ling and J Cui, "CNN-based DGA Detection with High Coverage," 2019 IEEE International Conference on Intelligence and Security Informatics (ISI), Shenzhen, China, 2019, pp 6267, doi: 10.1109/ISI.2019.8823200 [20] B Yu, J Pan, J Hu, A Nascimento and M De Cock, "Character Level based Detection of DGA Domain Names," 2018 International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazil, 2018, pp 1-8, doi: 10.1109/IJCNN.2018.8489147 [21] https://en.wikipedia.org/wiki/Machine_learning, 30/03/2023 truy cập cuối [22] https://datawhatnow.com/pseudo-labeling-semi-supervised-learning/, cập cuối ngày 30/03/2023 ngày truy [23] Lecture 22 : Distributed Systems for ML, Qirong Ho [24] H Wang, D Niu and B Li, "Distributed Machine Learning with a Máy chủless Architecture," IEEE INFOCOM 2019 - IEEE Conference on Computer Communications, Paris, France, 2019, pp 1288-1296, doi: 10.1109/INFOCOM.2019.8737391 [25] T Tuor, S Wang, T Salonidis, B J Ko and K K Leung, "Demo abstract: Distributed machine learning at resource-limited edge nodes," IEEE INFOCOM 2018 - IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS), Honolulu, HI, USA, 2018, pp 1-2, doi: 10.1109/INFCOMW.2018.8406837 [26] T Alpcan and C Bauckhage, "A distributed machine learning framework," Proceedings of the 48h IEEE Conference on Decision and Control (CDC) held jointly with 2009 28th Chinese Control Conference, Shanghai, China, 2009, pp 2546-2551, doi: 10.1109/CDC.2009.5399634 [27] M Klymash, M Kyryk, I Demydov, O Hordiichuk-Bublivska, H Kopets and N Pleskanka, "Research on Distributed Machine Learning Methods in Databases," 2021 IEEE 4th International Conference on Advanced Information and Communication Technologies (AICT), Lviv, Ukraine, 2021, pp 128-131, doi: 10.1109/AICT52120.2021.9628949 49 [28] https://ai.googleblog.com/2020/05/federated-analytics-collaborativedata.html [29] Timothy Yang, Galen Andrew, Hubert Eichner, Haicheng Sun, Wei Li, Nicholas Kong, Daniel Ramage, Franỗoise Beaufays, Applied Federated Learning: Improving Google Keyboard Query Suggestions”, doi: arXiv:1812.02903 [30] Keith Bonawitz, Hubert Eichner, Wolfgang Grieskamp, Dzmitry Huba, Alex Ingerman, Vladimir Ivanov, Chloe Kiddon, Jakub Konečný, Stefano Mazzocchi, H Brendan McMahan, Timon Van Overveldt, David Petrou, Daniel Ramage, Jason Roselander, “Towards Federated Learning at Scale: System Design”, arXiv:1902.01046 [31] https://www.motorbiscuit.com/watch-tesla-utterly-fail-detect-dangerousobjects-on-road/, truy cập cuối ngày 30/03/2023 [32] https://github.com/baderj/domain_generation_algorithms [33] https://www.expireddomains.net/alexa-top-websites/, truy cập cuối ngày 30/03/2023 [34] https://www.overleaf.com/project/62f3e423cf838ee9205b83ac 50 PHỤ LỤC A1 Đường dẫn tới mã nguồn đề tài Mã nguồn đề tài tìm kiếm đường dẫn github sau đây: https://github.com/fanwar97/DistributedAI 51