Tóm tắt Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu, so sánh một số thuật toán cây quyết định trong phát hiện các cuộc tấn công mạng trên bộ dữ liệu KDD99 và UNSW-NB15

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	27
Dung lượng	1,02 MB

Nội dung

Bố cục của Luận văn gồm phần mở đầu, kết luận, danh mục tài liệu tham khảo và phụ lục, nội dung của Luận văn được kết cấu thành 3 chương: Chương 1 - Tổng quan về tấn công qua mạng và các nghiên cứu liên quan; Chương 2 - Phương pháp đề xuất; Chương 3 - Thực nghiệm và kết quả. Mời các bạn cùng tham khảo!

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ ANH TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – NĂM 2020 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS NGÔ QUỐC DŨNG Phản biện 1: …………………………………………………………… Phản biện 2: ……………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm 2020 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng LỜI MỞ ĐẦU Lý chọn đề tài Kể từ năm 90 kỷ XX, phủ số quốc gia nhiều chuyên gia bắt đầu nghiên cứu “thành phố thơng minh”, việc xây dựng thành phố sử dụng thành tựu công nghệ thông tin để thu thập xử lý liệu để quản lý tài sản tài nguyên cách hiệu Trong năm gần đây, quốc gia có quan tâm đặc biệt tới vấn đề xây dựng thành phố thông minh thay đổi công nghệ, kinh tế mơi trường, ví dụ chương trình xây dựng thành phố thơng minh triển khai Singapore, Dubai, Milton Keynes, Southampton, Barcelona, Việt Nam Để xây dựng thành phố thông minh cần có thu thập, kết nối xử lý lượng thông tin khổng lồ Các thông tin thường thu thập cảm biến nhỏ từ người dân, thiết bị tài sản, sau tổng hợp xử lý Do thông tin cần thu thập lớn nên vấn đề bảo mật quyền riêng tư cá nhân vấn đề cần quan tâm Các hệ thống lớn ln có hệ thống phòng thủ đủ mạnh để chống lại hầu hết hành vi công xâm nhập trái phép, song hệ thống nhỏ sensor thường khơng có hệ thống phịng thủ khơng đủ để đảm bảo an tồn Đầu năm 2018, IBM X-Force Red Threatcare phát 17 lỗ hổng “zero-day” hệ thống cảm biến điều khiển thành phố thông minh sử dụng thành phố khắp giới Các lỗ hổng cho phép hacker truy cập vào điều khiển thao tác liệu, cần cảnh báo sai hệ thống cảm biến gây tổn hại lớn Từ đó, IBM có đưa số hướng dẫn để đảm bảo an toàn cho hệ thống sau: + Thực hạn chế địa IP cho máy kết nối với thiết bị, đặc biệt với thiết bị sử dụng mạng internet công cộng + Tận dụng công cụ quét ứng dụng để xác định lỗ hổng thiết bị + Sử dụng quy tắc bảo mật mạng để ngăn chặn truy cập vào hệ thống nhạy cảm thường xuyên thay đổi mật + Vơ hiệu hóa tính quản trị từ xa cổng không cần thiết + Sử dụng công cụ quản lý kiện để quét lưu lượng mạng xác định lưu lượng truy cập đáng ngờ + Sử dụng hacker mũ trắng để thử nghiệm độ an tồn hệ thống Trong đó, phương pháp sử dụng công cụ quản lý kiện để quét lưu lượng mạng xác định lưu lượng truy cập đáng ngờ coi biện pháp đơn giản, dễ thực với hệ thống nhỏ có chi phí rẻ, dễ triển khai cài đặt Thực tế có nhiều nghiên cứu phân tích lưu lượng mạng để đưa cảnh báo Tuy nhiên phương pháp có hạn chế riêng dễ bị hacker lợi dụng để tránh bị phát Với lý trên, việc nghiên cứu đề tài “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unsw-nb15” mang lại ý nghĩa khoa học thực tế vấn đề bảo mật an toàn Mục tiêu, nhiệm vụ nghiên cứu Mục tiêu nghiên cứu: Nghiên cứu xây dựng hệ thống phân tích, phát hành vi công phương pháp sử dụng thuật tốn học máy + Tìm hiểu việc thu thập xử lý liệu + Tìm hiểu thuật toán định (Decision Tree) học máy + Sử dụng thuật toán để xây dựng hệ thống phát công mạng dựa liệu lưu lượng mạng Nhiệm vụ nghiên cứu: Để đạt mục tiêu nghiên cứu, cần thực nhiệm vụ sau: + Nghiên cứu hệ thống phát hành vi công dựa phân tích lưu lượng mạng + Nghiên cứu, xây dựng so sánh nhóm thuật tốn học máy Decision Tree việc phân tích liệu mạng + Nghiên cứu sử dụng liệu hành vi mạng kdd99 unsw-nb15 + Tiến hành áp dụng với liệu thực tế đánh giá hiệu Đối tượng phạm vi nghiên cứu đề tài + Vấn đề xây dựng hệ thống phát hành vi thiết bị vừa nhỏ + Sử dụng liệu hành vi mạng kdd99 unsw-nb15 + Quy trình xây dựng mơ hình học máy, nhóm thuật toán Decision Tree Phương pháp nghiên cứu Để hoàn thành mục tiêu, luận văn kết hợp sử dụng phương pháp nghiên cứu tài liệu nghiên cứu thực tiễn 4.1 Phương pháp nghiên cứu tài liệu - Phương pháp phân tích tổng hợp lý thuyết: Luận văn thực phân tích, tổng hợp số báo khoa học có liên quan đến vấn đề cần nghiên cứu đăng tạp chí, hội nghị uy tín giới cộng đồng nghiên cứu sử dụng - Phương pháp phân loại hệ thống hóa lý thuyết: Từ kiến thức thu phân tích tổng hợp lý thuyết, luận văn hệ thống xếp lại thông tin thu cách khoa học, đồng thời sử dụng chúng để nhận định, đánh giá phương pháp có, từ có đề xuất tìm phương pháp tối ưu cho toán đặt 4.2 Phương pháp nghiên cứu thực tiễn - Phương pháp thực nghiệm khoa học: Sử dụng phương pháp có để áp dụng cho tốn đặt ra, phương pháp giúp kiểm chứng tính xác tính khả thi giải pháp, thuật tốn đề xuất đề tài sở để đánh giá tính hiệu so với phương pháp có mặt thực nghiệm - Phương pháp thống kê: Từ kết quả, số liệu từ phương pháp thực nghiệm khoa học, luận văn tiến hành tổng hợp, thống kê, xử lý mô tả biểu đồ thích hợp, phục vụ q trình phân tích đánh giá Kết cấu đề tài Ngồi phần mở đầu, kết luận, danh mục tài liệu tham khảo phụ lục, đề tài gồm chương: Chương 1: Tổng quan công qua mạng nghiên cứu liên quan Chương 2: Phương pháp đề xuất Chương 3: Thực nghiệm kết CHƯƠNG TỔNG QUAN VỀ TẤN CÔNG MẠNG VÀ CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Thực trạng vấn đề công mạng 1.1.1 Xu phát triển vấn đề àn tồn thơng tin Do ảnh hưởng cách mạng 4.0, hướng tới kết nối chia sẻ thông tin Biểu việc xây dựng thành phố thông minh, phổ cập Internet, ứng dụng chia sẻ, sử dụng trí tuệ nhân tạo, Đặc biệt gần kiện thương mại hóa mạng 5G để giúp đáp ứng nhu cầu cách mạng 4.0 Do nhu cầu lớn thiết bị kết nối mạng, cảm biến, thiết bị IoT, khiến nhà sản xuất thiết bị bắt đầu chạy đua lợi nhuận, tăng mạnh số sản lượng sản xuất không trọng nghiên cứu, cập nhật vấn đề mức an toàn thiết bị Từ dẫn tới hacker lợi dụng lỗ hổng bảo mật, “backdoor” tồn thiết bị Ngồi ra, cơng trình nghiên cứu bảo mật thiết bị mạng nhỏ vừa bắt đầu xuất nhiều vòng vài năm gần đây, chưa có phổ biến cao thương mại hóa để nhà sản xuất sử dụng dễ dàng Các hệ thống kết nối mạng thiết bị nhỏ vừa khơng có chuẩn chung bảo mật để đánh giá khiến chúng dễ bị công lợi dụng bới hacker 1.1.2 Sự phát triển xu hướng công thiết bị mạng Tại Việt Nam, riêng tháng đầu năm 2018 phát 4.500 cơng mạng nhằm vào quan Chính phủ, bộ, ngành với nhiều hình thức khác Việt Nam xếp thứ tốp 10 quốc gia bị kiểm soát mạng máy tính ma [13] Tại Việt Nam xuất số vụ công lớn việc lộ lọt liệu 5,4 triệu người dùng Thế giới di động tung lên Raidforums danh tính hacker ẩn danh, công làm tê liệt hệ thống VietNam Airlines lấy liệu cá nhân 411.000 người dùng, có nhiều người dùng hội viên “Bơng sen vàng” gây ảnh hưởng nghiêm trọng gây thiệt hại lớn Hình 1.5 Vụ cơng làm thay đổi giao diện trang chủ VietNam AirLines vào năm 2016 Ngồi ra, giới nói chung Việt Nam nói riêng có xu hướng chuyển dịch hệ thống quan trọng hệ thống khai thác dầu mỏ, hệ thống thủy điện, hệ thống tín hiệu giao thơng sang tự động hóa máy móc Và hệ thống bị xâm nhập kiểm sốt dẫn tới nguy ảnh hưởng tới an ninh cấp quốc gia 1.2 Tấn công mạng nghiên cứu liên quan 1.2.1 Tấn công mạng Theo luật an ninh mạng ban hành năm 2018, hành vi công mạng định nghĩa: “Tấn công mạng hành vi sử dụng không gian mạng, công nghệ thông tin phương tiện điện tử để phá hoại, gây gián đoạn hoạt động mạng viễn thông, mạng Internet, mạng máy tính, hệ thống thơng tin, hệ thống xử lý điều khiển thông tin, sở liệu, phương tiện điện tử” Quy trình cơng gồm bước là: Xác định mục tiêu Thu thập thông tin mục tiêu, tìm kiếm lỗ hổng Lựa chọn mơ hình cơng Thực cơng Xóa dấu vết (nếu cần thiết) Có nhiều phương pháp cơng mạng khác quy phương pháp cơng Tấn cơng thăm dị: Là phương pháp sử dụng cơng cụ bắt gói tin tự động, quét cổng, kiểm tra dịch vụ chạy với mục đích thu thập thơng tin hệ thống Các cơng cụ để thăm dị phổ biến dễ sử dụng, ví dụ Nmap, Wireshark, Tấn công truy cập: Là phương pháp khai thác lỗ hổng thiết bị nạn nhân, ví dụ lỗ hổng dịch vụ, thiết bị, sách bảo mật Phương pháp cơng địi hỏi người cơng phải có trình độ cao, thường khơng có cơng cụ hỗ trợ quy trình chung Đây hình thức cơng gặp hình thức gây thiệt hại nhiều khó phát Tấn công từ chối dịch vụ: Tấn công từ chối dịch vụ phương thức công làm cho hệ thống bị q tải khơng thể cung cấp dịch vụ cho người dùng bình thường, làm gián đoạn hoạt động hệ thống làm hệ thống phải ngừng hoạt động Đây hình thức cơng phổ biến Việt Nam nước nằm nhóm bị ảnh hưởng nhiều cơng từ chối dịch vụ giới Hình 1.7 Lưu lượng cơng DDoS tồn giới năm 2018 (Nguồn: https://www.blackmoreops.com) 1.2.2 Các nghiên cứu liên quan công mạng Việc nghiên cứu vấn đề liên quan đến công mạng ngăn chặn công mạng có từ năm 90 kỷ trước với nhiều đề xuất, phương pháp có tính khả thi áp dụng thực tế Đặc biệt với phương pháp phát hiện, chủ động phòng ngừa hành vi cơng mạng dựa phân tích hành vi người dùng phân tích thơng tin lưu lượng mạng để đưa cảnh báo ngăn chặn trực tiếp Các phương pháp đề xuất thường chia làm loại: + Tạo tập mẫu có sẵn thông tin, hành vi người dùng hành vi vượt ngưỡng tập mẫu bị coi hành vi bất thường + Xây dựng hệ thông phát xâm nhập dựa hành vi khác thường kẻ công (tập luật) Dựa tập luật để định hành vi người dùng có coi bất thường hay khơng Cả hai phương pháp có ưu điểm dễ cấu hình, có tỷ lệ ngăn chặn tốt chọn tập mẫu cấu hình tập luật đủ tốt Xong nhược điểm phương pháp thiếu tính linh động, đưa định sai lầm có thơng tin mang tính ngẫu nhiên xuất dễ dàng bị hacker không cập nhật thường xuyên Do đó, thời gian gần có nghiên cứu thử nghiệm mơ hình tích hợp thuật tốn vào hệ thống phân tích phát hành vi bất thường, đặc biệt mơ hình sử dụng thuật tốn học máy, đem lại kết khả quan tính khả thi Lý việc tích hợp thuật toán học máy vào việc dự đoán phát công đặc điểm thuật tốn học máy có tính tự động học hỏi dựa liệu đầu vào Một mơ hình học máy tạo luật khác hệ thống có liệu khác đảm bảo hiệu kết hợp với hệ thống bảo vệ sẵn có Các mơ hình học máy thường tích hợp hệ thống IDS ứng dụng chúng để dự đoán hành vi bất thường, phát công mạng phân tích gói tin mạng, chưa có khả thay kỹ sư an ninh mạng mơ hình hỗ trợ việc đưa phán đoán người quản trị, đặc biệt khối lượng liệu lớn vượt khỏi khả xử lý người Dưới số nghiên cứu tiếng ứng dụng học máy phát ngăn chặn hành vi bất thường tham khảo: Machine Learning Techniques for Intrusion Detection Long Short Term Memory Networks for Anomaly Detection in Time Series Anomaly Detection Framework Using Rule Extraction for Efficient Intrusion Detection A survey of network anomaly detection techniques Shallow and Deep Networks Intrusion Detection System: A Taxonomy and Survey Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning Performance Comparison of Intrusion Detection Systems and Application of Machine Learning to Snort System Evaluation of Machine Learning Algorithms for Intrusion Detection System One Class collective Anomaly Detection based on LSTM 10 Network Traffic Anomaly Detection Using Recurrent Neural Networks 11 Sequence Aggregation Rules for Anomaly Detection in Computer Network Traffic 12 Big collection of all approaches for IDS Có thể nhận thấy cách tiếp cận phương pháp xây dựng mơ hình đa dạng với việc ứng dụng nhiều thuật toán học máy, chí thuật tốn học sâu Đối tượng liệu để phân tích đa dạng luồng liệu mạng, nhớ mạng, phân biệt hành vi người dùng 1.3 Hệ thống phát xâm nhập IDS 1.3.1 Giới thiệu hệ thống phát xâm nhập IDS Hệ thống phát xâm nhập (IDS) hệ thống phần cứng phần mềm giám sát mạng nhằm phát hành vi bất thường vào hệ thống Một IDS có nhiệm vụ phân tích gói tin mà tường lửa cho phép qua, hành vi bất thường báo cáo cho người quản trị viên để có hành động xử lý xử lý tự động Hình 1.8 Mơ hình IDS Các tính hệ thống IDS bao gồm: + Giám sát lưu lượng mạng hành vi bất thường + Cảnh báo tình trạng mạng hệ thống cho người quản trị + Kết hợp với hệ thống giám sát, tường lửa, diệt virus tạo thành hệ thống bảo mật Một hệ thống IDS phải có đạt u cầu sau: + Tính xác: IDS khơng nhầm hành vi thơng thường người dùng hành vi bất thường + Tính trọn vẹn: IDS phải phát xâm nhập trái phép hành vi công vào hệ thống mạng Đây điều khó khăn đạt, khơng hệ thống giới dám đảm bảo phát mà phải thường xuyên cập nhật, thay đổi + Chịu lỗi: Bản thân hệ thống IDS phải có khả ngăn chặn cơng + Khả mở rộng: Như nói, hệ thống IDS phải có khả cập nhật để trì không bị lạc hậu 1.3.2 Các kỹ thuật phát IDS Có nhiều phương pháp sử dụng để phát xâm nhập sử dụng để cấu hính cho hệ thống IDS, phương pháp sử dụng nhiều gồm: Hệ thống Expert: Hệ thống xây dựng tập nguyên tắc định nghĩa trước để miêu tả công Tất kiện kết hợp kiểm tra dạng quy tắc if – then – else Phân tích trạng thái phiên: Một hành vi bất thường miêu tả tập mục tiêu phiên cần thực để gây tổn hại hệ thống Do phát hành vi trùng với phiên hệ thống coi hành vi bất thường Phân biệt ý định người dùng: Kỹ thuật mơ hình hóa hành vi người dùng tập mức cao người dùng bình thường thực hệ thống Nếu có hành vi vượt coi hành vi bất thường Sử dụng Machine Learning: Đây kỹ thuật mới, hệ thống liên tục lưu trữ hành vi bình thường bất thường mà thu thập Sau dựa vào thuật tốn học máy để tạo thành luật dùng để tham chiếu dự đoán hành vi người dùng CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 2.1 Phương pháp đề xuất Dựa tìm hiểu phân tích mơ hình phát cơng mạng nghiên cứu Luận văn tiền hành đề xuất mơ hình IDS để phát cơng mạng dựa phân tích lưu lượng mạng, sử dụng thuật tốn định để tiến hành phát lưu lượng mạng bắt có phải hành vi người dùng bình thường hành vi công vào hệ thống, từ định ngăn chặn hay khơng Mơ hình IDS đề xuất hoạt động sau: Hình 2.1 Mơ hình IDS đề xuất Lý luận văn đề xuất mô hình với việc thay đổi quan trọng sử dụng thuật toán học máy vào để sử dụng kỹ thuật mới, có độ xác, độ linh động cao, tự động cập nhật dựa q trình tự học hệ thống Nhờ người quản trị khơng cần phải có kiến thức q cao để sử dụng cập nhật hệ thống, đặc biệt hiệu thời điểm thiếu nhân lực ngành an tồn thơng tin Trong phần sau, luận văn giới thiệu lý việc sử dụng nhóm thuật tốn định mơ hình Các thuật tốn học máy sử dụng mơ hình mà luận văn đề xuất sử dụng liệu thư viện xây dựng lý sau: + Tính đắn thư viện đảm bảo + Tính hiệu quả: thuật tốn tối ưu hóa tổ chức, lưu trữ liệu nên có tốc độ tốt so với thuật toán tự xây dựng 2.2 Thuật toán Cây định 2.2.1 Giới thiệu học máy xây dựng mơ hình học máy 2.2.1.1 Sơ lược trí tuệ nhân tạo học máy Trí tuệ nhân tạo (AI) thuật ngữ miêu tả trí tuệ biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói tới máy tính ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Luận văn đề cập phạm vi khoa học máy tính, “trí tuệ nhân tạo” hiểu trí tuệ người lập trình tạo nên với mục tiêu giúp máy tính tự động hóa hành vi thơng minh người Trí tuệ nhân tạo khác với việc lập trình logic ngơn ngữ lập trình việc ứng dụng hệ thống học máy (machine learning) để mơ trí tuệ người xử lý mà người làm tốt máy tính Trong lĩnh vực AI có nhánh nghiên cứu khả tự học máy tính gọi học máy (machine learning) Hiện khơng có định nghĩa thức học máy hiểu kỹ thuật giúp cho máy tính tự học mà không cần phải cài đặt luật định Thường chương trình máy tính cần quy tắc, luật lệ để thực thi tác vụ dán nhãn cho email thư rác nội dung email có từ khoá “quảng cáo” Nhưng với học máy, máy tính tự động phân lại thư rác thành mà không cần trước quy tắc Đã có nhiều cơng trình nghiên cứu học máy cho phép tham khảo, với hỗ trợ từ thư viện học máy phổ biến scikit-learn, tensorflow, openAI, nên việc tự nghiên cứu đưa sản phẩm bớt khó khăn nhiều 2.2.1.2 Phân loại kỹ thuật học máy Các thuật tốn tồn học máy thường chia làm nhóm + Học có giám sát (Supervised Learning): Là phương pháp sử dụng liệu gán nhãn từ trước để suy luận quan hệ đầu vào đầu Các liệu gọi liệu huấn luyện chúng cặp đầu vào - đầu Học có giám sát xem xét tập huấn luyện để từ đưa dự đoán đầu cho đầu vào chưa gặp Biểu diễn theo toán học, có đầu vào biến X={x1,x2,…,x2} ứng với nhãn Y={y1,y2,…,yn} xi, yi vector Từ liệu thuật toán đưa hàm số yi ≈ f(xi), ∀ i = 1,2,…,N Khi với đầu vào biến xm cho biến ym tương ứng + Học không giám sát (Unsupervised Learning): Khác với học có giám sát, học phi giám sát sử dụng liệu chưa gán nhãn từ trước để suy luận Phương pháp thường sử dụng để tìm cấu trúc tập liệu Tuy nhiên khơng có phương pháp đánh giá cấu trúc tìm hay sai Theo biểu diễn tốn học, ta có tập biến X mà nhãn Y tương ứng + Học bán giám sát (Semi Supervised Learning): Là phương thức học hai loại trên, tức ta có phần liệu có gán nhãn Thực tế cho thấy nhiều tốn Machine Learning thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Rất nhiều loại liệu chí cần phải có chun gia gán nhãn (ảnh y học) Ngược lại, liệu chưa có nhãn thu thập với chi phí thấp + Học củng cố (Reinforcement Learning): Là phương thức học giúp cho hệ thống tự thích ứng đạt lợi ích cao hồn cảnh khác Để đạt điều này, cần có hệ thống tự động sinh hoàn cảnh khác để hệ thống tự học xây dựng hành động hợp lý Hiện tại, học củng cố thường áp dụng vào tồn Lý thuyết trị chơi xe tự lái 2.2.1.3 Quy trình xây dựng mơ hình học máy Học máy q trình phức tạp cần có quy trình thực để đảm bảo hiệu Một quy trình xây dựng hệ thống học máy thường có bước: Thu thập, xử lý liệu; lựa chọn thuật toán tiến hành huấn luyện cho mơ hình; kiểm nghiệm thực tế đánh giá 11 phân vào nốt, mục tiêu thuật toán phải chọn cách xây dựng cho hàm mát phải bé Để đạt điều bước phân chia, entropy phải giảm lượng lớn ID3 sử dụng infomation gain để đánh giá mức độ entropy bước lựa chọn thuộc tính làm nốt bước Tht tốn ID3 mơ tả sau: Giả sử tồn có F thuộc tính khác nhau, nốt khơng phải có điểm liệu tạo thành tập S với số phần tử tập |S|=N Và N điểm liệu này, có Nc (c = 𝑁 0,1,2, C) điểm thuộc lớp f ∈ F Xác suất để điểm liệu rơi vào thuộc tính f 𝑐 Và 𝑁 entropy điểm tính 𝐶 𝑁𝑐 𝑁𝑐 log10 ( ) 𝑁 𝑁 𝐻 (𝑆 ) = ∑ 𝑐=1 Tiếp theo, giả sử thuộc tính chọn f ∈ F, dựa f ta phân điểm liệu tập S thành M nốt S1, S2, ,SK với số điểm nốt m1, m2, ,mK Ta gọi tổng trọng số entropy nốt là: 𝐾 𝐻(𝑆, 𝑥) = ∑ 𝑘=1 𝑚𝐾 𝐻(𝑆𝑘 ) 𝑁 Ta định nghĩa information gain dựa thuộc tính f: Gain(x, S) = H(S) – H(x, S) Và ID3, nốt chọn thuộc tính có argmax(G(x,S)) 2.2.3.3 Thuật toán C4.5 Thuật toán C4.5 đề xuất vào năm 1993 Ross Quinlan để khắc phục hạn chế thuật tốn ID3 trước Nhược điểm ID3 dễ bị phụ thuộc vào thuộc tính có số lượng liệu lớn bỏ qua thuộc tính có số lượng liệu bé ảnh hưởng lớn tới kết Ngồi ra, ID3 cịn dễ bị tượng “overfitting”, tượng mơ hình huấn luyện khớp với trainning data, thử với testing data khơng phù hợp dẫn tới kết khơng cao Do đó, C4.5 có sử dụng thước đo liệu khác “gain ratio” cộng thêm sử dụng số kỹ thuật “cắt tỉa” để tránh “overfitting” Gain ratio định nghĩa sau: GainRatio(x, S) = 𝐺𝑎𝑖𝑛(𝑥,𝑆) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑥,𝑆) Trong đó, 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑥, 𝑆) tính sau: 𝑛 𝑖 𝑖 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜 (𝑥, 𝑆) = − ∑ 𝑥′( ) × log10 (𝑥 ′ ( )) 𝑥 𝑥 𝑖=1 𝑖 𝑥 ′ ( ) tỷ lệ phần tử xuất lớp x 𝑥 Ngoài C4.5 áp dụng thêm kỹ thuật cắt tỉa gọi “pruning”, phương pháp áp dụng có định Kỹ thuật diễn tả sau: Sau xây dựng điểm trainning data có phân lớp Một số nốt có chung nốt 12 cắt tỉa nốt thành leaf-node, với phân lớp lớp chiếm đa số phân vào nốt Trong luận văn này, kỹ thuật pruning đưa vào mã nguồn tất thuật toán để đảm bảo tối ưu kết 2.2.3.4 Thuật toán CART Thuật toán CART (Classification and Regression Trees) thuật toán cho phép việc giải toán kết phân loại dạng nhị phân hiệu Thuật toán Breiman đồng công bố vào năm 1984 với thước đo “Gini-index” thước đo độ khiết thông tin “Trong quần thể, chọn ngẫu nhiên hai cá thể chúng xác suất để chúng lớp quần thể coi khiết”[4] Gini-index tính cơng thức sau: 𝑛 𝐺𝑖𝑛𝑖 = − ∑((𝑃𝑖 )2 ) 𝑖=1 Trong 𝑃𝑖 xác suất kết nhị phân xuất lớp Sau ta tính tổng số Gini-index thuộc tính lấy chọn thuộc tính có tổng trọng số bé 2.2.4 Thuật toán Random Forest Trong thuật toán trên, Random Forest thuật toán đặc biệt với thuật tốn Decision Tree khác, sử dụng phương thức gọi “hộp đen”, tức ta đưa liệu vào đưa kết giải thích chế hoạt động mơ hình Random Forest đề xuất Tin Kam vào năm 1995 Ý tưởng mơ tả sau: thuật tốn Random Forest sinh hàng trăm định, tạo ngẫu nhiên với nốt câu hỏi thuộc tính liệu, câu trả lời cuối nốt Để tạo định, thuật toán Random Forest làm sau: + Chọn k thuộc tính ngẫu nhiên từ tập có m thuộc tính + Từ tập k thuộc tính đó, xây dựng định thuật toán Thước đo thường sử dụng “information gain” + Lập lại bước 1-2 để tạo đủ số cần thiết + Tiến hành bình chọn hàng trăm sinh Câu trả lời mà nhiều trả đáp án coi câu trả lời Hình 2.5 Mơ hình thuật toán Random Forest 13 Để đảm bảo mẫu thử không bị tượng “overfiting”, Random Forest ngẫu nhiên bỏ qua số thuộc tính xây dựng Nếu thuộc tính có information gain cao thứ m bị bỏ qua, thuộc tính có information gain cao thứ (m-1) chắn chọn Đây gọi kỹ thuật “attribute sampling” 2.3 Giới thiệu liệu UNSW-NB15 Bộ liệu UNSW-NB15, tạo vào năm 2015 lần cập nhật cuối 2018 tiến sĩ Nour Moustafa giáo sư Jill Slay thuộc đại học New South Wale Úc Phương pháp thu thập liệu liệu UNSW-NB15 sử dụng trình tạo lưu lượng gồm server ảo, server phân tán lưu lượng truy cập bình thường server hình thành hoạt động bất thường/tấn cơng lưu lượng mạng Tất lưu lượng mạng tới router lưu lại file pcap Hình 2.6 Mơ hình mơ lưu lượng mạng liệu unsw-nb15 Toàn file pcap thu xử lý, phân loại cuối file csv với 49 thuộc tính Dữ liệu sử dụng luận văn lấy từ tập liệu unsw-nb15 gồm: + UNSW_NB15_training: chứa 175.341 ghi + UNSW_NB15_testing: chứa 82.332 ghi Lý luận văn chọn liệu liệu liệu lưu lượng mạng có số lượng ghi lớn Ngồi ghi file csv nên dễ dàng việc xử lý thông tin để huấn luyện thuật toán đưa kết tốt 2.4 Giới thiệu liệu KDDCup99 Năm 1999, Stolfo đề xuất liệu KDD’99 (UCI KDD Archive, 1999) dựa liệu bắt chương trình đánh giá hệ thống phát xâm nhập DARPA’98 Bộ liệu gồm gần triệu ghi, ghi có 41 thuộc tính gán nhãn bình thường hay dạng công đặc trưng KDD’99 sử dụng rộng rãi để đánh giá kỹ thuật phát bất thường Các dạng cơng phân thành nhóm sau:  Tấn công từ chối dịch vụ (DoS) 14  User to Root Attack (U2R)  Remote to Local Attack (R2L)  Probing Attack Một số chuyên gia cho hầu hết công biến thể công biết dấu hiệu cơng biết đủ để nhận dạng biến thể Bộ liệu huấn luyện KDD'99 bao gồm 24 loại công khác có thêm 14 loại cơng thêm vào liệu kiểm tra Dựa vào đặc trưng cơng phân loại KDD'99 thành nhóm sau:  Đặc trưng bản: Gồm tất thuộc tính có từ kết nối TCP/IP  Đặc trưng lưu lượng: Gồm đặc trưng tính tốn với mối liên hệ với khoảng thời gian  Đặc trưng same host: Chỉ kiểm tra kết nối khoảng thời gian giây có host đích kết nối hành thống kê liên quan đến hành vi giao thức, dịch vụ, …  Đặc trưng same service: Chỉ kiểm tra kết nối khoảng thời gian giây có dịch vụ kết nối hành  Đặc trưng nội dung: Khác với hầu hết công DoS, Probing, R2L U2R mẫu cơng Bởi DoS Probing liên quan đến nhiều kết nối với số host khoảng thời gian ngắn, nhiên công R2L U2R nhúng đoạn gói liệu thường xuyên bao gồm kết nối Để phát loại công này, cần số đặc trưng để tìm kiếm hành vi nghi ngờ phần liệu, chẳng hạn số lần cố gắng đăng nhập thất bại Đây gọi đặc trưng nội dung Hai loại kể đặc trưng lưu lượng gọi dựa thời gian Tuy nhiên, có số cơng thăm dò quét host (cổng) sử dụng khoảng thời gian lớn giây, phút Kết công không tạo mẫu công khoảng thời gian giây  Bảng phân loại 24 loại công KDDCup 99 Loại Các công liệu KDDCup 99 Probe DoS U2R R2L Ipsweep, Nmap, Portsweep, Satan Back, Land, Neptune, Pod, Smurf, Teardrop Buffer_overflow, Loadmodule, Perl, Rootkit Ftp_write, Guess_passwd, Imap, Multihop, Phf, Spy, Warezclient, Warezmaster 15 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Công nghệ áp dụng Python ngơn ngữ lập trình bậc cao cho mục đích lập trình đa năng, Guido van Rossum tạo lần đầu mắt vào năm 1991, thiết kế với ưu điểm mạnh dễ đọc, dễ học dễ nhớ Cấu trúc Python cho phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu, có hình thức, cấu trúc dễ hiểu cho người học lập trình Phiên luận văn sử dụng là Python 3, phiên Python, có hỗ trợ thư viện mà luận văn có sử dụng như: scikit-learn, numpy, pandas matplotlib Cấu hình chi tiếp hệ thống phục vụ thu thử nghiệm kết luận văn gồm: + Phần mềm: hệ điều hành Windows 10, sử dụng Python 3.5 + Phần cứng: CPU i3 2328M, 4GB RAM, 120GB SSD 3.2 Tiến hành xử lý liệu 3.2.1 Các thuộc tính liệu UNSW-NB15 Luận văn sử dụng liệu UNSW-NB15, công bố cho phép sử dụng miễn phí Bộ liệu gốc gồm 47 thuộc tính để đầu vào thuộc tính kết với đầu vào Các thuộc tính chi tiết ghi bảng sau Tuy nhiên, luận văn sử dụng phần liệu xử lý riêng cho phân tích, huấn luyện kiểm thử tải trực tiếp từ nguồn Bộ liệu sử dụng 42 thuộc tính thuộc tính kết Tên thuộc tính srcip sport dstip dsport proto state dur sbytes dbytes Kiểu liệu nominal integer nominal integer nominal nominal Float Integer Integer sttl Integer dttl Integer sloss dloss service sload dload spkts dpkts swin dwin stcpb Integer Integer nominal float float integer integer integer integer integer Miêu tả Địa IP nguồn Port nguồn Địa IP đích Port đích Giao thức Trạng thái giao thức phụ thuộc Thời gian Số bytes trao đổi từ nguồn tới đích Số bytes trả từ đích tới nguồn Thời gian tồn byte liệu từ nguồn tới đích Thời gian tồn byte liệu từ đích tời nguồn Số gói tin từ nguồn bị truyền lại bị Số gói tin từ đích bị truyền lại bị Tên dịch vụ sử dụng Số bit nguồn truyền giây Số bit đích trả giây Số gói tin từ nguồn Số gói tin từ đích Số gói tối đa gửi từ nguồn Số gói tối đa gửi từ đích Sequence number nguồn 16 dtcpb smean dmean integer integer integer trans_depth integer res_bdy_len integer sjit djit stime ltime sintpkt dintpkt tcprtt float float timestamp timestamp float float float synack float ackdat float is_sm_ips_ports binary ct_state_ttl integer ct_flw_http_mthd integer is_ftp_login binary ct_ftp_cmd integer ct_srv_src integer ct_srv_dst integer ct_dst_ltm integer ct_src_ ltm integer ct_src_dport_ltm integer ct_dst_sport_ltm integer ct_dst_src_ltm integer attack_cat nominal label binary Sequence number đích Kích thước gói tin truyền scr Kích thước gói tin truyền dst Sử dụng giao thức yêu cầu/phản hồi http hay khơng Kích thước thực liệu khơng nén truyền từ dịch vụ http máy chủ Giá trị Jitter nguồn (ms) Giá trị Jitter đích (ms) Thời gian bắt đầu Thời gian kết thúc Thòi gian đến từ nguồn Thời gian đến từ đích Thời gian thiết lập Thời gian kết nối gói SYN gói SYN_ACK Thời gian kết nối gói SYN_ACK gói ACK Nếu số cổng giống giá trị ghi (1), khác ghi (0) Giá trị cụ thể cho thời gian tồn gói tin Các phương thức GET POST giao thức http Phiên truy cập fpt xác thực bời tên đăng nhập mật ghi (1), khác ghi (0) Số lệnh phiên truy cập fpt Số kết nối có dịch vụ địa nguồn 100 kết nối Số kết nối có dịch vụ địa đích 100 kết nối Số kết nối địa đích 100 kết nối Số kết nối địa nguồn 100 kết nối Số kết nối địa nguồn cổng đích 100 kết nối Số kết nối địa đích cổng nguồn 100 kết nối Số kết nối nguồn địa đích (3) 100 kết nối Tên loại giao thức công, ghi (Normal) Nếu bị cơng ghi (1), cịn lại ghi (0) 17 3.2.2 Các thuộc tính liệu KDD99 Dưới bảo trợ Cơ quan Quản lý Nghiên cứu Dự Án Phòng Thủ Tiên tiến thuộc Bộ Quốc phịng Mỹ (DARPA) phịng thí nghiệm nghiên cứu khơng qn (AFRL), năm 1998 phịng thí nghiệm MIT Lincoln thu thập phân phối liệu coi liệu tiêu chuẩn cho việc đánh giá nghiên cứu hệ thống phát xâm nhập mạng máy tính Dữ liệu sử dụng thi KDD cup 99 phiên liệu DARPA 98 Tập liệu đầy đủ KDD cup 99 chứa 4.898.431 dòng liệu, khối lượng liệu lớn Trong nghiên cứu thử nghiệm, tập liệu 10% KDD cup 99 thường lựa chọn Tập 10% KDD 99 tập mang đầy đủ liệu cho loại hình cơng khác nhau, đầy đủ thơng tin quan trọng để thử nghiệm Bảng sau cho thấy số mẫu kiểu công xuất 10% liệu KDD cup 99 nhãn lớp chúng Kiểu công Back land Neptune pod smurf teardrop satan ipsweep nmap portsweep normal Guess_passwd ftp_write imap phf multihop warzemaster warzclient spy Buffer_overflow Loadmodule perl rootkit Số mẫu ban đầu Nhãn lớp 2,203 21 107,201 264 280,790 979 1,589 1,247 231 1,040 97,277 53 12 20 1,020 30 10 DOS DOS DOS DOS DOS DOS PROBE PROBE PROBE PROBE NORMAL R2L R2L R2L R2L R2L R2L R2L R2L U2R U2R U2R U2R 18 Từ bảng trên, kiểu công khác liệu nhóm thành loại (gán nhãn lớp) liệu KDD cup’99 bao gồm: Normal: liệu thể loại kết nối TCP/IP bình thường; DoS (Denial of Service): liệu thể loại công từ chối dịch vụ; Probe: liệu thể loại cơng thăm dị; R2L (Remote to Local): liệu thể loại công từ xa hacker cố gắng xâm nhập vào mạng máy tính mạng; U2R (User to Root): liệu thể loại công chiếm quyền Root (quyền cao nhất) việc leo thang đặc quyền từ quyền người dùng bình thường lên quyền Root Trong liệu KDD cup 99, với kết nối TCP/IP có 41 thuộc tính số phi số trích xuất Đồng thời, kết nối gán nhãn (thuộc tính 42) giúp phân biệt kết nối bình thường (Normal) cơng Các thuộc tính liệu KDD cup 99 mô tả chi tiết bảng Bảng thông tin chi tiết 41 thuộc tính tập liệu huấn luyện kiểm tra KDD99 TT Tên thuộc tính Duration Protocol_type Service Src_bytes DTt_bytes Flag Land 10 Wrong_fragment Urgent Hot 11 Num_failed_logins 12 Logged_in 13 Num_compromised 14 Root_shell 15 Su_attempted 16 17 18 19 Num_root Num_file_creations Num_shells Num_access_files Mô tả Chiều dài (số giây) kết nối Loại giao thức, ví dụtcp, udp, vv Dịch vụ mạng điểm đến ví dụ http,telnet, vv Số byte liệu từ nguồn đến đích Số byte liệu từ đích đến nguồn Trạng thái bình thường lỗi kết nối kết nối from/to máy chủ/cổng; ngược lại Số lượng đoạn “sai” Số gói tin khẩn cấp Chỉ số “hot” Số lần đăng nhập không thành công đăng nhập thành công; ngược lại Số lượng điều kiện thỏa hiệp Bằng thu root shell; ngược lại Bằng 1nếu cố gắng thực lệnh ''su root''; ngược lại Số lần truy cập quyền “root” Số hoạt động tạo tập tin Số lượng shell prompts Kiểm soát số lần truy cập file Tính chất Liên tục Ví dụ Rời rạc tcp Rời rạc http Liên tục Liên tục SF 181 Rời rạc 5450 Rời rạc Liên tục Liên tục Liên tục 0 Liên tục Rời rạc Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục Liên tục 0 0 19 TT 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 Tên thuộc tính Mơ tả Số lượng lệnh outbound phiên ftp Bằng 1nếu đăng nhập thuộc Is_host_login danh sách “máy chủ” biết, ngược lại Bằng đăng nhập Is_guest_login tài khoản khách, ngược lại Số lượng kết nối đến máy chủ tương tự giống kết Count nối hành giây qua Serror_rate Số % kết nối có lỗi “SYN” Rerror_rate Số % kết nối có lỗi“REJ” Số % kết nối đến Same_srv_rate dịch vụ tương tự % kết nối với dịch vụ khác Diff_srv_rate số kết nối đến dịch vụ với Srv_count kết nối hành hai giây qua % kết nối có lỗi “SYN” từ Srv_serror_rate dịch vụ % kết nối có lỗi “REJ” từ Srv_rerror_rate dịch vụ Tỉ lệ % kết nối đến máy chủ khác Srv_diff_host_rate từ dịch vụ Đếm kết nối có DTt_host_count đích đến Đếm kết nối có 1host DTt_host_srv_count đích sử dụng dịch vụ tương tự % kết nối có 1host đích DTt_host_same_srv_rate sử dụng cácdịch vụ tương tự % dịch vụ khác DTt_host_diff_srv_rate host hành % kết nối đến host DTt_host_same_src_ port_rate thời có cổng src % kết nối đến dịch vụ DTt_host_srv_diff_host_rate tương tự đến từ host khác % kết nối đến host DTt_host_serror_rate thời có lỗi SO Num_outbound_cmDT Tính chất Ví dụ Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 1.00 Liên tục 0.00 Liên tục 0.00 Liên tục Liên tục Liên tục 1.00 Liên tục 0.00 Liên tục 0.11 Liên tục 0.00 Liên tục 0.00 20 TT Tên thuộc tính 39 DTt_host_srv_serror_rate 40 DTt_host_rerror_rate 41 DTt_host_srv_rerror_rate 42 Nhãn Mô tả % kết nối đến host hành dịch vụ quy định có lỗi SO % kết nối đến host thời có lỗi RST % kết nối đến máy chủ hành dịch vụ quy định có lỗi RST Kết nối bình thường/tấn cơng Tính chất Ví dụ Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Tượng trưng Normal Ví dụ vài dịng liệu KDD cup 99: 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00, 9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal 0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,511,511,0.00,0.00,0.00,0.00,1.00,0.00 ,0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf Một số chuyên gia phát xâm nhập mạng cho rằng, hầu hết loại công biến thể loại công biết dấu hiệu loại cơng biết đủ để nắm bắt biến thể lạ Trong thực nghiệm, chia tập liệu thành training set testing set theo tỷ lệ 7:3 3.2.3 Chuẩn hóa liệu Do phạm vi giá trị liệu đầu vào khác nhau, số thuật toán học máy chẳng hạn Decision Tree, hàm mục tiêu không hoạt động khơng chuẩn hóa Ví dụ, nhiều phân loại tính tốn khoảng cách hai điểm dựa khoảng cách Euclide Nếu đặc trưng có phạm vi giá trị rộng, khoảng cách mà phân loại tính tốn bị chi phối lớn đặc trưng Do đó, phạm vi tất đặc trưng nên chuẩn hóa để đặc trưng đóng góp vai trị tương đương q trình xây dựng phân loại Một lý khác khiến chuẩn hóa liệu áp dụng việc giảm độ dốc đạo hàm thuật toán gradient descent giúp việc hàm mát hội tụ nhanh nhiều so với khơng áp dụng Hình 3.1 Minh họa chuẩn hóa liệu 21 Do vậy, tơi tiến hành chuẩn hóa liệu huấn luyện liệu KDD99 UNSW-NB15 thuật toán Standardization với cơng thức chuẩn hóa sau: 𝑥−𝜇 𝑥′ = 𝜎 Trong đó, 𝜇 𝜎 kỳ vọng phương sai (standard deviation) thành phần toàn training data 3.2.4 Hyperparameter tuning Cross-validation Trong phương pháp đề xuất luận văn này, tiến hành tìm siêu tham số cho thuật tốn Decision Tree siêu tham số sau: Siêu tham số Splitter (chiến thuật để chia đỉnh cây) Max features (Số lượng đặc trưng xem xét lần chia đỉnh) Tập giá trị - best: chọn cách chia tốt - random: chọn cách chia ngẫu nhiên tốt - sqrt: bậc hai tổng số đặc trưng - log2: logarit số tổng số đặc trưng - None: sử dụng toàn đặc trưng Tất nhiên, để giữ cho thuật tốn ln ln khơng nhìn thấy liệu kiểm thử, phần liệu training lấy không train mà để đánh giá siêu tham số Tôi sử dụng cross-validation Theo đó, phương pháp chia training set thành k phần Sau đó, ta sử dụng phần làm validation set k - phần cịn lại làm training set Độ tốt mơ hình (lúc hyperparameter tuning) trung bình cộng độ tốt validation set set qua k lần huấn luyện Hình 3.2 Minh họa phương pháp cross-validation 3.3 Tiêu chí đánh giá Các tiêu chí sau sử dụng cho việc đánh giá độ hiệu quả-chính xác phương pháp đề xuất:  Condition positive (P): số mẫu công liệu  Condition negative (N): số mẫu bình thường liệu  True positive (TP): số mẫu công phân loại cơng  True negative (TN): số mẫu bình thường phân loại bình thường 22  False positive (FP): số mẫu bình thường bị gắn nhầm nhãn thành công  False negative (FN): số mẫu cơng bị gắn nhầm nhãn thành bình thường Các tiêu chí sử dụng để đánh giá độ xác-hiệu mơ hình xây dựng sau:  True positive rate (TPR) hay Sensitivity, Recall, Hit rate: Tỷ lệ số mẫu cơng dự đốn tổng số mẫu thực công Tiêu chí cho thấy xác suất phát cơng mơ hình Một mơ hình có TPR cao đồng nghĩa với việc mơ hình bỏ sót mẫu thực công 𝑇𝑃 𝑇𝑃 𝑇𝑃𝑅 = = 𝑃 𝑇𝑃 + 𝐹𝑁  False positive rate (FPR) hay Fall-out: Tỷ lệ số mẫu bình thường dự đốn nhầm thành cơng tổng số mẫu bình thường Tiêu chí cho thấy xác suất báo động sai mơ hình Một mơ hình có FPR thấp đồng nghĩa với việc mơ hình báo động nhầm công 𝐹𝑃 𝐹𝑃 𝐹𝑃𝑅 = = 𝑁 𝐹𝑃 + 𝑇𝑁  Accuracy (ACC): Tỷ lệ mẫu dự đoán tổng mẫu dự đoán ACC thể độ hiệu mơ hình nói chung, nhiên không đáng tin cậy liệu không cân 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 𝐴𝐶𝐶 = = 𝑃+𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁  Precision hay positive predictive rate (PPV): Tỷ lệ số mẫu cơng dự đốn tổng số điểm dự đốn cơng PPV thể độ xác mơ hình  F1-score: trung bình cộng điều hịa (harmonic mean) Precision Recall F1score cao thể phân lớp tốt 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 𝐹1 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙  Area Under the Curve (AUC): Tiêu chí dựa đường ROC để đánh giá độ hiệu mơ hình Đặc biệt AUC thường dùng toán phân lớp nhị phân với liệu không cân 3.4 Kết thực nghiệm đánh giá Thực nghiệm sử dụng tảng scikit-learn tiến hành đánh giá phương pháp với thuật toán dựa định bao gồm: - Decision Tree với Entropy - Decision Tree với Gini - Random Forest với Entropy - Random Forest với Gini 3.4.1 Đối với liệu KDD99  Bảng kết thuật toán định với liệu KDD99 23 Accuracy (%) Precision (%) Recall (%) F1-score (%) AUC (%) TPR (%) FPR (%) Decision Tree (Entropy) 99.98 99.98 99.99 99.99 99.98 99.93 0.01 Decision Tree (Gini) 99.98 99.98 99.99 99.99 99.96 99.93 0.01 Random Forest (Entropy) 99.99 99.99 99.99 99.99 99.98 99.97 0.01 Random Forest (Gini) 99.99 99.99 99.99 99.99 99.98 99.98 0.01 Nhìn vào bảng kết trên, thấy thuật toán định cho kết phân loại tốt, gần tuyệt đối tiêu chí Trong thuật tốn random forest với gini cho kết tốt Như đề cập trên, thuật tốn định ln có nguy overfitting Tuy nhiên, phương pháp đề xuất sử dụng phương pháp validation giúp hạn chế overfitting đến tối đa, khẳng định thuật tốn định có hiệu cao tập liệu KDD99 Về thời gian thực hiện, thuật toán huấn luyện nhanh Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu KDD99 Thời gian chạy (giây) Decision Tree (Entropy) Decision Tree (Gini) Random Forest (Entropy) Random Forest (Gini) 12 16 15 3.4.2 Đối với liệu UNSW-NB15  Bảng kết thuật toán định với liệu UNSW-NB15 Accuracy (%) Precision (%) Recall (%) F1-score (%) AUC (%) TPR (%) FPR (%) Decision Tree (Entropy) 85.74 92.21 74.55 82.45 84.71 94.86 25.45 Decision Tree (Gini) 85.37 93.14 72.80 81.72 84.21 95.62 27.20 Random Forest (Entropy) 87.04 96.62 73.74 83.64 85.82 97.89 26.26 Random Forest (Gini) 87.60 95.48 76.00 84.64 86.53 97.07 24.0 Nhìn vào bảng kết trên, thấy thuật toán định cho kết phân loại mức Mặc dù có khả phát công tốt, tỷ lệ báo động giả lớn Thuật toán cho kết tốt random forest với gini Đánh giá độ hiệu thuật toán liệu UNSW-NB15 trình bày phần Về thời gian thực hiện, thuật toán huấn luyện nhanh so với liệu KDD99 có kích thước liệu đầu vào nhỏ Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu UNSW-NB15 Decision Tree (Entropy) Decision Tree (Gini) Random Forest (Entropy) Random Forest (Gini) 24 Thời gian chạy (giây) 13 11 3.4.3 Đánh giá Như vậy, thực nghiệm cho thấy thuật toán định có hiệu tốt liệu KDD99 Tuy nhiên, độ xác hiệu mức tốt liệu UNSW-NB15 Điều giải thích sau:  Bộ liệu KDD99 lỗi thời khơng cịn khuyến nghị phân tích việc phát công mạng Thực tế, ngày liệu khơng cịn ứng dụng rộng rãi vào thực tiễn an ninh mạng khuyến cáo thay liệu Tuy nhiên, KDD99 cịn giá trị cơng tác nghiên cứu giáo dục, luận văn tiến hành thực nghiệm liệu  UNSW-NB15 xây dựng từ năm 2015 nên bổ sung nhiều loại công so với liệu KDD99, việc ứng dụng học máy phân tích, phát cơng cần thiết, địi hỏi thuật tốn mạnh Với thuật toán cổ điển định, kết thu tích cực  Tỷ lệ số mẫu training set testing set liệu UNSW-NB15 nhỏ Thông thường, tỷ lệ nằm mức 7:3 với liệu nhỏ lớn liệu lớn Ngay nay, testing set thông thường nằm mức vài nghìn mẫu đủ để đánh giá mơ hình Tỷ lệ train:test cao liệu UNSW-NB15 nguyên nhân cho việc độ xác không cao Điều dễ dàng khắc phục việc tăng số lượng mẫu dành cho training set Tuy nhiên, phạm vi luận văn, sử dụng nguyên cách chia ban đầu liệu UNSW-NB15 Như vậy, thuật tốn định nói riêng, hay học máy nói chung có khả phát công tốt thực nghiệm với liệu tiếng KDD99 UNSW-NB15 Điều cho thấy tính khả thi hứa hẹn việc áp dụng rộng rãi mơ hình IDS dựa hành vi học máy nhằm phát công mạng Bên cạnh đó, kết thực nghiệm cịn cho thấy khẳng định, thuật tốn random forest nói riêng hay thuật tốn tập hợp nói chung thường cho kết tốt mơ hình riêng lẻ KẾT LUẬN VÀ KIẾN NGHỊ Cách mạng 4.0 kéo theo phát triển thiết bị mạng, thiết bị cảm biến Nhưng phát triển công nghệ q nhanh mà khơng có quan tâm đến vấn đề bảo mật khiến thiết bị trở thành mục tiêu dễ dàng cho hình thức cơng mạng Và hậu việc cơng trở nên lớn thiết bị công có chứa thơng tin nhậy cảm Do việc xây dựng biện pháp bảo vệ thiết bị mạng cần thiết Mơ hình phải dể vận dụng kể thiết bị có dung lượng nhỏ thiết bị IOT Trong luận văn đề xuất mơ hình để tiến hành dự đốn hành vi công mạng dựa lưu lượng thuật toán machine learning, cụ thể decision tree Luận văn đạt số kết sau: + Nghiên cứu toán phát hành vi công dựa lưu lượng mạng + Đề xuất mơ hình dự đốn hành vi cơng dựa thuật toán học máy (decision tree) xây dựng mơ hình học máy thành cơng + Tiến hành nghiên cứu liệu lưu lượng mạng kdd99 unsw-nb15 25 + So sánh tỷ lệ phát thuật toán định Phương hướng nghiên cứu luận văn: + Xây dựng mơ hình ngơn ngữ nhúng C + Tích hợp mơ hình vào thiết bị mạng nhỏ vừa, đặc biệt thiết bị IOT Giám sát, thu thập liệu liệu để tiếp tục hoàn thiện mơ hình ... đa số phân vào nốt Trong luận văn này, kỹ thuật pruning đưa vào mã nguồn tất thuật toán để đảm bảo tối ưu kết 2.2.3.4 Thuật toán CART Thuật toán CART (Classification and Regression Trees) thuật. .. liệu mạng unsw-nb15, liệu có tính thực tế cao, đầy đủ sử dụng nhiều nghiên cứu khoa học khác 2.2.2 Nhóm thuật tốn định Trong thuật tốn học máy, có nhóm thuật toán đưa định dựa câu hỏi, nhóm thuật. .. phát công mạng dựa liệu lưu lượng mạng Nhiệm vụ nghiên cứu: Để đạt mục tiêu nghiên cứu, cần thực nhiệm vụ sau: + Nghiên cứu hệ thống phát hành vi cơng dựa phân tích lưu lượng mạng + Nghiên cứu,

Ngày đăng: 23/06/2021, 08:43