Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (tt)

42 680 9
Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)Xây dựng hệ thống phát hiện xâm nhập dựa trên phương pháp máy học (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN TRẦN THANH SƠN XÂY DỰNG HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN PHƯƠNG PHÁP MÁY HỌC LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) TP Hồ Chí Minh – 2018 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN TRẦN THANH SƠN XÂY DỰNG HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN PHƯƠNG PHÁP MÁY HỌC Chuyên ngành: Hệ thống thông tin Mã số: 8.80.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN ĐỨC THÁI TP Hồ Chí Minh – 2018 MỞ ĐẦU Ngày song song với bùng nổ mạnh mẽ công nghệ thơng tin phát triển Internet tồn cầu nguy an tồn thơng tin trở nên trầm trọng nguy hiểm hơn, mã độc hại hiểm họa hàng đầu khả lây lan phát tán hệ thống máy tính thực hành vi công bất hợp pháp Mã độc ngày tiến hóa với biết thể đa dạng, với cách thức che dấu ngày tinh vi Có thể nói phát ngăn chặn xâm nhập trái phép thách thức đặt lĩnh vực An tồn thơng tin Các phương pháp phát xâm nhập thông thường chủ yếu sử dụng kĩ thuật so sánh mẫu dựa sở liệu mã độc xây dựng định nghĩa từ trước, nhiên phương pháp bộc lộ nhiều nhược điểm khơng có khả phát mẫu mã độc mới, số lượng liệu mã độc ngày gia tăng làm cho sở liệu mẫu trở nên ngày lớn Hiện hướng nghiên cứu dựa vào mơ hình máy học để phân loại phát mã độc tỏ phương pháp tiềm hiệu cải thiện nhược điểm nêu so với phương pháp truyền thống Tuy nhiên, vấn đề quan tâm để xây dựng mơ hình máy học tốt đạt hiệu xác hiệu suất cao Chính lý trên, việc lựa chọn đề tài nghiên cứu “Xây dựng hệ thống phát xâm nhập dựa phương pháp máy học” cần thiết để kịp thời phát ngăn chặc công bất hợp pháp vào hệ thống công nghệ thông tin tỉnh Luận văn bố cục sau: Trong chương học viên giới thiệu tổng quan tình hình an ninh mạng Các khái niệm an ninh mạng, tổng quan hệ thống phát xâm nhập IDS, thuật toán máy học Chương học viên giới thiệu cơng trình liên quan nước giới Chương học viên đề xuất phương pháp phát xâm nhập Chương học viên đưa thực nghiệm đánh giá kết đạt thuật toán đề xuất so với thuật tốn khác Tóm tắt: Hệ thống phát xâm nhập Intrusion Detection System (IDS) phát triển rộng rãi sản phẩm thương mại mã nguồn mở, hoạt động hoạt động phụ thuộc vào thời gian q trình cập nhật dấu hiệu cơng chưa có tiền lệ Một hướng tiếp cận gần áp dụng giải thuật máy học để phát bất thường công mà không phụ thuộc việc nhận dạng đặc điểm cơng Trong luận văn trình hướng tiếp cận cho việc tự động phát xâm nhập cơng chưa có tiền lệ việc kết hợp bảo mật máy tính lĩnh vực máy học Học viên đề xuất phương pháp kết hợp giải thuật Kmeans SOM dựa tập liệu KDD CUP-99 để cao hiệu khả phát xâm nhập tốt Chương – CỞ SỞ LÝ LUẬN 1.1 Giới thiệu tổng quan an ninh mạng 1.1.1 Khái niệm an ninh mạng An tồn thơng tin bao gồm hoạt động quản lý, nghiệp vụ kỹ thuật hệ thống thông tin nhằm bảo vệ, khôi phục hệ thống, dịch vụ nội dung thông tin nguy tự nhiên người gây Việc bảo vệ thông tin, tài sản người hệ thống thông tin nhằm bảo đảm cho hệ thống thực chức năng, phục vụ đối tượng cách sẵn sàng, xác tin cậy An tồn thơng tin bao hàm nội dung bảo vệ bảo mật thông tin, an tồn liệu, an tồn máy tính an tồn mạng An tồn thơng tin thể qua tính chất sau: a) Tính tin cậy (confidentiality): đảm bảo thông tin truy cập truy cập cho phép b) Tính tồn vẹn (integrity): bảo vệ tính xác, đầy đủ thơng tin phương pháp xử lý; c) Tính sẵn sàng (availability): đảm bảo người dùng hợp pháp truy cập thông tin tài sản liên quan có u cầu d) Tính khơng thể từ chối (Non-repudiation): Thông tin cam kết mặt pháp luật người cung cấp 1.1.2 Tổng quan tình hình an ninh mạng Theo Bkav Năm 2017, thiệt hại virus máy tính gây người dùng Việt Nam lên tới 12.300 tỷ đồng, tương đương 540 triệu USD, vượt xa mốc 10.400 tỷ đồng năm trước Kết đưa từ chương trình đánh giá an ninh mạng Tập đồn cơng nghệ Bkav thực vào tháng 12 năm 2017 Mức thiệt hại Việt Nam đạt kỷ lục nhiều năm trở lại Ở kinh tế khổng lồ Mỹ, Trung Quốc, Nhật Bản Đức, tội phạm mạng gây tổng thiệt hại lên tới 200 tỷ USD năm Bức tranh toàn cảnh an ninh mạng Việt Nam năm qua có điểm nóng: gia tăng cơng thiết bị IoT, công nghệ sinh trắc học liên tục bị qua mặt, bùng nổ tin tức giả mạo, mã độc đào tiền ảo Vì vậy, hệ thống phát xâm nhập (Intrusion Detection System IDS) khác thiết kế xây dựng nhằm ngăn chặn tân công Mục tiêu IDS cung cấp tường bảo vệ, giúp hệ thống mạng có khả chống lại cơng từ bên bên ngồi hệ thống Việc nghiên cứu xây dựng kỹ thuật phát xâm nhập vấn đề thu hút quan tâm nhà nghiên cứu việc đảm bảo an tồn, bảo mật mạng Mục đích quan trọng IDS phát truy cập bình thường truy cập bất thường, truy cập bất thường xác định thuộc kiểu công Trong năm gần dây phương pháp khai phá liệu đề xuất sử dụng kỹ thuật phát công chưa biết đến zero-day Phương pháp cho kết phát xác cao lại cho tỷ lệ cảnh báo sai công lạ Máy học (Machine Learning) [9], [10], [18],[19], [20] kỹ thuật cho phép giải vấn đề định dựa sở liệu kinh nghiệm Với máy học, chương trình máy tính sử dụng kinh nghiệm, quan sát liệu khứ để cải thiện cơng việc tương lai thay thực theo quy tắc lập trình sẵn Chính thế, việc ứng dụng máy học để phát xâm nhập bất thường hệ thống mạng phù hợp cần thiết bối cảnh 1.2 Tổng quan hệ thống phát xâm nhập IDS 1.2.1 Hệ thống phát xâm nhập IDS Tự động phát cơng vào hệ thống máy tính, phát xâm nhập nhánh nghiên cứu kinh điển lĩnh vực bảo mật máy tính mà khởi thủy sớm từ cơng trình nghiên cứu bảo mật hệ thống multi-user (Andersion, 1980) Để hiểu rõ cách thức phát xâm nhập tích hợp vào bảo mật máy tính ta xem qua khái niệm sau Bảo mật máy tính liên quan đến việc bảo vệ tính bảo mật, tồn vẹn sẵn sàng tài ngun Do đó, ta định nghĩa xác khái niệm cơng máy tính sau: Tấn cơng an ninh mạng: hành vi cố gắng làm tổn hại đến tính bảo mật, tính tồn vẹn tính sẵn sàng tài nguyên Cụ thể, công an ninh mạng nghe trộm đường truyền (vi phạm tính bảo mật), thay đổi file máy chủ (vi phạm tính tồn vẹn) làm tổn hại đến phần cứng (vi phạm tính sẵn sàng) Phụ thuộc vào nguồn cơng, phân biệt cơng nội cơng từ xa Hình 1.2.1: Chu trình bảo mật cho hệ thống Chống lại công mạng xây dựng nhiều chế khác bảo mật máy tính Tuy nhiên, chế sau giải pháp an ninh ngăn chặn cơng, ví dụ chế kiểm sốt truy cập (access control) hay mã hóa (cryptography) Tuy nhiên, lịch sử lâu dài bảo mật máy tính trước cơng cho thấy rằng: khơng có chế ngăn ngừa, ngăn chặn mà thân cung cấp mức độ bảo vệ hồn hảo chế phát cơng thêm vào nhóm giải pháp bảo mật mà nhiệm vụ cụ thể xây dựng hệ thống phát xâm nhập (Intrusion Detection System – IDS) Sau cùng, chế khôi phục sau công làm nhiệm vụ khắc phục ảnh hưởng đến hệ thống mạng hay máy tính lớp sau chuỗi giải pháp bảo mật máy tính Trong luận văn đề cập chủ yếu vào chế phát xâm nhập để xác định cơng chưa có tiền lệ, chế trung tâm chuỗi giải pháp bảo mật máy tính trước cơng ngày phức tạp ngày Chúng ta định nghĩa hệ thống phát xâm nhập xác sau: Hệ thống phát xâm nhập (IDS): hệ thống giám sát dòng thơng tin liệu mà cơng máy tính xảy Cụ thể hơn: Hệ thống phát xâm nhập (IDS) hệ thống có nhiệm vụ thu thập thông tin, liệu từ nhiều nguồn liệu mạng hay hệ thống để theo dõi nhằm phát hành động công vào mạng hay hệ thống máy tính Mục đích ngăn ngừa hành động phá hoại vấn đề bảo mật hệ thống, hành động tiến trình cơng sưu tập, qt cổng Khái niệm phát xâm nhập cơng trình nghiên cứu Andersion (1980) Denning (1987) Các công trình cung cấp tảng lý thuyết cho việc thiết kế hệ thống phát xâm nhập hệ thống IDS mã nguồn mở Bro (Paxson, 1980) hay Snort (Roesch, 1998) Phần sau trình chi tiết hệ thống IDS bao gồm cách phân loại IDS, đặc điểm cốt lõi hệ thống IDS nguồn thơng tin, chế phát cuối trình bày đặc tính Hose-base IDS ngày 1.2.2 Phân loại IDS Hệ thống IDS gồm cách phân loại, thứ dựa chế IDS phát xâm nhập tiêu chí thứ hai nguồn thơng tin liệu mà IDS sử dụng Với tiêu chí thứ dựa chế phát xâm nhập IDS phân thành loại: phát dựa dấu hiệu biết (Signature –based IDS) phát dựa dấu hiệu bất thường (Anomaly –based IDS) Hai chế trình bày chi tiết phần luận văn Theo tiêu chuẩn thứ hai IDS phân thành Network – based IDS (NIDS) Host –based IDS (HIDS) NIDS hệ thống IDS chủ yếu phát hành vi xâm nhập công việc phân tích lưu lượng thơng tin mạng, chẳng hạn thu thập phân tích nội dung phần header gói tin truyền mạng Những sensor mạng bắt gói tin mạng theo tiêu chí luật quy định trước định nghĩa lại phù hợp với tình hình mạng tăng kiến thức chuyên gia từ người quản trị hệ thống Ưu điêm: IDS gồm nhiều ưu điểm giám sát hệ thống mạng không ảnh hưởng đến hiệu hoạt động chương trình khác chạy Hệ thống suốt với người dùng hệ thống độc lập với hệ điều hành linh hoạt giám sát lưu lượng phần phân đoạn mạng Sự hoạt động suốt IDS đặc tính quan trọng làm giảm khả hacker khai thác vô hiệu hóa chức IDS NIDS có chi phí thấp hệ thống yêu cầu tài nguyên cho khơng gian lưu trữ, cơng ty sử dụng thiết bị qua sử dụng với giá thành thấp Nhược điểm: Tuy nhiên NIDS có nhiều hạn chế sensor mạng bắt gói tin theo luật định sẵn phụ thuộc vào tính chất cơng xảy NIDS khó phát cơng chưa có tiền lệ Zero-day Vấn đề thứ hai mã hóa mạng chuyển mạch, giao tiếp mạng mã hóa sensor quét giao thức đọc nội dung gói tin NIDS khơng phát huy tác dụng tốt mạng chuyển mạch đại giám sát mạng khó khăn mạng chuyển mạch phân mạng thành phân đoạn độc lập, ta kiểm tra phân đoạn mạng mà trực tiếp kết nối đến HIDS hệ thống IDS mà việc xây dựng chế phát dựa nguồn liệu từ máy tính đơn cụ thể HIDS thu thập thông tin kiện xảy hệ thống mà giám sát Nguồn liệu giám sát bao gồm lời gọi hệ điều hành Audit trails hay system call, log hệ thống số log khác sinh trình tiến trình chạy hệ thống Ưu điểm: HIDS khắc phục nhược điểm mà NIDS gặp phải giám sát hoạt động cụ thể hệ thống truy cập file, thay đổi quyền HIDS thích nghi tốt với mơi trường chuyển mạch mã hóa Phát xâm nhập công từ người dùng bên hệ thống có hành vi xâm hại cách tìm user ID Một ưu điểm HIDS giám sát hành vi người dùng cụ thể, việc giúp xác định nhanh chóng cơng xảy Nhược điểm: HIDS hoạt động phụ thuộc chặt chẽ vào hệ điều hành chạy, điểm yếu hệ thống chạy sử dụng để cơng vơ hiệu hóa chức HIDS Một nhược điểm khác phụ thuộc vào tài nguyên hệ thống sử dụng audit trails, system call làm nguồn liệu yếu tố khơng gian lưu trữ tốc độ truy xuất làm tăng chi phí triển khai hệ thống HIDS Hơn nữa, HIDS đòi hỏi phải cài đặt máy tính riêng rẽ, triển khai cho hệ thống lớn dẫn đến chi phí cao NIDS nhiều Vấn đề crossplatform IDS nhu cầu ngày cao triển khai hệ thống lớn doanh nghiệp, nhiên HIDS gặp nhiều khó khăn trường hợp HIDS phụ thuộc vào tảng chạy Kết luận NIDS HIDS: qua phân tích ưu nhược điểm NIDS HIDS bên học viên thấy dù mục đích ban đầu giống hai cách tiếp cận để giải toán khác Việc xác định hệ thống NIDS hay HIDS tốt câu hỏi khôn ngoan đánh giá IDS mà loại thích hợp với nhu cầu, chi phí phù hợp với hệ thống mà ta cần giám sát HIDS phù hợp với nhu cầu mở rộng nâng cấp hệ thống để thực hệ thống cần có kiến thức chuyên sâu hệ điều hành mà HIDS chạy Hạn chế nhu cầu đa nên tảng cross-platform trở sử dụng HIDS NIDS linh hoạt dễ thực gặp khó khăn triển khai hệ thống mạng có tốt độ cao lưu lượng truyền tải mạng lớn, rào cản quan trọng thách thức NIDS công nghệ IPv6 dần triển khai cung cấp chế mã hóa thơng tin đường truyền 1.2.3 Cơ chế phát xâm nhập Kỹ thuật phát xâm nhập phân thành dạng phát lạm dụng phát dự bất thường Phương pháp phát làm dụng: kiến thức công sử dụng để xây dựng luật mô hình cơng xảy Hệ thống phát xâm nhập cách tìm kiếm hành động tương ứng với kỹ thuật xâm nhập biết đến (dựa dấu hiệu – signatures) Kỹ thuật 26 Chương 2: CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các cơng trình nghiên cứu giới Việc nghiên cứu hệ thống phát xâm nhập đời sớm Tự động phát công vào hệ thống mạng máy tính Phát xâm nhập nhánh nghiên cứu kinh điển lĩnh vực bảo mật máy tính mà khởi thủy sớm từ cơng trình nghiên cứu bảo mật hệ thống multi-user (Anderson, 1980) [11] Những hệ thống IDS dựa phát lạm dụng đời lâu áp dụng thành công công nghiệp Tuy nhiên trước công mạng ngày tinh vi, phức tạp việc phát lạm dụng tỏ bất lực trước cơng chưa có tiền lệ Vì vậy, nhiều tổ chức, viện nghiên cứu, trường đại học nghiên cứu hệ thống IDS dựa bất thường Khái niệm hệ thống IDS dựa bất thường đề Anderson Denning, mà thiết kế đặc trưng số đơn giản để mơ hình hóa dạng cơng mạng Sau Lee Stolfo đưa đặc trưng số gồm 41 đặc điểm mơ tả tồn đặc điểm hệ thống mạng Đây bước phát triển tảng cho cơng trình nghiên cứu sau hệ thống IDS Konrad Rieck [12] đề phương pháp dùng đặc trưng chuỗi để giảm tính phụ thuộc vào dạng công định Rất nhiều kỹ thuật nghiên cứu áp dụng để phát kết nối mạng công mạng hay không chẳng hạn SVM, iSVM, Neural Network [14], [15], SOM nhà nghiên cứu áp dụng Tuy nhiên kết đạt chưa cao chưa triển khai cơng nghiệp Vấn đề khó khăn hệ thống IDS xác suất cảnh báo sai cao hệ thống IDS khơng tính tin cậy Để cải thiện hiệu suất hệ thống IDS năm 1998 lượng lớn liệu phát xâm nhập tài trợ DARPA Một số nghiên cứu ứng dụng mạng Nơ-ron sử dụng tập liệu DARPA để phát xâm nhập cụ thể: Cannady J & Mahaffey J Viện nghiên cứu Kỹ thuật Georgia (GTRI) tiến hành nghiên cứu áp dụng mơ hình Multi-Lever Perceptron MLP/SOM [12], 27 [13], [14], họ mô công ISS, dò qt SYNFlood kết khơng thành cơng việc xác định xác cơng Cunningham R & Lippmann R Phòng thí nghiệm Lincoln tiến hành kiểm tra lưu lượng mạng sử dụng mơ hình Multi-Lever Perceptron mơi trường Unix Các báo động sai giảm xuống có 68/73 công phát báo động sai Với phương pháp tiếp cận mạng Nơ-ron báo động sai giảm đáng kể Với sở liệu DARPA hệ thống phát cơng cũ chưa có tập liệu Girardin phòng thí nghiệm UBILAB sử dụng giải thuật SOM để thực việc phân cụm lưu lượng mạng phát công dựa mạng Nơ-ron Girardin mô cơng như: Giả mạo IP, FTP, dò mật khẩu, qt mạng Tuy nhiên tiếp cận quản trị viên cần giải thích trực quan lưu lượng mạng để phát xâm nhập Nhận thấy độ xác thời gian phát xâm nhập hai yếu tố quan trọng Trong luận văn tập trung vào hai yếu tố để tăng hiệu phát xâm nhập với thời gian hợp lý Tất nguyên nhân khuyến khích tơi nghiên cứu đề tài xây dựng hệ thống phát xâm nhập IDS để kế thừa phát huy điểm khắc phục nhược điểm từ cơng trình nghiên cứu trước 2.2 Các cơng trình nghiên cứu nước Hệ thống phát xâm nhập IDS dựa vào phương pháp máy học đề tài tập trung nghiên cứu năm gần cụ thể năm 2008 luận văn Thạc sĩ tác giả Nguyễn Đức Cường [1] trình hệ thống phát xâm nhập mạng sử dụng công cụ Snort Trong luận văn tác giả xây dựng hệ thống giám sát Snort thông qua chế lắng nghe lọc liệu mạng vào tập luật quy định sẵn để đưa cảnh báo, hệ thống không chủ động phát dấu hiệu xâm nhập chưa có tiền lệ 28 Năm 2009 tác giả Nguyễn Phương Chính [2] đề xuất giải pháp phát ngăn chặn truy cập trái phép vào mạng dựa kỹ thuật khai phá liệu Tác giả giới thiệu công cụ MINDS dựa liệu Netflow để đưa cảnh báo xâm nhập mạng nhiên phương pháp nhiều hạn chế đòi hỏi phải mơ tả cách xác dấu hiệu, tốn tài nguyên lưu trữ, phụ thuộc nhiều vào quản trị hệ thống phải thường xuyên cập nhật công Năm 2012 tác giả Nguyễn Đức Hiển [3] đề xuất giải pháp sử dụng máy vector hỗ trợ đa lớp ứng dụng phát công mạng Giải pháp có độ phân lớp xác cao, tỉ lệ False Positive tốt giúp cho hệ thống phát sớm công mạng giảm thiểu cảnh báo sai Tuy nhiên độ xác giải pháp phụ thuộc vào tham số  C người sử dụng lựa chọn Năm 2013 tác giả Nguyễn Mạnh Hùng [4] đề xuất giải pháp phát phòng chống xâm nhập trái phép mạng máy tính Tác giả sư dụng công cụ NeSSi2 TU Berlin phát triển mô hệ công tự động dựa profile, phân tích lưu lượng mạng Tuy nhiêu tác giả mô thành công môi trường giả lập chưa đưa vào ứng dụng thực tế Năm 2016 tác giả Võ Văn Trường [5] đề xuất nghiên cứu ứng dụng kỹ thuật học máy toán phát mã độc Tác giả sử dụng kỹ thuật học máy vào việc phân lớp phát mã độc với độ xác khả quan 94,5% Năm 2016 tác giả Lê Minh Kha [6] đề xuất giải pháp ứng dụng kỹ thuật học máy việc phát xâm nhập mạng Tác giả giới thiệu công cụ TensorFlow sử dụng tập liệu KDD99 để phát xâm nhập mạng Tuy nhiên độ xác TensorFow nhạy cảm với tham số Nơ-ron network thuộc tính đầu vào người sử dụng lựa chọn, thời gian huấn luyện kiểm tra cần phải cải thiện thêm 29 Chương 3: THUẬT TOÁN ĐỀ XUẤT CẢI TIẾN 3.1 Giới thiệu chung Trong chương trình bày thuật tốn đề xuất phát xâm nhập, cách giải vấn đề phát xâm nhập, cụ thể sử dụng thuật toán SOM K-Means phối hợp để phát xâm nhập mạng SOM truyền thống cung cấp kết phân cụm xác cho chúng ta, K-Means truyền thống phụ thuộc vào giá trị ban đầu nghiêm trọng khó để tìm trung tâm cụm Vì vậy, luận văn đề xuất thuật toán mới, đầu tiên, sử dụng K-Means thu cụm, sau đó, sử dụng SOM để rút xâm nhập 3.2 Thuật toán đề xuất Trong thuật toán này, đề xuất xin kết hợp mạng nơron SOM thuật toán Kmeans xử lý liệu thu từ mạng, theo thứ tự K-means trước tới SOM, tạm gọi thuật toán K-S Về thuật toán K-means: - Thuật toán K-means phương pháp phổ biến để phân cụm liệu định lượng đa biến - Thuật tốn khơng tham số tự nhiên khơng giả định mơ hình xác suất cho liệu Với số lượng cụm cố định, xác định việc gán vectơ liệu (quan sát) cho cụm cho thu nhỏ tổng số khoảng cách bình phương quan sát gán cho cụm tổng kết tất cụm Thuật toán sử dụng phép đo khoảng cách bình phương Euclide Về thuật toán SOM: - Đầu tiên, SOM thuật toán mạng Neural, trọng lượng nút đầu vào nơron đầu kết nối với Cạnh tranh diễn nơron đầu vào để lựa chọn 30 - Trong số tế bào thần kinh đầu có đàn áp, chức năng, thay đổi tế bào thần kinh quy tắc nhóm tế bào thần kinh liên quan đến thay đổi quy tắc - Do đó, toàn mạng thần kinh chức tự tổ chức thông qua việc sử dụng số lượng lớn liệu mẫu đào tạo để điều chỉnh trọng số Vì vậy, đầu mạng phản ánh phân bố liệu trình học tập SOM, bao gồm trình cạnh tranh, trình hợp tác đổi quy trình Sử dụng SOM sau phân cụm K-Means: - Trong phương pháp này, mẫu xử lý thô cách K-Means với k=3, gồm cụm với tiêu chí : Dữ liệu thơng thường, liệu nghi ngờ có xâm nhập, liệu chắn có xâm nhập - Sau xử lý nhóm liệu phân cụm từ K-Means, nhóm có nguy xâm nhập cao, sử dụng mạng nơron SOM đầu tiên, sau số lượng cụm trung tâm cụm thu SOM, trả kết cho tốn - Mơ tả chi tiết thuật tốn sau: Hình 3.1: Mơ hình thuật tốn đề xuất (K-S Algorithm) 31 3.3 Mơ tả thuật toán Dựa vào liệu qua mạng mà hệ thống lưu trữ được, ta xử lý tinh chỉnh liệu network theo tiêu chuẩn, từ làm đầu vào cho thuật toán Thuật toán gồm module chính: (A) Module K-Means: xử lý thơ thành cụm với tiêu chí là: Dữ liệu thơng thường, liệu nghi ngờ có xâm nhập, liệu chắn có xâm nhập (có nguy xâm nhập cao) Input: Số cụm k=3 trọng tâm cụm {mj}kj=1 Output: Các cụm C[i] (1 ≤ i ≤ k) hàm tiêu chuẩn E đạt giá trị tối thiểu Begin Bước 1: Khởi tạo Chọn k trọng tâm {mj}kj=1 ban đầu không gian Rd (d số chiều liệu) Việc lựa chọn ngẫu nhiên theo kinh nghiệm Bước 2: Tính tốn khoảng cách Đối với điểm Xi (1 ≤ i ≤ n), tính tốn khoảng cách tới trọng tâm mj (1 ≤ j ≤ k) Sau tìm trọng tâm gần điểm Bước 3: Cập nhật lại trọng tâm Đối với ≤ j ≤ k, cập nhật trọng tâm cụm mj cách xác định trung bình cộng vectơ đối tượng liệu Điều kiện dừng: Lặp lại bước trọng tâm cụm không thay đổi End (B) Module SOM: xử lý cụm có nguy xâm nhập cao 32 Bước 1: Khởi tạo trọng số: Với j W (j = 1, 2, ⋯, p), vectơ trọng số khớp nút đầu vào nút đầu thứ j, cho số ngẫu nhiên Và số vòng lặp t phải khởi tạo, đặt t = Bước 2: Điều chỉnh trọng số: Đối với mẫu đầu vào mẫu Xk (k = 1, 2, ⋯, m): - Vectơ trọng số khoảng cách nhỏ Xi Wj thu cơng thức sau: - Nút g xác định cho nút người chiến thắng Ng(t) xác định cho vùng lân cận người chiến thắng Các trọng số khu vực lân cận nên điều chỉnh theo công thức sau: Trong công thức, η(t) tỷ lệ học được, giảm theo số lần tăng số lần huấn luyện; xtk đầu vào nút i-th mẫu liệu k-th j∈ Ng(t) - Lặp lại bước trọng trọng số mạng ổn định - Sau hội tụ mạng, theo phản ứng nút đầu ra, việc phân cụm mẫu hồn thành Bước 3: Xác định trung tâm cụm số trung tâm cụm: Số lượng cụm C trung tâm cụm Z ={Z1, Z2…} thu Bước 4: Cài đặt ngưỡng: Theo kết phân cụm thu từ giai đoạn trên, Z ={Z1, Z2…} tâm cụm Y={y1, y2…} đầu sau phân cụm SOM giai đoạn Sj = { y| y ∈Sj} mẫu lấy có tất phần tử nằm cụm có trung tâm Zj Và ngưỡng vòng lặp lặp lại cho điểm dừng ε Bước 5: Phân chia mẫu: Thông qua bước này, mẫu vector phải chia thành cụm Điều kiện phân chia là: 33 Nếu Yp đáp ứng bất bình đẳng, Yp ∈ Sj, Sj đại diện cụm j Bước 6: Tính tốn lại trung tâm cụm mới: Với cụm mà học viên nhận từ bước 5, trung tâm cụm tính lại, cho tổng khoảng cách Jj vectơ cụm trung tâm cụm nhỏ Zj(l+1) trung tâm cụm cụm j, tính theo cơng thức sau: Trong công thức trên, Nj số lượng vectơ mẫu cụm j Kiểm tra hội tụ Nếu thuật tốn dừng lại, chuyển sang bước để tiếp tục lặp lại 3.4 Kết luận chương Trong thuật toán này, học viên kết hợp thuật toán K-means mạng nơron SOM để nhóm liệu thu từ mạng Thuật tốn đề xuất nhằm khắc phục khiếm khuyết thuật toán truyền thống cách hiệu Kết thử nghiệm cho thấy thuật tốn có độ ổn định tốt hiệu độ xác phân cụm 34 Chương 4: MƠ PHỎNG VÀ ĐÁNH GIÁ THUẬT TỐN ĐỀ XUẤT CẢI TIẾN 4.1 Giới thiệu chung Trong chương trình bày cài đặt mơ thuật tốn đề xuất so sánh với kết thuật toán đề xuất đơn SOM 4.2 Môi trường mô thực nghiệm Trong thí mơ này, học viên sử dụng hệ thống Windows 10 STS IDE để phát triển tảng, liệu thử nghiệm mô đến từ nguồn liệu KDD CUP 99 Trong thí nghiệm này, kết hợp hai phương thức với nhau, phân cụm với K-Means kết thúc, áp dụng SOM, sau SOM kết thúc phân cụm, kết cuối phân cụm Tiêu chí đánh giá: Thực nghiệm mơ thuật tốn có S-K, SOM, đề xuất K-S Sau so sánh kết đạt 4.3 Thực nghiệm kết mô Kết chạy thực nghiệm mô ta có kết sau: 35 Bảng 4.1: So sánh S-K, SOM, K-S S-K Kiểu liệu Thông thường + Buffer OverFlow Thông thường + IP Sweep Thông thường+ Smurf SOM K-S Tỉ lệ phát Tỉ lệ phát sai Tỉ lệ phát Tỉ lệ phát sai Tỉ lệ phát Tỉ lệ phát sai 93 18 90 56 92 20 97 22 77 59 98 25 100 89 32 98 10 Trong bảng với tỷ lệ phát tỷ lệ phát sai, Chúng ta dễ dàng thấy thuật tốn đề xuất K-S có tỷ lệ phát cao SOM xấp xỉ S-K bảng 4.1 Và sau đưa đầu vào thử nghiệm lại với nhau, lần có nhóm liệu thử nghiệm mơ phỏng, gồm 3500 mẩu tin bao gồm liệu mạng bình thường loại xâm nhập, là, tràn đệm, quét IP Smurf Kết thử nghiệm sau: Bảng 4.2: So sánh S-K, SOM, K-S S-K Kiểu liệu (Thông thưởng + Phát Tỉ lệ phát Tỉ lệ phát hiện) hiện sai Thông thường + Buffer 61 52 OverFlow + IP Sweep SOM K-S Tỉ lệ phát Tỉ lệ phát sai Tỉ lệ phát Tỉ lệ phát sai 79 33 59 30 Mơ cho thấy thuật tốn phát kết hợp K-means SOM làm tăng tỷ lệ phát giảm tỷ lệ dương tính giả rõ ràng Tuy nhiên, thử nghiệm mô thứ hai, có nhiều loại xâm nhập giới thiệu, thuật tốn S-K khơng hoạt động mặt lý thuyết Điều việc áp dụng K-Means loại bỏ nút mờ phần trước, thuật toán 36 Kmeans sau trở thành hỗn loạn phân cụm, giảm tỷ lệ phát SOM Thuật toán K-S giảm hỗn loạn phân cụm sau SOM Sau SOM hoàn thành việc đào tạo với đầu vào bình thường, nút kích thích biểu diễn n loại mẫu mạng bình thường (n cụm), nút khơng kích thích, cụm (n + 1) biểu diễn mẫu xâm nhập Trong mô đầu tiên, loại xâm nhập giới thiệu nhóm, loại xâm nhập tương tự Vì vậy, thơng qua nhận biết SOM, cụm cuối bao gồm kiểu xâm nhập, điều làm cho cụm biểu xâm nhập nhỏ gọn hơn, sử dụng Kmeans để tinh chỉnh kết quả, cụm cuối cùng, khoảng cách vector trung tâm cụm nhỏ nhiều so với khoảng cách vector trung tâm cụm đại diện cho mẫu bình thường, học viên nhận kết xác Tuy nhiên, thử nghiệm mô thứ hai, học viên đặt ba loại xâm nhập vào cụm, khoảng cách phần tử cụm trung tâm cụm lớn khoảng cách phần tử cụm trung tâm cụm đại diện cho mẫu bình thường, sử dụng KMeans để tinh chỉnh cụm, đưa mẫu xâm nhập vào cụm bình thường khơng xác Bảng 4.3: So sánh S-K, SOM, K-S S-K Kiểu liệu (Thông thưởng + Phát Tỉ lệ phát Tỉ lệ phát hiện sai hiện) Thông thường + Buffer 92 35 OverFlow +Smurf+ IP Sweep SOM K-S Tỉ lệ phát Tỉ lệ phát sai Tỉ lệ phát Tỉ lệ phát sai 79 33 88 32 Bảng 4.3 cho thấy thuật tốn K-S cải tiến có tiến lớn tỷ lệ phát Tuy nhiên, so với S-K thua chút, điều đời ngưỡng Ngưỡng lớn gây tỷ lệ phát thấp hơn, ngưỡng nhỏ 37 dẫn đến tỷ lệ phát sai cao Vì vậy, định ngưỡng hợp lý quan trọng Mối quan hệ tỷ lệ phát tỷ lệ phát sai mâu thuẫn vĩnh cửu Sau số thử nghiệm, học viên kết luận việc đưa giá trị 2.0 3.0 đến ngưỡng giữ tỷ lệ phát cao kiểm soát tỷ lệ phát sai phạm vi thấp 4.4 Kết luận chương Trong chương này, sử dụng kết hợp thuật toán K-means thuật toán mạng nơron SOM để phân cụm liệu Trong thuật toán giới thiệu hai phương pháp để kết hợp K-Means SOM, sử dụng KDD CUP 99 làm nguồn liệu, thông qua nhiều thử nghiệm mô phỏng, tốc độ phát cải thiện rõ ràng, số lỗi tìm thấy phát loại xâm nhập đơn lẻ Để hạn chế này, chế ngưỡng giới thiệu để giải Sử dụng thuật tốn K-S cải thiện, hệ thống giữ tỷ lệ phát cao kiểm soát tỷ lệ phát sai phạm vi thấp Cuối cùng, học viên nghiên cứu mối quan hệ ngưỡng tỷ lệ phát hiện, tỷ lệ phát sai Trong tương lai, học viên tiếp tục nghiên cứu cách giữ tỷ lệ phát cao giảm tỷ lệ phát sai cách hiệu 38 KẾT LUẬN & KIẾN NGHỊ Luận văn trình hướng tiếp cận có hiệu ứng dụng máy học để phát xâm nhập nhập trái phép vào mạng Mục đích luận văn nghiên cứu kỹ thuật cách thức xâm nhập mạng máy tính; phương pháp hệ thống phát xâm nhập trái phép mạng máy tính để từ đề biện pháp phát xâm nhập trái phép mạng máy tính cách hiệu Các kết đạt cụ thể luận văn gồm: - Nghiên cứu vấn đề xâm nhập mạng máy tính, kỹ thuật công xâm nhập trái phép mạng máy tính với hậu - Trình bày phân tích phương pháp phát xâm nhập mạng máy tính; hệ thống phát xâm nhập trái phép mạng máy tính - Nghiên cứu đề xuất biện pháp kỹ thuật phòng chống xâm nhập; khả tích hợp hệ thống phát ngăn chặn xâm nhập mạng- Tích hợp trí tuệ nhân tạo K-Means SOM vào hệ thống đảm bảo khả phát xâm nhập xác với thời gian đáp ứng yêu cầu Tuy nhiên, thời gian nghiên cứu có hạn, phạm vi nghiên cứu chưa sâu rộng nên kết đạt luận văn không tránh khỏi hạn chế định Hướng phát triển luận văn mở rộng phương pháp với nhiều hướng tiếp cận phân tích mã độc phân tích động, phân tích dựa kinh nghiệm từ phối hợp với thuật tốn máy học vào q trình xây dựng hệ thống có khả tự động nhận diện với đa dạng mã độc cách xác, đồng thời tiếp tục nghiên cứu, nhằm nâng cao hiệu hiệu hệ thống 39 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Nguyễn Đức Cường (2008), Hệ thống phát xâm nhập, Hà Nội [2] Nguyễn Phương Chính (2009), Giải pháp phát ngăn chặn truy cập trái phép vào mạng, Hà Nội [3] Nguyễn Đức Hiền (2012), Máy Vecto hỗ trợ đa lớp ứng dụng phát công, Hà Nội [4] Nguyễn Mạnh Hùng (2013), Phát phòng chống xâm nhập trái phép mạng máy tính, Tp.HCM [5] Võ Văn Trường (2016), Nghiên cứu ứng dụng kỹ thuật học máy vào toán phát mã độc, Hà Nội [6] Lê Minh Kha (2016), Kỹ thuật học máy việc phát xâm nhập mạng, Tp.HCM [7] Richard Bejtlich (2013), The Pracce Of Network Security Monitoring, No Starch Press [8] Chris Sanders&Jason Smith (2014), Applied Network Security Monitoring, USA [9] Taylor & Francis Group (2013), Network Anomaly Detection A Machine Learning Perspective [10] Drew Conway and John Myles White (2012), Machine Learning for HackersO'Reilly Media [11] Anderson (1980), Computer Security Threat Monitoring and Serveillance, Washington [12] Konrad Rieck (2009), Machine learning for application-Layer intrusion detection, Berlin, Germany [13] Shyam M.Guthikonda (2005), Kohonen Self-Organizing Maps, Wittenberg University 40 [14] Mehotra, K., Mohan, C.K., Ranka.S (1997), Self-Organizing Maps (SOMs), ANN Neural Networks, MIT Press [15] James Cannady (1997), Artificial Neural Networks for Misuse Detection, School of Computer and Information Sciences, Nova Southeastern University [17] A T Shah1, S S Jagtap2, P P Kakade3, N B.Tekawade4, Prof P M Daflapurkar (2014), A Real-Time Intrusion Detection System using Artificial NeuralNetworks (ANN), MMIT Lohgaon [18] Mahdi Zamani and Mahnush Movahedi (2015), Machine Learning Techniques for Intrusion Detection, May 2015 [19] Vipin Das, Vijaya Pathak, Sattvik Sharma, Sreevathsan, MVVNS.Srikanth, Gireesh Kumar T, Network Intrusion Detection System Based on Machine Learning [20] Sundus juma, Zaiton muda, 1m.a mohamed, warusia yassin (2015), Machine Learning Techniques for Intrusion Detection System, February 2015 ...HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN TRẦN THANH SƠN XÂY DỰNG HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN PHƯƠNG PHÁP MÁY HỌC Chuyên ngành: Hệ thống thông tin... cảnh 1.2 Tổng quan hệ thống phát xâm nhập IDS 1.2.1 Hệ thống phát xâm nhập IDS Tự động phát công vào hệ thống máy tính, phát xâm nhập nhánh nghiên cứu kinh điển lĩnh vực bảo mật máy tính mà khởi... dựng mơ hình máy học tốt đạt hiệu xác hiệu suất cao Chính lý trên, việc lựa chọn đề tài nghiên cứu Xây dựng hệ thống phát xâm nhập dựa phương pháp máy học cần thiết để kịp thời phát ngăn chặc

Ngày đăng: 24/08/2018, 16:08

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan