Hệ thống đƣợc phát triển bằng ngôn ngữ C# trên môi trƣờng Microsoft Visual Studio. NET 2008, hệ điều hành Windows 32 bit.
Cấu hình máy để cài đặt:
Tốc độ CPU: 1.6 GHZ chạy tốt nhất với tốc độ 3.2 trở lên Dung lƣợng RAM: 1G chạy tốt nhất với RAM 4G
Không gian bộ nhớ: 1G chạy ổn định với không gian bộ nhớ 4G Thông tin chƣơng trình cài đặt:
Ngôn ngữ C #
Công cụ phát triển Microsoft Visual Studio 2008
Kiểu ứng dụng Ứng dụng trên nền Windows 32 bist Hệ điều hành Windows 32 bit
Môi trƣờng hoạt động MS. Net Framework 4.0 Cơ sở dữ liệu Microsoft SQL 2008 Kết nối cơ sở dữ liệu ADO.NET
3.5.1. Giao diện chính của chƣơng trình
Hình 3.7: Giao diện menu chính Chức năng của các thành phần nhƣ sau:
+Chọn File: Cho phép chọn File dữ liệu thô đầu vào cho bài toán là File có dạng .txt hoặc .Log để khai phá, File khai phá theo ngƣỡng số kết nối từ một RemoteHost tới LocalHost trong một cửa số thời gian (mặc định 60s).
+Làm lại: cho phép chọn lại file khác để thực hiện quá trình khai phá từ đầu. +HTTP: cho phép mở ra một giao diện khai phá dữ liệu dƣới dạng giao thức kết nối là HTTP.
+KP tự động: cho phép mở ra một giao diện khai phá tự động sau một khoảng thời gian tùy chọn.
+Gom dữ liệu: thực hiện công việc đọc file dữ liệu thô đƣợc chọn sau đó lƣu dữ liệu vào bảng TCP trong CSDL và thực hiện các thao tác chuyển đổi một số thuộc tính từ dạng văn bản sang dạng số để tham chiếu.
+Tiền xủa lý: cho phép mở ra một giao diện tiền xử lý dữ liệu thô đầu vào vừa chọn cho đầu vào bài toán.
+Thoát: cho phép thoát hỏi chƣơng trình
3.5.2. Giao diện HTTP
Hình 3.8: Giao diện khai phá giao thức HTTP Chức năng của các thành phần nhƣ sau:
+Chọn file Khai phá: chọn file dữ liệu thô đầu vào cho bài toán file.txt hoặc file.log, file khai phá theo dấu hiệu bất thƣờng trên giao thức HTTP.
+Chọn bảng trong cơ sở dữ liệu TCP: cho phép khai phá dữ liệu trên bảng CSDL TCP vừa thực hiện sau tiến trình Gom cụm.
+Cửa sổ thời gian: cho phép chọn khoảng thời gian khai phá mặc định là 60s +HTTP: cho phép khai phá theo dấu hiệu bất thƣờng trên giao thức HTTP dựa theo ngƣỡng kết nối và kích thƣớc của cách Request theo giao thức HTTP.
+Tất cả các giao thức: cho phép khai phá dữ liệu dựa trên mẫu bất thƣờng là số các Request của tất cả các giao thức kết nối.
+Khai phá: thực hiện chức năng khai phá dữ liệu thỏa mãn các thông số tùy chọn.
+Thực hiện lại: cho phép chọn lại các thông số tùy chọn để thực hiện khai phá. +Form main: cho phép kết thúc quá trình khai phá và trở về giao diện Form main.
+Thoát: thoát khỏi chƣơng trình.
3.5.3. Giao diện tự động
Hình 3.9: Giao diện khai phá dữ liệu tự động Chức năng của các thành phần nhƣ sau:
+Chọn file dữ liệu khai phá: chọn file dữ liệu thô đầu vào cho bài toán.
+Chọn cửa sổ thời gian: chọn cửa sổ thời gian thực hiện khai phá chƣơng trình sẽ tự động khai phá sau một khoảng thơig gian tùy chọn.
+Mốc thời gian bắt đầu khai phá: chọn mốc thời gian bắt đầu khai phá, có thể lấy mốc thời gian thực của hệ thống đang sử dụng.
+Xét theo số Request đến: cho phép chọn ngƣỡng là số lần kết nối đến một LocalHost trên một cửa sổ thơi gian mặc định là 60 s
+Xét theo dấu hiệu của giao thức HTTP: ta phải chọn các ngƣỡng đầu vào mẫu bất thƣờng là kích thƣớc Request và ngƣỡng kết nối.
+Kết quả: hiển thị kết quả quá trình khai phá
+Stop: tạm dừng tạm thƣời việc khai phá dữ liệu và bảo lƣu trang thái của chƣơng trình.
+Làm lại: cho phép thực thi khai phá tự động lại từ đầu với các thông số tùy chọn mới.
+Quay về: dừng quá trình khai phá tự động và trở lại Form main. +Thoát: thoát khỏi chƣơng trình.
3.5.4. Giao diện tiền xử lý
Hinh 3.10: Giao diện tiền xử lý dữ liệu Chức năng của các thành phần nhƣ sau:
+Thời gian xử lý: tùy chọn khoảng thời gian để xử lý mặc định 60 s
+Tiền xử lý: đọc dữ liệu đầu vào và lƣu vào bảng TCP trong CSDL, đồng thừoi chuyển đổi một số trƣờng từ dạng văn bản sang dạng số cho phù hợp với đầu vào của thuật toán.
+Khai phá: mở ra giao diện khai phá với ngƣỡng đầu vào là số kết nối từ một RemoteHost tới LocalHost trong một cửa sổ thời gian tùy chọn.
+Kết quả: hiển thị kết quả cảu quá trình tiền xử lý.
3.5.5. Giao diện Khai phá dữ liệu
Hình 3.11: Giao diện Khai phá dữ liệu dựa trên ngƣỡng kết nối Chức năng của các thành phần nhƣ sau:
+Số lần kết nối: ngƣỡng đầu vào là số lần kết nối từ một RemoteHost tới một LocalHost trên một của sổ thời gian.
+Kết quả KP: hiển thị kết quả khai phá đƣợc là các cụm bất thƣờng, kết quả nhận đƣợc phụ thuộc vào ngƣỡng đầu vào cảu bài toán.
+Tiền xử lý DL: cho phép quay lại cửa sổ Tiền xử lý để thực hiện lại quá trình tiền xử lý cho phù hợp.
+Thoát: thoát khỏi chƣơng trình.
3.6. Nhận xét bài toán KPDL
Ứng dụng đã sử dụng thuật toán phân cụm K-Medoids trong Khai phá dữ liệu, để phát hiện ra sự bất thƣờng trong cơ sở dữ liệu kết nối mạng. Từ đó đƣa ra các cảnh báo bằng cách hiển thị kết quả các cụm dữ liệu “bất thƣờng” từ cơ sở dữ liệu thu thập đƣợc cho nhà quản trị.
Với dữ liệu đầu vào của bài toán từ tập dữ liệu thô ghi lại dấu vết các kết nối mạng từ một “Localhost” với các phần còn lại của mạng, sau khi sử dụng các kỹ thuật trong khai phá dữ liệu và thuật toán phân cụm K-Medoids nhƣ: gom cụm dữ liệu, tiền xử lý dữ liệu, chuyển đổi dữ liệu phù hợp với đầu vào thuật toán yêu cầu,
khai phá dữ liệu để đạt đƣợc kết quả đầu ra của bài toán là cụm dữ liệu “bất thƣờng” để cảnh báo cho nhà quản trị mạng về độ an toàn của hệ thống mạng.
Nhƣ vậy với việc kết hợp bài toán ứng dụng khai phá cơ sở dữ liệu, để tìm ra các cụm dữ liệu “bất thƣờng” trong cơ sở dữ liệu mạng đƣợc ghi nhận lại bởi việc sử dụng một hệ thống có độ tin cậy đã đƣợc kiểm nhiệm và công nhận nhƣ: TCPdum trên nền hệ điều hành *NIX, Windump trên nền hệ điều hành Windows. Ƣng dụng đã giải quyết đƣợc vấn đề của bài toán đặt ra sử dụng kỹ thuật khai phá dữ liệu để phát hiện ra cum dữ liệu “ bất thƣờng” trong cơ sở dữ liệu mạng, từ đó đƣa ra cảnh báo bất thƣờng về mạng cho nhà quản trị.
KẾT LUẬN VÀ HƯỚNG PHÁP TRIỂN
Đảm bảo An ninh mạng luôn là vấn đề đƣợc nhiều cơ quan, tổ chức cũng nhƣ cá nhân đặc biệt quan tâm. Để đảm bảo an toàn mạng phải cần các phƣơng pháp, kỹ thuật phải luôn đƣợc cập nhật liên tục và đủ mạnh để chống trả lại các cuộc tấn công bất hợp pháp từ nhiều hƣớng vào hệ thống mạng.
Khai phá dữ liệu để phát hiện ra sự bất thƣờng trong cơ sở dữ liệu tấn công đã mở ra một hƣớng phát triển mới cho lĩnh vực đảm bảo an toàn, An ninh mạng. Nhằm đƣa ra các cảnh báo sớm nhất, chính xác nhất về các cuộc tấn công bất thƣờng vào hệ thống mạng. Từ đó đề xuất thêm các giải pháp để ngăn chặn và phòng chống cho các cuộc tấn công tiếp theo.
Những vấn đề đã đạt đƣợc trong luận văn
+ Đã tìm hiểu đƣợc các vấn đề cơ bản về một hệ thống phát hiện xâm nhập mạng.
+ Nghiên cứu một số kỹ thuật và lĩnh vực ứng dụng trong Khai phá dữ liệu.
+ Nghiên cứu một số phƣơng pháp để phát hiện bất thƣờng trong các traffic mạng.
+ Đã đề xuất giải pháp kĩ thuật để phát hiện xâm nhập mạng bất thƣờng dựa trên Khai phá dữ liệu.
+ Đã vận dụng đƣợc kĩ thuật phân cụm, sử dụng thuật toán K-Medoids để phát hiện ra sự bất thƣờng trong cơ sở dữ liệu mạng.
Hƣớng phát triển
+ Đi sâu hơn vào thuật toán phân cụm trong Khai phá dữ liệu để tối ƣu hóa ứng dụng phát hiện xâm nhập mạng máy tính bất thƣờng.
+ Sử dụng các kết quả đã đạt đƣợc trong luận văn hoàn thiện hệ thống có đầy đủ chức năng phát hiện và ngăn chặn xâm nhập mạng máy tính bất thƣờng đủ mạnh để ứng dụng trong thực tế.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] TS. Nguyễn Ngọc Cƣơng (2012), An ninh mạng và tác chiến tin học, nhà xuất bản Công An Nhân Dân.
[2] Vũ Đình Cƣờng (2009), Tìm hiểu các cuộc tấn công cơ bản & phương
pháp phòng chống, nhà xuất bản Lao động Xã hội.
Tiếng Anh
[3] K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods
for Knowledge Discovery, Kluwer Academic Publishers.
[4] Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan(2002), Data Mining for Network Intrusion
Detection.
[5] The Information Assurance Technology Analysis Center (IATAC) (2009), Intrusion Detection Systems. http://iac.dtic.mil/iatac
[6] ZhaoHui Tang and Jamie MacLennan (2005). Data Mining with SQL Server 2005. Wiley Publishing, Inc., Indianapolis, Indiana.
[7] http://www.wireshark.org/docs/wsug_html_chunked/