Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
0,98 MB
Nội dung
MỤC LỤC DANH MỤC CÁC BẢNG 2 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 3 MỞ ĐẦU 4 Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 8 1.1.Khai phá dữ liệu và quá trình phát triển tri thức 8 1.2. Khai phá dữ liệu là gì? 10 1.2.1. Khái niệm 10 1.2.2 Cáùc bước của quá trình khai phá dữ liệu 11 1.2.3 Các thành phần của giải thuật khai phá dữ liệu 13 1.3 Các phương pháp khai phá dữ liệu 14 1.3.1 Phương pháp quy nạp (Induction) 14 1.3.2 cây quyết đònh (Decision Trees) 15 1.3.3 Mạng nơron ( Neural networks) 16 1.4 Những thách thức trong khai phá dữ liệu 21 1.5. Ứng dụng của khai phá dữ liệu 23 Chương 2: ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC CẢNH BÁO NGUY CƠ MẤT AN NINH TRÊN MẠNG 24 2.1. Phát triển và bảo mật mạng cục bộ hiện nay 24 2.3 Xây dựng đề tài 26 2.3.1 Mục đích xây dựng đề tài 26 2.3.2 Yêu cầu 27 Chương 3: M T S GIAO THỨC TRUYỀN TIN TRÊN M NGỘ Ố Ạ 28 3.1 Cơ chế truyền tin và kỹ thuật truyền gói tin trên mạng 28 3.1.1 Gói tin dạng Datagram 29 3.1.2. Các giao thức (Protocols), cổng (Ports) và Sockets 30 3.2. Các giao thức truyền tin và cấu trúc một số gói tin trên mạng 36 3.2.1. Giao thức Internet (Internet Protocol - IP) 36 3.2.2. Giao thức điều khiển truyền tin (Transmission Control Protocol - TCP) 40 3.2.3. Giao thức không kết nối (User Datagram Protocol - UDP) 45 3.2.4. Giao thức điều khiển thông điệp (Internet Control Message Protocol - ICMP) 49 3.2.5. Giao thức chuyển đòa chỉ ARP (Address Resolution Protocol) và giao thức chuyển ngược đòa chỉ RARP (Reverse Address Resolution Protocol) 52 -1- DANH MỤC CÁC BẢNG Bảng 5.1: Bảng dữ liệu lưu trữ các thông tin phần header của gói tin…………………64 Bảng 5.2: Một số lớp chính của Project Sniffer……………………………………………………………67 Bảng 5.3: Một số lớp chính của Project Sniffer UI………………………………………………………68 -2- DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Quá trình phát hiện tri thức từ Cơ sở dữ liệu……………………………………………………9 Hình 1.2 Quá trình khai phá dữ liệu……………………………………………………………………………………11 Hình1.3 Minh hoạ cây quyết đònh………………………………………………………………………………………16 Hình 1.4 : Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron…………………………………17 Hình 3.1 Khuôn dạng của IP Datagram………………………………………………………………………………29 Hình 3.2 Quá trình xử lý truyền dữ liệu.……………………………………………………………………………34 Hình 3.3 Gói thông tin IP trong một frame Ethernet……………………………………………………37 Hình 3.4 Qúa trình truyền thông tin giữa các mạng khác nhau…………………………………39 Hình 3.5 Quá trình truyền nhận thông tin trên mạng……………………………………………………………42 Hình 3.6 Gói tin TCP chứa trong một Ethernet frame………………………………………………………43 -3- Hình 3.7 Cấu trúc gói tin UDP…………………………………………………………………………………………………46 Hình 3.8 Phân kênh và hợp kênh……………………………………………………………………………………………47 Hình 3.9 Đònh dạng của thông báo ICMP……………………………………………………………………………49 Hình 3.10 Mô tả việc đònh hướng lại gói tin trên mạng X.25…………………………………51 Hình 3.11 Mô tả cơ chế chuyển giao đòa chỉ động………………………………………………………53 Hình 3.12 Mô tả gói thông tin ARP…………………………………………………………………………………54 Hình 4.1 Cấu trúc chung của gói tin…………………………………………………………………………………57 Hình 4.2 Các trường trong Type of service……………………………………………………………………58 Hình 5.1 Sơ đồ chức năng của hệ thống …………………………………………………………………………63 Hình 5.2 Thể hiện chức năng phân tích của chương trình ………………………………………69 Hình 5.3 Thể hiện chức năng cảnh báo của chương trình………………………………………70 Hình 5.4 Giao diện chính của chương trình…………………………………………………………………70 Hình 5.5 Giao diện hiển thò danh sách gói tin……………………………………………………………71 Hình 5.6 Giao diện hiển thò gói tin ICMP……………………………………………………………………71 Hình 5.7 Giao diện hiển thò các cảnh báo mà chương trình đưa ra……………………72 MỞ ĐẦU Trong thời đại hội nhập kinh tế toàn cầu hiện nay, vấn đề trao đổi thông tin ngày càng trở nên quan trọng và cấp thiết. Việc có được thông tin chính xác kòp thời là hết sức quan trọng đối với mọi cá nhân cũng như các tổ chức và doanh nghiệp. Mạng máy tính đóng vai trò rất quan trọng, nó giúp cho mọi người tiếp cận, trao đổi những thông tin mới nhất một cách nhanh chóng và thuận tiện. Tuy nhiên, để đảm bảo an toàn của các thông tin trên mạng là một công việc rất phức tạp. Thông tin trên các mạng máy tính có thể gặp rất nhiều hiểm hoạ từ cacù hiểm hoạ ngẫu nhiên cho đến những hiểm hoạ cố ý. Tất cả những -4- hiểm hoạ đều dẫn đến mất mát thông tin hay làm sai lệch thông tin dưới nhiều góc độ khác nhau. Vì vậy việc bảo vệ thông tin trên các mạng máy tính là một công việc hết sức cần thiết. Công nghệ thông tin càng đi sâu vào cuộc sống thì vấn đề an toàn thông tin càng phải được quan tâm. Vấn đề an ninh, an toàn thông tin trên mạng là cái cần được giải quyết đầu tiên khi thiết kế, xây dựng để đưa một dòch vụ mạng hay một mạng vào hoạt động. Đặc biệt khi mà hàng ngày có thể liệt kê ra nhiều vụ thử tấn công, hay tấn công của tin tặc vào một mạng mới cài đặt, hay một trang web mới đưa ra… Tin tặc luôn luôn tìm và dùng nhiều loại tấn công khác nhau, bằng các phương thức khác nhau để tấn công truy cập vào các máy trên mạng. Hiện nay có rất nhiều công nghệ và giải pháp an ninh trên mạng. Nhưng vấn đề đặt ra cho người thiết kế và quản trò mạng là phải chọn ra được những giải pháp phù hợp với yêu cầu về kinh tế kỹ thuật. Người quản trò mạng đóng vai trò hết sức quan trọng, họ phải quản lý được các thông tin dữ liệu truyền đi trên mạng, phân tích được các thông tin, thông báo để đưa ra các quyết đònh kòp thời chính xác, đảm bảo hệ thống mạng luôn hoạt động tốt. Vì vậy, việc áp dụng các phương pháp khai phá dữ liệu để phân tích dữ liệu và đưa ra các luật để cảnh báo về việc mất an ninh trên mạng là rất cần thiết. Luận văn với đề tài “Sử dụng công cụ khai phá dữ liệu để cảnh báo nguy cơ mất an ninh trên mạng” nhằm nghiên cứu, khai thác dữ liệu thu được từ các công cụ chặn bắt gói tin, tìm hiểu cơ chế hoạt động của các gói tin trên mạng, để từ đó đưa ra các cảnh báo về khả năng, nguy cơ mất an ninh trên mạng. Luận văn được chia thành 5 chương với những nội dung sau: -5- - Chương 1: Tổng quan về khai phá dữ liệu. Gồm một số khái niệm, phân tích kỹ thuật khai phá dữ liệu, những thách thức đối với công việc khai phá dữ liệu. - Chương 2: Ứng dụng của khai phá dữ liệu trong việc cảnh báo nguy cơ mất an ninh trên mạng. Tìm hiểu về sự phát triển và bảo mật trong mạng cục bộ cùng với vấn đề an toàn-an ninh của việc trao đổi thông tin trên mạng để từ đó tiến tới xây dựng chương trình giám sát các hoạt động truy cập, đưa ra các cảnh báo và ngăn chặn truy cập trái phép trong mạng. - Chương 3: Một số giao thức truyền tin trên mạng. Trình bày về cơ chế truyền tin, các giao thức truyền tin và cấu trúc một số gói tin trên mạng. - Chương 4: Công cụ chặn bắt gói tin và các luật giám sát truy cập dòch vụ mạng. Giơi thiệu về công cụ chặn bắt gói tin trên manïg, cấu trúc chung của gói tin và các tiêu chí, các luật để giám sát, kiểm soát truy cập vào các dòch vụ mạng. - Chương 5: Xây dựng chương trình cảnh báo nguy cơ mất an ninh trên mạng LAN. Phân tích thiết kế hệ thống của chương trình và xây dựng chương trình chặn bắt các gói tin, đưa ra các cảnh báo về nguy cơ mất an ninh trên mạng. Do kiến thức còn nhiều hạn chế nên trong luận văn không tránh khỏi những sai sót, em rất mong nhận được sự chỉ bảo, góp ý của các Thầy cô giáo và những người quan tâm. Em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Thiện Luận đã tận tình giúp đỡ, hướng dẫn em hoàn thành luận văn này. -6- Xin chân thành cảm ơn quý Thầy, cô đã nhiệt tình giảng dạy, trang bò cho em những kiến thức quý báu trong suốt thời gian học tập tại trường. Xin chân thành cảm ơn các bạn cùng lớp, các bạn đồng nghiệp và trường Đại học công nghiệp Hà Nội đã tạo điều kiện tốt cho tôi hoàn thành luận văn này. Phạm Văn Hiệp -7- Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.Khai phá dữ liệu và quá trình phát triển tri thức Một trong những yếu tố dẫn đến thành công trong mọi hoạt động kinh doanh đó là việc biết sử dụng thông tin một cách có hiệu quả nhất. Điều đó có nghóa là từ các dữ liệu có sẵn, phải tìm ra thong tin tiềm ẩn có giá trò mà trược đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng. Đó chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases - KDD) mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật khai phá dữ liệu (Data mining). KDD là một quá trình gồm nhiều bước, trong khi đó khai phá dữ liệu chỉ là một trong những bước đó. Dữ liệu thường được cho bởi các giá trò mô tả các sự kiện, hiện tượng cụ thể. Khó có thể đònh nghóa rõ rang về tri thức, nhưng có thể hiểu tri thức là một biểu thức trong một ngôn ngữ nào đó diễn tả một hay nhiều mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Tri thức thường được biểu diễn bởi các khung, các cây, đồ thò, các luật , các công thức trong ngôn ngữ logic mệnh đề, các hệ phương trình … Phát hiện tri thức từ cơ sở dữ liệu (CSDL) là một quá trình mà trong đó con người là trung tâm. Quá trình phát hiện tri thức là một quá trình hoạt động tương tác thường xuyên giữa con người (người sử dụng hoặc chuyên gia phân tích) và CSDL. Quá trình này bao gồm 5 bước như hình dưới đây: -8- Hình 1.1 Quá trình phát hiện tri thức từ Cơ sở dữ liệu Đầu vào của quá trình này là dữ liệu và đầu ra là những thông tin hữu ích mong muốn của người dung. Tuy nhiên những thông tin này có thể không rõ ràng hoặc không chính xác. Để đảm bảo kết quả của quá trình là chính xác và có ích thì cần có cả chuyên gia về chuyên môn và chuyên gia kỹ thuật. Lựa chọn dữ liệu: Dữ liệu cần thiết cho quá trình khai phá dữ liệu có thể chứa trong nhiều nguồn khác nhau, thậm chí các nguồn dữ liệu không đồng nhất (dữ liệu chứa trong các CSDL khác nhau, các file…). Tiền xử lý dữ liệu: Tiền xử lý dữ liệu là một trong những bước đóng vai trò hết sức quan trọng trong quá trình phát triển tri thức, bởi vì dữ liệu được sử dụng trong quá trình khai phá dữ liệu có liệu có thể bò lỗi hoặc bò thiếu. Đối với dữ liệu lỗi ta có thể sửa hoặc loại bỏ còn, với những dữ liệu thiếu ta buộc phải dự đoán và cung cấp một giá trò dữ liệu nào đó. Công cụ phổ biến dùng để xử lý giá trò thiếu đó là mạng nơron và kết hợp mạng nơron với thuật giải di truyền Chuyển đổi dữ liệu: Dữ liệu từ nhiều nguồn khác nhau phải được biến đổi thành một khuôn dạng chung dễ sử dụng hơn rồi mới xử lý. Các kỹ thuật chuyển đổi dữ liệu làm cho dữ liệu dễ khai phá hơn, hiệu quả hơn. -9- Diễn dòch dữ liệu Tiền xử lý dữ liệu Dữ liệu ban đầu Dữ liệu mẫu Chuyển đổi dữ liệu Dữ liệu sau tiền xử lý Khai phá dữ liệu Dữ liệu sau chuyển đổi Lựa chọn dữ liệu Mô phỏng Tri thức Khai phá dữ liệu: dựa vào từng công việc khai phá cụ thể, lựa chọn các thuật toán để khái quát những kết quả mong muốn. Diễn dòch: Làm thế nào để người sử dụng hiểu được kết quả của quá trình khai phá dữ liệu là cực kỳ quan trọng. Vì dữ liệu có ích hay không lại phụ thuộc vào điều đó. Sử dụng các kỹ thuật mô phỏng và giao diện với người sử dụng cho phép người sử dụng có thể thu được những kết quả phức tạp hơn so với việc mô tả kết quả bằng toán học hay bằng văn bản. Một số kỹ thuật mô phỏng như: đồ thò, mô hình phân cấp… 1.2. Khai phá dữ liệu là gì? 1.2.1. Khái niệm Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trò tiềm ẩn trong các tập dữ liệu lớn. Về bản chất thì khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu trong tập dữ liệu. Vậy khai phá dữ liệu là gì? Có rất nhiều cách phát biểu khác nhau về khai phá dữ liệu, dưới đây là một số khái niệm: - Theo Groth [11] thì khai phá dữ liệu là một quá trình xác đònh các mẫu ẩn, xu thế và mối quan hệ dữ liệu. - Theo Berry và Linoff [10], khai phá dữ liệu là quá trình khám phá và phân tích tự động hoặc bán tự động một lượng lớn dữ liệu để khám phá ra các mẫu và các luật. - Theo Hand, Manila va Smyth [9] thì khai phá dữ liệu là phân tích tập dữ liệu quan sát được (thường lớn) để tìm ra mối quan hệ và tổng hợp -10- [...]... dòch vụ, làm cơ sở để xây dựng ứng dụng giám sát các hoạt động truy cập, cảnh báo, ngăn chặn truy xuất trái phép Chính vì vậy mà em chọn đề tài: Sử dụng công cụ khai phá dữ liệu để cảnh báo nguy cơ mất an ninh trên mạng 2.3.1 Mục đích xây dựng đề tài Trên cơ sở nghiên cứu kỹ thuật chặn bắt các gói tin trên mạng LAN, phân tích, khai thác dữ liệu thu được từ các công cụ chăn bắt gói tin trên mạng tìm ra... trong dữ liệu, phát hiện và phòng chống gian lận Ngoài ra khai phá dữ liệu cũng có những ứng dụng trong một số ngành khoa học như: thiên văn học, sinh học (tìm kiếm các mẫu trong cấu trúc phân tử), lập mô hình dự đoán thay đổi thời tiết -24- Chương 2: ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC CẢNH BÁO NGUY CƠ MẤT AN NINH TRÊN MẠNG 2.1 Phát triển và bảo mật mạng cục bộ hiện nay 2.1.1 Thực trạng việc phát... tích cơ sở dữ liệu khách hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng các mẫu này để lựa chọn các khách hàng trong tương lai Phân tích các mẫu dữ liệu của các gói tin gửi đi trên mạng để từ đó đưa ra chế độ cảnh báo về khả năng, nguy cơ mất an ninh trên mạng Các ứng dụng khác của khai phá dữ liệu trong kinh doanh như: Phân tích chứng khoán và các văn kiện tài chính, phân tích và báo cáo... quan Thu thập và tiền xử lý dữ liệu DL trực tiếp Hình 1.2:Quá trình khai phá dữ liệu Giải thuật khai phá dữ liệu Mẫu -12- Quá trình khai phá dữ liệu bắt đầu bằng cách xác đònh chính xác các vấn đề cần giải quyết Sau đó xác đònh các dữ liệu liên quan dùng đẻ xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và tiền xử lý để cho các giải thuật khai phá dữ liệu có thể thực hiện được... kích thước của bài toán và sử dụng các tri thức biết trước để xác đònh và loại bỏ các biến không phù hợp Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của chúng liên tục thay đổi Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu bò ảnh hưởng bởi thời điểm quan sát dữ liệu Ví dụ trong cơ sở dữ liệu về tình trạng bệnh nhân, một số giá trò dữ liệu là hằng số, một số... dữ liệu theo một số phương pháp nào đó giúp người sở hữu dữ liệu có thể hiểu được và sử dụng hữu ích - Theo Wegman[7], khai phá dữ liệu chính là sử dụng các kỹ thuật tính toán để phân tích dữ liệu với sự tác động rất ít của con người - Fayyad, Piatestsky-Shapiro và Smyth [8] đã dùng khái niệm phát hiện tri thức trong cơ sở dữ liệu để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ. .. biểu diễn tập dữ liệu hữu hạn thì có thể bò hiện tượng “tràn dữ liệu, nghóa là mô hình đó chỉ phù hợp với tập dữ liệu dùng để xây dựng mô -23- hình mà không có khả năng dự đoán cho các dự đoán cho các dự liệu mới Điều đó có nghóa là mô hình học thì tốt nhưng khái quát lại rất kém 1.5 Ứng dụng của khai phá dữ liệu Khai phá dữ liệu đã được ứng dụng rất thành công trên nhiều cơ sở dữ liệu thực tế ví... bộ tệp dữ liệu vào trong bộ nhớ Khi chuyển sang các ứng dụng công nghiệp liên quan đến khai phá các kho dữ liệu lớn thì mô hình này không thể áp dụng được vì nó không thể nạp hết dữ liệu vào trong bộ nhớ và khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích có thể hình dung quá trình khai phá dữ liệu gồm những bước sau : Xác đònh nhiệm vụ Thống kê tóm tắt Xác đònh dữ liệu liên quan Thu... sacé thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau Giải thuật di truyền là một giải thuật tối ưu và nó được sử dụng rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu Việc sử dụng các giải thuật di -18- truyền trong khai phá dữ liệu có rất nhiều dạng nhưng nói chung nó được sử dụng trên nền của các kỹ thuật khai phá dữ liệu khác, ví dụ như mạng nơron hay kỹ... hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để trích rút ra các mẫu từ dữ liệu 1.2.2 Cáùc bước của quá trình khai phá dữ liệu Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu Với các phương pháp học máy và thống kê trước đây thường . văn với đề tài Sử dụng công cụ khai phá dữ liệu để cảnh báo nguy cơ mất an ninh trên mạng nhằm nghiên cứu, khai thác dữ liệu thu được từ các công cụ chặn bắt gói tin, tìm hiểu cơ chế hoạt động. thuật khai phá dữ liệu, những thách thức đối với công việc khai phá dữ liệu. - Chương 2: Ứng dụng của khai phá dữ liệu trong việc cảnh báo nguy cơ mất an ninh trên mạng. Tìm hiểu về sự phát. 15 1.3.3 Mạng nơron ( Neural networks) 16 1.4 Những thách thức trong khai phá dữ liệu 21 1.5. Ứng dụng của khai phá dữ liệu 23 Chương 2: ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC CẢNH BÁO NGUY CƠ MẤT AN