Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
871,79 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Thị Tân NGHIÊN CỨU VỀ ĐỐI SÁNH CHUỖI VÀ ỨNG DỤNG TRONG PHÂN TÍCH SÂU CÁC GĨI TIN Chun ngành: Hệ thống thơng tin Mã số: 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS HOÀNG XUÂN DẬU Phản biện 1: ……………………………………… Phản biện 2: ……………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Cùng với phát triển mạnh mẽ công nghệ thông tin hạ tầng mạng viễn thông, mạng Internet phát triển nhanh chóng trở thành phần thiếu đời sống xã hội đại Rất nhiều ứng dụng Internet phát triển sử dụng rộng rãi thư điện tử, diễn đàn, mạng xã hội, mạng chia sẻ âm nhạc, phim, ứng dụng lưu trữ ứng dụng chuyên dùng kinh doanh Kèm theo phần mềm hữu ích Internet, phần mềm độc hại phần mềm quảng cáo phát triển lan truyền nhanh chóng, thư rác, phần mềm độc hại với trẻ em, phần mềm công cụ phục vụ công, đột nhập trái phép Việc phát ngăn chặn ứng dụng độc hại hành vi công, đột nhập trái phép, đảm bảo an toàn cho người dùng Internet nhu cầu cấp thiết Một hướng giải có hiệu phân tích sâu nội dung gói tin truyền mạng nhằm phát sớm nội dung độc hại hành vi công, đột nhập trái phép Ưu điểm phương pháp khả đảm bảo an toàn cho nhiều ứng dụng, nhiều máy trạm mạng Tuy nhiên, lưu lượng thông tin truyền mạng thường lớn, nên việc phân tích nội dung lượng lớn gói tin thách thức thực sự, đặc biệt phân tích trực tuyến Trong việc phân tích sâu nội dung gói tin, cơng đoạn đối sánh chuỗi đóng vai trị định Ngồi việc đảm bảo tính xác đối sánh, vấn đề tốc độ xử lý quan trọng số lượng gói tin cần xử lý thường lớn Đề tài luận văn "Nghiên cứu đối sánh chuỗi ứng dụng phân tích sâu gói tin" tập trung nghiên cứu, đánh giá giải thuật đối sánh chuỗi Trên sở lựa chọn giải thuật phù hợp ứng dụng mơ hình phân tích sâu nội dung gói tin Cụ thể luận văn có cấu trúc sau: Chương 1- TỔNG QUAN VỀ ĐỐI SÁNH CHUỖI VÀ ỨNG DỤNG Nghiên cứu tổng quan đối sánh chuỗi ứng dụng việc đối sánh chuỗi thực tế 3 Chương – CÁC THUẬT TỐN ĐỐI SÁNH CHUỖI Nghiên cứu thuật tốn đối sánh chuỗi xác thơng dụng kèm theo phần đánh giá, so sánh thuật toán đối sánh Chương - ỨNG DỤNG ĐỐI SÁNH CHUỖI TRONG PHÂN TÍCH SÂU GĨI TIN VÀ CÀI ĐẶT THỬ NGHIỆM Giới thiệu tổng quan việc phân tích sâu gói tin, ứng dụng phân tích sâu gói tin sử dụng thuật toán đối sánh chuỗi vào việc phân tích sâu gói tin Từ cài đặt thuật toán để thử nghiệm đánh giá kết 4 Chương – TỔNG QUAN VỀ ĐỐI SÁNH CHUỖI VÀ ỨNG DỤNG Chương trình bày tổng quan đối sánh chuỗi ứng dụng thực tế Qua ta hiểu phần công việc đối sánh chuỗi phục vụ nhu cầu người mà giúp người tránh hành vi vi phạm trái phép 1.1 Tổng quan đối sánh chuỗi 1.1.1 Khái niệm đối sánh chuỗi Đối sánh chuỗi việc so sánh một vài chuỗi (thường gọi mẫu pattern) với văn để tìm nơi số lần xuất chuỗi văn 1.1.2 Lịch sử phát triển 1.1.3 Phân loại đối sánh chuỗi 1.1.3.1 Theo thứ tự đối sánh Đối sánh chuỗi thực theo thứ tự sau: - Từ trái sang phải - Từ phải sang trái - Đối sánh vị trí cụ thể - Không theo thứ tự định 1.1.3.2 Theo số lượng pattern - Đối sánh chuỗi đơn pattern - Đối sánh chuỗi đa pattern 1.1.3.3 Theo độ sai khác đối sánh - Đối sánh chuỗi xác - Đối sánh chuỗi gần 1.1.3.4 Theo thay đổi pattern văn - Pattern thay đổi, văn cố định - Pattern cố định, văn thay đổi - Pattern thay đổi, văn thay đổi 1.2 Ứng dụng đối sánh chuỗi 1.2.1 Ứng dụng soạn thảo văn bản, thư viện số cơng cụ tìm kiếm 1.2.2 Ứng dụng phát đột nhập mạng 1.2.3 Ứng dụng Tin sinh học nghiên cứu cấu trúc hóa học 1.3 Kết chương Chương trình bày tổng quan đối sánh chuỗi số ứng dụng điển hình đối sánh chuỗi Đối sánh chuỗi ứng dụng nhiều lĩnh vực xử lý văn bản, tin sinh học phát đột nhập mạng Ứng dụng đối sánh chuỗi phát đột nhập mạng cho phép sớm nhận dạng chuỗi mẫu, chữ ký công, đột nhập phần mềm độc hại nội dung gói tin truyền mạng Chương luận văn sâu nghiên cứu thuật toán đối sánh chuỗi thơng dụng từ đánh giá hiệu thực thuật toán 7 Chương – CÁC THUẬT TỐN ĐỐI SÁNH CHUỖI THƠNG DỤNG Chương sâu nghiên cứu thuật toán đối sánh chuỗi, từ đánh giá hiệu thuật toán đối sánh chuỗi Việc nghiên cứu thuật toán đánh giá hiệu thuật toán đối sánh chuỗi cơng việc quan trọng, từ ta đưa định việc lựa chọn thuật toán đối sánh chuỗi phù hợp toán cụ thể 2.1 Tiêu chí đánh giá thuật tốn đối sánh chuỗi Để đánh giá hiệu thuật tốn đối sánh chuỗi, dựa tiêu chí sau: - Số lần tìm kiếm - Nén văn - Độ phức tạp thời gian - Tiêu chuẩn đối sánh - Số pattern - Sự biểu diễn kỹ thuật pattern 2.2 Các thuật toán đối sánh chuỗi xác thơng dụng 2.2.1 Thuật tốn Brute-Force - T[0 n-1] văn gồm n ký tự - P[0 m-1] pattern gồm m ký tự, với điều kiện m≤n Thuật tốn duyệt tìm P T từ vị trí đến vị trí n-m, lần dịch chuyển P T ký tự, độ dịch chuyển s tăng thêm qua lần đối sánh 2.2.2 Thuật toán Rabin-Karp - T[0 n-1] : văn có n ký tự - P[0 m -1]: pattern có m ký tự với m ≤ n - ts : giá trị băm chuỗi T[s s+m1] T với độ dịch chuyển s, ≤ s ≤ n-m - p: giá trị băm P Khi thuật toán so sánh giá trị ts với p với s chạy từ đến n-m, bước thuật toán xảy với hai trường hợp sau: TH1: ts = p, thực phép đối sánh chuỗi T[s s+m-1] P[0 m-1] TH2: ts ≠ p, s ≤ m tính gán s = s+1 tính tiếp giá trị băm ts 9 2.2.3 Thuậtt toán Knuth-Morris-Pratt - T[0 n-1] văn có n ký tự - P[0 m-1] pattern có m ký tự với m ≤ n Thuật tốn xác định vị trí dịch chuyển P T định P mà làm cho phép đối sánh P T khơng thiếu xót xuất P T Đầu tiên, thuật tốn tính giá trị p[i] tương ứng với P[i] với ≤ i ≤ m-1 để xác định giá trị định vị trí dịch chuyển P T Độ dịch chuyển P T : s + (i – p[i]) với : - s: độ dịch chuyển P T trước i: ký tự thứ i P xảy P[i] ≠ T[s+i] Nếu p[i] ≠ -1 thay việc tiếp tục so sánh ký tự P với T vị trí dịch chuyển s, thuật toán tiếp tục so sánh ký tự thứ p[i] P với T 2.2.4 Thuật toán Boyer-Moore - T[0 n-1] văn có n ký tự - P[0 m-1] pattern có m ký tự với m ≤ n 10 Thuật toán duyệt ký tự P từ phải qua trái, trường hợp không khớp (hoặc tìm thấy P T) sử dụng hai hàm tính lại giá trị để dịch chuyển P Hai hàm dịch chuyển dùng thuật toán gọi phép dịch chuyển hậu tố tốt (good-suffix shift) hay gọi phép dịch chuyển trùng khớp dịch chuyển ký tự tồi (badcharacter shift) 2.3 So sánh thuật toán đối sánh chuỗi Mỗi thuật toán đưa phương pháp khác để tìm kiếm pattern văn Bảng 2.1 tổng hợp khác biệt thuật tốn trình bày mục 2.2 Bảng 2.1 Sự khác biệt thuật toán Tên Thứ tự Độ Độ Đặc điểm thuật đối phức phức toán sánh tạp tiền tạp đối xử lý sánh O(mn) Brute- Không Không Dịch chuyển Force theo thứ thực kí tự tự Đây 11 định Rabin- Từ trái Karp qua phải việc tiền xử thuật lý toán tối ưu O(m) O(mn) Sử dụng hàm băm, hiệu thuật toán đối sánh đa pattern Knuth- Từ trái Morris- qua phải O(m) O(m+n) Dựa vào pattern để định Pratt bước dịch chuyển Tăng khả thực thi, giảm độ trễ thời gian đối sánh Boyer Từ phải O(m) O(mn) Sử dụng hai 12 Moore sang trái hàm dịch chuyển hậu tố tốt (good suffix) ký tự tồi (bad character) Thuật toán cho kết tìm kiếm nhanh áp dụng nhiều thực tế 2.4 Kết chương Trong chương 2, luận văn sâu nghiên cứu thuật tốn đối sánh chuỗi xác thơng dụng Mỗi thuật tốn có khác tiền xử lý liệu từ định đến bước dịch chuyển pattern văn Về bản, thuật toán Brute-Fore Rabin-Karp đưa độ dịch chuyển pattern văn giống 13 Tuy nhiên, thuật toán Rabin-Karp tránh việc đối sánh chuỗi dài mà thay vào sử dụng hàm hash để chuyển thuật toán đối sánh mảng số nguyên, việc đối sánh chuỗi thực xảy xuất giá trị hash Thuật toán KMP Boyer-Moore dựa pattern để định bước dịch chuyển pattern văn Tuy nhiên, thứ tự đối sánh khác biểu diễn thuật toán Boyer-Moore phức tạp dựa hai quy tắc để dịch chuyển pattern văn Thuật toán Boyer-Moore ứng dụng nhiều thực tế cài đặt sẵn soạn thảo văn 14 Chương - ỨNG DỤNG ĐỐI SÁNH CHUỖI TRONG PHÂN TÍCH SÂU GĨI TIN VÀ CÀI ĐẶT THỬ NGHIỆM Phân tích sâu gói tin truyền mạng biện pháp sử dụng nhằm phát sớm dấu hiệu hành vi công, đột nhập lây lan phần mềm độc hại Chương sâu nghiên cứu vấn đề phân tích sâu gói tin ứng dụng việc đối sánh chuỗi phân tích sâu gói tin 3.1 Tổng quan phân tích sâu gói tin 3.1.1 Khái niệm phân tích sâu gói tin Phân tích sâu gói tin (DPI - Deep Packet Inspection) giải pháp phần mềm phần cứng nhằm theo dõi luồng liệu mạng xác định giao thức ứng dụng, địa web (URL) khơng thích hợp, phát đột nhập phần mềm độc hại việc phân tích kỹ thành phần gói tin liệu Việc phân tích sâu gói tin giúp nhận dạng dấu hiệu, chuỗi đặc trưng, chữ ký công, đột nhập mã độc hại nhúng gói tin gửi đến dịch vụ ứng dụng Từ giúp hệ thống bảo mật 15 gửi cảnh báo sớm, kịp thời ngăn chặn công, đột nhập lan truyền phần mềm độc hại 3.1.2 Các ứng dụng phân tích sâu gói tin 3.1.2.1 Ngăn chặn virus phần mềm độc hại 3.1.2.2 Phát ngăn chặn công, đột nhập 3.1.2.3 Lọc URL 3.1.3 Thách thức việc phân tích sâu gói tin Những yếu tố ảnh hưởng đến việc phân tích sâu gói tin mạng như: - Độ phức tạp thuật tốn tìm kiếm - Số lượng chữ ký ngày cảng tăng - Dữ liệu mã hóa - Các vấn đề phần cứng phần mềm 3.2 Ứng dụng đối sánh chuỗi phân tích sâu gói tin 3.2.1 Phương pháp tiếp cận đối sánh chuỗi phân tích sâu gói tin 3.2.1.1 Phương pháp tiếp cận dựa máy trạng thái 3.2.1.2 Phương pháp tiếp cận dựa Heuristic 3.2.1.3 Phương pháp tiếp cận dựa lọc 3.2.2 Mơ hình áp dụng thuật tốn đối sánh chuỗi phân tích sâu gói tin 16 Hình 3.1 – Mơ hình đối sánh chuỗi việc phân tích sâu gói tin 3.3 Cài đặt thuật toán, thử nghiệm đánh giá kết 3.3.1 Tập CSDL sử dụng Hai tập sở liệu gói tin sử dụng: - Tập sở liệu chứa signature Trong tập này, gói tin gán nhãn chứa loại đột nhập - Tập sở liệu kiểm thử: chứa gói tin chuẩn hóa với signature CSDL dùng 17 để đối sánh với CSDL signature để đưa kết luận việc phát đột nhập Tập CSDL sử dụng trích từ tập CSDL KDD CUP 99 3.3.1.1 Tổng quan tập CSDL KDD CUP 99 3.3.1.2 Các thuộc tính tập CSDL 3.3.1.3 Phân loại công đột nhập tập CSDL - Tấn công từ chối dịch vụ (DoS) - Tấn công từ người dùng đến root (U2R) - Tấn công truy cập từ xa đến nội (R2L) - Tấn công thăm dị (Probe) Bảng 3.1 Danh sách kiểu cơng DoS back U2R R2L Probe buffer_overflow guess_passwd ipsweep land loadmodule neptune perl pod rootkit smurf teardrop multihop phf spy warezclient warezmaster nmap portsweep satan 3.3.2 Cài đặt thuật toán thử nghiệm Chương trình thử nghiệm phát triển ngôn ngữ C++ Dev-C++ 4.9.9.2 Hệ thống máy 18 tính thử nghiệm có cấu hình: Bộ vi xử lý: Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz 2.50GHz, RAM : 4.00 GB, Windows Professional 32-bit Thuật toán đối sánh lấy gói tin tập kiểm thử (tập số tập số 2) để đối sánh với tập chữ ký đưa kết quả: Độ phức tạp thời gian chạy thuật toán Time Tổng số gói tin đột nhập kiểu đột nhập 6000.00 5000.00 4000.00 3000.00 2000.00 1000.00 0.00 1000 3000 5000 Brute-Force 1528.15 1998.54 2125.03 Rabin-Karp 1386.12 1546.29 1692.47 KMP 2419.99 2744.53 2998.73 Boyer-Moore 3881.11 4849.13 5223.12 Hình 3.1 Biểu đồ so sánh hiệu thuật toán đối sánh chuỗi với tập số 19 25000.00 Time (s) 20000.00 15000.00 10000.00 5000.00 0.00 1000 3000 5000 Brute-Force 1813.11 6221.24 10219.33 Rabin-Karp 1404.06 5061.25 8317.03 KMP 2742.13 10015.98 17317.07 Boyer-Moore 4195.92 13332.58 22298.43 Hình 3.2 Biều đồ so sánh hiệu thuật toán đối sánh chuỗi với tập số 3.3.3 Đánh giá kết Theo hình 3.5 - Biểu đồ so sánh hiệu thực thuật tốn tập CSDL signature, ta thấy độ phức tạp thời gian trường hợp phục thuộc chủ yếu vào yếu tố sau: - Số gói tin phát đột nhập - Thuật toán đối sánh chuỗi 20 1000 % 3000 5000 Không đột nhập Không đột nhập 765 Không đột nhập Đột nhập Đột nhập 235 Đột nhập % % % % % Hình 3.3 Biểu đồ so sánh hiệu thuật toán đối sánh chuỗi với tập số 12 % 5000 1000 3000 Không đột nhập Không đột nhập Không đột nhập Đột nhập Đột nhập Đột nhập % 88 % % 92 % % Hình 3.4 Tỷ lệ gói tin phát đột nhập không đột nhập tập số 3.4 Kết chương 21 Việc phân tích sâu gói tin mạng đóng vai trò quan trọng việc quản lý lưu lượng đảm bảo an ninh mạng Do tốc độ mạng lên đến hàng Gb ảnh hưởng không nhỏ đến hiệu việc phân tích sâu gói tin Khi lưu lượng gói tinlớn, việc phân tích gói tin làm tắc nghẽn mạng Chính việc đưa giải pháp việc phân tích gói tin hiệu có việc nâng cấp thuật toán đối sánh với tốc độ cao nâng cấp tốc độ phần cứng khả mở rộng nhớ Từ thuật toán đối sánh chuỗi xác điển hình nêu cụ thể chương áp dụng tập CSDL KDD’99 CUP, chương đưa kết việc phát gói tin đột nhập hiệu thực thuật toán 22 KẾT LUẬN Luận văn sâu nghiên cứu đối sánh chuỗi ứng dụng phân tích sâu nội dung gói tin Cụ thể, luận văn thực nội dung sau: Nghiên cứu khái quát đối sánh chuỗi, phân loại đối sánh chuỗi, ứng dụng đối sánh chuỗi thực tế Đi sâu nghiên cứu thuật toán đối sánh chuỗi thơng dụng, từ đánh giá hiệu thuật tốn Nghiên cứu việc phân tích sâu gói tin, qua thấy rõ phân tích sâu gói tin khơng thể thiếu công đoạn đối sánh chuỗi Nhờ việc đối sánh payload gói tin với tập CSDL chứa dấu hiệu cho gây hại đến hệ thống mạng, máy tính Nếu tìm xuất signature CSDL payload, hệ thống đưa cảnh báo ngăn chặn gói tin Trên sở lú thuyết đối sánh chuỗi phất tích sâu gói tin, Luận văn cài đặt mơ hình ứng dụng để đánh giá hiệu thực số 23 thuật toán đối sánh chuỗi phát gói tin đột nhập Trong tương lai, luận văn phát triển theo hướng sau: Thực việc bắt gói tin thời gian thực mạng, tiền xử lý gói tin để trích chọn payload phục vụ cho việc đối sánh tìm signature Tìm hiểu sâu thuật toán đối sánh chuỗi đa pattern Dạng thuật tốn cho phép ta so sánh nhiều pattern lúc Nó phù hợp với tốc độ truyền gói tin mạng ... Chương sâu nghiên cứu vấn đề phân tích sâu gói tin ứng dụng việc đối sánh chuỗi phân tích sâu gói tin 3.1 Tổng quan phân tích sâu gói tin 3.1.1 Khái niệm phân tích sâu gói tin Phân tích sâu gói tin. .. chuỗi ứng dụng phân tích sâu nội dung gói tin Cụ thể, luận văn thực nội dung sau: Nghiên cứu khái quát đối sánh chuỗi, phân loại đối sánh chuỗi, ứng dụng đối sánh chuỗi thực tế Đi sâu nghiên cứu. .. luận văn "Nghiên cứu đối sánh chuỗi ứng dụng phân tích sâu gói tin" tập trung nghiên cứu, đánh giá giải thuật đối sánh chuỗi Trên sở lựa chọn giải thuật phù hợp ứng dụng mơ hình phân tích sâu