Phát hiện tấn công, xâm nhập trái phép vào các hệ thống máy tính và mạngthường được sử dụng như lớp phòng vệ thứ 2 trong mô hình “Phòng vệ nhiều lớp cóchiều sâu” trong việc đảm bảo an toàn cho các hệ thống máy tính và mạng. Nhiều kỹthuật đã được nghiên cứu và triển khai trong hiện tấn công, xâm nhập mạng, như pháthiện dựa trên phân tích lưu lượng mạng, phát hiện dựa trên phân tích header gói tin vàphát hiện dựa trên phân tích sâu gói tin (Deep Packet Inspection). Kỹ thuật phát hiệndựa trên phân tích sâu gói tin có nhiều ưu điểm, đặc biệt trong phát hiện sự lây lan củacác phần mềm độc hại, như sâu mạng. Do vậy, việc tiếp tục nghiên cứu và triển khaimô hình phát hiện xâm nhập mạng dựa trên phân tích sâu gói tin là cần thiết.Vì vậy em chọn đề tài “Phát hiện xâm nhập mạng dựa trên phân tích sâu góitin”. Trên cơ sở phân tích các gói tin TCPIP truyền trên mạng, các dạng tấn công,xâm nhập mạng., đồ án này đã được xây dựng với những nội dung chính như sau:Chương 1: Tổng quan phát hiện, xâm nhập mạngChương 2: Phân tích sâu gói tin dựa trên ngram và ứng dụng trong phát hiệnxâm nhập mạngChương 3: Cài đặt và thử nghiệmMặc dù em đã nỗ lực hoàn thành đề tài này nhưng do còn những hạn chế vềthời gian và hiểu biết của bản thân nên không tránh khỏi những thiếu sót. Vì vậy, emmong nhận được sự góp ý của các thầy cô và các bạn để phục vụ thêm cho công táchọc tập và nghiên cứu của mình trong tương lai.
Đồ án tốt nghiệp Đại học Lời cảm ơn LỜI CẢM ƠN Với lòng kính trọng biết ơn sâu sắc, em xin chân thành cảm ơn thầy cô giáo trường dạy bảo thầy cô trình em học trường Em xin đặc biệt cảm ơn Giảng viên người hướng dẫn trực tiếp, bảo tận tình cho em Đồ án khó hoàn thành thiếu giúp đỡ, khuyến khích ý kiến đóng góp quý báu cô Cảm ơn bố mẹ, em gái, bạn bè bạn lớp bên cạnh cổ vũ, động viên tinh thần để em vượt qua khó khăn Đồ án thực thời gian ngắn, cố gắng tìm hiểu kiến thức có hạn nên chắn nhiều thiếu sót Rất mong thầy cô góp ý để đồ án hoàn Cuối cùng, em xin kính chúc thầy, cô gia đình luôn mạnh khỏe thành công nghiệp cao quý Hà Nội, ngày tháng năm 201 Sinh viên Đồ án tốt nghiệp Đại học Mục lục MỤC LỤC Đồ án tốt nghiệp Đại học Danh mục hình vẽ DANH MỤC HÌNH VẼ Đồ án tốt nghiệp Đại học Lời nói đầu LỜI NÓI ĐẦU Phát công, xâm nhập trái phép vào hệ thống máy tính mạng thường sử dụng lớp phòng vệ thứ mô hình “Phòng vệ nhiều lớp có chiều sâu” việc đảm bảo an toàn cho hệ thống máy tính mạng Nhiều kỹ thuật nghiên cứu triển khai công, xâm nhập mạng, phát dựa phân tích lưu lượng mạng, phát dựa phân tích header gói tin phát dựa phân tích sâu gói tin (Deep Packet Inspection) Kỹ thuật phát dựa phân tích sâu gói tin có nhiều ưu điểm, đặc biệt phát lây lan phần mềm độc hại, sâu mạng Do vậy, việc tiếp tục nghiên cứu triển khai mô hình phát xâm nhập mạng dựa phân tích sâu gói tin cần thiết Vì em chọn đề tài “Phát xâm nhập mạng dựa phân tích sâu gói tin” Trên sở phân tích gói tin TCP/IP truyền mạng, dạng công, xâm nhập mạng., đồ án xây dựng với nội dung sau: Chương 1: Tổng quan phát hiện, xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng phát xâm nhập mạng Chương 3: Cài đặt thử nghiệm Mặc dù em nỗ lực hoàn thành đề tài hạn chế thời gian hiểu biết thân nên không tránh khỏi thiếu sót Vì vậy, em mong nhận góp ý thầy cô bạn để phục vụ thêm cho công tác học tập nghiên cứu tương lai Đồ án tốt nghiệp Đại học Chương 1: Tổng quan phát xâm nhập mạng CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG Chương trình bày số khái niệm tổng quan, biện pháp phòng chống kỹ thuật phát xâm nhập mạng 1.1 Khái quát công mạng biện pháp phòng chống 1.1.1 Khái quát công Trong thập kỷ gần đây, giới Việt Nam chứng kiến phát triển bùng nổ công nghệ thông tin, truyền thông Đặc biệt phát triển trang mạng (websites) ứng dụng trang mạng cung cấp nhiều tiện ích cho người sử dụng từ tìm kiếm, tra cứu thông tin đến thực giao dịch cá nhân, trao đổi kinh doanh, mua bán, toán hàng hoá, dịch vụ, thực dịch vụ công Bảo mật an ninh mạng đặt lên hàng đầu với công ty có hệ thống mạng dù lớn hay nhỏ Tuy nhiên, phát triển mạnh mẽ trang mạng nói riêng công nghệ thông tin nói chung, vấn đề đảm bảo an toàn, an ninh thông tin trở thành thách thức lớn 1.1.1.1 An toàn thông tin - An toàn thông tin nhu cầu quan trọng cá nhân tổ chức xã hội quốc gia giới - An toàn thông tin mạng máy tính bao gồm phương pháp nhằm bảo vệ thông tin lưu giữ truyền mạng - Liên quan đến kiến thức khoa học mật mã, công nghệ mạng, ứng dụng mạng 1.1.1.2 Đe dọa an ninh - Phá hoại thông tin nguồn tài nguyên khác - Sửa đổi làm sai lạc thông tin - Đánh cắp, xóa bỏ làm thông tin nguồn tài nguyên khác - Làm lộ thông tin - Ngắt dịch vụ Đồ án tốt nghiệp Đại học Chương 1: Tổng quan phát xâm nhập mạng Tấn công hay đột nhập vào hệ thống thông tin hệ thống mạng vi phạm sách an toàn, bảo mật hệ thống Các loại công phân thành hai loại sau: • Bị động (được trang bị để tăng mức truy cập làm cho thâm nhập vào hệ thống mà không cần đến đồng ý tài nguyên CNTT) • Tích cực (các kết gây thay đổi trạng thái không hợp lệ tài nguyên CNTT) Dưới dạng mối quan hệ nạn nhân người xâm phạm, công chia thành: • Bên trong, công đến từ nhân viên công ty, đối tác làm ăn khách hàng • Bên ngoài, công đến từ bên ngoài, thường thông qua Internet 1.1.1.3 Nguy xâm nhập bất hợp pháp hệ thống máy tính mạng - Quét thám hệ thống: quét Ping, quét TCP, quét UDP, quét hệ điều hành, quét tìm kiếm accout thâm nhập - Xâm nhập hệ thống: truy tìm account, đoán mật qua mạng, bẻ khoá mật khẩu, khai thác từ xa lỗi DoS (Denial of Service), tràn đệm, khai thác quan hệ uỷ quyền - Cài đặt cửa sau (backdoor) truy cập từ xa - Tấn công hệ thống máy tính virus, trojan phần mềm gián điệp - Tấn công với lỗi RPC (Remote Procedure Call - Gọi thủ tục từ xa) 1.1.1.4 Nguy công mạng - Xâm nhập vào mạng từ bên Internet - Xâm nhập bất hợp pháp vào mạng thông qua dial-up, VPN - Các thiết bị mạng, SNMP, RIP - Phát hiện, đánh lừa, xuyên qua firewall - Truy cập uỷ nhiệm không chứng thực - Tấn công mạng worm Đồ án tốt nghiệp Đại học Chương 1: Tổng quan phát xâm nhập mạng - Tấn công spam 1.1.1.5 Nguy công phần mềm máy chủ dịch vụ - Tấn công DNS (Domain Name Service) - Tấn công Web server - Tấn công SMTP (Simple Mail Transfer Protocol) send mail - Tấn công IMAP/POP3 (Internet Mail Access Protocol/Post Office Protocol) - Tấn công Database server - Tấn công từ chối dịch vụ DoS: Ping-of-Death, SYN flood, 1.1.1.6 Nguy an toàn thông tin giao dịch thương mại điện tử - Đánh cắp thông tin chương trình spy, virus - Giả mạo thông tin thư tín giao dịch - Nghe thông tin - Đánh cắp, làm sai lệch thông tin qua công SQL injection - Sử dụng credit card phi pháp đánh cắp tài khoản ngân hàng 1.1.1.7 Nguy an toàn thông tin mạng WLAN - Quét dò sóng mạng, công xâm nhập mạng - Bẻ khoá WEP (Giao thức an toàn mạng không dây) - Giả mạo điểm truy cập không dây WAP - Tấn công từ chối dịch vụ 1.1.1.8 Vấn đề mạng di động - Vấn đề lan truyền tin đồn thất thiệt mạng nhắn tin SMS - Lợi dụng mạng nhắn tin để công đe doạ chủ thuê bao điện thoại di động 1.1.2 Các dạng công điển hình 1.1.2.1 Tấn công thám Kẻ công sử dụng công cụ phần mềm có chức scanner mạng cố gắng tìm kiếm, phát lỗ hổng hệ thống máy tính mục tiêu Đồ án tốt nghiệp Đại học Chương 1: Tổng quan phát xâm nhập mạng - Phân tích gói tin: Telnet, FTP, SNMP, POP, HTTP - Quét cổng máy tính mục tiêu: Nhận dạng máy chủ mạng, nhận dạng dịch vụ hoạt động máy mục tiêu, điểm yếu dễ khai thác công - Tra cứu thông tin liên quan đến mục tiêu mạng Internet: Nơi đăng ký hosting, địa IP, hệ thống tên miền Tìm thu thập điểm yếu dễ bị công hệ thống 1.1.2.2 Tấn công truy nhập Kẻ công hệ thống cách truy vấn liệu, giành quyền truy nhập, công truy nhập, khai thác điểm yếu dễ bị công dịch vụ xác thực, dịch vụ FTP, dịch vụ Web - Tấn công password: dò tìm password, sử dụng trojan horse, phân tích gói tin, giả mạo địa IP - Tấn công khai thác, lợi dụng độ tin cậy mạng để làm bàn đạp công vào hệ thống khác - Kiểu công port redirection: kiểu công mà kẻ công "dàn xếp" qua dịch vụ máy chủ công cộng, thông qua dịch vụ máy chủ công cộng kẻ công cài đặt phần mềm vào máy chủ mạng bên Từ bên kẻ công thiết lập kết nối vào mạng bên (mục tiêu) qua tiến trình port redirection dựa dịch vụ máy chủ công cộng mà dựa vào dễ dàng vượt qua kiểm soát firewall - Kiểu công man_in_the_middle_attack: kiểu công thông qua phân tích gói tin mạng, phân tích giao thức truyền tải định tuyến Sửa đổi, thay nội dung liệu đường truyền 1.1.2.3 Tấn công từ chối dịch vụ Đây kiểu công phá hoại dựa tính giới hạn phục hồi tài nguyên mạng DoS làm ngưng hoạt động máy tính, mạng nội bộ, chí hệ thống mạng lớn Kẻ công chiếm dụng lượng lớn tài nguyên mạng băng thông, nhớ, làm khả xử lý yêu cầu dịch vụ từ máy trạm khác Đồ án tốt nghiệp Đại học Chương 1: Tổng quan phát xâm nhập mạng - Tấn công thông qua kết nối: - Tấn công kiểu SYN flood - Kiểu công Land Attack - Kiểu công UDP flood - Tấn công sử dụng băng thông - Tấn công sử dụng nguồn tài nguyên khác - Tấn công kiểu Smurf Attack -Tấn công kiểu Tear Drop: 1.1.2.4 Kiểu công IP Spoofing - GIẢ MẠO ĐỊA CHỈ IP Kẻ công mạng đóng vai máy tính tin cậy để trao đổi thông tin Việc giả mạo địa IP thực thông qua việc sử dụng khả dẫn đường trực tiếp Với cách công này, kẻ công gửi gói tin IP tới mạng bên với địa IP giả mạo (thông thường địa mạng máy coi an toàn mạng bên trong), đồng thời rõ đường dẫn mà gói tin IP phải gửi 1.1.2.5 Tấn công dựa VIRUS, TROJAN HORSE, WORM, Mà ĐỘC HẠI Đây phương pháp hacker dùng đoạn mã có chứa Virus, trojan horse, worm, mã độc hại để lấy cắp thông tin phục vụ mục đích 1.1.3 Các biện pháp phòng chống - Để đảm bảo an ninh đầu cuối, ta cần xét toàn môi trường an ninh bao gồm toàn môi trường truyền thông, từ đầu cuối đến đầu cuối mục tiêu quan trọng để tạo lập môi trường an ninh: a Nhận thực: Nhận thực trình kiểm tra hợp lệ đối tượng tham gia thông tin Đối với mạng vô tuyến trình thường thực lớp: lớp mạng lớp ứng dụng Mạng đòi hỏi người sử dụng phải nhận thực trước phép truy nhập mạng Cách nhận thực đơn giản (kém an ninh Đồ án tốt nghiệp Đại học Chương 1: Tổng quan phát xâm nhập mạng nhất) kết hợp tên người sử dụng mật Phương pháp tiên tiến sử dụng chứng nhận số hay chữ ký điện tử b Toàn vẹn số liệu: đảm bảo số liệu truyền không bị thay đổi hay bị phá hoại trình truyền dẫn từ nơi phát đến nơi thu Điều thực kiểm tra mật mã hay MAC (Message Authentication Code: mã nhận thực tin) Thông tin cài vào tin cách sử dụng giải thuật cho tin Phía thu tính toán MAC so sánh MAC tin Nếu đúng-> toàn vẹn, sai-> loại bỏ tin c Bảo mật: nét quan trọng an ninh thường nói đến nhiều Mục đích bảo mật để đảm bảo tính riêng tư số liệu chống lại nghe đọc trộm số liệu từ người không phép Cách phổ biến để ngăn ngừa xâm phạm mật mã hóa số liệu (mã hóa tin-> dạng đọc đối vs máy thu trừ máy thu chủ định) d Trao quyền: chế để kiểm tra người sử dụng quyền truy nhập dịch vụ cụ thể định mức độ truy nhập người sử dụng: người sử dụng quyền thực số hành động Nó thường liên hệ chặt chẽ với nhận thực Access List Control (ALC) thường sử dụng cho trình định người sử dụng làm e Cấm từ chối: biện pháp buộc phía phải chịu trách nhiệm giao dịch mà chúng tham gia không từ chối tham gia giao dịch Nó bao gồm nhận dạng bên cho bên sau từ chối tham gia giao dịch Thực chất, điều có nghĩa phía phát chứng minh phát tin phía thu thu tin Để thực điều giao dịch phải ký chữ ký điện tử phía thứ tin cậy kiểm tra, đánh đấu thời gian f Chống phát lại: không cho phép kẻ phá hoại chặn tin phát từ A đến B phát lại tin nhiều lần làm tải B dẫn đến B từ chối dịch vụ (Deny of Service) - An ninh thường sử dụng nhiều lớp, lớp phải xử lý khía cạnh khác an ninh, đảm bảo nhiều chế bảo vệ cho chế bị phá vỡ tổng thể an toàn 10 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng - Các kỹ thuật đối sánh đơn mẫu: + Naive string matching + Rabin–Karp + FSA (Finite State Automata) + KMP (Knuth–Morris–Pratt) + BM (Boyer–Moore) + BMH (Boyer–Moore-Horspool) - Các kỹ thuật đối sánh đa mẫu: + Aho–Corasick + Commentz-Walter + Rabin–Karp (một biến thể dựa Bloom filter) 2.1.3.2 Phân tích sâu gói tin dựa bất thường Kỹ thuật dựa giả thiết hành vi công, đột nhập thường có dấu hiệu bất thường Kỹ thuật phân tích sâu gói tin dựa bất thường thu thập liệu trạng thái hoạt động bình thường hệ thống để đưa vào trình huấn luyện Quá trình huấn luyện xử lý, phân tích mô hình từ liệu huấn luyện Khi gói tin đến, hệ thống sử dụng mô hình xây dựng trình huấn luyện để phát bất thường Nhược điểm kỹ thuật phân tích sâu gói tin dựa bất thường: - Thuật toán xử lý phức tạp: thuật toán có độ xác hiệu xử lý khác Yêu cầu kỹ thuật tìm thuật toán tối ưu có độ xác cao hiệu hoạt động tốt - Phát nhầm: Kỹ thuật phát dạng công, đột nhập đổi lại, hệ thống có khả phát nhầm: đối tượng bình thường bị coi bất thường (false positive) ngược lại, đối tượng bất thường coi bình thường (false negative) 28 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng Một số phương pháp xây dựng hồ sơ, phân tích mô hình dựa bất thường: - Các phương pháp dựa thống kê - Các phương pháp dựa khai phá liệu - Các phương pháp dựa học máy: mô hình Markov ẩn (HMM), mang nơ-ron, lập trình tiến hóa, … 2.1.4 Ứng dụng phân tích sâu gói tin DPI dựa vào phân tích gói tin nên có nhiều ứng dụng thực tế Bao gồm: 2.1.4.1 An ninh mạng Ban đầu, DPI phát triển để sử dụng cho an ninh mạng Tường lửa truyền thống thường điều khiển việc truy nhập mạng cổng dịch vụ (port), để đảm bảo an toàn firewall chặn tất cổng không cần thiết mở số cổng dùng đến phổ biến cổng 80 cho HTTP, cổng 25 cho SMTP Nhưng ứng dụng khác sử dụng cổng dịch vụ này, ví dụ, cổng 80 sử dụng dịch vụ chat Skype hay giao thức chia sẻ file ngang hàng Bittorrent, …] Xu hướng phát triển ứng dụng web điện toán đám mây dần xóa mờ biên giới mạng LAN bên Internet bên Điều khiến cho việc quản trị mạng theo cách thông thường khó khăn nhiều Các nhà cung cấp DPI cung cấp giải pháp phát hiện, ngăn chặn công đột nhập tường lửa dựa việc kiểm tra cách toàn diện thông tin truyền hệ thống mạng Ngoài ra, hệ thống hoàn toàn phát phần mềm độc hại sâu máy tính, virus máy tính, … ngăn chặn lây lan chúng 2.1.4.2 Quản lý băng thông Băng thông nguồn tài nguyên có hạn vấn đề nghẽn băng thông tránh khỏi Từ năm 70 kỷ XX, vấn đề nghiên cứu giao thức TCP đời Nhưng phát triển ứng dụng nhu cầu gia tăng khiến nhà cung cấp dịch vụ Internet (Internet Service Provider - ISP) gặp nhiều khó khăn để đảm bảo chất lượng dịch vụ Do đó, số ISP bắt đầu quản lý băng thông cách ngăn chặn hạn chế ứng dụng coi bất hợp pháp Nạn nhân ISP giao thức chia sẻ file ngang hàng peer-to-peer (P2P) 29 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng Với việc sử dụng DPI, ISP hoàn toàn ngăn chặn giới hạn băng thông ứng dụng/dịch vụ để “nhường” tài nguyên cho dịch vụ khác nhằm đảm bảo chất lượng dịch vụ 2.1.4.3 Quảng cáo Tiếp thị trực tuyến hay quảng cáo trực tuyến trở thành ngành công nghiệp tăng trưởng mạnh mẽ năm qua Những “ông lớn” lĩnh vực kể đến Google, Facebook, … Bằng cách theo dõi hành vi người dùng Internet, công ty quảng cáo xây dựng hồ sơ người dùng thông qua trang web mà họ truy cập mà họ làm Từ công ty quảng cáo đưa thông tin quảng cáo sản phẩm đến đối tượng có nhu cầu Chẳng hạn, người thích chơi game nhận quảng cáo game ra, thiết bị, công nghệ chơi game Không trang web thu thập thông tin người dùng, ISP hoàn toàn thu thập thông tin người dùng cách sử dụng DPI Vì đối tượng trung gian, cung cấp vận chuyển thông tin người dùng nên ISP thu thập hồ sơ đầy đủ người dùng khách hàng sử dụng Internet họ Họ theo dõi hành vi người sử dụng tổng hợp vào hồ sơ người dùng, sau “tiêm” quảng cáo vào trang web người dùng ghé thăm 2.1.4.4 Lọc nội dung quyền Khi phân tích sâu vào phần nội dung gói tin truyền Internet, hoàn toàn biết lọc chặn luồng truy cập Với phương pháp này, nội dung quyền, nội dung xấu hay bị cấm lọc ngăn chặn Việc ngăn chặn chia sẻ nội dung quyền biện pháp kỹ thuật sử dụng DPI đề xuất châu Âu từ năm 2004 Nếu áp dụng rộng rãi, phương pháp đem lại lợi ích lớn cho ngành công nghiệp âm nhạc, điện ảnh, công nghiệp phần mềm, … Vì nội dung bất hợp pháp bị ngăn chặn ISP nên người dùng nhận thông tin bất hợp pháp Nếu người dùng cố tình chia 30 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng sẻ nội dung bất hợp pháp hoàn toàn bị truy tố tùy vào luật pháp quốc gia, khu vực mà người dùng chối bỏ hành vi 2.1.4.5 Theo dõi thông tin Phân tích sâu gói tin dùng để theo dõi thông tin liên lạc Internet thời gian thực mà không làm thay đổi nội dung thông tin Các nhà cung cấp dịch vụ muốn thu thập số liệu thống kê loại lưu lượng truy cập hệ thống mạng họ để có sách phù hợp, nâng cao chất lượng dịch vụ Mặt khác, phủ tổ chức thực thi pháp luật muốn kiểm tra sâu vào nội dung liệu lý an ninh trị, quốc gia, … Đây vấn đề gây nhiều tranh cãi nhiều hành động vi phạm nghiêm trọng tính riêng tư người dùng Internet Chủ đề nhiều người dùng Internet quan tâm ảnh hưởng trực tiếp đến tính riêng tư họ, đặc biệt sau loại cố rò rỉ thông tin quan bảo vệ quốc gia Mỹ NSA (National Security Agency) Theo chiều hướng khác, phủ theo dõi thông tin người dùng với lý đảm bảo an ninh quốc gia kẻ xấu hoàn toàn sử dụng phương pháp để nghe lén, thu thập thông tin người dùng để phục vụ cho mục đích riêng Điều thực nguy hiểm người dùng Internet kiểm soát thông tin 2.2 Mô hình phân tích sâu gói tin dựa n-gram 2.2.1 Giới thiệu mô hình Việc phân tích sâu gói tin mạng đóng vai trò quan trọng việc quản lý lưu lượng đảm bảo an ninh mạng Do tốc độ mạng lên đến hàng Gb ảnh hưởng không nhỏ đến hiệu việc phân tích sâu gói tin Khi lưu lượng gói tin lớn, việc phân tích gói tin làm tắc nghẽn mạng Chính việc đưa giải pháp việc phân tích gói tin hiệu có việc nâng cấp thuật toán đối sánh với tốc độ cao nâng cấp tốc độ phần cứng khả mở rộng nhớ Payload gói tin truyền mạng chuỗi (stream) byte Không giống header gói tin, payload mô hình cố định, từ khóa, dấu 31 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng hiệu xác hay miền giới hạn giá trị Một ký tự giá trị byte xuất vị trí luồng liệu Để mô hình hóa payload cần phải chia stream thành nhóm nhỏ dựa vào số chuẩn liên kết Số cổng đô dài tham số lựa chọn rõ ràng dễ xác định Chúng ta phân loại gói tin thành loại inbound outbound Thông thường, dịch vụ mạng chuẩn có dấu hiệu cổng (port) để nhận biết như: cổng 20 cho truyền liệu FTP (File Transfer Protocol), cổng 21 cho tín hiệu điều khiển FTP, cổng 22 cho dịch vụ SSH (Secure Shell), cổng 23 cho Telnet, cổng 25 cho dịch vụ mail SMTP (Simple Mail Transfer Protocol), cổng 80 cho Web, … Mỗi ứng dụng có giao thức riêng có loại payload Payload đến cổng 22 thường bị mã hóa hiển thị byte, payload đến cổng 21 hiển thị dạng ký tự thông thường (plaintext) Với cổng, độ dài payload khác Hầu hết gói tin TCP thông thường có độ dài payload từ đến 1460 Những payload khác có dộ dài khác Payload có kích thước lớn thường liệu media hay nhị phân (ảnh, video, file thực thi, ….) Vì tính toán mô hình hóa cho payload có độ dài khác cho cổng dịch vụ luồng khác Để giữ cho mô hình đơn giản tính toán nhanh, mô hình hóa payload sử dụng n-gram đặc biệt hóa giá trị byte Một n-gram thể n byte đơn vị payload Trong toán này, giá trị n 256, tổ hợp byte có độ dài bit Một cửa sổ dịch chuyển truyền toàn payload ngram đếm Với payload, vector đặc trưng tần suất quan hệ n-gram tính thương số lần xuất n-gram tổng số lần xuất ngram Trường hợp đơn giản 1-gram tính toán tần suất trung bình ký tự ASCII từ – 255 Một payload cổng có độ dài cố định, xử lý tần suất ký tự biến tính toán giá trị trung bình độ lệch chuẩn payload model Từ tập liệu đầu vào gói tin (packet), tính toán mô hình Mij Với độ dài i nhận port j, Mij lưu thông tin tần suất byte trung bình độ 32 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng lệch chuẩn cho tần suất byte Sự kết hợp giá trị trung bình phương sai byte mô tả rõ đặc điểm payload phạm vi độ dài Mỗi mô hình Mij sau tính toán trình huấn luyện vọi centroid Như vậy, có port port lại có 10 độ dài payload khac có tổng cộng 50 centroid model sinh sau trình huấn luyện Mô hình toán đồ án hoạt động sau: Đầu tiên theo dõi thu thập gói tin thông thường cho trình huấn luyện, Những gói tin mô hình hóa dựa 1-gram, tính toán tần suất, giá trị trung bình phương sai byte tạo thành mô hình Mij Trong giai đoạn phát hiện, gói tin đến tính toán so sánh với centroid huấn luyện trước tương ứng với giá trị port độ dài payload Nếu payload gói tin khác với dấu hiệu thông thường, cờ phát đánh dấu bất thường sinh cảnh báo Sự so sánh payload model đóng vai trò quan trọng ảnh hưởng trực tiếp đến kết trình đánh giá, yêu cầu cần phải có thuật toán so sánh có độ xác cao, ổn định, đồng thời phải có hiệu suất tốt, tốc độ cao để không làm ảnh hưởng đến toàn hệ thống Hiện có nhiều thuật toán sử dụng để đánh giá mô hình xác suất Bài toán đồ án sử dụng thuật toán tính khoảng cách Mahalanobis (Mahalanobis Distance) 2.2.2 Thuật toán tính toán khoảng cách Mahalanobis Khoảng cách Mahalanobis (Mahalanobis distance) chuẩn đo lường số học để so sánh phân bố xác suất Nó hữu dụng để so sánh payload mẫu payload tính toán trước Khoảng cách Mahalanobis cách hữu ích cho việc xác định độ tương tự tập mẫu chưa biết tới tập mẫu biết Khoảng cách Mahalanobis tính đến độ tương quan tập liệu bất biến tỷ lệ, tức không phụ thuộc vào tỷ lệ phép đo Khoảng cách Mahalanobis dùng rộng rãi phân tích cụm kỹ thuật phân lớp khác Ở so sánh khoảng cách byte payload nhận mô hình tính toán với độ dài, khoảng cách lớn bất thường Công thức tính khoảng cách Mahalanobis nguyên thủy có dạng: �2(�,�)=(�−�)��−1(�−�) 33 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng Trong x y vector đối tượng vector biến x vector thông tin đưa vào, y vector trung bình tính toán từ liệu học �−1 ma trận nghịch đảo ma trận C với ���=���(��,��), yi, yj phần tử thứ i, j vector huấn luyện Thuận lợi Mahalanobis không tính giá trị trung bình mà phương sai hiệp phương sai biến đo Thay tính toán đơn giản từ giá trị trung bình, ước lượng biến độ lệch chuẩn hiệp phương sai, giá trị tính toán đưa đơn vị thống kê để đánh giá mức độ phù hợp ví dụ đưa vào so với mẫu huấn luyện Khi tính toán Mahalanobis, phải trả giá cho tốc độ tính toán phải nhân bình phương sau tính tổng tần suất byte khác Để tăng tốc độ tính toán, sử dụng Mahalanobis đơn giản (Simplified Mahalanobis distance): �(�,�)= Trong đó, phương sai thay độ lệch chuẩn n xác định 256 mô hình 1-gram c ó 256 giá trị byte Vì tránh việc thời gian cho tính bình phương bậc hai Với Mahalanobis đơn giản, giá trị độ lệch chuẩn giá trị khoảng cách trở dạng không xác định (lỗi chia cho 0) Điều xảy ký tự hay giá trị byte không xuất liệu huấn luyện (hay liệu huấn luyện thiếu), xuất với tần suất mẫu Để tránh điều đưa nhân tố làm mịn α cho độ lệch chuẩn với liệu đến trước �(�,�)= Nhân tố làm mịn α thể thống kê đáng tin cậy liệu học mẫu Theo thời gian, có nhiều liệu mẫu trình huấn luyện, α giảm tự động Việc áp dụng công thức Mahalanobis đơn giản phát bất thường yêu cầu phải xác định giá trị ngưỡng Khoảng cách Mahalanobis lớn giá trị ngưỡng coi bất thường Nếu đặt ngưỡng ban đầu 256, điều có nghĩa cho phép byte ký tự có miền dao động khoảng độ lệch 34 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng chuẩn từ giá trị trung bình Vì vậy, theo logic điều chỉnh giá trị ngưỡng ban đầu tăng từ 128 đến 256, điều cài đặt tiến trình tự xác định cách tự động 2.2.3 Huấn luyện mô hình sử dụng học máy 2.2.3.1 Khái quát học máy Học máy (Machine Learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Học máy chương trình máy tính có khả sử dụng kinh nghiệm, quan sát liệu có sẵn để giải công việc tương lai Trong năm qua, học máy có phát triển mạnh mẽ áp dụng rộng rãi lĩnh vực sống nhận dạng hình ảnh, chữ viết, công cụ tìm kiếm, dự báo thời tiết, lọc thư rác, chẩn đoán bệnh y học, … Các hệ thống phát đột nhập áp dụng học máy từ ngày đầu phát triển Một số thuật toán sử dụng hệ thống phát đột nhập như: SVM (Support Vector Machine), mạng Bayes, HMM (Hidden Markov Model), … Cốt lõi học máy việc phân tích tập liệu để tìm quy luật (rule), mẫu dạng (pattern), mô hình (model)… Trong toán học máy, đầu vào tập liệu huấn luyện bao gồm mẫu liệu Mỗi mẫu liệu bao gồm tập giá trị ứng với thuộc tính Tập thuộc tính chia làm hai phần: thuộc tính quan sát thuộc tính kết Mục tiêu học máy tìm ánh xạ từ thuộc tính quan sát vào thuộc tính kết (mối quan hệ thuộc tính quan sát thuộc tính kết quả) ứng với tập liệu huấn luyện Ánh xạ áp dụng lên mẫu quan sát để rút kết tương ứng Các phương pháp phát đột nhập thường triển khai thành hai bước: bước huấn luyện bước kiểm tra Trong bước huấn luyện, áp dụng giải thuật học máy học có giám sát, học không giám sát,học bán giám sát.v.v để mô hình hóa tập liệu, tạo phân loại thích hợp gắn nhãn bình thường (normal) hay bất thường (abnormal) Trong bước kiểm tra, ánh xạ tập liệu đầu vào so sánh với phân loại gắn thu bước huấn luyện để đưa 35 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng kết hành vi có bất thường hay không Độ xác hiệu giải thuật học máy có ảnh hưởng định đến hiệu phát đột nhập Học máy thường phân loại thành phương pháp chính: - Học máy giám sát (Supervised Learning): Dữ liệu đầu vào thường tập liệu gán nhãn Kết trình huấn luyện thường thể dạng ánh xạ từ mẫu sang nhãn phân loại, ánh xạ thể dạng hàm gọi hàm đích (target function) - Học máy phi giám sát (Unsupervised Learning): liệu đầu vào gồm mẫu mà nhãn phân loại Hai dạng học máy phổ biến phân cụm (clustering) học luật kết hợp (association rule learning) - Học máy bán giám sát (Semi-supervised Learning) phương pháp học máy kết hợp học máy giám sát phi giám sát 2.2.3.2 Áp dụng kỹ thuật học máy tăng dần vào toán - Học máy tăng dần (Incremental Learning) thuật toán học máy hiệu trình thu thập thông tin Thuật toán học máy tăng dần tổng hợp tất thông tin thu thập để tạo thành mẫu (sample) đại diện cho toàn thông tin học Càng nhiều thông tin huấn luyện tính đại diện mẫu có độ xác cao Phương pháp đặc biệt hiệu mội trường biến thiên, không ổn định Trong mô hình 1-gram với Mahalanobis, mẫu đưa vào tần suất ký tự ASCII payload gói tin Mô hình đồ án có nhiệm vụ tổng hợp mẫu liệu huấn luyện thành centroid Mỗi centroid chứa thông tin: cổng (port), độ dài payload, giá trị tần suất trung bình độ lệch chuẩn ký tự ASCII, giá trị N biến đếm mẫu huấn luyện (dùng để tính giá trị trung bình) Những thông tin lưu sở liệu để phục vụ cho việc tính khoảng cách Mahalanobis Mỗi có mẫu vào, mô hình phải tính giá trị tần suất trung bình độ lệch chuẩn để tạo thành centroid phiên sử dụng thuật toán học máy tăng dần Giá trị tần suất trung bình ký tự tính theo công thức: 36 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng = /N Khi có mẫu huấn luyện mới, giá trị tần suất trung bình tính dựa theo giá trị trung bình ban đầu mà không cần phải tính lại tất giá trị tần suất tất mẫu, theo công thức: N+1 = = + Độ lệch chuẩn tính bậc phương sai Phương sai dược tính theo công thức: ���(�)=�(�−��)2=�(�2)−(��)2 Hay �2= Tương tự, với giá trị trung bình, có mẫu huấn luyện mới, độ lệch chuẩn tính theo công thức: ��+1= = Mô hình đồ án với Mahalanobis kết hợp với thuật toán học máy phi giám sát Vì hệ thống phát đột nhập dựa bất thường, liệu huấn luyện ban đầu yêu cầu phải liệu thông thường Những payload bất thường có liệu huấn luyện phân bố payload chúng khác biệt so với payload thông thường Do đó, payload bất thường có độ lệch lớn so với trung bình mẫu thông thường Chúng xác định loại bỏ khỏi liệu huấn luyện Sau xác định mẫu huấn luyện bất thường loại chúng huấn luyện lại mô hình loại bỏ byte xuất liệu bất thường 37 Đồ án tốt nghiệp Đại học phát xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa n-gram ứng dụng 2.3 Kết chương Trong chương 2, đồ án trình bày kỹ thuật phân tích sâu gói tin (DPI), áp dụng kỹ thuật thống kê n-gram để phân tích, mô hình hóa nội dung gói tin, thuật toán tính độ lệch Mahalanobis ứng dụng học máy hệ thống phát đột nhập Trên sở lý thuyết nêu chương 2, chương đồ án mô tả chi tiết mô hình phát đột nhập dựa phân tích sâu gói tin sử dụng kỹ thuật thống kê ngram kết hợp học máy 38 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt thử nghiệm CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Cài đặt Hình 3.6 Hình 3.7 Hình 3.8 3.2 Thử nghiệm 3.2.1 Tập liệu thử nghiệm Hình 3.9 3.2.2 Huấn luyện mô hình Hình 3.10 3.2.3 Kiểm thử phát Bảng 3.1 Hình 3.11 39 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt thử nghiệm 3.3 Nhận xét 3.4 Tóm tắt chương 40 Đồ án tốt nghiệp Đại học Kết luận KẾT LUẬN Việc đảm bảo an toàn cho mạng máy tính trước công xâm nhập trái phép, hạn chế thấp rủi ro thiệt hại việc làm đầy khó khăn thách thức Đòi hỏi người làm CNTT cần thiết phải có kiến thức am hiểu nguy có mạng máy tính, có việc phát phòng chống xâm nhập trái phép mạng máy tính Đồ án cung cấp hiểu biết tổng quan an toàn an ninh thông tin, nguyên tắc bản, số hình thái công nghệ phòng chống xâm nhập mạng trái phép Mục đích luận văn nghiên cứu kỹ thuật cách thức xâm nhập mạng máy tính; phương pháp hệ thống phát xâm nhập trái phép mạng máy tính để từ đề biện pháp phòng chống hệ thống ngăn chặn xâm nhập trái phép mạng máy tính cách hiệu Do thời gian nghiên cứu có hạn nên đề tài nghiên cứu tránh khỏi thiếu sót, em mong nhận ý kiến đóng góp từ thầy cô giáo bạn 41 Đồ án tốt nghiệp Đại học Tài liệu tham khảo TÀI LIỆU THAM KHẢO 42 [...]... nghiệp Đại học phát hiện xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa trên n-gram và ứng dụng trong CHƯƠNG 2: PHÂN TÍCH SÂU GÓI TIN DỰA TRÊN N-GRAM VÀ ỨNG DỤNG TRONG PHÁT HIỆN XÂM NHẬP MẠNG Chương 2 trình bày về các khái niệm phân tích sâu gói tin và ứng dụng trong phát hiện xâm nhập mạng 2.1 Tổng quan về phân tích sâu gói tin 2.1.1 Khái quát về phân tích sâu gói tin Phân tích sâu gói tin (Deep Packet... học phát hiện xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa trên n-gram và ứng dụng trong nhập Mô hình của kỹ thuật phân tích sâu gói tin dựa trên đối sánh chuỗi được mô tả trong hình 2.2 Hình 2.5 Mô hình phân tích sâu gói tin dựa trên đối sánh mẫu Kỹ thuật phân tích dựa trên đối sánh mẫu yêu cầu phải xây dựng tập cơ sở dữ liệu các mẫu, chữ ký hoặc các luật mô tả các dạng tấn công, đột nhập đã biết... đề về phần cứng và phần mềm Các kỹ thuật phân tích sâu gói tin có thể được chia thành 2 dạng chính: phân tích dựa trên đối sánh mẫu (Pattern Matching) và phân tích dựa trên sự bất thường 2.1.3.1 Phân tích sâu gói tin dựa trên đối sánh mẫu Kỹ thuật phân tích sâu gói tin dựa vào đối sánh mẫu là phương pháp so sánh đối tượng (là các thành phần của gói tin hoặc gói tin đã qua xử lý) với các mẫu có sẵn,... mình 2.2 Mô hình phân tích sâu gói tin dựa trên n-gram 2.2.1 Giới thiệu mô hình Việc phân tích sâu các gói tin trên mạng đóng một vai trò quan trọng trong việc quản lý lưu lượng cũng như đảm bảo an ninh trên mạng Do tốc độ mạng lên đến hàng Gb đã ảnh hưởng không nhỏ đến hiệu năng của việc phân tích sâu các gói tin Khi lưu lượng gói tin lớn, việc phân tích gói tin sẽ làm tắc nghẽn mạng Chính vì vậy... nhị phân trên đường truyền 25 Đồ án tốt nghiệp Đại học phát hiện xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa trên n-gram và ứng dụng trong - Chuyển đổi dữ liệu: trong bước này, các gói tin nhị phân trên được chuyển đổi thành các khuôn dạng có thể đọc được - Phân tích: bước cuối cùng là phân tích các dữ liệu đã được bắt lại và được chuyển đổi DPI có thể được sử dụng để kiểm tra thông tin trên. .. phát hiện xâm nhập mạng 1.2.3.2 Cơ chế hoạt động - Phát hiện dựa trên sự bất thường: công cụ này thiết lập một hiện trạng các hoạt động bình thường và sau đó duy trì một hiện trạng hiện hành cho một hệ thống Khi hai yếu tố này xuất hiện sự khác biệt, nghĩa là đã có sự xâm nhập - Phát hiện thông qua giao thức (Protocol):Tương tự như việc phát hiện dựa trên dấu hiệu, nhưng nó thực hiện một sự phân tích. .. quan về phát hiện xâm nhập mạng - HIDS phải được thiết lập trên từng host cần giám sát - HIDS không có khả năng phát hiện các cuộc dò quét mạng (Nmap, Netcat…) - HIDS cần tài nguyên trên host để hoạt động b NIDS (Network-IDS): + Khái niệm NIDS (Network-IDS): sẽ kiểm soát tất cả gói tin trên từng phân mạng, đánh dấu những gói tin bị nghi ngờ Là hệ thống phát hiện đột nhập phân tích lưu lượng mạng được... từng gói tin riêng lẻ hoặc thu thập từng mảnh (packet fragment) để tập hợp lại sau đó đưa vào quá trình tiền xử lý Bộ phận tiền xử lý sẽ phải đơn giản hóa payload của gói tin Với những gói tin đã bị mã hóa, hệ thống sẽ phải thực hiện giải mã trước khi xử lý 24 Đồ án tốt nghiệp Đại học phát hiện xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa trên n-gram và ứng dụng trong - Bước 3: Phân tích sâu gói. .. năng phát hiện nhầm: một đối tượng bình thường có thể bị coi là bất thường (false positive) hoặc ngược lại, một đối tượng bất thường có thể được coi là bình thường (false negative) 28 Đồ án tốt nghiệp Đại học phát hiện xâm nhập mạng Chương 2: Phân tích sâu gói tin dựa trên n-gram và ứng dụng trong Một số phương pháp xây dựng hồ sơ, phân tích mô hình dựa trên bất thường: - Các phương pháp dựa trên thống... phương pháp dựa trên khai phá dữ liệu - Các phương pháp dựa trên học máy: mô hình Markov ẩn (HMM), mang nơ-ron, lập trình tiến hóa, … 2.1.4 Ứng dụng của phân tích sâu gói tin DPI dựa vào phân tích gói tin nên có rất nhiều ứng dụng trên thực tế Bao gồm: 2.1.4.1 An ninh mạng Ban đầu, DPI được phát triển để sử dụng cho an ninh mạng Tường lửa truyền thống thường điều khiển việc truy nhập trong mạng bằng