CHƢƠNG 1 TỔNG QUAN VỀ HOT-IP TRÊN MẠNG
1.2. MỘT SỐ KHÁI NIỆM VÀ ĐỊNH NGHĨA
Khái niệm 1: Địa chỉ IP (gọi tắt là IP) là chuỗi các ký hiệu dùng để định danh cho các thiết bị trên mạng.
Cấu trúc tổng quát của một địa chỉ IP gồm cĩ hai phần là Network và Host. Phần Network mang giá trị đại diện cho một mạng và phần Host đại diện cho các
thiết bị trong mạng đĩ. IPv4 cĩ tổng cộng 32 bit, chia làm 4 phần, mỗi phần ngăn cách nhau bởi dấu “.”, đƣợc biểu diễn dƣới dạng thập phân hoặc nhị phân. Một phiên bản mới hơn là IPv6, địa chỉ IPv6 cĩ tổng cộng 128 bit, chia làm 8 phần, mỗi phần ngăn cách nhau bằng dấu “:”, đƣợc biểu diễn dƣới dạng thập lục phân. Phiên bản mới này đã mở rộng khơng gian địa chỉ hơn so với IPv4. Tuy nhiên, nĩ cĩ hạn chế là khơng tƣơng thích với IPv4. Do đĩ, vấn đề triển khai gặp khĩ khăn khi phiên bản IPv4 đang phủ khắp mơi trƣờng Internet. Cấu trúc của IPv4-header và IPv6- header đƣợc thể hiện ở hình 1.1 và hình 1.2.
Dù các thiết bị trên mạng sử dụng cấu trúc địa chỉ nào cũng khơng ảnh hƣớng đến tính tổng quát của giải pháp vì tham số đầu vào của thuật tốn là địa chỉ IP đƣợc trích ra trong từng gĩi tin, trong giải pháp xem đĩ nhƣ một giá trị đại diện cho một thiết bị trên mạng mà khơng sử dụng tới cấu trúc của nĩ trong thuật tốn.
Khái niệm 2: Gĩi tin IP là gĩi tin ở tầng mạng trong mơ hình OSI, trong đĩ cĩ phần IP-header mơ tả thơng tin ở tầng này. Trong cấu trúc của IP-header chứa
thơng số về địa chỉ IP nguồn và IP đích. Các giá trị địa chỉ này được sử dụng làm tham số đầu vào trong bài tốn phát hiện các Hot-IP.
Khái niệm 3: Dịng gĩi tin IP là một dãy liên tiếp các gĩi tin IP ( a1 , a2 ,...,
am )luân chuyển trên một đường truyền xác định. Trong đĩ, mỗi gĩi tin ai cĩ địa chỉ IP cần phân tích là si (si cĩ thể là IP nguồn hay IP đích cần xem xét tùy vào ứng dụng cụ thể).
Hình 1.1. Cấu trúc của IPv4-header trong gĩi tin IPv4
Hình 1.2. Cấu trúc của IPv6-header trong gĩi tin IPv6
Định nghĩa 1: Hot-IP trong dịng gĩi tin IP trên mạng máy tính là những IP xuất hiện với tần suất cao trong khoảng thời gian ngắn xác định trước. Cho dịng
gĩi tin IP cĩ địa chỉ IP tương ứng S 12 m
,ký hiệu N là số IP khác nhau
trong m IP thuộc S (0Nm). Gọi f i j IPiIPj ; ij ; IPi , IPjS , thì i i Hot-IP = IPS f m, 01 .
Trong hệ thống mạng ngày nay, tốc độ truyền dữ liệu ngày càng đƣợc nâng cao hơn. Các ứng dụng trực tuyến ngày một đa dạng trải dài từ thƣơng mại điện tử đến học tập, giải trí. Từ đĩ, dịng dữ liệu lƣu thơng trên mạng ngày một trở nên rất lớn. Phát hiện sớm các đối tƣợng cĩ khả năng là nguy cơ nhƣ các nạn nhân trong cuộc tấn cơng từ chối dịch vụ, các máy đang quét mạng nhằm phát hiện lỗ hổng để phát tán sâu trên mạng Internet hay một số bất thƣờng khác là vấn đề vơ cùng quan trọng. Phát hiện sớm các đối tƣợng nguy cơ này ở phía nhà cung cấp dịch vụ cĩ ý nghĩa quan trọng nhằm hạn chế, phịng chống, cảnh báo sớm các nguy hại cho hệ thống máy chủ cung cấp dịch vụ của khách hàng. Một trong những đặc trƣng cơ bản của chúng là phát tán rất nhanh với một số lƣợng rất lớn gĩi tin gửi tới các nạn nhân trong một khoảng thời gian rất ngắn.
Các Hot-IP đƣợc phát hiện sớm là cách đơn giản và hiệu quả để xác định các đối tƣợng cĩ khả năng là nguy cơ gây ra tấn cơng mạng, phát tán sâu Internet hay một số bất thƣờng nhƣ đã đề cập ở trên. Mục tiêu chính của các giải pháp trên dịng dữ liệu là xử lý dịng dữ liệu đầu vào thời gian thực sao cho sử dụng ít khơng gian lƣu trữ và thời gian chạy thuật tốn nhanh, các thuật tốn chỉ cần tính tốn một lần trên dịng dữ liệu đầu vào để cho ra kết quả [10]. Để thực hiện điều này cần phân tích lƣu lƣợng mạng và các gĩi dữ liệu trong thời gian thực. Các dịng dữ liệu cĩ thể đƣợc xem xét ở nhiều mức độ.
- Ở mức độ thứ nhất liên quan đến phân tích packet log (nhật ký gĩi). Mỗi gĩi tin IP cĩ phần header gồm địa chỉ IP nguồn và IP đích, cổng và các thơng tin khác. Packet log là một danh sách các thuộc tính trong header của một dãy các gĩi tin IP gửi qua router.
- Ở mức độ thứ hai liên quan đến phân tích flow log (nhật ký dịng). Mỗi flow là tập hợp các gĩi tin cĩ cùng các giá trị của một thuộc tính trong header xác
định nào đĩ nhƣ là IP nguồn hay IP đích. Flow log bao gồm thơng tin tích lũy về số lƣợng byte và các gĩi tin gửi đi, thời gian bắt đầu, thời gian kết thúc và loại giao thức của mỗi luồng dữ liệu đi qua router.
- Ở mức độ thứ ba liên quan đến việc phân tích các SNMP log, các gĩi tin đƣợc tập hợp từ các thiết bị đƣợc giám sát gửi định thời đến SNMP server. - Ở mức độ thứ tƣ liên quan đến dịng dữ liệu thời gian thực, các gĩi tin trong
dịng gĩi tin đƣợc phân tích và xử lý để phát hiện các nguy cơ trong khoảng thời gian rất nhanh.
Luận án tập trung xử lý các dịng dữ liệu ở mức thứ tƣ.
Phần tiếp theo, luận án sẽ trình bày một số vấn đề liên quan đến vị trí thu thập và xử lý dữ liệu; các nghiên cứu liên quan đến bài tốn xác định các Hot-IP trên mạng. Trong đĩ, luận án tập trung phân tích các nghiên cứu về phát hiện tấn cơng từ chối dịch vụ (DoS và DDoS), phát tán sâu Internet loại “scanning worm”; mở rộng các nghiên cứu liên quan về phát hiện các phần tử tần suất cao trong dịng dữ liệu. Từ đĩ làm cơ sở để lựa chọn giải pháp phù hợp nhất cho bài tốn phát hiện các Hot-IP trực tuyến trên mạng.