CHƢƠNG 1 TỔNG QUAN VỀ HOT-IP TRÊN MẠNG
2.1. GIỚI THIỆU VỀ THỬ NHĨM
Phƣơng pháp thử nhĩm xuất hiện đầu tiên vào năm 1943 đƣợc Robert Dorfman đề xuất [46]. Trong chiến tranh thế giới lần thứ II, Dorfman thiết kế một thủ tục thử máu cho các quân nhân của Mỹ để chỉ ra những ngƣời nào bị bệnh giang mai. Ơng thực hiện nhƣ sau: bỏ nhiều mẫu máu vào các nhĩm, mỗi mẫu máu đƣợc trích ra để bỏ vào nhiều nhĩm. Mỗi nhĩm cĩ thể chứa một hoặc nhiều mẫu máu và thử cùng một lúc. Giả sử bỏ qua vấn đề dƣơng tính giả và cho rằng các phép thử máu khơng bị lỗi. Nếu phép thử là âm tính thì tất cả các mẫu máu trong nhĩm đĩ là âm tính. Nếu phép thử là dương tính thì cĩ ít nhất cĩ một mẫu máu trong nhĩm đĩ là dương tính. Vấn đề đặt ra là cho trƣớc N mẫu máu, thiết kế các nhĩm thử càng ít càng tốt để chỉ ra các mẫu máu dương tính. Ý tƣởng thử nhĩm làm giảm đáng kể tổng số các phép thử. Mục tiêu của phƣơng pháp thử nhĩm là xác định một tập con d các phần tử “dương tính” từ một tập rất lớn N các đối tƣợng với số lần thử càng ít càng tốt.
Lý thuyết thử nhĩm ra đời từ đĩ và cĩ nhiều ứng dụng quan trọng trong nhiều lĩnh vực khác nhau [47], [53]: trong sinh học tính tốn [48], mạng máy tính [49], xử lý tín hiệu [50], xác minh chữ ký điện tử theo nhĩm [51], dữ liệu trực tuyến [27], kiểm tra tính tồn vẹn dữ liệu [52].
Phƣơng pháp thử nhĩm đƣợc chia thành 2 loại là thử nhĩm ứng biến (Adaptive Group Testing) và thử nhĩm bất ứng biến (Non-Adaptive Group Testing – NAGT) [53]. Trong thử nhĩm ứng biến, phép thử sau đƣợc thiết kế dựa vào kết quả của phép thử trƣớc đĩ, thuật tốn thử nhĩm ứng biến cĩ bản chất tuần tự. Trong thử nhĩm bất ứng biến, tất cả các phép thử phải đƣợc xác định trƣớc mà khơng phụ thuộc vào bất kỳ phép thử nào. Đây cũng là yếu tố quan trọng cĩ thể thực hiện việc chạy song song các phép thử trên nhiều bộ xử lý cùng một lúc nhằm giảm thời gian
tính tốn giúp phát hiện nhanh các Hot-IP trên mạng. Trong một số ứng dụng cho các bài tốn trên dịng dữ liệu yêu cầu phải sử dụng phƣơng pháp thử nhĩm bất ứng biến vì dữ liệu trên dịng dữ liệu đi qua thuật tốn một lần và cho ra kết quả ngay. Do đĩ, luận án chỉ tập trung nghiên cứu về phƣơng pháp thử nhĩm bất ứng biến để áp dụng vào bài tốn phát hiện các Hot-IP trực tuyến trên mạng.
Phƣơng pháp thử nhĩm bất ứng biến cĩ nhiều ƣu điểm nhƣ tính đơn giản, thực hiện nhanh, độ chính xác cao, khả năng ứng dụng hiệu quả trong dịng dữ liệu lớn nhƣ đã phân tích ở chƣơng 1. Luận án áp dụng phƣơng pháp thử nhĩm bất ứng biến vào bài tốn phát hiện các Hot-IP trực tuyến trên dịng gĩi tin IP, đề xuất thuật tốn cải tiến, kết hợp với một số kỹ thuật nhƣ xử lý song song và kiến trúc phân tán để nâng cao hiệu quả của giải pháp. Giải pháp phát hiện các Hot-IP trên mạng cĩ thể ứng dụng vào một số bài tốn an ninh mạng nhƣ phát hiện các đối tƣợng cĩ khả năng là nguồn phát hay mục tiêu trong các tấn cơng từ chối dịch vụ, phát hiện các đối tƣợng cĩ khả năng là nguồn phát tán sâu Internet, phát hiện các đối tƣợng cĩ khả năng đang hoạt động bất thƣờng trong hệ thống, cĩ thể triển khai giải pháp ở các mạng trung gian nhƣ mạng của các nhà cung cấp dịch vụ hoặc các hệ thống mạng cung cấp dịch vụ trên Internet.