THỬ NHĨM BẤT ỨNG BIẾN

Một phần của tài liệu 1-LATS-HuynhNguyenChinh (Trang 63 - 67)

CHƢƠNG 1 TỔNG QUAN VỀ HOT-IP TRÊN MẠNG

2.2. THỬ NHĨM BẤT ỨNG BIẾN

Trong thử nhĩm bất ứng biến, các nhĩm thử phải đƣợc thiết kế trƣớc, thử tất cả các nhĩm cùng một lúc, rồi từ đĩ chỉ ra các Hot-IP [39]. Phƣơng pháp này thích hợp cho các bài tốn trên dịng dữ liệu thời gian thực, khi đĩ với dữ liệu đầu vào thuật tốn chỉ cần thực hiện việc tính tốn một lần để cho ra kết quả.

Mơ hình hĩa bài tốn phát hiện các Hot-IP trên dịng gĩi tin IP về bài tốn thử nhĩm bất ứng biến nhƣ sau: cho dịng gĩi tin IP, trong đĩ cĩ N địa chỉ IP phân biệt. Giả sử cĩ tối đa d phần tử là Hot-IP, thiết kế t nhĩm thử cho N địa chỉ IP này. Xây dựng một ma trận nhị phân MtxN, trong đĩ các cột của ma trận đại diện cho các địa chỉ IP phân biệt và các hàng của ma trận đại diện cho các nhĩm thử. Các phần tử

của ma trậnmij cĩ giá trị nhƣ sau: mij=1 nghĩa là IP thứ j thuộc về nhĩm thử thứ i và

ngƣợc lại mij=0 nếu IP thứ j khơng thuộc về nhĩm thử thứ i.

Số thứ tự IP 1 2 3 4 5 ... N 1 1 0 0 0 1 ... 0  2 0 1 0 1 0 ... 0  Ma trận nhị phân   d-phân-cách kích 3 0 0 1 0 0 ... 1  Số nhĩm thử   thƣớc ...... ... ... ... ... ... ... t  1 0 1 0 1 ... 0    Hình 2.1. Ma trận nhị phân d-phân-cách

Nếu M là ma trận d-phân-cách thì cĩ thể chỉ ra rằng cĩ nhiều nhất d phần tử

là Hot-IP,với d N ,t N , nghĩa là tổng khơng gian sử dụng để lƣu trữ trong phƣơng pháp thử nhĩm nhỏ hơn rất nhiều so với phƣơng pháp dùng mỗi bộ đếm cho mỗi IP [53]. Hình 2.1 mơ tả ma trận nhị phân d-phân-cách kích thƣớc tN . Để chỉ ra các Hot-IP trong dịng gĩi tin IP, từ ma trận d-phân-cách và vector kết quả của các nhĩm thử, thuật tốn giải mã sẽ chỉ ra những địa chỉ IP nào là Hot-IP mà khơng cần bất kỳ một cấu trúc dữ liệu nào khác [39].

Gọi thuật tốn xác định các Hot-IP là thuật tốn giải mã và thời gian chạy thuật tốn tìm ra các Hot-IP là thời gian giải mã. Thuật tốn giải mã phổ biến đƣợc sử dụng là thuật tốn giải mã đơn giản. Cĩ thể tĩm tắt thuật tốn giải mã này nhƣ sau: cho một vector kết quảr ( ri ){0,1}t , nếu IP thứ j nằm trong nhĩm thử “âm

tính” thứ i (nghĩa là ri 0 và mij 1thì j khơng phải là Hot-IP). Sau khi loại bỏ hết các IP khơng phải là Hot-IP theo cách này thì kết quả thu đƣợc cịn lại là các Hot-IP. Một số yêu cầu quan trọng đối với các thuật tốn sử dụng phƣơng pháp thử nhĩm bất ứng biến cho các ứng dụng trong dịng dữ liệu: thiết kế số lượng nhĩm thử

nhỏ, thời gian xác định các Hot-IP nhanh, xây dựng ma trận d-phân-cách tường minh và giảm khơng gian lưu trữ [43], [53].

Về số lượng nhĩm thử

Số lƣợng nhĩm thử thể hiện số phép kiểm tra nhĩm phải thực hiện, từ đĩ chỉ ra kết quả là những IP nào là Hot-IP trong tổng số N địa chỉ IP. Theo lý thuyết thử nhĩm số lƣợng nhĩm thử đƣợc thiết kế càng nhỏ càng tốt.

Năm 1964, Kautz và Singleton đề ra cách thiết kế các nhĩm chỉ cần số phép thử là O(d2log2N) [45]. Trong đĩ d là chặn trên của số mẫu “dương tính” và N là tổng số mẫu (d rất nhỏ so với N). Họ nghiên cứu các mã chồng (superimposed codes) và chứng minh đƣợc rằng tồn tại các phép thiết kế chỉ cần số nhĩm thử là O(d2logN), nhƣng khơng chỉ ra đƣợc cách xây dựng. Ý tƣởng của họ là dùng các mã phân ly khoảng các tối đa (MDS) để xây dựng các nhĩm thử. Ý tƣởng này là trƣờng hợp đặc biệt của phép nối mã khá phổ biến trong lý thuyết mã hĩa. Mã MDS phổ biến nhất là mã Reed-Solomon.

Về xây dựng ma trận d-phân-cách tường minh

Xây dựng ma trận d-phân-cách là một cơ sở quan trọng trong phƣơng pháp thử nhĩm bất ứng biến. Cách xây dựng ma trận này mơ tả ba tham số quan trọng: số hàng của ma trận thể hiện số nhĩm thử, số cột của ma trận thể hiện số lƣợng địa chỉ IP phân biệt cĩ thể hỗ trợ và tham số d trong ma trận nhị phân d-phân-cách thể hiện số lƣợng Hot-IP tối đa cĩ thể tìm ra đƣợc bởi phƣơng pháp thử nhĩm bất ứng biến.

Cĩ 2 phƣơng pháp xây dựng ma trận d-phân-cách đƣợc đề xuất: phƣơng pháp sinh ngẫu nhiên và phƣơng pháp sinh tƣờng minh sử dụng phép nối mã [39]. Phƣơng pháp sinh ngẫu nhiên cĩ tính xác suất, nghĩa là cĩ thể phát sinh ma trận khơng phải là ma trận d-phân-cách. Hơn nữa, ma trận phải đƣợc phát sinh tồn bộ, nghĩa là phải lƣu tồn bộ ma trận trong bộ nhớ khi thực thi chƣơng trình, tốn khơng gian lƣu trữ. Phƣơng pháp sinh ma trận tƣờng minh đảm bảo ma trận sinh ra chính xác là ma trận d-phân-cách và cĩ thể phát sinh theo từng cột của ma trận dựa vào phép nối mã. Do đĩ, cách sinh ma trận dạng này đảm bảo tính chính xác của ma trận d-phân-cách để phƣơng pháp giải mã cĩ tính chính xác cao và cĩ thể ứng dụng triển khai giải pháp trên các thiết bị cĩ tài nguyên hạn chế, khi đĩ các cột của ma

trận đƣợc phát sinh và tính tốn mà khơng cần phải lƣu tồn bộ ma trận vào bộ nhớ khi thực thi chƣơng trình.

Về thời gian xác định các Hot-IP

Gọi thời gian giải mã là thời gian chạy thuật tốn để tìm ra các Hot-IP trong dịng dữ liệu. Thuật tốn giải mã trong phƣơng pháp thử nhĩm bất ứng biến sử dụng ma trận d-phân-cách và vector kết quả của các nhĩm thử để xác định các Hot-IP mà khơng cần một cấu trúc dữ liệu nào khác. Trong các bài tốn trên dịng dữ liệu thời gian thực thì yếu tố thời gian là rất quan trọng để triển khai áp dụng vào thực tế.

Hai thuật tốn quan trọng đƣợc sử dụng là thuật tốn giải mã đơn giản và

thuật tốn giải mã danh sách. Thuật tốn giải mã đơn giản cĩ thời gian giải mã là O

(tN ) và thuật tốn giải mã danh sách của nhĩm Indyk-Ngo-Rudra là poly ( d )t log 2t

O(t 2 ) [39]. Nhƣ vậy, thuật tốn giải mã danh sách tối ƣu hơn về thời gian giải mã. Tuy nhiên, phƣơng pháp giải mã danh sách khĩ khăn trong xây dựng ma trận d-phân- cách vì để phát sinh đƣợc theo cách này yêu cầu phải xây dựng các mã trong là các ma trận phân cách danh sách khĩ thực hiện [39].

Về khơng gian lưu trữ

Khơng gian lƣu trữ đƣợc nhắc đến ở đây chính là khơng gian lƣu trữ ma trận d-phân-cách. Phạm vi áp dụng của bài tốn phát hiện các Hot-IP là trên các mạng cĩ số lƣợng đối tƣợng và tần suất truy cập rất lớn, nhƣ mạng trung gian của các nhà cung cấp dịch vụ, do vậy với số lƣợng IP lớn trong dịng gĩi tin IP đồng nghĩa với việc kích thƣớc ma trận sẽ lớn. Hai vấn đề cần đƣợc xem xét giải quyết để phát hiện các Hot-IP trực tuyến là phát sinh từng cột của ma trận để tính tốn nhằm giảm khơng gian lƣu trữ và giới hạn số lƣợng IP của ma trận.

Để giảm khơng gian lƣu trữ cho ma trận, phƣơng pháp nối mã đƣợc sử dụng để phát sinh các cột của ma trận. Từng cột của ma trận đƣợc sinh ra để sử dụng cho các tính tốn trong chƣơng trình mà khơng cần phải lƣu trữ tồn bộ ma trận d-phân- cách cĩ kích thƣớc rất lớn này.

Đối với vấn đề thứ hai là giới hạn số lƣợng IP (tƣơng ứng với số cột trong ma trận phân cách), cĩ thể xem xét ở vị trí triển khai về số lƣợng khách hàng, khả năng của thiết bị triển khai giải pháp và chu kỳ thực hiện thuật tốn để lựa chọn phù hợp. Vấn đề này sẽ đƣợc luận án trình bày chi tiết ở phần sau.

Một phần của tài liệu 1-LATS-HuynhNguyenChinh (Trang 63 - 67)

Tải bản đầy đủ (DOC)

(167 trang)
w