Khi áp dụng mô hình dữ liệu hành vi Choi&Lim vào phương pháp cũ nhƣ của E.Doron là hiệu quả nhƣng nếu áp dụng mô hình dữ liệu hành vi mới của Lee & Gupta vào phƣơng pháp đó chưa chắc là hiệu quả.
Hay viết theo quan điểm toán học logic thì:
Một hành vi là hợp lệ trong mô hình Choi & Lim cũng phải hợp lệ trong mô
hình Lee & Gupta. Trong khi một hành vi hợp lệ trong mô hình Lee & Gupta chƣa
chắc là hợp lệ trong mô hình Choi&Lim.
Và thực chất là khi áp dụng mô hình mới Lee&Gupta [14] vào kiến trúc phần mềm cũ WDA [4], tỉ lệ phát hiện sai tăng lên nhanh chóng. Sở dĩ nhƣ vậy là bởi:
Thứ nhất, các nghiên cứu của Choi&Lim đã giả thuyết là bỏ qua các truy vấn tự động trong thời gia OFF lúc mà ngƣời dùng đọc thông tin trên website. Quá trình ON – OFF tách bạch thành hai khoảng thời gian riêng biệt. Thời kỳ ON trình duyệt sẽ tải toàn bộ dữ liệu và hiển thị thông tin đến ngƣời dùng. Thời kỳ OFF là thời kỳ ngƣời dùng đọc dữ liệu không có thêm dữ liệu truy vấn. Những thông số đo đƣợc cũng dựa trên phân loại thống kê này. Nhƣng thống kê cho thấy, kết quả của mô hình Lee&Gupta là các kết quả mở rộng của mô hình trƣớc, có sự đo đạc băng thông, lƣu lƣợng bao quát và mới hơn, sử dụng chung một thuật toán đánh giá nên dĩ nhiên một hành vi sử dụng ít băng thông hơn, có thời gian nghỉ tƣơng đƣơng sẽ là hợp lệ trong mô hình mới. Các kết quả thống kê đặc điểm lƣu lƣợng trong những trƣờng hợp không có phát sinh các truy vấn Ajax hoặc RSS là gần nhƣ tƣơng đƣơng mặc dù lƣu lƣợng các đối tƣợng trong mô hình thống kê mới có sự chênh lệch và lớn hơn so với trƣớc. Thống kê bên dƣới chứng tỏ luận cứ này:
40 Hình 13 Kết quả thống kê thuộc tính nổi bật của mô hình Choi & Lim [15]
Hình 14 Thống kê thuộc tính nổi bật của mô hình Lee&Gupta [14]
Thứ hai, với các dạng truy vấn mà ngay cả trong thời gian ngƣời dùng đọc, trình duyệt cũng có thể tự động lấy thêm dữ liệu – nhƣ cập nhật định kỳ RSS, tự động gửi thêm dữ liệu thống kê đến các trang Web thống kê quảng cáo…thì rõ ràng cách phân loại của Choi & Lim đã bị vi phạm, lƣợng dữ liệu truy vấn và thời gian OFF không còn phân biệt mà sẽ trộn lẫn nhau, dẫn đến các kết quả thống kê khác biệt. Dữ liệu gửi lên trong mô hình mới nhiều hơn và quãng thời gian thực sự là OFF ngắn hơn nhiều lần cũng nhƣ bị chia nhỏ trong cả phiên truy nhập. Minh họa sau sẽ giải thích điều đó:
Hình 15 Minh họa mô hình ON – OFF của Choi & Lim
41 Hình 16 Minh họa mô hình dữ liệu mới
Hình 15 là mô hình ON-OFF theo nghiên cứu của Choi&Lim có mức phân hóa rõ rệt thời gian tải dữ liệu ON và thời gian nghỉ OFF. Trong khi trong hình 16, thời gian tải dữ liệu bị chèn xen kẽ vào thời gian nghỉ khi ngƣời dùng đọc trang. Nhƣ vậy, khó có thể so sánh hai ngƣỡng băng thông gửi lên nhƣ nhau trong cùng một khoảng thời gian là một phiên Web-request.
Kịch bản của mô hình cũ: Trong 8 tiếng, tác giả thiết kế 3 client hợp lệ lần lƣợt kết nối tới server vào các thời điểm khác nhau. Các kết nối hợp lệ này tuân theo thời gian nghỉ ngẫu nhiên trong phạm vi từ 5 giây đến 30 giây và lƣu lƣợng ngẫu nhiên trong khoảng từ 30KB đến 100KB. Sau đó tác giả tiến hành đo mẫu tỉ lệ phiên 3 client truy cập thành công trong các trƣờng hợp: không có tấn công xảy ra, có tấn công dạng đơn giản (Simple Flooding), có tấn công dạng phức tạp (Low-rate). Kết quả thu đƣợc tác giả sẽ so sánh tỉ lệ phiên truy cập thành công của client hợp lệ khi có áp dụng bộ lọc WDA [4] và khi không áp dụng bộ lọc WDA để tìm độ hiệu quả của thuật toán.
Để chứng minh đƣợc tỉ lệ sai sót lớn khi áp dụng mô hình dữ liệu mới vào phƣơng pháp cũ, chúng tôi sẽ giữ nguyên kịch bản mô phỏng nhƣng thay đổi cách kết nối của 3 client hợp lệ vào server trong các thời điểm khác nhau đó. Trong thời gian nghỉ ngẫu nhiên nhƣ kịch bản cũ, chúng tôi vẫn sẽ cho phép client này thiết lập kết nối mới tới server nhƣ mô hình Lee&Gupta, đồng thời lƣợng dữ liệu upload cũng lớn hơn từ 50KB đến 150KB hoặc 2MB đến 6MB.
Kết quả thực nghiệm trong thực tế cũng chứng minh rằng: khi áp dụng mô hình dữ liệu mới vào phƣơng pháp cũ, khi số lƣợng ngƣời dùng hợp lệ tăng lên thì tỉ
42 lệ phát hiện sai của WDA tăng lên nhanh chóng nếu dữ liệu gửi lên của mỗi ngƣời dùng là lớn. Nhƣ vậy mệnh đề 1 đã đƣợc chứng minh bằng thực nghiệm.
Hình 17 Hiệu quả của thuật toán cũ trên mô hình mới Và khi tăng số ngƣời dùng hợp lệ cùng truy cập vào máy chủ website.
43