Loại bỏ ảnh hưởng của swamping và masking nhờ mẫu kích thước nhỏ

Một phần của tài liệu PHÁT HIỆN DỮLIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 40 - 42)

Do rừng cô lập (iForest) không cần thiết phải cô lập hết tất cả các thể hiện bình thường mà nó chiếm phần lớn trong tập huấn luyện [27]. iForest có thể làm việc tốt với mô hình từng phần mà không cần cô lập tất cả các điểm bình thường và xây dựng các mô hình từng phần bằng cách sử dụng mẫu có kích thước nhỏ.

Các mô hình đang được sử dụng cho phát hiện bất thường (2.5) đánh giá cao cho kích thước mẫu lớn. Trong khi đó, phương pháp cô lập làm việc tốt khi kích thước mẫu nhỏ. Bởi vì khi kích thước mẫu lớn sẽ làm giảm khả năng của iForest để cô lập các bất thường khi mà các thể hiện bình thường có thể can thiệp đến tiến trình cô lập.

Swamping: nhận dạng một cách sai lầm khi cho các thể hiện là bình thường trong khi thực tế nó là bất thường. Điều này xảy ra khi các thể hiện bình thường

nằm quá gần với bất thường, số các partitions đòi hỏi để chia các bất thường tăng lên (Hình 3.2), điều này gây khó khăn trong việc phân biệt các bất thường từ các thể hiện bình thường.

Masking: là sự tồn tại quá nhiều các thể hiện bất thường. Khi một nhóm bất thường lớn và mật độ dày, nó cũng làm tăng số các partition để cô lập mỗi thể hiện bất thường.

Chú ý rằng cả hai tính chất swamping và masking đều là kết quả khi có quá nhiều dữ liệu cho mục đích phát hiện bất thường. Đặc điểm duy nhất của các cây cô lập cho phép iForest xây dựng mô hình từng phần bởi sub-sampling mà ởđó có thể loại bỏđược sựảnh hưởng của swamping và masking, do các yếu tố sau:

1) Sub-sampling điều khiển kích thước dữ liệu mà điều này giúp cho iForest cô lập các mẫu bất thường tốt hơn.

2) Mỗi cây cô lập có thể được đặc biệt hóa, bởi vì mỗi bao gồm tập khác biệt về các bất thường và thậm chí không có bất thường nào trong .

Để minh hoạ cho điều này, hình 3.3(a) [27] chỉ ra tập dữ liệu có hai nhóm bất thường được nằm gần với một nhóm lớn các bình thường ở trung tâm. Có vài điểm bình thường gây trở ngại do nằm bao quanh các nhóm bất thường, và các nhóm bất thường thì có mật độ dày hơn các điểm bình thường trong mẫu có 4096 thể hiện. Hình 3.3(b) [27] cho thấy một mẫu con có 128 thể hiện từ dữ liệu gốc. Các nhóm bất thường thì được nhận thấy rõ ràng hơn trong tập con này. Những thể hiện bình thường bao xung quanh các nhóm bất thường đã được loại sạch, và kích thước của các nhóm bất thường trở nên nhỏ hơn và điều này làm cho chúng được nhận dạng dễ dàng hơn.

Hình 3.3(a): Tập mẫu gốc (4096 thể hiện) Hình 3.3(b): sub-sample(128 thể hiện) [27]

3.3. Chọn mẫu (sub-sample)

Trên thực tế, có nhiều cách chọn ra mẫu con từ tập dữ liệu gốc ban đầu, điều này tùy thuộc vào đặc điểm của ứng dụng. Trong kỹ thuật iForest, cách chọn mẫu được thực hiện theo cách chọn ngẫu nhiên Ψ thể hiện từ tập X có n thể hiện không được sắp xếp, cách chọn này có hoàn lại nghĩa là tập gốc X luôn có đủ n thể hiện.

Cách chọn ra giá trị Ψ sẽ được điều chỉnh qua thực nghiệm, thực nghiệm cho thấy rằng khi Ψ tăng đến một giá trị mong đợi, iForest phát hiện đáng tin cậy và không cần thiết tăng Ψ thêm nữa bởi vì nó sẽ làm tăng thời gian xử lý và tăng kích thước bộ nhớ mà không mang lại lợi ích gì cho hiệu quả phát hiện.

Một phần của tài liệu PHÁT HIỆN DỮLIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 40 - 42)

Tải bản đầy đủ (PDF)

(119 trang)