Thực nghiệm mô hình rừng cô lập trên các tập dữ liệu

Một phần của tài liệu PHÁT HIỆN DỮLIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 71)

Cách lựa chọn số cây cho thực nghiệm: Theo công bố của các tác giả đề xuất kỹ thuật rừng cô lập [27] và một số bài báo đề cập về rừng ngẫu nhiên [16, 26], số cây càng lớn thì rừng càng đạt đến mức ổn định cho giai đoạn đánh giá (phổ biến các rừng chọn số cây là 100 [27] ), tuy nhiên do giới hạn về bộ nhớ, độ phức tạp thời gian cho giai đoạn huấn luyện, nên thực nghiệm cho mô hình xây dựng các rừng theo số cây khác nhau rồi điều chỉnh số cây hợp lý trên từng tập dữ liệu cụ thể. Cụ thể trong đề tài này, thực nghiệm tiến hành cho mô hình chạy trên các tập dữ liệu bằng cách thay đổi số cây T=20, 40, 60, 80, 100, 120, 140, 160, 180, 200, 250, 300 (qua thực nghiệm cho thấy khi T>300 không làm tăng thêm hiệu quả phát hiện nên không cần thiết tăng thêm T vì sẽ làm tăng thời gian chạy của chương trình).

Cách chọn kích thước mẫu ΨΨΨΨ: Vì cây cô lập là cây nhị phân đúng nghĩa (3.1.1), nên kích thước mẫu Ψ được chọn theo lũy thừa của 2 để đảm bảo trường hợp cây đạt đến cây nhị phân hoàn chỉnh. (qua thực nghiệm cho thấy Ψ=4 quá nhỏ nên thường cho giá trị không ổn định). Trong thực nghiệm này cho Ψ chạy theo các giá trịΨ =8, 16, 32, 64, 128, 256, 512 (giá trịΨ=512 khá lớn nên trên một số tập có số phần tử ít thì không dùng chỉ số này).

Cách chọn các ngưỡng đánh giá: Trên mỗi cặp (T, Ψ), chọn nhiều ngưỡng phát hiện để đánh giá mô hình, để có khoảng cách đồng đều cho các ngưỡng, thực nghiệm này chọn các ngưỡng theo tỷ lệ phần trăm bao gồm 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 đểđánh giá hiệu quả tại mỗi cặp (T, Ψ) theo giá trị AUC.

Một phần của tài liệu PHÁT HIỆN DỮLIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 71)