Thực nghiệm 2: tập Training và tập Test là mộ t

Một phần của tài liệu PHÁT HIỆN DỮ LIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 91 - 93)

Mô tả thực nghiệm:

Ở thực nghiệm này tôi dùng tập Training là tập gốc ban đầu (loại bỏ thuộc tính nhãn), sau đó ở giai đoạn kiểm thử tôi đi tính điểm số cho toàn bộ các thể hiện trên tập gốc, đây là cách thực nghiệm mà tác giả của bài báo “Rừng cô lập” đã sử dụng để thực nghiệm [27].

Vì quá trình xây dựng rừng là ngẫu nhiên, mỗi lần thực hiện xây dựng rừng ta sẽ thu được một tập các cây khác nhau và tập các cây này sẽ khác với tập các cây ở những lần xây dựng trước, Vì thế khả năng đánh giá sẽ có sự sai khác trên từng rừng khác nhau. Chính vì lý do đó, thực nghiệm trên mỗi tập sẽ được lập lại nhiều lần rồi lấy giá trị trung bình để tìm độ ổn định cho đánh giá. Kết quả ghi nhận được từ thực nghiệm, khi số lần lập lại càng lớn thì giá trị trung bình đạt được có sự sai khác không đáng kể, nói cách khác là kết quảđủổn định. Số lần lặp lại càng lớn thì càng đạt sự tin

tưởng khi lấy trung bình. Nên tôi chọn 10 lần lặp để dùng trong thực nghiệm này. Vì khi chọn số lần lặp lớn hơn sẽ làm tăng khối lượng dữ liệu phải xử lý không cần thiết.

Thực nghiệm tiến hành đúng theo 4 bước sau đây:

Bước 1: Thực nghiệm tiến hành chạy mô hình trên các tập dữ liệu bằng cách thay đổi số cây T=20, 40, 60, 80, 100, 120, 140, 160, 180, 200, 250, 300. Trên mỗi T, cho thực nghiệm chạy trên giá trị kích thước mẫu Ψ=8, 16, 32, 64, 128, 256, 512. Trên mỗi cặp (T, Ψ), chọn nhiều ngưỡng phát hiện bao gồm 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 đểđánh giá hiệu quả cho mỗi cặp (T, Ψ) theo giá trị AUC.

Bước 2: Tổng hợp kết quả sau 10 lần chạy mô hình cho từng tập dữ liệu bằng cách lấy trung bình của các giá trị AUC thu được.

Bước 3: Vẽ biểu đồ theo bảng giá trịđể so sánh hiệu quả theo Ψ (chọn Ψ) và quan sát tính ổn định theo T (chọn T).

Bước 4: Chọn một cặp (T, Ψ) cho giá trị AUC tốt nhất, vẽ biểu đồ ROC biểu diễn cho hiệu quả phát hiện của mô hình trên từng tập cụ thể.

Kết quả Thực nghiệm:

Kết quả thực nghiệm trên 5 tập: Breastw, RayNau, Spambase, Pima, Mammographic mô tả trên biểu đồ 5.12, kết quả chi tiết tham khảo phần phụ lục 2.

Các đường ROC cho 5 tp thc nghim Phương Pháp 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Breastw RayNau Spambase Pima Mammographic

Một phần của tài liệu PHÁT HIỆN DỮ LIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 91 - 93)