Phát hiện dữ liệu bất thường với rừng cô lập trên tập dữ liệu ung thư vú Breastw

MỤC LỤC

NỘI DUNG VÀ KẾT QUẢ THỰC NGHIỆM 5.1. Chọn các tập dữ liệu thực nghiệm

Mô tả tập dữ liệu Breastw (Breast Cancer Wisconsin)

Đây là tập dữ liệu chứa các mẫu bệnh ung thư vú (Breast cancer) [5], các mẫu dữ liệu có được qua những báo cáo định kỳ của Tiến sĩ, bác sĩ Wolberg, trường đại học y Wisconsin, Madison, Wisconsin, USA; Những mẫu bệnh này được thu thập trong quá trình khám chữa bệnh cho các bệnh nhân. Thông tin về thuộc tính (bảng 5.2): gồm 11 thuộc tính, thuộc tính 1 là mã số mẫu bệnh (id number), thuộc tính 11 có 2 giá trị biểu thị cho 2 lớp (lớp 2: mẫu bệnh lành tính, lớp 4 cho mẫu bệnh ác tính), 2 thuộc tính này sẽ bị loại bỏ trước khi đưa tập dữ liệu vào thực nghiệm vì chúng không liên quan đến ý nghĩa phát hiện bất thường. 9 thuộc tính còn lại từ thuộc tính thứ 2 đến 10 là các số nguyên trong khoảng từ 1 đến 10 biểu thị các chỉ số chuyên môn cho việc chuẩn đoán bệnh.

2 phần tử bất thường 5,7 được cô lập gần nút gốc của cây hơn so với các phần tử khác. Quan sát bảng 5.3 cho thấy giá trị của các thuộc tính của 2 mẫu bất thường này khác biệt hơn nhiều (lớn hơn) so với các mẫu còn lại, ví dụ như ở thuộc tính thứ 2 cho thấy mức độ dày đặc của các khối u ở 2 mẫu 5,7 khá lớn (gần đạt giá trị tối đa là 10), trong khi những mẫu bệnh lành tính (lớp 0) thì giá trị của thuộc tính này tương đối nhỏ (dưới giá trị 5). Tương tự mô tả cho các thuộc tính còn lại. 2) Mô tả tập dữ liệu RayNau.

Mô tả tập dữ liệu RayNau Thông tin về tập dữ liệu

Tất cả các thể hiện đều được lấy ngẫu nhiên theo giá trị bình thường, còn 10% thể hiện bất thường thì được lấy ngẫu nhiên trong vùng giá trị bất thường. Quan sát bảng 5.5 ta dễ dàng nhận ra mẫu bệnh thuộc lớp 1 có giá trị dữ liệu khá tách biệt so với các mẫu bệnh thuộc lớp 0.

Mô tả tập dữ liệu Spambase

Mô tả thuộc tính: Tập Spambase có tổng cộng 57 thuộc tính được mô tả chi tiết trong bảng 5.6 bên dưới. Thứ tự thuộc tính Ý nghĩa của các thuộc tính - kiểu thuộc tính – giá trị Thuộc tính từ. Là các thuộc tính kiểu số thực, xác định tỷ lệ xuất hiện của 48 từ trong thư điện tử, 48 từ này xuất hiện ở cuối của mỗi tên trường.

Các thuộc tính có giá trị trong đoạn [0,100], đây chính là tỷ lệ phần trăm của từ xuất hiện trong thư điện tử. Kiểu số thực, xác định tỷ lệ xuất hiện của ký tự trong thư điện tử, 6 ký tự này xuất hiện ở cuối tên mỗi trường. Các trường có giá trị trong đoạn [0,100], đây là chính là tỷ lệ phần trăm của ký tự xuất hiện trong thư điện tử.

1 thuộc tính kiểu số thực xác định độ dài trung bình của chuỗi liên tục các ký tự hoa. 1 thuộc tính kiểu số nguyên xác định độ dài nhất của chuỗi liên tục các ký tự hoa. 1 trường giá trị nhị phân xác định phân loại: thư điện tử được xem như một thư rác (1) hay không (0).

Quan sát bảng 5.7, giá trị trên các thuộc tính giữa email là spam (phần tử 2,3,6) hay khụng phải spam (cỏc phần tử cũn lại) khụng cú sự khỏc biệt rừ. Điều này cho thấy tập Spambase không thỏa mãn tốt giả định 2 của mô hình.

Mô tả tập dữ liệu Mammographic

Thực nghiệm mô hình rừng cô lập trên các tập dữ liệu
Đánh giá kết quả thực nghiệm

Cách lựa chọn số cây cho thực nghiệm: Theo công bố của các tác giả đề xuất kỹ thuật rừng cô lập [27] và một số bài báo đề cập về rừng ngẫu nhiên [16, 26], số cây càng lớn thì rừng càng đạt đến mức ổn định cho giai đoạn đánh giá (phổ biến các rừng chọn số cây là 100 [27] ), tuy nhiên do giới hạn về bộ nhớ, độ phức tạp thời gian cho giai đoạn huấn luyện, nên thực nghiệm cho mô hình xây dựng các rừng theo số cây khác nhau rồi điều chỉnh số cây hợp lý trên từng tập dữ liệu cụ thể. Những mẫu bệnh có giá trị trên các thuộc tính khá nhỏ (thường <4) tức mức độ phát triển bệnh còn nhẹ (u lành tính), còn những trường hợp ngược lại, khi giá trị trên các thuộc tính của các mẫu bệnh khá lớn (≥ 5) cho biết mẫu bệnh nặng (u ác tính). Bảng 5.13: Kết quả theo AUC trên tập Breastw theo thực nghiệm 1. Biểu đồ 5.2: Kết quả thực nghiệm trên tập Breastw. b) Kết quả thực nghiệm trên tập RayNau (theo thực nghiệm 1). - Khi quan sát trên từng cụm (thuộc tính) ở hình 5.5 ta nhận thấy sự tách biệt giá trị dữ liệu giữa 2 nhóm Top(4) và Bottom(4) khá cao (xấp xỉ gấp đôi), đều này cho thấy dữ liệu sẽ bị tách nhanh theo 2 nhóm phân biệt trong quá trình phân chia ngẫu nhiên.

Trong khi đó các thể hiện ở Bottom(4) có giá trị ở thuộc tính này thấp hơn rất nhiều (nhỏ hơn 100). Độ dài tb chuỗi. kt hoa Độ dài dài nhất chuỗi kt hoa. Bảng 5.17: Kết quả tính theo AUC trên tập Spambase theo thực nghiệm 1. Biểu đồ 5.6: Kết quả thực nghiệm trên tập Spambase. d) Kết quả thực nghiệm trên tập Pima (theo thực nghiệm 1). Thuộc tính 3 biểu thị huyết áp của người bệnh, ở thuộc tính này ta nhận thấy huyết áp thường dao động lân cận với 80 mmHg, tuy nhiên quan sát giá trị thuộc tính này cho thể hiện thứ 3 ta nhận thấy bệnh nhân này có huyết áp quá thấp (58mmHg), có thể chính vì giá trị này quá nhỏ so với các giá trị khác (khác biệt lớn) nên rất có khả năng thể hiện này bị chia tách sớm (do quá trình chọn thuộc tính ngẫu nhiên và giá trị cắt ngẫu nhiên), khả năng mẫu bệnh này biểu thị cho một bệnh nhân có bệnh về huyết áp chứ không chắc có liên quan đến bệnh tiểu đường. Đồng thời quan sát độ tuổi của bệnh nhân ở thuộc tính 8, cho thấy các bệnh nhân bệnh tiểu đường ở độ tuổi khá cao (tuy nhiên vẫn có một số trường hợp ngoại lệ). Số lần mang thai. Huyết áp Dày đặc nếp nhăn. Huyết thanh Chỉ số cơ thể. Bảng 5.19: Kết quả tính theo AUC trên tập Pima theo thực nghiệm 1. Biểu đồ 5.8: Kết quả thực nghiệm trên tập Pima. d) Kết quả thực nghiệm trên tập Mammographic (theo thực nghiệm 1).

Đường ROC tiến gần sát đường chéo 450, mô hình cho hiệu quả phát hiện quá thấp trên tập Mammographic (tương đương với trường hợp ngẫu nhiên AUC=0.5), phù hợp với dự đoán ban đầu về tính không tương thích của các thuộc tính của tập đối với mô hình. Cụ thể khi quan sát trên hình 5.11, một nhận xét chung cho cả 5 thuộc tính trên tập Mammographic là giá trị dữ liệu trên các thuộc tính giữa 2 nhóm bất thường và bình thường không có sự khác biệt lớn, gần như tương đương nhau. Ở thực nghiệm này tôi dùng tập Training là tập gốc ban đầu (loại bỏ thuộc tính nhãn), sau đó ở giai đoạn kiểm thử tôi đi tính điểm số cho toàn bộ các thể hiện trên tập gốc, đây là cách thực nghiệm mà tác giả của bài báo “Rừng cô lập” đã sử dụng để thực nghiệm [27].

Để kiểm chứng trường hợp đặc biệt khi không có phần tử bất thường nào trong tập huấn luyện, thực nghiệm tiến hành huấn luyện trên các tập dữ liệu sau khi đã loại bỏ các phần tử bất thường, sau đó tính điểm số bất thường cho tất cả các thể hiện trên tập gốc ban đầu. Trở lại với dự đoán ban đầu khi phân tích trên các tập dữ liệu (mục 5.1), 2 tập Breastw và RayNau thỏa mãn tốt với 2 giả định của mô hình, và qua kết quả thực nghiệm cho thấy mô hình có thể cho kết quả tối ưu với AUC≈1 (thực nghiệm 1,2,3) khi áp dụng lên các tập thỏa mãn tốt 2 giả định “ít và khác” của mô hình rừng cô lập. Đặc biệt đối với tập Mammographic, cả 2 giả định của mô hình đều không thỏa mãn (lớp 1 chiếm đến 46.9% và hầu hết các thuộc tính kiểu định danh (nominal) và thứ tự (ordinal) không phù hợp với tính chất thuộc tính của mô hình), vì vậy qua thực nghiệm ta thấy tỉ lệ phát hiện quá thấp cho tập này chỉ đạt AUC ≈ 0.5 (thực nghiệm 1,2).

- Trong trường hợp một số tập dữ liệu gốc ban đầu có nhiều thuộc tính không phù hợp với giả định của mô hình, có thể thực hiện thêm bước nghiên cứu tập dữ liệu để tìm ra những thuộc tính không liên quan (có nhiều lí do) để tiến hành loại bỏ chúng khỏi tập dữ liệu trước khi đem vào thực nghiệm, với mong muốn tăng hiệu quả phát hiện của mô hình. Qua thực nghiệm, ta nhận thấy mô hình rừng cô lập (iForest) có thời gian chạy rất nhanh, giai đoạn training không bị ảnh hưởng vào kích thước của tập dữ liệu gốc ban đầu mà chỉ phụ thuộc vào số cây t và kích thước mẫu Ψ, qua thực nghiệm ta đã thu được kết quả mô hình phù hợp với kích thước mẫu nhỏ và số cây t dao động khoảng 60 đến 200.

Hình 5.2: Minh họa Top(4) và Bottom(4) của tập Breastw được sắp