Định nghĩa cây cô lập

Giả sử T là một nút của cây cô lập. T là một nút ngoài không con, hoặc là một nút trong có chính xác hai con (Tl,Tr) và một điều kiện kiểm tra. Điều kiện kiểm tra bao gồm một thuộc tính q và một giá trị cắt p sao cho: Điều kiện kiểm tra q<p sẽ chia các điểm dữ liệu vào trong 2 cây con Tl và Tr (với Tl là tập các thể hiện có q<p, Tr là tập các thể hiện có q>=p) [31].

Cho một mẫu dữ liệu X={x1,…, xn} với n thể hiện từ một phân phối nhiều chiều, để xây dựng cây cô lập, chúng ta chia đệ qui tập X bằng cách lựa chọn ngẫu nhiên một thuộc tính q và một giá trị cắt p, thực hiện công việc phân chia này cho đến khi thỏa mãn một trong các điều kiện sau đây:

i) Cây đạt đến chiều cao giới hạn ii) |X|=1 (số phần tử trong X chỉ là một) iii) Tất cả các thể hiện trong X có cùng giá trị.

Cây iTree là cây nhị phân đầy đủ (proper binary tree), mà mỗi nút trong cây chính xác là không con hoặc có 2 nút con. Giả sử rằng các thể hiện điều phân biệt, mỗi thể hiện được cô lập đến nút ngoài khi đó iTree trưởng thành một cây đầy đủ, trong trường hợp đó thì số các nút ngoài là n và số các nút trong là n-1; Tổng số nút trên cây là 2n-1; và vì thế yêu cầu về bộ nhớ chỉ tăng tuyến tính theo n.

Công việc phát hiện bất thường cung cấp một dãy các ảnh hưởng của mức độ bất thường và dựa vào mức độ bất thường để chọn ra phần tử bất thường. Vì vậy, một cách để phát hiện các bất thường là sắp xếp các điểm theo các độ dài đường dẫn hoặc theo các điểm số bất thường. Và các bất thường là những điểm mà được sắp ở đầu danh sách (sắp xếp giảm dần). Nói một cách khác, những điểm bất thường là những điểm bị cô lập bởi số lần chia tách ít nhất.

3.1.2. Định nghĩa rừng cô lập

Rừng cô lập được tạo ra từ một tập hợp có t (t>1) cây cô lập, từ một tập X có n phần tử ban đầu, mô hình lấy những mẫu theo qui tắc lấy ngẫu nhiên Ψ phần tử từ tập X (điều kiện Ψ≤X) rồi xây dựng cây cô lập theo kích thước mẫu là Ψ. Để xây dựng rừng cô lập cho tập X có n phần tử, ta chỉ cần hai tham sốđầu vào là số lượng cây t và kích thước mẫu Ψ.

3.1.3. Độ dài đường dẫn h(x)

Độ dài đường dẫn của một điểm x được đo bằng số các cạnh mà x đi qua một cây tính từ nút gốc đến khi được kết thúc ở một nút ngoài.

3.1.4. Điểm số bất thường s(x,n)

Việc tính điểm số bất thường của một thể hiện x trong tập kiểm tra là cần thiết đối với bất kỳ một phương pháp phát hiện bất thường nào.

Vì cây cô lập có cấu trúc tương tự như cây tìm kiếm nhị phân (BST) (3.6), ước lượng chiều cao trung bình h(x) cho nút kết thúc ngoài thì giống như việc tìm kiếm không thành công trên BST. Chúng ta mượn phân tích từ BST [30] để ước lượng độ dài đường dẫn trung bình cho cây cô lập.

Cho một tập dữ liệu có n thể hiện, Độ dài đường dẫn trung bình của tìm kiếm không thành công trên BST là:

Ở đó H(i) có thể được ước lượng bởi ln(i)+e, với e là hằng số Euler, e=0.5772156649.

Nếu E(h(x)) là trung bình của h(x) được cho bởi n. Chúng ta dùng nó để bình thường hóa h(x). Điểm số bất thường s của một thể hiện x được định nghĩa:

E(h(x)) là trung bình của h(x) từ một tập các cây cô lập. Trong công thức 2: - Khi E(h(x)) c(n), s0.5

- Khi E(h(x)) 0, s 1; - Khi E(h(x)) n-1, s0

S đơn điệu theo h(x). Hình 3.1 mô tả mối quan hệ giữa E(h(x)) và s, với điều kiện 0<s<=1 khi 0<E(h(x))<=n-1

Bằng cách dùng điểm số bất thường s, chúng ta có thể có những đánh giá sau (quan sát hình 3.1):

a) Nếu các thể hiện có giá trị s quá gần với 1, thì chúng chính xác là các bất thường

c(n)=2H(n-1)-(2(n-1)/n) (1)

b) Nếu các thể hiện có s nhỏ hơn nhiều so với 0.5, thì chúng khá an toàn được xem là các thể hiện bình thường.

c) Nếu tất cả các thể hiện trả về giá trị gần với 0.5, thì toàn bộ mẫu không có bất kì một bất thường nào.

3.2. Các đặc điểm của cây cô lập

3.2.1. Sự xuất hiện ‘ít và khác biệt’ trong tập dữ liệu

Thuật ngữ ‘isolation’ nghĩa là ‘sự tách một thể hiện từ một tập các thể hiện’. Do các bất thường thì ‘ít và khác’ và chính vì thế chúng dễ dàng bị cô lập hơn. Trong một cây cô lập ngẫu nhiên, sự phân chia các thể hiện được lập lại một cách đệ qui cho đến khi tất cả các thể hiện đều bị cô lập. Sự phân chia ngẫu nhiên này sinh ra những đường dẫn ngắn hơn cho các phần tử bất thường bởi vì:

a) Các thể hiện bất thường thì ít hơn nên kết quả là có số các phần phân chia nhỏ hơn (đường dẫn ngắn hơn trên một cấu trúc cây).

b) Các thể hiện với các giá trị thuộc tính quá khác biệt thì có xu hướng được chia sớm hơn. Vì lẽ đó, khi một rừng ngẫu nhiên các cây sinh ra những đường dẫn ngắn hơn cho một vài điểm cụ thể, thì chúng có khả năng rất cao là các bất thường.

Để chứng minh cho ý tưởng ‘các bất thường thì dễ dàng bị cô lập dưới việc phân chia ngẫu nhiên’, ví dụđưa ra ở Hình 3.2(a) và 3.2(b) [27] minh hoạ việc phân chia ngẫu nhiên một điểm bình thường và một điểm bất thường. Theo quan sát được, một điểm bình thường xi đòi hỏi nhiều phần phân chia hơn để được cô lập. Ngược lại điểm bất thường x0 đòi hỏi ít phần phân chia hơn để được cô lập. Trong ví dụ này, những phần phân chia được sinh ra bằng việc lựa chọn ngẫu nhiên một

Hình 3.1: Mối quan hệ giữa E(h(x)) và S(x,n) [27]

thuộc tính và sau đó là lựa chọn ngẫu nhiên một giá trị cắt giữa các giá trị lớn nhất và nhỏ nhất của thuộc tính được chọn.

Ví dụ: Cho tập dữ liệu có tập các thuộc tính [q1,q2,q3,…], giả sử q2 là thuộc tính được chọn, khi đó giá trị cắt p = random()*(max(q2)-min(q2))+min(q2)

[27]

Do việc phân chia một cách đệ qui có thể được mô tả bởi cấu trúc cây, số lượng của các phần phân chia được đòi hỏi để cô lập một điểm thì tương ứng với độ dài đường dẫn từ nút gốc đến nút kết thúc. Trong ví dụ này, độ dài đường dẫn xi thì lớn hơn độ dài đường dẫn x0.

Bởi vì mỗi phần phân chia (partition) được sinh ra một cách ngẫu nhiên, các cây riêng biệt được sinh ra với những tập các phần phân chia khác nhau. Tính trung bình độ dài đường dẫn trên tất cả các cây để tìm ra độ dài đường dẫn mong muốn.

Giải thuật xây dựng cây cô lập (iTree)

Cấu trúc cây cô lập