Nhìn một cách tổng quan thì các công việc hiện nay trong lĩnh vực phát hiện và tìm kiếm các phần tử ngoại lai đều nằm trong lĩnh vực thống kê, các phần tử ngoại lai có thể được định nghĩa như là bởi Hawkins [10].
Định nghĩa 1: Một phần tử ngoại lai là một sự quan sát lệch hướng rất nhiều với các hướng quan sát khác đưa đến một sự nghi ngờ rằng phần tử đó được tạo ra bởi một kỹ thuật khác.
phần tử ngoại lai dựa trên khoảng cách DB(p,D) nếu có ít nhất p (percentage) phần trăm các đối tượng trong T mà khoảng cách giữa chúng với O lớn hơn D. Điều đó có nghĩa là lực lượng của tập hợp {q T| d(o,q)
D} nhỏ hơn hoặc bằng (100-p)% * cỡ của T.
Hai định nghĩa trên đưa ra cho chúng ta một cách nhìn tổng quan về tập dữ liệu, các phần tử ngoại lai của chúng có thể được thấy như là các phần tử ngoại lại toàn cục. Tuy nhiên, đối với một số tập dữ liệu trong thế giới thực với một cấu trúc phức tạp thì lại có các phần tử ngoại lai khác, chúng là các đối tượng có đặc trưng ngoại lại liên quan tới các lân cận cục bộ của chúng, đặc biệt là đối với mật độ của các phần tử lân cận. Các phần tử ngoại lai đó được đề cập đến như là các phần tử ngoại lai cục bộ.
Để minh họa cho vấn đề này, ta gọi d(p,C) là khoảng cách bé nhất giữa p và đối tượng q trong vùng C, điều đó có nghĩa là d(p,C) = min{d(p.q)| q
C}. Trong hình 3.1 là một ví dụ khá đơn giản về một tập dữ liệu 2 chiều có chứa 502 đối tượng. Trong đó, có 400 đối tượng trong vùng đầu C1, 100 đối tượng trong vùng C2 và có thêm 2 đối tượng là o1 và o2. Ở trong ví dụ này, C2 có mật độ giày hơn C1,. theo như định nghĩa Hawkins cả o1 và o2 được gọi là các phần tử ngoại lai, ngược lại các đối tượng trong C1 và C2 lại không phải là ngoại lai. Với khái niệm ngoại lai cục bộ chúng ta hy vọng rằng cả o1 và o2 là các phần tử ngoại lai. Ngược lại, nội dung của khái niệm các phần tử ngoại lai dựa trên khoảng cách thì chỉ có o1 thỏa mãn là phần tử ngoại lai dựa trên khoảng cách DB(p,D) trong trường hợp sau.
Nếu với mọi đối tượng q trong C1 mà khoảng cách giữa q với các lân cận gần nhất của nó lớn hơn khoảng cách giữa o2 và C2 (là khoảng cách d(o-
2,d2)). Trên thực tế, ta thấy rằng không có một giá trị p và D nào phù hợp để o-
như sau.
Nếu giá trị D nhỏ hơn khoảng cách d(o2,C2) thì 501 đối tượng (p=100*501/502) có khoảng cách với o2 đều lớn hơn D, nhưng đây cũng là điều kiện thỏa mãn cho mọi đối tượng q trong C1. Như vậy, trong trường hợp này cả o2 và tất cả các đối tượng trong C1 là DB(p,D).
Hình 3.1: Tập dữ liệu trong không gian hai chiều
Mặt khác, nếu giá trị D lớn hơn khoảng cách d(o2,C2) thì chúng ta dễ dàng thấy rằng: o2 là phần tử ngoại lai dựa trên khoảng cách DB(p,D) cũng có nghĩa là một số các đối tượng q trong C1 cũng là DB(p,D), có điều này là do bởi vì lực lượng của tập hợp {p T| d(p,o2) D} luôn lớn hơn lực lượng của tập hợp {q T| d(p,q) D}. Do đó, trong trường hợp này nếu o2 là DB(p,D) thì một số các đối tượng q trong C cũng là DB(p,D).