Với số k-distance cho trước, khu vực lân cận bán kính k-distance của đối tƣợng p thì chứa mọi phần tử mà khoảng cách tới p nhỏ hơn hay bằng k-distance nghĩa là:
N k-distance(p) (p) = { q D \ {p} | d(p,q) k-distance(p) }
Những đối tƣợng q ở biểu thức trên đƣợc gọi là k phần tử gần nhất của p.
Để đơn giản chúng ta quy ƣớc dùng ký kiệu:
N k(p) thay cho N k-distance(p) (p)
Chú ý rằng trong định nghĩa 1, k-distance(p) sử dụng tốt với mọi số nguyên k bất kỳ. Mặc dù đối tượng o không phải độc nhất cho trường hợp này, và số phần tử Nk(p) > k
3- Khoảng cách có thể đến một đối tƣợng
Đinh nghĩa 3: (reachability distance of an object p w.r.t object o)
Cho k là một số tự nhiên. Khoảng cách có thể đến đƣợc Reach-dist của đối tƣợng p với đối tƣợng o đƣợc định nghiã:
Reach-dist k (p,o) = max { k-distance(o), d(p,o) }
Về mặt ý nghĩa: nếu đối tƣợng p ở quá xa p thì khoảng cách có thể đến chinh là khoảng cách thông thường. Ngược lại nếu p đủ gần o thì đó chính là k- distance(o). Định nghĩa này nhằm khắc phục sự giao động thống kê khoảng cách d(p,o) tới tất cả những đối tƣợng p đủ gần o có thể đƣợc giảm bớt đi. Sức mạnh của hiệu ứng làm tròn này có thể điều khiển bằng hệ số k, k càng lớn thì những khoảng cách có thể đến được của những đối tương trong khu vực lân cận càng giống nhau.
4- Mật độ địa phương có thể đến được
Trong thuật toán phân cụm dựa theo mật độ thường có 2 tham số liên quan tới khái niệm về mật độ:
(1) Hệ số MinPts đặc trƣng số lƣợng tối thiểu của phần tử trong cụm (2) Hệ số Eps xác đinh ngƣỡng
Hai tham số này quyết đinh mật độ ngƣỡng để thuật toán phân cụm làm việc và tìm ra những đối tƣợng liên thông mật độ.
Để tìm ra phần tử ngoại lai dựa theo mật độ cũng cần phải so sánh mật độ của nhiều tổ hợp phần tử khác nhau. Có nghĩa là chúng ta phải quyết định mật độ của tập các phần tử một cách chủ động. Vì thế chúng ta coi MinPts là một hệ số duy nhất và sử dụng giá trị:
Reach-dist MinPts (p,o) cho phần tử o N MinPts (p) nhƣ là tiêu chuẩn đánh giá của ngƣỡng để quyết định mật độ khu vực lân cận của một đối tƣợng p
Định nghĩa 4: (local reachability density of an object p)
Mật độ địa phương có thể đến được của đối tượng p được đinh nghĩa:
Lrd MinPts (p) = 1 /
) (
) , (
) (
p N
o p dist reach
MinPts p
N o
MinPts
Min Pts
Trực quan, mật độ có thể đến được địa phương ( Mật độ lân cận ) của đối tƣợng p là nghịch đảo của khoảng cách có thể đến đƣợc trung bình dựa trên MinPts lân cận gần nhất của p. Chú ý rằng mật độ lân cận có thể là nếu toàn bộ khoảng cách đến đƣợc trong tổng bằng 0. Điều này có thể xảy ra khi đối tƣợng p tồn tại tối thiểu MinPts đối tƣợng khác p nhƣng lại trùng toạ độ không gian với p.
5- Hệ số ngoại lai của một đối tƣợng ( LOF )
Định nghĩa 5: ( Local Outlier Factor of an object p) Hệ số ngoại lai của một đối tƣợng p đƣợc đinh nghĩa:
) (
) (
) ( )
( ( )
p N
p lrd
o lrd p
LOF
MinPts p N
o MinPts
MinPts
MinPts
Min Pts
Hệ số ngoại lai của một đối tƣợng p mô tả mức độ mà chúng ta coi là ngoại lai. Đó là trung bình của tỷ lệ của mật độ lân cận đến đƣợc của p và của MinPts phần tử lân cận gần nhất. Dễ thấy rằng mật độ lân cận đến đƣợc của p càng nhỏ và mật độ lân cận đến đƣợc của MinPts phần tử lân cận gần nhất của p càng cao thì giá trị LOF càng cao. Trong mục sau, tính chất hình thức của LOF sẽ đƣợc chính xác hoá.
II- TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI
1- Số LOF của những đối tƣợng nằm sâu trong cụm gần bằng 1 Bổ đề 1:
Coi C là tập các đối tƣợng
Coi reach-dist-min là khoảng cách có thể tới nhỏ nhất của các đối tƣợng trong C. Nghĩa là:
reach-dist-min = Min { reach-dist(p,q)/ p,q C }
Tương tự ký hiệu reach-dist-max là khoảng cách có thể tới lớn nhất của các đối tƣợng trong C
Đặt = (reach-dist-max/reach-dist-min – 1) Với toàn bộ các đối tƣợng trong C:
(1) Toàn bộ MinPts lân cận q của p nằm trong C và (2) Toàn bộ MinPts lân cận o của q nằm trong C
Khi đó: 1/(1+) LOF(p) (1+)) Chứng minh:
Với toàn bộ MinPts lân cận q gần nhất của p:
reach-dist(p,q) ≥ reach-dist-min. Khi đó mật độ lân cận đến đƣợc của p theo định nghĩa 3 thì 1/reach-dist-min
Mặt khác, reach-dist(p,q) reach-dist-max, vì thế mật độ lân cận đến đƣợc của p sẽ ≥ 1/reach-dist-max
Coi q là MinPts của p bởi một tỷ số giống nhƣ của p ở trên mật độ lân cận đến đƣợc của q thì cũng nằm trên khoảng
1/reach-dist-Max và 1/reach-dist-Min Vì thế theo định nghĩa 5 ta có:
Min dist reach
Max dist reach p
Max LOF dist
reach
Min dist reach
( )
Từ đó, ta chứng minh đƣợc:
( ) 1
1
1 LOF p
Có thể giải thích Bổ đề 1 như sau: Bằng trực quan C tương đương như
“một cụm”. Chúng ta coi đối tƣợng p nằm sâu trong cụm, nghĩa là toàn bộ MinPts lân cận gần nhất q của p nằm trong C và toàn bộ MinPts lân cận gần nhất
của q cũng nằm trong C. Với những đối tƣợng p sâu nhƣ vậy, giá trị LOF(p) đƣợc giới hạn. Nếu C là cụm chặt, giá trị trong bổ đề 1 là khá nhỏ kéo theo LOF(p) khá gần 1