Thuật toán LSC-Mine

Thuật toán LSC-Mine [8] cơ bản dựa vào các định nghĩa của thuật toán LOF nhưng nó tránh được việc tính toán các khoảng cách reachability và các mật độ reachability địa phương - những thứ rất tốn kém khi sử dụng thuật toán LOF. Thay vào đó là tỷ số phân bố thưa thớt địa phương ( local sparsity ratio) nhận được từ việc tính toán các khoảng cách lân cận. Thêm vào đó, LSC-Mine loại bỏ bớt các đối tượng dữ liệu, không có khả năng trở thành điểm dị biệt nhờ nhân tố cắt xén ( pruning factor) cũng được tính toán từ khoảng cách của các lân cận. Các đối tượng dữ liệu còn lại nằm trong tập các ứng cử viên có thể trở thành điểm dị biệt.

Tỷ số phân bố thưa thớt địa phương của một đối tượng p ký hiệu lsrk(p) được định nghĩa là tỷ số của số các số kdistance trong lân cận của p trên tổng số của tất cả các khoảng cách thực trong lân cận đó.

Trong đó distofNk(P) bao gồm các khoảng cách thực của các đối tượng trong lân cận kdistance của p, tỷ số lsr đo sự tập trung của các đối tượng xung quanh đối tượng p. Các đối tượng với mức lsr thấp có khả năng cao trở thành các phần tử dị biệt. Điểm chú ý cuối cùng đó là các điểm dị biệt phụ thuộc vào hệ số “local sparsity” hơn là tỷ số. Nhân tố cắt xét được bắt nguồn từ việc cho rằng lrs của một đối tượng p trong một

tập dữ liệu không nên nhỏ hơn một tỷ số đồng dạng được tính toán từ tất cả dữ liệu nếu đối tượng đó không phải là dị biệt.

Nhân tố cắt xén (Pf) là tỷ số giữa tổng của các khoảng cách tuyệt đối trên toàn bộ tổng của các khoảng cách lân cận thực. Công thức toán học là :

Một khi Pf được xác định, bất kỳ đối tượng nào với lsr nhỏ hơn Pf sẽ được loại bỏ vì nó không thể thuộc danh sách các ứng cử viên trở thành điểm dị biệt. Với việc sử dụng Pf ta có thể loại bỏ hơn một nửa đối tượng của dữ liệu, đây chính là bước đột phá lớn của thuật toán LSC so với LOF.

Hệ số phân bố thưa thớt địa phương của p ký hiệu là LSCk(p) là tỷ số trung bình của lsr của p trên kdistance các lân cận của nó.

Một hệ số LSC cao đánh dấu lân cận xung quanh một đối tượng là không đông đúc và do đó có tiềm năng cao trở thành một điểm dị biệt, ngược lại một hệ số LSC thấp đánh dấu một lân cận đông đúc và vì vậy có tiềm năng tương đối thấp để trở thành điểm dị biệt. Hình sau sẽ miêu tả tuần tự các bước trong thuật toán LSC-Mine để xác định điểm dị biệt. Thuật toán LSC-Mine sẽ tính toán kdistance của từng đối tượng (1), (2) lân cận kdistance của chúng, (3) tỷ số lsr của nó, nhân tố cắt xén Pf (4), tập dữ liệu ứng cử không bị cắt xén (5), LSC của các đối tượng trong tập dữ liệu không bị cắt xén (6), và cuối cùng xếp loại các đối tượng có LSC cao nhất như là các điểm có khả năng cao nhất thành điểm dị biệt.

Hình 3.7 Thuật toán LSC-Mine

Thế nào là bất thường trong mạng?

Thế nào là bất thường trong mạng?