Để phân biệt đƣợc các cum dữ liệu “bình thƣờng” hay “bất thƣờng” trong cơ sở dữ liệu đầu vào của bài toán ta sử dụng kỹ thuật phâm cum trong Khai phá dữ
liệu. Đây là kỹ thuật phát hiện bất thƣờng không giám sát. Các thuật toán phát hiện bất thƣờng không giám sát có thể thực hiện trên dữ liệu không gán nhãn, cái mà dễ dàng để có đƣợc bởi nó chỉ đơn giản là thu thập các dữ liệu kiểm toán thô từ một hệ thống có độ tin cậy bất kì. Trong thực tế phát hiện bất thƣờng không giám sát có nhiêu lợi thế hơn hẳn phát hiện bất thƣờng có giám sát nhƣ chúng không yêu cầu dữ liệu hoàn toàn bình thƣờng để huấn luyện hay còn gọi là học máy. Hơn nữa, tập dữ liệu các hành vi bình thƣờng của ngƣời dùng là vô cùng lớn chính vì vậy trong quá trình lấy tập dữ liệu sạch để huấn luyện trong kỹ thuật phát hiện có giám sát thì không thể đảm bảo rằng trong cơ sở dữ liệu đó không có sự xâm nhập. Trong khi đó tập các hành vi đƣợc gọi là “xâm nhập” lại vô cùng nhỏ và khó định nghĩa chính xác ngƣỡng cho các hành vi.
Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tƣơng tự nhau theo một chuẩn đánh giá nào đó thành những cụm. Các điểm dữ liệu nằm trong các cụm khác nhau có độ tƣơng tự thấp hơn các điểm dữ liệu nằm trong một cụm.
Các ƣu điểm cơ bản của phân cum trong Khai phá dữ liệu: -Có khả năng làm việc hiệu quả với lƣợng dữ liệu lớn
-Có khả năng xử lý các dạng dữ liệu khác nhau
-Có khả năng khám phá ra các cum với các dạng bất kỳ
-Có khả năng yêu cầu tối thiểu tri thức lĩnh vực để xác định các tham số đầu vào
-Có khả năng làm việc với dữ liệu nhiễu
-Không bị ảnh hƣởng vào thứ tự nhập của dữ liệu -Làm việc tốt trên CSDL có chiều cao
-Chấp nhận các ràng buộc do ngƣời dùng chỉ định -Có thể hiểu và sử dụng đƣợc các kết quả gom cụm
Mục tiêu của thuật toán phân cum: là tìm ra các cum có chứa phần tử dị biệt (outliers) so với các phần tử khác trong sơ sở dữ liệu bằng thuật toán tính xem có bao nhiêu điểm là gần với từng điểm trong không gian thuộc tính. Một tham số cho
các thuật toán là một bán kính w còn gọi là chiều rộng của cụm. Đối với bất kỳ một cặp điểm x1 và x2, chúng ta xem xét khoảng cách hai điểm gần nhau, nếu khoảng cách giữa chúng là nhỏ hơn hoặc bằng w thì đó là trong phạm vi hàm hạt nhân. Đối với mỗi điểm x chúng ta xác định N(x) số điểm mà nằm trong vòng w của điểm x, thuật toán xác định N(x) nhƣ sau:
/ ( , ) |
| )
(x s d x s w
N
Độ phức tạp của thuật toán là O(N2) trong đó N là số điểm.
Tuy nhiên do yêu cầu bài toán chỉ cần xác định phần tử dị biệt(outlier) nên chúng ta có thể tính toán gần đúng nhƣ sau: trƣớc tiên chúng thực hiện phân cụm chiều rộng cố định trên toàn bộ dữ liệu với các cum có chiều rộng w. Sau đó, chúng ta gán nhãn vào trong các cụm nhỏ nhƣ bất thƣờng. Ta có gắn một giá trị bất kỳ làm trung tâm của nhóm, đối với tất cả các điểm tiếp theo của nhóm, nếu có khoảng cách tới trung tâm của cum không quá w, nó sẽ đƣợc thêm vào cụm đó nếu nó không phải là trung tâm của một nhóm mới. Độ phức tạp của thuật toán là O(cn) trong đó c là số cụm, n là số lƣợng các điểm dữ liệu. Đối với một w hợp lý, c sẽ luôn nhỏ hơn n, ta có thể tính tƣơng đối N(c), N(x). Tuy nhiên trong khu vực có xuất hiện các điểm dị biệt(outliers) sẽ có một số cụm chồng chéo khi đó N(c) sẽ xấp xỉ bằng N(x) hay nói cách khác các điểm trong khu vực này sẽ cao hơn với ngƣỡng.