Chương 2: PHÂN CỤM DỮ LIỆU SỬ DỤNG MẠNG SOM
2.3 Thuật toán phân cụm phi tuyến tính không giám sát
Đầu tiên cấu trúc MST (tối thiểu cây mở rộng) sử dụng thuật toán Kruskal và sau đó thiết lập một giá trị ngưỡng và kích thước bước. Sau đó loại bỏ các cạnh từ MST có chiều dài lớn hơn giá trị ngưỡng. Tiếp theo chúng ta tính toán tỷ lệ giữa khoảng cách bên trong cụm với khoảng cách cụm liên quan và ghi lại tỷ lệ cũng như ngưỡng. Cập nhật các giá trị ngưỡng bằng cách tăng kích thước bước. Mỗi khi có được giá trị ngưỡng mới (cập nhật) thực hiện lặp lại các thủ tục trên. Ngừng các bước lặp đi lặp lại khi ngưỡng có giá trị tối đa và như vậy không có cạnh MST được gỡ bỏ. Tất cả các điểm thuộc về một cụm duy nhất. Cuối cùng có được giá trị tối thiểu là tỷ lệ ghi lại và hình thành các cụm tương ứng với ngưỡng giá trị được lưu trữ. Các thuật toán trên có hai trường hợp đặc biệt: Với giá trị ngưỡng không mỗi điểm vẫn nằm trong một cụm duy nhất, với giá trị ngưỡng tối đa tất cả các điểm nằm bên trong một cụm duy nhất. Giá trị tối ưu của ngưỡng đạt được khi khoảng cách bên trong trong cụm với khoảng cách với cụm xung quanh là nhỏ nhất. Để giảm thiểu số lần lặp khi thiết lập giá trị ngưỡng ban đầu phải khác 0.
Ưu điểm của thuật toán: Hiệu suất thực hiện của thuật toán MST tốt hơn thuật toán K-mean
Nhược điểm: Giá trị ngưỡng và kích thước bước cần được biết trước.
2.3.2 Thuật toán phân cụm dữ liệu Kernel K-mean.
Kernel K-mean là sự suy rộng của thuật toán K-mean chuẩn, điểm dữ liệu được ánh xạ từ không gian đầu vào tới không gian đầu vào đặc trưng có số chiều lớn hơn thông qua một chuyển đổi phi tuyến tính và khi đó K-mean được áp dụng trong không gian đặc trưng. Không gian đặc trưng phân cách tuyến tính kết quả tương ứng với phân cách phi tuyến tính trong không gian đầu vào. Kernel K-mean tránh được hạn chế của các cụm tuyến tính tách rời trong không gian đầu vào mà thuật toán K-mean gặp phải. Thuật toán này được áp dụng phương pháp tương tự như K-mean nhưng sự khác biệt ở đây là trong việc tính toán khoảng cách, phương pháp hạt nhân được sử dụng thay khoảng cách Euclide.
Thuật toán Kernel K-mean
Cho tập hợp các điểm dữ liệu X={a1,a2…an}, c là số cụm dữ liệu.
Bước 1: Khởi tạo ngẫu nhiên c trung tâm cụm.
Bước 2: Tính khoảng cách của mỗi điểm dữ liệu và trung tâm cụm trong không gian biến đổi bằng cách sử dụng công thức:
Trong đó: Cụm thứ c được biểu diễn bởi rc mclà giá trị trung bình của cụm rc
ỉ(ai ) : biểu diễn điểm dữ liệu a i trong khụng gian chuyển đổi.
ỉ(ai ).ỉ(ai ): exp-ai -a jq
trong nhân gauss.
Bước 3: Gán điểm dữ liệu đến trung tâm cụm là nhỏ nhất.
Bước 4: Lặp cho đến khi các điểm dữ liệu được gán lặp lại bước 2.
Ưu điểm của thuật toán: Thuật toán có thể xác định các cấu trúc phi tuyến tính. Thuật toán thích hợp với những bộ dữ liệu thực.
Nhược điểm của thuật toán: Số lượng trung tâm cụm phải được xác định sẵn. Thuật toán có độ phức tạp lớn về thời gian và bản chất.
2.3.3 Thuật toán phân cụm dựa trên mật độ DBSCAN
Thuật toán phân cụm dựa trên mật độ đóng vai trò quan trọng trong tìm kiếm cấu trúc phi tuyến tính dựa trên mật độ. Thuật toán phân cụm dựa trên không gian mật độ DBSCAN được sử dụng rộng rãi dựa trên mật độ. Nó dựa trên hai khái niệm khả năng tiếp cận mật độ và khả năng kết nối mật độ.
Khả năng tiếp cận mật độ: Một điểm p được gọi là mật độ truy cập từ một điểm q nếu p nằm trong khoảng cách ε từ điểm q và q có đủ số điểm lân cận với khoảng cách trong phạm vi ε.
Khả năng kết nối mật độ: Một điểm p và q được cho là kết nối mật độ nếu có tồn tại một điểm r trong đó có đủ số điểm trong lân cận và cả hai điểm p và q nằm trong khoảng cách ε. Nếu q là lân cận của r, r là lân cận của s, s là lân cận của t, t là lân cận của p có nghĩa là q là lân cận của p.
Các bước của thuật toán phân cụm dựa trên mật độ DBSCAN:
Cho tập hợp các điểm dữ liệu X={x1,x2,x3…xn}. DBSCAN yêu cầu hai tham số: ε và số lượng tối thiểu các điểm cần thiết để tạo thành một cụm Bước 1: Bắt đầu với một điểm tùy ý không được kiểm tra.
Bước 2: Rút ra các lân cận của điểm này bằng cách sử dụng khoảng cách ε.
Bước 3: Nếu có đầy đủ các điểm lân cận xung quanh điểm này thì bắt đầu quá trình phân cụm và điểm được đánh dấu truy cập khác thời điểm này được dán nhãn như là nhiễu.
Bước 4: Nếu một điểm được tìm thấy là một phần của cụm thì lân cận ε của nó cũng là một phần của cụm và thủ tục trên từ bước 2 được lặp đi lặp lại cho tất cả các điểm lân cận ε. Điều này được lặp đi lặp lại cho đến khi tất cả các điểm trong cụm được xác định
Bước 5: Một điểm mới ghé thăm thường xuyên được lấy ra và xử lý, dẫn đến việc phát hiện ra một cụm hoặc nhiễu.
Bước 6: Quá trình này được thực hiện cho tới khi các điểm viếng thăm được đánh dấu.