Thuật toán phân cụm phi tuyến tính không giám sát

Một phần của tài liệu Mạng nơ ron ứng dụng cho phân tích, đánh giá kết quả học tập của học sinh, sinh viên trường cao đẳng nghề (Trang 55)

1. Lý do chọn đề tài

2.3.2.2Thuật toán phân cụm phi tuyến tính không giám sát

ạ Thuật toán phân cụm MST (Minimum spanning tree)

Đầu tiên cấu trúc MST (tối thiểu cây mở rộng) sử dụng thuật toán Kruskal và sau đó thiết lập một giá trị ngưỡng và kích thước bước. Sau đó loại bỏ các cạnh từ MST có chiều dài lớn hơn giá trị ngưỡng. Tiếp theo chúng ta tính toán tỷ lệ giữa khoảng cách bên trong cụm với khoảng cách cụm liên quan và ghi lại tỷ lệ cũng như ngưỡng. Cập nhật các giá trị ngưỡng bằng cách tăng kích thước bước. Mỗi khi có được giá trị ngưỡng mới (cập nhật) thực hiện lặp lại các thủ tục trên. Ngừng các bước lặp đi lặp lại khi ngưỡng có giá trị tối đa và như vậy không có cạnh MST được gỡ bỏ. Tất cả các điểm thuộc về một cụm duy nhất. Cuối cùng có được giá trị tối thiểu là tỷ lệ ghi lại và hình thành các cụm tương ứng với ngưỡng giá trị được lưu trữ. Các thuật toán trên có hai trường hợp đặc biệt: Với giá trị ngưỡng không mỗi điểm vẫn nằm trong một cụm duy nhất, với giá trị ngưỡng tối đa tất cả các điểm nằm bên trong một cụm duy nhất. Giá trị tối ưu của ngưỡng đạt được khi khoảng cách bên trong trong cụm với khoảng cách với cụm xung quanh là nhỏ nhất. Để giảm thiểu số lần lặp khi thiết lập giá trị ngưỡng ban đầu phải khác 0.

Ưu điểm của thuật toán: Hiệu suất thực hiện của thuật toán MST tốt hơn thuật toán K-mean

b. Thuật toán phân cụm dữ liệu Kernel K-mean.

Kernel K-mean là sự suy rộng của thuật toán K-mean chuẩn, điểm dữ liệu được ánh xạ từ không gian đầu vào tới không gian đầu vào đặc trưng có số chiều lớn hơn thông qua một chuyển đổi phi tuyến tính và khi đó K-mean được áp dụng trong không gian đặc trưng. Không gian đặc trưng phân cách tuyến tính kết quả tương ứng với phân cách phi tuyến tính trong không gian đầu vàọ Kernel K-mean tránh được hạn chế của các cụm tuyến tính tách rời trong không gian đầu vào mà thuật toán K-mean gặp phảị Thuật toán này được áp dụng phương pháp tương tự như K-mean nhưng sự khác biệt ở đây là trong việc tính toán khoảng cách, phương pháp hạt nhân được sử dụng thay khoảng cách Euclidẹ

Thuật toán Kernel K-mean

Cho tập hợp các điểm dữ liệu X={a1,a2…an}, c là số cụm dữ liệụ Bước 1: Khởi tạo ngẫu nhiên c trung tâm cụm.

Bước 2: Tính khoảng cách của mỗi điểm dữ liệu và trung tâm cụm trong không gian biến đổi bằng cách sử dụng công thức:

Trong đó: Cụm thứ c được biểu diễn bởi rc mc là giá trị trung bình của cụm rc

Ø(ai ) : Biểu diễn điểm dữ liệu ai trong không gian chuyển đổị Ø (ai ). Ø (ai ): exp-ai -a jq trong nhân gauss.

Bước 3: Gán điểm dữ liệu đến trung tâm cụm là nhỏ nhất.

Bước 4: Lặp cho đến khi các điểm dữ liệu được gán lặp lại bước 2.

Ưu điểm của thuật toán: Thuật toán có thể xác định các cấu trúc phi tuyến tính. Thuật toán thích hợp với những bộ dữ liệu thực.

Nhược điểm của thuật toán: Số lượng trung tâm cụm phải được xác định sẵn. Thuật toán có độ phức tạp lớn về thời gian và bản chất.

c. Thuật toán phân cụm dựa trên mật độ DBSCAN

Thuật toán phân cụm dựa trên mật độ đóng vai trò quan trọng trong tìm kiếm cấu trúc phi tuyến tính dựa trên mật độ. Thuật toán phân cụm dựa trên không gian mật độ DBSCAN được sử dụng rộng rãi dựa trên mật độ. Nó dựa trên hai khái niệm khả năng tiếp cận mật độ và khả năng kết nối mật độ.

Khả năng tiếp cận mật độ: Một điểm p được gọi là mật độ truy cập từ một điểm q nếu p nằm trong khoảng cách ε từ điểm q và q có đủ số điểm lân cận với khoảng cách trong phạm vi ε.

Khả năng kết nối mật độ: Một điểm p và q được cho là kết nối mật độ nếu có tồn tại một điểm r trong đó có đủ số điểm trong lân cận và cả hai điểm p và q nằm trong khoảng cách ε. Nếu q là lân cận của r, r là lân cận của s, s là lân cận của t, t là lân cận của p có nghĩa là q là lân cận của p.

Các bước của thuật toán phân cụm dựa trên mật độ DBSCAN:

Cho tập hợp các điểm dữ liệu X={x1,x2,x3…xn}. DBSCAN yêu cầu hai tham số: ε và số lượng tối thiểu các điểm cần thiết để tạo thành một cụm

Bước 1: Bắt đầu với một điểm tùy ý không được kiểm trạ

Bước 2: Rút ra các lân cận của điểm này bằng cách sử dụng khoảng cách ε.

Bước 3: Nếu có đầy đủ các điểm lân cận xung quanh điểm này thì bắt đầu quá trình phân cụm và điểm được đánh dấu truy cập khác thời điểm này được dán nhãn như là nhiễụ

Bước 4: Nếu một điểm được tìm thấy là một phần của cụm thì lân cận ε của nó cũng là một phần của cụm và thủ tục trên từ bước 2 được lặp đi lặp

lại cho tất cả các điểm lân cận ε. Điều này được lặp đi lặp lại cho đến khi tất cả các điểm trong cụm được xác định

Bước 5: Một điểm mới ghé thăm thường xuyên được lấy ra và xử lý, dẫn đến việc phát hiện ra một cụm hoặc nhiễụ

Bước 6: Quá trình này được thực hiện cho tới khi các điểm viếng thăm được đánh dấụ

Một phần của tài liệu Mạng nơ ron ứng dụng cho phân tích, đánh giá kết quả học tập của học sinh, sinh viên trường cao đẳng nghề (Trang 55)