Thuật tốn phân cụm K-Means

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp PCA và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường (Trang 46 - 48)

6. Bố cục của luận văn:

2.3.3 Thuật tốn phân cụm K-Means

Thuật tốn phân cụm K-Means do Macqueen đề xuất năm 1967. Nĩ thuộc thuật tốn học khơng giám sát để giải quyết vấn đề phân cụm dữ liệu bằng cách cố gắng phân tích các nhĩm dữ liệu trên cơ sở một số điểm giống nhau. Phương pháp này dựa trên độ đo khoảng cách giữa các đối tượng dữ liệu trong cụm. Nĩ được xem như là trung tâm của cụm. Như vậy, nĩ cần khởi tạo một tập trung tâm các tâm cụm ban đầu, thơng qua đĩ lặp lại các bước gồm gán mỗi đối tượng vào cụm mà khoảng cách từ nĩ đến tâm cụm là gần nhất, sau đĩ tính tốn lại tâm cụm cho dữ liệu mới cập nhật. Quá trình này được dừng lại khi các tâm cụm là hội tụ.

2.3.3.1 Phát biểu bài tốn phân cụm dữ liệu:

Pl-41

thành các cụm đơi một khơng giao nhau X = ∪𝑖=1𝑘 Ci sao cho các đối tượng trong cùng một cụm khác nhau thì sẽ khác nhau theo một tiêu chí hàm tiêu chuẩn E đạt giá trị tối thiểu.

2.3.3.2 Các cơng thức tốn học sử dụng trong thuật tốn K-Means * Cơng thức tính khoảng cách Euclidean

Việc phân bố dữ liệu về các cụm được xác định dựa trên khoảng cách Euclidean. Khoảng cách Euclidean giữa hai điểm p và q được định nghĩa là độ

dài của đoạn thẳng nối chúng (𝑝𝑞̅̅̅)

Trong tọa độ Descartes, nếu p = (p1, p2, …, pn) và q = (q1, q2, …, qn) là hai điểm trong Eucliden-space thì khoảng cách (d) từ p đến q hoặc từ q đến p được tính theo cơng thức Pythagore:

d(p,q) = d(q,p) = √(𝑞1− 𝑝1)2+ (𝑞2− 𝑝2)2+ ⋯ + (𝑞𝑛− 𝑝𝑛)2 (25) = √∑𝑛 (𝑞𝑖 − 𝑝𝑖)2

𝑖=1 (26)

* Tối ưu hĩa hàm chi phí

Mục tiêu cơ bản của chúng tơi trong bất kỳ thuật tốn học máy nào là giảm hàm chi phí. Trong trường hợp K-Means Clustering, hàm chi phí là tổng các khoảng cách Euclid từ các điểm đến các trung tâm cụm lân cận của chúng.

Hàm mục tiêu cho K-Means được xác định như sau: 𝐽 = ∑ ∑𝑚 𝑤𝑖𝑘

𝑘=1 𝑚

𝑖=1 ||𝑥𝑖 − 𝑐𝑘||2 (27) Trong đĩ:

𝑤𝑖𝑘 = 0 nếu điểm dữ liệu khơng thuộc về cụm. 𝑤𝑖𝑘 = 1 nếu điểm dữ liệu thuộc về cụm.

Chất lượng của bài tốn phân cụm dữ liệu được xác định bằng cách tính tổng tốn bình phương các sai số(SSE). SSE được hiểu là tổng các khoảng cách Euclid bình phương đến tâm gần nhất của nĩ. Mục tiêu của K-

Pl-42 Means là cố gắng giảm thiểu giá trị này.

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp PCA và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường (Trang 46 - 48)

Tải bản đầy đủ (PDF)

(88 trang)