6. Bố cục của luận văn:
2.3.3 Thuật tốn phân cụm K-Means
Thuật tốn phân cụm K-Means do Macqueen đề xuất năm 1967. Nĩ thuộc thuật tốn học khơng giám sát để giải quyết vấn đề phân cụm dữ liệu bằng cách cố gắng phân tích các nhĩm dữ liệu trên cơ sở một số điểm giống nhau. Phương pháp này dựa trên độ đo khoảng cách giữa các đối tượng dữ liệu trong cụm. Nĩ được xem như là trung tâm của cụm. Như vậy, nĩ cần khởi tạo một tập trung tâm các tâm cụm ban đầu, thơng qua đĩ lặp lại các bước gồm gán mỗi đối tượng vào cụm mà khoảng cách từ nĩ đến tâm cụm là gần nhất, sau đĩ tính tốn lại tâm cụm cho dữ liệu mới cập nhật. Quá trình này được dừng lại khi các tâm cụm là hội tụ.
2.3.3.1 Phát biểu bài tốn phân cụm dữ liệu:
Pl-41
thành các cụm đơi một khơng giao nhau X = ∪𝑖=1𝑘 Ci sao cho các đối tượng trong cùng một cụm khác nhau thì sẽ khác nhau theo một tiêu chí hàm tiêu chuẩn E đạt giá trị tối thiểu.
2.3.3.2 Các cơng thức tốn học sử dụng trong thuật tốn K-Means * Cơng thức tính khoảng cách Euclidean
Việc phân bố dữ liệu về các cụm được xác định dựa trên khoảng cách Euclidean. Khoảng cách Euclidean giữa hai điểm p và q được định nghĩa là độ
dài của đoạn thẳng nối chúng (𝑝𝑞̅̅̅)
Trong tọa độ Descartes, nếu p = (p1, p2, …, pn) và q = (q1, q2, …, qn) là hai điểm trong Eucliden-space thì khoảng cách (d) từ p đến q hoặc từ q đến p được tính theo cơng thức Pythagore:
d(p,q) = d(q,p) = √(𝑞1− 𝑝1)2+ (𝑞2− 𝑝2)2+ ⋯ + (𝑞𝑛− 𝑝𝑛)2 (25) = √∑𝑛 (𝑞𝑖 − 𝑝𝑖)2
𝑖=1 (26)
* Tối ưu hĩa hàm chi phí
Mục tiêu cơ bản của chúng tơi trong bất kỳ thuật tốn học máy nào là giảm hàm chi phí. Trong trường hợp K-Means Clustering, hàm chi phí là tổng các khoảng cách Euclid từ các điểm đến các trung tâm cụm lân cận của chúng.
Hàm mục tiêu cho K-Means được xác định như sau: 𝐽 = ∑ ∑𝑚 𝑤𝑖𝑘
𝑘=1 𝑚
𝑖=1 ||𝑥𝑖 − 𝑐𝑘||2 (27) Trong đĩ:
𝑤𝑖𝑘 = 0 nếu điểm dữ liệu khơng thuộc về cụm. 𝑤𝑖𝑘 = 1 nếu điểm dữ liệu thuộc về cụm.
Chất lượng của bài tốn phân cụm dữ liệu được xác định bằng cách tính tổng tốn bình phương các sai số(SSE). SSE được hiểu là tổng các khoảng cách Euclid bình phương đến tâm gần nhất của nĩ. Mục tiêu của K-
Pl-42 Means là cố gắng giảm thiểu giá trị này.