Kỹ thuật phân cụm k-Means

Một phần của tài liệu (LUẬN án TIẾN sĩ) xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ hướng dữ liệu (Trang 100 - 101)

6. Bố cục của luận án

3.4.1. Kỹ thuật phân cụm k-Means

K-Means là một trong những thuật toán cơ bản nhất của lớp thuật tốn học khơng giám sát được sử dụng phổ biến trong kỹ thuật phân cụm. Thuật ngữ k-Means lần đầu tiên được sử dụng bởi MacQueen J.B. vào năm 1967 [48]. Tư tưởng chính của thuật tốn k-Means là tìm cách phân nhóm các đối tượng đã cho vào 𝐾 cụm (𝐾 là một số nguyên dương xác định số các cụm được phân chia) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất.

Kỹ thuật phân cụm k-Means có thể được vắn tắt như sau:

Cho một tập dữ liệu ban đầu gồm 𝑁 đối tượng là những véc-tơ trong không gian

𝑑 chiều 𝑋𝑖 = {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑑} với 𝑖 = 1,2, … , 𝑁. Cần phân tập dữ liệu ban đầu thành 𝑘 phân cụm {𝐶1, 𝐶2, … , 𝐶𝑘}, sao cho hàm tiêu chuẩn: 𝐸 = ∑𝑘 ∑𝑥∈𝐶𝑖𝐷2(𝑥 − 𝑚𝑖)

𝑖=1 đạt

giá trị tối thiểu. Trong đó: 𝑚𝑖 là trọng tâm của cụm 𝐶𝑖 và 𝐷 là khoảng cách giữa hai đối tượng.

Trọng tâm của một cụm là một véc-tơ, trong đó giá trị của mỗi phần tử của nó là trung bình cộng các thành phần tương ứng của các đối tượng véc-tơ dữ liệu trong cụm đang xét. Tham số đầu vào của thuật toán phân cụm k-Means là số cụm 𝑘, tập dữ liệu gồm 𝑁 phần tử và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu. Độ đo khoảng cách 𝐷 giữa các đối tượng dữ liệu thường được sử dụng là

khoảng cách Euclid, bởi vì đây là mơ hình khoảng cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu. Hàm tiêu chuẩn và độ đo khoảng cách có thể được xác định cụ thể hơn tuỳ vào ứng dụng hoặc các quan điểm của người dùng.

Thuật toán phân cụm k-Means với 𝑘 phân cụm cho trước bao gồm các bước cơ bản như sau:

Input: Tập dữ liệu gồm N đối tượng 𝑋𝑖, 𝑖 = 1,2, . . , 𝑁;

Bước 1. Chọn k đối tượng 𝑚𝑗 với 𝑗 = 1,2, . . . , 𝑘 là trọng tâm ban đầu của k cụm từ tập dữ liệu (việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm).

Bước 2. Đối với mỗi đối tượng 𝑋𝑖, 𝑖 = 1,2, . . , 𝑁, tính tốn khoảng cách từ nó

tới mỗi trọng tâm 𝑚𝑗 với 𝑗 = 1,2, . . . , 𝑘, sau đó tìm trọng tâm gần nhất đối với mỗi đối tượng.

Bước 3. Đối với mỗi 𝑗 = 1,2, . . . , 𝑘, cập nhật trọng tâm cụm 𝑚𝑗 bằng cách xác định trung bình cộng của các véc-tơ đối tượng dữ liệu.

Bước 4. Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm khơng thay đổi.

Kỹ thuật phân cụm k-Means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn. Tuy nhiên, nhược điểm của k-Means là chỉ áp dụng với dữ liệu có thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-Means cịn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu.

Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k-Means phụ thuộc nhiều vào các tham số đầu vào như: số cụm 𝑘 và 𝑘 trọng tâm khởi tạo ban đầu (𝑚𝑗). Trong

trường hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-Means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế. Trên thực tế người ta chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất.

Một phần của tài liệu (LUẬN án TIẾN sĩ) xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ hướng dữ liệu (Trang 100 - 101)

Tải bản đầy đủ (PDF)

(132 trang)