Phương pháp gom nhóm K– Means

Có rất nhiều phương pháp để gom nhóm dữ liệu. Một số phương pháp khởi động bằng cách xem tất cả các bản ghi đều nằm trong một nhóm lớn. Nhóm này sau đó lần lượt được chia thành hai hay nhiều nhóm nhỏ hơn. Các nhóm nhỏ nhận được lần lượt được chia tiếp thành những nhóm nhỏ hơn. Tại mỗi bước, kết quả của việc phân chia được đánh giá để có thể nhận được kết quả tốt nhất khi kết thúc quá trình phân chia. Một số phương pháp khác khởi động bằng cách xem mỗi bản ghi là một nhóm riêng biệt. Sau đó lần lượt kết hợp các nhóm lại cho đến khi nhận được một nhóm lớn duy nhất (chứa tất cả các bản ghi). Quá trình gom lại cũng kết hợp với việc đánh giá để nhận được kết quả tốt nhất.

Giả sử dữ liệu của chúng ta có N thuộc tính, như vậy mỗi bản ghi sẽ được biểu diễn như một tập N giá trị của N thuộc tính này. Chúng ta có thể xem một bản ghi như là một điểm trong không gian N chiều. Thuật toán K – Means (MacQeen, 1967)[15] chia dữ liệu thành k nhóm với k là một số cho trước. Thuật toán này dùng giá trị trung bình của các điểm trong cùng một nhóm làm tâm của nhóm đó. Sự tương đồng của các điểm trong cùng một nhóm được đánh giá dựa trên khoảng cách đến giá trị trung bình của các điểm trong nhóm. Tiêu chuẩn để đánh giá trong giải thuật là hàm sai số bình phương (squared – error function) được định nghĩa như sau:

2 1 | | i k i i x C E x m     

với x là các điểm thuộc nhóm Ci và mi là giá trị trung bình của nhóm Ci. Khoảng cách được sử dụng là khoảng cách Euclide:

2 1 ( , ) | | N ik jk k d i j x x    

Giải thuật K – Means

Input: kNvà n điểm

Output: Tập k nhóm với giá trị của hàm sai số bình phương nhỏ nhất. 1. Chọn k điểm ban đầu làm k tâm khởi động của k nhóm;

2. Lặp lại

3. Lần lượt gán các điểm cho nhóm tương đồng tâm của nhóm đó nhất; 4. Tính lại giá trị trung bình của các điểm trong mỗi nhóm;

5. Cho đến khi hàm sai số bình phương không thay đổi; Chọn k:

Giá trị của k sẽ xác định số các nhóm được nhận. Nếu chúng ta chọn k không đúng với việc phân nhóm thực tế của dữ liệu thì chúng ta sẽ không nhận được kết quả tốt. Thường thì chúng ta phải xét một số giá trị khác nhau của k. Ứng với mỗi giá trị của k chúng ta thực hiện giải thuật k – means một số lần để chọn kết quả tốt nhất (ứng với k), sau đó thì phối hợp các kết quả nhận được để chọn k (và kết quả tốt nhất tương ứng).

Chọn k điểm ban đầu:

Việc chọn các điểm khởi động là các điểm ngẫu nhiên cho kết quả tốt. Các tác giả đưa ra một cách chọn các điểm khởi động cho trường hợp dữ liệu lớn như sau: chạy giải thuật k – means cho một tập dữ liệu nhỏ và lấy kết quả làm các điểm khởi động cho tập dữ liệu lớn.

Giải thuật gom nhóm k – means có thể dùng cho các dữ liệu lớn vì độ phức tạp của giải thuật là O(nkt), với n là tổng số các bản ghi của dữ liệu, k là số các nhóm và t là số các lần lặp lại (thường thì và ). Các điểm nhận được thường là các điểm tối ưu cục bộ. Giải thuật này cho kết quả là tốt khi dữ liệu đầu vào là số và có thể sử dụng khi số liệu lớn.

Chương trình dự báo thời tiết eWeather

Các phương pháp dự báo thời tiết