K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác định trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là nhỏ nhất.
Hình 4.6. Lưu đồ thuật toán K-Mean
Phân cụm bằng K-Mean có một số đặc trưng:
- Kết quả phân cụm phụ thuộc nhiều vào điểm khởi tạo ban đầu cho các nhóm, do đó khi chọn điểm khởi tạo ngẫu nhiên thì ta cần lặp lại nhiều lần để chọn được kết quả tốt nhất.
- Độ phức tạp tính toán của K-Mean là O(t * d * n), trong đó: t là số lần lặp để làm
mịn kết quả thuật toán; d là số chiều của vector đặc trưng hay số thuộc tính của mẫu; n là số mẫu đưa vào phân cụm.
Áp dụng trong KSVM, K-Mean được áp dụng cho tập dữ liệu đại diện các lớp, trên cơ sở kết quả phân cụm để gán nhãn lại cho các mẫu trong tập C1, C2.. Ck.Có một vấn đề cần ràng buộc trong việc xác định nhãn phân cụm bằng K-Mean là lực lượng của các nhóm không cân bằng nhau, từ đó dẫn đến số mẫu của mỗi nhóm không tương xứng nên việc training bằng SVM tại bước 3 sẽ không đạt được kết quả như mong muốn. Kết quả phân cụm của K-Mean phụ thuộc nhiều vào việc chọn nhân ban đầu, và thông thường việc khởi tạo nhân ban đầu được chọn ngẫu nhiên, do đó có thể cho ta nhiều kết quả phân cụm khác nhau, trong các kết quả đó ta chọn kết quả mà lực lượng giữa các cụm tương đối cân bằng nhau.
Kết quả K-Mean thu được là phương án phân cụm cho tập đại diện D, từ kết quả này ta gán nhãn tạm cho tất cả các mẫu trong tập M để thực hiện bộ phân cụm trong FC theo nguyên tắc: tất cả mẫu x thuộc nhóm đại diện lớp i sẽ được gán nhãn tương ứng với nhãn lớp i theo kết quả của B2.
3.2.4. Xây dựng bộ nhận dạng OVOS
OVOS là một tập các bộ nhận dạng OVO, OVO của mỗi nhóm (OVOSi) sẽ có chức năng nhận dạng các từ trong trong cụm Ci trong lưu đồ Hình 4.5. Nhãn của các mẫu đưa vào nhận dạng ở đây là chỉ số của các ký tự, không phải nhãn phân cụm tạm thời được tạo ra bởi K-Mean như trong OVOF. Mỗi OVOSi sẽ được đào tạo độc lập với tập dữ liệu trong lớp Ci, do đó cần có những bộ tham số của mô hình OVO cho mỗi lớp phù hợp để có kết quả nhận dạng cao nhất.
Do quá trình thực nghiệm nhận thấy tỉ lệ sai số lớn đang nằm ở FC, nên để trong luận văn, tác giả đang xét tất cả các OVOSi cùng một bộ tham số. Các nghiên cứu sau này sẽ tập trung cải tiếp FS theo hướng này.
Trong các cụm, đặc trưng các đối tượng tương đối giống nhau do đó bước nhận dạng cần độ chính xác cao. Yêu cầu này được giải quyết hiệu quả bởi đó chính là thế mạnh của SVM. Tất nhiên, độ chính xác cao không chỉ nằm ở thuật toán nhận dạng, cần xem xét cả phương pháp trích chọn đặc trưng. Trong FC, có thể không cần đặc trưng quá chi tiết, như thế với việc phân cụm sẽ bị dư thừa thông tin. Từ đó, ta có thể hướng nghiên cứu cải tiến thử nghiệm 2 phương pháp trích chọn đặc trưng khác nhau ở FC và SC như nhiều mô hình nhận dạng vẫn làm.