Giải thuậtKSVM cho nhận dạng chữ Nôm

Một phần của tài liệu Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ (SVM) (Trang 39)

Ý tưởng chính của mô hình là kết hợp 2 ý tưởng về nhận dạng theo 2 giai đoạn và thế mạnh của K-Mean, SVM. Với sự kết hợp 2 ý tưởng này, theo những nghiên cứu tác giả biết thì chưa có nghiên cứu nào đề cập, và nó cũng mở ra nhiều hướng nghiên cứu tiếp theo.

Nhận dạng theo 2 giai đoạn, đầu tiên là phân cụm sau đó tiến hành nhận dạng. Những ý tưởng này cũng đã có một số nghiên cứu đề cập, trong đó bước phân cụm sẽ sử dụng một số thuật toán nhanh, có độ chính xác thấp hơn và ở bước nhận dạng sẽ sử dụng các thuật toán có độ chính xác cao. Với cách tiếp cận theo hướng chia để trị này [24,25] đã đạt được hiệu quả cao về độ chính xác, tốc độ và kích thước mô hình nhận dạng.

SVM đã được nhiều nghiên cứu tổng kết [21, 25] về độ chính xác cao, tất nhiên có một hạn chế lớn cho nhận dạng đa lớp khi số lượng lớp tăng như đã đề cập trong chương 3. Như vậy, nếu áp dụng SVM vào giai đoạn thứ 2 trong mô hình nhận dạng 2 giai đoạn thì sẽ phát huy hiệu quả cao. Ở giai đoạn thứ nhất, ý tưởng chính là KSVM sẽ sử dụng thuật toán K- Mean để phân cụm, song kết quả đạt được không cao. Với ý tưởng dùng OVO cho phân cụm, việc áp đặt một số cách đánh nhãn để phân cụm theo một cách không tự nhiên làm cho kết quả mặc dù nhận dạng bằng SVM nhưng vẫn thấp. Trên cơ sở kết hợp 2 ý tưởng trên, KSVM sẽ dùng 2 kỹ thuật ở giai đoạn 1, dùng K-Mean để phân cụm tạm thời, kết quả đó sau khi điều chỉnh sẽ dùng làm nhãn để huấn luyện cho OVO. Như vậy, với sự kết hợp này tại giai đoạn thứ nhất, sẽ phát huy tính phân cụm 1 cách khách quan của K-Mean và độ chính xác của OVO.

Trong giải thuật KSVM, lớp đầu tiên (First Class-FC)sẽ phân cụm dữ liệu đầu vào thành các cụm, lớp thứ 2 – SC sẽ tiến hành nhận dạng trên từng cụm dữ liệu tạo ra trong FC. Tại mỗi lớp ta vẫn sử dụng OVO để xây dựng các bộ nhận dạng.

Trong mô hình OVO, với n lớp mẫu đầu vào ta cần S1 =𝑛(𝑛−1)

2 máy véc-tơ hỗ trợ (SVM), thì trong mô hình KSVM số SVM cần là: S2 =𝑘 𝑘−1 2 +𝑘 𝑛 𝑘)(𝑛𝑘 − 1) 2 (4.1) Trong công thức (4.1), 𝑘 𝑘−1 2 là số SVM cần cho phân cụm, 𝑘 𝑛 𝑘)(𝑛𝑘 − 1) 2

là sốSVM cho các lớp nhận dạng trong mỗi cụm, giả sử đang xét số phần tử trong mỗi cụm là như nhau và là n/k phần tử.

Ta dễ thấy S2<<S1.Ví dụ với n = 500, k = 20 ta có:

S1 = 124.750

S2 =6.190 (= 190 + 20 * 300)

Trong mô hình KSVM cần giải quyết vấn đề quan trọng là phương pháp đánh nhãn để phân cụm trong FC. Tác giả đã đề xuất dùng K-Mean để phân cụm trong FC.

Một phần của tài liệu Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ (SVM) (Trang 39)

Tải bản đầy đủ (PDF)

(73 trang)