Chương 3. NHẬN DẠNG CHỮ NÔM BẰNG PHƯƠNG PHÁP GỐC TỪ
3.3. Nhận dạng chữ Nôm dựa trên gốc từ
3.3.2. Nhận dạng dựa trên so khớp gốc từ
Hình 3.20 mô tả quy trình nhận dạng chữ Nôm dựa trên gốc từ
Hình 3.20. Nhận dạng chữ Nôm dựa trên gốc từ
Để thực hiện việc nhận dạng bằng so khớp có hiệu quả, một bảng tra cứu hai chiều đƣợc xây dựng với hàng và cột đại diện cho số nét và số điểm chéo tương ứng của nó. Phần tử (i, j) trong bảng tra cứu có i nét và điểm j chéo.
Định dạng của bảng tra cứu đƣợc thể hiện trong Bảng 3.6. Ví dụ, danh sách các ô(9,4) có chứa hai ký tự ( và ).
Bảng 3.6. Bảng tra cứu nét và điểm Số điểm chéo
Số nét 0 1 2 3 4 5 6
4 (4,0) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 5 (5,0) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 6 (6,0) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
10 (10,0) (10,1) (10,2) (10,3) (10,4) (10,5) (10,6)
Chữ đơn
Trích chọn đặc trƣng Theo gốc từ
Nhận dạng
Mã Unicode Bắt đầu
Huấn luyện
Kết thúc
CSDL nhận dạng Tập đặc trƣng
11 (11,0) (11,1) (11,2) (11,3) (11,4) (11,5) (11,6) 12 (12,0) (12,1) (12,2) (12,3) (12,4) (12,5) (12,6) Bây giờ, chúng ta có thể tiến hành các công việc khớp mẫu nhƣ mô tả dưới đây. Cho một ký tự đầu vào chưa biết, chúng ta đã có một tập hợp thành phần các gốc từ, ứng với mỗi gốc từ là các trích chọn đặc trưng tương ứng. Tập gốc từ sẽ đƣợc so sánh với những gốc từ có cùng số nét và số điểm chéo. Tất cả các kết hợp có thể có của các gốc từ đƣợc công nhận là phù hợp với cơ sở dữ liệu tri thức. Ví dụ, các ký tự đầu vào trong đó có 9 nét và 4 điểm chéo, sẽ đƣợc so sánh với hai ký tự và . Sau khi quá trình kết hợp này, kết quả sẽ đƣợc tự động phân loại thành bốn loại trạng thái:
S: Ký tự đƣợc so khớp thành công
M: Ký tự đƣợc nhận dạng sai hoặc không đƣợc nhận dạng
R: Ký tự đƣợc nhận dạng nhiều lần tức là có hơn 1 kết quả nhận dạng
P: Ký tự đƣợc nhận dạng một phần (một vài phần có thể không đƣợc nhận dạng) Một ký tự đầu vào đƣợc quyết định là không đƣợc nhận dạng nếu không có gốc từ đƣợc nhận ra trong nó. Nếu các kết quả nhận dạng là “R” hoặc “P”, các ký tự đầu vào cần phải đƣợc xử lý một lần nữa trong giai đoạn tiếp theo.
Quá trình so khớp đƣợc mô tả nhƣ sau: Ứng với mỗi ký tự đầu vào, tìm cấu trúc và kiểu liên kết của gốc từ trong cơ sở dữ liệu tri thức. Sau đó các véc tơ đặc trƣng của mỗi gốc từ sẽ đƣợc sử dụng để đối chiếu với mẫu và tìm ra ký tự nhận dạng phù hợp nhất. Hình 3.21 mô tả một ví dụ của giai đoạn này.
Hình 3.21. Kết quả so sánh dựa vào vị trí và đặc điểm của gốc từ
3.3.3. Nhận dạng dựa trên đặc trưng gốc từ và mô hình Entropy cực đại Trong phần này, chúng tôi thử nghiệm phương pháp nhận dạng chữ Nôm theo mô hình Entropy cực đại với đặc trƣng gốc từ theo quy trình trong Hình 3.20. Tập đặc trƣng theo gốc từ đƣợc minh họa nhƣ trong Hình 3.22. Tuy nhiên, chỉ sử dụng đặc trƣng gốc từ kết quả không cao. Theo thực nghiệm trong luận văn, với chữ Nôm, kết quả đạt đƣợc khoảng 50%.
Để cải tiến kỹ thuật này, chúng tôi đã kết hợp đặc trƣng gốc từ kết hợp với đặc trƣng đƣợc tạo từ tọa độ các điểm ảnh trong gốc từ. Tập đặc trƣng đƣợc minh họa nhƣ trong Hình 3.23. Theo đó, đặc trƣng của gốc từ ngoài các đặc trƣng về loại gốc từ, vị trí xuất hiện chúng tôi còn lấy thêm đặc trƣng theo tọa độ các điểm ảnh của gốc từ. Kết quả đạt đƣợc trung bình là 86.4%.
Hình 3.22. Đặc trưng gốc từ
Hình 3.23. Đặc trưng gốc từ kết hợp với tọa độ điểm ảnh
TỔNG KẾT CHƯƠNG 3
Chương 3 đã trình bày phương pháp nhận dạng chữ Nôm dựa trên gốc từ.
Trong chương này tác giả đã trình bày về cơ sở dữ liệu gốc từ, cấu trúc và các trích chọn đặc trưng của nó phục vụ cho việc nhận dạng, đề xuất phương pháp nhận dạng gốc từ theo mô hình Entropy cực đại. Trên cơ sở nhận dạng gốc từ từ thành phần chữ Nôm, tác giả để xuất phương pháp nhận dạng chữ Nôm trên cơ sở so khớp gốc từ và phương pháp sử dụng đặc trưng gốc từ kết hợp mô hình Entropy cực đại.