Xây dựng bộ dữ liệu thực nghiệm

Như đã trình bày trong chương 1, chữ Hán-Nôm tuy kế thừa phát triển từ chữ Hán nhưng có những khác biệt lớn, do đó quá trình nghiên cứu nhận dạng chữ Hán-Nôm, đặc biệt chữ Nôm- Việt cần xây dựng bộ cơ sở dữ liệu mới và phương pháp nhận dạng cũng đặt ra nhiều thách thức, phương pháp giải quyết khác so với chữ Hán. Trong kho chữ Hán-Nôm có một phần lớn khoảng 10.000 chữ là chữ tự tạo về mặt hình, không có trong các hình của chữ Hán hay các loại chữ tượng hình khác. Cấu trúc của chữ Nôm-Việt có cấu tạo phức tạp hơn chữ Hán, số nét tối đa của chữ Nôm là 37 [27]. Và hiện nay, chưa có nhóm nghiên cứu nào công bố bộ dữ liệu phục vụ nghiên cứu nhận dạng chữ Nôm.

Việc nghiên cứu xây dựng bộ cơ sở dữ liệu của chữ Nôm gặp nhiều khó khăn do các yếu tố: người biết chữ Nôm không còn nhiều, các thông tin về số hóa chữ Nôm còn hạn chế, thậm chữ nhiều chữ Nôm còn chưa được đưa vào bộ font chuẩn. Những mẫu chữ Nôm thực tế hiện còn tồn tại trong một số sách cổ, các bia đá, cấu đối, gia phả… nhưng việc dịch nghĩa những từ này để xây dựng cơ sở dữ liệu thực tế là một điều khó. Sau quá trình tìm hiểu, tư vấn một số chuyên gia về chữ Nôm để xác định những chữ Nôm phổ biến để có thể tiếp cận theo hướng nghiên cứu giải quyết những từ thông dụng trước, nhưng cho đến nay vẫn chưa có nghiên cứu nào về số liệu này.

Trong quá trình nghiên cứu, tìm hiểu chúng tôi phát hiện ra rằng, nhiều công trình trước có thể được kế thừa một cách hiệu quả cho việc xây dựng kho dữ liệu này, đặc biệt là nguồn tài nguyên từ http://www.nomna.org của Hội bảo tồn di sản chữ Nôm, và nhiều nguồn tư liệu quý về chữ Nôm đã được thư viện quốc gia quét để lưu giữ. Một số tác phẩm, trong đó có truyện Kiều đã được số hóa, dịch nghĩa và chuyển về mã chữ Nôm theo chuẩn Unicode như trong hình 5.3. Từ bản quét ảnh các trang của truyện Kiều, các chuyên gia đã dịch nghĩa và tách thành các chữ Nôm độc lập.Do đó, từ đây chúng tôi có thể giải quyết khâu mất rất

nhiều thời gian là đọc và dịch chữ Nôm, một công đoạn hiếm người làm, đặc biệt với người nghiên cứu Công nghệ thông tin.

Hình 5.3. Bản số hóa và dịch nghĩa của một trong trong truyện Kiều.

Kết quả phân tích trang web của nomna.org thu được những thong tin khả quan, tên của các ảnh chữ Nôm trong phần giải nghĩa là tương ứng mới mã Unicode của chữ Nôm. Như vậy, từ đây ta có thể xác định được mã chữ Nôm, hình và nghĩa chữ Nôm trong các bản truyện Kiều. Đây là một nguồn tài nguyên rất quý để chúng tôi tiếp cận xây dựng cơ sở dữ liệu Nôm-DB0.

Việc nghiên cứu nhận dạng chữ Nôm sẽ được tiến hành 2 giai đoạn:

- Giai đoạn 1, các nghiên cứu sẽ được tiến hành trên dữ liệu khá chuẩn, theo nghĩa các mẫu được in ra từ các hình chuẩn trong các phông chữ Nôm, sau đó qua một số bước làm nhiễu mô phỏng như in ra rồi quét đi lại nhiều lần, ở các chế độ khác nhau về độ sang, độ nét, hay in trên nền các giấy có chất liệu khác nhau. Những mẫu này đã có những nhiễu tương đối giống thực tế, và số lượng mẫu cũng khá giống thực tế. Và sau khi thu mẫu, chúng ta tiến hành một số bước chuẩn hóa, đảm bảo các chữ đã được tách độc lập, chính xác với kích thước chuẩn để đưa vào giai đoạn nhận dạng, việc tiền xử lý chưa đặt ra với giai đoạn này.

- Giai đoạn 2, trên cơ sở kết quả đạt được trong giai đoạn 1, các giải pháp sẽ được triển khai và cải tiến với việc áp dụng trực tiếp trên dữ liệu thực tế như các bản quét sách, tài liệu, ảnh chụp từ bia, gia phả… Trong giai đoạn này, mục tiêu là xây dựng bộ nhận dạng để triển khai thực tế, do đó việc nghiên cứu đầy đủ các giai đoạn của OCR là cần thiết, và yêu cầu tối ưu trong việc triển khai thực tế như việc xây dựng các ứng dụng trên các thiết bị di động…

Hình 5.4. Kết quả phân tích để thu được mã chữ Nôm trong truyện kiều từ kho nomna.org

Do đó, để thực hiện hiệu quả hướng tiếp cận trên, chúng tôi tiến hành xây dựng kho dữ liệu phục vụ nghiên cứu trong giai đoạn 1 như sau:

- Xây dựng kho dữ liệu chữ Nôm từ các chữ đã có trong truyện Kiều.

- Chọn những chữ có đã được đưa vào các Font chữ tiêu biểu cho chữ Nôm hiện tại như Hán Nôm A, Hán Nôm B, Nôm Na Tông.

- Chọn các từ có tần suất xuất hiện cao trong các bản truyện Kiều.

- Tạo mẫu M0 bằng cách in các chữ đó trên giấy A4 với 3 loại Font Hán Nôm A, Hán Nôm B, Nôm Na Tông và các kiểu thường, nghiêng, đậm, nghiêng đậm. Tham khảo một số khuyến nghị của chuyên gia về xây dựng mẫu, tác giả in nhiều chữ Nôm trên mặt giấy A4 đảm bảo độ phân giải trên 300 DPI, kích thước tối thiểu 1 chữ 120x120 Pixel.

- Scan mẫu chuẩn với M0 với các chế độ khác nhau về độ nét, độ sáng, loại máy scan, hay photo và scan lại nhiều lần làm tăng nhiễu… để thu được các mẫu M1,M2,… Máy quét có độ phân giải trên 300DPI.

- Xây dựng chương trình tách file ảnh thành các file chữ chữ đơn để làm đầu vào cho việc nghiên cứu nhận dạng.

Với cách tiếp cận trên, tác giả xây dựng bộ dữ liệu Nom-DB0 với 495 chữ trong truyện Kiều, các chữ này có tần suất xuất hiện trên 10 lần, mỗi chữ có 3 font, 4 kiểu, và thu mẫu ở 5 chế độ khác nhau. Do trong quá trình xây dựng tạo mẫu để khoảng cách các chữ khá gần nhau nên không cắt được các mẫu chữ nghiêng do đó trong dữ liệu sử dụng Nom-DB0 chỉ có các kiểu thường, đậm. Như vậy, tổng số mẫu trong Nom-DB0 là 14.850 mẫu. Tác giả chia làm 2 phần tập training gồm 11.880 mẫu, tập testing gồm 2.970 mẫu với đầy đủ các font và ký tự, mẫu testing được chọn là tập mẫu thu được ở chế độ scan có độ mờ cao.

Mỗi mẫu ký tự đặt tên theo quy tắc:ID_Mẫu_Font_ Nghiêng_Đậm. Trong đó:

- ID là mã đặt cho ký tự, mỗi ký tự có 1 ID khác nhau. - Mẫu là chế độ lấy mẫu, đánh số 0,1,2…

- Font là tên font chữ của mẫu.

- Nghiêng, đậm nhận giá trị 0,1 tương ứng với mẫu này thuộc chữ nghiêng hay đậm.

Hình 5.5. Một số mẫu chữ Nôm trong cơ sở dữ liệu NomDB0.

Với cách tiếp cận trên, sau khi nhận dạng tốt trên bộ dữ liệu tự tạo, nhóm sẽ có thể khai thác một tập mẫu thực tế đã được số hóa rất công phu từ Nôm foundation. Sau khi cho kết quả thực nghiệm tốt trên bộ Nom-DB0, tác giả đang triển khai tiếp Nom-DB1 với đầy đủ 4 kiểu và 2.160 trong truyện Kiều.

Bài toán nhận dạng chữ Nôm

SVM cho bài toán phân đa lớp