Hình 5.3. Giao diện chương trình pha nhận dạng
5.2 BỘ DỮ LIỆU THỰC NGHIỆM
Bộ dữ liệu thực nghiệm được xây dựng bằng cách thống kê những chữ xuất hiện trên 10 lần trong bộ Truyện Kiều của đại thi hào Nguyễn Du. Kết quả thống kê thu được 495 chữ. Với bộ dữ liệu 495 chữ đó, chúng tôi sử dụng 3 loại font khác nhau là Hán Nôm A, Hán Nôm B, Nôm Na Tông, mỗi font lấy hai kiểu chữ là chữ đậm và chữ thường. Như vậy mỗi chữ có 6 mẫu, tổng số mẫu của bộ dữ liệu là 2970. Mỗi mẫu ký tự đặt tên theo quy tắc:
ID_Mẫu_Font_ Kiểu.
Trong đó:
- ID là mã đặt cho ký tự, mỗi ký tự có 1 ID khác nhau.
- Mẫu là chế độ lấy mẫu, đánh số 0,1,2… với bộ dữ liệu này thì Mẫu luôn là 0 vì được lấy theo cũng một chế độ scan chữ in trên giấy trắng khổ A4, mực in màu đen.
- Font là tên font chữ của mẫu.
Hình 5.4. một số mẫu chữ Nôm trong bộ dữ liệu thực nghiệm Bộ dữ liệu thử nghiệm này có chất lượng tốt, độ nhiễu loạn gần như không có, sau khi thành công với bộ dữ liệu này chúng tôi sẽ tiếp tục xây dựng những bộ dữ liệu với mức độ nhiễu khác nhau nhằm cải tiến khả năng nhận dạng của chương trình ở những điều kiện chữ nhiễu loạn khác nhau.
5.3 THỰC NGHIỆM
K-fold cross validation [12] là một phương pháp kiểm chứng chéo, bộ dữ liệu kiểm chứng được chia ra làm K tập. Lần lượt thực hiện K lần kiểm chứng quay vòng, mỗi lần dùng 1 tập mẫu để thử nghiệm và K-1 tập còn lại để huấn luyện. Lỗi xuất hiện qua K lần kiểm chứng được tính trung bình.
Để thực nghiệm với K-fold cross validation thì việc lấy mẫu thử và mẫu huấn luyện phải lấy ngẫu nhiên, tuy nhiên để kiểm tra tính suy đoán của phương pháp, chúng tôi thực nghiệm theo phương pháp tựa K-fold cross validation, nghĩa là với bộ dữ liệu thực nghiệm trên chúng tôi quyết định lựa chọn 5 tập mẫu thuộc 5 bộ chữ khác nhau để huấn luyện, 1 bộ mẫu thuộc tập còn lại để thực nghiệm. Như vậy tập huấn luyện và tập nhận dạng thử nghiệm không giao nhau về kiểu chữ và font chữ, khả năng suy diễn của phương pháp nhận dạng được kiểm tra, chương trình
sẽ sử dụng bộ tri thức của kiểu font này nhận dạng bộ ảnh chữ của font kia được thử nghiệm đánh giá. Từ đó có thể đánh khả năng ứng dụng thực tế của phương pháp. Kết quả thực nghiệm trình bày dưới bảng sau:
- Nhận dạng với đặc trưng dựa trên khung xương
Bảng 5.1. Kết quả thực nghiệm trên khung xương
Tập huấn luyện Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Số ký tự nhận đúng Đạt tỷ lệ HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_0 493 439 89% HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_1 495 409 82% HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_0 495 361 72% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_1 495 349 70% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 2685 NomNaTong_0_0 495 398 80% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 2685 NomNaTong_0_1 495 373 75% Tỷ lệ trung bình nhận dạng đúng qua 6 lần là 78%
- Nhận dạng với đặc trưng dựa trên giả khung
Bảng 5.2. Kết quả thực nghiệm trên giả khung
Tập huấn luyện Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Số ký tự nhận đúng Đạt tỷ lệ HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_0 493 439 90% HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_1 495 409 85% HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_0 495 361 77% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_1 495 349 78% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 2685 NomNaTong_0_0 495 398 79% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 2685 NomNaTong_0_1 495 373 80% Tỷ lệ trung bình nhận dạng đúng qua 6 lần là 82%
Như vậy cũng một phương pháp nhận dạng, với đặc trưng lấy từ giả khung cho kết quả cao hơn đặc trưng lấy từ khung xương. Ta có thể biểu
diễn kết quả so sánh bằng đồ thị kết quả nhận dạng dựa trên hai phương pháp như sau:
Hình 5.5 Biểu đồ so sánh kết quả nhận dạng
Tổng kết chương 5
Nội dung chương 5 chúng tôi đã trình bày tổng quan mô hình thực nghiệm, bộ dữ liệu thực nghiệm, phương pháp tiến hành thực nghiệm cho giải pháp nhận dạng chữ Nôm chúng tôi đưa ra tại chương 4. Qua chương 5 có thể thấy được hiệu quả của phương pháp nhận dạng này, đồng thời so sánh được hiệu quả của hai phương pháp trích chon đặc trưng (đặc trưng theo histogram của giả khung và của khung xương).
Từ kết quả thực nghiệm ở chương này, chúng tôi thấy nhiều vấn đề cần giải quyết tiếp theo, đồng thời mở ra nhiều hướng đi mới để tăng tính chính xác nhận dạng. Tuy nhiên trong giới hạn thời gian thực hiện luận văn này, chúng tôi chưa kịp thực hiện những ý tưởng này, thời gian tiếp theo chúng tôi sẽ tiếp tục thực hiện nhằm làm cho giải pháp nhận dạng tốt hơn.
KẾT LUẬN
Luận văn trình bày kết quả tìm hiểu của chúng tôi về chữ Nôm, lịch sử hình thành và phát triển, tầm quan trọng của chữ Nôm với thế hệ hiện nay, sự phát triển của CNTT và hiện trạng nghiên cứu, mã hóa chữ Nôm. Tầm quan trọng của bài toán nhận dạng chữ Nôm. Chúng tôi trình bày một số phương pháp nhận dạng chữ tượng hình được áp dụng tại các nước sử dụng chữ tượng hình như Nhật Bản, Hàn Quốc, Trung Quốc… các phương pháp này đã được thực nghiệm trên chữ Nôm. Với trích chọn đặc trưng chúng tôi cũng đưa ra một số phương pháp chúng tôi nghiên cứu. Trong luận văn chúng tôi đưa ra giải pháp nhận dạng chữ Nôm bằng phương pháp nhận dạng khoảng cách soạn thảo trên cơ sở đặc trưng trích chọn từ khung xương và giả khung chữ Nôm. Phần thực nghiệm chúng tôi tiến hành trên tập chữ Nôm trích trong Truyện Kiều của Nguyễn Du theo tiêu chí phố biến nhất (lập lại trên 10 lần). Sử dụng ba font Hán Nôm A, Hán Nôm B, Nôm Na Tong mỗi font lấy hai kiểu chữ thường và đậm để lấy mẫu. Tổng số mẫu là 2970 chữ được thực nghiệm theo mô hình K-fold cho kết quả nhận dạng khả quan, nhận đúng 78% với đặc trưng lấy từ khung xương và 82% với đặc trưng lấy từ giả khung.
Trong quá trình nghiên cứu hoàn thiện luận văn này, chúng tôi tham khảo nhiều tài liệu khác nhau của nhiều tác giả trên thế giới, chúng tôi áp dụng những kết quả nghiên cứu của những tác giả đó, cải tiến, hiệu chỉnh, bổ sung các sáng kiến mới và thực nghiệm để rút ra kết quả. Những đóng góp của chúng tôi trong luận văn này gồm có:
- Về lý thuyết, chúng tôi tổng hợp một số phương pháp nhận dạng chữ tượng hình; tổng hợp một số phương pháp trích chọn đặc trưng trên chữ tượng hình; đưa ra hai phương pháp trích chọn đặc trưng mới cho chữ Nôm là đặc trưng theo histogram của khung xương và đặc trưng theo
histogram của giả khung; Đưa ra phương pháp nhận dạng chữ Nôm mới theo khoảng cách soạn thảo.
- Về thực nghiệm, chúng tôi đã xây dựng bộ dữ liệu thực nghiệm khoa học, áp dụng được cho những thực nghiệm sau này. Ngoài bộ dữ liệu thực nghiệm với 2.970 mẫu nêu trên, chúng tôi còn xây dựng xong bộ dữ liệu thực nghiệm với 14.850 mẫu với những kiểu chữ và độ nhiễu khác nhau phục vụ cho các bước thử nghiệm sau này. Chúng tôi cài đặt chương trình nhận dạng chữ Nôm bằng phương pháp nhận dạng theo khoảng cách soạn thảo trên hai phương pháp lấy đặc trưng theo histogram của khung xương và histogram của giả khung, kết quả nhận dạng rất khả quan, mở ra hướng nghiên cứu cải tiến mới nhằm nầng cao độ chính xác nhận dạng để áp dụng vào thực tế.
Do giới hạn thời gian, một số vấn đề chúng tôi vẫn chưa giải quyết được, cần tiếp tục hoàn thiện trong thời gian tới, đó là thực nghiệm chương trình với các hệ số điều chỉnh khác nhau, kích thước chữ khác nhau để tìm ra các hệ số tốt nhất, cho độ chính xác nhận dạng cao nhất. Trong quá trình lấy giả khung và lấy khung xương, cần nghiên cứu thêm các phương pháp hiệu chỉnh như đồng nhất cạnh, xóa nét thừa, chuẩn hóa nét… để lấy được kết quả tốt nhất nhằm tăng độ chính xác nhận dạng. Trong phương pháp lấy đặc trưng, những nét xiên phản ánh chưa tốt, nên cần nghiên cứu giải pháp phản ánh tốt các nét xiên lên chuỗi đặc trưng. Việc chia ô lưới trên histogram để tính độ dài các bin chúng tôi đang sử dụng cố định ở mức 10x10, với ô lưới 10x10 thì chỉ phản ánh được các nét ngang và nét dọc cho những chữ có từ 10 nét ngang và 10 nét dọc trở xuống, với những chữ có số nét ngang và nét dọc lớn hơn 10 thì sẽ phản ánh không tốt. Ngoài ra với những chữ có số nét ngang và nét dọc ít thì sử dụng lưới 10x10 cũng không cần thiết và làm giảm độ chính xác nhận dạng, giảm độ phức tạp tính toán. Do vậy cần nghiên cứu thêm để có thể áp dụng giải pháp lựa chọn lưới động, phù hợp với số nét của từng chữ.
Để giải quyết những tồn tại và hiện thực những ý tưởng trên, thời gian tới chúng tôi sẽ tiếp tục nghiên cứu và hoàn thiện hơn nữa phương pháp nhận dạng này.
TÀI LIỆU THAM KHẢO
[1]. Nguyễn Tuấn Cường, “Thời điểm xuất hiện chữ Nôm và sơ đồ cấu trúc chữ Nôm”, 2009
[2]. Đặng Đức, Trần Xuân Ngọc Lan, “Nghiên cứu diến biến chữ NOM
theo phương pháp hình thể”,
http://www.hannom.org.vn/web/tchn/data/0103.htm
[3]. Phạm Văn Huởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hương, Bùi
Thị Hồng Hạnh, Lê Hồng Trang, Vũ Thanh Nhân, Trương Anh Hoàng, Vũ Quang Dũng, Nguyễn Ngọc Bình, “Một số phương pháp nhận dạng chữ NÔM”, Hội thảo Khoa học Quốc gia Lần thứ IV về CNTT-TT (ICT.rda’2008)
[4]. Đỗ Năng Toàn, TS. Phạm Việt Bình (2007), “Giáo trình sử lý ảnh TS”, khoa CNTT Đại học Thái Nguyên.
[5]. Ngô Trung Việt, Ngô Thanh Nhàn, “Một cách nhìn về tương lai của” chữ NÔM, Hội nghị Chữ NÔM Quốc tế 2004
[6]. http://www.nomfoundation.org
[7]. http://www.nomna.org
[8]. Adam L.Berger, “A Maximum entropy Approach to Natural Language Processing”
[9]. Belur V. Dasarathy, “Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques”, 1991, ISBN 0-8186-8930-7.
[10]. Ben Krose and Patrick van der Smagt (1996), “An introduction to Neural Networks”, Eighth edition November 1996
[11]. Eric Sven Ristad, Member, IEEE, and Peter N. Yianilos, Senior Member IEEE, “Learning String-Edit Distance”, IEEE transactions on pattern analysis and machine intelligence, vol. 20, no. 5, may 1998
[12]. Juan Diego Rodrıguez, Aritz Perez, Jose Antonio Lozano, Member, IEEE, “Sensitivity Analysis of k-Fold Cross Validation in Prediction Error Estimation”, IEEE Transactions on pattern analysis and machine intelligence, Vol. 32, No. 3, March 2010
[13]. Kai Yu, Jiangqin Wu, Yueting Zhuang, “Skeleton-Based
Recognition of Chinese Calligraphic Character Image”, College of Computer Science, Zhejiang University Hangzhou, 310027, P. R. China
[14]. Lê Hồng Trang, “Nôm Optical Character Recognition using Pseudo-Skeleton feature”, Luận văn thạc sĩ đại học Công nghệ, đại học Quốc gia Hà Nội 2009.
[15]. Lifeng Shang, Zhang Yi, Luping Ji (2007), “Binary Image Thinning Using Autowaves Generated by PCNN”, Neural processing letters (2007) 25:49-62 DOI 10.007/s11063-006-9030-9 [16]. Ming Gang Wen, Kuo Chin Fan, Chin Chuan Han, “Classification
of Chinese Characters Using Pseudo Skeleton Features”, Journal of information science and engineering 20, 903-922 (2004)
[17]. Ning Li, “An Implementation of OCR System”, Computing Laboratory University of Kent at Canterbury United Kingdom, August 1991
[18]. Tom M. Mitchell, “Machine learning”, McGraw-Hill