Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ (SVM) Trần Nghi Phú Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin : 60 48 10 Người hướng dẫn : PGS.TS. Nguyễn Ngọc Bình Năm bảo vệ: 2013 74 tr . Abstract. Nghiên cứu bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng nghiên cứu cải tiến Keywords. Công nghệ phần mềm; Nhận dạng chữ nôm; Máy Véc tơ; Nhận dạng ký tự Content. 1. Tính cấp thiết Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thờ kỳ của dân tộc. Do đó việc phục hồi và phát triển chữ Nôm đang được xã hội ngày càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phương diện ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin - xây dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR. Với tất cả các chữ viết phổ biến trên thế giới, việc xây dựng OCR cho các chữ viết đó trở thành một trong những nhiệm vụ nghiên cứu quan trọng. Với những nỗ lực nghiên cứu đó đã mang lại những thành tựu to lớn, góp phần quan trọng làm chủ chữ viết của con người bằng khoa học công nghệ. Khi xây dựng thành công bộ OCR cho ngôn ngữ, rào cản để máy hiểu chữ viết đó được tháo bỏ bớt. Khi đó, ta hoàn toàn có thể xử lý ngôn ngữ, chữ viết hay sâu hơn là kho tri thức biểu thị bằng ngôn ngữ đó với tốc độ của máy, bằng những tiến bộ của khoa học máy tính. Xét về mặt công nghệ thông tin cũng như ngôn ngữ học, đó là được xem là những đóng góp khổng lồ. Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho những tri thức chữ Nôm ngày càng mai một. Ngược lại chúng ta lại đang sở hữu những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phương diện như sách, gia phả, ấn phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong các công trình di tích, là chứng cứ sống của lịch sử, là biểu tượng của văn hóa, lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng được Nôm-OCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng ta có thể làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa, khám phá du lịch. 2. Tình hình nghiên cứu Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về phương diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm được số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang đề nghị đưa vào thêm 2200. Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ chữ Nôm đã được xây dựng. Và một trong những bước đi tiếp của lộ trình trên là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu. Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thương mại ABBY… đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ. Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở, cần những nghiên cứu mới. 3. Đối tượng và phạm vi nghiên cứu Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác. Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc trưng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng. Với tập dữ liệu đầu vào để huấn luyện và nhận dạng là kho mẫu NOM-DB0 chứa 495 chữ Nôm, mỗi chữ 24 mẫu, mỗi chữ trên 1 ảnh đã được cắt bó sát. 4. Mục đích và nhiệm vụ nghiên cứu Đề tài tập trung nghiên bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng nghiên cứu cải tiến. 5. Những nội dung nghiên cứu Chúng tôi tìm hiểu tổng quan về chữ Nôm và bài toán nhận dạng chữ Nôm nhằm mục đích để xây dựng bộ nhận dạng Nôm-OCR. Để tiến hành các nghiên cứu đánh giá, nhóm tác giả cùng nghiên cứu về chữ Nôm trong LES-Nôm tiến hành xây dựng bộ dữ liệu mẫu Nôm-DB0. Trên cơ sở những kết quả về nhận dạng đã áp dụng cho các bộ OCR khác, đặc biệt là OCR chữ tượng hình, luận văn tiến hành nghiên cứu, đề xuất thuật toán nhận dạng KSVM, tiến hành cài đặt thuật toán, tiến hành thực nghiệm đánh giá độ chính xác của KSVM. 6. Kết cấu luận văn Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn gồm 5 chương. Trong chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng hình khác. Tiếp đó, trong chương 2, những nội dung về bài toán nhận dạng chữ Nôm được nêu ra trên cơ sở tìm hiểu các OCR nói chung và OCR dành cho chữ tượng hình về phương diện kết quả đạt được, mô hình và các giải thuật cần được tiếp tục nghiên cứu. Trong chương 3, chúng tôi tập trung tìm hiểu ý tưởng của SVM và đi sâu làm rõ nội dung liên quan nhiều đến luận văn là áp dụng SVM cho bài toán phân đa lớp, vốn là một trong những chủ để đang được quan tâm nhiều, đặc biệt khi áp dụng cho chữ Nôm có số chữ lớn. Trên cơ sở những kiến thức có được từ 3 chương đầu, chương 4 trình bày giải thuật KSVM cho bài toán nhận dạng chữ Nôm do tác giả đề xuất. Để thực hiện đánh giá hiệu quả của KSVM, trong chương 5, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá KSVM. Do không được kế thừa từ kết quả nghiên cứu nào với chữ Nôm, nên luận văn tiến hành thực nghiệm từ bước đầu tiên là tự xây dựng kho cơ sở dữ liệu mẫu, đến phần mềm tách chữ, tiền xử lý cơ bản sau đó xây dựng kịch bản và tiến hành đánh giá. TÀI LIỆU THAM KHẢO Tiếng việt 1. Phan Anh Dũng. 2004. Một số kết quả ứng dụng công nghệ thông tin phục vụ nghiên cứu chữ Nôm, Hội nghị Quốc tế về chữ Nôm lần thứ nhất, Hà Nội. 2. Phan Anh Dũng, Dương Văn Việt, Hoàng Thị Ngọc Dung (2006), Đưa Chư ̃ Ha ́ n - Nôm Va ̀ o Thiết Bi ̣ Cầm Tay. 3. Phạm Văn Huởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hương, Bùi Thị Hồng Hạnh, Lê Hồng Trang, Vũ Thanh Nhân, Trương Anh Hoàng, Vũ Quang Dũng, Nguyễn Ngọc Bình (2008), “Một số phương pháp nhận dạng chữ Nôm”, Hội thảo Khoa học Quốc gia Lần thứ IV về CNTT-TT (ICT.rda’2008), Hà Nội. 4. Tống Phước Khải & Lê Anh Minh (2004), HaNoSoft Tool 2004 (for Windows 2000/XP), Kỷ yếu Hội nghị Quốc tế về chữ Nôm lần thứ nhất, Hà Nội. 5. Phòng Nhận dạng và Xử lý ảnh - Viê ̣ n công nghê ̣ thông tin (1998), Phần mềm nhâ ̣ n dạng chữ Việt in. 6. Trần Thị Thanh(2007), Vài nét về cách cấu tạo chữ Nôm qua tác phẩm Thanh hóa quan phong, Trường ĐH Khoa học Huế. 7. Ngô Trung Việt & Ngô Thanh Nhàn(2004), Một cách nhìn về tương lại của chữ Nôm, Hội nghị Chữ Nôm Quốc tế, Hà Nội, Việt Nam. 8. Trần Nguyên Hoàng (2013), Nhận dạng chữ Nôm bằng mạng nơ-ron, Luận văn thạc sĩ, Đại học Công nghệ - Đại học quốc gia Hà Nội, Hà Nội. 9. Nguyễn Triệu Tuấn (2013), Trích chọn đặc trưng trong nhận dạng chữ Nôm, Luận văn thạc sĩ, Đại học Công nghệ - Đại học quốc gia Hà Nội, Hà Nội. Tiếng Anh 10. Sargur N.Srihari, Tao Hong and Zhixin Shi (1997), CherryBlossom:A System for Japanese Character Recognition, Symposium on Document Image Understanding Technologies. 11. Heliński, Marcin (2012), Report on the comparison of Tesseract and ABBYY FineReader OCR engines, Poznan. 12. Ning Wang (2008), Printed Chinese Character Recognition Based on Pixel Distribution Probability of Character Image, Intelligent Information Hiding and Multimedia Signal Processing, 08. IIHMSP apos;08 International Conference, Volume 00, 15-17 Aug. 2008 Page(s):1403 – 1407. 13. Divind Due Trier, Anil K Jain, Torfinn Taxt (1996), Feature Extraction Methods For Character Recognition - A Survey, Pattern Recognition, Vol. 29. 14. Laura Marshall (2008), Japanese Printed and Handwritten Character Recognition Based on Pixel Distribution Probability of the Character Image. 15. Cortes, Corinna; Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning. 16. Kai-Bo Duan, S. Sathiya Keerthi (2005), Which Is the Best Multiclass SVM Method? An Empirical Study, Springer-Verlag Berlin Heidelberg. 17. John C. Platt, Nello Cristianini, John Shawe-Taylor(1999), Large Margin DAGs for Multiclass Classification, NIPS. 18. Ray Smith(2007), “An Overview of the Tesseract OCR Engine”, OSCON. 19. Stephen V. Rice, Frank R. Jenkins, Thomas. A. Nartker (1995), “The Fourth Annual Test of OCR Accuracy, Technical Report 95-03”, Information Science Research Institute, University of Nevada, Las Vegas. 20. Sargur N. Srihari, Xuanshen Yang, Gregory R. Ball (2007), Offline Chinese Handwriting Recognition: A Survey, Frontiers of Computer Science in. 21. Cheng-Lin Liu, Hiromichi Fujisawa (2008), Classification and Learning Methods for Character Recognition: Advances and Remaining Problems, Machine Learning in Document Analysis and Recognition Studies in Computational Intelligence Volume 90, pp 139-161 22. Marcin Heliński, Miłosz Kmieciak, Tomasz Parkola (2008), Report on the comparison of Tesseract and ABBYY FineReader OCR engines, National Library of the Netherlands. 23. T.K. Ho, J.J. Hull, S.N. Srihari (1994), Decision combination in multiple classifier systems, IEEE Trans. PAMI 16 (1) (1994) 66 75 24. C L. Liu, R. Mine, M. Koga (2005), Building compact classifier for large character set recognition using discriminative feature extraction, Proceedings of the Eighth ICDAR, Seoul, Korea, 2005, pp. 846-850 25. Hiromichi Fujisawa (2008), Forty years of research in character and document recognition—an industrial perspective, Pattern Recognition, Volume 41, Issue 8, Pages 2435–2446 26. Truyen Van Phan, Bilan Zhu and Masaki Nakagawa(2012), Collecting Handwritten Nom Character Patterns from Historical Document Pages, IAPR International Workshop on Document Analysis Systems. Tiếng Pháp 27. Dương Quảng Hàm (1942), Extrait du Bulletin général de l’Instruction publique, No 7, Mars 1942 – pp. 227-286: Le Chữ Nôm ou écriture démotique, son importance dans l’étude de l’ancienne litérature annamite. . quan về chữ Nôm và bài toán nhận dạng chữ Nôm nhằm mục đích để xây dựng bộ nhận dạng Nôm- OCR. Để tiến hành các nghiên cứu đánh giá, nhóm tác giả cùng nghiên cứu về chữ Nôm trong LES -Nôm tiến. trưng trọng số vùng (Zoning). Trong bước nhận dạng đề tài tìm hiểu kỹ thuật Máy véc- tơ hỗ trợ (SVM) và đưa mô hình ứng dụng SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất. Nhận dạng chữ nôm; Máy Véc tơ; Nhận dạng ký tự Content. 1. Tính cấp thiết Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm