Nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ

122 1.4K 5
Nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC QUC GIA H NI TRNG I HC CễNG NGH NGUYN THANH BèNH NGHIấN CU PHNG PHP NHN DNG CH HN - NễM DA TRấN GC T Ngnh: Cụng ngh thụng tin Chuyờn ngnh: K thut phn mm Mó s: 60480103 LUN VN THC S H Ni 2015 I HC QUC GIA H NI TRNG I HC CễNG NGH NGUYN THANH BèNH NGHIấN CU PHNG PHP NHN DNG CH HN - NễM DA TRấN GC T Ngnh: Cụng ngh thụng tin Chuyờn ngnh: K thut phn mm Mó s: 60480103 LUN VN THC S NGI HNG DN KHOA HC: PGS.TS NGUYN NGC H Ni 2015 BèNH LI CAM OAN Tờn tụi l Nguyn Thanh Bỡnh, hc viờn cao hc K19, chuyờn ngnh K thut phn mm, khoỏ 2012-2014 Tụi xin cam oan lun thc s Nghiờn cu phng phỏp nhn dng ch Hỏn - Nụm da trờn gc t l cụng trỡnh nghiờn cu ca riờng tụi Cỏc s liu, kt qu nờu Lun l trung thc v cha tng c cụng b bt k cụng trỡnh no khỏc Tt c nhng tham kho t cỏc nghiờn cu liờn quan u c nờu ngun gc mt cỏch rừ rng t danh mc ti liu tham kho ca lun Trong lun vn, khụng cú vic chộp ti liu, cụng trỡnh nghiờn cu ca ngi khỏc m khụng ch rừ v ti liu tham kho H Ni, ngy 02 thỏng nm 2015 Tỏc gi Nguyn Thanh Bỡnh LI CM N Tụi xin gi li cm n sõu sc ti PGS TS Nguyn Ngc Bỡnh, ó nh hng cho tụi ni dung nghiờn cu rt thit thc, cú ý ngha ln v khoa hc cng nh húa dõn tc, cng nh nhng ý tng gi m nghiờn cu v s h tr ca thy quỏ trỡnh tỡm v gii thớch cỏc cụng trỡnh nghiờn cu v ch tng hỡnh rt him v c vit bng ting Trung, Nht Xin cm n thy ht lũng giỳp , ng viờn v to mi iu kin thun li cho tụi su t qua trinh t t nghiờp p nghiờn cu va hoan than h luõn Tụi xin gi li cm n thõn mn n nhúm nghiờn cu LES-Nụm, c bit l NCS Phm Vn Hng ó giỳp tụi nhiu kin thc v kinh nghim quý bỏu tụi hon thnh lun ny Tụi xin gi li cm n ti thy Nguyn ỡnh K - Nguyờn ging viờn trng i hc Ngoi ng - HQGHN, cụ Trõn Minh Thựy Ging viờn khoa ngoi ng trng Cao ng Hi Dng l nhng ngi ó giỳp tụi hiu thờm v ch Nụm cng nh giỳp tụi vic xõy dng b d liu gc t ca ch Nụm Tụi xin c gi li cm n n cỏc tỏc gi, nhúm tỏc gi ca nhng giỏo trỡnh, nhng cụng trỡnh khoa hc v nhng bi bỏo khoa hc m tụi tham kho hon thin lun ny Tỏc gi MC LC M U .1 Tớnh cp thit .1 Tỡnh hỡnh nghiờn cu i tng v phm vi nghiờn cu .2 Mc ớch v nhim v nghiờn cu Nhng ni dung nghiờn cu Kt cu lun Chng 1: TNG QUAN V CH NễM 1.1 Gii thiu v ch Nụm .4 1.1.1 Lch s hỡnh thnh v phỏt trin 1.1.2 Cu trỳc ch Nụm 1.3 Tin hc húa v ng dng ch Nụm 1.4 Xu hng phỏt trin ca ch Nụm 1.4.1 Ph cp i tr ch Nụm qua mỏy tớnh 1.4.2 Phỏt trin phng phỏp lun lm vic mi vi ch Nụm da trờn CNTT 10 1.4.3 Gii quyt s húa ch Nụm 10 1.4.4 Cỏch tip cn ton din ti nghiờn cu v ch Nụm v ting Vit 11 TNG KT CHNG 11 Chng NHN DNG CH NễM .12 2.1 Nhn dng ký t quang hc 12 2.2 Bi toỏn nhn dng ch Nụm 14 2.3 Cỏc phng phỏp nhn dng ch Nụm 15 2.3.1 Nhn dng s dng th vin Tesseract 15 2.3.2 Phng phỏp mng Nron .17 2.3.3 Phng phỏp Kmean, SVM .21 2.3.4 Phng phỏp nhn dng da trờn khong cỏch son tho .23 2.3.5 So sỏnh, ỏnh giỏ cỏc phng phỏp 27 TNG KT CHNG 28 Chng NHN DNG CH NễM BNG PHNG PHP GC T 30 3.1 Mụ t phng phỏp 30 3.1.1 í tng 30 3.1.2 Quy trỡnh v cỏc k thut s dng 30 3.2 Ly khung xng 32 3.2.1 Ly khung xng theo phng phỏp Hit-or-Miss .32 3.2.2 Hiu chnh khung xng 34 3.3 Nhn dng gc t 36 3.3.1 Tỏch gc t 36 3.3.2 C s d liu gc t 45 3.3.3 Nhn dng gc t .48 3.3 Nhn dng ch Nụm da trờn gc t 54 3.3.1 .Tp c trng da trờn gc t 54 3.3.2 Nhn dng da trờn so khp gc t 55 3.3.3 Nhn dng da trờn c trng gc t v mụ hỡnh Entropy cc i 58 TNG KT CHNG 59 Chng THC NGHIM .60 4.1 Mụ hỡnh thc nghim 60 4.2 Xõy dng chng trỡnh thc nghim 61 4.3 B d liu thc nghim 62 4.4 Kt qu thc nghim v ỏnh giỏ 62 TNG KT CHNG 64 KT LUN .65 DANH MC TI LIU THAM KHO 66 PH LC A 68 PH LC B 84 PH LC C 84 C.1 Chng trỡnh phõn tớch, nhn dng v trớch xut c trng gc t .84 C.2 Chng trỡnh nhn dng ch Nụm theo gc t v MEM 85 DANH MC CC T VIT TT STT T vit tt FC First Class ISO International Organization for T chc chun húa quc t Standardization T y Ting Vit Lp th nht K-Mean & Support Vector Machine K cm v mỏy vộc-t h tr OCR Optical Character Recognition Nhn dng ký t quang hc OS Operating System H iu hnh OVO One Versus One Mt vi mt OVR One Versus The Rest Mt vi phn cũn li PD Probability Distribution of Black Pixels Phõn b xỏc sut im en PDA Personal Digital Asisstant Thit b s cỏ nhõn 10 PDF Portable Document Format nh dng ti liu di ng 11 SC Second Class Lp th 12 SVM Support Vector Machine Mỏy vộc-t h tr KSVM DANH MC CC BNG BIU Bng 2.1 Kt qu nhn dng bng phng phỏp mng n-ron 20 Bng 2.2 Kt qu thc nghim KSVM vi b d liu NOM-DB0 22 Bng 2.3 Mụ t giỏ tr chuyn i gia hai ch Nụm 25 Bng 2.4 Kt qu thc nghim theo khong cỏch son tho bn 26 Bng 2.5 So sỏnh kt qu nhn dng gia cỏc phng phỏp 28 Bng 3.1 Cu to gc t cỏc ký t ch Nụm .30 Bng 3.2 Vớ d v cỏc kiu ký t ch Nụm 38 Bng 3.3 Thng kờ gc t ca cỏc ch Nụm Nom-DB0 45 Bng 3.4 Thụng tin gc t c to t Nom-DB0 .46 Bng 3.5 Vớ d v thng kờ cỏc gc t theo v trớ 47 Bng 3.6 Bng tra cu nột v im 56 Bng 4.1 Kt qu thc nghim 63 Bng 4.2 So sỏnh kt qu nhn dng gia cỏc phng phỏp 63 DANH MC CC HèNH V Hỡnh 1.1 S cu trỳc ch Nụm ca Dng Qung Hm Hỡnh 1.2 S cu trỳc ch Nụm ca o Duy Anh .6 Hỡnh 1.3 kiu hỡnh kin trỳc ch Nụm .6 Hỡnh 2.1 ng dng t ng chp nh v dch trờn di ng v bỳt chuyờn dng 12 Hỡnh 2.2 S tng th mụ hỡnh nhn dng ch Nụm xut .14 Hỡnh 2.3 Phm vi nghiờn cu ca lun 15 Hỡnh 2.4 Kin trỳc tng quỏt ca Tesseract 16 Hỡnh 2.5 Kin tru c man g n-ron 17 Hỡnh 2.6.S ly c trng cu a anh ch Nụm .18 Hỡnh 2.7 Lu hun luyn mng n-ron .20 Hỡnh 2.8 Nhn dng KSVM 22 Hỡnh 3.1 Mụ hỡnh nhn dng ch Nụm da trờn gc t 31 Hỡnh 3.2 Vớ d khung xng ch Nụm 32 Hỡnh 3.3 Minh phộp bin i Hit-or-Miss .33 Hỡnh 3.4 Khung xng ca ch Nụm 34 Hỡnh 3.5 Vớ d cỏc nột ca khung xng ch Nụm 35 Hỡnh 3.6 Vớ d v loi b cỏc nột tha ca khung xng ch Nụm 35 Hỡnh 3.7 Vớ d v khung xng loi b nột ngn sau xp x cnh 36 Hỡnh 3.8 Quỏ trỡnh tỏch gc t t ký t n 37 Hỡnh 3.9 Cỏc loi kiu ký t ch Nụm .38 Hỡnh 3.10 c trng ca ký t kiu 10 vi thnh phn 40 Hỡnh 3.11 c trng ca kiu ký t kiu 40 Hỡnh 3.12 Tỏch thnh phn ca ký t da vo ng ct 42 90 91 92 93 94 m i nột x x x x 5 5 x x x x bn x can sinh x x nht qua x 95 96 97 98 m i nột x x x x 5 x x in dng x nch 99 mónh x 100 101 102 103 104 m i nột x x x x x x x 5 x mc th thạch x thị th x x 105 106 107 m i nột x x x 5 x hũa x x lập 109 x x mc 108 x duật y x 110 111 112 113 114 m i nột x x 6 x th chu x x in x x x bch bỡ x 115 116 117 118 119 m i nột x x 6 x m mch x dng nhi li x x x x 120 121 122 123 m i nột 6 x 6 x x nh tự x chu x trùng 124 ỏ x 125 m i nột 7 7 x x x 126 127 128 129 x phủ x phẫu bi thõn x x 116 130 131 132 m i nột x x x 7 x x x x xa du x bin 133 134 x lý kỳ x 135 136 137 138 139 m i nột 8 x x x x x canh x thỳc x vũ trng phi x x x 140 141 142 143 144 m i nột x x 9 trác đơn ụng x trọng mó x x 145 m mụn i nột 10 x x 12 PH LC C Mễ T CHNG TRèNH THC NGHIM C.1 Chng trỡnh phõn tớch, nhn dng v trớch xut c trng gc t Chỳng tụi ci t chng trỡnh thc nghim ny phõn tỏch, trớch chn c trng ca gc t, nhn dng gc t v trớch xut c trng gc t, c trng kt hp gc t vi ta im nh nhn dng ch Nụm Chng trỡnh ny c ci t bng ngụn ng C#, mụi trng Visual Studio.Net 2008, Net framework 3.5 Giao din chớnh v cỏc lp x lý chng trỡnh c mụ t nh Hỡnh C.1 Mt phn mó ngun hm x lý, tỡm gc t c minh Hỡnh C.2 Hỡnh C.1 Cỏc thnh phn chớnh chng trỡnh phõn tỏch, nhn dng v trớch chn c trng gc t Hỡnh C.2 Minh mó ngun hm tỡm gc t C.2 Chng trỡnh nhn dng ch Nụm theo gc t v MEM th nghim phng phỏp nhn dng ch Nụm theo phng phỏp Entropy cc i v cỏc c trng da trờn gc t, chỳng tụi ó ci t chng trỡnh thc nghim nh mụ t Hỡnh C.3 Chng trỡnh cng c ci t bng ngụn ng C#, s dng mụi trng Visual Studio.Net 2008 v Net Framework 3.5 Hỡnh C.4 minh mt phn mó ngun nhn dng theo MEM vi cỏc c trng da trờn gc t Hỡnh C.3 Cỏc thnh phn chớnh chng trỡnh nhn dng ch Nụm theo MEM v cỏc c trng da trờn gc t Hỡnh C.4 Minh mó ngun nhn dng theo MEM v c trng gc t [...]... nghiên cứu Nghiên cứu cấu trúc chữ Nôm và các thành phần của nó để từ đó đưa ra phương pháp tách chữ, lấy khung xương và tách các thành phần gốc từ trong chữ Nôm Từ bộ dữ liệu Nom-DB0 thống kê các gốc từ và tạo cơ sở dữ liệu gốc từ RaNom-DB0 Đề xuất phương pháp nhận dạng gốc từ bằng mô hình Entropy 1 4 cực đại Trên cơ sở kết quả phân tích gốc từ đề xuất phương pháp nhận dạng chữ Nôm dựa trên gốc từ 6 Kết... chữ Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng trên cơ sở tách gốc từ như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng hình khác Trong chương 2, gồm những nội dung về bài toán nhận dạng chữ tượng hình nói chung và bài toán nhận dạng chữ Nôm nói riêng, các phương pháp nhận dạng chữ Nôm đã được nghiên cứu Trong chương 3, chúng tôi tập trung tìm hiểu, nghiên cứu phương. .. trưng, nhận dạng, hậu xử lý Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng theo phương pháp gốc từ với tập dữ liệu là kho mẫu NOMDB0 chứa 495 chữ Nôm 4 Mục đích và nhiệm vụ nghiên cứu Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng, sử dụng phương pháp tách gốc từ (radical) 5 Những nội dung nghiên cứu. .. ký tự kiểu trên- dưới và trái-phải 44 Hình 3.14 Ví dụ về kết quả tách gốc từ 45 Hình 3.15 Cấu trúc cơ sở dữ liệu tri thức của gốc từ .48 Hình 3.15 Nhận dạng gốc từ dựa trên mô hình Entropy cực đại 52 Hình 3.16 Biểu diễn đặc trưng của gốc từ trong chữ Nôm 53 Hình 3.17 Ví dụ một số chữ Nôm được nhận dạng 53 Hình 3.18 Kết quả tách gốc từ 54 Hình 3.19 Các gốc từ có cùng... cứu phương pháp tách gốc ký tự trong chữ tượng hình để từ đó áp dụng cho nhận dạng chữ Nôm Để thực hiện đánh giá hiệu quả của phương pháp nhận dạng chữ Nôm dựa trên gốc từ, trong chương 4, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá Chương 1: TỔNG QUAN VỀ CHỮ NÔM 1.1 Giới thiệu về chữ Nôm 1.1.1 Lịch sử hình thành và phát triển Trong suốt hàng ngàn năm, kể từ đầu thời... - Nhận dạng ký tự thông minh) 25 2.2 Bài toán nhận dạng chữ Nôm Hình 2.2 Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất Xây dựng phần mềm nhận dạng chữ Nôm (Nôm- OCR) là một yêu cầu tất yếu như với các ngôn ngữ khác Nôm- OCR sẽ đóng vai trò một động lực mạnh thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tư liệu quý giá của dân tộc hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ. .. của chữ Nôm cần nhận dạng Tập ảnh chữ Nôm Trích chọn đặc trƣng Theo gốc từ CSDL Tập đặc trƣng nhận dạng Huấn luyện MEM Nhận dạng (MEM) Tập mã Unicode Hình 2.3 Phạm vi nghiên cứu của luận văn 2.3 Các phương pháp nhận dạng chữ Nôm 2.3.1 Nhận dạng sử dụng thư viện Tesseract Theo [5] Tesseract là một chương trình nhận dạng chữ (OCR) mã mở do HP phát triển, có thể hoạt động trên cả 2 môi trường Linux và Windows... quan đến chữ Nôm cũng như OCR đã được quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở, cần những nghiên cứu mới 3 Đối tượng và phạm vi nghiên cứu Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển... phần chính trong chương trình phân tách, nhận dạng và trích chọn đặc trưng gốc từ 84 Hình C.2 Minh họa mã nguồn hàm tìm gốc từ 85 Hình C.3 Các thành phần chính trong chương trình nhận dạng chữ Nôm theo MEM và các đặc trưng dựa trên gốc từ 85 Hình C.4 Minh họa mã nguồn nhận dạng theo MEM và đặc trưng gốc từ 86 1 2 MỞ ĐẦU 1 Tính cấp thiết Chữ Nôm là một di sản văn hoá minh chứng cho... cơ sở từ điển, ngữ pháp để quyết định kết quả cuối cùng Trong đề tài luận văn này, tác giả xây dựng mô hình nhận dạng chữ Nôm như trong Hình 2.3, không bao gồm bước tiền và hậu xử lý, đầu vào là tập các ảnh chữ Nôm đã cắt rời theo chuẩn, áp dụng phương pháp trích chọn đặc trưng theo gốc từ, xây dựng bộ nhận dạng theo MEM, kết quả sau bước nhận dạng thu được là mã Unicode của chữ Nôm cần nhận dạng Tập ... liệu Tách chữ Tập chữ đơn Các thành phần gốc từ Tách gốc từ CSDL gốc từ mẫu CSDL nhận dạng chữ Nôm Nhận dạng gốc từ Tập đặc trƣng gốc từ đƣợc nhận dạng Nhận dạng Ký tự Mã Unicode chữ Nôm Kết thúc... toán nhận dạng chữ Nôm nói riêng, phương pháp nhận dạng chữ Nôm nghiên cứu Trong chương 3, tập trung tìm hiểu, nghiên cứu phương pháp tách gốc ký tự chữ tượng hình để từ áp dụng cho nhận dạng chữ. .. .48 3.3 Nhận dạng chữ Nôm dựa gốc từ 54 3.3.1 .Tập đặc trưng dựa gốc từ 54 3.3.2 Nhận dạng dựa so khớp gốc từ 55 3.3.3 Nhận dạng dựa đặc trưng gốc từ mô hình Entropy

Ngày đăng: 06/11/2015, 09:25

Từ khóa liên quan

Mục lục

  • ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

  • LUẬN VĂN THẠC SĨ

  • LUẬN VĂN THẠC SĨ

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • Tác giả

  • MỞ ĐẦU

  • 1. Tính cấp thiết

  • 2. Tình hình nghiên cứu

  • 3. Đối tượng và phạm vi nghiên cứu

  • 4. Mục đích và nhiệm vụ nghiên cứu

  • 5. Những nội dung nghiên cứu

  • 6. Kết cấu luận văn

  • Chương 1: TỔNG QUAN VỀ CHỮ NÔM

  • 1.1. Giới thiệu về chữ Nôm

    • 1.1.1. Lịch sử hình thành và phát triển

    • 1.1.2. Cấu trúc chữ Nôm

    • 1.3. Tin học hóa và ứng dụng chữ Nôm

    • 1.4. Xu hướng phát triển của chữ Nôm

      • 1.4.1. Phổ cập đại trà chữ Nôm qua máy tính

      • 1.4.2. Phát triển phương pháp luận làm việc mới với chữ Nôm dựa trên CNTT

      • 1.4.3. Giải quyết vấn đề số hóa chữ Nôm

Tài liệu cùng người dùng

Tài liệu liên quan