Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc tơ hỗ trợ (SVM)

73 2 0
Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGHI PHÚ NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM) Ngành:Công nghệ thông tin Chuyên ngành:Công nghệ phần mềm Mã số:60 48 10 LUẬN VĂN THẠC SĨ Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGHI PHÚ NHẬN DẠNG CHỮ NƠM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM) Ngành: Cơng nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH Hà Nội – 2013 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC MỞ ĐẦU Chƣơng TỔNG QUAN CHỮ NÔM 1.1 Lịch sử số đặc điểm chữ Nôm 1.2 Cấu tạo chữ Nôm 1.2.1 Chữ Nôm mượn nguyên dạng chữ Hán 1.2.2 Chữ Nôm tạo sở kết hợp hai chữ Hán 1.2.3 Chữ Nôm tạo sở kết hợp chữ Hán chữ Nôm 1.3 Một số thống kê chữ Nôm Tổng kết chƣơng 10 Chƣơng NHẬN DẠNG CHỮ NÔM 11 2.1 Nhận dạng ký tự quang học 11 2.2.1 CherryBlossom 12 2.2.2 Tesseract 13 2.3 Mơ hình OCR chữ Trung Quốc 16 2.3.2 Phân đoạn 18 2.3.3 Chuẩn hóa ký tự 19 2.3.4 Nhận dạng 19 2.3.5 Các kết đạt vấn đề đặt 20 2.4 Bài toán nhận dạng chữ Nôm 21 Tổng kết chƣơng 23 Chƣơng MÁY VÉC-TƠ HỖ TRỢ (SVM) 24 3.1 Tổng quan SVM 24 3.2 SVM tuyến tính 24 3.2 Lề mềm 26 3.3 SVM phi tuyến 26 3.4 SVM cho toán phân đa lớp 28 Tổng kết chƣơng 30 Chƣơng GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM 31 4.1 Giải thuật KSVM cho nhận dạng chữ Nôm 31 4.2 Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning) 32 4.3 Huấn luyện (trainning) 33 3.2.1 Xây dựng nhận dạng OVOF 34 3.2.2 Tạo mẫu đại diện 34 3.2.3 Phân cụm K-Mean 35 4.4 Nhận dạng (Recognition) 36 Tổng kết chƣơng 37 Chƣơng THỰC NGHIỆM, ĐÁNH GIÁ 38 5.1 Quy trình thực nghiệm 38 5.2 Xây dựng liệu thực nghiệm 39 5.3 Tiến hành thực nghiệm 42 5.3.1 Mục tiêu 42 5.3.2.Cách thực 43 5.4 Kết thực nghiệm 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.5 Đánh giá kết 44 Tổng kết chƣơng 45 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 48 PHỤ LỤC A 50 PHỤ LỤC B 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC TỪ VIẾT TẮT Từ đầy đủ STT Từ viết tắt ANN Artificial Neural Network Mạng nơ-ron nhân tạo BMP Bitmap Định dạng ảnh bitmap FC First Class Lớp thứ GIF Graphic Interface Format Định dạng giao diện đồ họa ISO International Organization for Standardization Tổ chức chuẩn hóa quốc tế JOCR Japanese Optical Character Recognition Nhận dạng ký tự quang học Nhật k-NN K Nearest Neighbor K láng giềng gần KSVM OCR 10 Tiếng Việt K-Mean & Support Vector Machine K cụm máy véc-tơ hỗ trợ Optical Character Recognition Nhận dạng ký tự quang học OS Operating System Hệ điều hành 11 OVO One Versus One Một với 12 OVR One Versus The Rest Một với phần lại Probability Distribution of Black Pixels Phân bố xác suất điểm đen 13 PD 14 PDA Personal Digital Asisstant Thiết bị số cá nhân 15 PDF Portable Document Format Định dạng tài liệu di động 16 PNG Portable Network Graphics Đồ họa mạng di động 17 SC Second Class Lớp thứ 18 SVM Support Vector Machine Máy véc-tơ hỗ trợ DANH MỤC BẢNG BIỂU Bảng 1.1 Một số hình thức chữ Nôm mượn nguyên dạng chữ Hán Bảng 1.2 Một số thủ dùng chữ Nôm Bảng 1.3 Tỷ lệ chữ Nôm vay mượn qua thời kỳ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 2.1 Kết đánh giá độ xác Tesseract UNLV 1995 Bảng 2.2 Kết so sánh khả nhận dạng FineReader Tesseract Bảng 3.1 So sánh độ xác số phương pháp SVM đa lớp Bảng 5.1 Kết thực nghiệm KSVM với liệu NOM-DB0 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 1.1 Tỉ lệ tài liệu chữ Nơm lĩnh vực Hình 1.2 Phân bố tài liệu chữ Nơm theo thời kỳ Hình 2.1 Ứng dụng tự động chụp ảnh dịch di động bút chuyên dụng Hình 2.2 Framework nhận dạng chữ tượng hình JOCR Hình 2.3 Kiến trúc tổng quát Tesseract Hình 2.4 Các bước nhận dạng chữ Trung Quốc Hình 2.5 Quy trình nhận dạng đệ quy Hình 2.6 Quá trình phần đoạn tiếng Trung Quốc Hình 2.7 Sơ đồ bước nhận dạng chữ Hán Hình 2.8 Sơ đồ tổng thể mơ hình nhận dạng chữ Nơm đề xuất Hình 2.9 Mơ hình nhận dạng chữ Nơm luận văn Hình 3.1 Tìm siêu phẳng có lề cực đại Hình 3.2 Xác định lề, tham số phạt SVM Hình 3.3 Ánh xạ khơng gian đặc trưng chiều sang chiều Hình 3.4 Khả phân lớp kết hợp SVM với hàm nhân Hình 3.5 Minh họa bước nhận dạng OVO Hình 4.1 Giải thuật trích chọn đặc trưng trọng số vùng (Zoning) Hình 4.2 Ảnh nhị phân ký tự tiếng Trung Quốc Hình 4.3 Số điểm đen theo lưới 3x3 Hình 4.4 Mật độ số điểm đen theo lưới 3x3 Hình 4.5 Lưu đồ huấn luyện giải thuật KSVM Hình 4.6 Lưu đồ thuật tốn K-Mean Hình 4.7 Nhận dạng KSVM Hình 5.1 Quy trình tiến hành thực nghiệm Hình 5.2 Giao diện chương trình thực nghiệm Hình 5.3 Bản số hóa dịch nghĩa trong truyện Kiều Hình 5.4 Kết phân tích để thu dược mã chữ Nơm truyện kiều từ kho nomna.org Hình 5.5 Tách chữ Nơm từ ảnh Hình 5.6 Một số mẫu chữ Nơm sở liệu NomDB0 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Tính cấp thiết Chữ Nơm di sản văn hố minh chứng cho truyền thống văn hiến lâu dài dân tộc Việt Nam Nghiên cứu chữ Nơm góp phần khẳng định tự hào dân tộc, khám phá nét văn hóa, lịch sử, khoa học đặc sắc qua thờ kỳ dân tộc Do việc phục hồi phát triển chữ Nôm xã hội ngày qua tâm qua nhiều hoạt động, cơng trình nghiên cứu nhiều phương diện ngơn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nơm cịn nhiều nhiệm vụ khó khăn, nhiệm vụ công nghệ thông tin xây dựng nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR Với tất chữ viết phổ biến giới,việc xây dựng OCR cho chữ viết trở thành nhiệm vụ nghiên cứu quan trọng Với nỗ lực nghiên cứu mang lại thành tựu to lớn, góp phần quan trọng làm chủ chữ viết người khoa học công nghệ Khi xây dựng thành công OCR cho ngôn ngữ, rào cản để máy hiểu chữ viết tháo bỏ bớt Khi đó, ta hồn tồn xử lý ngôn ngữ, chữ viết hay sâu kho tri thức biểu thị ngơn ngữ với tốc độ máy, tiến khoa học máy tính Xét mặt cơng nghệ thơng tin ngơn ngữ học, xem đóng góp khổng lồ Thực trạng ngày nay, số người biết chữ Nơm ngày làm cho tri thức chữ Nôm ngày mai Ngược lại lại sở hữu kho tàng tri thức khổng lồ chữ Nôm nhiều phương diện sách, gia phả, ấn phong… đặc biệt hệ thống đồ sộ bia đá, câu đối cơng trình di tích, chứng sống lịch sử, biểu tượng văn hóa, lịch sử Việt với giới Nếu khơng có hỗ trợ mạnh mẽ khoa học để khai thác kho tri thức Nôm khổng lồ này, ngày mù chữ dân tộc mình, dần sau trở nên tan biến Việc xây dựng Nôm-OCR tạo điều kiện khai thác số tri thức Nơm khổng lồ, ứng dụng vào tìm hiểu cơng trình, bia, câu đối cổ ứng dụng tích hợp thiết bị di động máy tính, hay nói cách khác làm thiết bị biết giải thích chữ Nơm từ góp phần ý nghĩa khảo cổ, khám phá văn hóa, khám phá du lịch Tình hình nghiên cứu Nghiên cứu chữ Nơm nhiều nhóm gần quan tâm phương diện ngôn ngữ học công nghệ thông tin Một thành tựu việc hình thành từ điển chữ Nơm, hình thành kho chữ Nơm số hóa, số hóa giải mã nhiều tài liệu chữ Nơm truyện Kiều Hán Nôm Foundation Tiếp tới, sau nỗ lực thời gian dài, chữ Nôm xác lập vị trí ký tự giới Unicode ISO 10646, có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ Nơm đề nghị đưa vào thêm 2200 Kế tiếp bước đó, nhiều font Nơm, gõ chữ Nôm xây dựng Và bước tiếp lộ trình xây dựng OCR-Nơm, chưa có kết nghiên cứu đề cập đến vấn đề trên, có khó khăn định khó khăn thường gặp vấn đề liệu để nghiên cứu Các OCR tượng tiếng Trung, Nhật nghiên cứu nhiều đạt kết khả quan, ứng dụng rộng rãi thực tế kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới độ xác 98%, HWPen - phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp iPhone đặc biệt sản phẩm thương mại ABBY… đạt độ xác gần tuyệt ký tự in ngơn ngữ Nói tóm lại, chủ đề liên quan đến chữ Nơm OCR quan tâm đạt nhiều thành cao, riêng lĩnh vực nghiên cứu kết hợp yếu tố toán mở, cần nghiên cứu Đối tƣợng phạm vi nghiên cứu Chúng tơi tập trung nghiên cứu tồn nhận dạng chữ Nôm nhằm xây dựng phần mềm nhận dạng chuyển đổi từ ảnh ký tự Nơm mã Unicode ký tự tiến hành tra cứu nghĩa từ điển kết hợp với hệ thống khác Hệ thống OCR bao gồm nhiều thành phần tiền xử lý, trích chọn đặc trưng, nhận dạng, hậu xử lý Đề tài tập trung nghiên cứu bước trích chọn đặc trưng nhận dạng Với tập liệu đầu vào để huấn luyện nhận dạng kho mẫu NOM-DB0 chứa 495 chữ Nôm, chữ 24 mẫu, chữ ảnh cắt bó sát Mục đích nhiệm vụ nghiên cứu Đề tài tập trung nghiên bước trích chọn đặc trưng nhận dạng sơ đồ hệ thống nhận dạng chữ Nôm tổng thể LES-Nom xây dựng Trong bước trích chọn đặc trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning) Trong bước nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) đưa mơ hình ứng dụng SVM nhận dạng chữ Nơm từ đưa đánh giá đề xuất hướng nghiên cứu cải tiến Những nội dung nghiên cứu Chúng tơi tìm hiểu tổng quan chữ Nơm tốn nhận dạng chữ Nơm nhằm mục đích để xây dựng nhận dạng Nôm-OCR Để tiến hành nghiên cứu đánh giá, nhóm tác giả nghiên cứu chữ Nơm LES-Nôm tiến hành xây dựng liệu mẫu NômDB0 Trên sở kết nhận dạng áp dụng cho OCR khác, đặc biệt OCR chữ tượng hình, luận văn tiến hành nghiên cứu, đề xuất thuật toán nhận dạng KSVM, tiến hành cài đặt thuật toán, tiến hành thực nghiệm đánh giá độ xác KSVM Kết cấu luận văn Ngoài phần mở đầu, kết luận, phụ lục danh mục tài liệu tham khảo, luận văn gồm chương Trong chương 1, chúng tơi tìm hiểu tổng quan chữ Nơm, tập trung yếu tố liên quan đến nhận dạng cấu trúc chữ Nôm, số lượng từ Nơm khơng có hình chữ tượng hình khác Tiếp đó, chương 2, nội dung tốn nhận dạng chữ Nơm nêu sở tìm hiểu OCR nói chung OCR dành cho chữ tượng hình phương diện kết đạt được, mơ hình giải thuật cần tiếp tục nghiên cứu Trong chương 3, tập trung tìm hiểu ý tưởng SVM sâu làm rõ nội dung liên quan nhiều đến luận văn áp dụng SVM cho toán phân đa lớp, vốn chủ để quan tâm nhiều, đặc biệt áp dụng cho chữ Nôm có số chữ lớn Trên sở kiến thức có từ chương đầu, chương trình bày giải thuật KSVM cho tốn nhận dạng chữ Nơm tác giả đề xuất Để thực đánh giá hiệu KSVM, chương 5, trình bày bước tiến hành xây dựng thực nghiệm đánh giá KSVM Do không kế thừa từ kết nghiên cứu với chữ Nôm, nên luận văn tiến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 U+06E1A U+09404 U+0722B U+21890 U+050AC U+04ECD U+08CD2 U+06CB9 U+050B7 U+26591 U+20129 U+07D72 U+076AE U+06E03 U+05450 U+065BC U+25A9E U+09952 U+09999 U+04E9B U+29132 U+035C2 U+08C9D U+07D05 U+06392 U+05916 U+06C9B U+0521D U+21975 U+04E16 U+07262 U+06625 U+062EF U+04F4E U+26744 U+231DE U+20CE8 U+20AFE U+05305 U+07DE3 U+053F0 U+07232 U+08ABF U+07279 U+0505C 渚 鐄 爫 𡢐 催 仍 賒 油 傷 𦖑 𠄩 絲 皮 渃 呐 於 𥪞 饒 香 些 𩄲 㗂 貝 紅 排 外 沛 初 𡥵 世 牢 春 拯 低 𦝄 𣇞 𠳨 𠫾 包 緣 台 爲 調 特 停 chửa, chưa, chã, chớ, vàng làm sau, sao, lâu thôi, thoi những, dưng, xa dàu, dầu, dù, ru, thương nghe hai tơ bề, vừa, bì nước nói, nuốt ở, ưa, nhau, nhiêu, nhiều hương ta, tá mây tiếng với, mấy, buổi hồng bài, bày, bời, bầy ngoại, ngồi, ngối phải, phai xưa xuân chăng, chẳng đây, để trăng, lưng hỏi bao duyên thay, thơi, thai vì, vơ, vi, vị, vay điều, được, đặc đành, rành, dành, đừng, đánh, đình 55 54 54 53 53 50 48 48 48 47 47 47 47 47 47 45 44 44 43 43 42 42 42 42 42 42 41 41 40 40 38 38 38 38 37 36 36 36 36 35 35 34 33 33 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 U+0500D U+09AD8 U+07567 U+06CA1 U+081EA U+06491 U+0541D U+043FE U+0679A U+06599 U+05E95 U+2784A U+25886 U+0982D U+2856D U+221A5 U+20027 U+0548D U+28008 U+04739 U+08ECA U+07A7A U+06897 U+05171 U+04E8B U+20051 U+09589 U+06E44 U+06613 U+05236 U+27D46 U+25669 U+24F93 U+07F95 U+06E65 U+0624D U+05C0B U+05973 U+2846E U+22A80 U+21F6B U+08012 U+06843 U+06563 U+064EC 倍 高 畧 没 自 撑 吝 䏾 枚 料 底 𧡊 𥢆 頭 𨕭 𢆥 𠀧 咍 𨀈 䜹 車 空 梗 共 事 𠁑 閉 湄 易 制 𧵆 𥙩 𤾓 羕 湥 才 尋 女 𨑮 𢪀 𡽫 耒 桃 散 擬 vội, bội, bồi cao trước, lược tự, từ xanh lần, lận, lẫn bóng, bụng mai, may, chông liệu, liều để, đây, đáy thấy riêng đầu trên, lên năm ba, bơ hay, thay bước, viết thưa, thơ, thờ xe, xa, se không cành, gánh, ngành cùng, khủng, mưa dễ, kẻ chơi, chế gần lấy trăm dường, làng, dáng, nhàng, đường dột, sụt, giọt tài tìm, tầm nợ, nữa, nỡ mười, mươi, mời nghĩ non rồi, thòi đào tan, tán nghĩ, nghỉ, ngợi 33 32 32 32 31 31 31 30 30 30 30 29 29 29 28 28 28 28 27 27 27 27 27 27 27 26 26 26 26 26 25 25 25 25 25 25 25 25 24 24 24 24 24 24 24 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 U+0540C U+04FE1 U+20040 U+07B95 U+0788E U+05BB6 U+0552D U+051E0 U+04F53 U+26C1F U+225B5 U+098A8 U+0968A U+0885D U+06069 U+05509 U+04EBA U+2850D U+209B3 U+09ED8 U+08E7A U+082D4 U+07389 U+06DF6 U+0697C U+05F9E U+059C5 U+051B2 U+28C7D U+25600 U+24D2C U+0738B U+06E05 U+06562 U+06208 U+05F39 U+26E75 U+23380 U+229DA U+20C3A U+200C5 U+03915 U+08FFB U+0FA24 U+079E9 同 信 𠁀 箕 碎 家 唭 几 体 𦰟 𢖵 風 隊 衝 恩 唉 人 𨔍 𠦳 默 蹺 苔 玉 淶 楼 從 姅 冲 𨱽 𥘀 𤴬 王 清 敢 戈 弹 𦹵 𣎀 𢧚 𠰺 𠃅 㤕 迻 﨤 秩 đồng, đùng tin đời kia, tơi gia cười kẻ, hịn thể, thấy ngọn, ngón nhớ phong địi, nhụi, đội, giục, tõi xong ơn, ân hãy, hỡi, nhân lạ nghìn mặc, mắc, mực theo đầy, đày, dày ngọc rơi, lai, lây, lơi, rời lầu, lâu tòng, tuồng, thong nửa, dài, dái nén, nặng đau vương, ông, vướng thanh, mưa, thinh dám qua đàn, đờn cỏ đêm nên dạy, dậy, đại mái, mé xót, đốt, trót đưa gặp, gấp chợt, mất, giật, chập, chật, thất 24 24 23 23 23 23 23 23 23 22 22 22 22 22 22 22 22 21 21 21 21 21 21 21 21 21 21 21 20 20 20 20 20 20 20 20 19 19 19 19 19 19 19 19 19 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 U+07523 U+06B47 U+067F3 U+0671D U+06101 U+05875 U+05806 U+05766 U+23DED U+2145D U+204C0 U+0971C U+09149 U+08FB9 U+08ECD U+08A93 U+07DA0 U+07D42 U+073E0 U+06252 U+05F90 U+0572D U+2600A U+22759 U+205A4 U+08CA0 U+08131 U+07FC1 U+066F4 U+0623F U+05E38 U+05BC3 U+28DD1 U+22D11 U+042E6 U+036EA U+08E4E U+0793C U+07528 U+0725F U+06B98 U+065E6 U+05BD4 U+05764 U+05439 産 歇 柳 朝 愁 塵 堆 坦 𣷭 𡑝 𠓀 霜 酉 边 軍 誓 綠 終 珠 扒 徐 圭 𦀊 𢝙 𠖤 貟 脱 翁 更 房 常 寃 𨷑 𢴑 䋦 㛪 蹎 礼 用 牟 殘 旦 寔 坤 吹 sẵn hết liễu, yếu triều, chiều, chầu sầu trần đôi đứt, đất bể, bẻ sân, lăn trước sương dẫu, đào, giấu, dấu, dầu bên, mình, biên quân thề, thệ lục, duyên chung châu, chau bớt, bắt chờ, từ quê, khuê dây, giây vui bay phũ, phụ thoắt, thót, thốt, ơng canh, cánh buồng, phịng thường oan mở dứt, dắt mối em, im chân lễ, lấy, lạy, lể, đủ dùng, rụng màu, mau, mầu tàn đến, đắn thực, thiệt, thật khôn xôi, xuôi, sôi, xui 19 19 19 19 19 19 19 19 18 18 18 18 18 18 18 18 18 18 18 18 18 18 17 17 17 17 17 17 17 17 17 17 16 16 16 16 16 16 16 16 16 16 16 16 16 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 U+0523C U+0522B U+28914 U+25E70 U+254A5 U+2445F U+215C9 U+09640 U+09034 U+08C9E U+08272 U+05F79 U+05BA2 U+05A92 U+059AC U+0586B U+051B3 U+23CD4 U+2398D U+215CB U+09192 U+08A08 U+0884C U+081E8 U+07FF9 U+079FB U+07551 U+06EDD U+06DFB U+0675F U+05E73 U+05E33 U+05C0F U+059D0 U+05802 U+054B9 U+0534A U+0529F U+0516C U+04ED5 U+29BC0 U+28585 U+26CBF U+21B67 U+20E26 刼 别 𨤔 𥹰 𥒥 𤑟 𡗉 陀 逴 貞 色 役 客 媒 妬 填 决 𣳔 𣦍 𡗋 醒 計 行 臨 翹 移 畑 滝 添 束 平 帳 小 姐 堂 咹 半 功 公 仕 𩯀 𨖅 𦲿 𡭧 𠸦 kiếp biết, biệt vẻ, vủi lâu, sâu đá rõ, rỡ nhiều đà rước, trác trinh, riêng sắc dịch, việc khách mụ đó, đố đền dòng, chùng, ròng tanh, tỉnh kể hàng, hành, hạnh lâm kiều dời, rời, đưa, di đèn sông thêm thúc bằng, bình trướng tiểu thư, cờ, thưa đường, đàng ăn bán, bắn công công sẽ, sẻ, xẻ, sẩy, xảy tóc sang lá, là, la chút khen 16 16 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 13 13 13 13 13 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 U+20E1C U+20C96 U+099AD U+096F2 U+08FE1 U+0843D U+07ABB U+077E5 U+06F59 U+06CCA U+06C99 U+066F8 U+06602 U+062DB U+060DC U+060B2 U+05FC3 U+05E72 U+05E2B U+05DEE U+05BB9 U+0548C U+05200 U+2639B U+2629A U+22720 U+21B8D U+20CDA U+09662 U+089E5 U+089A9 U+088DC U+084EE U+0809D U+08005 U+07A96 U+079CB U+07709 U+0756A U+07434 U+06DC4 U+06838 U+06708 U+0660E U+06253 𠸜 𠲖 馭 雲 迡 落 窻 知 潙 泊 沙 書 昂 招 惜 悲 心 干 師 差 容 和 刀 𦎛 𦊚 𢜠 𡮍 𠳚 院 觥 覩 補 蓮 肝 者 窖 秋 眉 番 琴 淄 核 月 明 打 tên, trước e, ê ngựa vân chầy, chề lạc song tri vời, vơi bạc sa thư ngang gieo, chiêu tiếc bây, bi tâm cơn, can sư sai dong, dung, dơng hoạ, hồ đao, đeo, dao, đèo gương bốn mừng, thầm chút gửi, khởi, gởi vẹn, viện quanh đổ, đủ bỏ, bõ sen, lên gan trả, giả khéo thu mày phen, phiên cầm truy cây, gai nguyệt minh, đánh 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 U+06081 U+059C9 U+05929 U+05672 U+0540D U+051C6 U+0508D U+04FF8 U+27D51 U+27607 U+265BB U+2425C U+21A39 U+201EE U+0456F U+09663 U+091D1 U+091CD U+09053 U+082B8 U+07E80 U+07AF9 U+06BCF U+06B7B U+06B50 U+06B23 U+06771 U+065B9 U+06237 U+05728 U+05606 U+05408 U+050F9 U+050B3 U+04F75 U+04ED6 U+04E0D U+29218 U+285B2 U+28178 U+264E1 U+251BE U+23D13 U+23176 U+20E7E 悁 姉 天 噲 名 准 傍 俸 𧵑 𧘇 𦖻 𤉜 𡨹 𠇮 䕯 陣 金 重 道 芸 纀 竹 每 死 歐 欣 東 方 户 在 嘆 合 價 傳 併 他 不 𩈘 𨖲 𨅸 𦓡 𥆾 𣴓 𣅶 𠹾 quên, quen chị thiên gọi danh, ranh chốn, trốn vàng, bàng, phàng bỗng, bổng tai ràng giữ bèo, đèo trận, giận kim trọng, trùng đạo nghề buộc, vóc, bọc trúc tử, chết âu đông, thúc phương họ than họp, hợp giá truyền, chuyện tính thơ, tha, bất mặt, mạt lên đứng mà nhìn cạn, gạn lúc chịu 12 12 12 12 12 12 12 12 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 10 10 10 10 10 10 10 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 U+09752 U+09280 U+0908A U+08B39 U+0897F U+0840C U+08239 U+07BA1 U+079E6 U+06F84 U+0672C U+065D7 U+064DA U+064A9 U+06240 U+060B4 U+06012 U+05F85 U+05E92 U+05B98 U+05A01 U+05947 U+05831 U+057CE U+057CB U+05505 U+05412 U+053CC U+2892E U+280F4 U+275B1 U+266CC U+26443 U+243E3 U+23219 U+22B42 U+21B37 U+213A6 U+03CE5 U+09B5A U+099AC U+09854 U+096E2 U+096BB U+09577 青 銀 邊 謹 西 萌 船 管 秦 澄 本 旗 據 撩 所 悴 怒 待 庒 官 威 奇 報 城 埋 唅 吒 双 𨤮 𨃴 𧖱 𦛌 𦑃 𤏣 𣈙 𢭂 𡬷 𡎦 㳥 魚 馬 顔 離 隻 長 thanh, thênh ngần, ngân bên kín, ngẩn tây manh, mành thuyền quản tần chừng vốn, cờ, kỳ treo, trêu, lèo, trèo sửa, sở tủi, xót nọ, nơ đợi, giãi, đãi, dãi quan uy kỳ, cả, báo, nấn thành may, mài ngậm, hàm cha, xin song dặm gót máu ruột cánh tỏ trao tấc ngồi sóng ngơ mã nhan ly, lìa trường, tràng, trưởng 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 9 9 9 9 9 9 9 9 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 U+090CE U+09023 U+08FF7 U+08DEF U+08A5E U+08956 U+088CA U+08193 U+07CBE U+07891 U+071F6 U+071D5 U+06E87 U+06D33 U+06A5F U+0695A U+0671F U+0666F U+06606 U+06545 U+063D0 U+063A3 U+0610F U+06025 U+05E8A U+059BE U+058BB U+057EE U+05400 U+0524D U+051B7 U+05175 U+050CA U+04E58 U+04E10 U+27E80 U+25406 U+24F78 U+24DF1 U+23383 U+23309 U+22886 U+2271D U+2139D U+2013D 郎 連 迷 路 詞 襖 裊 膓 精 碑 燶 燕 溇 洳 機 楚 期 景 昆 故 提 掣 意 急 床 妾 墻 埮 吀 前 冷 兵 僊 乘 丐 𧺀 𥐆 𤽸 𤷱 𣎃 𣌉 𢢆 𢜝 𡎝 𠄽 sang, lang, láng trên, liền, rước, sen mê lọ, trò, lộ tờ, từ áo nẻo trường, tràng tinh bia, bây, bấy, nồng, nung, nùng én, yến sâu nhờ, nhớ, dơ, nhơ sở cờ, kỳ cảnh cớ, cố đè, đề, dè xiết ý, kíp, kịp sàng, giàng, giường thiếp tường dặm xin, xiên tiền lạnh, giá, liệng, rành binh tiên thừa thắm vắn, ngắn trắng món, mịn tháng khuya thẹn sợ cõi vài 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 8 8 8 8 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 U+03D62 U+09B42 U+0985B U+091CF U+0919D U+08B1D U+08AD6 U+08AAC U+08A73 U+08A69 U+08702 U+084B2 U+08499 U+08421 U+08040 U+07FE0 U+07D8F U+0795E U+076F8 U+07576 U+06EDB U+06D3E U+06CD5 U+067E5 U+06703 U+065A4 U+0659C U+063A8 U+062EE U+062D9 U+062BC U+061FA U+0606A U+05E45 U+05DFE U+05BC5 U+0570D U+054ED U+0544C U+05442 U+0537F U+052FE U+052D5 U+05152 U+04F36 㵢 魂 顛 量 醝 謝 論 説 詳 詩 蜂 蒲 蒙 萡 聀 翠 綏 神 相 當 滛 派 法 查 會 斤 斜 推 拮 拙 押 懺 恪 幅 巾 寅 圍 哭 呌 呂 卿 勾 動 兒 伶 trôi hồn đen lưỡng, lượng, lường say tạ dọn, luồn, lộn, trọn, luận thốt, thoắt, thót, thuyết tường thi, thơ ong bồ, vỏ, bù, xuôi, mồ mong, mỏng bạc chắc, giấc, giất thuý nối thần tương đang, đáng, đương dầm, dào, đầm phai, phơi, phới phép, pháp tra hội cân tà suy, dồi, chút cất xót, chút ép, áp, ghép sắm khác khăn, cân dần vầy, vây, vi khóc kêu lã, lỡ, lữa, trở khanh câu động nhi rành 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 490 491 492 493 494 495 U+0F9A8 U+04E3B U+27289 U+267D0 U+24055 U+232FD 令 主 𧊉 𦟐 𤁕 𣋽 lệnh chủ, chúa bướm, phím má lạt, lợt, nhạt sớm 8 7 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PHỤ LỤC B MỘT SỐ MẪU CHỮ NÔM TRONG NƠM-DB0 Mẫu chữ Nơm thu Scan mẫu độ dáng 0, độ tương phản Mẫu chữ Nôm thu Scan mẫu độ dáng 20, độ tương phản -14 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mẫu chữ Nôm thu Scan mẫu độ dáng -61, độ tương phản -58 Mẫu chữ Nôm thu Scan mẫu độ dáng 50, độ tương phản 68 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mẫu chữ Nôm thu Scan mẫu độ dáng -68, độ tương phản -68 Mẫu chữ Nôm font NomNaTong sau tách rời LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mẫu chữ Nôm font Han Nom B sau tách rời Mẫu chữ Nôm font Han Nom A sau tách rời LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... thấy chữ Nôm có quy tắc cấu tạo, hợp thành Theo [27] chữ Nôm gồm loại: Chữ Nôm mượn nguyên dạng chữ Hán, chữ Nôm tạo sở kết hợp hai chữ Hán, chữ Nôm tạo sở kết hợp chữ Hán chữ Nôm 1.2.1 Chữ Nơm... HỌC CÔNG NGHỆ TRẦN NGHI PHÚ NHẬN DẠNG CHỮ NƠM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM) Ngành: Cơng nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC:... Máy véc- tơ hỗ trợ (SVM) đưa mơ hình ứng dụng SVM nhận dạng chữ Nơm từ đưa đánh giá đề xuất hướng nghiên cứu cải tiến Những nội dung nghiên cứu Chúng tìm hiểu tổng quan chữ Nơm tốn nhận dạng chữ

Ngày đăng: 05/12/2022, 17:28

Hình ảnh liên quan

Bảng 1.3. Tỷlệ chữ Nôm vaymượn qua các thời kỳ - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Bảng 1.3..

Tỷlệ chữ Nôm vaymượn qua các thời kỳ Xem tại trang 15 của tài liệu.
Hình 1.2. Phân bố tài liệu chữ Nôm theo các thời kỳ. - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 1.2..

Phân bố tài liệu chữ Nôm theo các thời kỳ Xem tại trang 16 của tài liệu.
Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.1..

Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng Xem tại trang 19 của tài liệu.
Hình 2.2. Framework nhận dạng chữ tượnghình của JOCR. 2.2.2. Tesseract  - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.2..

Framework nhận dạng chữ tượnghình của JOCR. 2.2.2. Tesseract Xem tại trang 21 của tài liệu.
Hình 2.3. Kiến trúc tổng quát của Tesseract. - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.3..

Kiến trúc tổng quát của Tesseract Xem tại trang 22 của tài liệu.
Bảng 2.2. Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Bảng 2.2..

Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract Xem tại trang 23 của tài liệu.
2.3. Mơ hình OCR chữ Trung Quốc - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

2.3..

Mơ hình OCR chữ Trung Quốc Xem tại trang 24 của tài liệu.
Hình 2.4. Các bước trong nhận dạng chữ Trung Quốc - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.4..

Các bước trong nhận dạng chữ Trung Quốc Xem tại trang 25 của tài liệu.
Hình 2.6. Quá trình phân đoạn tiếng Trung Quốc - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.6..

Quá trình phân đoạn tiếng Trung Quốc Xem tại trang 26 của tài liệu.
Hình 2.7. Sơ đồ các bước trong nhận dạng chữHán 2.3.5. Các kết quả đạt được và những vấn đề đặt ra  - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.7..

Sơ đồ các bước trong nhận dạng chữHán 2.3.5. Các kết quả đạt được và những vấn đề đặt ra Xem tại trang 28 của tài liệu.
Hình 2.8. Sơ đồ tổng thể mơ hình nhận dạng chữ Nôm đề xuất. - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.8..

Sơ đồ tổng thể mơ hình nhận dạng chữ Nôm đề xuất Xem tại trang 30 của tài liệu.
Hình 2.9. Mơ hình nhận dạng chữ Nôm trong luận văn - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 2.9..

Mơ hình nhận dạng chữ Nôm trong luận văn Xem tại trang 31 của tài liệu.
Hình 3.1. Tìm siêu phẳng có lề cực đại - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 3.1..

Tìm siêu phẳng có lề cực đại Xem tại trang 32 của tài liệu.
Hình 3.2. Xác định lề, tham số phạt trong SVM - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 3.2..

Xác định lề, tham số phạt trong SVM Xem tại trang 34 của tài liệu.
Hình 3.4. Khả năng phân lớp khi kết hợp SVM với hàm nhân - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 3.4..

Khả năng phân lớp khi kết hợp SVM với hàm nhân Xem tại trang 36 của tài liệu.
Hình 3.5. Minh họa các bước nhận dạng bằng OVO - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 3.5..

Minh họa các bước nhận dạng bằng OVO Xem tại trang 37 của tài liệu.
Bảng 3.1. So sánh độ chính xác một số phương pháp SVM đa lớp - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Bảng 3.1..

So sánh độ chính xác một số phương pháp SVM đa lớp Xem tại trang 37 của tài liệu.
Hình 4.4. Mật độ số điểm đen theo lưới 3x3 - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 4.4..

Mật độ số điểm đen theo lưới 3x3 Xem tại trang 41 của tài liệu.
Hình 4.3. Số điểm đen theo lưới 3x3 - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 4.3..

Số điểm đen theo lưới 3x3 Xem tại trang 41 của tài liệu.
Hình 4.5. Lưu đồ huấn luyện trong giải thuậtKSVM 3.2.1. Xây dựng bộ nhận dạng OVOF  - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 4.5..

Lưu đồ huấn luyện trong giải thuậtKSVM 3.2.1. Xây dựng bộ nhận dạng OVOF Xem tại trang 42 của tài liệu.
Hình 4.6. Lưu đồ thuật tốn K-Mean - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 4.6..

Lưu đồ thuật tốn K-Mean Xem tại trang 43 của tài liệu.
Hình 4.7. Nhận dạng trong KSVM - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 4.7..

Nhận dạng trong KSVM Xem tại trang 45 của tài liệu.
Hình 5.2. Giao diện chính của chương trình thực nghiệm - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 5.2..

Giao diện chính của chương trình thực nghiệm Xem tại trang 47 của tài liệu.
Hình 5.3. Bản số hóa và dịch nghĩa của một trong trong truyện Kiều. - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 5.3..

Bản số hóa và dịch nghĩa của một trong trong truyện Kiều Xem tại trang 48 của tài liệu.
Hình 5.4. Kết quả phân tích để thu được mã chữNơm trong truyện kiều từ kho nomna.org - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 5.4..

Kết quả phân tích để thu được mã chữNơm trong truyện kiều từ kho nomna.org Xem tại trang 49 của tài liệu.
Hình 5.5. Một số mẫu chữNơm trong cơ sở dữ liệu NomDB0. - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

Hình 5.5..

Một số mẫu chữNơm trong cơ sở dữ liệu NomDB0 Xem tại trang 50 của tài liệu.
- Đánh giá ảnh hưởng của việc phân bổ tỉ lệ phân cụm trong lớp thứ nhất mơ hình KSVM.  - Luận văn thạc sĩ VNU UET nhận dạng chữ nôm bằng máy véc   tơ hỗ trợ (SVM)

nh.

giá ảnh hưởng của việc phân bổ tỉ lệ phân cụm trong lớp thứ nhất mơ hình KSVM. Xem tại trang 51 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan