Luận văn thạc sĩ VNU UET các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ Hà Nội - 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ QUANG MINH Hà Nội - 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi Ninh Thị Thu Hà, học viên cao học K19, chuyên ngành Cơng nghệ phần mềm, khóa 2012-2014 Tơi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử lý ngơn ngữ số hóa văn tiếng Việt hệ thống FSCANNER” cơng trình nghiên cứu riêng với hướng dẫn TS Lê Quang Minh Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà nội, ngày 28 tháng 10 năm 2014 Tác giả Ninh Thị Thu Hà LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Lê Quang Minh – Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội, người thầy hướng dẫn, bảo tận tình cho tơi suốt q trình nghiên cứu hồn thành luận văn tốt nghiệp Tơi xin gửi lời cảm ơn chân thành tới thầy cô tham gia giảng dạy trường Đại học Công nghệ - Đại học Quốc gia Hà nội Các thầy nhiệt tình giảng dạy tạo điều kiện thuận lợi cho tơi hồn thành khóa học trường Tơi xin bày tỏ lịng biết ơn tới tất bạn bè, đồng nghiệp người thân động viên, giúp đỡ tơi suốt q trình học tập nghiên cứu, hồn thành luận văn Tơi xin gửi lời cảm ơn đến tác giả, nhóm tác giả giáo trình, cơng trình khoa học báo khoa học mà tham khảo để hoàn thiện luận văn Tác giả LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TỐN XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.2 Giới thiệu số cơng nghệ số hóa tài liệu 10 1.2.1 Công nghệ nhận dạng tiếng Việt 10 1.2.2 Cơng nghệ sốt lỗi tả tiếng Việt 11 1.2.3 Công nghệ tách lập mục 12 1.3 Bài tốn xử lý ngơn ngữ số hóa văn tiếng Việt 13 Tổng kết chương 15 CHƯƠNG CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN 16 2.1 Một số kỹ thuật nhận dạng OCR 16 2.1.1 Giới thiệu 16 2.1.2 Kỹ thuật nhận dạng dựa mơ hình máy vectơ hỗ trợ (SVM) 18 2.1.3 Kỹ thuật nhận dạng dựa mơ hình Markov ẩn (HMM) 20 2.1.4 Kỹ thuật nhận dạng dựa mơ hình mạng nơ ron (ANN) 22 2.1.5 Cách tiếp cận nhận dạng OCR FSCANNER 24 2.2 Kỹ thuật sốt lỗi tả tiếng Việt dựa mơ hình n-gram 25 2.2.1 Giới thiệu tốn sốt lỗi tả tiếng Việt 25 2.2.2 Mơ hình ngôn ngữ N-gram 27 2.2.3 Kỹ thuật soát lỗi dựa mơ hình n-gram hệ thống FSCANNER 29 2.3 Trích rút metadata 30 2.3.1 Giới thiệu metadata chuẩn Dublin Core 30 2.3.2 Bài tốn trích rút metadata 32 2.3.3 Đề xuất metadata cho văn số hóa 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tổng kết chương 45 CHƯƠNG THỰC NGHIỆM, ĐÁNH GIÁ 46 3.1 Các bước thực chương trình hệ thống 46 3.2 Xây dựng liệu thực nghiệm cho ảnh quét 48 3.3 Tiến hành thực nghiệm 49 3.3.1 Mục tiêu 49 3.3.2 Cách thực 49 3.4 Kết thực nghiệm 50 3.5 Đánh giá kết 52 Tổng kết chương 52 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Từ đầy đủ Tiếng Việt ANN Artificial Neural Network Mạng nơ-ron nhân tạo API Application Programming Interface Giao diện lập trình ứng dụng DPI Dots Per Inch Số chấm inch HMM Hiden Markov Model Mơ hình Markov ẩn MLP Multi Layer Perceptron Mạng nhiều lớp truyền thẳng Perceptron NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên OCR Optical Character Recognition Nhận dạng kí tự quang học OVO One Versus One Một với OVR One Versus The Rest Một với phần lại 10 SVM Support Vector Machine Máy Véc tơ Hỗ trợ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG BIỂU Bảng 1.1 So sánh số phần mềm nhận dạng chữ in tiếng Việt Bảng 1.2 Một số phần mềm sốt lỗi tả tiếng Việt kết đánh giá độ nhận biết lỗi tả tiếng Việt phần mềm Bảng 2.1 Tổng hợp kết nhận dạng OCR mơ hình HMM, ANN, SVM với đặc trưng khác Bảng 2.2 Cấu trúc âm tiết thành phần Bảng 2.3 Cấu trúc âm tiết thành phần Bảng 2.4 Cấu trúc âm tiết thành phần Bảng 2.5 Các thành phần âm tiết cấu trúc âm tiết thành phần Bảng 2.6 Một ví dụ trích rút metadata Bảng 2.7 15 yếu tố Dublin Core Metadata Bảng 2.8 Đề xuất xây dựng yếu tố metadata cho số hóa văn Bảng 2.9 Tiêu đề (Title) Bảng 2.10 Người tạo (Creator) Bảng 2.11 Ngày tháng (Date) Bảng 2.12 Nhà xuất (Publisher) Bảng 2.13 Mô tả (Description) Bảng 2.14 Định danh (Identifier) Bảng 2.15 Ngôn ngữ (Language) Bảng 2.16 Nguồn (Source) Bảng 2.17 Người cộng tác (Contributor) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 2.18 Chủ đề (Subject) Bảng 2.19 Phạm vi (Coverage) Bảng 2.20 Kiểu /Loại (Type) Bảng 2.21 Khổ mẫu (Format) Bảng 2.22 Liên kết (Relation) Bảng 2.23 Bản quyền (Right) Bảng 2.24 Cơ quan lưu trữ (Archive) Bảng 2.25 Phông lưu trữ (Archive fond) Bảng 2.26 Mục lục số (List number) Bảng 2.27 Hộp số (Folder number) Bảng 2.28 Hồ sơ số (Record number) Bảng 2.29 Tờ số (Page number) Bảng 2.30 Ngày số hóa (Digitizing date) Bảng 2.31 Người số hóa (Digitizing person) Bảng 2.32 Tổ chức số hóa (Digitizing organization) Bảng 2.33 Thiết bị số hóa (Digitizing equipment) Bảng 2.34 Bảng Cơ sở liệu 25 yếu tố metadata xây dựng cho văn số hóa Bảng 3.1 Số từ nhận dạng với mức DPI khác ảnh quét Bảng 3.2 Số từ nhận dạng với góc xoay (lệch trái so với ảnh quét gốc) ảnh quét Bảng 3.3 Số từ nhận dạng với góc xoay (lệch phải so với ảnh quét gốc) ảnh quét LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 1.1 Một ví dụ kéo thả OCR sử dụng phần mềm Kodak Capture Pro Hình 1.2.a Một phần ảnh văn Hình 1.2.b Phần văn nhận Hình 1.3.a Phần văn nhận Hình 1.3.b Phần văn nhận dạng sửa lỗi tả tiếng Việt Hình 1.4 Một ví dụ trích rút thơng tin Hình 1.5 Sơ đồ hoạt động việc số hóa văn tiếng Việt hệ thống FSCANNER Hình 2.1 Sơ đồ tổng quát hệ thống nhận dạng OCR Hình 2.2.a Các lớp phân tách tuyến tính Hình 2.2.b Siêu phẳng tối ưu biên lề tương ứng, vectơ hỗ trợ Hình 2.3.a: Siêu phẳng phân tách lớp (Liu, 2006) Hình 2.3.b: Siêu phẳng phân tách có lề cực đại (Liu, 2006) Hình 2.4 Lưới chuỗi trạng thái, tiến trình Markov với dãy quan sát O1, , OT Hình 2.5 Mơ hình nơron nhân tạo Hình 2.6 Mạng MLP nhận dạng kí tự quang học Hình 2.7 Mơ hình Markov bậc Hình 3.1 Giao diện chương trình FSCANNER Hình 3.2 Upload văn hệ thống FSCANNER Hình 3.3 Hệ thống FSCANNER nhận dạng OCR file ảnh Hình 3.4 Hệ thống FSCANNER xử lý văn xong kết trích rút metadata văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 Bảng 2.21 Khổ mẫu (Format) Tên yếu tố Format Định nghĩa Mơ tả trình bày vật lý tài liệu, bao gồm; vật mang tin, kích cỡ độ dài, kiểu liệu (.doc, html, jpg, xls, phần mềm ) Ràng buộc Tùy chọn Chú thích Vật mang tin, tình trạng vật lý tài liệu, Như: Giấy tốt, giấy xấu, hư hỏng, chữ mờ-khó đọc, giấy Pơ luya mỏng-đen, Bảng 2.22 Liên kết (Relation) Tên yếu tố Relation Định nghĩa Mô tả thông tin liên quan đến tài liệu khác dùng đường dẫn (URL), URN, ISBN, ISSN Tài liệu kèm theo, thông tin cấp Ràng buộc Tùy chọn Chú thích Mơ tả thơng tin liên quan đến tài liệu khác Ví dụ Luật CNTT ngày 29/6/2009; Nghị định 64/2007/ NĐ-CP ngày 10/4/2007; Nghị định 187/2007/NĐ-CP ngày 25/12/2007; Nghị định 43/2011/NĐ-CP ngày 13/6/2011 Bảng 2.23 Bản quyền (Right) Tên yếu tố Right Định nghĩa Các thông tin liên quan đến quyền tài liệu Ràng buộc Tùy chọn Ghi Mức độ sử dụng: sử dụng rộng rãi, hạn chế, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 42 Bảng 2.24 Cơ quan lưu trữ (Archive) Tên yếu tố Archive Định nghĩa Tên quan lưu trữ (đối với lưu trữ quan) Ràng buộc Khuyến nghị Bảng 2.25 Phông lưu trữ (Archive fond) Tên yếu tố Archive fond Định nghĩa Tên đơn vị nghiệp có dấu chữ ký, thường tên đơn vị sử dụng hệ thống lưu trữ Ràng buộc Khuyến nghị Bảng 2.26 Mục lục số (List number) Tên yếu tố List number Định nghĩa Ghi số thứ tự mục lục hồ sơ có phơng lưu trữ, trường hợp phơng có mục lục hồ sơ ghi số Ràng buộc Khuyến nghị Bảng 2.27 Hộp số (Folder number) Tên yếu tố Folder number Định nghĩa Ghi số thứ tự hộp Ràng buộc Khuyến nghị Bảng 2.28 Hồ sơ số (Record number) Tên yếu tố Record number Định nghĩa Ghi số thứ tự hồ sơ Ràng buộc Khuyến nghị LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 43 Bảng 2.29 Tờ số (Page number) Tên yếu tố Page number Định nghĩa Ghi số thứ tự tờ số văn Ràng buộc Khuyến nghị Bảng 2.30 Ngày số hóa (Digitizing date) Tên yếu tố Digitizing date Định nghĩa Ngày số hóa văn bản, khuyến nghị dùng chuẩn ISO 8601 dạng YYYY-MM-DD Ràng buộc Khuyến nghị Bảng 2.31 Người số hóa (Digitizing person) Tên yếu tố Digitizing person Định nghĩa Người số hóa văn Ràng buộc Khuyến nghị Ghi Là người chịu trách nhiệm đắn văn số hóa so với văn gốc Bảng 2.32 Tổ chức số hóa (Digitizing organization) Tên yếu tố Digitizing organization Định nghĩa Tổ chức, quan số hóa văn Ràng buộc Khuyến nghị Ghi Chịu trách nhiệm đắn văn số hóa so với gốc trước pháp luật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 44 Bảng 2.33 Thiết bị số hóa (Digitizing equipment) Tên yếu tố Digitizing equipment Định nghĩa Loại thiết bị số hóa văn Ràng buộc Khuyến nghị Ghi Tên thiết bị số hóa văn Tại bảng 2.34 trình bày sở liệu cho yếu tố metadata đề xuất sử dụng Hệ quản trị sở liệu Micrsoft SQL Server Bảng 2.34 Bảng Cơ sở liệu 25 yếu tố metadata xây dựng cho văn số hóa Trong bảng 2.34, với yếu tố metadata cột Column Name có kiểu liệu tương ứng cột Data Type Ví dụ yếu tố metadata TITLE cho phép nhập liệu dạng text tối đa 300 kí tự Cột Allow Nulls cho phép giá trị rỗng lưu trường hay không LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 45 Tổng kết chương Trong chương này, chúng tơi tìm hiểu số kỹ thuật nhận dạng OCR, kỹ thuật sốt lỗi tả tiếng Việt dựa mơ hình n-gram, kỹ thuật trích rút metadata Kỹ thuật nhận dạng OCR giới thiệu mơ hình tổng qt hệ nhận dạng chữ, khâu quan trọng định độ xác nhận dạng Trích rút đặc trưng Phân lớp Thuật toán phân lớp yếu tố có vai trị định đến chất lượng hệ thống nhận dạng Có nhiều phương pháp phân lớp nhận dạng, luận văn giới thiệu hướng tiếp cận dựa mơ hình máy véc tơ hỗ trợ SVM, mơ hình mạng nơ ron ANN mơ hình Markov ẩn HMM Với mơ hình phân lớp đó, luận văn ưu nhược điểm mơ hình, sau lập bảng tổng hợp kết nghiên cứu số nhà nghiên cứu với kỹ thuật phân lớp sử dụng kiểu đặc trưng Ngồi ra, luận văn cịn tổng quan số phần mềm nhận dạng chữ Việt lập bảng so sánh ưu nhược điểm phần mềm Kỹ thuật sốt lỗi tả giới thiệu đặc điểm tiếng Việt, phân loại lỗi tả, số điểm khác biệt ngôn ngữ tiếng Việt ngôn ngữ tiếng Anh khác ranh giới từ Do việc quan trọng xử lý văn tiếng Việt tách từ Bài toán tách từ toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên, có sốt lỗi tả Có nhiều hướng tiếp cận toán tách từ hướng tiếp cận dựa từ điển, hướng tiếp cận dựa vào thống kê, kết hợp hai Luận văn tập trung vào sử dụng mơ hình n-gram cho toán tách từ tiếng Việt Luận văn giới thiệu phương pháp ứng dụng xác suất thống kê trình máy tự học [Lê Trung Hiếu, 2012] cho việc sửa lỗi tả tiếng Việt hệ thống FSCANNER Kỹ thuật trích rút metadata giới thiệu tốn trích rút metadata, khái niệm metadata, giới thiệu chuẩn Dublin Core Trong tốn trích rút metadata, với văn cần số hóa văn hành chính, câu hỏi đặt trích rút trường thơng tin nào? Luận văn tìm hiểu quy định việc tạo lập, sử dụng, khai thác liệu đặc tả thông tư 24 Bộ Thông tin Truyền thơng; tìm hiểu hướng dẫn xây dựng sở liệu lưu trữ hướng dẫn 169 Cục Văn thư Lưu trữ Nhà nước; dựa vào nhu cầu thực tế quan có nhu cầu số hóa, từ đề xuất xây dựng metadata gồm 25 trường cho văn số hóa cho hệ thống FSCANNER LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 46 CHƯƠNG THỰC NGHIỆM, ĐÁNH GIÁ 3.1 Các bước thực chương trình hệ thống Hệ thống FSCANNER nhóm nghiên cứu Viện CNTT – ĐHQGHN xây dựng có giao diện hình 3.1 Hệ thống cho phép đưa ảnh quét lên hệ thống, sau hệ thống tự động nhận dạng OCR, tự động sửa lỗi tả tự động lập mục phục vụ cho trình tìm kiếm người dùng theo yêu cầu tổ chức đặt hàng Ở hình 3.1, nút “Upload văn bản” cho phép người dùng đưa ảnh quét lên hệ thống; nút “OCR Processing (n)” cho biết hệ thống nhận dạng n văn bản; nút “NLP Processed(m)” cho biết hệ thống xử lý xong m văn bản, kết xử lý hiển thị vùng bên dưới, danh sách metadata trích rút văn Trên giao diện hệ thống có nút “tìm kiếm” cho phép người dùng tìm kiếm có định hướng, chọn tìm tỉnh, số kí hiệu, tác giả, quan lưu trữ, Đang tiến hành nhận dạng tự động file ảnh Đưa ảnh văn lên hệ thống Đang xử lý văn Đã xử lý văn xong Tìm kiếm theo metadata Hình 3.2 Giao diện chương trình Rút trích metadata Hình 3.1 Giao diện chương trình FSCANNER LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 Các bước thực chương trình: Bước 1: Chọn Upload văn : nhấn chọn Choose Files để upload ảnh quét lên hệ thống; sau nhấn chọn Tiền xử lý Hình 3.2 Upload văn hệ thống FSCANNER Bước 2: Khi khâu Tiền xử lý thực xong với thông báo “Tiền xử lý thành công”, hệ thống tự động sang khâu nhận dạng, quan sát hình thấy OCR Processing 1: Đang thực nhận dạng file Hình 3.3 Hệ thống FSCANNER nhận dạng OCR file ảnh Bước 3: Sau hệ thống tự động nhận dạng OCR xong, hệ thống tự động chuyển sang khâu “NLP Processing” để tiến hành sửa lỗi tả tiếng Việt trích chọn thơng tin văn theo metadata phù hợp với nhu cầu tổ chức sử dụng Khi thực xong việc NLP, quan sát hình thấy NLP Processed (tương ứng với lúc đầu OCR Processing (1)) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 Đã xử lý văn xong Hình 3.4 Hệ thống FSCANNER xử lý văn xong kết trích rút metadata văn 3.2 Xây dựng liệu thực nghiệm cho ảnh quét Để có scan hồn hảo khơng có nghĩa phải chọn tất thông số tối đa mà máy scan thực mà đơn giản lựa chọn thơng số phù hợp cho mục đích sử dụng Việc lựa chọn số DPI scan văn có ảnh hưởng khơng nhỏ tới chất lượng nhận dạng OCR Ngưỡng góc xoay ảnh quét cần xem xét cho thích hợp nhận dạng Hai thơng số số DPI góc xoay ảnh quét đề cập thực nghiệm luận văn để chọn ngưỡng phù hợp nâng cao hiệu nhận dạng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 · Chọn văn để quét: văn có nhiễu, văn có bảng biểu, văn có biểu đồ, văn xuất phần viết tay, văn túy thể loại quy phạm pháp luật tờ trình, báo cáo, · Chọn máy quét: máy Cannon DR 2050C; quét dạng *.TIF · Với văn bản, quét mức DPI khác nhau: 100 dpi, 150 dpi, 200 dpi, 240 dpi, 300 dpi, 400 dpi, 600 dpi · Với ảnh văn quét, sử dụng hàm rotate_image() xoay ảnh quét (chọn mức 300 DPI) góc xoay khác từ -200 đến 200 3.3 Tiến hành thực nghiệm 3.3.1 Mục tiêu Phần thực nghiệm luận văn nhằm làm rõ vấn đề: Chạy chương trình FSCANNER với liệu thực nghiệm Đánh giá ảnh hưởng số DPI quét chất lượng nhận dạng DPI chữ viết tắt “ dots per inch”: Số chấm inch (1inch=2,54cm) Việc xác định ngưỡng DPI thích hợp quét cần thiết ảnh hưởng trực tiếp tới chất lượng nhận dạng OCR, ảnh hưởng tới q trình số hóa văn Đánh giá ảnh hưởng ảnh quét bị nghiêng chất lượng nhận dạng Việc xác định góc xoay nghiêng cho phép nhận dạng cần thiết, ảnh bị nghiêng q khơng thể nhận dạng được, dẫn đến việc không thực số hóa văn 3.3.2 Cách thực Để thực tiêu chí đánh giá trên, tác giả tiến hành chia liệu thành phần tương ứng với tiêu chí đánh giá thực chạy chương trình: Thực nhận dạng OCR với ảnh quét mức DPI khác nhau: 100DPI; 150DPI; 200DPI; 240DPI; 300DPI; 400DPI; 600DPI Thực nhận dạng OCR với ảnh quét 300 DPI góc xoay khác so với ảnh quét ban đầu tương ứng mức 00 Chạy chương trình với ảnh quét văn quy phạm pháp luật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 3.4 Kết thực nghiệm Bảng 3.1 Số từ nhận dạng với mức DPI khác ảnh quét Mức DPI 100 dpi 150 dpi 200 dpi 240 dpi 300 dpi 400 dpi 600 dpi Số từ nhận dạng 332 2875 3230 3305 3386 3481 3481 Tổng số từ nhận dạng 4196 4196 4196 4196 4196 4196 4196 Trong bảng 3.1, mức DPI gồm mức khác nhau: 100 dpi, 150dpi, 200dpi, 240dpi, 300dpi, 400dpi, 600dpi Mỗi ảnh quét mức dpi khác nhận dạng đếm số từ nhận dạng so với tổng số từ nhận dạng Tại hình 3.5 biểu đồ tỉ lệ % số từ nhận dạng mức dpi bảng 3.1 Tỉ lệ % Biểu đồ tỉ lệ % số từ nhận dạng mức DPI 90% 80% 70% 60% 50% Tỉ lệ % số từ nhận dạng 40% 30% 20% 10% 0% 100 dpi 150 dpi 200 dpi 240 dpi 300 dpi 400 dpi 600 dpi Mức DPI Hình 3.5 Biểu đồ tỉ lệ % số từ nhận dạng mức DPI Trong bảng 3.2, góc xoay góc mà ảnh quét xoay lệch trái so với ảnh quét gốc (ảnh gốc coi đặt 00), với ảnh quét lệch so với ảnh quét gốc góc xoay từ -10 đến -150 nhận dạng đếm số từ so với tổng số từ Bảng 3.2 Số từ nhận dạng với góc xoay (lệch trái so với ảnh quét gốc) ảnh quét Góc xoay ảnh gốc -10 (≈00) -20 -30 -40 -50 -60 -70 -80 -150 Số từ 3386 3373 2736 1693 711 496 498 365 49 53 Tổng số từ 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 51 Hình 3.6 biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái so với ảnh quét gốc, tương ứng với bảng 3.2 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái Tỉlệ % Góc xoay Hình 3.6 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái Trong bảng 3.3, góc xoay góc mà ảnh quét xoay lệch phải so với ảnh quét gốc (ảnh gốc coi đặt 00), với ảnh quét lệch so với ảnh quét gốc góc xoay từ 10 đến 160 nhận dạng đếm số từ so với tổng số từ Bảng 3.3 Số từ nhận dạng với góc xoay (lệch phải so với ảnh quét gốc) ảnh quét Góc xoay ảnh 10 gốc (≈00) 20 30 40 50 60 70 80 110 120 150 160 168 68 48 44 Số từ 3386 3312 3236 3011 2581 1795 856 Tổng số từ 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 Hình 3.7 biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch phải so với ảnh quét gốc, tương ứng với bảng 3.3 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 52 Tỉ lệ % Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch phải 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Tỉ lệ % số từ nhận dạng Góc xoay Hình 3.7 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái 3.5 Đánh giá kết Từ kết thực nghiệm thu ta rút số nhận xét sau: Độ xác nhận dạng tăng tăng số DPI Với số DPI 100 cho kết nhận dạng thấp Với mức 240 DPI đến 300 DPI cho kết tốt, thời gian quét dung lượng file quét không cao Với mức 400 DPI 600 DPI cho kết tốt xong thời gian quét dung lượng file cao Chương trình nhận dạng cho kết 60% xoay nghiêng ảnh quét gốc (là ảnh quét xấp xỉ mức 00 ) từ -20 đến 40 ; Với góc xoay dao động khoảng -10 đến 20 cho kết nhận dạng xác 80% Tổng kết chương Trong chương 3, chúng tơi trình bày cách chạy chương trình hệ thống FSCANNER, quy trình tiến hành thực nghiệm chọn số dpi góc xoay ảnh quét, từ rút đánh giá chọn ngưỡng dpi góc xoay thích hợp để nâng cao hiệu nhận dạng OCR LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 53 KẾT LUẬN Trên trình bày tốn xử lý ngơn ngữ tự nhiên số hóa văn sơ đồ hoạt động hệ thống số hóa văn FSCANNER Đầu vào hệ thống ảnh quét văn hành báo cáo, định, nghị định, Sau bước nhận dạng OCR chuyển ảnh kí tự in/viết tay sang dạng tài liệu văn chỉnh sửa Trong q trình nhận dạng OCR cịn lỗi, bước sốt lỗi tả tiếng Việt giúp cho kết nhận dạng xác Cuối bước trích rút metadata tự động để phục vụ cho trình tách bộ, lập mục giúp cho việc tìm kiếm có định hướng thuận tiện dễ dàng Hiện có nhiều sản phẩm nhận dạng chữ in tiếng Việt có chất lượng cao hệ thống FSCANNER sử dụng gọi hàm API có sẵn cho khâu nhận dạng OCR, luận văn có tìm hiểu số kỹ thuật nhận dạng OCR, đưa bảng so sánh số sản phẩm phần mềm nhận dạng chữ in tiếng Việt Vì hệ thống FSCANNER gọi hàm API có sẵn nên muốn nâng cao chất lượng nhận dạng OCR, thực nghiệm để chọn ngưỡng dpi góc xoay phù hợp cho ảnh quét đầu vào trước OCR Kỹ thuật sửa lỗi tả tiếng Việt hệ thống FSCANNER dựa mơ hình ngôn ngữ n-gram Cụ thể áp dụng xác suất thống kê trình máy tự học để tách từ 2-gram Đối với kỹ thuật trích rút metadata, tập trung vào việc đề xuất xây dựng metadata cho văn số hóa Từ tổ chức có nhu cầu số hóa lựa chọn trường metadata phù hợp Việc đề xuất trường metadata cho số hóa văn nhóm nghiên cứu Viện CNTT-ĐHQGHN ứng dụng chạy hệ thống FSCANNER Trong khuôn khổ luận văn, tìm hiểu kỹ thuật xử lý ngơn ngữ, hệ thống hóa nội dung lý thuyết kỹ thuật xử lý ngơn ngữ số hóa văn Trong tương lai hướng nghiên cứu xây dựng chương trình nhận dạng OCR riêng cho hệ thống, sâu vào kỹ thuật trích rút metadata đánh giá phương pháp trích rút metadata hệ thống với phương pháp trích rút metadata khác Hướng tới hồn thiện hệ thống số hóa văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 54 TÀI LIỆU THAM KHẢO Tiếng Việt Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt Công nghệ thông tin” http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf Bộ Giáo dục (1984), Quy định tả tiếng Việt thuật ngữ tiếng Việt http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuatngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx Bộ Giáo dục Đào tạo (2002), Quy định tạm thời tả sách giáo khoa mới, Nhà Xuất giáo dục Bộ Giáo dục Đào tạo (2003), Quy định tạm thời viết hoa tên riêng sách giáo khoa Bộ nội vụ (2011), Thông tư hướng dẫn thể thức kỹ thuật trình bày văn hành Bộ Thơng tin truyền thông (2011), Thông tư quy định việc tạo lập, sử dụng lưu trữ liệu đặc tả trang thông tin điện tử cổng thông tin điện tử quan nhà nước http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=15 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=16 http://vtc.vn/394-255965/giat-minh-thuc-trang-loi-chinh-ta-tieng-viet.htm 10 Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê trình máy tự học cho tốn phân tách từ văn tiếng Việt”, Tạp chí khoa học công nghệ trường Đại học Duy Tân, (1), tr.32-38 11 Lê Minh Hồng, Ngơ Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mơ hình Markov ẩn nhận dạng chữ”, Tạp chí khoa học cơng nghệ, tập 40, số ĐB, tr.31-40 12 Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp phận phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học điều khiển, tập 25, (1) ,tr.88-97 13 Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học mạng nơron” , Tạp chí khoa học cơng nghệ Đại Học Đà nẵng, (4), tr.20-24 14 Văn phịng phủ (1998), Quy định tạm thời viết hoa văn Chính phủ Văn phịng Chính phủ Tiếng Anh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 55 15 Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning 16 H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International Conference on Digital Libraries, pp 37–48 IEEE Computer Society Press, Washington, DC 17 Hao, C X (2000), Vietnamese - Some Questions on Phonetics, Syntax and Semantics, Education Publishing House, Hanoi 18 http://dublincore.org/documents/dces 19 http://help.abbyy.com/FineReader/FineReader12/Vietnamese/Overview/overvie.ht m; 20 http://www.kodakcapturepro.co.uk/products/kodak-capture-pro 21 http://www.nuance.com 22 John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs for Multiclass Classification, NIPS 23 K Nakagawa, A Nomura, and M Suzuki (2004), “Extraction of Logical Structure from Articles in Mathematics”, MKM, LNCS 3119, pp 276-289, Springer Berlin Heidelberg from Articles in Mathematics 24 F Peng, A McCallum (2006), “Accurate Information Extraction from Research Papers using Conditional Random Fields”, Information Processing and Management: an International Journal, pp 963 – 979 25 Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp 257-286 26 Rohit Verma, Dr Jahid Ali (2012), “A-Survey of Feature Extraction and Classification Techniques in OCR Systems”, International Journal Applications & Information Technology, Vol.I, Issue III (ISSN: 2278-7720) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tốn xử lý ngơn ngữ số hóa văn tiếng Việt Nội dung giới thiệu tốn xử lý ngơn ngữ tự nhiên sơ đồ hoạt động việc số hóa văn tiếng Việt hệ thống FSCANNER Chương 2: Các kỹ thuật xử lý ngơn ngữ số hóa. .. toán xử lý ngơn ngữ số hóa văn tiếng Việt, quy trình làm việc hệ thống số hóa văn FSCANNER · Tìm hiểu kỹ thuật nhận dạng OCR, kỹ thuật sốt lỗi tả tiếng Việt, trích rút metadata số hóa văn tiếng Việt. .. 16 CHƯƠNG CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HĨA VĂN BẢN Bài tốn số hóa văn tiếng Việt tốn lớn, phạm vi luận văn tập trung vào số kỹ thuật nhận dạng OCR, kỹ thuật sốt lỗi tả tiếng Việt dựa mơ

Định dạng
Số trang	61
Dung lượng	10,02 MB

Tiêu đề	Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER
Tác giả	Ninh Thị Thu Hà
Người hướng dẫn	TS. Lê Quang Minh
Trường học	Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	Hà Nội