Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ QUANG MINH Hà Nội - 2014 LỜI CAM ĐOAN Tôi Ninh Thị Thu Hà, học viên cao học K19, chun ngành Cơng nghệ phần mềm, khóa 2012-2014 Tôi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử lý ngơn ngữ số hóa văn tiếng Việt hệ thống FSCANNER” cơng trình nghiên cứu riêng với hướng dẫn TS Lê Quang Minh Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà nội, ngày 28 tháng 10 năm 2014 Tác giả Ninh Thị Thu Hà LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Lê Quang Minh – Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội, người thầy hướng dẫn, bảo tận tình cho tơi suốt q trình nghiên cứu hồn thành luận văn tốt nghiệp Tôi xin gửi lời cảm ơn chân thành tới thầy cô đ ã tham gia giảng dạy trường Đại học Công nghệ - Đại học Quốc gia Hà nội Các thầy cô nhiệt tình giảng dạy tạo điều kiện thuận lợi cho tơi hồn thành khóa học trường Tơi xin bày tỏ lòng biết ơn tới tất bạn bè, đồng nghiệp người thân động viên, giúp đỡ tơi suốt q trình học tập nghiên cứu, hồn thành luận văn Tơi xin gửi lời cảm ơn đến tác giả, nhóm tác giả giáo trình, cơng trình khoa học báo khoa học mà tơi tham khảo để hồn thiện luận văn Tác giả MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TỐN XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.2 Giới thiệu số cơng nghệ số hóa tài liệu 10 1.2.1 Công nghệ nhận dạng tiếng Việt 10 1.2.2 Cơng nghệ sốt lỗi tả tiếng Việt 11 1.2.3 Công nghệ tách lập mục 12 1.3 Bài tốn xử lý ngơn ngữ số hóa văn tiếng Việt 13 Tổng kết chương 15 CHƯƠNG CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN 16 2.1 Một số kỹ thuật nhận dạng OCR 16 2.1.1 Giới thiệu 16 2.1.2 Kỹ thuật nhận dạng dựa mơ hình máy vectơ hỗ trợ (SVM) .18 2.1.3 Kỹ thuật nhận dạng dựa mơ hình Markov ẩn (HMM) 20 2.1.4 Kỹ thuật nhận dạng dựa mơ hình mạng nơ ron (ANN) .22 2.1.5 Cách tiếp cận nhận dạng OCR FSCANNER 24 2.2 Kỹ thuật sốt lỗi tả tiếng Việt dựa mơ hình n-gram 25 2.2.1 Giới thiệu tốn sốt lỗi tả tiếng Việt 25 2.2.2 Mơ hình ngơn ngữ N-gram 27 2.2.3 Kỹ thuật sốt lỗi dựa mơ hình n-gram hệ thống FSCANNER 29 2.3 Trích rút metadata 30 2.3.1 Giới thiệu metadata chuẩn Dublin Core 30 2.3.2 Bài tốn trích rút metadata 32 2.3.3 Đề xuất metadata cho văn số hóa 34 Tổng kết chương 45 CHƯƠNG THỰC NGHIỆM, ĐÁNH GIÁ 46 3.1 Các bước thực chương trình hệ thống 46 3.2 Xây dựng liệu thực nghiệm cho ảnh quét 48 3.3 Tiến hành thực nghiệm 49 3.3.1 Mục tiêu 49 3.3.2 Cách thực 49 3.4 Kết thực nghiệm 50 3.5 Đánh giá kết 52 Tổng kết chương 52 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 54 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt ANN API DPI HMM MLP NLP OCR OVO OVR 10 SVM DANH MỤC BẢNG BIỂU Bảng 1.1 So sánh số phần mềm nhận dạng chữ in tiếng Việt Bảng 1.2 Một số phần mềm sốt lỗi tả tiếng Việt kết đánh giá độ nhận biết lỗi tả tiếng Việt phần mềm Bảng 2.1 Tổng hợp kết nhận dạng OCR mô hình HMM, ANN, SVM với đặc trưng khác Bảng 2.2 Cấu trúc âm tiết thành phần Bảng 2.3 Cấu trúc âm tiết thành phần Bảng 2.4 Cấu trúc âm tiết thành phần Bảng 2.5 Các thành phần âm tiết cấu trúc âm tiết thành phần Bảng 2.6 Một ví dụ trích rút metadata Bảng 2.7 15 yếu tố Dublin Core Metadata Bảng 2.8 Đề xuất xây dựng yếu tố metadata cho số hóa văn Bảng 2.9 Tiêu đề (Title) Bảng 2.10 Người tạo (Creator) Bảng 2.11 Ngày tháng (Date) Bảng 2.12 Nhà xuất (Publisher) Bảng 2.13 Mô tả (Description) Bảng 2.14 Định danh (Identifier) Bảng 2.15 Ngôn ngữ (Language) Bảng 2.16 Nguồn (Source) Bảng 2.17 Người cộng tác (Contributor) Bảng 2.18 Chủ đề (Subject) Bảng 2.19 Phạm vi (Coverage) Bảng 2.20 Kiểu /Loại (Type) Bảng 2.21 Khổ mẫu (Format) Bảng 2.22 Liên kết (Relation) Bảng 2.23 Bản quyền (Right) Bảng 2.24 Cơ quan lưu trữ (Archive) Bảng 2.25 Phông lưu trữ (Archive fond) Bảng 2.26 Mục lục số (List number) Bảng 2.27 Hộp số (Folder number) Bảng 2.28 Hồ sơ số (Record number) Bảng 2.29 Tờ số (Page number) Bảng 2.30 Ngày số hóa (Digitizing date) Bảng 2.31 Người số hóa (Digitizing person) Bảng 2.32 Tổ chức số hóa (Digitizing organization) Bảng 2.33 Thiết bị số hóa (Digitizing equipment) Bảng 2.34 Bảng Cơ sở liệu 25 yếu tố metadata xây dựng cho văn số hóa Bảng 3.1 Số từ nhận dạng với mức DPI khác ảnh quét Bảng 3.2 Số từ nhận dạng với góc xoay (lệch trái so với ảnh quét gốc) ảnh quét Bảng 3.3 Số từ nhận dạng v ới góc xoay (lệch phải so với ảnh quét gốc) ảnh quét DANH MỤC HÌNH VẼ Hình 1.1 Một ví dụ kéo thả OCR sử dụng phần mềm Kodak Capture Pro Hình 1.2.a Một phần ảnh văn Hình 1.2.b Phần văn nhận Hình 1.3.a Phần văn nhận Hình 1.3.b Phần văn nhận dạng sửa lỗi tả tiếng Việt Hình 1.4 Một ví dụ trích rút thơng tin Hình 1.5 Sơ đ hoạt đ ộng việc số hóa văn tiếng Việt hệ thống FSCANNER Hình 2.1 Sơ đồ tổng quát hệ thống nhận dạng OCR Hình 2.2.a Các lớp phân tách tuyến tính Hình 2.2.b Siêu phẳng tối ưu biên lề tương ứng, vectơ hỗ trợ Hình 2.3.a: Siêu phẳng phân tách lớp (Liu, 2006) Hình 2.3.b: Siêu phẳng phân tách có lề cực đại (Liu, 2006) Hình 2.4 Lưới chuỗi trạng thái, tiến trình Markov với dãy quan sát O1, , OT Hình 2.5 Mơ hình nơron nhân tạo Hình 2.6 Mạng MLP nhận dạng kí tự quang học Hình 2.7 Mơ hình Markov bậc Hình 3.1 Giao diện chương trình FSCANNER Hình 3.2 Upload văn hệ thống FSCANNER Hình 3.3 Hệ thống FSCANNER nhận dạng OCR file ảnh Hình 3.4 Hệ thống FSCANNER đ ã xử lý văn xong kết trích rút metadata văn Ràng buộc Ghi Tên yếu tố Định nghĩa Ràng buộc Ghi Tại bảng 2.34 trình bày sở liệu cho yếu tố metadata đề xuất sử dụng Hệ quản trị sở liệu Micrsoft SQL Server Bảng 2.34 Bảng Cơ sở liệu 25 yếu tố metadata xây dựng cho văn số hóa Trong bảng 2.34, với yếu tố metadata cột Column Name có kiểu liệu tương ứng cột Data Type Ví dụ yếu tố metadata TITLE cho phép nhập liệu dạng text tối đa 300 kí tự Cột Allow Nulls cho phép giá trị rỗng lưu trường hay không 45 Tổng kết chương Trong chương này, chúng tơi tìm hiểu số kỹ thuật nhận dạng OCR, kỹ thuật sốt lỗi tả tiếng Việt dựa mơ hình n-gram, kỹ thuật trích rút metadata Kỹ thuật nhận dạng OCR giới thiệu mơ hình tổng qt hệ nhận dạng chữ, khâu quan trọng định độ xác nhận dạng Trích rút đặc trưng Phân lớp Thuật toán phân lớp yếu tố có vai trị định đến chất lượng hệ thống nhận dạng Có nhiều phương pháp phân lớp nhận dạng, luận văn giới thiệu hướng tiếp cận dựa mơ hình máy véc tơ hỗ trợ SVM, mơ hình mạng nơ ron ANN mơ hình Markov ẩn HMM Với mơ hình phân lớp đó, luận văn ưu ợc điểm mơ hình, sau lập bảng tổng hợp kết nghiên cứu số nhà nghiên cứu với kỹ thuật phân lớp sử dụng kiểu đ ặc trưng Ngồi ra, luận văn cịn tổng quan số phần mềm nhận dạng chữ Việt lập bảng so sánh ưu nhược điểm phần mềm Kỹ thuật sốt lỗi tả giới thiệu đặc điểm tiếng Việt, phân loại lỗi tả, số điểm khác biệt ngôn ngữ tiếng Việt ngôn ngữ tiếng Anh khác ranh giới từ Do việc quan trọng xử lý văn tiếng Việt tách từ Bài toán tách từ tốn tiền đề cho ứng dụng xử lý ngơn ngữ tự nhiên, có sốt lỗi tả Có nhiều hướng tiếp cận tốn tách từ hướng tiếp cận dựa từ điển, hướng tiếp cận dựa vào thống kê, kết hợp hai Luận văn tập trung vào sử dụng mơ hình n-gram cho toán tách từ tiếng Việt Luận văn giới thiệu phương pháp ứng dụng xác suất thống kê trình máy tự học [Lê Trung Hiếu, 2012] cho việc sửa lỗi tả tiếng Việt hệ thống FSCANNER Kỹ thuật trích rút metadata giới thiệu tốn trích rút metadata, khái niệm metadata, giới thiệu chuẩn Dublin Core Trong tốn trích rút metadata, với văn cần số hóa văn hành chính, câu hỏi đặt trích rút trường thơng tin nào? Luận văn tìm hiểu quy định việc tạo lập, sử dụng, khai thác liệu đ ặc tả thông tư 24 Bộ Thông tin Truyền thơng; tìm hiểu hướng dẫn xây dựng sở liệu lưu trữ hướng dẫn 169 Cục Văn thư Lưu trữ Nhà nước; dựa vào nhu cầu thực tế quan có nhu cầu số hóa, từ đề xuất xây dựng metadata gồm 25 trường cho văn số hóa cho hệ thống FSCANNER 46 CHƯƠNG THỰC NGHIỆM, ĐÁNH GIÁ 3.1 Các bước thực chương trình hệ thống Hệ thống FSCANNER nhóm nghiên cứu Viện CNTT – ĐHQGHN xây dựng có giao diện hình 3.1 Hệ thống cho phép đưa ảnh quét lên hệ thống, sau hệ thống tự động nhận dạng OCR, tự động sửa lỗi tả tự động lập mục phục vụ cho trình tìm kiếm người dùng theo yêu cầu tổ chức đặt hàng Ở hình 3.1, nút “Upload văn bản” cho phép người dùng đưa ảnh quét lên hệ thống; nút “OCR Processing (n)” cho biết hệ thống nhận dạng n văn bản; nút “NLP Processed(m)” cho biết hệ thống xử lý xong m văn bản, kết xử lý hiển thị vùng bên dưới, danh sách metadata trích rút văn Trên giao diện hệ thống có nút “tìm kiếm” cho phép người dùng tìm kiếm có định hướng, chọn tìm tỉnh, số kí hiệu, tác giả, quan lưu trữ, Đang tiến hành nhận dạng tự động file ảnh Hình 3.2 Giao diện chương trình Hình 3.1 Giao diện chương trình FSCANNER 47 Các bước thực chương trình: Bước 1: Chọn Upload văn : nhấn chọn Choose Files đ ể upload ảnh quét lên hệ thống; sau nhấn chọn Tiền xử lý Hình 3.2 Upload văn hệ thống FSCANNER Bước 2: Khi khâu Tiền xử lý thực xong với thông báo “Tiền xử lý thành công”, hệ thống tự động sang khâu nhận dạng, quan sát hình thấy OCR Processing 1: Đang thực nhận dạng file Hình 3.3 Hệ thống FSCANNER nhận dạng OCR file ảnh Bước 3: Sau hệ thống tự động nhận dạng OCR xong, hệ thống tự động chuyển sang khâu “NLP Processing” đ ể tiến hành sửa lỗi tả tiếng Việt trích chọn thơng tin văn theo metadata phù hợp với nhu cầu tổ chức sử dụng Khi thực xong việc NLP, quan sát hình thấy NLP Processed (tương ứng với lúc đầu OCR Processing (1)) 48 Đã xử lý văn Hình 3.4 Hệ thống FSCANNER xử lý văn xong kết trích rút metadata văn 3.2 Xây dựng liệu thực nghiệm cho ảnh qt Để có scan hồn hảo khơng có nghĩa phải chọn tất thơng số tối đa mà máy scan có th ể thực mà đơn giản lựa chọn thông số phù hợp cho mục đích sử dụng Việc lựa chọn số DPI scan văn có ảnh hưởng không nhỏ tới chất lượng nhận dạng OCR Ngưỡng góc xoay ảnh quét cần xem xét cho thích hợp nhận dạng Hai thơng số số DPI góc xoay ảnh quét đề cập thực nghiệm luận văn để chọn ngưỡng phù hợp nâng cao hiệu nhận dạng 49  Chọn văn để quét: văn có nhiễu, văn có bảng biểu, văn có biểu đồ, văn xuất phần viết tay, văn túy thể loại quy phạm pháp luật tờ trình, báo cáo,  Chọn máy quét: máy Cannon DR 2050C; quét dạng *.TIF  Với văn bản, quét mức DPI khác nhau: 100 dpi, 150 dpi, 200 dpi, 240 dpi, 300 dpi, 400 dpi, 600 dpi  Với ảnh văn quét, sử dụng hàm rotate_image() xoay ảnh quét (chọn mức 300 DPI) góc xoay khác từ -20 đến 20 3.3 Tiến hành thực nghiệm 3.3.1 Mục tiêu Phần thực nghiệm luận văn nhằm làm rõ vấn đề: Chạy chương trình FSCANNER với liệu thực nghiệm Đánh giá ảnh hưởng số DPI quét chất lượng nhận dạng DPI chữ viết tắt “ dots per inch”: Số chấm inch (1inch=2,54cm) Việc xác định ngưỡng DPI thích hợp quét cần thiết ảnh hưởng trực tiếp tới chất lượng nhận dạng OCR, ảnh hưởng tới q trình số hóa văn Đánh giá ảnh hưởng ảnh quét bị nghiêng chất lượng nhận dạng Việc xác định góc xoay nghiêng cho phép nhận dạng cần thiết, ảnh bị nghiêng nhận dạng được, dẫn đến việc khơng thực số hóa văn 3.3.2 Cách thực Để thực tiêu chí đánh giá trên, tác giả tiến hành chia liệu thành phần tương ứng với tiêu chí đánh giá thực chạy chương trình: Thực nhận dạng OCR với ảnh quét mức DPI khác nhau: 100DPI; 150DPI; 200DPI; 240DPI; 300DPI; 400DPI; 600DPI Thực nhận dạng OCR với ảnh quét 300 DPI góc xoay khác so với ảnh quét ban đầu tương ứng mức Chạy chương trình với ảnh quét văn quy phạm pháp luật 50 3.4 Kết thực nghiệm Bảng 3.1 Số từ nhận dạng với mức DPI khác ảnh quét Mức DPI Số từ nhận dạng Tổng số từ nhận dạng Trong bảng 3.1, mức DPI gồm mức khác nhau: 100 dpi, 150dpi, 200dpi, 240dpi, 300dpi, 400dpi, 600dpi Mỗi ảnh quét mức dpi khác đư ợc nhận dạng đếm số từ nhận dạng so với tổng số từ nhận dạng Tại hình 3.5 biểu đồ tỉ lệ % số từ nhận dạng mức dpi bảng 3.1 Tỉ lệ % 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 100 dpi 150 dpi 200 dpi 240 dpi 300 dpi 400 dpi 600 dpi Hình 3.5 Biểu đồ tỉ lệ % số từ nhận dạng mức DPI Trong bảng 3.2, góc xoay góc mà ảnh quét xoay lệch trái so với ảnh quét gốc (ảnh gốc coi đặt 00), với ảnh quét lệch so với ảnh quét gốc góc 0 xoay từ -1 đến -15 nhận dạng đếm số từ so với tổng số từ Bảng 3.2 Số từ nhận dạng với góc xoay (lệch trái so với ảnh quét gốc) ảnh quét Góc ảnh gốc xoay Số từ (≈00) 3386 Tổng 4196 số từ 51 Hình 3.6 biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái so với ảnh quét gốc, tương ứng với bảng 3.2 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái Tỉlệ % Góc xoay Hình 3.6 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái Trong bảng 3.3, góc xoay góc mà ảnh quét xoay lệch phải so với ảnh quét gốc (ảnh gốc coi đặt ), với ảnh quét lệch so với ảnh quét 0 gốc góc xoay từ đến 16 nhận dạng đếm số từ so với tổng số từ Bảng 3.3 Số từ nhận dạng với góc xoay (lệch phải so với ảnh quét gốc) ảnh quét ảnh Góc gốc xoay (≈00) Số từ 3386 Tổng 4196 số từ Hình 3.7 biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch phải so với ảnh quét gốc, tương ứng với bảng 3.3 52 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch phải Tỉ lệ % 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Hình 3.7 Biểu đồ tỉ lệ % số từ nhận dạng góc xoay lệch trái 3.5 Đánh giá kết Từ kết thực nghiệm thu ta rút số nhận xét sau: Độ xác nhận dạng tăng tăng số DPI Với số DPI 100 cho kết nhận dạng thấp Với mức 240 DPI đến 300 DPI cho kết tốt, thời gian quét dung lượng file quét không cao Với mức 400 DPI 600 DPI cho kết tốt xong thời gian quét dung lượng file cao Chương trình nhận dạng cho kết 60% xoay nghiêng ảnh 0 quét gốc (là ảnh quét xấp xỉ mức ) từ -2 đến ; Với góc xoay dao đ ộng 0 khoảng -1 đến cho kết nhận dạng xác 80% Tổng kết chương Trong chương 3, chúng tơi trình bày cách chạy chương trình hệ thống FSCANNER, quy trình tiến hành thực nghiệm chọn số dpi góc xoay ảnh quét, từ rút đánh giá chọn ngưỡng dpi góc xoay thích hợp để nâng cao hiệu nhận dạng OCR 53 KẾT LUẬN Trên chúng tơi trình bày tốn xử lý ngơn ngữ tự nhiên số hóa văn sơ đồ hoạt động hệ thống số hóa văn FSCANNER Đầu vào hệ thống ảnh quét văn hành báo cáo, định, nghị định, Sau bước nhận dạng OCR chuyển ảnh kí tự in/viết tay sang dạng tài liệu văn chỉnh sửa Trong trình nhận dạng OCR cịn lỗi, bước sốt lỗi tả tiếng Việt giúp cho kết nhận dạng xác Cuối bước trích rút metadata tự động để phục vụ cho trình tách bộ, lập mục giúp cho việc tìm kiếm có định hướng thuận tiện dễ dàng Hiện có nhiều sản phẩm nhận dạng chữ in tiếng Việt có chất lượng cao hệ thống FSCANNER sử dụng gọi hàm API có sẵn cho khâu nhận dạng OCR, luận văn có tìm hiểu số kỹ thuật nhận dạng OCR, đưa bảng so sánh số sản phẩm phần mềm nhận dạng chữ in tiếng Việt Vì hệ thống FSCANNER gọi hàm API có sẵn nên muốn nâng cao chất lượng nhận dạng OCR, thực nghiệm để chọn ngưỡng dpi góc xoay phù hợp cho ảnh quét đầu vào trước OCR Kỹ thuật sửa lỗi tả tiếng Việt hệ thống FSCANNER dựa mơ hình ngơn ngữ n-gram Cụ thể áp dụng xác suất thống kê trình máy tự học để tách từ 2-gram Đối với kỹ thuật trích rút metadata, tập trung vào việc đ ề xuất xây dựng metadata cho văn số hóa Từ tổ chức có nhu cầu số hóa lựa chọn trường metadata phù hợp Việc đề xuất trường metadata cho số hóa văn nhóm nghiên cứu Viện CNTT-ĐHQGHN ứng dụng chạy hệ thống FSCANNER Trong khuôn khổ luận văn, chúng tơi tìm hiểu kỹ thuật xử lý ngơn ngữ, hệ thống hóa nội dung lý thuyết kỹ thuật xử lý ngôn ngữ số hóa văn Trong tương lai hướng nghiên cứu xây dựng chương trình nhận dạng OCR riêng cho hệ thống, sâu vào kỹ thuật trích rút metadata đánh giá phương pháp trích rút metadata hệ thống với phương pháp trích rút metadata khác Hướng tới hồn thiện hệ thống số hóa văn 54 TÀI LIỆU THAM KHẢO Tiếng Việt Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt Công nghệ thông tin” http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf Bộ Giáo dục (1984), Quy đ ịnh tả tiếng Việt thuật ngữ tiếng Việt http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuatngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx Bộ Giáo dục Đào tạo (2002), Quy định tạm thời tả sách giáo khoa mới, Nhà Xuất giáo dục Bộ Giáo dục Đào tạo (2003), Quy định tạm thời viết hoa tên riêng sách giáo khoa Bộ nội vụ (2011), Thông tư hướng dẫn thể thức kỹ thuật trình bày văn hành Bộ Thơng tin truyền thông (2011), Thông tư quy định việc tạo lập, sử dụng lưu trữ liệu đặc tả trang thông tin điện tử cổng thông tin điện tử quan nhà nước http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=15 http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=16 http://vtc.vn/394-255965/giat-minh-thuc-trang-loi-chinh-ta-tieng-viet.htm 10 Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê q trình máy tự học cho tốn phân tách từ văn tiếng Việt”, Tạp chí khoa học công nghệ trường Đại học Duy Tân, (1), tr.32-38 11 Lê Minh Hồng, Ngơ Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mơ hình Markov ẩn nhận dạng chữ”, Tạp chí khoa học cơng nghệ, tập 40, số ĐB, tr.31-40 12 Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp phận phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học điều khiển, tập 25, (1) ,tr.88-97 13 Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học mạng nơron” , Tạp chí khoa học công nghệ Đại Học Đà nẵng, (4), tr.20-24 14 Văn phịng phủ (1998), Quy định tạm thời viết hoa văn Chính phủ Văn phịng Chính phủ Tiếng Anh 55 15 Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning 16 H Han, C.L Giles, E Manavoglu, H Zha, Z Zhang, E.A Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International Conference on Digital Libraries, pp 37–48 IEEE Computer Society Press, Washington, DC 17 Hao, C X (2000), Vietnamese - Some Questions on Phonetics, Syntax and Semantics, Education Publishing House, Hanoi 18.http://dublincore.org/documents/dces 19 http://help.abbyy.com/FineReader/FineReader12/Vietnamese/Overview/overvie ht m; 20 http://www.kodakcapturepro.co.uk/products/kodak-capture-pro 21 http://www.nuance.com 22 John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs for Multiclass Classification, NIPS 23 K Nakagawa, A Nomura, and M Suzuki (2004), “Extraction of Logical Structure from Articles in Mathematics”, MKM, LNCS 3119, pp 276-289, Springer Berlin Heidelberg from Articles in Mathematics 24 F Peng, A McCallum (2006), “Accurate Information Extraction from Research Papers using Conditional Random Fields”, Information Processing and Management: an International Journal, pp 963 – 979 25 Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp 257-286 26 Rohit Verma, Dr Jahid Ali (2012), “A -Survey of Feature Extraction and Classification Techniques in OCR Systems”, International Journal Applications & Information Technology, Vol.I, Issue III (ISSN: 2278-7720) ... xử lý ngơn ngữ số hóa văn tiếng Việt Nội dung giới thiệu tốn xử lý ngơn ngữ tự nhiên sơ đ hoạt động việc số hóa văn tiếng Việt hệ thống FSCANNER Chương 2: Các kỹ thuật xử lý ngơn ngữ số hóa văn. .. 1.3 Bài tốn xử lý ngơn ngữ số hóa văn tiếng Việt 13 Tổng kết chương 15 CHƯƠNG CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN 16 2.1 Một số kỹ thuật nhận... CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGƠN NGỮ TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60480103 LUẬN VĂN THẠC

Định dạng
Số trang	77
Dung lượng	1,77 MB