NHẬN DẠNG tên văn bản và gán NHÃN CHO các tài LIỆU lưu TRỮ tại sở nội vụ, TỈNH VĨNH PHÚC

53 111 0
NHẬN DẠNG tên văn bản và gán NHÃN CHO các tài LIỆU lưu TRỮ tại sở nội vụ, TỈNH VĨNH PHÚC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NHẬN DẠNG TÊN VĂN BẢN VÀ GÁN NHÃN CHO CÁC TÀI LIỆU LƯU TRỮ TẠI SỞ NỘI VỤ, TỈNH VĨNH PHÚC ĐẶNG TRẦN HƯNG HÀ NỘI - 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NHẬN DẠNG TÊN VĂN BẢN VÀ GÁN NHÃN CHO CÁC TÀI LIỆU LƯU TRỮ TẠI SỞ NỘI VỤ, TỈNH VĨNH PHÚC ĐẶNG TRẦN HƯNG CHUYÊN NGHÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 Người hướng dẫn khoa học: PGS.TS Nguyễn Quang Hoan HÀ NỘI - 2015 LỜI CAM ĐOAN Em xin cam đoan luận văn “Nhận dạng tên văn gán nhãn cho tài liệu lưu trữ Sở Nội vụ, tỉnh Vĩnh Phúc” cơng trình nghiên cứu riêng em từ tháng năm 2015 đến nay, hướng dẫn tận tình thầy giáo PGS TS Nguyễn Quang Hoan với giúp đỡ góp ý a Hồng Minh Sơn bạn học em, với số anh em bạn bè đồng nghiệp tạo điều kiện cho em nghiên cứu cụ thể đề tài Các số liệu kết nghiên cứu trình bày luận văn trung thực chưa công bố tài liệu, tạp chí, hội nghị khác Nếu có vấn đề nội dung luận văn em xin chịu hồn tồn trách nhiệm Vĩnh Phúc, tháng 12 năm 2015 TÁC GIẢ LUẬN VĂN Đặng Trần Hưng i LỜI CẢM ƠN Trước tiên, em xin cảm ơn PGS.TS Nguyễn Quang Hoan, người tận tình dẫn kiến thức chun mơn, tài liệu kỹ thuật, động viên giúp em hoàn thành luận văn Em xin gửi lời cảm ơn đến thầy giáo, cô giáo giảng dạy Viện Đại học Mở Hà Nội nói chung, khoa Sau Đại học khoa Cơng nghệ Thơng tin nói riêng tạo điều kiện, tổ chức khóa học để em có điều kiện tiếp thu thêm kiến thức để hoàn thành luận văn cao học Em xin chân thành cảm ơn bạn bè lớp giúp đỡ động viên em, đặc biệt em xin cảm ơn anh Hoàng Minh Sơn giúp em nhiều để hoàn thành luận văn Mặc dù em nỗ lực cố gắng để hoàn thành luận văn tốt nghiệp song chắn khơng thể tránh khỏi sai sót định Vì vậy, em mong hướng dẫn bảo, góp ý thầy, để luận văn em ngày hoàn thiện Cuối cùng, em kính gửi thành đến gia đình người thân em, người hết lòng động viên em để em có kết ngày hơm ii MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG ẢNH VĂN BẢN TIẾNG VIỆT .3 1.1 Tổng quan nghiên cứu, ứng dụng nhận dạng văn nước 1.1.1 Trong nước .3 1.1.2 Nước .5 1.2 Ảnh văn tiếng Việt 1.2.1 Ảnh tài liệu định dạng 1.2.2 Các vấn đề xử lý ảnh 1.2.3 Các kỹ thuật xử lý ảnh 11 1.3 Nhận dạng ảnh văn tiếng Việt .14 1.3.1 Phương pháp đối sánh mẫu 14 1.3.2 Phương pháp tiếp cận cấu trúc 15 1.3.3 Kỹ thuật đối sánh điểm xuất phát từ tâm 15 1.3.4 Kỹ thuật nhận dạng dựa vào đối sánh 16 1.3.5 Kỹ thuật nhận dạng dựa vào hình chiếu .16 1.3.6 Phương pháp mặt nạ đối sánh .17 1.3.7 Phương pháp thống kê giao điểm 17 1.4 Kết luận chương .17 CHƯƠNG 2: NGHIÊN CỨU, TÌM HIỂU MẠNG NƠRON NHÂN TẠO .18 2.1 Nơron sinh học nơron nhân tạo 18 2.1.1 Nơron sinh học .18 2.1.2 Nơron nhân tạo .19 2.2 Cấu tạo phương thức làm việc mạng nơron 22 2.2.1 Mạng nơron lớp .22 2.2.2 Mạng nơron truyền thẳng nhiều lớp .23 2.2.3 Mạng nơron phản hồi 24 2.2.4 Mạng nơron hồi quy .24 2.3 Các luật học 25 2.3.1 Học có giám sát 25 iii 2.3.2 Học củng cố 25 2.3.3 Học khơng có giám sát 26 2.5 Kết luận chương .26 CHƯƠNG 3: ỨNG DỤNG MẠNG NƠRON TRONG NHẬN DẠNG TÊN VĂN BẢN VÀ KỸ THUẬT GÁN NHÃN .27 3.1 Mơ tả tốn .27 3.2 Cấu trúc mạng BAM 27 3.3 Thiết kế mạng BAM 32 3.5 Kết luận chương .36 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 37 4.1 Thực nghiệm .37 4.2 Đánh giá kết 42 4.3 Kết luận chương .42 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI .43 TÀI LIỆU THAM KHẢO iv DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết tắt Tiếng Anh Tiếng Việt ANN Artificial Neural Network Mạng nơron nhân tạo BAM Bidirectional Associative Memory Bộ nhớ liên kết hai chiều GA Genetic Algorithm Giải thuật di truyền GALib Genetic Algorithm Library Nơron Neural Tế bào thần kinh Pixel Pixel Điểm ảnh SOM Self Organizing Maps Mạng Neural tự tổ chức Thư viện phần mềm giải thuật di truyền UBHC Ủy ban hành UBND Ủy ban nhân dân VnDOCR Tên phần mềm nhận dạng VietOCR Tên phần mềm nhận dạng ABBYY FineReader Tên phần mềm nhận dạng Pro DANH MỤC CÁC BẢNG v Bảng 2.1: Các hàm truyền H(s) thường dùng .21 Bảng 2.2: Một số hàm phi tuyến thường dùng mơ hình nơron 22 Bảng 3.1: Vector chức vector nhãn xác định 33 Bảng 4.1: Loại văn dự kiến thực 37 Bảng 4.2: Các lĩnh vực quản lý .39 Bảng 4.3: Số liệu nhận dạng mẫu học .40 DANH MỤC CÁC HÌNH ẢNH, SƠ ĐỒ vi Hình 1.1: Mơ hình giai đoạn xử lý ảnh nhận dạng văn Hình 1.2: Giao diện phần mềm VnDocr .4 Hình 1.3: Giao diện phần mềm VietOCR Hình 1.4: Sơ đồ tổng quan trình tạo ảnh tài liệu Hình 1.5: Ảnh tài liệu Hình 1.6: Biểu đồ sắc thái hình ảnh 13 Hình 2.1: Minh họa nơron sinh học 18 Hình 2.2: Mơ hình nơron nhân tạo .20 Hình 2.3: Mơ hình nơron lớp 23 Hình 2.4: Mơ hình mạng nơ ron truyền thẳng nhiều lớp 24 Hình 2.5: Mơ hình mạng nơron phản hồi 24 Hinh 2.6: Mơ hình mạng nơron hồi quy .25 Hình 2.7: Mơ hình học có giám sát 25 Hình 2.8: Mơ hình học khơng giám sát 26 Hình 3.1: Mơ hình mạng BAM 28 Hinh 3.2: Mơ hình mạng BAM với đầu vào X 31 Hình 3.3: Mơ hình mạng BAM với đầu vào Y 32 Hình 3.4: Mơ hình mạng Nơ ron với tập mẫu 33 vii MỞ ĐẦU Nhận thức rõ tầm quan trọng ý nghĩa vô to lớn tài liệu lưu trữ tất lĩnh vực đời sổng xã hội như: Chính trị, kinh tế, văn hố, xã hội, khoa học Cùng với phát triển không ngừng nhanh chóng khoa học cơng nghệ, đặc biệt cơng nghệ thông tin, tri thức người ngày nâng cao, vai trò ý nghĩa tài liệu lưu trữ ngày coi trọng khẳng định Hiện Sở Nội vụ tỉnh Vĩnh Phúc tiến hành thu thập, chỉnh lý xác định giá trị tài liệu 21 quan bao gồm sở, ban, ngành tỉnh với 72.731 hồ sơ chuyên môn tổng số 1.400 mét giá tài liệu Trong số tài liệu lưu trữ kho lưu trữ có tài liệu UBHC tỉnh Vĩnh Phúc giai đoạn 1950-1968 gồm 1.464 hồ sơ với 12 mét giá tài liệu; tài liệu UBND tỉnh Vĩnh Phúc từ năm 1997-2008 gồm 12.120 hồ sơ với gần 200 mét giá tài liệu; tài liệu Sở Tài gồm 19.272 hồ sơ sơ với 500 mét giá tài liệu tài liệu thuộc sở, ban, ngành khác Tuy nhiên, tài liệu lưu trữ lưu trữ hình thức truyền thống nên chịu tác động lớn thời tiết, khí hậu dần bị lão hóa theo thời gian, chúng bị hủy hoại thảm họa thiên nhiên tác nhân khác vĩnh viễn bị mất, phục hồi Mặt khác, việc tổ chức lưu trữ thủ cơng khó kiểm sốt khó tìm kiếm tài liệu Hiện nay, tài liệu lưu trữ hình thành ngày nhiều, việc tìm kiếm thủ cơng ngày thời gian khó khăn Vì vậy, ngồi việc lưu trữ tài liệu giấy cần thêm cách lưu trữ lưu trữ dạng số Việc nhằm tăng tính an tồn cho tài liệu lưu trữ hạn chế khai thác tài liệu gốc tăng cường bảo vệ tài liệu, tránh gây rách nát thất tài liệu ngồi ý muốn Tài liệu lưu trữ tỉnh Vĩnh Phúc tài sản có giá trị phải quản lý, sử dụng lâu dài, phục vụ cho công tác quản lý nhà nước lĩnh vực trị, kinh tế, văn hóa, xã hội, an ninh, quốc phòng, khoa học kỹ thuật… Vì việc bảo quản, giữ gìn tài liệu lưu trữ cần thiết đặc biệt quan trọng Với lý x(k)=a(WTy(k-1)) (qua hướng lần thứ k/2) Trạng thái cập nhật đồng khơng đồng Thuật tốn lưu trữ: Với p cặp vector liên kết lưu trữ BAM: {(x1,y1), (x2, y2), …, (xn, yn)} xk=(x1k,x2k,…,xmk)T y=(y1k, y2k,…, ynk)T p  (ykxk)T cho vector lưỡng cực (2yk-1)(2xk-1)T cho vector nhi phân W= k 1 p  k 1 p Hoặc wij=  ykixkj cho vector lưỡng cực k 1 p  (2yki-1)(2xkj-1) cho vector nhị phân k 1 Tính ổn định BAM (được chứng minh sử dụng định lý Lyapunow) Hàm lượng: E(x,y)=-1/2xTWTy-1/2yTWx=-yTWx (3.2) Xem xét ∆E sinh ∆y ta có m E ∆Eyi= ∆y =Wx∆yi=-(  wijxj)∆yi yi i j 1 (3.3) Có trường hợp xảy ra: m yi(k)=-1 yi(k+1)=+1→  wijxj>0, ∆yi=2 Do ∆Eyi (1 1 1) = L   LW = [1 1 1]     1   1 3 1 3   1 = [4 -4 -4 4]T => (1 1) = A   1   3 Như (A,L), (B,M), (C (1 1 1) = L Ta có: 35 Ta y = [1, 1, 1, 1], A tương đương L Giả sử có sai số bit   0,1,0,0,0 (3.14) Sử dụng phép cộng ma trận ta A   1,1,1,0,1 (3.15)  1  1 3  1  = [1,2,2,1] y* = [A +  ] WT = [1 1 1]   3  1   3 1 1 3 (3.16) Khi đầu gán nhãn Ta có Y= [1,1,1,1]-1  L 36 Với sai số bit chương trình có khả nhận dạng chịu lỗi Giả sử sai số bit   0,0,1,0,0 (3.17) Sử dụng phép cộng ma trận ta A   1,0,2,0,1 (3.18)  1  1 3  1  = [1,2,2,1] y* = [A +  ] WT = [1 1]   3  1   3 1 1 3 (3.19) Khi đầu gán nhãn Ta có Y= [1,1,1,1]-1  L Với sai số bit chương trình có khả nhận dạng chịu lỗi 3.5 Kết luận chương Chương trình bày tốn nhận dạng tên văn gán nhãn cho tài liệu mạng BAM, với việc thử sai số bit tính tốn nói mạng BAM có khả nhận dạng chịu lỗi, từ ta hồn tồn áp dụng vào tốn nhận dạng tên văn gán nhãn CHƯƠNG 37 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Thực nghiệm Như phần chương em mô tả tốn thực tế đơn vị cơng tác, tốn đặt có đầu vào 28 loại mã (Bảng 4.1), phương pháp sử dụng mạng BAM để nhận dạng gán nhãn cho văn Ở em dùng phần mềm Matlab thực cho việc tính tốn nhận dạng gán nhãn tài liệu Sau hồn tồn thực việc lập chương trình hồn thiện cho nhận dạng tên văn gán nhãn cho loại tài liệu Bảng 4.1: Loại văn dự kiến thực STT Tiêu đề Mơ tả Mã hóa Báo cáo Báo cáo 00001 Báo cáo nhanh Báo cáo nhanh 00010 Biên Biên 00100 Công điện Công điện 01000 Công văn Công văn 10000 Chỉ thị Chỉ thị 10001 Dự án Dự án 10010 Đề tài khoa học Đề tài khoa học 10100 Điện báo Điện báo 11000 10 Điều lệ Điêu lệ 11001 11 Đơn thư khiếu tố Đơn thư khiếu tố 11010 12 Giấy báo Giấy báo 11100 13 Giấy đường Giấy đường 11101 14 Giấy giới thiệu Giấy giới thiệu 11110 15 Giấy mời Giấy mời 11111 16 Giấy nghỉ phép Giấy nghỉ phép 01111 17 Hợp đồng Hợp đồng 00111 18 Kiến nghị Kiến nghị 00011 38 19 Luật Luật 01011 20 Nghị định Nghị định 01101 21 Nghị Nghị 01110 22 Pháp lệnh Pháp lệnh 00110 23 Phiếu chuyển Phiếu chuyển 10101 24 Quyết định Quyết định 10111 25 Sao lục Sao lục 10100 26 Tờ trình Tờ trình 10011 27 Thơng báo Thơng báo 11011 28 Thông tư Thông tư 01010 Bảng 4.2: Các lĩnh vực quản lý STT Tiêu đề Mơ tả An ninh An ninh quốc phịng Công nghệ thông tin Công nghệ thông tin Công nghiệp Cơng nghiệp Chương trình, Dự án Chương trình, Dự án Dân số gia đình Dân số gia đình Du lịch Du lịch 39 Đất đai Đất đai Giáo dục đào tạo Giáo dục đào tạo Giao thông vận tải Giao thông vận tải 10 Hợp tác quốc tế Hợp tác quốc tế 11 Kế hoạch tài Kế hoạch tài 12 Khen thưởng Khen thưởng 13 Khiếu nại tố cáo Khiếu nại tố cáo 14 Khoa học công nghệ Khoa học công nghệ 15 Lao động tiền lương Lao động tiền lương 16 Lĩnh vực khác Lĩnh vực khác 17 Luật pháp Luật pháp 18 Nông nghiệp Nông nghiệp 19 Ngân hàng tiền tệ Ngân hàng tiền tệ 20 Nghiên cứu khoa học Nghiên cứu khoa học 21 Ngoại vụ Ngoại vụ 22 Quốc phòng Quốc phòng 23 Tổ chức cán Tổ chức cán 24 Thể dục thể thao Thể dục thể thao 25 Thông tin nội Thông tin nội 26 Thương binh - Xã hội Thương binh - Xã hội 27 Thương mại - Dịch vụ Thương mại - Dịch vụ 28 Văn hóa Văn hóa 29 Xây dựng Xây dựng 40 30 Y tế - Sức khỏe Y tế - Sức khỏe Sử dụng mạng huấn luyện để nhận dạng có kết sau:  Với mẫu học: Bảng 4.3: Số liệu nhận dạng mẫu học Lớp mẫu văn Số lượng mẫu Số mẫu nhận dạng xác Số mẫu khơng nhận dạng Số mẫu nhận dạng sai Nhận dạng xác (%) Khơng nhận dạng (%) Nhận dạng sai (%) Quyết định 23 23 0 100.00% 0.00% 0.00% Công văn 44 42 95.45% 4.55% 0.00% Tờ trình 45 42 93.33% 6.67% 0.00% Báo cáo 52 52 0 100.00% 0.00% 0.00% 49 49 0 100.00% 0.00% 0.00% Chỉ thị  Với mẫu chưa học: Bảng 4.3: Số liệu nhận dạng mẫu chưa học Lớp mẫu văn Quyết định Số lượng mẫu Số mẫu nhận dạng xác Số mẫu không nhận dạng Số mẫu nhận dạng sai Nhận dạng xác (%) Khơng nhận dạng (%) Nhận dạng sai (%) 38 38 0 100.00% 0.00% 0.00% 41 Số lượng mẫu Số mẫu nhận dạng xác Số mẫu khơng nhận dạng Số mẫu nhận dạng sai Nhận dạng xác (%) Khơng nhận dạng (%) Nhận dạng sai (%) Công văn 96 88 91.67% 9.09% 0.00% Tờ trình 88 60 28 68.18% 31.82% 0.00% Báo cáo 95 93 97.89% 2.15% 0.00% 80 80 0 100.00% 0.00% 0.00% Lớp mẫu văn Chỉ thị 42 4.2 Đánh giá kết - Tỷ lệ nhận dạng sai 0.00%, đáp ứng yêu cầu toán nhận dạng văn toán yêu cầu độ xác cao; kết “khơng nhận dạng được” không phép nhận dạng sai - Đã gán nhãn cho loại tài liệu - Chưa hoàn toàn nhận dạng nhiều - Với sai số nhiều bít đầu vào tỉ lệ nhận dạng xác giảm dần - Gán nhãn cho tài liệu cịn hạn chế, có sai lệch 4.3 Kết luận chương Qua trình thực nghiệm nhận dạng tên văn gán nhãn cho loại văn Bài tốn đặt mức nhận dạng tên văn với nội dung ngắn, tính xác chưa hồn tồn tuyệt đối 43 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI  Kết luận chung Với mục tiêu phân loại loại văn bản, phục vụ tốt cho việc quản lý, tìm kiếm nhu cầu sử dụng tài liệu tổ chức, cá nhân địa bàn tỉnh cách hiệu Chính thế, em định chọn đề tài “Nhận dạng tên văn gán nhãn cho tài liệu lưu trữ Sở Nội vụ, tỉnh Vĩnh Phúc” thành cơng việc giải tốn đặt nhận dạng tên văn gán nhãn cho tài liệu Do thời gian có hạn trình độ hiểu biết cịn hạn chế Nên với toán em nghiên cứu, xây dựng phương pháp thực trực tiếp tay, máy tương lai hồn tồn xây dựng chương trình Sau kết đạt hạn chế luận văn, với hướng phát triển sau em: Những kết đạt được: - Nhận dạng tên văn - Gán nhãn cho tài liệu Những hạn chế: - Chưa hoàn toàn nhận dạng toàn văn - Với sai số nhiều bít chịu lỗi dần - Gán nhãn cho tài liệu hạn chế, có sai lệch  Hướng phát triển đề tài Tiếp tục nghiên cứu sâu mạng Neural nhằm giải toán nhận dạng văn hồn thiện hơn, khơng tên loại văn mà tồn văn nhận dạng được, để triển khai hệ thống cho quan, đơn vị tỉnh Vĩnh Phúc Đồng thời xây dựng hệ thống lưu trữ quán lý loại tài liệu, với nhiều chức để phục vụ tốt cho việc tìm kiếm, nghiên cứu tài liệu tỉnh Vĩnh Phúc 44 ...BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NHẬN DẠNG TÊN VĂN BẢN VÀ GÁN NHÃN CHO CÁC TÀI LIỆU LƯU TRỮ TẠI SỞ NỘI VỤ, TỈNH VĨNH PHÚC ĐẶNG TRẦN HƯNG CHUYÊN NGHÀNH:... định chọn đề tài: ? ?Nhận dạng tên văn gán nhãn cho tài liệu lưu trữ Sở Nội vụ, tỉnh Vĩnh Phúc? ?? làm luận văn Thạc sỹ, với liệu đầu vào mã hóa (khơng nhận dạng ảnh văn bản) áp dụng thuật toán, kỹ... vậy, ngồi việc lưu trữ tài liệu giấy cần thêm cách lưu trữ lưu trữ dạng số Việc nhằm tăng tính an toàn cho tài liệu lưu trữ hạn chế khai thác tài liệu gốc tăng cường bảo vệ tài liệu, tránh gây

Ngày đăng: 12/07/2019, 14:05

Mục lục

  • Tiền xử lý ảnh

  • Ảnh đầu vào là ảnh scan nên rất dễ bị xoay. Vì vậy việc xoay lại ảnh hay khử độ nghiêng của ảnh là rất cần thiết, cho việc xử lý sau này. Công việc xoay văn bản gồm 2 giai đoạn chính là:

  • - Tách dòng dựa vào các đường kẻ ngang

  • - Tách dòng dựa vào thành phần liên thông

  • Thuật toán tìm các vị trí cắt có thể được thực hiện trong 2 bước sau:

  • Quá trình này được thực hiện nhờ vào hàm phân ngưỡng:

  • Dest(x, y) = 1 if Source(x, y) >= T

  • 0 if Source(x, y) < T

  • Để xác định giá trị của ngưỡng hiện nay có rất nhiều phương pháp:

  • 3. Thuật toán Isodata (Iterative self-organizing data analysis technique)

  • 5. Thuật toán Triangle (thuật toán tam giác)

  • Biểu đồ sắc thái của hình ảnh (Histogram)

  • Khái niệm điểm lân cận

  • Cho một điểm P với tọa độ (x, y), khi đó bốn điểm

  • N1 (x + 1, y); N2 (x – 1, y) ; N3 (x, y + 1); N4 (x, y – 1)

  • P’ được gọi là lân cận bốn của điểm P, và các điểm

  • N5 (x - 1, y - 1); N6 (x – 1, y + 1); N7 (x + 1, y - 1); N8 (x + 1, y + 1)

  • Thành phần liên thông: Liên thông bốn và liên thông tám

  • Hai điểm P1, P2, được gọi là liên thông bốn với nhau nếu có một trong hai điều kiện:

  • - P2 là lận cận bốn với của P1 (hoặc P1 là lân cận bốn với P2)

Tài liệu cùng người dùng

Tài liệu liên quan