Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,97 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN PHÚC HẬU XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TẠI TỈNH ĐOÀN QUẢNG NGÃI Chuyên ngành: Khoa học máy tính Mã số: 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2018 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS PHẠM MINH TUẤN Phản biện 1: TS TRƯƠNG NGỌC CHÂU Phản biện 2: TS TRẦN THẾ VŨ Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Trường Đại học Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2019 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Truyền thông Trường Đại học Bách khoa,Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài - Việc phân loại tài liệu có ký hiệu để lưu trữ, khai thác thơng tin hệ thống máy tính toán đặt Trên thực tế, cách để sử dụng thông tin ký hiệu phân loại phải gõ lại văn bàn phím để thêm vào hệ thống máy tính hay sử dụng làm đầu vào Và với mong muốn tìm hiểu lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR) đóng góp thêm vào kho ứng dụng nhận dạng hệ thống nhận dạng thiết thực, hữu ích - Vì luận văn tập trung tìm hiểu kỹ thuật, công nghệ cần thiết để xây dựng hệ thống “Phân loại văn Tỉnh đoàn Quảng Ngãi” - Nội dung luận văn gồm phần mở đầu, chương nội dung, phần kết luận, tài liệu tham khảo Chương 1: Các phương pháp nhận dạng Chương 2: Xây dựng ứng dụng phân loại văn Tỉnh Đoàn Quảng Ngãi Chương 3: Triển khai hệ thống đánh giá kết Mục đích nghiên cứu - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh - Hệ thống OCR - Công nghệ mã nguồn mở Tesseract OCR - Tạo ứng dụng nhận dạng ký hiệu văn dựa mã nguồn mở Tesseract OCR Ý nghĩa khoa học thực tiễn đề tài 3.1 Ý nghĩa khoa học - Nghiên cứu lý thuyết nhận dạng xử lý ảnh dựa mã nguồn mở Tesseract OCR hệ thống OCR 3.2 Ý nghĩa thực tiễn - Đề xuất giải pháp góp phần tăng hiệu việc quản lý văn quan Tỉnh đoàn Quảng Ngãi Mục tiêu nhiệm vụ 4.1 Mục tiêu - Hỗ trợ cán văn thư việc lưu văn bản, quản lý văn phát hành văn đến - Tự động hóa việc lưu trữ để giúp cán văn thư dễ dàng tìm kiếm văn cần 4.2 Nhiệm vụ - Tìm hiểu tổng quan phương pháp dạy máy học - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh - Tạo ứng dụng nhận dạng ký hiệu văn rời rạc dựa mạng noron mã nguồn mở Tesseract OCR - Xây dựng chương trình, cài đặt, kiểm thử đánh giá Bố cục luận văn Cấu trúc luận văn trình bày bao gồm phần sau: MỞ ĐẦU: Giới thiệu sơ lý chọn đề tài, mục đích nghiên cứu, đối tượng phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học thực tiễn đề tài CHƯƠNG 1: CÁC PHƯƠNG PHÁP NHẬN DẠNG Giới thiệu tổng quan phương pháp nhận dạng văn áp dụng hệ thống nhận dạng từ trước đến CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI Trong chương tác giả đề xuất phương pháp xây dựng hệ thống phân loại văn Tỉnh Đồn Quảng Ngãi trình bày khối chức phương pháp nhận dạng văn theo loại quan CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ Trong chương này, tác giả xin trình bày hệ thống nhận dạng văn quan Tỉnh Đoàn Quảng Ngãi xây dựng trình thực nghiệm đánh giá kết CHƯƠNG CÁC PHƯƠNG PHÁP NHẬN DẠNG 1.1 Học máy 1.1.1 Khái niệm Học máy lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính "học" Cụ thể hơn, học máy phương pháp để tạo chương trình máy tính việc phân tích tập liệu Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận xếp vào loại tốn khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý Học máy có tính ứng dụng cao bao gồm máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trò chơi cử động rô-bốt 1.1.2 Các phương pháp học máy 1.1.2.1 Học khơng giám sát 1.1.2.2 Học có giám sát 1.1.2.3 Học bán giám sát 1.1.2.4 Học tăng cường 1.2 Các phương pháp nhận dạng 1.2.1 Máy véc-to hỗ trợ (SVM) Máy vectơ hỗ trợ (SVM – viết tắt tên tiếng Anh support vector machine) khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy SVM dạng chuẩn nhận liệu vào phân loại chúng vào hai lớp khác Do SVM thuật toán phân loại nhị phân Với ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng mơ hình SVM để phân loại ví dụ khác vào hai thể loại Một mơ hình SVM cách biểu diễn điểm không gian lựa chọn ranh giới hai thể loại cho khoảng cách từ ví dụ luyện tập tới ranh giới xa Các ví dụ biểu diễn không gian thuật toán dự đoán thuộc hai thể loại tùy vào ví dụ nằm phía ranh giới Một máy vectơ hỗ trợ xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vô hạn chiều, sử dụng cho phân loại, hồi quy, nhiệm vụ khác Một cách trực giác, để phân loại tốt siêu phẳng nằm xa điểm liệu tất lớp (gọi hàm lề) tốt, nói chung lề lớn sai số tổng qt hóa thuật toán phân loại bé Trong nhiều trường hợp, phân chia lớp liệu cách tuyến tính khơng gian ban đầu dùng để mơ tả vấn đề Vì vậy, nhiều cần phải ánh xạ điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng khơng gian Để việc tính tốn hiệu quả, ánh xạ sử dụng thuật toán SVM đòi hỏi tích vơ hướng vectơ liệu khơng gian tính dễ dàng từ tọa độ không gian cũ Tích vơ hướng xác định hàm hạt nhân K(x,y) phù hợp Một siêu phẳng không gian định nghĩa tập hợp điểm có tích vơ hướng với vectơ cố định khơng gian số Vectơ xác định siêu phẳng sử dụng SVM tổ hợp tuyến tính vectơ liệu luyện tập không gian với hệ số αi Với siêu phẳng lựa chọn trên, điểm x không gian đặc trưng ánh xạ vào siêu mặt phẳng điểm thỏa mãn: ∑ ( ) Ghi K(x,y) nhận giá trị ngày nhỏ y xa dần khỏi x số hạng tổng dùng để đo độ tương tự x với điểm xi tương ứng liệu luyện tập Như vậy, tác dụng tổng so sánh khoảng cách điểm cần dự đoán với điểm liệu biết Lưu ý tập hợp điểm x ánh xạ vào siêu phẳng có độ phức tạp tùy ý khơng gian ban đầu, nên phân tách tập hợp chí khơng lồi không gian ban đầu Ưu điểm SVM Nhược điểm SVM 1.2.2 Phương pháp tiếp cận cấu trúc Cách tiếp cận phương pháp dựa vào việc mô tả đối tượng nhờ số khái niệm biểu diễn đối tượng sở ngôn ngữ tự nhiên Để mô tả đối tượng người ta dùng số dạng nguyên thủy đoạn thẳng, cung,… Mỗi đối tượng mô tả kết hợp dạng nguyên thủy Các quy tắc kết hợp dạng nguyên thủy xây dựng giống việc nghiên cứu văn phạm ngơn ngữ, q trình định nhận dạng q trình phân tích cú pháp Phương pháp đặt vấn đề để giải toán nhận dạng chữ tổng quát Tuy vậy, nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa giải độc lập xây dụng thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúc phổ biến trích trọn đặc trung mẫu học, phân hoạch bảng ký tự dựa đặc trưng này, sau ảnh cần nhận dạng trích chọn đặc trưng, sau so sánh bảng phân hoạch để tìm ký tự có đặc trưng phù hợp Các phương pháp cấu trúc áp dụng cho toán nhận dạng chữ phát triển theo hai hướng sau: 1.2.2.1 Phương pháp đồ thị (Graphical Methods) 1.2.2.2 Phương pháp ngữ pháp (Grammatical Methods) 1.2.3 Mơ hình Markov ẩn (HMM – Hidden Markov Model) Mơ hình Markov ẩn (tiếng Anh Hidden Markov Model - HMM) mơ hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số khơng biết trước nhiệm vụ xác định tham số ẩn từ tham số quan sát được, dựa thừa nhận Các tham số mô hình rút sau sử dụng để thực phân tích kế tiếp, ví dụ cho ứng dụng nhận dạng mẫu Trong mô hình Markov điển hình, trạng thái quan sát trực tiếp người quan sát, xác suất chuyển tiếp trạng thái tham số Mơ 10 Sự tiến hóa mơ hình Markov … x(t-1) y(t-1) x(t) y(t) x(t+1) y(t+1) Hình 1.3: Biểu đồ chuyển tiếp trạng thái mơ hình Markov Biểu đồ làm bật chuyển tiếp trạng thái mơ hình Markov ẩn Nó có ích để biểu diễn rõ ràng tiến hóa mơ hình theo thời gian, với trạng thái thời điểm khác t1 t2 biểu diễn tham biến khác nhau, x(t1) x(t2) Trong biểu đồ này, hiểu thời gian chia cắt (x(t), y(t)) mở rộng tới thời gian trước sau cần thiết Thơng thường lát cắt sớm thời gian t=0 hay t=1 Sử dụng mơ hình Markov Có ba vấn đề để giải HMM: Cung cấp cho mơ hình tham số, tính xác suất dãy đầu cụ thể Giải thuật toán tiến trước (thuật tốn tham lam) … 11 Cung cấp cho mơ hình tham số, tìm dãy trạng thái (ẩn) có khả lớn mà sinh dãy đầu cung cấp Giải thuật toán Viterbi Cung cấp dãy đầu ra, tìm tập hợp có khả chuyển tiếp trạng thái xác suất đầu Giải thuật toán Baum-Welch Các ứng dụng Sự nhận biết lời nói hay nhận biết ký tự quang học Quy trình ngơn ngữ tự nhiên Tin sinh học hệ gen học: Dự đoán vùng mang mã (khung đọc mở) trình từ gene Xác định họ gene họ protein liên quan Mô cấu trúc không gian protein từ trình tự amino acid nhiều 1.2.4 Đối sánh mẫu Kỹ thuật nhận dạng chữ đơn giản dựa sở đối sánh nguyên mẫu (prototype) với để nhận dạng ký tự từ Nói chung, tốn tử đối sánh xác định mức độ giống hai véc tơ (nhóm điểm, hình dạng, độ cong ) khơng gian đặc trưng Các kỹ thuật đối sánh nghiên cứu theo ba hướng sau: Đối sánh trực tiếp: Một ký tự đầu vào ảnh đa cấp xám ảnh nhị phân so sánh trực tiếp với tập 12 mẫu chuẩn lưu trữ Việc so sánh dựa theo độ đo tương đồng (chẳng hạn độ đo Euclide) để nhận dạng Các kỹ thuật đối sánh đơn giản việc so sánh – phức tạp định Mặc dù phương pháp đối sánh trực tiếp đơn giản có sở toán học vững kết nhận dạng nhạy cảm với nhiễu 1.2.5 Mạng nơ ron Một mạng nơ ron định nghĩa cấu trúc tính tốn bao gồm nhiều xử lý “nơ ron” kết nối song song chằng chịt với Do chất song song nơ ron nên thực tính tốn với tốc độ cao so với kỹ thuật phân lớp khác Một mạng nơ ron chưa nhiều nút, đầu nút sử dụng cho nút khác mạng hàm định cuối phụ thuộc vào tương tác phức tạp nút Mặc dù nguyên lý khác nhau, hầu hết kiến trúc mạng nơ ron tương đương với phương pháp nhận dạng mẫu thống kê Các kiến trúc mạng nơ ron phân tành hai nhóm chính: mạng truyền thẳng mạng lan truyền ngược Trong hệ thống nhận dạng chữ, mạng nơ ron sử dụng phổ biến mạng perceptron đa lớp thuộc nhóm mạng truyền thẳng mạng SOM (Self Origanizing Map) Kohonen thuộc nhóm mạng lan truyền ngược 13 Mạng perceptron đa lớp đề xuất Rosenblatt nhiều tác giả sử dụng hệ thống nhận dạng Hầu hết nghiên cứu phát triển nhận dạng chữ viết tập trung vào mạng SOM SOM kết hợp trích chọn đặc trưng nhận dạng tập lớn ký tự huấn luyện Mạng chứng tỏ tương đương với thuật toán phân cụm k-means 1.2.5.1 Đặc trưng mạng nơ ron 1.2.5.1.1 Tính phi tuyến 1.2.5.1.2 Tính chất tương ướng đầu vào đầu 1.2.5.1.3 Tính chất thích nghi 1.2.5.1.4 Tính chất đưa lời giải có chứng 1.2.5.1.5 Tính chất chấp nhận sai xót 1.2.5.1.6 Khả cài đặt VLSI(Very-large-scaleintergrated) 1.2.5.1.7 Tính chất đồng dạng phân tích thiết kế 1.2.6 Nhận dạng ký tự quang học – OCR Nhận dạng ký tự quang học (tiếng anh: Optical Character Recognition, viết tắt OCR), loại phần mềm máy tính tạo để chuyển hình ảnh chữ viết tay chữ đánh máy (thường quét máy scanner) thành văn tài liệu OCR hình thành từ lĩnh vực nghiên cứu nhận dạng mẫu, trí tuệ nhân tạo machine vision Mặc dù công việc nghiên cứu học thuật tiếp tục, phần công việc OCR chuyển 14 sang ứng dụng thực tế với kỹ thuật chứng minh Nhận dạng ký tự quang học (dùng kỹ thuật quang học chẳng hạn gương ống kính) nhận dạng ký tự số (sử dụng máy quét thuật toán máy tính) lúc đầu xem xét hai lĩnh vực khác Bởi có ứng dụng tồn với kỹ thuật quang học thực sự, thuật ngữ Nhận dạng ký tự quang học mở rộng bao gồm ý nghĩa nhận dạng ký tự số Đầu tiên hệ thống nhận dạng yêu cầu phải huấn luyện với mẫu ký tự cụ thể Các hệ thống "thông minh" với độ xác nhận dạng cao hầu hết phông chữ trở nên phổ biến Một số hệ thống có khả tái tạo lại định dạng tài liệu gần giống với gốc bao gồm: hình ảnh, cột, bảng biểu, thành phần văn 1.3 Thách thức hệ thống nhận dạng 1.4 Kết chương Nội dung chương I trình bày nêu vấn đề phương pháp nhận dạng đối tượng nghiên cứu trước áp dụng để thực nghiên cứu đề tài Phương pháp đề xuất trình bày chi tiết chương 15 CHƯƠNG XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI Việc phân loại tài liệu có ký hiệu để lưu trữ, khai thác thơng tin hệ thống máy tính toán đặt Trên thực tế, cách để sử dụng thông tin ký hiệu phân loại phải gõ lại văn bàn phím để thêm vào hệ thống máy tính hay sử dụng làm đầu vào cách scan tự tay lưu vào thư mục loại văn Và với mong muốn tìm hiểu lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR) đóng góp thêm vào kho ứng dụng nhận dạng hệ thống nhận dạng thiết thực, hữu ích Vì luận văn tơi đề xuất phương pháp xử lý để xây dựng hệ thống “Phân loại văn Tỉnh đoàn Quảng Ngãi” 2.1 Xây dựng hệ thống 2.1.1 Giới thiệu toán Trong luận văn này, xây dựng hệ thống dùng để phân loại văn có sẵn quan Tỉnh Đồn Quảng Ngãi Ở lần nhận dạng, hệ thống “bổ sung” thêm liệu để huấn luyện, điều làm cho mơ hình nhận dạng ngày nâng cao tỉ lệ nhận dạng Đây kỹ thuật thể rõ nét phương pháp học tăng cường học máy Với liệu hình ảnh ban đầu, hệ thống nhận dạng phân loại văn nhận dạng tất file pdf có sẵn hệ thống máy tính người dùng định phân loại 16 loại văn khác theo loại với để người dùng tiện quản lý, lưu trữ tìm kiếm 2.1.2 Phương pháp đề xuất Văn Tiền xử lý Tách chữ Định hướng tập trung Chọn vùng đặc Huấn luyện Hậu xử lý Văn Hình 2.1: Quy trình xử lý ứng dụng nhận dạng ký tự quang học 2.2 Quy trình xử lý nhận dạng 2.2.1 Tiền xử lý 17 Giai đoạn góp phần làm tăng độ xác phân lớp hệ thống nhận dạng, nhiên làm cho tốc độ nhận dạng hệ thống chậm lại Vì vậy, thuộc vào chất lượng quét ảnh vào văn cụ thể để chọn một vài chức khối Nếu cần ưu tiên tốc độ xử lý chất lượng máy qt tốt bỏ qua giai đoạn Khối tiền xử lý bao gồm số chức năng: Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh 2.2.1.1 Nhị hóa ảnh 2.2.1.2 Lọc nhiễu 2.2.1.3 Chuẩn hóa kích thước ảnh 2.2.2 Khối tách chữ Khối có nhiệm vụ tách ký tự khỏi văn Chỉ văn tách cô lập ký tự đơn khỏi tổng thể văn bản hệ thống nhận dạng ký tự Sau phương pháp tách chữ thông dụng: 2.2.2.1 Tách chữ dùng lược đồ sáng 2.2.2.2 Tách chữ theo chiều nằm ngang thẳng đứng 2.2.3 Trích chọn đặc trưng Trích chọn đặc trưng đóng vai trò quan trong hệ thống nhận dạng Trong trường hợp đơn giản nhất, ảnh đa cấp xám ảnh nhị phân sử dụng cho việc nhận dạng Tuy nhiên, hầu hết hệ nhận dạng, để giảm độ phức tạp tăng độ xác thuật tốn phân lớp đòi hỏi đặc trưng trích chọn phải rút 18 gọn lại nhỏ tốt phải đảm bảo thông tin ký tự Với mục tiêu này, luận án tập trung định hướng vị trí ảnh đưa vào từ đầu để nhận dạng từ ban đầu 2.2.4 Huấn luyện nhận dạng Đây giai đoạn quan trọng nhất, giai đoạn định độ xác hệ thống nhận dạng Có nhiều phương pháp phân lớp khác áp dụng cho hệ thống nhận dạng ký tự quang học 2.2.5 Hậu xử lý Đây công đoạn cuối q trình nhận dạng Có thể hiểu hậu xử lý bước ghép nối ký tự nhận dạng thành từ dạy học trước nhằm tái lại thể loại văn đồng thời phát lỗi nhận dạng sau cách kiểm tra dựa cấu trúc huấn luyện Việc phát lỗi, sai sót nhận dạng bước góp phần đáng kể vào việc nâng cao chất lượng nhận dạng 2.3 Bố cục văn thực tế Tỉnh Đoàn Quảng Ngãi Ví dụ vùng văn Tỉnh đoàn Quảng Ngãi 2.4 Tổng quan hệ thống văn Tỉnh đoàn Tỉnh đoàn Quảng Ngãi giống sở ban ngành khác tỉnh, hàng năm quan Tỉnh đoàn phát hành với số lượng gần 3.000 văn khác với số lượng lớn liệu cơng tác lưu trữ, phân loại tìm kiếm nhiều lúc khó khăn Tơi xin phân loại loại văn cụ thể sau: 19 2.4.1 Thể loại Công văn 2.4.2 Thể loại Kế hoạch 2.4.3 Thể loại Báo cáo 2.4.4 Thể loại Chương trình 2.4.5 Thể loại Đề án 2.4.6 Thể loại Giấy mời 2.4.7 Thể loại Hướng dẫn 2.4.8 Thể loại Kết luận 2.4.9 Thể loại Quyết định 2.4.10 Thể loại Thông báo 2.4.11 Thể loại Thông tri 20 CHƯƠNG TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ Trong chương 3, tác giả xin trình bày hệ thống nhận dạng văn quan Tỉnh Đoàn Quảng Ngãi Ở chương này, tác giả xây dựng trình thực nghiệm đánh giá kết 3.1 Chức chương trình Nhận văn đầu vào Tiền xử lý Hiển thị lưu trữ Nhận dạng Hậu xử lý Hình 3.1: Chức chương trình 3.1.1 Nhận văn đầu vào 3.1.2 Tiền xử lý 3.1.3 Nhận dạng 3.1.4 Hậu xử lý 3.1.5 Hiển thị lưu trữ 3.2 Môi trường thực nghiệm 3.2.1 Dữ liệu sử dụng 21 3.2.2 Giao diện chương trình Hình 3.4: Giao diện chương trình Dựa kiến thức học, luận văn xây dựng ứng dụng máy tính hệ thống nhận dạng văn Tỉnh Đoàn Quảng Ngãi bao gồm chức sau đây: Nhận dạng văn có sẵn máy tính với tệp lưu trữ từ trước với đuôi PDF Scan trực tiếp từ văn ban hành quan Cập nhật thơng tin văn có quan Tỉnh Đoàn Bổ sung nâng cao văn Sở Ban ngành ký kết với quan Tỉnh Đồn Quảng Ngãi Kiểm tra văn nhận dạng có xác hay khơng 22 Mơi trường thử nghiệm: Phần cứng: Máy tính Asus core i3, RAM 4GB Phần mềm: Ngôn ngữ sử dụng: C# Visual Studio 2013 3.2.2.1 Chức cài đặt nâng cao 3.2.2.2 Chức Testing 3.2.2.3 Chức Scanning 3.3 Đánh giá kết Kết chương trình Demo thực nghiệm bước đầu cho kết tương đối xác với tập liệu mơ phỏng, tức nhận dạng văn phân loại văn theo loại phù hợp 3.3.1 Về cài đặt Sử dụng thành thạo ngơn ngữ lập trình C# xây dựng hệ thống sử dụng code C#, đồng thời sử dụng API Scan TWAIN bên thứ Vinta Software mà dùng free nên có xuất hộp thoại “About” nên người dùng bấm chọn “Evaluate” dùng bình thường 3.3.2 Về thực nghiệm Hệ thống cho phép nhận dạng dạng văn khác xác gần tuyệt đối, nhờ vào phương pháp nhận dạng quang học - OCR, điều có nghĩa liệu tập huấn luyện ngày bổ sung, nên kết nhận dạng cải thiện rõ ràng xác Những kết đạt đề tài sở tốt để xây dựng phần mềm phân loại văn 23 hoàn chỉnh để giải vấn đề lưu trữ xử lý vản hành quan Tỉnh đoàn Quảng Ngãi quan ban ngành khác triển khai toàn hệ thống hệ thống Đoàn Dưới kết thực nghiệm với tập liệu văn quan Tỉnh Đoàn Quảng Ngãi với hệ thống phân loại văn KẾT LUẬN Đã làm Bước đầu xây dựng mơ hình huấn luyện để nhận dạng văn quan Tỉnh Đoàn Quảng Ngãi, cách sử dụng phương pháp nhận dạng ký tự quang học –OCR, đặc biệt sử dụng thư viện Tessarect Xây dựng chương trình Demo Hệ thống nhận dạng phân loại văn quan Tỉnh Đoàn cho kết xác Kết trình phụ thuộc nhiều vào trình thu thập liệu huấn luyện phát hiện, nhận dạng Sau thời gian nghiên cứu xử lý ảnh, học máy tìm hiểu số sở lý thuyết áp dụng vào Hệ thống phân loại văn Tỉnh đoàn Quảng Ngãi 24 Hướng cải thiện Những kết đạt đề tài sở tốt để xây dựng phần mềm phân loại văn hoàn chỉnh, xử lý nhanh hơn, phân loại nhiều loại văn khác thể loại khau để giải vấn đề lưu trữ xử lý vản hành quan Tỉnh đoàn Quảng Ngãi quan ban ngành khác triển khai toàn hệ thống hệ thống Đoàn ... để xây dựng hệ thống Phân loại văn Tỉnh đoàn Quảng Ngãi 2.1 Xây dựng hệ thống 2.1.1 Giới thiệu toán Trong luận văn này, xây dựng hệ thống dùng để phân loại văn có sẵn quan Tỉnh Đồn Quảng Ngãi. .. cục văn thực tế Tỉnh Đồn Quảng Ngãi Ví dụ vùng văn Tỉnh đoàn Quảng Ngãi 2.4 Tổng quan hệ thống văn Tỉnh đoàn Tỉnh đoàn Quảng Ngãi giống sở ban ngành khác tỉnh, hàng năm quan Tỉnh đoàn phát hành... Hệ thống phân loại văn Tỉnh đoàn Quảng Ngãi 24 Hướng cải thiện Những kết đạt đề tài sở tốt để xây dựng phần mềm phân loại văn hoàn chỉnh, xử lý nhanh hơn, phân loại nhiều loại văn khác thể loại