Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 46 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
46
Dung lượng
1,35 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019 SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CÔNG NGHỆ THÔNG TIN Thuộc nhóm ngành khoa học: Cơng nghệ thơng tin & Khoa học Tự nhiên Lâm Đồng, tháng 6/2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019 SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN KHOA CƠNG NGHỆ THƠNG TIN Thuộc nhóm ngành khoa học: Công nghệ thông tin & Khoa học Tự nhiên Chủ nhiệm đề tài: Nguyễn Văn Vương Nam, Nữ: Nam Dân tộc: Kinh Lớp, khoa: CTK39 – Công nghệ thông tin Năm thứ: - Số năm đào tạo: 4.5 năm Ngành học: Công nghệ thông tin Người hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý Lâm Đồng, tháng 6/2019 Danh sách thành viên Sinh viên thực hiện STT MSSV Họ tên Email 1510289 Nguyễn Văn Vương nguyenvanvuong972@gmail.com 1510198 Nghiêm Xuân Hiếu nghiemxuanhieu97@gmail.com 1510191 Đàm Đức Duy damducduy9a4@gmail.com Giáo viên hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý Mục lục Mục lục 42 MỞ ĐẦU 44 Chương 1: Tổng quan 46 1.1 Giới thiệu tổng quan 46 1.2 Tổng quan ý tưởng phần mềm sau: 48 Chương II: Giới thiệu kỹ thuật nhận dạng quang học (Optical Character Recognition-OCR) 50 2.1 Giới thiệu kỹ thuật nhận dạng quang học 50 2.2 Giới thiệu Tesseract 51 2.3 Cơ chế 52 2.4 So sánh với công cụ khác 54 Chương 3: Rút trích thơng tin phân loại văn với mơ hình Naive Bayes 56 3.1 Mô hình Naive Bayes Classifier 56 3.2 Các phân phối xác suất 57 Chương IV: Giới thiệu ứng VHD - Scanner 60 4.1 Tổng quan dự án 60 4.1.1 Tổng quan ý tưởng phần mềm: 60 4.1.2 Mục tiêu dự án: 61 4.1.3 Phạm vi triển khai: 62 4.1.4 Đối tượng sử dụng 62 4.2 Mô tả tóm tắt yêu cầu phần mềm 62 4.2.1 Định hướng sản phẩm 62 4.2.2 Yêu cầu chức phần mềm 62 4.3 Đặc tả chi tiết yêu cầu phần mềm 64 4.3.1 Quản lý công văn đến 64 4.3.2 Quản lý công văn 65 4.3.3 Quản lý người dùng 66 4.3.4 Quản lý lưu trữ, tra cứu, thống kê, tìm kiếm: 67 4.3.5 Phân loại người dùng 67 4.3.6 Quản lý công văn 67 4.3.7 Quản lý lưu trữ 68 4.3.8 Quản lý thống kê 69 4.3.9 Xử lý công văn 69 4.3.10 Thông báo công văn 70 4.3.11 Yêu cầu hệ thống 70 4.3.12 Yêu cầu thuộc tính phần mềm 71 4.3.13 Yêu cầu sở liệu 72 4.3.14 Kế hoạch thực dự án 73 Chương V: Kết luận hướng phát triển 82 5.1 Thành quả đạt 82 5.2 Hướng phát triển 82 TÀI LIỆU THAM KHẢO 83 MỞ ĐẦU Trải qua ba cách mạng công nghiệp, nhân loại thu thành tựu rực rỡ thay đổi hoàn toàn sống của người Khoa học kỹ thuật áp dụng thay cho sức lao động của người Tới nay, thời đại của nền Công nghiệp 4.0 lên ngôi, công nghệ thông tin gần gũi với người Trí tuệ nhân tạo, vạn vật kết nối (IOT) liệu lớn (BIGDATA) yêu tố cốt lõi mối quan tâm hàng đầu Tới thời điểm hiện nhân loại gặt hái nhiều thành công nền công nghiệp 4.0: bác sỹ AI, trợ lý ảo thơng mình, nhà máy khơng nhân cơng, nhà thơng mình… Dễ dàng nhận thấy công nghệ thông tin hỗ trợ đắc lực cho người, giúp cơng việc trở nên đơn giản, nhanh chóng thuận lợi hơn, phần mềm ứng dụng tương ứng với chức cụ thể đời theo nhu cầu của ngành nghề Việc ứng dụng cơng nghệ chuyển đổi hình ảnh sang chữ hiện phát triển gọi chung là “nhận dạng ký tự quang học” Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính tạo để chuyến các hình ảnh của chữ viết tay chữ đánh máy thường quét máy scanner) thành các văn tải liệu OCR hình thành từ lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật tiếp tục, phân công việc của OCR chuyển sang ứng dụng thực tế với các kỹ thuật chứng minh Hiện Việt Nam việc lưu trữ văn giấy tờ dùng cách thủ cơng Việc này gây nhiều khó khăn việc lưu trữ, quản lý và bảo quản các văn này thường các văn giấy tờ thường nhiều, lên tới hàng ngàn vòng tháng Hơn đơn vị giao việc quản lý các văn giấy tờ thường nhân lực càng gây khó khăn hơn, nhiều nhân lực lại tốn nhiều chi phí Khó khăn càng chồng khó khăn Chính hiện khơng tụt vời ngoài việc áp dụng khoa học kỹ thuật vào việc quản lý công văn cách lưu chúng thành các văn kiện điện tử lưu vào máy tính đem lại nhiều lợi ích: vừa giảm chi phí, vừa dễ quản lý và triển khai diện rộng giúp đỡ nhiều cho người Đề tài “Số hoá và rút trích tự động thơng tin cơng văn khoa cơng nghệ thơng tin” nhằm tìm hiểu kỹ thuật số hoá thông tin từ công văn tiếng Việt, vốn là hình chụp từ máy Scan Kỹ thuật số hoá bao gồm tìm hiểu các phần mềm VietOCR, ABBYY Từ nghiên cứu cách phân loại cơng văn và rút trích văn Đề tài hướng tới mục tiêu xây dựng ứng dụng rút trích thơng tin từ cơng văn Khoa Cơng nghệ Thông tin Chương 1: Tổng quan 1.1 Giới thiệu tổng quan Hiện nay, nhu cầu về việc lấy văn từ hình ảnh ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay gọi tắt là OCR Đây là cơng nghệ giúp chuyển đổi hình ảnh của chữ viết tay đánh máy thành các ký tự mã hóa máy tính Giả sử cần chỉnh sửa số tài liệu giấy như: Các bài viết tạp chí, tờ rơi, tập tin PDF hình ảnh Rõ ràng, sử dụng máy quét để chuyển các tài liệu này thành tập tin văn để chỉnh sửa (ví dụ trình soạn thảo Microsoft Word) Tất máy qt làm là tạo hình ảnh chụp của các tài liệu Để giải nén và sử dụng lại liệu từ tài liệu quét, hình ảnh máy ảnh hình ảnh của các tập tin PDF, cần phần mềm OCR Nó xuất ký tự hình ảnh, ghép chúng thành từ và sau ghép các từ thành câu Nhờ vậy, truy cập và chỉnh sửa nội dung của tài liệu gốc Tương tự, tài liệu cổ bị hư hại theo thời gian và việc viết tay hay đánh máy lại tài liệu này tốn nhiều chi phí, thời gian và khơng đảm bảo độ xác là sự an toàn cho tài liệu nền Việc này cần cơng nghệ lấy từ ngữ từ hình ảnh chụp Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu xem xét hai lĩnh vực khảo Bởi chi có các ứng dụng tổn với các kỹ thuật quang học thực sự, bới thuật ngữ Nhận dạng ký tự quang học mở rộng và bao gồm ý nghĩa nhận dạng ký tự số Đầu tiên hệ thống nhận dạng yêu cầu phải huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thơng minh" với độ xác nhận dạng cao hầu hết các phông chữ hiện trở nên phổ biến Một số hệ thống có khả tái tạo lại các định dạng của tài liệu gần giống với gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần khơng phải là văn Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt … VnDOCR 4.0 có khả nhận dạng trực tiếp các loại tài liệu quét qua máy quét, không cần lưu trữ dạng tệp ảnh trung gian Cảo trang tài liệu quét và lưu trữ dạng tệp tin nhiều trang Kết nhận dạng lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ tốt nhu cầu sơ hỏa liệu Ngoài ra, có dự án OCR Tiếng Việt có tên VietOCR, phát triển dựa nền tảng mã nguồn mở tesseract-ocr Google tài trợ VietOCR có khả nhận dạng chữ Việt tốt… Đây là chương trình nguồn mở Java NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG và BMP ABBYY - hãng công nghệ hàng đầu giới về lĩnh vực Nhận dạng ký tự quang học tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng năm 2009 Với công nghệ này xảo việc nhận dạng tài liệu chữ … Tiếng Việt lên tới 99% (cử nhận dạng 100 ký tự có chưa đến ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết nhận dạng lưu trữ các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF lớp, định dạng PDF lớp là định dạng hoàn hảo cho việc lưu trữ và khai thảo tài liệu Với định dạng này, người đọc đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm tìm kiếm toàn văn văn nhờ lớp text nhận dạng bên Tuy nhiên thực trạng hiện tỏ chậm chạp áp dụng khoa học công nghệ vào công việc đời sống hàng ngày, quen theo lối truyền thống dân tới ngày tụt hậu, hiệu chưa cao Nổi bật ngành giáo dục nơi mà giấy tờ đều gần là giấy trắng mực đen với số lượng không tưởng khiến cho việc quản lý gặp khơng khó khăn Nhận thấy sự hướng dẫn của thạc sĩ Nguyễn Minh Hiệp, thành viên nhóm thuộc lớp CTK39 ứng dụng cơng nghệ nhận dạng ký tự quang học (OCR) để giải khó khăn này Trong bài báo cáo này chúng em xin trình bày sơ lược về dự án mà chúng em đặt tên VDH-Scanner Mục tiêu của đề tài là triển khai giải pháp số hoá kho liệu, chuyển đổi từ tài liệu dạng giấy lưu trữ các hồ sơ, tủ tài liệu sang tài liệu dạng số lưu trữ máy tính, máy chủ các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của liệu, phục vụ cho cơng tác khai thác, thống kê, phân tích và dự báo hoạt động của khoa Bài báo cáo chúng em chia làm chương để mô tả cách chi tiết ứng dụng VDH-Scanner Trong phần đầu chúng em đưa cách nhìn tổng quan về dự án, phần chúng em phân tích sâu vào cơng nghệ OCR và ứng dụng Tesseract để tìm hiểu chúng là và cách thức hoạt động nào để đưa vào sử dụng Phần ba mơ tả, phân tích áp dụng thuật toán Bayes Classifier để phân loại công văn Phần nói về ứng dụng VHD-Scanner và kết đạt và cuối phần chúng em đưa kết luận, ưu nhược điểm và đặt hướng phát triển của VHD-Scanner tương lai 1.2 Tổng quan ý tưởng phần mềm sau: Nhận dạng ký tự quang học là loại phần mềm máy tính tạo để chuyển hình ảnh thành các văn tài liệu Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải chồng chéo Về mục tiêu dự án: Triển khai giải pháp số hoá kho liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ máy tính, máy chủ các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của liệu, phục vụ cho cơng tác khai thác, thống kê, phân tích và dự báo hoạt động của khoa Đề tài nhằm tìm hiểu kỹ thuật số hóa thơng tin từ cơng văn tiếng Việt, vốn là hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR, ABBYY,Tesseract, từ nghiên cứu cách phân loại cơng văn và rút trích văn Đề tài hướng tới mục tiêu xây dựng ứng dụng rút trích thơng tin từ cơng văn Khoa Công nghệ Thông tin Về phạm vi triển khai: Giai đoạn 1: Thử nghiệm khoa công nghệ thông tin Khoa công nghệ thông tin Giai đoạn 2: Triển khai toàn trường Phạm vi của hệ thống: Hệ thống truy cập thơng qua Internet ; có người khoa truy cập hệ thống Về đối tượng sử dụng - In công văn - Đăng ký cơng văn - Tìm kiếm cơng văn - Thêm cơng văn - Xóa cơng văn - Sửa cơng văn - Hiển thị nội dung 4.3.10 Thông báo công văn - B6.1: Chuyển giao công văn hoàn tất - B6.2: Công bố nội dung công văn - B6.3: Thông báo cơng văn sai nội dung, hình thức cần kiểm lại 4.3.11 Yêu cầu hệ thống - Yêu cầu phần cứng, phần mềm ▪ Máy chủ: • Phần cứng: ✓ Vi xử lý: Tối thiểu Xeon 2.0Ghz ✓ Bộ nhớ: 2GB RAM trở lên ✓ Bộ lưu trữ: SSD trống 10GB trở lên ✓ Mạng: Gbit/s • Phần mềm: ✓ MS Windows Server 2003 ✓ Database server: SQL Server 2005 ✓ webServer: IIS ✓ Hệ thống Firewall ▪ Máy trạm • Phần cứng: ✓ Vi xử lý tối thiểu 1.6Ghz ✓ 1GB RAM trở lên • Phần mềm: ✓ MS Windows trở lên ✓ Trình duyệt web IE6, FireFox, ✓ Bộ gõ tiếng việt Unikey - Yêu cầu truyền thông ▪ Theo chuẩn của Bộ Thông tin trùn thơng các quan nhà hành nước ▪ Truyền tập tin theo tiêu chuẩn – HTTP v1.1 (Hypertext Transfer Protocol version 1.1) ▪ Ngôn ngữ định dạng văn theo tiêu chuẩn – XML v1.0 ▪ Trình diễn ký tự UTF-8 (8-bit Universal Character Set (UCS)/Unicode Transformation Format) ▪ Chuẩn nội dung web HTML v4.01 (Hypertext Markup Language version 4.01) ▪ Giao diện người dùng CSS2 (Cascading Style Sheets Language Level 2) 4.3.12 Yêu cầu thuộc tính phần mềm - Tính quán ▪ Cơ chế dự phòng và hồi phục liệu ▪ Tránh truy cập nặc danh, sử dụng quyền quản trị để quản lý và phân quyền người dùng - Tính sẵn sàng ▪ Hệ thống máy chủ trì hoạt động liên tục ▪ Hệ thống mạng ln ln ổn định - Tính bảo mật ▪ Việc truy cập của người sử dụng phải kiểm soát theo định danh và mật riêng của người sử dụng, người sử dụng phải kiểm soát theo nhóm tác nghiệp hoạch định, quá trình truy cập vào hệ thống của người sử dụng phải kiểm soát ▪ Hệ thống phải tạo nhóm tác nghiệp theo chức và nhiệm vụ giao sở của việc hạn chế mức truy cập của hệ thống ▪ Đánh giá hiệu hệ thống ▪ Hệ thống đáp ứng tốt số lượng người dùng và liệu tăng; cần bổ sung nâng cấp server - Tính khả thi của hệ thống: ▪ Hệ thống triển khai làm 02 giai đoạn bảo đảm việc thử nghiệm thành công phạm vi nhỏ sau triển khai toàn hệ thống ▪ Giai đoạn bao gồm: Beta và Stable ▪ Dựa việc sử dụng thành công các phần mềm hỗ trợ chức của hệ thống 4.3.13 Yêu cầu sở liệu - Với yêu cầu đặt ra: Quản lý tập trung thông tin và nội dung đơn thư khiếu nại tố cáo của công dân từ nhiều đơn vị xử lý khác nên cần triển khai phần mềm các đơn vị có hệ thống mạng riêng - Vì giải pháp để đảm bảo chương trình vận hành dùng chung sở liệu là: cài đặt sở liệu và chương trình máy chủ của Trung tâm Tích hợp liệu thành phố Các đơn vị sử dụng hệ thống thông qua Internet kết nối VPN - Hệ quản trị sở liệu lựa chọn: SQL server 2005 4.3.14 Kế hoạch thực dự án - Giới thiệu về nhân sự STT Họ Tên Vị trí Nhiệm vụ Kỹ Ghi + Xây dựng kế + Có kinh nghiệm - Lớp: CTK39 hoạch dự án quản lý và phối - Ngày sinh: + Kiểm soát kỹ hợp thuật của dự án + Bao quát chung + Tổng hợp lập về công việc và báo cáo nội dung dự án… +Bàn giao dự án + Có kinh nghiệm nhân sự Nghiêm Trưởng Xuân Hiếu dự án quản lý, phân việc, 23/05/1997 - SĐT :0367896040 - Mail: nghiemxuanhieu9 7@gmail.com báo cáo Đàm Đức Thành + Khảo sát và phân + Có kỹ khảo Duy viên tích hệ thống +Thống quá trình thiết kế + Thiết kế chương sát, phân tích, chạy thử chương trình tốt +Có kỹ lập trình tốt trình tổng thể +Kiểm thử - Lớp: CTK39 - Ngày sinh: 28/08//1997 - SĐT :0379286232 - Mail: dan.dut.day@gm ail.com Nguyễn Thành + Khảo sát và phân +Có kỹ lập - Lớp: CTK39 Văn Vương viên tích hệ thống trình tốt +Tìm hiểu về +Có kỹ thiết kế hướng dẫn trình tốt bày văn - Ngày sinh: 12/04/1996 - SĐT +Có kỹ tốt: MS :037.552.8766 +Thiết kế chi tiết Word, MS chương trình PowerPoint + Tổng hợp lập - Mail: nguyenvanvuong 972@gmail.com báo cáo - Lịch biểu công việc ▪ Thời gian tổng thể Tổng thời gian dự án dự kiến là tháng phần chia sau: • Khảo sát và phân tích thiết kế hệ thống tháng • Lập trình tháng • kiểm thử các phần hệ, bàn giao phân hệ cho khách hàng, nhận yêu cầu sửa lỗi của khách hàng và tiến hành sửa lỗi tháng • Thanh lý hợp đồng ▪ Thời gian chi tiết: • Cơng việc cụ thể lên kế hoạch phân công thành các giai đoạn sau: • Ngày khởi công: 01/12/2018 Giai đoạn 1: Khảo sát: Người thực hiện: Nghiêm Xuân Hiếu Đàm Đức Duy Nguyễn Văn Vương Bảng chi tiết: Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc Quan sát ngày 02/12/2018 06/12/2018 Phỏng vấn 15 ngày 07/12/2018 21/12/2018 Điều tra thăm dò ngày 22/12/2018 26/12/2018 Giai đoạn 2: Phân tích và thiết kế hệ thớng Người thực hiện: Nghiêm Xuân Hiếu Đàm Đức Duy Nguyễn Văn Vương Bảng chi tiết: Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc Quản lý hệ thống ngày 28/12/2018 05/01/2019 Quản lý công văn ngày 06/01/2019 13/01/2019 Quản lý lưu trữ ngày 14/01/2019 21/01/2019 Quản lý thống kê ngày 22/01/2019 29/01/2019 Quản lý thông tin ngày 30/01/2019 06/02/2019 Giai đoạn 3: Thiết kế sở liệu Người thực hiện: Nghiêm Xuân Hiếu Nguyễn Văn Vương Đàm Đức Duy Nguyễn Văn Vương Bảng chi tiết: Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc Thiết kế sở ngày 07/02/2019 15/02/2019 Bảng công văn ngày 07/02/2019 09/02/2019 Bảng loại công văn ngày 10/02/2019 12/02/2019 Bảng tài khoản ngày 13/02/2019 15/02/2019 Ngày bắt đầu Ngày kết thúc liệu Giai đoạn 4: Thiết kế giao diện Người thực hiện: Nghiêm Xuân Hiếu Đàm Đức Duy Nguyễn Văn Vương Bảng chi tiết: Nhiệm vụ Số ngày làm Thiết kế giao diện 21 ngày 16/02/2019 06/03/2019 ngày 07/03/2019 09/03/2019 ngày 10/03/2019 11/03/2019 ngày 12/03/2019 13/03/2019 ngày 14/03/2019 15/03/2019 ngày 16/03/2019 17/03/2019 ngày 18/03/2019 19/03/2019 ngày 20/03/2019 23/03/2019 ngày 24/03/2019 25/03/2019 ngày 26/03/2019 27/03/2019 phần mềm Giao diện trang chủ (user) Giao diện đăng nhập(user) Giao diện số hóa cơng văn (user) Giao diện thông tin tài khoản (user) Giao diện quản lý(admin) Giao diện quản lý tài khoản(admin) Giao diện quản lý công văn(admin) Giao diện lĩnh vực(admin) Giao diện quản lý loại công văn (admin) Giai đoạn 5: Lập trình Người thực hiện: Đàm Đức Duy Nguyễn Văn Vương Bảng chi tiết: Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc Xây dựng các bảng ngày 28/03/2019 03/04/2019 Lập trình module ngày 04/04/2019 09/04/2019 ngày 10/04/2019 15/04/2019 ngày 16/04/2019 21/04/2019 ngày 22/04/2019 27/04/2019 quản lý hệ thống Lập trình module quản lý cơng văn Lập trình module lưu trữ cơng văn Lập trình module quản lý thống kê Giai đoạn 6: Kiểm thử, sửa lỗi và đánh giá Đàm Đức Duy Nguyễn Văn Vương Nghiêm Xuân Hiếu Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc Kiểm thử module 20 ngày 28/04/2019 17/05/2019 Kiểm thử tổng thể 20 ngày 18/05/2019 07/06/2019 Sửa lỗi 10 ngày 08/06/2019 17/06/2019 Đánh giá 10 ngày 18/06/2019 27/06/2019 4.3.15: Demo Hình 3: Giao diện đăng nhập hệ thống Hình 4: Giao diện hệ thống front-end Hình 5: Giao diện scan file hình thành Hình 6: giao diện trang (back-end) Hình 7: giao diện trang (back-end) Chương V: Kết luận và hướng phát triển 5.1 Thành quả đạt Vậy sau khoảng thời gian dài nghiên cứu thực hiện, VHD-Scanner vào hoạt động và chứng tỏ sự hữu ích của và đạt yêu cầu ban đầu đề Chương trình gọn nhẹ, đơn giản, dễ sử dụng tích hợp responsive và xây dựng nền web application nên sử dụng nền tảng Chương trình áp dụng mơ hình MVC nên việc bảo trì, nâng cấp về sau diễn cách dễ dàng 5.2 Hướng phát triển Với kết đạt được, đề tài dự kiến tiếp tục với định hướng sau: • Triển khai hệ thống vào thực tế (tại khoa công nghệ thông tin) • Phát triển bổ sung chức bảo mật • Phát triển các tính và cải thiện code để chương trình tốt • Phát triển module quản lý cơng văn • Nâng phạm vi từ khoa toàn trường TÀI LIỆU THAM KHẢO [1] Text Classification and Naive Bayes - Stanford [2] Exercise 6: Naive Bayes - Machine Learning - Andrew Ng [3] sklearn.naive_bayes [4] Easy Steps to Learn Naive Bayes Algorithm (with code in Python) [5] https://machinelearningcoban.com [6] https://daynhauhoc.com [7] https://tinhte.vn [8] https://daynhauhoc.com [9] https://github.com/tesseract-ocr/tesseract [10] https://en.wikipedia.org/wiki/Tesseract_(software) [11] http://vietunicode.sourceforge.net [12] https://opensource.google.com/projects/tesseract [13] https://www.learnopencv.com [14] https://www.pyimagesearch.com [15] https://www.freecodecamp.org [16] https://launchpad.net [17] https://techmaster.vn [18] https://dotnet.microsoft.com/apps/aspnet/mvc [19] https://www.tutorialspoint.com/asp.net_mvc/ [20] https://www.tutorialsteacher.com/mvc/asp.net-mvc-tutorials [21] https://www.dammio.com [18] https://tnquangblog.wordpress.com [19] https://viblo.asia ... kiếm công văn đến, công văn Cho phép tìm nhanh với từ khóa: - Số cơng văn - Ngày công văn - Ngày nhận/gửi công văn - Trích yếu - Đơn vị người nhận/gửi 4.3.4.2 Thớng kê - Thống kê công văn. .. công văn - Tìm kiếm và nhìn thấy toàn quá trình xử lý của vụ việc 4.2.2.3 Quản lý công văn: - Tự động phân loại công văn - Quản lý cơng văn: tìm kiếm, xếp… - Tìm kiếm văn bản, công văn. .. cơng văn • Văn thư chuyển giao cơng văn tới các đơn vị phòng ban chịu trách nhiệm xử lý cơng văn • Văn thư chuyển cơng văn lên BCN Khoa thấy có sai sót - Quản lý công văn ▪ Soạn thảo công văn