KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân

Nhận dạng ký tự quang học tiếng Anh: Optical Character Recognition, viết tắt là OCR, là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy t

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT

KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN

TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019

Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân

Lâm Đồng, Tháng 06 năm 2019

Trang 2

DANH SÁCH TRÌNH BÀY BÁO CÁO TẠI HỘI NGHỊ NGHIÊN CỨU KHOAHỌC

SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019

CTK39/

Khoa Công nghệ Thông tin

ThS Nguyễn Minh Hiệp

ThS Thái Duy Quý

VTK39/

Khoa Vật lý

ThS Phan Văn Chuân

93

4 Đánh giá suất liều tia X trong

việc bảo quản tỏi tím

Cao Văn Hải

(Chủ nhiệm)

Nguyễn Quang Kiên

Trần Minh Hiễn

HNK41/

thuật Hạt nhân

ThS Phạm Thị Ngọc Hà

143

Trang 3

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019

SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN

KHOA CÔNG NGHỆ THÔNG TIN

Thuộc nhóm ngành khoa học: Công nghệ thông tin & Khoa học Tự nhiên

Chủ nhiệm đề tài: Nguyễn Văn Vương Nam, Nữ: Nam

Dân tộc: Kinh

Lớp, khoa: CTK39 – Công nghệ thông tin

Năm thứ: 4 - Số năm đào tạo: 4.5 năm

Ngành học: Công nghệ thông tin

Người hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý

Lâm Đồng, tháng 6/2019

Trang 4

Danh sách những thành viên

Sinh viên thực hiện

1 1510289 Nguyễn Văn Vương nguyenvanvuong972@gmail.com

2 1510198 Nghiêm Xuân Hiếu nghiemxuanhieu97@gmail.com

Giáo viên hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý

Trang 5

MỞ ĐẦU

Trải qua ba cuộc cách mạng công nghiệp, nhân loại đã thu được những thành tựu rực rỡ thay đổi hoàn toàn cuộc sống của con người Khoa học kỹ thuật được áp dụng dần dần thay thế cho sức

lao động của con người Tới nay, thời đại của nền Công nghiệp 4.0 lên ngôi, công nghệ thông tin

càng gần gũi hơn với con người Trí tuệ nhân tạo, vạn vật kết nối (IOT) và dữ liệu lớn (BIGDATA)

là những yêu tố cốt lõi và đang là những mối quan tâm hàng đầu Tới thời điểm hiện nay nhân loại cũng đã gặt hái được rất nhiều thành công trong nền công nghiệp 4.0: bác sỹ AI, trợ lý ảo thông mình, nhà máy không nhân công, nhà thông mình… Dễ dàng nhận thấy công nghệ thông tin hỗ trợ đắc lực cho con người, giúp công việc trở nên đơn giản, nhanh chóng và thuận lợi hơn, mọi phần mềm ứng dụng tương ứng với từng chức năng cụ thể cũng ra đời theo nhu cầu của từng ngành nghề [5] Việc ứng dụng công nghệ chuyển đổi hình ảnh sang chữ hiện nay đang rất phát triển gọi chung là “nhận dạng ký tự quang học”

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các

kỹ thuật đã được chứng minh [6]

Hiện nay ở Việt Nam hầu như việc lưu trữ văn bản giấy tờ vẫn còn dùng cách thủ công Việc này gây rất nhiều khó khăn trong việc lưu trữ, quản lý và bảo quản các văn bản này vì thường các văn bản giấy tờ thường rất nhiều, có thể lên tới hàng ngàn bản chỉ trong vòng một tháng Hơn nữa những đơn vị được giao việc quản lý các văn bản giấy tờ thường rất ít nhân lực càng gây khó khăn hơn, nếu nhiều nhân lực thì lại tốn nhiều chi phí hơn Khó khăn càng chồng khó khăn Chính

vì thế hiện tại không còn gì tuyệt vời hơn ngoài việc áp dụng khoa học kỹ thuật vào việc quản lý công văn bằng cách lưu chúng thành các văn kiện điện tử lưu vào trong máy tính đem lại rất nhiều lợi ích: vừa giảm chi phí, vừa dễ quản lý và cũng có thể triển khai trên diện rộng giúp đỡ rất nhiều cho con người [5]

Đề tài “Số hoá và rút trích tự động thông tin công văn khoa công nghệ thông tin” nhằm tìm hiểu kỹ thuật số hoá thông tin từ một công văn tiếng Việt, vốn là một hình chụp từ máy Scan Kỹ thuật số hoá bao gồm tìm hiểu các phần mềm VietOCR, ABBYY Từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

Trang 6

Bài báo cáo chúng em sẽ chia làm 4 chương để mô tả một cách chi tiết nhất ứng dụng

VDH-Scanner Trong phần đầu chúng em sẽ đưa ra một cách nhìn tổng quan nhất về dự án, phần tiếp theo

chúng em sẽ phân tích sâu vào công nghệ OCR và ứng dụng Tesseract để tìm hiểu chúng là gì và cách thức hoạt động thế nào để có thể đưa vào sử dụng Phần ba sẽ mô tả, phân tích áp dụng thuật toán Bayes Classifier để phân loại công văn Phần 4 sẽ nói về ứng dụng VHD-Scanner và những kết quả đã đạt được và cuối cùng chúng em sẽ đưa ra kết luận và đặt ra hướng phát triển của VHD-Scanner trong tương lai

Trang 7

Chương 1: Tổng quan

1.1 Giới thiệu tổng quan

Hiện nay, nhu cầu về việc lấy văn bản từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character

Recognition) hay còn được gọi tắt là OCR [5] Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh

Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản

để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word)

Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu OCR sẽ xuất ra ký tự trên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu Nhờ vậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc Tương tự, những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí, thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp [6]

Tuy nhiên thực trạng hiện nay chúng ta vẫn tỏ ra chậm chạp khi áp dụng khoa học công nghệ vào công việc đời sống hàng ngày, quen theo lối truyền thống dân tới càng ngày càng tụt hậu, hiệu quả chưa cao Nổi bật nhất trong ngành giáo dục nơi mà các giấy tờ đều gần như là giấy trắng mực đen với số lượng không tưởng khiến cho việc quản lý gặp không ít khó khăn Nhận thấy vậy dưới sự hướng dẫn của thạc sĩ Nguyễn Minh Hiệp, thành viên nhóm thuộc lớp CTK39 đã ứng dụng công nghệ nhận dạng ký tự quang học (OCR) để giải quyết khó khăn này Trong bài báo cáo này chúng em xin trình bày sơ lược về dự án mà chúng em đặt tên là VDH-Scanner

Mục tiêu của đề tài là triển khai giải pháp số hoá kho dữ liệu, chuyển đổi từ tài liệu dạng giấy lưu trữ trong các hồ sơ, tủ tài liệu sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

1.2 Tổng quan về ý tưởng phần mềm sẽ như sau:

Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu

Trang 8

Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

Về mục tiêu dự án:

Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR, ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

Về phạm vi triển khai:

 Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin

o Khoa công nghệ thông tin

 Giai đoạn 2: Triển khai trên toàn trường

o Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống

Về đối tượng sử dụng

 Ban Chủ nhiệm khoa

 Văn thư

 Giảng viên

Trang 9

Chương 2: Kỹ thuật nhận dạng ký tự quang học (Optical Character Recognition - OCR) 2.1 Giới thiệu kỹ thuật nhận dạng ký tự quang học

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR),

là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các

kỹ thuật đã được chứng minh [7]

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực

sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận

dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP

ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009

Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu

Trang 10

Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

2.2 Giới thiệu Tesseract

Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition –OCR) là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể chỉnh sửa trong máy tính Đầu vào của quá trình này là tập tin hình ảnh và đầu ra sẽ là các tập tin văn bản chứa nội dung là các chữ viết, ký hiệu có trong hình ảnh đó

Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu và phát triển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994 Vào năm 1995, Tesseract nằm trong nhóm ba bộ nhận dạng OCR đứng đầu về độ chính xác khi tham gia trong hội nghị thường niên của tổ chức UNLV [9]

Lúc mới khởi động thì Tesseract là một dự án nghiên cứu tiến sĩ tại phòng thí nghiệm HP ở Bristol và đã được tích hợp vào trong các dòng máy quét dạng phẳng của hãng dưới dạng các add-

on phần cứng hoặc phần mềm Nhưng thực tế dự án này đã thất bại ngay từ trong trứng nước vì nó chỉ làm việc hiệu quả trên các tài liệu in có chất lượng tốt [9]

Sau đó, dự án này cùng với sự cộng tác của bộ phận máy quét HP ở bang Colorado đã đạt được một bước tiến quan trọng về độ chuẩn xác khi nhận dạng và vượt lên nhiều bộ nhận dạng OCR thời đó nhưng dự án đã không thể trở thành sản phẩm hoàn chỉnh vì độ cồng kềnh và phức tạp Sau đó, dự án được đưa về phòng thí nghiệm của HP để nghiên cứu về cách thức nén và tối ưu

mã nguồn [10]

Dự án tập trung cải thiện hiệu năng làm việc của Tesseract dựa trên độ chính xác đã có Dự

án này được hoàn tất vào cuối năm 1994 và sau đó vào năm 1995 bộ Tesseract được gửi đi tham dự hội nghị UNLV thường niên về độ chính xác của OCR, vượt trội hơn hẳn so với các phần mềm OCR lúc bấy giờ Tuy nhiên, Tesseract đã không thể trở thành một sản phẩm thương mại hoàn chỉnh được và vào năm 2005, HP đã chuyển Tesseract sang mã nguồn mở và được hãng Google tài trợ [12]

Tesseract cho đến nay vẫn được nhiều nhà phát triển cộng tác và tiếp tục hoàn thiện Phiên bản mới nhất của bộ nhận dạng Tesseract là phiên bản 4.0

2.3 Cơ chế

Như đã giới thiệu ở bài viết trước, chúng ta đã được biết đến một công cụ nhận diện ký tự đang được phát triển bởi Google với bản quyền mã nguồn mở Apache 2.0

Như vậy, với cơ chế như thế nào mà Tesseract có thể mang đến sự hiệu quả cũng như được

sử dụng khá nhiều trong việc nhận dạng ký tự như hiện nay Về cơ bản, quá trình nhận diện sẽ diễn

Trang 11

ra từng bước trải qua bốn bước chính như phân tích layout, tìm kiếm dòng, tìm kiếm ký tự, nhận diện ký tự và chỉnh sửa kết quả [16]

Hì

nh 1 Kết quả phân tích của Tesseract OCR

Trước tiên, hình ảnh sẽ được phân tích để tìm ra các vùng kết nối (connected component) Bước này cho phép OCR dễ dàng nhận biết những vùng ký tự ngược để có thể nhận diện những ký

tự bên trong Trong Tesseract, những vùng chứa ký tự này được gọi là Blob [10]

Tiếp đến, những blob này sẽ tiếp tục được phân tích để tìm ra các dòng, rồi đến các ký tự Việc tìm các dòng sẽ được xử lý bởi thuật toán dựa vào vùng ký tự, cỡ chữ cùng toạ độ (trục x) Trong quá trình này, các blob cũng có thể được ghép với nhau nếu OCR nhận thấy chúng chứa các ký tự trong cùng một dòng Những blob được ghép phải trùng ít nhất 50% theo chiều ngang Sau

đó, các đường cơ sở (baseline) cũng được tìm kiếm nhờ vào việc quét các dòng đã được xác định [16]

Trang 12

Sau khi đã xác định được các dòng ký tự cùng các đối số tương ứng, dòng ký tự sẽ được chia nhỏ thành các từ dựa vào các ký tự phân cách Lúc này, văn bản cố định sẽ được chia nhỏ và tiến hành nhận diện Trong khi đó, văn bản không cố định hoặc chưa chắc chắn thì sẽ được chia nhỏ thành các từ dù chưa chắc chắn Nhưng nhờ vào bước nhận diện, chúng ta sẽ thu được kết quả cuối cùng chính xác hơn

Hình 2 Chia nhỏ các ký tự trong từ (fixed word)

Bước vào quá trình nhận diện, input của chúng ta sẽ được đánh giá, phân tích hai lần Ở lần đầu tiên, OCR sẽ nhận diện ký tự với kết quả phân tích ở bước trước đó Các kết quả nhận diện thoả mãn yêu cầu sẽ được đưa vào tập tin huấn luyện để hỗ trợ cho quá trình nhận diện lần thứ hai với các kết quả chưa đạt yêu cầu Đương nhiên, việc xác nhận kết quả có thoả mãn yêu cầu hay không cần phải dựa trên nhiều tiêu chí vì nhận diện nội dung phải trải qua một quá trình lặp đi lặp lại gồm các bước nhận diện ký tự, ghép ký tự và so khớp với từ điển Các tiêu chí đó bao gồm khoảng cách của các ký tự, độ phù hợp với từ điển và khoảng cách đến các dấu câu [16]

Trang 13

H ình 3 Quy trình nhận diện từ của Tesseract

Cuối cùng, OCR sẽ xử lý những dấu cách không rõ ràng cùng với xem xét các giả thiết khác cho việc định vị những ký tự in hoa nhỏ để đi đến kết quả cuối cùng

2.4 So sánh với công cụ khác

Vì Tesseract hiện nay là bộ thư viện mã nguồn mở hoàn toàn miễn phí nên trên thế giới đã có nhiều phần mềm nhận dạng ký tự quang học ra đời dựa trên bộ Tesseract

với giao diện và các tính năng dễ sử dụng hơn so với giao diện đơn giản của Tesseract

ban đầu như: VietOCR cho nhận dạng tiếng Việt, Tessenet phiên bản 2 bộ nhận diện Tesseract trên nền Net của Microsoft, giao diện Java (Java GUI frontend) cho Tesseract [17]…

Hỗ trợ hơn 192 ngôn ngữ Hỗ trợ trên 116 ngôn ngữ và đang tăng dần

Có giao diện đồ họa Không hỗ trợ giao diện đồ họa (dùng

Trang 14

Command Line để gõ lệnh)

Độ chính xác cao mới đây Độ chính xác cao từ năm 1995

Chi phí khá cao 130$ - 500 $ Hoàn toàn miễn phí (mã nguồn mở)

Không có phiên bản dành cho lập trình viên,

có API nhưng phải trả phí

Phù hợp với lập trình viên vì có thể nhúng vào các ngôn ngữ lập trình

Bảng 2.1 So sánh phần mềm thương mại và Tesseract

Trang 15

Chương 3: Rút trích thông tin và phân loại văn bản với mô hình Naive Bayes

3.1 Rút trích thông tin

Biểu thức chính quy (tiếng Anh: regular expression, viết tắt là regexp, regex hay regxp) là một chuỗi miêu tả một bộ các chuỗi khác, theo những quy tắc cú pháp nhất định Biểu thức chính quy thường được dùng trong các trình biên tập văn bản và các tiện ích tìm kiếm và xử lý văn bản dựa trên các mẫu được quy định Nhiều ngôn ngữ lập trình cũng hỗ trợ biểu thức chính quy trong việc xử lý chuỗi, chẳng hạn như Perl có bộ máy mạnh mẽ để xử lý biểu thức chính quy được xây dựng trực tiếp trong cú pháp của chúng Bộ các trình tiện ích (gồm trình biên tập sed và trình lọc grep) đi kèm các bản phân phối Unix có vai trò đầu tiên trong việc phổ biến khái niệm biểu thức chính quy [13]

Để thêm phần tiện lợi, nhóm đã tích hợp module bằng cách sử dụng biểu thức chính quy để rút trích thông tin từ văn bản cho phép người sử dụng ít phải can thiệp nhất Trong trường hợp lý tưởng, VHD-Scanner có thể tự tách các thông tin như: số văn bản, ngày ban hành, nội dung rút gọn, người ký… Song do các loại văn bản có kiểu bố cục, nội dung không đồng nhất nên việc rút trích còn gặp nhiều khó khăn chưa hoạt động thật sự tốt [15]

Hình 1: Code áp dụng biểu thức chính quy lấy ngày tháng năm từ văn bản

Và kết quả đạt được:

Hình 2: Việc điền thông tin hoàn toàn tự động sau khi scan từ file hình ảnh

Trang 16

3.2 Mô hình Naive Bayes Classifier

Xét bài toán classification với C classes 1,2,…, C Giả sử có một điểm dữ liệu x∈Rd Hãy tính xác suất để điểm dữ liệu này rơi vào class c Hay ta tính [2]:

Hoặc viết gọn thành p(c|x)

Biểu thức (2) thường khó được tính trực tiếp Thay vào đó, quy tắc Bayes thường được sử dụng [2]:

Giả sử các thành phần của biến ngẫu nhiên x là độc lập với nhau:

Ở bước training, các phân phối p(c) và p(xi|c),i=1,…,d sẽ được xác định dựa vào training

data Việc xác định các giá trị này có thể dựa vào Maximum Likelihood Estimation hoặc Maximum

A Posteriori

Trang 17

Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh bởi [2]:

3.3 Các phân phối xác suất

Multinomial Naive Bayes

Mô hình này chủ yếu được sử dụng trong phân loại văn bản mà feature vectors được tính bằng Bags

of Words [1]

Khi đó, p(xi|c) tỉ lệ với tần suất từ thứ i (hay feature thứ i cho trường hợp tổng quát) xuất hiện trong các văn bản của class c Giá trị này có thể được tính bằng cách [2][3]:

Nci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c

Nc là tổng số từ (kể cả lặp) xuất hiện trong class c

, từ đó

Trang 18

3.4 Ví dụ

V={Hanoi, pho, chaolong, buncha, omai, banhgio, saigon, hutiu, banhbo}

|V| = 9

Trang 19

Chương 4: Giới thiệu ứng dụng VHD - Scanner 4.1 Tổng quan về dự án

4.1.1 Tổng quan ý tưởng phần mềm:

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khảo nhau Bởi vì chi có rất ít các ứng dụng tổn tại với các kỹ thuật quang học thực

sự, bới vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt … VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Cảo trang tài liệu có thế được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu sô hỏa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt… Đây là một chương trình nguồn mở Java NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG và BMP

ABBYY một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học

đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009 Với công nghệ này đó chính xảo trong việc nhận dạng tài liệu chữ … Tiếng Việt lên tới hơn 99% (cử nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thảo tài liệu Với

Trang 20

định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm

có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu

Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

Hình 1: Sơ đồ luồng xử lý của VHD-Scanner

4.1.2 Mục tiêu dự án:

Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR,

ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

4.1.3 Phạm vi triển khai:

Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin

Khoa công nghệ thông tin Giai đoạn 2: Triển khai trên toàn trường

Trang 21

Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống

 Tin học hóa công tác quản lý công văn

 Loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

 Hỗ trợ việc tìm kiếm tra cứu thông tin liên quan đến công văn

 Hỗ trợ lưu trữ công văn dưới dạng số hoá

 Hỗ trợ thống kê báo cáo

4.2.2 Yêu cầu chức năng phần mềm

4.2.2.1 Quản lý phân quyền tiếp cận công văn

BCN Khoa:

- Người có thể nắm được hết thông tin của các loại công văn

- Xem thông tin chi tiết công văn

- Xem được các báo cáo, thống kê hàng tháng của văn thư

Văn thư:

- Người có trách nhiệm nhiều nhất trong việc chuyển giao, quản lý, lưu trữ công văn

Giảng viên:

- Người có quyền truy cập công văn theo quyền cho phép như : tìm kiếm, hiển thị, in ấn…

4.2.2.2 Quản lý quá trình tiếp nhận công văn:

- Lưu trữ kết quả xử lý và thông tin công văn ở các bước xử lý

- Phân loại công văn đến: Loại, Cơ quan phòng ban,

- Lưu trữ theo các bộ tập tài liệu

- Chuyển giao công văn

- Tìm kiếm và nhìn thấy toàn bộ quá trình xử lý của một vụ việc

4.2.2.3 Quản lý công văn:

- Tự động phân loại công văn

- Quản lý công văn: tìm kiếm, sắp xếp…

- Tìm kiếm văn bản, công văn trên hệ thống để đáp ứng nhu cầu người sử dụng Có thể thực hiện công việc tìm kiếm theo nhiều tiêu chí khác nhau

Trang 22

- Tìm kiếm công văn đến, công văn đi Cho phép tìm nhanh với từ khóa:

o Số công văn

o Ngày công văn

o Ngày nhận/gửi công văn

o Trích yếu

o Đơn vị người nhận/gửi

o Theo loại

4.2.2.4 Quản lý thống kê:

- Thống kê công văn đến/đi trong ngày/tháng/năm

- Thống kê công văn đến/đi theo loại

- Thống kê công văn đến/đi đã được lưu trữ

- Thống kê toàn bộ văn bản

- Thống kê theo nơi gửi, cơ quan ban ngành

- Thống kê công văn theo cấp quản lý Cấp Bộ/ Sở/ Phòng GD/ Trường

4.2.2.5 Đặc điểm người dùng:

- Mỗi một người dùng được ban quản trị cung cấp user và pass khác nhau; người dùng có thể thay đổi pass;

- Người dùng được phân biệt theo đơn vị;

- Người dùng được phân thành các nhóm quyền khác nhau: BCN Khoa; Văn thư; Giảng viên

- Sau khi đăng nhập, người dùng ứng với đơn vị nào, nhóm quyền nào thì thấy được thông tin và có các chức năng tương ứng trong phạm vi cho phép

4.2.2.6 Ràng buộc của hệ thống

- Khả năng của server có thể cho phép nhiều người dùng truy cập xử lý cùng một lúc

- Server phải đảm bảo khả năng bảo mật

4.2.2.7 Điều kiện tiên quyết và phụ thuộc

- Phần mềm hoạt động khi chạy trên hệ thống mạng ổn định

- Hệ thống máy chủ được duy trì hoạt động liên tục và có cơ chế sao lưu dữ liệu định kỳ

4.3 Đặc tả chi tiết yêu cầu phần mềm

4.3.1 Quản lý công văn đến

- Trình tự quản lý công văn đến:

- Tiếp nhận, đăng ký công văn đến

- Trình, chuyển giao văn bản đến

- Giải quyết và theo dõi, đôn đốc việc giải quyết công văn đến

Trang 23

4.3.1.1 Tiếp nhận, đăng ký công văn đến

- Công văn đến từ bất kỳ nguồn nào đều phải được tập trung tại văn thư cơ quan, tổ chức để làm thủ tục tiếp nhận, đăng ký Những công văn đến không được đăng ký tại văn thư, các đơn vị, cá nhân không có trách nhiệm giải quyết

- Văn thư tiếp nhận công văn và tiến hành lấy thông tin và nhập vào hệ thống Lưu lại Khi có phát sinh cần chỉnh sửa sẽ thực hiện

4.3.1.2 Trình chuyển giao văn bản đến

- Công văn đến phải được kịp thời trình cho người có trách nhiệm (BCN khoa) và chuyển giao cho các đơn vị, cá nhân giải quyết (văn thư) Công văn đến có dấu chỉ các mức độ khẩn phải được trình và chuyển giao ngay sau khi được nhận

- Việc chuyển giao công văn phải đảm bảo chính xác và giữ gìn bí mật nội dung công văn

4.3.1.3 Giải quyết và theo dõi, đôn đốc việc giải quyết công văn đến

- Người đứng đầu cơ quan, tổ chức (BCN khoa) có trách nhiệm chỉ đạo giải quyết kịp thời văn bản đến Văn thư, tổ chức được giao chỉ đạo giải quyết những công văn đến theo sự ủy nhiệm của người đứng đầu (BCN khoa) và những công văn đến thuộc các lĩnh vực được phân công phụ trách

- Người đứng đầu cơ quan tổ chức (BCN khoa) có trách nhiệm thực hiện”

- Xem xét toàn bộ công văn đến và báo cáo về những công văn quan trọng khẩn

- Phân công văn đến cho các đơn vị, cá nhân (Văn thư) giải quyết;

- Theo dõi, đôn đốc việc giải quyết văn bản đến

4.3.2 Quản lý công văn

4.3.2.1 Tất cả công văn do cơ quan, tổ chức phát hành (gọi chung là công văn đi) phải được quản lý theo trình tự sau:

- Công văn đến từ bất kỳ nguồn nào đều phải được tập trung tại văn thư cơ quan, tổ

- chức để làm thủ tục tiếp nhận, đăng ký Những công văn đến không được đăng ký tại

- văn thư, các đơn vị, cá nhân không có trách nhiệm giải quyết

- Văn thư tiếp nhận công văn và tiến hành lấy thông tin và nhập vào hệ thống, lưu lại

- Khi có phát sinh cần chỉnh sửa sẽ được thực hiện

 Kiểm tra thể thức, hình thức và kỹ thuật trình bày; ghi số, ký hiệu và ngày, tháng của công văn;

 Đóng dấu cơ quan và dấu mức độ khẩn, mật (nếu có);

 Đăng ký công văn đi;

 Làm thủ tục, chuyển phát và theo dõi việc chuyển phát công văn đi;

 Lưu công văn đi

Trang 24

4.3.2.2 Công văn được soạn thảo mới sẽ được nhập thông tin vào hệ thống để lưu trữ lại trước khi gửi đi

4.3.2.3 Dữ liệu quản lý công văn đi:

- Tên loại văn bản

- Trích yếu nội dung

 Phân quyền cho người dùng

 Sao lưu, phục hồi dữ liệu

- User (người dùng):

 Thao tác nghiệp vụ

 Đổi mật khẩu

- Hệ thống sẽ phân cấp người dùng tìm kiếm các công văn cần thiết khi có nhu cầu:

 Chỉ có admin, văn thư, lãnh đạo của cơ quan (BCN khoa) mới có thể nắm được hết thông tin

 của các loại công văn Khi xem thông tin chi tiết công văn cũng sẽ biết được người

 dùng nào đã nhập liệu, chỉnh sửa cuối cùng thông tin của các công văn

 Khi có sự cố lỗi nhập liệu sai, admin sẽ tìm được người chỉnh sửa cuối cùng thông qua lịch sử đăng nhập

Trang 25

 Người dùng bình thường không thể thấy được các công văn mật, công văn nội bộ trong cơ quan

4.3.4 Quản lý lưu trữ, tra cứu, thống kê, tìm kiếm:

4.3.4.1 Tìm kiếm công văn đến, công văn đi Cho phép tìm nhanh với từ khóa:

- Số công văn

- Ngày công văn

- Ngày nhận/gửi công văn

- Trích yếu

- Đơn vị người nhận/gửi

4.3.4.2 Thống kê

- Thống kê công văn đến/đi trong ngày/tháng/năm

- Thống kê công văn/đi theo loại

- Thống kê công văn/đi đã được lưu trữ

4.3.5 Phân loại người dùng

- Ta bắt đầu phân loại người dùng để giao các quyền riêng mà người dùng có Ở đây ta chia làm 3 loại:

 BCN Khoa :

 Người có thể nắm được hết thông tin của các loại công văn

 Xem thông tin chi tiết công văn

 Xem được các báo cáo, thống kê hàng tháng của văn thư

 Văn thư: người có trách nhiệm nhiều nhất trong việc chuyển giao, quản lý, lưu trữ công văn

 Giảng viên:Người có quyền truy cập công văn theo quyền cho phép như : tìm kiếm, hiển thị, in ấn…

4.3.6 Quản lý công văn

- Quản lý công văn đến:

 Phê duyệt và tiếp nhận công văn đến

 Phân loại công văn đến theo:

Trang 26

 Lưu trữ công văn

 Sau khi phân loại công văn tiến hành lưu trữ theo các bộ tập tài liệu

 Phân biệt bằng các màu và nhãn dán khác nhau

 Mỗi tầng của kệ hoặc màu tập sẽ phân biệt được mức độ bảo mật của công văn

đó

 Chuyển giao công văn

 Văn thư sẽ chuyển giao công văn tới các đơn vị phòng ban chịu trách nhiệm xử lý công văn đó

 Văn thư có thể chuyển công văn lên BCN Khoa nếu thấy có sai sót

- Quản lý công văn đi

 Soạn thảo công văn đi

 Viết công văn theo mẫu loại

 Gửi lên BCN Khoa để đóng dấu

 Kiểm tra thể thứ, hình thức và kỹ thuật trình bày ( ghi số, ký hiệu và ngày, tháng của công văn )

 Đóng dấu và dấu mức độ khẩn, mật ( nếu có)

 Đăng ký công văn đi:

 Là một hình thức lưu lại công văn đi để phòng trường hợp tra cứu, sửa đổi

 B2.2.5: Trưởng khoa ký duyệt công văn đi

 B2.2.6: Làm thủ tục, chuyển phát và theo dõi việc chuyển công văn đi

 B2.2.7: Lưu công văn đi

 B2.2.8: Xác nhận công văn đã tới nơi gửi

- Quản lý công văn nội bộ

 Soạn công văn nội bộ (thường do văn thư soạn thảo)

 Đưa lên BCN Khoa và các cơ quan ban ngành để bổ sung ý kiến

 BCN Khoa ký xác nhận, duyệt công văn

 Văn thư tiến hành lưu trữ công văn

4.3.7 Quản lý lưu trữ

- Lưu trữ công văn đến dạng:

 (Công văn được lưu trữ trong các kẹp giấy.)

 Lưu trữ theo ngày, tháng, năm ban hành

 Lưu trữ theo số hiệu

 Lưu trữ theo từng loại công văn

 Lưu trữ theo nơi gửi, nhận

Trang 27

- Lưu trữ công văn đi

 (Công văn đi được lưu ít nhất 2 bản; một bản lưu tại văn thư khoa, một bản lưu trong hồ sơ.)

 Lưu trữ trong các kẹp giấy

 Lưu trữ theo ngày tháng năm ban hành

 Lưu trữ theo số hiệu

 Lưu trữ theo từng loại công văn

 Lưu trữ theo nơi gửi, nhận

4.3.8 Quản lý thống kê

- Thống kê công văn sẽ được thực hiện theo:

 Thống kê công văn đến/đi trong ngày/tháng/năm

 Thống kê công văn đến/đi theo loại

 Thống kê công văn đến/đi đã được lưu trữ

 Thống kê toàn bộ văn bản

 Thống kê theo nơi gửi, cơ quan ban ngành

 Thống kê công văn theo cấp quản lý Cấp Bộ/ Sở/ Phòng GD/ Trường

 (Thông tin thống kê sẽ được hiển thị dạng bảng, biểu đồ)

 Ngày công văn

 Ngày nhận/gửi công văn

- Đăng ký công văn

- Tìm kiếm công văn

- Thêm công văn

- Xóa công văn

- Sửa công văn

Trang 28

- Hiển thị nội dung

4.3.10 Thông báo công văn

- B6.1: Chuyển giao công văn hoàn tất

- B6.2: Công bố nội dung công văn

- B6.3: Thông báo công văn sai nội dung, hình thức cần được kiểm lại

 Trình duyệt web IE6, FireFox,

 Bộ gõ tiếng việt Unikey

- Yêu cầu truyền thông

 Theo chuẩn của Bộ Thông tin truyền thông đối với các cơ quan nhà hành chính nước

 Truyền tập tin theo tiêu chuẩn – HTTP v1.1 (Hypertext Transfer Protocol version 1.1)

 Ngôn ngữ định dạng văn bản theo tiêu chuẩn – XML v1.0

 Trình diễn bộ ký tự UTF-8 (8-bit Universal Character Set (UCS)/Unicode

Transformation Format)

 Chuẩn nội dung web HTML v4.01 (Hypertext Markup Language version 4.01)

Trang 29

 Giao diện người dùng CSS2 (Cascading Style Sheets Language Level 2)

4.3.12 Yêu cầu thuộc tính phần mềm

- 1 Tính nhất quán

 Cơ chế dự phòng và hồi phục dữ liệu

 Tránh truy cập nặc danh, sử dụng quyền quản trị để quản lý và phân quyền người dùng

 Hệ thống phải tạo ra nhóm tác nghiệp theo chức năng và nhiệm vụ được giao trên cơ

sở của việc hạn chế mức truy cập của hệ thống

 4 Đánh giá hiệu quả hệ thống

 Hệ thống đáp ứng tốt khi số lượng người dùng và dữ liệu tăng; chỉ cần bổ sung nâng cấp server

- 5 Tính khả thi của hệ thống:

 Hệ thống triển khai làm 02 giai đoạn bảo đảm việc thử nghiệm thành công trên phạm

vi nhỏ sau đó triển khai trên toàn bộ hệ thống

 2 Giai đoạn bao gồm: Beta và Stable

 Dựa trên việc sử dụng thành công các phần mềm hỗ trợ chức năng chính của hệ thống

4.3.13 Yêu cầu cơ sở dữ liệu

- Với yêu cầu đặt ra: Quản lý tập trung thông tin và nội dung đơn thư khiếu nại tố cáo của công dân từ nhiều đơn vị xử lý khác nhau nên cần triển khai phần mềm tại các đơn vị có

hệ thống mạng riêng

- Vì vậy giải pháp để đảm bảo chương trình vận hành dùng chung cơ sở dữ liệu là: cài đặt cơ

sở dữ liệu và chương trình trên máy chủ của Trung tâm Tích hợp dữ liệu thành phố Các đơn vị sử dụng hệ thống thông qua Internet hoặc kết nối VPN

- Hệ quản trị cơ sở dữ liệu lựa chọn: SQL server 2005

Trang 30

4.3.14 Kế hoạch thực hiện dự án

- Giới thiệu về nhân sự

+Bàn giao dự án

+ Có kinh nghiệm quản lý và phối hợp

+ Bao quát chung

về công việc và

nội dung dự án…

+ Có kinh nghiệm quản lý, phân việc, báo cáo

- Lớp: CTK39

- Ngày sinh: 23/05/1997

- SĐT :0367896040

+ Khảo sát và phân tích hệ thống

+Thống nhất quá trình thiết kế

+ Thiết kế chương trình tổng thể +Kiểm thử

+ Có kỹ năng khảo sát, phân tích, chạy thử chương trình tốt

+Có kỹ năng lập trình tốt

- Lớp: CTK39

- Ngày sinh: 28/08//1997

- SĐT :0379286232

- Mail:

dan.dut.day@gmail.com

3 Nguyễn Văn

Vương

Thành viên

+ Khảo sát và phân tích hệ thống

+Tìm hiểu về hướng dẫn trình bày văn

+Có kỹ năng lập trình tốt

+Có kỹ năng thiết kế

- Lớp: CTK39

- Ngày sinh: 12/04/1996

Trang 31

bản

+Thiết kế chi tiết chương trình

+ Tổng hợp lập báo cáo

tốt

+Có kỹ năng tốt: MS Word, MS PowerPoint

- SĐT :037.552.8766

- Mail:

nguyenvanvuong972@gmail.com

- Lịch biểu công việc

 Thời gian tổng thể

Tổng thời gian dự án dự kiến là 6 tháng được phần chia như sau:

 Khảo sát và phân tích thiết kế hệ thống 3 tháng

 Lập trình 1 tháng

 kiểm thử các phần hệ, bàn giao từng phân hệ cho khách hàng, nhận yêu cầu sửa lỗi của khách hàng và tiến hành sửa lỗi 2 tháng

 Thanh lý hợp đồng

 Thời gian chi tiết:

 Công việc cụ thể được lên kế hoạch phân công thành các giai đoạn như sau:

 Ngày khởi công: 01/12/2018

Giai đoạn 1: Khảo sát:

Trang 32

Phỏng vấn 15 ngày 07/12/2018 21/12/2018

Giai đoạn 2: Phân tích và thiết kế hệ thống

Giai đoạn 3: Thiết kế cơ sở dữ liệu

Người thực hiện:

1 Nghiêm Xuân Hiếu

2 Nguyễn Văn Vương

3 Đàm Đức Duy

Bảng chi tiết:

Trang 33

Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc

Giai đoạn 4: Thiết kế giao diện

Thiết kế giao diện

Giao diện số hóa

công văn (user)

Giao diện thông tin

tài khoản (user)

Trang 34

Giao diện quản

Giao diện quản lý loại

công văn (admin)

Trang 35

2 Nguyễn Văn Vương

3 Nghiêm Xuân Hiếu

4.3.15: Demo

Trang 36

Hình 3: Giao diện đăng nhập hệ thống

Trang 37

Hình 4: Giao diện hệ thống

front-end

Hình 5: Giao diện scan file hình và thành quả

Trang 38

Hình 6: giao diện trang chính (back-end) 1

Hình 7: giao diện trang chính (back-end) 2

Trang 39

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Kết quả đạt được

Vậy là sau một khoảng thời gian dài nghiên cứu và thực hiện, VHD-Scanner đã đi vào hoạt động và đã chứng tỏ được sự hữu ích của nó và đạt được yêu cầu ban đầu đề ra Chương trình gọn nhẹ, đơn giản, dễ sử dụng được tích hợp responsive và được xây dựng trên nền web application nên có thể sử dụng trên mọi nền tảng Chương trình cũng áp dụng mô hình MVC nên việc bảo trì, nâng cấp

về sau cũng diễn ra một cách dễ dàng hơn

Hướng phát triển

Với những kết quả đạt được, đề tài dự kiến sẽ tiếp tục với những định hướng sau:

 Triển khai hệ thống vào thực tế (tại khoa công nghệ thông tin)

 Phát triển và bổ sung các chức năng bảo mật

 Phát triển các tính năng và cải thiện code để chương trình tốt hơn

 Phát triển module quản lý công văn

 Nâng phạm vi từ khoa ra toàn trường

TÀI LIỆU THAM KHẢO

[1] Caruana, R.; Niculescu-Mizil, A (2006) An empirical comparison of supervised learning algorithms Proc 23rd International Conference on Machine Learning

[2] McCallum, Andrew; Nigam, Kamal (1998) A comparison of event models for Naive Bayes text classification

[3] John, George H.; Langley, Pat (1995) Estimating Continuous Distributions in Bayesian

Classifiers Proc Eleventh Conf on Uncertainty in Artificial Intelligence Morgan Kaufmann [4] 6 Easy Steps to Learn Naive Bayes Algorithm (with code in Python)

[5] Y LeCun, L Bottou, Y Bengio, and P Haffner Gradient-based learning applied to document recognition Proceedings of the IEEE, november 1998

[6] Y LeCun, B Boser, J S Denker, D Henderson, R E Howard, W Hubbard, and L D Jackel Backpropagation applied to handwritten zip code recognition Neural Computation, 1(4):541-551, Winter 1989

[7] Y LeCun Generalization and network design strategies Technical Report CRG-TR-89-4, Department of Computer Science, University of Toronto, 1989

Trang 40

[9] Y LeCun, L Bottou, and Y Bengio Reading checks with graph transformer networks In International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 151-154, Munich, 1997

[10] B Boser, E Sackinger, J Bromley, Y LeCun, and L Jackel An analog neural network processor with programmable topology IEEE Journal of Solid-State Circuits, 26(12):2017-2025, December 1991

[12] R Vaillant, C Monrocq, and Y LeCun Original approach for the localisation of objects in images IEE Proc on Vision, Image, and Signal Processing, 141(4):245-250, August 1994

[13] Aho, Alfred V (1990) “Algorithms for finding patterns in strings” Trong van Leeuwen, Jan Handbook of Theoretical Computer Science, volume A: Algorithms and Complexity The MIT Press

[15] “The Single UNIX ® Specification, Version 2” The Open Group 1997

[16] https://tnquangblog.wordpress.com

[17] https://viblo.asia

Tiêu đề	Số Hóa Và Rút Trích Tự Động Thông Tin Công Văn
Tác giả	Nguyễn Văn Vương, Nghiêm Xuân Hiếu, Đàm Đức Duy
Người hướng dẫn	ThS. Nguyễn Minh Hiệp, ThS. Thái Duy Quý
Trường học	Trường Đại Học Đà Lạt
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo
Năm xuất bản	2019
Thành phố	Lâm Đồng

Định dạng
Số trang	198
Dung lượng	7,77 MB

KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân

Lịch sử chiếu xạ thực phẩm

Tác dụng gián tiếp