1. Trang chủ
  2. » Thể loại khác

KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân

198 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 198
Dung lượng 7,77 MB

Nội dung

Nhận dạng ký tự quang học tiếng Anh: Optical Character Recognition, viết tắt là OCR, là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy t

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT

KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN

TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019

Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân

Lâm Đồng, Tháng 06 năm 2019

Trang 2

DANH SÁCH TRÌNH BÀY BÁO CÁO TẠI HỘI NGHỊ NGHIÊN CỨU KHOAHỌC

SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019

CTK39/

Khoa Công nghệ Thông tin

ThS Nguyễn Minh Hiệp

ThS Thái Duy Quý

VTK39/

Khoa Vật lý

ThS Phan Văn Chuân

93

4 Đánh giá suất liều tia X trong

việc bảo quản tỏi tím

Cao Văn Hải

(Chủ nhiệm)

Nguyễn Quang Kiên

Trần Minh Hiễn

HNK41/

thuật Hạt nhân

ThS Phạm Thị Ngọc Hà

143

Trang 3

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019

SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN

KHOA CÔNG NGHỆ THÔNG TIN

Thuộc nhóm ngành khoa học: Công nghệ thông tin & Khoa học Tự nhiên

Chủ nhiệm đề tài: Nguyễn Văn Vương Nam, Nữ: Nam

Dân tộc: Kinh

Lớp, khoa: CTK39 – Công nghệ thông tin

Năm thứ: 4 - Số năm đào tạo: 4.5 năm

Ngành học: Công nghệ thông tin

Người hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý

Lâm Đồng, tháng 6/2019

Trang 4

Danh sách những thành viên

Sinh viên thực hiện

1 1510289 Nguyễn Văn Vương nguyenvanvuong972@gmail.com

2 1510198 Nghiêm Xuân Hiếu nghiemxuanhieu97@gmail.com

Giáo viên hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý

Trang 5

MỞ ĐẦU

Trải qua ba cuộc cách mạng công nghiệp, nhân loại đã thu được những thành tựu rực rỡ thay đổi hoàn toàn cuộc sống của con người Khoa học kỹ thuật được áp dụng dần dần thay thế cho sức

lao động của con người Tới nay, thời đại của nền Công nghiệp 4.0 lên ngôi, công nghệ thông tin

càng gần gũi hơn với con người Trí tuệ nhân tạo, vạn vật kết nối (IOT) và dữ liệu lớn (BIGDATA)

là những yêu tố cốt lõi và đang là những mối quan tâm hàng đầu Tới thời điểm hiện nay nhân loại cũng đã gặt hái được rất nhiều thành công trong nền công nghiệp 4.0: bác sỹ AI, trợ lý ảo thông mình, nhà máy không nhân công, nhà thông mình… Dễ dàng nhận thấy công nghệ thông tin hỗ trợ đắc lực cho con người, giúp công việc trở nên đơn giản, nhanh chóng và thuận lợi hơn, mọi phần mềm ứng dụng tương ứng với từng chức năng cụ thể cũng ra đời theo nhu cầu của từng ngành nghề [5] Việc ứng dụng công nghệ chuyển đổi hình ảnh sang chữ hiện nay đang rất phát triển gọi chung là “nhận dạng ký tự quang học”

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các

kỹ thuật đã được chứng minh [6]

Hiện nay ở Việt Nam hầu như việc lưu trữ văn bản giấy tờ vẫn còn dùng cách thủ công Việc này gây rất nhiều khó khăn trong việc lưu trữ, quản lý và bảo quản các văn bản này vì thường các văn bản giấy tờ thường rất nhiều, có thể lên tới hàng ngàn bản chỉ trong vòng một tháng Hơn nữa những đơn vị được giao việc quản lý các văn bản giấy tờ thường rất ít nhân lực càng gây khó khăn hơn, nếu nhiều nhân lực thì lại tốn nhiều chi phí hơn Khó khăn càng chồng khó khăn Chính

vì thế hiện tại không còn gì tuyệt vời hơn ngoài việc áp dụng khoa học kỹ thuật vào việc quản lý công văn bằng cách lưu chúng thành các văn kiện điện tử lưu vào trong máy tính đem lại rất nhiều lợi ích: vừa giảm chi phí, vừa dễ quản lý và cũng có thể triển khai trên diện rộng giúp đỡ rất nhiều cho con người [5]

Đề tài “Số hoá và rút trích tự động thông tin công văn khoa công nghệ thông tin” nhằm tìm hiểu kỹ thuật số hoá thông tin từ một công văn tiếng Việt, vốn là một hình chụp từ máy Scan Kỹ thuật số hoá bao gồm tìm hiểu các phần mềm VietOCR, ABBYY Từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

Trang 6

Bài báo cáo chúng em sẽ chia làm 4 chương để mô tả một cách chi tiết nhất ứng dụng

VDH-Scanner Trong phần đầu chúng em sẽ đưa ra một cách nhìn tổng quan nhất về dự án, phần tiếp theo

chúng em sẽ phân tích sâu vào công nghệ OCR và ứng dụng Tesseract để tìm hiểu chúng là gì và cách thức hoạt động thế nào để có thể đưa vào sử dụng Phần ba sẽ mô tả, phân tích áp dụng thuật toán Bayes Classifier để phân loại công văn Phần 4 sẽ nói về ứng dụng VHD-Scanner và những kết quả đã đạt được và cuối cùng chúng em sẽ đưa ra kết luận và đặt ra hướng phát triển của VHD-Scanner trong tương lai

Trang 7

Chương 1: Tổng quan

1.1 Giới thiệu tổng quan

Hiện nay, nhu cầu về việc lấy văn bản từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character

Recognition) hay còn được gọi tắt là OCR [5] Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh

Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản

để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word)

Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu OCR sẽ xuất ra ký tự trên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu Nhờ vậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc Tương tự, những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí, thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp [6]

Tuy nhiên thực trạng hiện nay chúng ta vẫn tỏ ra chậm chạp khi áp dụng khoa học công nghệ vào công việc đời sống hàng ngày, quen theo lối truyền thống dân tới càng ngày càng tụt hậu, hiệu quả chưa cao Nổi bật nhất trong ngành giáo dục nơi mà các giấy tờ đều gần như là giấy trắng mực đen với số lượng không tưởng khiến cho việc quản lý gặp không ít khó khăn Nhận thấy vậy dưới sự hướng dẫn của thạc sĩ Nguyễn Minh Hiệp, thành viên nhóm thuộc lớp CTK39 đã ứng dụng công nghệ nhận dạng ký tự quang học (OCR) để giải quyết khó khăn này Trong bài báo cáo này chúng em xin trình bày sơ lược về dự án mà chúng em đặt tên là VDH-Scanner

Mục tiêu của đề tài là triển khai giải pháp số hoá kho dữ liệu, chuyển đổi từ tài liệu dạng giấy lưu trữ trong các hồ sơ, tủ tài liệu sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

1.2 Tổng quan về ý tưởng phần mềm sẽ như sau:

Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu

Trang 8

Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

Về mục tiêu dự án:

Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR, ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

Về phạm vi triển khai:

 Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin

o Khoa công nghệ thông tin

 Giai đoạn 2: Triển khai trên toàn trường

o Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống

Về đối tượng sử dụng

 Ban Chủ nhiệm khoa

 Văn thư

 Giảng viên

Trang 9

Chương 2: Kỹ thuật nhận dạng ký tự quang học (Optical Character Recognition - OCR) 2.1 Giới thiệu kỹ thuật nhận dạng ký tự quang học

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR),

là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các

kỹ thuật đã được chứng minh [7]

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực

sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận

dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP

ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009

Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu

Trang 10

Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

2.2 Giới thiệu Tesseract

Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition –OCR) là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể chỉnh sửa trong máy tính Đầu vào của quá trình này là tập tin hình ảnh và đầu ra sẽ là các tập tin văn bản chứa nội dung là các chữ viết, ký hiệu có trong hình ảnh đó

Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu và phát triển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994 Vào năm 1995, Tesseract nằm trong nhóm ba bộ nhận dạng OCR đứng đầu về độ chính xác khi tham gia trong hội nghị thường niên của tổ chức UNLV [9]

Lúc mới khởi động thì Tesseract là một dự án nghiên cứu tiến sĩ tại phòng thí nghiệm HP ở Bristol và đã được tích hợp vào trong các dòng máy quét dạng phẳng của hãng dưới dạng các add-

on phần cứng hoặc phần mềm Nhưng thực tế dự án này đã thất bại ngay từ trong trứng nước vì nó chỉ làm việc hiệu quả trên các tài liệu in có chất lượng tốt [9]

Sau đó, dự án này cùng với sự cộng tác của bộ phận máy quét HP ở bang Colorado đã đạt được một bước tiến quan trọng về độ chuẩn xác khi nhận dạng và vượt lên nhiều bộ nhận dạng OCR thời đó nhưng dự án đã không thể trở thành sản phẩm hoàn chỉnh vì độ cồng kềnh và phức tạp Sau đó, dự án được đưa về phòng thí nghiệm của HP để nghiên cứu về cách thức nén và tối ưu

mã nguồn [10]

Dự án tập trung cải thiện hiệu năng làm việc của Tesseract dựa trên độ chính xác đã có Dự

án này được hoàn tất vào cuối năm 1994 và sau đó vào năm 1995 bộ Tesseract được gửi đi tham dự hội nghị UNLV thường niên về độ chính xác của OCR, vượt trội hơn hẳn so với các phần mềm OCR lúc bấy giờ Tuy nhiên, Tesseract đã không thể trở thành một sản phẩm thương mại hoàn chỉnh được và vào năm 2005, HP đã chuyển Tesseract sang mã nguồn mở và được hãng Google tài trợ [12]

Tesseract cho đến nay vẫn được nhiều nhà phát triển cộng tác và tiếp tục hoàn thiện Phiên bản mới nhất của bộ nhận dạng Tesseract là phiên bản 4.0

2.3 Cơ chế

Như đã giới thiệu ở bài viết trước, chúng ta đã được biết đến một công cụ nhận diện ký tự đang được phát triển bởi Google với bản quyền mã nguồn mở Apache 2.0

Như vậy, với cơ chế như thế nào mà Tesseract có thể mang đến sự hiệu quả cũng như được

sử dụng khá nhiều trong việc nhận dạng ký tự như hiện nay Về cơ bản, quá trình nhận diện sẽ diễn

Trang 11

ra từng bước trải qua bốn bước chính như phân tích layout, tìm kiếm dòng, tìm kiếm ký tự, nhận diện ký tự và chỉnh sửa kết quả [16]

Hì

nh 1 Kết quả phân tích của Tesseract OCR

Trước tiên, hình ảnh sẽ được phân tích để tìm ra các vùng kết nối (connected component) Bước này cho phép OCR dễ dàng nhận biết những vùng ký tự ngược để có thể nhận diện những ký

tự bên trong Trong Tesseract, những vùng chứa ký tự này được gọi là Blob [10]

Tiếp đến, những blob này sẽ tiếp tục được phân tích để tìm ra các dòng, rồi đến các ký tự Việc tìm các dòng sẽ được xử lý bởi thuật toán dựa vào vùng ký tự, cỡ chữ cùng toạ độ (trục x) Trong quá trình này, các blob cũng có thể được ghép với nhau nếu OCR nhận thấy chúng chứa các ký tự trong cùng một dòng Những blob được ghép phải trùng ít nhất 50% theo chiều ngang Sau

đó, các đường cơ sở (baseline) cũng được tìm kiếm nhờ vào việc quét các dòng đã được xác định [16]

Trang 12

Sau khi đã xác định được các dòng ký tự cùng các đối số tương ứng, dòng ký tự sẽ được chia nhỏ thành các từ dựa vào các ký tự phân cách Lúc này, văn bản cố định sẽ được chia nhỏ và tiến hành nhận diện Trong khi đó, văn bản không cố định hoặc chưa chắc chắn thì sẽ được chia nhỏ thành các từ dù chưa chắc chắn Nhưng nhờ vào bước nhận diện, chúng ta sẽ thu được kết quả cuối cùng chính xác hơn

Hình 2 Chia nhỏ các ký tự trong từ (fixed word)

Bước vào quá trình nhận diện, input của chúng ta sẽ được đánh giá, phân tích hai lần Ở lần đầu tiên, OCR sẽ nhận diện ký tự với kết quả phân tích ở bước trước đó Các kết quả nhận diện thoả mãn yêu cầu sẽ được đưa vào tập tin huấn luyện để hỗ trợ cho quá trình nhận diện lần thứ hai với các kết quả chưa đạt yêu cầu Đương nhiên, việc xác nhận kết quả có thoả mãn yêu cầu hay không cần phải dựa trên nhiều tiêu chí vì nhận diện nội dung phải trải qua một quá trình lặp đi lặp lại gồm các bước nhận diện ký tự, ghép ký tự và so khớp với từ điển Các tiêu chí đó bao gồm khoảng cách của các ký tự, độ phù hợp với từ điển và khoảng cách đến các dấu câu [16]

Trang 13

H ình 3 Quy trình nhận diện từ của Tesseract

Cuối cùng, OCR sẽ xử lý những dấu cách không rõ ràng cùng với xem xét các giả thiết khác cho việc định vị những ký tự in hoa nhỏ để đi đến kết quả cuối cùng

2.4 So sánh với công cụ khác

Vì Tesseract hiện nay là bộ thư viện mã nguồn mở hoàn toàn miễn phí nên trên thế giới đã có nhiều phần mềm nhận dạng ký tự quang học ra đời dựa trên bộ Tesseract

với giao diện và các tính năng dễ sử dụng hơn so với giao diện đơn giản của Tesseract

ban đầu như: VietOCR cho nhận dạng tiếng Việt, Tessenet phiên bản 2 bộ nhận diện Tesseract trên nền Net của Microsoft, giao diện Java (Java GUI frontend) cho Tesseract [17]…

Hỗ trợ hơn 192 ngôn ngữ Hỗ trợ trên 116 ngôn ngữ và đang tăng dần

Có giao diện đồ họa Không hỗ trợ giao diện đồ họa (dùng

Trang 14

Command Line để gõ lệnh)

Độ chính xác cao mới đây Độ chính xác cao từ năm 1995

Chi phí khá cao 130$ - 500 $ Hoàn toàn miễn phí (mã nguồn mở)

Không có phiên bản dành cho lập trình viên,

có API nhưng phải trả phí

Phù hợp với lập trình viên vì có thể nhúng vào các ngôn ngữ lập trình

Bảng 2.1 So sánh phần mềm thương mại và Tesseract

Trang 15

Chương 3: Rút trích thông tin và phân loại văn bản với mô hình Naive Bayes

3.1 Rút trích thông tin

Biểu thức chính quy (tiếng Anh: regular expression, viết tắt là regexp, regex hay regxp) là một chuỗi miêu tả một bộ các chuỗi khác, theo những quy tắc cú pháp nhất định Biểu thức chính quy thường được dùng trong các trình biên tập văn bản và các tiện ích tìm kiếm và xử lý văn bản dựa trên các mẫu được quy định Nhiều ngôn ngữ lập trình cũng hỗ trợ biểu thức chính quy trong việc xử lý chuỗi, chẳng hạn như Perl có bộ máy mạnh mẽ để xử lý biểu thức chính quy được xây dựng trực tiếp trong cú pháp của chúng Bộ các trình tiện ích (gồm trình biên tập sed và trình lọc grep) đi kèm các bản phân phối Unix có vai trò đầu tiên trong việc phổ biến khái niệm biểu thức chính quy [13]

Để thêm phần tiện lợi, nhóm đã tích hợp module bằng cách sử dụng biểu thức chính quy để rút trích thông tin từ văn bản cho phép người sử dụng ít phải can thiệp nhất Trong trường hợp lý tưởng, VHD-Scanner có thể tự tách các thông tin như: số văn bản, ngày ban hành, nội dung rút gọn, người ký… Song do các loại văn bản có kiểu bố cục, nội dung không đồng nhất nên việc rút trích còn gặp nhiều khó khăn chưa hoạt động thật sự tốt [15]

Hình 1: Code áp dụng biểu thức chính quy lấy ngày tháng năm từ văn bản

Và kết quả đạt được:

Hình 2: Việc điền thông tin hoàn toàn tự động sau khi scan từ file hình ảnh

Trang 16

3.2 Mô hình Naive Bayes Classifier

Xét bài toán classification với C classes 1,2,…, C Giả sử có một điểm dữ liệu x∈Rd Hãy tính xác suất để điểm dữ liệu này rơi vào class c Hay ta tính [2]:

Hoặc viết gọn thành p(c|x)

Biểu thức (2) thường khó được tính trực tiếp Thay vào đó, quy tắc Bayes thường được sử dụng [2]:

Giả sử các thành phần của biến ngẫu nhiên x là độc lập với nhau:

Ở bước training, các phân phối p(c) và p(xi|c),i=1,…,d sẽ được xác định dựa vào training

data Việc xác định các giá trị này có thể dựa vào Maximum Likelihood Estimation hoặc Maximum

A Posteriori

Trang 17

Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh bởi [2]:

3.3 Các phân phối xác suất

Multinomial Naive Bayes

Mô hình này chủ yếu được sử dụng trong phân loại văn bản mà feature vectors được tính bằng Bags

of Words [1]

Khi đó, p(xi|c) tỉ lệ với tần suất từ thứ i (hay feature thứ i cho trường hợp tổng quát) xuất hiện trong các văn bản của class c Giá trị này có thể được tính bằng cách [2][3]:

Nci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c

Nc là tổng số từ (kể cả lặp) xuất hiện trong class c

, từ đó

Trang 18

3.4 Ví dụ

V={Hanoi, pho, chaolong, buncha, omai, banhgio, saigon, hutiu, banhbo}

|V| = 9

Trang 19

Chương 4: Giới thiệu ứng dụng VHD - Scanner 4.1 Tổng quan về dự án

4.1.1 Tổng quan ý tưởng phần mềm:

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khảo nhau Bởi vì chi có rất ít các ứng dụng tổn tại với các kỹ thuật quang học thực

sự, bới vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt … VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Cảo trang tài liệu có thế được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu sô hỏa dữ liệu

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt… Đây là một chương trình nguồn mở Java NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG và BMP

ABBYY một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học

đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009 Với công nghệ này đó chính xảo trong việc nhận dạng tài liệu chữ … Tiếng Việt lên tới hơn 99% (cử nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thảo tài liệu Với

Trang 20

định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm

có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới

Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu

Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

Hình 1: Sơ đồ luồng xử lý của VHD-Scanner

4.1.2 Mục tiêu dự án:

Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa

Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR,

ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin

4.1.3 Phạm vi triển khai:

Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin

Khoa công nghệ thông tin Giai đoạn 2: Triển khai trên toàn trường

Trang 21

Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống

 Tin học hóa công tác quản lý công văn

 Loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo

 Hỗ trợ việc tìm kiếm tra cứu thông tin liên quan đến công văn

 Hỗ trợ lưu trữ công văn dưới dạng số hoá

 Hỗ trợ thống kê báo cáo

4.2.2 Yêu cầu chức năng phần mềm

4.2.2.1 Quản lý phân quyền tiếp cận công văn

BCN Khoa:

- Người có thể nắm được hết thông tin của các loại công văn

- Xem thông tin chi tiết công văn

- Xem được các báo cáo, thống kê hàng tháng của văn thư

Văn thư:

- Người có trách nhiệm nhiều nhất trong việc chuyển giao, quản lý, lưu trữ công văn

Giảng viên:

- Người có quyền truy cập công văn theo quyền cho phép như : tìm kiếm, hiển thị, in ấn…

4.2.2.2 Quản lý quá trình tiếp nhận công văn:

- Lưu trữ kết quả xử lý và thông tin công văn ở các bước xử lý

- Phân loại công văn đến: Loại, Cơ quan phòng ban,

- Lưu trữ theo các bộ tập tài liệu

- Chuyển giao công văn

- Tìm kiếm và nhìn thấy toàn bộ quá trình xử lý của một vụ việc

4.2.2.3 Quản lý công văn:

- Tự động phân loại công văn

- Quản lý công văn: tìm kiếm, sắp xếp…

- Tìm kiếm văn bản, công văn trên hệ thống để đáp ứng nhu cầu người sử dụng Có thể thực hiện công việc tìm kiếm theo nhiều tiêu chí khác nhau

Trang 22

- Tìm kiếm công văn đến, công văn đi Cho phép tìm nhanh với từ khóa:

o Số công văn

o Ngày công văn

o Ngày nhận/gửi công văn

o Trích yếu

o Đơn vị người nhận/gửi

o Theo loại

4.2.2.4 Quản lý thống kê:

- Thống kê công văn đến/đi trong ngày/tháng/năm

- Thống kê công văn đến/đi theo loại

- Thống kê công văn đến/đi đã được lưu trữ

- Thống kê toàn bộ văn bản

- Thống kê theo nơi gửi, cơ quan ban ngành

- Thống kê công văn theo cấp quản lý Cấp Bộ/ Sở/ Phòng GD/ Trường

4.2.2.5 Đặc điểm người dùng:

- Mỗi một người dùng được ban quản trị cung cấp user và pass khác nhau; người dùng có thể thay đổi pass;

- Người dùng được phân biệt theo đơn vị;

- Người dùng được phân thành các nhóm quyền khác nhau: BCN Khoa; Văn thư; Giảng viên

- Sau khi đăng nhập, người dùng ứng với đơn vị nào, nhóm quyền nào thì thấy được thông tin và có các chức năng tương ứng trong phạm vi cho phép

4.2.2.6 Ràng buộc của hệ thống

- Khả năng của server có thể cho phép nhiều người dùng truy cập xử lý cùng một lúc

- Server phải đảm bảo khả năng bảo mật

4.2.2.7 Điều kiện tiên quyết và phụ thuộc

- Phần mềm hoạt động khi chạy trên hệ thống mạng ổn định

- Hệ thống máy chủ được duy trì hoạt động liên tục và có cơ chế sao lưu dữ liệu định kỳ

4.3 Đặc tả chi tiết yêu cầu phần mềm

4.3.1 Quản lý công văn đến

- Trình tự quản lý công văn đến:

- Tiếp nhận, đăng ký công văn đến

- Trình, chuyển giao văn bản đến

- Giải quyết và theo dõi, đôn đốc việc giải quyết công văn đến

Trang 23

4.3.1.1 Tiếp nhận, đăng ký công văn đến

- Công văn đến từ bất kỳ nguồn nào đều phải được tập trung tại văn thư cơ quan, tổ chức để làm thủ tục tiếp nhận, đăng ký Những công văn đến không được đăng ký tại văn thư, các đơn vị, cá nhân không có trách nhiệm giải quyết

- Văn thư tiếp nhận công văn và tiến hành lấy thông tin và nhập vào hệ thống Lưu lại Khi có phát sinh cần chỉnh sửa sẽ thực hiện

4.3.1.2 Trình chuyển giao văn bản đến

- Công văn đến phải được kịp thời trình cho người có trách nhiệm (BCN khoa) và chuyển giao cho các đơn vị, cá nhân giải quyết (văn thư) Công văn đến có dấu chỉ các mức độ khẩn phải được trình và chuyển giao ngay sau khi được nhận

- Việc chuyển giao công văn phải đảm bảo chính xác và giữ gìn bí mật nội dung công văn

4.3.1.3 Giải quyết và theo dõi, đôn đốc việc giải quyết công văn đến

- Người đứng đầu cơ quan, tổ chức (BCN khoa) có trách nhiệm chỉ đạo giải quyết kịp thời văn bản đến Văn thư, tổ chức được giao chỉ đạo giải quyết những công văn đến theo sự ủy nhiệm của người đứng đầu (BCN khoa) và những công văn đến thuộc các lĩnh vực được phân công phụ trách

- Người đứng đầu cơ quan tổ chức (BCN khoa) có trách nhiệm thực hiện”

- Xem xét toàn bộ công văn đến và báo cáo về những công văn quan trọng khẩn

- Phân công văn đến cho các đơn vị, cá nhân (Văn thư) giải quyết;

- Theo dõi, đôn đốc việc giải quyết văn bản đến

4.3.2 Quản lý công văn

4.3.2.1 Tất cả công văn do cơ quan, tổ chức phát hành (gọi chung là công văn đi) phải được quản lý theo trình tự sau:

- Công văn đến từ bất kỳ nguồn nào đều phải được tập trung tại văn thư cơ quan, tổ

- chức để làm thủ tục tiếp nhận, đăng ký Những công văn đến không được đăng ký tại

- văn thư, các đơn vị, cá nhân không có trách nhiệm giải quyết

- Văn thư tiếp nhận công văn và tiến hành lấy thông tin và nhập vào hệ thống, lưu lại

- Khi có phát sinh cần chỉnh sửa sẽ được thực hiện

 Kiểm tra thể thức, hình thức và kỹ thuật trình bày; ghi số, ký hiệu và ngày, tháng của công văn;

 Đóng dấu cơ quan và dấu mức độ khẩn, mật (nếu có);

 Đăng ký công văn đi;

 Làm thủ tục, chuyển phát và theo dõi việc chuyển phát công văn đi;

 Lưu công văn đi

Trang 24

4.3.2.2 Công văn được soạn thảo mới sẽ được nhập thông tin vào hệ thống để lưu trữ lại trước khi gửi đi

4.3.2.3 Dữ liệu quản lý công văn đi:

- Tên loại văn bản

- Trích yếu nội dung

 Phân quyền cho người dùng

 Sao lưu, phục hồi dữ liệu

- User (người dùng):

 Thao tác nghiệp vụ

 Đổi mật khẩu

- Hệ thống sẽ phân cấp người dùng tìm kiếm các công văn cần thiết khi có nhu cầu:

 Chỉ có admin, văn thư, lãnh đạo của cơ quan (BCN khoa) mới có thể nắm được hết thông tin

 của các loại công văn Khi xem thông tin chi tiết công văn cũng sẽ biết được người

 dùng nào đã nhập liệu, chỉnh sửa cuối cùng thông tin của các công văn

 Khi có sự cố lỗi nhập liệu sai, admin sẽ tìm được người chỉnh sửa cuối cùng thông qua lịch sử đăng nhập

Trang 25

 Người dùng bình thường không thể thấy được các công văn mật, công văn nội bộ trong cơ quan

4.3.4 Quản lý lưu trữ, tra cứu, thống kê, tìm kiếm:

4.3.4.1 Tìm kiếm công văn đến, công văn đi Cho phép tìm nhanh với từ khóa:

- Số công văn

- Ngày công văn

- Ngày nhận/gửi công văn

- Trích yếu

- Đơn vị người nhận/gửi

4.3.4.2 Thống kê

- Thống kê công văn đến/đi trong ngày/tháng/năm

- Thống kê công văn/đi theo loại

- Thống kê công văn/đi đã được lưu trữ

4.3.5 Phân loại người dùng

- Ta bắt đầu phân loại người dùng để giao các quyền riêng mà người dùng có Ở đây ta chia làm 3 loại:

 BCN Khoa :

 Người có thể nắm được hết thông tin của các loại công văn

 Xem thông tin chi tiết công văn

 Xem được các báo cáo, thống kê hàng tháng của văn thư

 Văn thư: người có trách nhiệm nhiều nhất trong việc chuyển giao, quản lý, lưu trữ công văn

 Giảng viên:Người có quyền truy cập công văn theo quyền cho phép như : tìm kiếm, hiển thị, in ấn…

4.3.6 Quản lý công văn

- Quản lý công văn đến:

 Phê duyệt và tiếp nhận công văn đến

 Phân loại công văn đến theo:

Trang 26

 Lưu trữ công văn

 Sau khi phân loại công văn tiến hành lưu trữ theo các bộ tập tài liệu

 Phân biệt bằng các màu và nhãn dán khác nhau

 Mỗi tầng của kệ hoặc màu tập sẽ phân biệt được mức độ bảo mật của công văn

đó

 Chuyển giao công văn

 Văn thư sẽ chuyển giao công văn tới các đơn vị phòng ban chịu trách nhiệm xử lý công văn đó

 Văn thư có thể chuyển công văn lên BCN Khoa nếu thấy có sai sót

- Quản lý công văn đi

 Soạn thảo công văn đi

 Viết công văn theo mẫu loại

 Gửi lên BCN Khoa để đóng dấu

 Kiểm tra thể thứ, hình thức và kỹ thuật trình bày ( ghi số, ký hiệu và ngày, tháng của công văn )

 Đóng dấu và dấu mức độ khẩn, mật ( nếu có)

 Đăng ký công văn đi:

 Là một hình thức lưu lại công văn đi để phòng trường hợp tra cứu, sửa đổi

 B2.2.5: Trưởng khoa ký duyệt công văn đi

 B2.2.6: Làm thủ tục, chuyển phát và theo dõi việc chuyển công văn đi

 B2.2.7: Lưu công văn đi

 B2.2.8: Xác nhận công văn đã tới nơi gửi

- Quản lý công văn nội bộ

 Soạn công văn nội bộ (thường do văn thư soạn thảo)

 Đưa lên BCN Khoa và các cơ quan ban ngành để bổ sung ý kiến

 BCN Khoa ký xác nhận, duyệt công văn

 Văn thư tiến hành lưu trữ công văn

4.3.7 Quản lý lưu trữ

- Lưu trữ công văn đến dạng:

 (Công văn được lưu trữ trong các kẹp giấy.)

 Lưu trữ theo ngày, tháng, năm ban hành

 Lưu trữ theo số hiệu

 Lưu trữ theo từng loại công văn

 Lưu trữ theo nơi gửi, nhận

Trang 27

- Lưu trữ công văn đi

 (Công văn đi được lưu ít nhất 2 bản; một bản lưu tại văn thư khoa, một bản lưu trong hồ sơ.)

 Lưu trữ trong các kẹp giấy

 Lưu trữ theo ngày tháng năm ban hành

 Lưu trữ theo số hiệu

 Lưu trữ theo từng loại công văn

 Lưu trữ theo nơi gửi, nhận

4.3.8 Quản lý thống kê

- Thống kê công văn sẽ được thực hiện theo:

 Thống kê công văn đến/đi trong ngày/tháng/năm

 Thống kê công văn đến/đi theo loại

 Thống kê công văn đến/đi đã được lưu trữ

 Thống kê toàn bộ văn bản

 Thống kê theo nơi gửi, cơ quan ban ngành

 Thống kê công văn theo cấp quản lý Cấp Bộ/ Sở/ Phòng GD/ Trường

 (Thông tin thống kê sẽ được hiển thị dạng bảng, biểu đồ)

 Ngày công văn

 Ngày nhận/gửi công văn

- Đăng ký công văn

- Tìm kiếm công văn

- Thêm công văn

- Xóa công văn

- Sửa công văn

Trang 28

- Hiển thị nội dung

4.3.10 Thông báo công văn

- B6.1: Chuyển giao công văn hoàn tất

- B6.2: Công bố nội dung công văn

- B6.3: Thông báo công văn sai nội dung, hình thức cần được kiểm lại

 Trình duyệt web IE6, FireFox,

 Bộ gõ tiếng việt Unikey

- Yêu cầu truyền thông

 Theo chuẩn của Bộ Thông tin truyền thông đối với các cơ quan nhà hành chính nước

 Truyền tập tin theo tiêu chuẩn – HTTP v1.1 (Hypertext Transfer Protocol version 1.1)

 Ngôn ngữ định dạng văn bản theo tiêu chuẩn – XML v1.0

 Trình diễn bộ ký tự UTF-8 (8-bit Universal Character Set (UCS)/Unicode

Transformation Format)

 Chuẩn nội dung web HTML v4.01 (Hypertext Markup Language version 4.01)

Trang 29

 Giao diện người dùng CSS2 (Cascading Style Sheets Language Level 2)

4.3.12 Yêu cầu thuộc tính phần mềm

- 1 Tính nhất quán

 Cơ chế dự phòng và hồi phục dữ liệu

 Tránh truy cập nặc danh, sử dụng quyền quản trị để quản lý và phân quyền người dùng

 Hệ thống phải tạo ra nhóm tác nghiệp theo chức năng và nhiệm vụ được giao trên cơ

sở của việc hạn chế mức truy cập của hệ thống

 4 Đánh giá hiệu quả hệ thống

 Hệ thống đáp ứng tốt khi số lượng người dùng và dữ liệu tăng; chỉ cần bổ sung nâng cấp server

- 5 Tính khả thi của hệ thống:

 Hệ thống triển khai làm 02 giai đoạn bảo đảm việc thử nghiệm thành công trên phạm

vi nhỏ sau đó triển khai trên toàn bộ hệ thống

 2 Giai đoạn bao gồm: Beta và Stable

 Dựa trên việc sử dụng thành công các phần mềm hỗ trợ chức năng chính của hệ thống

4.3.13 Yêu cầu cơ sở dữ liệu

- Với yêu cầu đặt ra: Quản lý tập trung thông tin và nội dung đơn thư khiếu nại tố cáo của công dân từ nhiều đơn vị xử lý khác nhau nên cần triển khai phần mềm tại các đơn vị có

hệ thống mạng riêng

- Vì vậy giải pháp để đảm bảo chương trình vận hành dùng chung cơ sở dữ liệu là: cài đặt cơ

sở dữ liệu và chương trình trên máy chủ của Trung tâm Tích hợp dữ liệu thành phố Các đơn vị sử dụng hệ thống thông qua Internet hoặc kết nối VPN

- Hệ quản trị cơ sở dữ liệu lựa chọn: SQL server 2005

Trang 30

4.3.14 Kế hoạch thực hiện dự án

- Giới thiệu về nhân sự

+Bàn giao dự án

+ Có kinh nghiệm quản lý và phối hợp

+ Bao quát chung

về công việc và

nội dung dự án…

+ Có kinh nghiệm quản lý, phân việc, báo cáo

- Lớp: CTK39

- Ngày sinh: 23/05/1997

- SĐT :0367896040

+ Khảo sát và phân tích hệ thống

+Thống nhất quá trình thiết kế

+ Thiết kế chương trình tổng thể +Kiểm thử

+ Có kỹ năng khảo sát, phân tích, chạy thử chương trình tốt

+Có kỹ năng lập trình tốt

- Lớp: CTK39

- Ngày sinh: 28/08//1997

- SĐT :0379286232

- Mail:

dan.dut.day@gmail.com

3 Nguyễn Văn

Vương

Thành viên

+ Khảo sát và phân tích hệ thống

+Tìm hiểu về hướng dẫn trình bày văn

+Có kỹ năng lập trình tốt

+Có kỹ năng thiết kế

- Lớp: CTK39

- Ngày sinh: 12/04/1996

Trang 31

bản

+Thiết kế chi tiết chương trình

+ Tổng hợp lập báo cáo

tốt

+Có kỹ năng tốt: MS Word, MS PowerPoint

- SĐT :037.552.8766

- Mail:

nguyenvanvuong972@gmail.com

- Lịch biểu công việc

 Thời gian tổng thể

Tổng thời gian dự án dự kiến là 6 tháng được phần chia như sau:

 Khảo sát và phân tích thiết kế hệ thống 3 tháng

 Lập trình 1 tháng

 kiểm thử các phần hệ, bàn giao từng phân hệ cho khách hàng, nhận yêu cầu sửa lỗi của khách hàng và tiến hành sửa lỗi 2 tháng

 Thanh lý hợp đồng

 Thời gian chi tiết:

 Công việc cụ thể được lên kế hoạch phân công thành các giai đoạn như sau:

 Ngày khởi công: 01/12/2018

Giai đoạn 1: Khảo sát:

Trang 32

Phỏng vấn 15 ngày 07/12/2018 21/12/2018

Giai đoạn 2: Phân tích và thiết kế hệ thống

Giai đoạn 3: Thiết kế cơ sở dữ liệu

Người thực hiện:

1 Nghiêm Xuân Hiếu

2 Nguyễn Văn Vương

3 Đàm Đức Duy

Bảng chi tiết:

Trang 33

Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc

Giai đoạn 4: Thiết kế giao diện

Thiết kế giao diện

Giao diện số hóa

công văn (user)

Giao diện thông tin

tài khoản (user)

Trang 34

Giao diện quản

Giao diện quản lý loại

công văn (admin)

Trang 35

2 Nguyễn Văn Vương

3 Nghiêm Xuân Hiếu

4.3.15: Demo

Trang 36

Hình 3: Giao diện đăng nhập hệ thống

Trang 37

Hình 4: Giao diện hệ thống

front-end

Hình 5: Giao diện scan file hình và thành quả

Trang 38

Hình 6: giao diện trang chính (back-end) 1

Hình 7: giao diện trang chính (back-end) 2

Trang 39

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Kết quả đạt được

Vậy là sau một khoảng thời gian dài nghiên cứu và thực hiện, VHD-Scanner đã đi vào hoạt động và đã chứng tỏ được sự hữu ích của nó và đạt được yêu cầu ban đầu đề ra Chương trình gọn nhẹ, đơn giản, dễ sử dụng được tích hợp responsive và được xây dựng trên nền web application nên có thể sử dụng trên mọi nền tảng Chương trình cũng áp dụng mô hình MVC nên việc bảo trì, nâng cấp

về sau cũng diễn ra một cách dễ dàng hơn

Hướng phát triển

Với những kết quả đạt được, đề tài dự kiến sẽ tiếp tục với những định hướng sau:

 Triển khai hệ thống vào thực tế (tại khoa công nghệ thông tin)

 Phát triển và bổ sung các chức năng bảo mật

 Phát triển các tính năng và cải thiện code để chương trình tốt hơn

 Phát triển module quản lý công văn

 Nâng phạm vi từ khoa ra toàn trường

TÀI LIỆU THAM KHẢO

[1] Caruana, R.; Niculescu-Mizil, A (2006) An empirical comparison of supervised learning algorithms Proc 23rd International Conference on Machine Learning

[2] McCallum, Andrew; Nigam, Kamal (1998) A comparison of event models for Naive Bayes text classification

[3] John, George H.; Langley, Pat (1995) Estimating Continuous Distributions in Bayesian

Classifiers Proc Eleventh Conf on Uncertainty in Artificial Intelligence Morgan Kaufmann [4] 6 Easy Steps to Learn Naive Bayes Algorithm (with code in Python)

[5] Y LeCun, L Bottou, Y Bengio, and P Haffner Gradient-based learning applied to document recognition Proceedings of the IEEE, november 1998

[6] Y LeCun, B Boser, J S Denker, D Henderson, R E Howard, W Hubbard, and L D Jackel Backpropagation applied to handwritten zip code recognition Neural Computation, 1(4):541-551, Winter 1989

[7] Y LeCun Generalization and network design strategies Technical Report CRG-TR-89-4, Department of Computer Science, University of Toronto, 1989

Trang 40

[9] Y LeCun, L Bottou, and Y Bengio Reading checks with graph transformer networks In International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 151-154, Munich, 1997

[10] B Boser, E Sackinger, J Bromley, Y LeCun, and L Jackel An analog neural network processor with programmable topology IEEE Journal of Solid-State Circuits, 26(12):2017-2025, December 1991

[12] R Vaillant, C Monrocq, and Y LeCun Original approach for the localisation of objects in images IEE Proc on Vision, Image, and Signal Processing, 141(4):245-250, August 1994

[13] Aho, Alfred V (1990) “Algorithms for finding patterns in strings” Trong van Leeuwen, Jan Handbook of Theoretical Computer Science, volume A: Algorithms and Complexity The MIT Press

[15] “The Single UNIX ® Specification, Version 2” The Open Group 1997

[16] https://tnquangblog.wordpress.com

[17] https://viblo.asia

Ngày đăng: 16/05/2022, 23:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
4. CHÂU VĂN TẠO, Liều Lượng Bức Xạ Ion Hóa, Nxb Đại học Quốc gia Tp Hồ Chí Minh (2006) Sách, tạp chí
Tiêu đề: Liều Lượng Bức Xạ Ion Hóa
Nhà XB: Nxb Đại học Quốc gia Tp Hồ Chí Minh (2006)
17. Manual for user “Operation manual X-rays irradiation system MBR-1618R-BE”, Hitachi Sách, tạp chí
Tiêu đề: Operation manual X-rays irradiation system MBR-1618R-BE
20. NGÔ QUANG HUY, An Toàn Bức Xạ Ion Hóa, Nxb Khoa học và Kỹ thuật, Hà Nội (2004) Sách, tạp chí
Tiêu đề: An Toàn Bức Xạ Ion Hóa
Nhà XB: Nxb Khoa học và Kỹ thuật
21. NGÔ QUANG HUY, Cơ Sở Vật Lí Hạt Nhân, Nxb Khoa học và Kỹ thuật, Hà Nội (2006) Sách, tạp chí
Tiêu đề: Cơ Sở Vật Lí Hạt Nhân
Nhà XB: Nxb Khoa học và Kỹ thuật
2. BRENDA GOODMAN, Một trong sáu loại bệnh do thực phẩm ở nước Mỹ, The Healthy Lifestyle Expo. [trực tuyến]. Đường dẫn:https://vi.thehealthylifestyleexpo.com/1-6-americans-gets-food-borne-illness-48993 [truy cập 25/03/2019] Link
5. Chuyện sốc ở làng mù xứ sở hành tím, Báo Mới. [trực tuyến]. Đường dẫn: https://baomoi.com/chuyen-soc-o-lang-mu-xu-so-hanh-tim/c/16079470.epi [truy cập 10/03/2019] Link
27. Tỏi, Tra cứu dược liệu. [trực tuyến]. Đường dẫn: http://tracuuduoclieu.vn/toi.html [truy cập 01/02/2019] Link
1. ANON, Commercialization of food irradiation. Food Irradiation. Newsl. 10 (2) (1986) 48 Khác
3. BRUNELET I., VIDAL P., Inhibition de la montee en vegetation des bulbes alimentaires. Rev. Conserv. 15 (1960) 3 Khác
6. CRYSTAL STEWART - Garlic Post Harvest Handling and Planting (2015) Khác
7. CURZIO O. A., CROCI C. A., CECI L. N., The effects of radiation and extended storage on the chemical quality of garlic bulbs. Food Chem. 21 (1986a) 153-158 Khác
8. CURZIO O. A., CROCI C. A., QUARANTA H. O., Extending the storage life of garlic by gamma-irradiation. Acta Alimentaria 12 (1983) 343 Khác
9. EL-OKSH LI., ABDEL-KADER A. S., WALLY Y. A.,EL-KHOLLY A. F., Comparative effects of gamma irradiation and maleic hydrazide on storage of garlic. J. Am. Soc. Hort. Sei.96 (1971) 637 Khác
11. HABIBUNISSA., MATHUR P. B., BANU Z., Effect of Cobalt-60 gamma rays on the storage behaviour of garlic bulb at room temperature and in cold storage. Indian Food Packer 25 (1971) 10 Khác
12. Khoa Công Nghệ Thực Phẩm – Trường Đại học Kỹ thuật Công Nghệ, Bảo quản rau quả bằng phương pháp chiếu xạ (2010) Khác
13. KUME T.; FURUTA M.; TODORIKI S.; UENOYAMA N. and KOBAYASHI Y. Quantity and economic scale of food irradiation in the world, 2009 Khác
14. KUME ET AL. (2008) reported the status of Food irradiation in the World in 2005 Khác
15. KWON J. H., BYRUN M.W., CHO H. O., Effects of gamma irradiation dose and timing of treatment after harvest on the storability of garlic bulbs. 50 (1985) 379 Khác
16. LUSTRE A. O., RONEAL R. A.,VELLARUEL F. G., CARMONA C. L., DEGUZMAN Z Khác
18. MATHUR P. B., Extension of storage life of garlic byjy-irradiation. Intern. J. Appl. Radition. Isotop. 14 (1963a) 625 Khác

HÌNH ẢNH LIÊN QUAN

Bảng 2.1 So sánh phần mềm thương mại và Tesseract - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Bảng 2.1 So sánh phần mềm thương mại và Tesseract (Trang 14)
3.2 Mô hình Naive Bayes Classifier - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
3.2 Mô hình Naive Bayes Classifier (Trang 16)
Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu  - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
h ận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu (Trang 20)
Bảng loại công văn 3 ngày 10/02/2019 12/02/2019 - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Bảng lo ại công văn 3 ngày 10/02/2019 12/02/2019 (Trang 33)
Hình 5: Giao diện scan file hình và thành quả - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 5 Giao diện scan file hình và thành quả (Trang 37)
Hình 7: giao diện trang chính (back-end) 2 - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 7 giao diện trang chính (back-end) 2 (Trang 38)
Với mục THIS thì chúng ta sẽ chọn Google Assistant như hình sau: - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
i mục THIS thì chúng ta sẽ chọn Google Assistant như hình sau: (Trang 67)
Toggle (như hình trên) - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
oggle (như hình trên) (Trang 72)
Trong New Rule chọn user như hình, tên topic đặt demo, tick chọn Read, Write. - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
rong New Rule chọn user như hình, tên topic đặt demo, tick chọn Read, Write (Trang 76)
4. Mạch đồng sau khi hoàn tất - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
4. Mạch đồng sau khi hoàn tất (Trang 83)
- Hình thành khả năng tự suy nghĩ tìm tòi, học hỏi, phát huy năng lực của cá nhân, nhóm. - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình th ành khả năng tự suy nghĩ tìm tòi, học hỏi, phát huy năng lực của cá nhân, nhóm (Trang 102)
Mô hình 1: Sử dụng firmware có sẵn giao tiếp AT Command - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
h ình 1: Sử dụng firmware có sẵn giao tiếp AT Command (Trang 107)
lib: Chứa các thư viện hỗ trợ bởi SDK như cấu hình chip, Wifi config, FreeRTOS.. đến các tính năng cao cấp như Mesh, SmartConfig , mDNS, Sniffer,…  - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
lib Chứa các thư viện hỗ trợ bởi SDK như cấu hình chip, Wifi config, FreeRTOS.. đến các tính năng cao cấp như Mesh, SmartConfig , mDNS, Sniffer,… (Trang 112)
 Hỗ trợ màn hình: LCD16*02,16*04,20*04  Giao tiếp: I2C  - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
tr ợ màn hình: LCD16*02,16*04,20*04  Giao tiếp: I2C (Trang 120)
Bảng 1.1. Danh mục thực phẩm được phép chiếu xạ và giới hạn liều hấp thụ tối đa [23] - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Bảng 1.1. Danh mục thực phẩm được phép chiếu xạ và giới hạn liều hấp thụ tối đa [23] (Trang 157)
1.3. Tình hình chiếu xạ thực phẩm - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
1.3. Tình hình chiếu xạ thực phẩm (Trang 159)
Hình 1.4. Quy mô kinh tế của chiếu xạ thực phẩ mở từng vùng trong năm 2005 - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 1.4. Quy mô kinh tế của chiếu xạ thực phẩ mở từng vùng trong năm 2005 (Trang 160)
Hình 1.6. Phổ bức xạ điện từ - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 1.6. Phổ bức xạ điện từ (Trang 162)
Hình 1.10. Quá trình phát ti aX đặc trưng và electron Auger - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 1.10. Quá trình phát ti aX đặc trưng và electron Auger (Trang 165)
Hình 1.13. Minh họa bức xạ ti aX tác dụng lên DNA - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 1.13. Minh họa bức xạ ti aX tác dụng lên DNA (Trang 169)
Hình 2.3. Hệ thống khóa điều khiển - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 2.3. Hệ thống khóa điều khiển (Trang 172)
Hình 2.4. Các chế độ làm việc của máy - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 2.4. Các chế độ làm việc của máy (Trang 173)
173Lưu lượng chất lỏng  - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
173 Lưu lượng chất lỏng (Trang 176)
Hình 2.6. Nguyên lí hoạt động ống phát ti aX - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 2.6. Nguyên lí hoạt động ống phát ti aX (Trang 176)
Bảng 3.1. Kết quả chiếu xạ với các liều khác nhau tại độ sâu 10 mm - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Bảng 3.1. Kết quả chiếu xạ với các liều khác nhau tại độ sâu 10 mm (Trang 185)
Hình 3.3. Góc chiếu xạ - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 3.3. Góc chiếu xạ (Trang 185)
Hình 3.5. Vết cắt tép tỏi sau chiếu xạ 5 tháng - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 3.5. Vết cắt tép tỏi sau chiếu xạ 5 tháng (Trang 187)
Bảng 3.4. Kết quả chiếu xạ sau thời gian ngủ sinh lý - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Bảng 3.4. Kết quả chiếu xạ sau thời gian ngủ sinh lý (Trang 191)
Hình 3.9: Sự phát triển của mầm tỏi không chiếu xạ - KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019 Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Hình 3.9 Sự phát triển của mầm tỏi không chiếu xạ (Trang 193)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w