Nhận dạng ký tự quang học tiếng Anh: Optical Character Recognition, viết tắt là OCR, là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy t
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT
KỶ YẾU HỘI NGHỊ NGHIÊN CỨU KHOA HỌC SINH VIÊN
TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019
Tiểu ban 1: CNTT-Vật Lý - Kỹ thuật Hạt nhân
Lâm Đồng, Tháng 06 năm 2019
Trang 2DANH SÁCH TRÌNH BÀY BÁO CÁO TẠI HỘI NGHỊ NGHIÊN CỨU KHOAHỌC
SINH VIÊN TRƯỜNG ĐẠI HỌC ĐÀ LẠT NĂM 2019
CTK39/
Khoa Công nghệ Thông tin
ThS Nguyễn Minh Hiệp
ThS Thái Duy Quý
VTK39/
Khoa Vật lý
ThS Phan Văn Chuân
93
4 Đánh giá suất liều tia X trong
việc bảo quản tỏi tím
Cao Văn Hải
(Chủ nhiệm)
Nguyễn Quang Kiên
Trần Minh Hiễn
HNK41/
thuật Hạt nhân
ThS Phạm Thị Ngọc Hà
143
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC ĐÀ LẠT
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC SINH VIÊN NĂM 2019
SỐ HOÁ VÀ RÚT TRÍCH TỰ ĐỘNG THÔNG TIN CÔNG VĂN
KHOA CÔNG NGHỆ THÔNG TIN
Thuộc nhóm ngành khoa học: Công nghệ thông tin & Khoa học Tự nhiên
Chủ nhiệm đề tài: Nguyễn Văn Vương Nam, Nữ: Nam
Dân tộc: Kinh
Lớp, khoa: CTK39 – Công nghệ thông tin
Năm thứ: 4 - Số năm đào tạo: 4.5 năm
Ngành học: Công nghệ thông tin
Người hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý
Lâm Đồng, tháng 6/2019
Trang 4Danh sách những thành viên
Sinh viên thực hiện
1 1510289 Nguyễn Văn Vương nguyenvanvuong972@gmail.com
2 1510198 Nghiêm Xuân Hiếu nghiemxuanhieu97@gmail.com
Giáo viên hướng dẫn: ThS Nguyễn Minh Hiệp, ThS Thái Duy Quý
Trang 5MỞ ĐẦU
Trải qua ba cuộc cách mạng công nghiệp, nhân loại đã thu được những thành tựu rực rỡ thay đổi hoàn toàn cuộc sống của con người Khoa học kỹ thuật được áp dụng dần dần thay thế cho sức
lao động của con người Tới nay, thời đại của nền Công nghiệp 4.0 lên ngôi, công nghệ thông tin
càng gần gũi hơn với con người Trí tuệ nhân tạo, vạn vật kết nối (IOT) và dữ liệu lớn (BIGDATA)
là những yêu tố cốt lõi và đang là những mối quan tâm hàng đầu Tới thời điểm hiện nay nhân loại cũng đã gặt hái được rất nhiều thành công trong nền công nghiệp 4.0: bác sỹ AI, trợ lý ảo thông mình, nhà máy không nhân công, nhà thông mình… Dễ dàng nhận thấy công nghệ thông tin hỗ trợ đắc lực cho con người, giúp công việc trở nên đơn giản, nhanh chóng và thuận lợi hơn, mọi phần mềm ứng dụng tương ứng với từng chức năng cụ thể cũng ra đời theo nhu cầu của từng ngành nghề [5] Việc ứng dụng công nghệ chuyển đổi hình ảnh sang chữ hiện nay đang rất phát triển gọi chung là “nhận dạng ký tự quang học”
Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các
kỹ thuật đã được chứng minh [6]
Hiện nay ở Việt Nam hầu như việc lưu trữ văn bản giấy tờ vẫn còn dùng cách thủ công Việc này gây rất nhiều khó khăn trong việc lưu trữ, quản lý và bảo quản các văn bản này vì thường các văn bản giấy tờ thường rất nhiều, có thể lên tới hàng ngàn bản chỉ trong vòng một tháng Hơn nữa những đơn vị được giao việc quản lý các văn bản giấy tờ thường rất ít nhân lực càng gây khó khăn hơn, nếu nhiều nhân lực thì lại tốn nhiều chi phí hơn Khó khăn càng chồng khó khăn Chính
vì thế hiện tại không còn gì tuyệt vời hơn ngoài việc áp dụng khoa học kỹ thuật vào việc quản lý công văn bằng cách lưu chúng thành các văn kiện điện tử lưu vào trong máy tính đem lại rất nhiều lợi ích: vừa giảm chi phí, vừa dễ quản lý và cũng có thể triển khai trên diện rộng giúp đỡ rất nhiều cho con người [5]
Đề tài “Số hoá và rút trích tự động thông tin công văn khoa công nghệ thông tin” nhằm tìm hiểu kỹ thuật số hoá thông tin từ một công văn tiếng Việt, vốn là một hình chụp từ máy Scan Kỹ thuật số hoá bao gồm tìm hiểu các phần mềm VietOCR, ABBYY Từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin
Trang 6Bài báo cáo chúng em sẽ chia làm 4 chương để mô tả một cách chi tiết nhất ứng dụng
VDH-Scanner Trong phần đầu chúng em sẽ đưa ra một cách nhìn tổng quan nhất về dự án, phần tiếp theo
chúng em sẽ phân tích sâu vào công nghệ OCR và ứng dụng Tesseract để tìm hiểu chúng là gì và cách thức hoạt động thế nào để có thể đưa vào sử dụng Phần ba sẽ mô tả, phân tích áp dụng thuật toán Bayes Classifier để phân loại công văn Phần 4 sẽ nói về ứng dụng VHD-Scanner và những kết quả đã đạt được và cuối cùng chúng em sẽ đưa ra kết luận và đặt ra hướng phát triển của VHD-Scanner trong tương lai
Trang 7Chương 1: Tổng quan
1.1 Giới thiệu tổng quan
Hiện nay, nhu cầu về việc lấy văn bản từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character
Recognition) hay còn được gọi tắt là OCR [5] Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh
Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản
để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word)
Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu OCR sẽ xuất ra ký tự trên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu Nhờ vậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc Tương tự, những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí, thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp [6]
Tuy nhiên thực trạng hiện nay chúng ta vẫn tỏ ra chậm chạp khi áp dụng khoa học công nghệ vào công việc đời sống hàng ngày, quen theo lối truyền thống dân tới càng ngày càng tụt hậu, hiệu quả chưa cao Nổi bật nhất trong ngành giáo dục nơi mà các giấy tờ đều gần như là giấy trắng mực đen với số lượng không tưởng khiến cho việc quản lý gặp không ít khó khăn Nhận thấy vậy dưới sự hướng dẫn của thạc sĩ Nguyễn Minh Hiệp, thành viên nhóm thuộc lớp CTK39 đã ứng dụng công nghệ nhận dạng ký tự quang học (OCR) để giải quyết khó khăn này Trong bài báo cáo này chúng em xin trình bày sơ lược về dự án mà chúng em đặt tên là VDH-Scanner
Mục tiêu của đề tài là triển khai giải pháp số hoá kho dữ liệu, chuyển đổi từ tài liệu dạng giấy lưu trữ trong các hồ sơ, tủ tài liệu sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa
1.2 Tổng quan về ý tưởng phần mềm sẽ như sau:
Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu
Trang 8Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo
Về mục tiêu dự án:
Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa
Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR, ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin
Về phạm vi triển khai:
Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin
o Khoa công nghệ thông tin
Giai đoạn 2: Triển khai trên toàn trường
o Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống
Về đối tượng sử dụng
Ban Chủ nhiệm khoa
Văn thư
Giảng viên
Trang 9Chương 2: Kỹ thuật nhận dạng ký tự quang học (Optical Character Recognition - OCR) 2.1 Giới thiệu kỹ thuật nhận dạng ký tự quang học
Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR),
là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các
kỹ thuật đã được chứng minh [7]
Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực
sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận
dạng ký tự số
Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu
Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP
ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009
Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu
Trang 10Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới
2.2 Giới thiệu Tesseract
Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition –OCR) là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể chỉnh sửa trong máy tính Đầu vào của quá trình này là tập tin hình ảnh và đầu ra sẽ là các tập tin văn bản chứa nội dung là các chữ viết, ký hiệu có trong hình ảnh đó
Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu và phát triển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994 Vào năm 1995, Tesseract nằm trong nhóm ba bộ nhận dạng OCR đứng đầu về độ chính xác khi tham gia trong hội nghị thường niên của tổ chức UNLV [9]
Lúc mới khởi động thì Tesseract là một dự án nghiên cứu tiến sĩ tại phòng thí nghiệm HP ở Bristol và đã được tích hợp vào trong các dòng máy quét dạng phẳng của hãng dưới dạng các add-
on phần cứng hoặc phần mềm Nhưng thực tế dự án này đã thất bại ngay từ trong trứng nước vì nó chỉ làm việc hiệu quả trên các tài liệu in có chất lượng tốt [9]
Sau đó, dự án này cùng với sự cộng tác của bộ phận máy quét HP ở bang Colorado đã đạt được một bước tiến quan trọng về độ chuẩn xác khi nhận dạng và vượt lên nhiều bộ nhận dạng OCR thời đó nhưng dự án đã không thể trở thành sản phẩm hoàn chỉnh vì độ cồng kềnh và phức tạp Sau đó, dự án được đưa về phòng thí nghiệm của HP để nghiên cứu về cách thức nén và tối ưu
mã nguồn [10]
Dự án tập trung cải thiện hiệu năng làm việc của Tesseract dựa trên độ chính xác đã có Dự
án này được hoàn tất vào cuối năm 1994 và sau đó vào năm 1995 bộ Tesseract được gửi đi tham dự hội nghị UNLV thường niên về độ chính xác của OCR, vượt trội hơn hẳn so với các phần mềm OCR lúc bấy giờ Tuy nhiên, Tesseract đã không thể trở thành một sản phẩm thương mại hoàn chỉnh được và vào năm 2005, HP đã chuyển Tesseract sang mã nguồn mở và được hãng Google tài trợ [12]
Tesseract cho đến nay vẫn được nhiều nhà phát triển cộng tác và tiếp tục hoàn thiện Phiên bản mới nhất của bộ nhận dạng Tesseract là phiên bản 4.0
2.3 Cơ chế
Như đã giới thiệu ở bài viết trước, chúng ta đã được biết đến một công cụ nhận diện ký tự đang được phát triển bởi Google với bản quyền mã nguồn mở Apache 2.0
Như vậy, với cơ chế như thế nào mà Tesseract có thể mang đến sự hiệu quả cũng như được
sử dụng khá nhiều trong việc nhận dạng ký tự như hiện nay Về cơ bản, quá trình nhận diện sẽ diễn
Trang 11ra từng bước trải qua bốn bước chính như phân tích layout, tìm kiếm dòng, tìm kiếm ký tự, nhận diện ký tự và chỉnh sửa kết quả [16]
Hì
nh 1 Kết quả phân tích của Tesseract OCR
Trước tiên, hình ảnh sẽ được phân tích để tìm ra các vùng kết nối (connected component) Bước này cho phép OCR dễ dàng nhận biết những vùng ký tự ngược để có thể nhận diện những ký
tự bên trong Trong Tesseract, những vùng chứa ký tự này được gọi là Blob [10]
Tiếp đến, những blob này sẽ tiếp tục được phân tích để tìm ra các dòng, rồi đến các ký tự Việc tìm các dòng sẽ được xử lý bởi thuật toán dựa vào vùng ký tự, cỡ chữ cùng toạ độ (trục x) Trong quá trình này, các blob cũng có thể được ghép với nhau nếu OCR nhận thấy chúng chứa các ký tự trong cùng một dòng Những blob được ghép phải trùng ít nhất 50% theo chiều ngang Sau
đó, các đường cơ sở (baseline) cũng được tìm kiếm nhờ vào việc quét các dòng đã được xác định [16]
Trang 12Sau khi đã xác định được các dòng ký tự cùng các đối số tương ứng, dòng ký tự sẽ được chia nhỏ thành các từ dựa vào các ký tự phân cách Lúc này, văn bản cố định sẽ được chia nhỏ và tiến hành nhận diện Trong khi đó, văn bản không cố định hoặc chưa chắc chắn thì sẽ được chia nhỏ thành các từ dù chưa chắc chắn Nhưng nhờ vào bước nhận diện, chúng ta sẽ thu được kết quả cuối cùng chính xác hơn
Hình 2 Chia nhỏ các ký tự trong từ (fixed word)
Bước vào quá trình nhận diện, input của chúng ta sẽ được đánh giá, phân tích hai lần Ở lần đầu tiên, OCR sẽ nhận diện ký tự với kết quả phân tích ở bước trước đó Các kết quả nhận diện thoả mãn yêu cầu sẽ được đưa vào tập tin huấn luyện để hỗ trợ cho quá trình nhận diện lần thứ hai với các kết quả chưa đạt yêu cầu Đương nhiên, việc xác nhận kết quả có thoả mãn yêu cầu hay không cần phải dựa trên nhiều tiêu chí vì nhận diện nội dung phải trải qua một quá trình lặp đi lặp lại gồm các bước nhận diện ký tự, ghép ký tự và so khớp với từ điển Các tiêu chí đó bao gồm khoảng cách của các ký tự, độ phù hợp với từ điển và khoảng cách đến các dấu câu [16]
Trang 13H ình 3 Quy trình nhận diện từ của Tesseract
Cuối cùng, OCR sẽ xử lý những dấu cách không rõ ràng cùng với xem xét các giả thiết khác cho việc định vị những ký tự in hoa nhỏ để đi đến kết quả cuối cùng
2.4 So sánh với công cụ khác
Vì Tesseract hiện nay là bộ thư viện mã nguồn mở hoàn toàn miễn phí nên trên thế giới đã có nhiều phần mềm nhận dạng ký tự quang học ra đời dựa trên bộ Tesseract
với giao diện và các tính năng dễ sử dụng hơn so với giao diện đơn giản của Tesseract
ban đầu như: VietOCR cho nhận dạng tiếng Việt, Tessenet phiên bản 2 bộ nhận diện Tesseract trên nền Net của Microsoft, giao diện Java (Java GUI frontend) cho Tesseract [17]…
Hỗ trợ hơn 192 ngôn ngữ Hỗ trợ trên 116 ngôn ngữ và đang tăng dần
Có giao diện đồ họa Không hỗ trợ giao diện đồ họa (dùng
Trang 14Command Line để gõ lệnh)
Độ chính xác cao mới đây Độ chính xác cao từ năm 1995
Chi phí khá cao 130$ - 500 $ Hoàn toàn miễn phí (mã nguồn mở)
Không có phiên bản dành cho lập trình viên,
có API nhưng phải trả phí
Phù hợp với lập trình viên vì có thể nhúng vào các ngôn ngữ lập trình
Bảng 2.1 So sánh phần mềm thương mại và Tesseract
Trang 15Chương 3: Rút trích thông tin và phân loại văn bản với mô hình Naive Bayes
3.1 Rút trích thông tin
Biểu thức chính quy (tiếng Anh: regular expression, viết tắt là regexp, regex hay regxp) là một chuỗi miêu tả một bộ các chuỗi khác, theo những quy tắc cú pháp nhất định Biểu thức chính quy thường được dùng trong các trình biên tập văn bản và các tiện ích tìm kiếm và xử lý văn bản dựa trên các mẫu được quy định Nhiều ngôn ngữ lập trình cũng hỗ trợ biểu thức chính quy trong việc xử lý chuỗi, chẳng hạn như Perl có bộ máy mạnh mẽ để xử lý biểu thức chính quy được xây dựng trực tiếp trong cú pháp của chúng Bộ các trình tiện ích (gồm trình biên tập sed và trình lọc grep) đi kèm các bản phân phối Unix có vai trò đầu tiên trong việc phổ biến khái niệm biểu thức chính quy [13]
Để thêm phần tiện lợi, nhóm đã tích hợp module bằng cách sử dụng biểu thức chính quy để rút trích thông tin từ văn bản cho phép người sử dụng ít phải can thiệp nhất Trong trường hợp lý tưởng, VHD-Scanner có thể tự tách các thông tin như: số văn bản, ngày ban hành, nội dung rút gọn, người ký… Song do các loại văn bản có kiểu bố cục, nội dung không đồng nhất nên việc rút trích còn gặp nhiều khó khăn chưa hoạt động thật sự tốt [15]
Hình 1: Code áp dụng biểu thức chính quy lấy ngày tháng năm từ văn bản
Và kết quả đạt được:
Hình 2: Việc điền thông tin hoàn toàn tự động sau khi scan từ file hình ảnh
Trang 163.2 Mô hình Naive Bayes Classifier
Xét bài toán classification với C classes 1,2,…, C Giả sử có một điểm dữ liệu x∈Rd Hãy tính xác suất để điểm dữ liệu này rơi vào class c Hay ta tính [2]:
Hoặc viết gọn thành p(c|x)
Biểu thức (2) thường khó được tính trực tiếp Thay vào đó, quy tắc Bayes thường được sử dụng [2]:
Giả sử các thành phần của biến ngẫu nhiên x là độc lập với nhau:
Ở bước training, các phân phối p(c) và p(xi|c),i=1,…,d sẽ được xác định dựa vào training
data Việc xác định các giá trị này có thể dựa vào Maximum Likelihood Estimation hoặc Maximum
A Posteriori
Trang 17Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh bởi [2]:
3.3 Các phân phối xác suất
Multinomial Naive Bayes
Mô hình này chủ yếu được sử dụng trong phân loại văn bản mà feature vectors được tính bằng Bags
of Words [1]
Khi đó, p(xi|c) tỉ lệ với tần suất từ thứ i (hay feature thứ i cho trường hợp tổng quát) xuất hiện trong các văn bản của class c Giá trị này có thể được tính bằng cách [2][3]:
Nci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c
Nc là tổng số từ (kể cả lặp) xuất hiện trong class c
, từ đó
Trang 183.4 Ví dụ
V={Hanoi, pho, chaolong, buncha, omai, banhgio, saigon, hutiu, banhbo}
|V| = 9
Trang 19Chương 4: Giới thiệu ứng dụng VHD - Scanner 4.1 Tổng quan về dự án
4.1.1 Tổng quan ý tưởng phần mềm:
Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyến các hình ảnh của chữ viết tay hoặc chữ đánh máy thường được quét bằng máy scanner) thành các văn bản tải liệu OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phân công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh
Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khảo nhau Bởi vì chi có rất ít các ứng dụng tổn tại với các kỹ thuật quang học thực
sự, bới vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số
Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt … VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Cảo trang tài liệu có thế được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu sô hỏa dữ liệu
Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt… Đây là một chương trình nguồn mở Java NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG và BMP
ABBYY một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học
đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009 Với công nghệ này đó chính xảo trong việc nhận dạng tài liệu chữ … Tiếng Việt lên tới hơn 99% (cử nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thảo tài liệu Với
Trang 20định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm
có thể tìm kiếm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới
Nhận dạng ký tự quang học là loại phần mềm máy tính tạo ra để chuyển hình ảnh thành các văn bản tài liệu
Phần mềm Quản lý số hoá công văn xây dựng nhằm: Quản lý thông tin, nội dung công văn của khoa và quá trình xử lý Mục tiêu: nhằm loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo
Hình 1: Sơ đồ luồng xử lý của VHD-Scanner
4.1.2 Mục tiêu dự án:
Triển khai giải pháp số hoá kho dữ liệu,chuyển đổi từ tài liệu dạng giấy sang tài liệu dạng số lưu trữ trong máy tính, máy chủ hoặc các thiết bị lưu trữ nội dung số khác để đảm bảo tính toàn vẹn của dữ liệu, phục vụ cho công tác khai thác, thống kê, phân tích và dự báo trong hoạt động của khoa
Đề tài nhằm tìm hiểu kỹ thuật số hóa thông tin từ một công văn tiếng Việt, vốn là một hình chụp “ từ máy Scan Kỹ thuật số hóa bao gồm tìm hiểu các phần mềm VietOCR,
ABBYY,Tesseract, từ đó nghiên cứu cách phân loại công văn và rút trích văn bản Đề tài cũng hướng tới mục tiêu xây dựng một ứng dụng rút trích thông tin từ công văn Khoa Công nghệ Thông tin
4.1.3 Phạm vi triển khai:
Giai đoạn 1: Thử nghiệm tại khoa công nghệ thông tin
Khoa công nghệ thông tin Giai đoạn 2: Triển khai trên toàn trường
Trang 21Phạm vi của hệ thống: Hệ thống được truy cập thông qua Internet ; chỉ có người trong khoa mới được truy cập hệ thống
Tin học hóa công tác quản lý công văn
Loại bỏ tình trạng công văn trùng lặp, giải quyết chồng chéo
Hỗ trợ việc tìm kiếm tra cứu thông tin liên quan đến công văn
Hỗ trợ lưu trữ công văn dưới dạng số hoá
Hỗ trợ thống kê báo cáo
4.2.2 Yêu cầu chức năng phần mềm
4.2.2.1 Quản lý phân quyền tiếp cận công văn
BCN Khoa:
- Người có thể nắm được hết thông tin của các loại công văn
- Xem thông tin chi tiết công văn
- Xem được các báo cáo, thống kê hàng tháng của văn thư
Văn thư:
- Người có trách nhiệm nhiều nhất trong việc chuyển giao, quản lý, lưu trữ công văn
Giảng viên:
- Người có quyền truy cập công văn theo quyền cho phép như : tìm kiếm, hiển thị, in ấn…
4.2.2.2 Quản lý quá trình tiếp nhận công văn:
- Lưu trữ kết quả xử lý và thông tin công văn ở các bước xử lý
- Phân loại công văn đến: Loại, Cơ quan phòng ban,
- Lưu trữ theo các bộ tập tài liệu
- Chuyển giao công văn
- Tìm kiếm và nhìn thấy toàn bộ quá trình xử lý của một vụ việc
4.2.2.3 Quản lý công văn:
- Tự động phân loại công văn
- Quản lý công văn: tìm kiếm, sắp xếp…
- Tìm kiếm văn bản, công văn trên hệ thống để đáp ứng nhu cầu người sử dụng Có thể thực hiện công việc tìm kiếm theo nhiều tiêu chí khác nhau
Trang 22- Tìm kiếm công văn đến, công văn đi Cho phép tìm nhanh với từ khóa:
o Số công văn
o Ngày công văn
o Ngày nhận/gửi công văn
o Trích yếu
o Đơn vị người nhận/gửi
o Theo loại
4.2.2.4 Quản lý thống kê:
- Thống kê công văn đến/đi trong ngày/tháng/năm
- Thống kê công văn đến/đi theo loại
- Thống kê công văn đến/đi đã được lưu trữ
- Thống kê toàn bộ văn bản
- Thống kê theo nơi gửi, cơ quan ban ngành
- Thống kê công văn theo cấp quản lý Cấp Bộ/ Sở/ Phòng GD/ Trường
4.2.2.5 Đặc điểm người dùng:
- Mỗi một người dùng được ban quản trị cung cấp user và pass khác nhau; người dùng có thể thay đổi pass;
- Người dùng được phân biệt theo đơn vị;
- Người dùng được phân thành các nhóm quyền khác nhau: BCN Khoa; Văn thư; Giảng viên
- Sau khi đăng nhập, người dùng ứng với đơn vị nào, nhóm quyền nào thì thấy được thông tin và có các chức năng tương ứng trong phạm vi cho phép
4.2.2.6 Ràng buộc của hệ thống
- Khả năng của server có thể cho phép nhiều người dùng truy cập xử lý cùng một lúc
- Server phải đảm bảo khả năng bảo mật
4.2.2.7 Điều kiện tiên quyết và phụ thuộc
- Phần mềm hoạt động khi chạy trên hệ thống mạng ổn định
- Hệ thống máy chủ được duy trì hoạt động liên tục và có cơ chế sao lưu dữ liệu định kỳ
4.3 Đặc tả chi tiết yêu cầu phần mềm
4.3.1 Quản lý công văn đến
- Trình tự quản lý công văn đến:
- Tiếp nhận, đăng ký công văn đến
- Trình, chuyển giao văn bản đến
- Giải quyết và theo dõi, đôn đốc việc giải quyết công văn đến
Trang 234.3.1.1 Tiếp nhận, đăng ký công văn đến
- Công văn đến từ bất kỳ nguồn nào đều phải được tập trung tại văn thư cơ quan, tổ chức để làm thủ tục tiếp nhận, đăng ký Những công văn đến không được đăng ký tại văn thư, các đơn vị, cá nhân không có trách nhiệm giải quyết
- Văn thư tiếp nhận công văn và tiến hành lấy thông tin và nhập vào hệ thống Lưu lại Khi có phát sinh cần chỉnh sửa sẽ thực hiện
4.3.1.2 Trình chuyển giao văn bản đến
- Công văn đến phải được kịp thời trình cho người có trách nhiệm (BCN khoa) và chuyển giao cho các đơn vị, cá nhân giải quyết (văn thư) Công văn đến có dấu chỉ các mức độ khẩn phải được trình và chuyển giao ngay sau khi được nhận
- Việc chuyển giao công văn phải đảm bảo chính xác và giữ gìn bí mật nội dung công văn
4.3.1.3 Giải quyết và theo dõi, đôn đốc việc giải quyết công văn đến
- Người đứng đầu cơ quan, tổ chức (BCN khoa) có trách nhiệm chỉ đạo giải quyết kịp thời văn bản đến Văn thư, tổ chức được giao chỉ đạo giải quyết những công văn đến theo sự ủy nhiệm của người đứng đầu (BCN khoa) và những công văn đến thuộc các lĩnh vực được phân công phụ trách
- Người đứng đầu cơ quan tổ chức (BCN khoa) có trách nhiệm thực hiện”
- Xem xét toàn bộ công văn đến và báo cáo về những công văn quan trọng khẩn
- Phân công văn đến cho các đơn vị, cá nhân (Văn thư) giải quyết;
- Theo dõi, đôn đốc việc giải quyết văn bản đến
4.3.2 Quản lý công văn
4.3.2.1 Tất cả công văn do cơ quan, tổ chức phát hành (gọi chung là công văn đi) phải được quản lý theo trình tự sau:
- Công văn đến từ bất kỳ nguồn nào đều phải được tập trung tại văn thư cơ quan, tổ
- chức để làm thủ tục tiếp nhận, đăng ký Những công văn đến không được đăng ký tại
- văn thư, các đơn vị, cá nhân không có trách nhiệm giải quyết
- Văn thư tiếp nhận công văn và tiến hành lấy thông tin và nhập vào hệ thống, lưu lại
- Khi có phát sinh cần chỉnh sửa sẽ được thực hiện
Kiểm tra thể thức, hình thức và kỹ thuật trình bày; ghi số, ký hiệu và ngày, tháng của công văn;
Đóng dấu cơ quan và dấu mức độ khẩn, mật (nếu có);
Đăng ký công văn đi;
Làm thủ tục, chuyển phát và theo dõi việc chuyển phát công văn đi;
Lưu công văn đi
Trang 244.3.2.2 Công văn được soạn thảo mới sẽ được nhập thông tin vào hệ thống để lưu trữ lại trước khi gửi đi
4.3.2.3 Dữ liệu quản lý công văn đi:
- Tên loại văn bản
- Trích yếu nội dung
Phân quyền cho người dùng
Sao lưu, phục hồi dữ liệu
- User (người dùng):
Thao tác nghiệp vụ
Đổi mật khẩu
- Hệ thống sẽ phân cấp người dùng tìm kiếm các công văn cần thiết khi có nhu cầu:
Chỉ có admin, văn thư, lãnh đạo của cơ quan (BCN khoa) mới có thể nắm được hết thông tin
của các loại công văn Khi xem thông tin chi tiết công văn cũng sẽ biết được người
dùng nào đã nhập liệu, chỉnh sửa cuối cùng thông tin của các công văn
Khi có sự cố lỗi nhập liệu sai, admin sẽ tìm được người chỉnh sửa cuối cùng thông qua lịch sử đăng nhập
Trang 25 Người dùng bình thường không thể thấy được các công văn mật, công văn nội bộ trong cơ quan
4.3.4 Quản lý lưu trữ, tra cứu, thống kê, tìm kiếm:
4.3.4.1 Tìm kiếm công văn đến, công văn đi Cho phép tìm nhanh với từ khóa:
- Số công văn
- Ngày công văn
- Ngày nhận/gửi công văn
- Trích yếu
- Đơn vị người nhận/gửi
4.3.4.2 Thống kê
- Thống kê công văn đến/đi trong ngày/tháng/năm
- Thống kê công văn/đi theo loại
- Thống kê công văn/đi đã được lưu trữ
4.3.5 Phân loại người dùng
- Ta bắt đầu phân loại người dùng để giao các quyền riêng mà người dùng có Ở đây ta chia làm 3 loại:
BCN Khoa :
Người có thể nắm được hết thông tin của các loại công văn
Xem thông tin chi tiết công văn
Xem được các báo cáo, thống kê hàng tháng của văn thư
Văn thư: người có trách nhiệm nhiều nhất trong việc chuyển giao, quản lý, lưu trữ công văn
Giảng viên:Người có quyền truy cập công văn theo quyền cho phép như : tìm kiếm, hiển thị, in ấn…
4.3.6 Quản lý công văn
- Quản lý công văn đến:
Phê duyệt và tiếp nhận công văn đến
Phân loại công văn đến theo:
Trang 26 Lưu trữ công văn
Sau khi phân loại công văn tiến hành lưu trữ theo các bộ tập tài liệu
Phân biệt bằng các màu và nhãn dán khác nhau
Mỗi tầng của kệ hoặc màu tập sẽ phân biệt được mức độ bảo mật của công văn
đó
Chuyển giao công văn
Văn thư sẽ chuyển giao công văn tới các đơn vị phòng ban chịu trách nhiệm xử lý công văn đó
Văn thư có thể chuyển công văn lên BCN Khoa nếu thấy có sai sót
- Quản lý công văn đi
Soạn thảo công văn đi
Viết công văn theo mẫu loại
Gửi lên BCN Khoa để đóng dấu
Kiểm tra thể thứ, hình thức và kỹ thuật trình bày ( ghi số, ký hiệu và ngày, tháng của công văn )
Đóng dấu và dấu mức độ khẩn, mật ( nếu có)
Đăng ký công văn đi:
Là một hình thức lưu lại công văn đi để phòng trường hợp tra cứu, sửa đổi
B2.2.5: Trưởng khoa ký duyệt công văn đi
B2.2.6: Làm thủ tục, chuyển phát và theo dõi việc chuyển công văn đi
B2.2.7: Lưu công văn đi
B2.2.8: Xác nhận công văn đã tới nơi gửi
- Quản lý công văn nội bộ
Soạn công văn nội bộ (thường do văn thư soạn thảo)
Đưa lên BCN Khoa và các cơ quan ban ngành để bổ sung ý kiến
BCN Khoa ký xác nhận, duyệt công văn
Văn thư tiến hành lưu trữ công văn
4.3.7 Quản lý lưu trữ
- Lưu trữ công văn đến dạng:
(Công văn được lưu trữ trong các kẹp giấy.)
Lưu trữ theo ngày, tháng, năm ban hành
Lưu trữ theo số hiệu
Lưu trữ theo từng loại công văn
Lưu trữ theo nơi gửi, nhận
Trang 27- Lưu trữ công văn đi
(Công văn đi được lưu ít nhất 2 bản; một bản lưu tại văn thư khoa, một bản lưu trong hồ sơ.)
Lưu trữ trong các kẹp giấy
Lưu trữ theo ngày tháng năm ban hành
Lưu trữ theo số hiệu
Lưu trữ theo từng loại công văn
Lưu trữ theo nơi gửi, nhận
4.3.8 Quản lý thống kê
- Thống kê công văn sẽ được thực hiện theo:
Thống kê công văn đến/đi trong ngày/tháng/năm
Thống kê công văn đến/đi theo loại
Thống kê công văn đến/đi đã được lưu trữ
Thống kê toàn bộ văn bản
Thống kê theo nơi gửi, cơ quan ban ngành
Thống kê công văn theo cấp quản lý Cấp Bộ/ Sở/ Phòng GD/ Trường
(Thông tin thống kê sẽ được hiển thị dạng bảng, biểu đồ)
Ngày công văn
Ngày nhận/gửi công văn
- Đăng ký công văn
- Tìm kiếm công văn
- Thêm công văn
- Xóa công văn
- Sửa công văn
Trang 28- Hiển thị nội dung
4.3.10 Thông báo công văn
- B6.1: Chuyển giao công văn hoàn tất
- B6.2: Công bố nội dung công văn
- B6.3: Thông báo công văn sai nội dung, hình thức cần được kiểm lại
Trình duyệt web IE6, FireFox,
Bộ gõ tiếng việt Unikey
- Yêu cầu truyền thông
Theo chuẩn của Bộ Thông tin truyền thông đối với các cơ quan nhà hành chính nước
Truyền tập tin theo tiêu chuẩn – HTTP v1.1 (Hypertext Transfer Protocol version 1.1)
Ngôn ngữ định dạng văn bản theo tiêu chuẩn – XML v1.0
Trình diễn bộ ký tự UTF-8 (8-bit Universal Character Set (UCS)/Unicode
Transformation Format)
Chuẩn nội dung web HTML v4.01 (Hypertext Markup Language version 4.01)
Trang 29 Giao diện người dùng CSS2 (Cascading Style Sheets Language Level 2)
4.3.12 Yêu cầu thuộc tính phần mềm
- 1 Tính nhất quán
Cơ chế dự phòng và hồi phục dữ liệu
Tránh truy cập nặc danh, sử dụng quyền quản trị để quản lý và phân quyền người dùng
Hệ thống phải tạo ra nhóm tác nghiệp theo chức năng và nhiệm vụ được giao trên cơ
sở của việc hạn chế mức truy cập của hệ thống
4 Đánh giá hiệu quả hệ thống
Hệ thống đáp ứng tốt khi số lượng người dùng và dữ liệu tăng; chỉ cần bổ sung nâng cấp server
- 5 Tính khả thi của hệ thống:
Hệ thống triển khai làm 02 giai đoạn bảo đảm việc thử nghiệm thành công trên phạm
vi nhỏ sau đó triển khai trên toàn bộ hệ thống
2 Giai đoạn bao gồm: Beta và Stable
Dựa trên việc sử dụng thành công các phần mềm hỗ trợ chức năng chính của hệ thống
4.3.13 Yêu cầu cơ sở dữ liệu
- Với yêu cầu đặt ra: Quản lý tập trung thông tin và nội dung đơn thư khiếu nại tố cáo của công dân từ nhiều đơn vị xử lý khác nhau nên cần triển khai phần mềm tại các đơn vị có
hệ thống mạng riêng
- Vì vậy giải pháp để đảm bảo chương trình vận hành dùng chung cơ sở dữ liệu là: cài đặt cơ
sở dữ liệu và chương trình trên máy chủ của Trung tâm Tích hợp dữ liệu thành phố Các đơn vị sử dụng hệ thống thông qua Internet hoặc kết nối VPN
- Hệ quản trị cơ sở dữ liệu lựa chọn: SQL server 2005
Trang 304.3.14 Kế hoạch thực hiện dự án
- Giới thiệu về nhân sự
+Bàn giao dự án
+ Có kinh nghiệm quản lý và phối hợp
+ Bao quát chung
về công việc và
nội dung dự án…
+ Có kinh nghiệm quản lý, phân việc, báo cáo
- Lớp: CTK39
- Ngày sinh: 23/05/1997
- SĐT :0367896040
+ Khảo sát và phân tích hệ thống
+Thống nhất quá trình thiết kế
+ Thiết kế chương trình tổng thể +Kiểm thử
+ Có kỹ năng khảo sát, phân tích, chạy thử chương trình tốt
+Có kỹ năng lập trình tốt
- Lớp: CTK39
- Ngày sinh: 28/08//1997
- SĐT :0379286232
- Mail:
dan.dut.day@gmail.com
3 Nguyễn Văn
Vương
Thành viên
+ Khảo sát và phân tích hệ thống
+Tìm hiểu về hướng dẫn trình bày văn
+Có kỹ năng lập trình tốt
+Có kỹ năng thiết kế
- Lớp: CTK39
- Ngày sinh: 12/04/1996
Trang 31bản
+Thiết kế chi tiết chương trình
+ Tổng hợp lập báo cáo
tốt
+Có kỹ năng tốt: MS Word, MS PowerPoint
- SĐT :037.552.8766
- Mail:
nguyenvanvuong972@gmail.com
- Lịch biểu công việc
Thời gian tổng thể
Tổng thời gian dự án dự kiến là 6 tháng được phần chia như sau:
Khảo sát và phân tích thiết kế hệ thống 3 tháng
Lập trình 1 tháng
kiểm thử các phần hệ, bàn giao từng phân hệ cho khách hàng, nhận yêu cầu sửa lỗi của khách hàng và tiến hành sửa lỗi 2 tháng
Thanh lý hợp đồng
Thời gian chi tiết:
Công việc cụ thể được lên kế hoạch phân công thành các giai đoạn như sau:
Ngày khởi công: 01/12/2018
Giai đoạn 1: Khảo sát:
Trang 32Phỏng vấn 15 ngày 07/12/2018 21/12/2018
Giai đoạn 2: Phân tích và thiết kế hệ thống
Giai đoạn 3: Thiết kế cơ sở dữ liệu
Người thực hiện:
1 Nghiêm Xuân Hiếu
2 Nguyễn Văn Vương
3 Đàm Đức Duy
Bảng chi tiết:
Trang 33Nhiệm vụ Số ngày làm Ngày bắt đầu Ngày kết thúc
Giai đoạn 4: Thiết kế giao diện
Thiết kế giao diện
Giao diện số hóa
công văn (user)
Giao diện thông tin
tài khoản (user)
Trang 34Giao diện quản
Giao diện quản lý loại
công văn (admin)
Trang 352 Nguyễn Văn Vương
3 Nghiêm Xuân Hiếu
4.3.15: Demo
Trang 36Hình 3: Giao diện đăng nhập hệ thống
Trang 37Hình 4: Giao diện hệ thống
front-end
Hình 5: Giao diện scan file hình và thành quả
Trang 38Hình 6: giao diện trang chính (back-end) 1
Hình 7: giao diện trang chính (back-end) 2
Trang 39KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết quả đạt được
Vậy là sau một khoảng thời gian dài nghiên cứu và thực hiện, VHD-Scanner đã đi vào hoạt động và đã chứng tỏ được sự hữu ích của nó và đạt được yêu cầu ban đầu đề ra Chương trình gọn nhẹ, đơn giản, dễ sử dụng được tích hợp responsive và được xây dựng trên nền web application nên có thể sử dụng trên mọi nền tảng Chương trình cũng áp dụng mô hình MVC nên việc bảo trì, nâng cấp
về sau cũng diễn ra một cách dễ dàng hơn
Hướng phát triển
Với những kết quả đạt được, đề tài dự kiến sẽ tiếp tục với những định hướng sau:
Triển khai hệ thống vào thực tế (tại khoa công nghệ thông tin)
Phát triển và bổ sung các chức năng bảo mật
Phát triển các tính năng và cải thiện code để chương trình tốt hơn
Phát triển module quản lý công văn
Nâng phạm vi từ khoa ra toàn trường
TÀI LIỆU THAM KHẢO
[1] Caruana, R.; Niculescu-Mizil, A (2006) An empirical comparison of supervised learning algorithms Proc 23rd International Conference on Machine Learning
[2] McCallum, Andrew; Nigam, Kamal (1998) A comparison of event models for Naive Bayes text classification
[3] John, George H.; Langley, Pat (1995) Estimating Continuous Distributions in Bayesian
Classifiers Proc Eleventh Conf on Uncertainty in Artificial Intelligence Morgan Kaufmann [4] 6 Easy Steps to Learn Naive Bayes Algorithm (with code in Python)
[5] Y LeCun, L Bottou, Y Bengio, and P Haffner Gradient-based learning applied to document recognition Proceedings of the IEEE, november 1998
[6] Y LeCun, B Boser, J S Denker, D Henderson, R E Howard, W Hubbard, and L D Jackel Backpropagation applied to handwritten zip code recognition Neural Computation, 1(4):541-551, Winter 1989
[7] Y LeCun Generalization and network design strategies Technical Report CRG-TR-89-4, Department of Computer Science, University of Toronto, 1989
Trang 40[9] Y LeCun, L Bottou, and Y Bengio Reading checks with graph transformer networks In International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 151-154, Munich, 1997
[10] B Boser, E Sackinger, J Bromley, Y LeCun, and L Jackel An analog neural network processor with programmable topology IEEE Journal of Solid-State Circuits, 26(12):2017-2025, December 1991
[12] R Vaillant, C Monrocq, and Y LeCun Original approach for the localisation of objects in images IEE Proc on Vision, Image, and Signal Processing, 141(4):245-250, August 1994
[13] Aho, Alfred V (1990) “Algorithms for finding patterns in strings” Trong van Leeuwen, Jan Handbook of Theoretical Computer Science, volume A: Algorithms and Complexity The MIT Press
[15] “The Single UNIX ® Specification, Version 2” The Open Group 1997
[16] https://tnquangblog.wordpress.com
[17] https://viblo.asia