1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô chi nhánh bình dương

67 54 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 5,55 MB

Nội dung

UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀI NHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THƠNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀI NHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tơi xin cam đoan đề tài “Nghiên cứu Nhận Dạng Chữ Ba Na Trên Văn Bản Hình Ảnh” cơng trình nghiên cứu độc lập hướng dẫn giáo viên hướng dẫn: PGS.TS Quản Thành Thơ Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, tơi cam đoan tồn phần hay phần nhỏ luận văn chưa công bố sử dụng để nhận cấp nơi khác Đề tài, nội dung báo cáo sản phẩm mà nỗ lực nghiên cứu trình học tập trường Các số liệu, kết trình bày báo cáo hoàn toàn trung thực, em xin chịu hoàn toàn trách nhiệm, kỷ luật nhà trường đề có vấn đề xảy Học viên thực Luận văn ÔN THIỆN TÀI i LỜI CẢM ƠN Lời đầu tiên, xin cảm ơn Ban Giám hiệu trường Đại học Thủ Dầu Một, Bộ phận Đào tạo Sau đại học, Giảng viên tham gia giảng dạy giúp đỡ, tạo điều kiện cho nghiên cứu suốt trình học tập thực đề tài luận văn tốt nghiệp Tôi xin cảm ơn đến Thầy PGS.TS Quản Thành Thơ cung cấp tài liệu, giúp đỡ , hướng dẫn tạo điều kiện thuận lợi trình nghiên cứu, thực đề tài Cuối xin chân thành cảm ơn đến Quý Thầy cô Hội đồng bảo vệ luận văn thạc sĩ góp ý để tơi hồn thành tốt luận văn Trân trọng cảm ơn! Học viên thực Luận văn ƠN THIỆN TÀI ii TĨM TẮT Ngày nay, bảo tồn phát huy tiếng nói, chữ viết dân tộc thiểu số cấp thiết để giữ gìn sắc văn hóa, thực quyền bình đẳng dân tộc Nhưng các loại sách báo, tư liệu tiếng nói, chữ viết dân tộc thiểu số lại khơng nhiều, có lại in giấy truyền thống Do đó, qua thời gian văn in giấy truyền thống khơng cịn chất lượng tốt, cập nhật, sửa chữa, trao đổi gập nhiều khó khăn Từ đó, nảy sinh vấn đề làm cách để khôi phục lại thông tin sách báo dạng văn số để cập nhật, tái hay để lưu trữ lâu dài Việc khơi phục lại thơng tin lưu trữ dạng hình ảnh, điển hình từ từ điển la tinh tiếng Ba Na mang đến tầm quan trọng tiếng Ba Na lưu giữ bảo tồn chúng dạng văn số Tuy nhiên việc chuyển đổi lúc mang đến xác tuyệt đối, điều dẫn đến xuất lỗi sai tả văn số làm cho kết không đạt mong muốn Mục đích nghiên cứu thực hậu xử lý cho trình nhằm cải tiến chất lượng cho văn số đầu từ bước chuyển đổi Trong phạm vi luận án, thực cách tiếp cận sau: • Thực chuyển đổi thơng tin từ hình ảnh sang văn số định dạng phù hợp gồm mục từ thân từ từ điển gốc • Xây dựng sửa lỗi dựa mơ hình ngơn ngữ mức kí tự nhằm sửa lỗi tả cho tiếng Ba Na Mở rộng thêm với phương thức nhằm tăng cường khả sửa lỗi cho mơ hình • Đề xuất chiến lược cho mơ hình ngơn ngữ việc đánh giá kí tự nguyên âm lỗi sai nhằm phù hợp với thực tế tốn Bên cạnh đó, dùng kĩ thuật nghiệm suy (heuristic) để bổ trợ cho việc sửa lỗi nhằm đem lại kết tốt Kết thực nghiệm cho thấy mơ hình đề xuất mang tính ứng dụng cao giúp cải thiện chất lượng cho kết thu từ việc chuyển đổi hình ảnh sang văn từ điển Tiếng Ba Na Sau luận văn đưa hướng mở rộng cho đề tài phát triển mơ hình nhằm đạt kết tốt sử dụng vào nghiên cứu khác liên quan đến sửa lỗi tả tiếng Ba Na iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH ẢNH viii CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1 Giới thiệu đề tài 1.2 Mục tiêu phạm vi đề tài 1.2.1 Mục tiêu nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Tính ứng dụng đề tài 1.4 Các cơng trình nghiên cứu liên quan 1.5 Thách thức toán 1.6 Phương pháp nghiên cứu 1.7 Cấu trúc luận văn TÓM TẮT CHƯƠNG CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Cơ sở lý thuyết 2.1.1 Đôi nét người Ba Na 2.1.2 Ngôn ngữ chữ BaNa 2.2 Tổng quan Tesseract 2.2.1 Tiền xử lý hình ảnh 2.2.2 Thư viện Tesseract 2.2.3 Cách Tesseract hoạt động 10 2.2.4 Hạn chế Tesseract 10 2.2.5 Công cụ Pytesseract 11 2.3 Thư viện OpenCV 11 2.4 Mạng nơ-ron hồi quy (RNN) 13 2.4.1 Phân loại toán RNN 16 2.4.2 Ứng dụng toán RNN 16 2.4.3 Huấn luyện mạng RNN 18 2.5 LSTM 18 2.6 CNN 21 2.7 Tổng quan thuật giải Heuristic 25 2.8 Khoảng cách Levenshtein 27 TÓM TẮT CHƯƠNG 29 iv CHƯƠNG 3: HIỆN THỰC MƠ HÌNH ĐỀ TÀI 30 3.1 Thu thập liệu 30 3.1.1 Xử lý trước hình ảnh 30 3.1.2 Các vấn đề xử lý ảnh 30 3.2 Xây dựng mô hình đề xuất 32 TÓM TẮT CHƯƠNG 36 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 37 4.1 Thực xử lý hình ảnh trước 37 4.2 Thực OCR 37 4.3 Đặc điểm lỗi 39 4.4 Thực nghiệm sửa lỗi ký tự 41 4.5 Đánh giá kết 42 4.6 Một số hạn chế mơ hình 45 TÓM TẮT CHƯƠNG 45 CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 46 5.1 Kết luận 46 5.2 Hướng mở rộng đề tài 46 TÓM TẮT CHƯƠNG 47 DANH MỤC TÀI LIỆU THAM KHẢO 48 v DANH MỤC TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo CNN Convolutional Neural Network Mạng nơ ron tích chập DL Deep Learning Học sâu HO Humanitarian Organization Tổ chức nhân đạo LM Language Model Mô hình hóa ngơn ngữ LSTM Long Short-Term Memory Bộ nhớ dài ngắn ML Machine Learning Học máy NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên OpenCV Open Source Computer Vision Thị giác máy tính nguồn mỡ RNN Recurrent Neural Network Mạng nơ ron tái phát vi DANH MỤC BẢNG BIỂU Bảng Các kí tự bị lỗi thường xuyên 41 Bảng 2: Kết so sánh ocr thô heuristic 44 vii DANH MỤC HÌNH ẢNH Hình 3: Cuốn sách từ điển Ba Na – Ba Na Hình 2: Bộ bảng chữ Tiếng Ba Na (Nguồn tác giả) Hình 3: OCR tờ giấy cũ chuyển đổi sang văn số Hình 4: Quá trình OCR (Optical Character Recognition process) Hình 5: Kiến trúc Tesseract OCR 10 Hình 6: Mơ hình mạng Neural Network thơng thường 14 Hình 7: Kiến trúc mạng RNN 14 Hình 8: Các dạng toán RNN 16 Hình 9: Mơ hình dịch máy 17 Hình 10: Kiến trúc LSTM 18 Hình 11: LSTM – cổng forget 20 Hình 12: LSTM – cổng input lớp 20 Hình 13: LSTM – cập nhật trạng thái tế bào (cell state) 21 Hình 14: LSTM – lớp output 21 Hình 15: Mơ hình cấu trúc CNN 23 Hình 16: Mơ hình nhận dạng object CNN 25 Hình 17: Khoảng cách Levenshtein hai chuỗi a b 28 Hình Ảnh thu nhận ảnh mong muốn 31 Hình 3.2: Mơ hình cơng cụ Tesseract OCR nhận dạng văn hình ảnh 32 Hình 3: Mơ hình Tesseract tiếng Việt 33 Hình 6: Thuật tốn heuristic sửa lỗi kí tự 35 Hình 7: Mơ hình nhận dạng văn hình ảnh tiếng Ba Na 35 Hình 1: Kết đạt sau xử lý hình ảnh 37 Hình 2: Quá trình OCR cho việc thực từ điển Tiếng Ba Na 37 Hình 3: Kết đạt sau OCR thô 38 Hình 4: Thống kê lỗi sau sử dụng Tesseract 39 Hình 5: Trực quan hóa trước sau heuristic liệu từ điển tiếng Ba Na 40 Hình 6: Tập hợp lỗi thay 41 Hình 7: Kết đạt sau sửa lỗi kí tự 42 Hình 8: Biểu đồ trực quan hóa so sánh ocr thô heuristic 44 viii Hình 7: Kết đạt sau sửa lỗi kí tự 4.5 Đánh giá kết Đối với đề tài nhận dạng văn hình ảnh độ xác văn đầu yếu tố định hệ thống có đạt kết mong muốn Để đo độ xác này, ta so sánh văn dự đoán khác so với văn thực tế Sự khác nhỏ, xác văn dự đốn lớn Một giá trị thường sử dụng để đo khác hai văn Word Error Rate (WER) WER tỉ lệ lỗi văn dự đoán văn đúng, đo số lượng từ bị thay đổi hai văn (do bị xóa, thêm, chỉnh sửa) trình dự đốn Trong đó: S: số lượng từ bị thay 42 D: số lượng từ bị xoá I: số lượng từ thêm vào C: số lượng từ xác N: tổng số lượng từ (N = S + D + C) Ngồi ra, ta định nghĩa thêm Char Error Rate (CER) cách tương tự 43 KẾT KẾT QUẢ SO SÁNH OCR THÔ VÀ HEURISTIC OCR THÔ HEURISTIC Số STT DỮ LIỆU Bảng chữ tiếng BaNa chữ in lượng Số từ kí tự Độ Số từ xác Độ xác 38 23 61% 26 68% Bảng chữ tiếng BaNa (size 12) 38 25 66% 30 79% Bảng chữ tiếng BaNa (size 14) 38 25 66% 31 82% Bảng chữ tiếng BaNa (size 16) 38 28 74% 32 84% hoa (size 14 ) Bảng 2: Kết so sánh ocr thô heuristic KẾT QUẢ SO SÁNH OCR THÔ VÀ HEURISTIC 160 140 120 100 80 60 40 20 SỐ TỪ ĐÚNG Số lượng kí tự ĐỘ CHÍNH XÁC OCR THƠ SỐ TỪ ĐÚNG ĐỘ CHÍNH XÁC HEURISTIC Bảng chữ tiếng BaNa chữ in hoa (size 14 ) Bảng chữ tiếng BaNa (size 12) Bảng chữ tiếng BaNa (size 14) Bảng chữ tiếng BaNa (size 16) Hình 8: Biểu đồ trực quan hóa so sánh ocr thơ heuristic 44 KẾT QUẢ TEST TRÊN TẬP DỮ LIỆU 84.31% 90.00% 84.71% 80.00% 65.54% 70.00% 60.00% 49.76% 50.00% 40.00% 34.46% 50.24% 30.00% 20.00% 15.69% 15.29% FILE SỬ THI BANA FILE TỪ ĐIỂN Kriem BANA 10.00% 0.00% FILE SCAN BANA Độ xác FILE PHONG TỤC BANA Đố sai lệch Hình 9: Trực quan hóa kết test tập liệu Từ hình 4.8 biểu đồ trục quan hóa kết test bốn tập liệu Tôi nhận thấy tập liệu sử thi BaNa tập liệu từ điển Kriem BaNa đạt độ xác 84%, cịn hai tập liệu cịn lại là: liệu Phong tục BaNa liệu Scan BaNa đạt độ xác là: 65% gần 50% 4.6 Một số hạn chế mơ hình • Kết đạt cịn phụ thuộc vào liệu hình ảnh thu thập có chất lượng chưa tốt • Kết đạt cịn phụ thuộc vào liệu hình ảnh thu thập có chất lượng chưa tốt • Size chữ nhỏ hay to làm ảnh hưởng đến kết đầu • Để nhận diện bảng chữ Bana tốt cịn phụ thuộc vào mơ hình LSTM OCR • Kết nhận diện bảng chữ Bana in hoa đạt 68% kết đánh giá WER TÓM TẮT CHƯƠNG Với chương 3, sau thực mơ hình đề tài, chương này, bắt đầu tiến hành thực nghiệm đánh giá đề tài thông qua bước: - Thực xử lý hình ảnh Thực OCR Nhận dạng đặc điểm lỗi ký tự lặp lặp lại Thực nghiệm sửa lỗi ký tự Đánh giá kết đạt Một số hạn chế mơ hình 45 CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 5.1 Kết luận Trong nghiên cứu đề tài này, thực việc xây dựng mơ hình nhận dạng văn hình ảnh tiếng Ba Na thơng qua việc áp dụng kĩ thuật Học Sâu (Deep Learning) kết hợp với thuật toán sửa lỗi lặp lặp lại theo hướng logic Dựa ý tưởng từ mơ hình này, áp dụng thêm nhiều phương pháp bổ trợ với sáng tạo cá nhân nhằm mang tính phù hợp đạt hiệu tốt cho việc nhận dạng sửa lỗi tả từ điển tiếng Bơhnar Kriêm Sở Khoa học Công nghệ (Ủy ban nhân dân tỉnh Bình Định) Viện Ngơn ngữ học (Viện Khoa học xã hội Ba Na Nam) hợp tác thực hiện, sổ tay phương ngữ Tiếng Ba Na Sở Giáo Dục Đào Tạo Gia Lai biên soạn Y JIL-H’MER – ĐINH VĂN HẢI – ĐINH VĂN KHOA Việc thực nghiệm sửa lỗi từ điển mang tính ứng dụng cao góp phần lưu giữ bảo tồn văn số cho từ ngữ tiếng Ba Na góp phần làm nên nghiên cứu đại vào ngơn ngữ dân tộc thiểu số quốc gia Thơng q giúp tơi thêm tự hào hiểu sâu sắc phong phú tiếng Ba Na Tuy chưa đem lại hiệu suất tốt thời gian thực đề tài lần này, với kết có hướng tiếp cận mang tính khả thi việc phát triển khả sửa lỗi nhằm giúp bảo tồn văn hóa dân tộc nước nhà 5.2 Hướng mở rộng đề tài Ngồi cơng việc thực mơ hình đề xuất, tơi tin hướng mở rộng sau đem lại kết đầy hứa hẹn cho nghiên cứu tương lai: Mơ hình sửa lỗi kết hợp thêm với mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động để tạo nhiều trường hợp ứng viên nhằm tối ưu việc sửa lỗi tả cho tiếng Ba Na Mở rộng tính ứng dụng sau sửa từ điển này, lấy làm liệu huấn luyện để sửa cho từ điển khác có tính tương đồng mặt ngữ nghĩa câu cú 46 TÓM TẮT CHƯƠNG Sau khi, thực nghiệm đánh giá chương Ở chương 5, xin kết luận đề tài kiến nghị hướng phát triển mở rộng đề tài 47 DANH MỤC TÀI LIỆU THAM KHẢO [1] KHADIJA EL GAJOUI, FADOUA ATAA ALLAH, MOHAMMED OUMSIS “Training TESSERACT Tool for Amazigh OCR” Internet: https://www.researchgate.net/publication/277142272_Training_TESSERACT_Tool_f or_Amazigh_OCR [2] T Pham, X Pham and P Le-Hong (2017) “On the use of machine translation-based International approaches Conference for on vietnamese Asian diacritic Language restoration,” Processing 2017 (IALP), Singapore, pp 272-275 [3] C Olah (2015) “Understanding lstm networks,” [Online] Available: http://colah github.io/posts/2015-08-Understanding-LSTMs/ [4] Wikipedia, “Người Ba Na” Internet: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na [5] TRẦN LÊ TÚY PHƯỢNG, “Dân ca dân nhạc VN – Dân ca Bahnar/Ba Na” Internet: https://cvdvn.net/2015/07/27/dan-ca-dan-nhac-vn-dan-ca-bahnarba-na/ [6] Wikipedia, “Optical character recognition.” Internet: https://en.wikipedia.org/wiki/Optical_character_recognition, Oct 18, 2020 [7] F Zelic, A Sable “A comprehensive guide to OCR with Tesseract, OpenCV and Python.” Internet: https://nanonets.com/blog/ocr-with-tesseract/#opensourceocrtools [8] Internet: Joseph Howse “OpenCV Computer Vision with Python” https://fr.scribd.com/book/253052074/OpenCV-Computer-Vision-with- Python [9] D E N N Y B R I T Z “ Recurrent Neural Networks Tutorial, Part – Introduction to RNNs” 48 Internet: https://wwwwildmlcom.translate.goog/2015/09/recurrentneuralnetworkstutorialpart1in troductiotornns/?_x_tr_sch=http&_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto= nui,op,sc [10] C Olah “Understanding lstm networks.” Internet: http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2020 [11] Afshine Amidi Shervine Amidi Dịch Phạm Hồng Vinh Đàm Minh Tiến “Mạng neural tích chập cheatsheet” Internet: https://stanford.edu/~shervine/l/vi/teaching/cs230/cheatsheetconvolutionalneuralnetworks [12] Quoc Pham “Tìm Hiểu Convolutional Neural Networks Cho Phân Loại Ảnh” Internet: https://pbcquoc.github.io/cnn/ [13] Võ Huỳnh Trâm Trần Ngân Bình, “CHƯƠNG 4: TÌM KIẾM HEURISTIC” Internet: https://www.academia.edu/10292262/Ch%C6%B0%C6%A1ng_4_T%C3%ACm_ki% E1%BA%BFm_Heuristic [14] Wikipedia “Levenshtein distance.” Internet: https://en.wikipedia.org/wiki/Levenshtein_distance, Dec 20, 2020 [15] Aditi Mithal – “Optical Character Recognition Tool” - April 18th, 2017 [16] Chirag Patel, Atul Patel, Dharmendra Patel – “Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study” - 27 May 2014 49 50 51 52 53 54 55 56 ... PGS.TS QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tôi xin cam đoan đề tài ? ?Nghiên cứu Nhận Dạng Chữ Ba Na Trên Văn Bản Hình Ảnh” cơng trình nghiên cứu độc lập hướng dẫn giáo viên hướng dẫn: PGS.TS... này, tơi cam đoan toàn phần hay phần nhỏ luận văn chưa công bố sử dụng để nhận cấp nơi khác Đề tài, nội dung báo cáo sản phẩm mà nỗ lực nghiên cứu trình học tập trường Các số liệu, kết trình... cho nghiên cứu suốt trình học tập thực đề tài luận văn tốt nghiệp Tôi xin cảm ơn đến Thầy PGS.TS Quản Thành Thơ cung cấp tài liệu, giúp đỡ , hướng dẫn tạo điều kiện thuận lợi trình nghiên cứu,

Ngày đăng: 14/04/2022, 10:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. KHADIJA EL GAJOUI, FADOUA ATAA ALLAH, MOHAMMED OUMSIS. “Training TESSERACT Tool for Amazigh OCR”.Internet:https://www.researchgate.net/publication/277142272_Training_TESSERACT_Tool_for_Amazigh_OCR Sách, tạp chí
Tiêu đề: Training TESSERACT Tool for Amazigh OCR
[2]. T. Pham, X. Pham and P. Le-Hong. (2017) “On the use of machine translation-based approaches for vietnamese diacritic restoration,” 2017 International Conference on Asian Language Processing (IALP), Singapore, pp. 272-275 Sách, tạp chí
Tiêu đề: On the use of machine translation-based approaches for vietnamese diacritic restoration
[3]. C. Olah. (2015) “Understanding lstm networks,” [Online]. Available: http://colah. github.io/posts/2015-08-Understanding-LSTMs/ Sách, tạp chí
Tiêu đề: Understanding lstm networks
[4]. Wikipedia, “Người Ba Na” Internet: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na Sách, tạp chí
Tiêu đề: Người Ba Na
[5]. TRẦN LÊ TÚY PHƯỢNG, “Dân ca dân nhạc VN – Dân ca Bahnar/Ba Na”.Internet: https://cvdvn.net/2015/07/27/dan-ca-dan-nhac-vn-dan-ca-bahnarba-na/ Sách, tạp chí
Tiêu đề: Dân ca dân nhạc VN – Dân ca Bahnar/Ba Na
[6]. Wikipedia, “Optical character recognition.” Internet: https://en.wikipedia.org/wiki/Optical_character_recognition, Oct. 18, 2020 Sách, tạp chí
Tiêu đề: Optical character recognition
[7]. F. Zelic, A. Sable. “A comprehensive guide to OCR with Tesseract, OpenCV and Python.”Internet: https://nanonets.com/blog/ocr-with-tesseract/#opensourceocrtools [8]. Joseph Howse. “OpenCV Computer Vision with Python”Internet: https://fr.scribd.com/book/253052074/OpenCV-Computer-Vision-with-Python Sách, tạp chí
Tiêu đề: A comprehensive guide to OCR with Tesseract, OpenCV and Python.” Internet: https://nanonets.com/blog/ocr-with-tesseract/#opensourceocrtools [8]. Joseph Howse. “OpenCV Computer Vision with Python
[9]. D E N N Y B R I T Z . “ Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs” Sách, tạp chí
Tiêu đề: Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs
[10]. C. Olah. “Understanding lstm networks.” Internet: http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2020 Sách, tạp chí
Tiêu đề: Understanding lstm networks
[11]. Afshine Amidi và Shervine Amidi Dịch bởi Phạm Hồng Vinh và Đàm Minh Tiến “Mạng neural tích chập cheatsheet”.Internet:https://stanford.edu/~shervine/l/vi/teaching/cs230/cheatsheetconvolutionalneural-networks Sách, tạp chí
Tiêu đề: Mạng neural tích chập cheatsheet
[12]. Quoc Pham. “Tìm Hiểu Convolutional Neural Networks Cho Phân Loại Ảnh”Internet: https://pbcquoc.github.io/cnn/ Sách, tạp chí
Tiêu đề: Tìm Hiểu Convolutional Neural Networks Cho Phân Loại Ảnh
[13]. Võ Huỳnh Trâm và Trần Ngân Bình, “CHƯƠNG 4: TÌM KIẾM HEURISTIC”Internet:https://www.academia.edu/10292262/Ch%C6%B0%C6%A1ng_4_T%C3%ACm_ki%E1%BA%BFm_Heuristic Sách, tạp chí
Tiêu đề: CHƯƠNG 4: TÌM KIẾM HEURISTIC
[14]. Wikipedia. “Levenshtein distance.” Internet: https://en.wikipedia.org/wiki/Levenshtein_distance, Dec. 20, 2020 Sách, tạp chí
Tiêu đề: Levenshtein distance
[15]. Aditi Mithal – “Optical Character Recognition Tool” - April 18th, 2017 [16]. Chirag Patel, Atul Patel, Dharmendra Patel – “Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study” - 27 May 2014 Sách, tạp chí
Tiêu đề: Optical Character Recognition Tool” - April 18th, 2017 [16]. Chirag Patel, Atul Patel, Dharmendra Patel – “Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study

HÌNH ẢNH LIÊN QUAN

NHẬN DẠNG CHỮ BANA TRÊN VĂN BẢN HÌNH ẢNH - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
NHẬN DẠNG CHỮ BANA TRÊN VĂN BẢN HÌNH ẢNH (Trang 2)
LM Language Model Mô hình hóa ngôn ngữ - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
anguage Model Mô hình hóa ngôn ngữ (Trang 8)
nhấ t- vào mô hình để xử lý cho ngôn ngữ cụ thể là tiếng BaNa giúp mang tính ứng dụng vào thực tiễn - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
nh ấ t- vào mô hình để xử lý cho ngôn ngữ cụ thể là tiếng BaNa giúp mang tính ứng dụng vào thực tiễn (Trang 14)
Hình 2. 2: OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 2: OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số (Trang 19)
Tesseract với phiên bản 3.x khi nó bắt đầu hỗ trợ nhiều định dạng hình ảnh và dần dần bổ sung một số lượng lớn các tập lệnh (ngôn ngữ) - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
esseract với phiên bản 3.x khi nó bắt đầu hỗ trợ nhiều định dạng hình ảnh và dần dần bổ sung một số lượng lớn các tập lệnh (ngôn ngữ) (Trang 20)
ứng sẽ có cơ hội nhận dạng chính xác hơn văn bản ở dưới trang (Hình 2.5) - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
ng sẽ có cơ hội nhận dạng chính xác hơn văn bản ở dưới trang (Hình 2.5) (Trang 21)
Trước tiên chúng ta cùng nhìn lại mô hình NeuralNetwork dưới đây: - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
r ước tiên chúng ta cùng nhìn lại mô hình NeuralNetwork dưới đây: (Trang 25)
Mô hình trên mô tả phép triển khai nội dung của một RNN. Triển khai ở đây có thể hiểu đơn giản là ta vẽ ra một mạng nơ-ron chuỗi tuần tự - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
h ình trên mô tả phép triển khai nội dung của một RNN. Triển khai ở đây có thể hiểu đơn giản là ta vẽ ra một mạng nơ-ron chuỗi tuần tự (Trang 26)
Hình 2. 7: Các dạng bài toán RNN - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 7: Các dạng bài toán RNN (Trang 27)
• Mô hình hóa ngôn ngữ và sinh văn bản: cho phép ta dự đoán được xác xuất của một từ nào đó xuất hiện sau một chuỗi các từ đi liền trước nó - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
h ình hóa ngôn ngữ và sinh văn bản: cho phép ta dự đoán được xác xuất của một từ nào đó xuất hiện sau một chuỗi các từ đi liền trước nó (Trang 28)
Hình 2. 11: LSTM – cổng input và lớp tanh - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 11: LSTM – cổng input và lớp tanh (Trang 31)
Hình 2. 10: LSTM – cổng forget - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 10: LSTM – cổng forget (Trang 31)
Hình 2. 12: LSTM – cập nhật trạng thái tế bào (cell state) - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 12: LSTM – cập nhật trạng thái tế bào (cell state) (Trang 32)
Hình 2. 13: LSTM – lớp output - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 13: LSTM – lớp output (Trang 32)
Hình 2. 14: Mô hình cấu trúc CNN Fully connected layer  - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 14: Mô hình cấu trúc CNN Fully connected layer (Trang 34)
Hình 2. 16: Khoảng cách Levenshtein giữa hai chuỗ ia và b - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 2. 16: Khoảng cách Levenshtein giữa hai chuỗ ia và b (Trang 39)
Từ đó, việc xử lý trước hình ảnh loại bỏ nhiễu không mong muốn trong các đối tượng. Nó bao gồm một loạt các kí tự bị lem sang thang độ xám, chuyển đổi hình thái  học, lập ngưỡng, tìm các cạnh của các ký tự, sao chép chúng ký tự trong nền trắng mới  và cuố - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
vi ệc xử lý trước hình ảnh loại bỏ nhiễu không mong muốn trong các đối tượng. Nó bao gồm một loạt các kí tự bị lem sang thang độ xám, chuyển đổi hình thái học, lập ngưỡng, tìm các cạnh của các ký tự, sao chép chúng ký tự trong nền trắng mới và cuố (Trang 43)
Hình 3. 3: Mô hình Tesseract tiếng Việt - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 3. 3: Mô hình Tesseract tiếng Việt (Trang 44)
Với mô hình Tesseract OCR tiếng Việt tuân theo từng bước truyền thống xử lý đường ống - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
i mô hình Tesseract OCR tiếng Việt tuân theo từng bước truyền thống xử lý đường ống (Trang 44)
Để đạt kết quả tốt nhất tôi đã kết hợp hai mô hình trên bằng cách tạo ra một bộ dữ liệu bảng chữ cái la tinh tiếng Ba Na với nhiều cỡ chữ, font chữ,… - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
t kết quả tốt nhất tôi đã kết hợp hai mô hình trên bằng cách tạo ra một bộ dữ liệu bảng chữ cái la tinh tiếng Ba Na với nhiều cỡ chữ, font chữ,… (Trang 46)
Hình 3. 6: Thuật toán heuristic sửa lỗi kí tự - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 3. 6: Thuật toán heuristic sửa lỗi kí tự (Trang 46)
Hình 4. 1: Kết quả đạt được sau khi xử lý hình ảnh - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 4. 1: Kết quả đạt được sau khi xử lý hình ảnh (Trang 48)
Thực hiện chỉnh độ nghiêng (skew correction) giúp tính góc trên hình ảnh sau cắt giúp hình ảnh thắng làm tăng hiệu suất cho việc nhận dạng kí tự - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
h ực hiện chỉnh độ nghiêng (skew correction) giúp tính góc trên hình ảnh sau cắt giúp hình ảnh thắng làm tăng hiệu suất cho việc nhận dạng kí tự (Trang 49)
Sau khi tôi sử dụng thư viện Tesseract tiếng Việt để nhận dạng văn bản hình ảnh tiếng Ba Na thì tôi đã thống kê những kí tự bị lỗi, do những kí tự la tinh này khác kí tự  la tinh tiếng Việt, như sau:   - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
au khi tôi sử dụng thư viện Tesseract tiếng Việt để nhận dạng văn bản hình ảnh tiếng Ba Na thì tôi đã thống kê những kí tự bị lỗi, do những kí tự la tinh này khác kí tự la tinh tiếng Việt, như sau: (Trang 50)
BẢNG KÍ TỰ BỊ LỖI THƯỜNG XUYÊN - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
BẢNG KÍ TỰ BỊ LỖI THƯỜNG XUYÊN (Trang 51)
Hình 4. 5: Trực quan hóa trước và sau khi heuristic dữ liệu từ điển tiếng BaNa - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 4. 5: Trực quan hóa trước và sau khi heuristic dữ liệu từ điển tiếng BaNa (Trang 51)
Bảng 4.1 Các kí tự bị lỗi thường xuyên 4.4.Thực nghiệm sửa lỗi ký tự  - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Bảng 4.1 Các kí tự bị lỗi thường xuyên 4.4.Thực nghiệm sửa lỗi ký tự (Trang 52)
Hình 4. 6: Tập hợp các lỗi thay thế - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 4. 6: Tập hợp các lỗi thay thế (Trang 52)
Hình 4. 7: Kết quả đạt được sau khi sửa lỗi kí tự 4.5. Đánh giá kết quả  - Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô  chi nhánh bình dương
Hình 4. 7: Kết quả đạt được sau khi sửa lỗi kí tự 4.5. Đánh giá kết quả (Trang 53)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w