Một số hạn chế của mô hình

Một phần của tài liệu Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô chi nhánh bình dương (Trang 56)

• Kết quả đạt được còn phụ thuộc vào dữ liệu hình ảnh thu thập có chất lượng

chưa được tốt.

• Kết quả đạt được còn phụ thuộc vào dữ liệu hình ảnh thu thập có chất lượng

chưa được tốt.

• Size chữ quá nhỏ hay quá to cũng sẽ làm ảnh hưởng đến kết quả đầu ra

• Để nhận diện bảng chữ cái Bana được tốt còn phụ thuộc vào mô hình LSTM

trong OCR

• Kết quả nhận diện bảng chữ cái Bana in hoa chỉ đạt 68% là do kết quả đánh

giá WER

TÓM TẮT CHƯƠNG 4

Với chương 3, sau khi thực hiện mô hình đề tài, thì chương 4 này, tôi sẽ bắt đầu tiến hành thực nghiệm và đánh giá đề tài thông qua các bước:

- Thực hiện xử lý hình ảnh - Thực hiện OCR

- Nhận dạng đặc điểm các lỗi ký tự lặp đi lặp lại - Thực nghiệm sửa lỗi ký tự

- Đánh giá kết quả đạt được - Một số hạn chế của mô hình 84.31% 84.71% 49.76% 65.54% 15.69% 15.29% 50.24% 34.46% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00%

FILE SỬ THI BANA FILE TỪ ĐIỂN Kriem BANA

FILE SCAN BANA FILE PHONG TỤC BANA KẾT QUẢ TEST TRÊN 4 TẬP DỮ LIỆU

46

CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 5.1. Kết luận

Trong nghiên cứu đề tài này, tôi đã hiện thực được việc xây dựng một mô hình nhận dạng văn bản hình ảnh tiếng Ba Na thông qua việc áp dụng kĩ thuật Học Sâu (Deep Learning) kết hợp với thuật toán sửa những lỗi lặp đi lặp lại theo hướng logic. Dựa trên ý tưởng từ mô hình này, tôi áp dụng thêm nhiều phương pháp bổ trợ với sự sáng tạo cá nhân nhằm mang tính phù hợp và đạt hiệu quả tốt nhất cho việc nhận dạng và sửa lỗi chính tả trên cuốn từ điển tiếng Bơhnar Kriêm do Sở Khoa học và Công nghệ (Ủy ban nhân dân tỉnh Bình Định) và Viện Ngôn ngữ học (Viện Khoa học xã hội Ba Na Nam) hợp tác thực hiện, sổ tay phương ngữ Tiếng Ba Na do Sở Giáo Dục và Đào Tạo Gia Lai

biên soạn Y JIL-H’MER – ĐINH VĂN HẢI – ĐINH VĂN KHOA. Việc thực nghiệm

sửa lỗi trên chính cuốn từ điển này mang tính ứng dụng cao khi góp phần lưu giữ và bảo tồn văn bản số cho từ ngữ tiếng Ba Na cũng như góp phần làm nên một nghiên cứu hiện đại vào chính ngôn ngữ dân tộc thiểu số quốc gia. Thông quá đó giúp tôi thêm tự hào và hiểu sâu sắc hơn về sự phong phú của tiếng Ba Na. Tuy chưa đem lại hiệu suất tốt nhất trong thời gian thực hiện đề tài lần này, nhưng với những kết quả hiện có thì hướng tiếp cận này mang tính khả thi trong việc phát triển khả năng sửa lỗi nhằm giúp bảo tồn văn hóa dân tộc nước nhà.

5.2. Hướng mở rộng đề tài

Ngoài những công việc đã được hiện thực trong mô hình đề xuất, tôi tin rằng những hướng mở rộng sau sẽ đem lại những kết quả đầy hứa hẹn cho các nghiên cứu trong tương lai:

Mô hình sửa lỗi này có thể kết hợp thêm với mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động để tạo ra nhiều trường hợp ứng viên nhằm tối ưu việc sửa lỗi chính tả cho tiếng Ba Na.

Mở rộng về tính ứng dụng thì sau khi sửa được bộ từ điển này, có thể lấy làm dữ liệu huấn luyện để sửa cho những bộ từ điển khác vì có tính tương đồng trong mặt ngữ nghĩa câu cú.

47

TÓM TẮT CHƯƠNG 5

Sau khi, thực nghiệm và đánh giá ở chương 4. Ở chương 5, tôi xin kết luận đề tài và kiến nghị hướng phát triển mở rộng đề tài.

48

DANH MỤC TÀI LIỆU THAM KHẢO

[1]. KHADIJA EL GAJOUI, FADOUA ATAA ALLAH, MOHAMMED

OUMSIS. “Training TESSERACT Tool for Amazigh OCR”.

Internet:

https://www.researchgate.net/publication/277142272_Training_TESSERACT_Tool_f or_Amazigh_OCR

[2]. T. Pham, X. Pham and P. Le-Hong. (2017) “On the use of machine

translation-based approaches for vietnamese diacritic restoration,” 2017

International Conference on Asian Language Processing (IALP),

Singapore, pp. 272-275.

[3]. C. Olah. (2015) “Understanding lstm networks,” [Online].

Available: http://colah. github.io/posts/2015-08-Understanding-LSTMs/.

[4]. Wikipedia, “Người Ba Na”

Internet: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na.

[5]. TRẦN LÊ TÚY PHƯỢNG, “Dân ca dân nhạc VN – Dân ca

Bahnar/Ba Na”.

Internet: https://cvdvn.net/2015/07/27/dan-ca-dan-nhac-vn-dan-ca-bahnarba-na/

[6]. Wikipedia, “Optical character recognition.”

Internet: https://en.wikipedia.org/wiki/Optical_character_recognition, Oct. 18, 2020.

[7]. F. Zelic, A. Sable. “A comprehensive guide to OCR with Tesseract,

OpenCV and Python.”

Internet: https://nanonets.com/blog/ocr-with-tesseract/#opensourceocrtools

[8]. Joseph Howse.OpenCV Computer Vision with Python”

Internet: https://fr.scribd.com/book/253052074/OpenCV-Computer-Vision-with-

Python

[9]. D E N N Y B R I T Z . “ Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs”

49 Internet:

https://wwwwildmlcom.translate.goog/2015/09/recurrentneuralnetworkstutorialpart1in troductiotornns/?_x_tr_sch=http&_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto= nui,op,sc

[10]. C. Olah. “Understanding lstm networks.”

Internet: http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2020.

[11]. Afshine Amidi và Shervine Amidi Dịch bởi Phạm Hồng Vinh và Đàm Minh

Tiến “Mạng neural tích chập cheatsheet”. Internet:

https://stanford.edu/~shervine/l/vi/teaching/cs230/cheatsheetconvolutionalneural- networks

[12]. Quoc Pham. “Tìm Hiểu Convolutional Neural Networks Cho Phân Loại

Ảnh”

Internet: https://pbcquoc.github.io/cnn/

[13]. Võ Huỳnh Trâm và Trần Ngân Bình, “CHƯƠNG 4: TÌM KIẾM

HEURISTIC” Internet:

https://www.academia.edu/10292262/Ch%C6%B0%C6%A1ng_4_T%C3%ACm_ki% E1%BA%BFm_Heuristic

[14]. Wikipedia. “Levenshtein distance.”

Internet:https://en.wikipedia.org/wiki/Levenshtein_distance, Dec. 20, 2020.

[15]. Aditi Mithal – “Optical Character Recognition Tool” - April 18th, 2017

[16]. Chirag Patel, Atul Patel, Dharmendra Patel – “Optical Character

Một phần của tài liệu Nghiên cứu các yếu tố tạo động lực của nhân viên tại công ty cổ phần mondelez kinh đô chi nhánh bình dương (Trang 56)

Tải bản đầy đủ (PDF)

(67 trang)