XÂY DỰNG ỨNG DỤNG - KHÓA LUẬN TỐT NGHIỆP ĐỀ TÀI- 123docz.net

4.1 Những tính năng của ứng dụng

Bởi vì ứng dụng được xây dựng với mục đích giúp cho người khiếm thị có thể đọc sách một cách thuận tiện nhất, nên việc thao tác trên ứng dụng phải đảm bảo được sự tiện lợi, dễ dàng cho người khiếm thị. Vì vậy việc thao tác với ứng dụng phần lớn sẽ là những thao tác sử dụng bàn phím và chuột.

Những tính năng chính có trong ứng dụng :

• Thay đổi vùng miền của giọng đọc và giới tính của giọng đọc: Nhằm hỗ trợ nhiều em học sinh đến từ nhiều vùng miền khác nhau có thể nghe âm thanh một cách dễ dàng và quen thuộc hơn ngoài ra thì ứng dụng có hỡ trợ ba giọng đọc từ ba miền : Bắc, Trung, Nam và hai giới tính : Nam và Nữ.

Hình 4.1 - Giao diện của ứng dụng

• Thay đổi âm lượng : Giúp người nghe có thể tùy chỉnh âm lượng của âm thanh trở nên to hơn hay nhỏ đi để phù hợp cho việc học.

• Thay đổi tốc độ đọc : Giúp người nghe có thể tùy chỉnh tốc độ đọc để phù hợp cho việc học.

• Thực hiện chuyển đổi hình ảnh sang văn bản : Đây là một trong hai tính năng chính của ứng dụng giúp chuyển đổi hình ảnh đầu vào sang văn bản. • Thực hiện chuyển đổi văn bản sang âm thanh : Thực hiện chuyển đổi văn

bản sang âm thanh để đọc cho người nghe.

Ngoài ra ứng dụng còn thông báo sau khi người dùng thực hiện một thao tác nào đó và thông báo lật trang khi đã đọc xong.

• Những thao tác chính của ứng dụng là :

• Thao tác nhấn chuột phải : Để chuyển đổi vùng miền giọng nói • Thao tác nhấn chuột giữa : Để chuyển đổi giới tính của người đọc • Thao tác nhấn chuột trái : Để thực hiện đọc văn bản

• Thao tác nhấn mũi tên phải : Để tăng âm lượng của âm thanh • Thao tác nhấn mũi tên trái : Để giảm âm lượng của âm thanh

• Thao tác nhấn nút Space : Thực hiện chuyển đổi văn bản thành âm thanh • Thao tác nhấn nút Enter : Thực hiện chuyển đổi hình ảnh sang văn bản

4.2 Quy trình hoạt động của ứng dụng

Bước 1 : Khi người dùng nhấn nút Enter thì camera gắn trên đèn chụp sẽ tự động chụp ảnh trang sách được đặt bên dưới và ảnh chụp được sử dụng như đầu vào cho tác vụ nhận diện kí tự quang học.

Bước 2 : Người dùng sử dụng con trỏ phải của chuột để chọn vùng, miền giọng

đọc phù hợp và dễ nghe.

Bước 3 : Người dùng sử dụng con trỏ giữa của chuột để chọn giới tính của

giọng đọc mình muốn nghe.

Bước 4 : Sau khi đã chọn cài đặt giọng đọc phù hợp, nhấn phím Space để thực

Bước 5 : Sau khi hoàn thành các bước trên thì nhấn chuột trái để bắt đầu nghe

ứng dụng đọc văn bản, trong quá trình nghe có thể ấn lần nữa để dừng hoặc thay đổi tốc độ đọc hay âm lượng cho phù hợp

Hình 4.2 - Trình tự thao tác với ứng dụng

KẾT LUẬN Kết quả đạt được

Trong luận văn này, nhóm đã thực hiện được những yêu cầu cơ bản nhất đã được đề ra như : Nhận dạng văn bản chữ in tiếng Việt trong sách giáo khoa môn xã hội cấp I, đọc thành tiếng Việt văn bản nhận dạng được. Hoàn thiện được những tính năng cơ bản phù hợp cho người khiếm thị sử dụng và thao tác dễ dàng như tùy chỉnh giọng đọc, tốc độ và âm lượng đọc. Ứng dụng hướng đến đối tượng dùng là người khiếm thị nên thao tác của người dùng được đơn giản hóa với bàn phím và chuột máy tính đem lại trải nghiệm đơn giản.

Hạn chế

Chưa hoàn thành được việc kết nối camera với đèn bàn vì vấn đề về chức năng tự động lấy nét của camera được sử dụng trong đồ án hoạt động không tốt, cụ thể hơn đồ án chỉ dừng lại ở việc sử dụng hình ảnh đã được chụp sẵn để mơ phỏng lại việc ảnh thu được từ camera gắn trên đèn bàn. Độ chính xác của tác vụ nhận diện kí tự quang học vẫn chưa đạt được mức hoàn hảo, đôi khi vẫn xuất hiện những vấn đề nhận dạng sai về lỗi chính tả hay dấu câu.

Hướng phát triển

1. Huấn luyện lại mô hình nhận dạng bên trong công cụ Tesseract

Bộ dữ liệu được sử dụng trong việc huấn luyện mơ hình Tesseract cho ngơn ngữ Tiếng Việt mà nhóm tác giả sử dụng gồm 4 font chính đó là Times New Roman, Arial, Verdana và Courier New, và nói rằng việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có phông tương tự. Từ đó ta có thể thấy Tesseract rất nhạy cảm với phông chữ mà nó sử dụng, nên việc huấn luyện lại mơ hình sẽ giúp cải thiện đáng kể độ chính xác.

Đặc biệt khi ta hướng đến một sản phẩm giá thành thấp cho những trẻ em khiếm thị thì việc sử dụng những camera giá thành thấp là điều đáng lưu ý, nhưng camera giá thấp sẽ dẫn đến việc ảnh đầu vào có chất lượng khơng cao khi so với hình ảnh trong tập huấn luyện hiện tại. Do đó việc chuẩn bị dữ liệu từ camera giá thấp và huấn luyện từ tập dữ liệu đó là một lựa chọn vừa có thể giúp nâng cao độ chính xác và giảm thiểu chi phí khi làm ra sản phẩm cho trẻ khiếm thị.

2. Xây dựng mô hình sửa lỗi chính tả cho văn bản

Đầu ra của tác vụ nhận dạng kí tự quang học vẫn còn một số lỗi như lẫn lộn giữa chữ hoa và chữ thường, lỗi do sự xử lý không chính xác gây ra các lỗi như thiếu sót dấu, lầm với các kí tự có hình dáng tương tự, lỡi về ngữ nghĩa.

Việc duyệt qua một lần đê sửa các lỗi trên cũng là một bước cần thiết để có thể có một kết quả chính xác nhất. Chúng ta có thể sử dụng mơ hình ngơn ngữ đơn giản như N-grams với số lượng n và bộ dữ liệu đủ lớn để có thể có một mơ hình tốt cho việc sửa lỡi chính tả. Hoặc ứng dụng mơ hình học sâu, cụ thể hơn là những mơ hình dịch máy với kích thước nhỏ để sửa lỗi chính tả trên từng câu.

TÀI LIỆU THAM KHẢO

[1] Aaron James S, Sanjana S, Monisha M, "OCR based automatic book reader for the visually impaired using Raspberry PI", Vol. 4, Issue 7, January 2016.

[2] A. Black, P. Taylor, R. Caley, R. Clark, K. Richmond, S. King, V. Strom, and H. Zen, “The festival speech synthesis system, version 1.4.2,” Unpublished document available via http://www.cstr.ed.ac.uk/projects/festival.html, 2001.

[3] Christopher G Relf, "Image Acquisition and Processing with LabVIEW", CRC Press, 2004.

[4] Chucai Yi, Yingli Tian, “Scene Text Recognition in Mobile Applications by Character Descriptor and Structure Configuration”, IEEE Transactions on Image Processing, Vol. 23 No. 7, July 2014.

[5] Dhavale, Sunita Vikrant (March 10, 2017). Advanced Image-Based Spam Detection and Filtering Techniques. Hershey, PA: IGI Global. p. 91. ISBN 9781683180142. Retrieved September 27, 2019.

[6] H.-T. Luong and H.-Q. Vu, “A non-expert kaldi recipe for vietnamese speech recognition system,” in Proc. WLSI/OIAF4HLT, 2016, pp. 51–55.

[7] H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc. ICASSP, 2013, pp. 7962–7966.

[8] H. Kawahara, I. Masuda-Katsuse, and A. De Cheveigne, “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous- frequency-based f0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, vol. 27, no. 3-4, pp. 187–207, 1999.

[9] Jisha Gopinath, Aravind S, Pooja Chandran, Saranya S S, "Text to Speech Conversion System using OCR", International Journal of Emerging Technology and Advanced Engineering , Volume 5, Issue 1, January 2015.

[10] Julinda Gllavata, Ralph Ewerth and Bernd Freisleben, "A Robust Algorithm for Text Detection in Images".

[11]J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc. ICASSP, 2018, pp. 4779–4783.

[12] K. Oura, S. Sako, and K. Tokuda, “Japanese text-to-speech synthesis system: Open jtalk,” in Proc. ASJ, 2010, pp. 343–344.

[13] M. Morise, F. Yokomori, and K. Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T. Inf. Syst., vol. 99, no. 7, pp. 1877– 1884, 2016.

[14] M. Narendranath, H. A. Murthy, S. Rajendran, and B. Yegnanarayana, “Transformation of formants for voice conversion using artificial neural networks,” Speech communication, vol. 16, no. 2, pp. 207–216, 1995.

[15] M. Morise, F. Yokomori, and K. Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T. Inf. Syst., vol. 99, no. 7, pp. 1877– 1884, 2016.

[16] OnDemand, HPE Haven. "OCR Document". Archived from the original on April 15, 2016.

[17] P. Ghahremani, B. BabaAli, D. Povey, K. Riedhammer, J. Trmal, and S. Khudanpur, “A pitch extraction algorithm tuned for automatic speech recognition,” in Proc. ICASSP. IEEE, 2014, pp. 2494–2498.

[18] R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flow-based generative network for speech synthesis,” in Proc. ICASSP, 2019, pp. 3617–3621.

[19] Sonia Bhaskar, Nicholas Lavassar, Scott Green, "Implementing Optical Character Recognition on the Android Operating System for Business Cards".

[20] Schantz, Herbert F. (1982). The history of OCR, optical character recognition.

[Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN

9780943072012.

[21] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Impacts of input linguistic feature representation on japanese end-to-end speech synthesis,” in Proc. SSW10, 2019, pp. 166–171.

[22] X. Wang, S. Takaki, and J. Yamagishi, “Neural source-filter waveform models for statistical parametric speech synthesis,” IEEE/ACM Trans. Audio, Speech, Language Process., vol. 28, pp. 402–415, 2019.

[23] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le, Y. Agiomyrgiannakis, R. Clark, and R. A. Saurous, “Tacotron: Towards end-to-end speech synthesis,” Proc. INTERSPEECH, pp. 4006–4010, 2017.

[24] Y. Yasuda, X. Wang, S. Takaki, and J. Yamagishi, “Investigation of enhanced tacotron text-to-speech synthesis systems with self-attention for pitch accent language,” in Proc. ICASSP, 2019, pp. 6905–6909. [25] https://vtc.vn/may-doc-sach-cho-nguoi-khiem-thi-ar368723.html [26] https://baodanang.vn/channel/5433/201801/may-doc-sach-cho-nguoi-khiem-thi- 2588151/ [27]https://moh.gov.vn/diem-tin-y-te/-/asset_publisher/sqTagDPp4aRX/content/thong-tin-y- te-09-12-10-2020

[28] "The History of OCR". Data Processing Magazine. 12: 46. 1970.

[29] "Extracting text from images using OCR on Android". June 27, 2015. Archived from the original on March 15, 2016.

[30] "[Tutorial] OCR on Google Glass". October 23, 2014. Archived from the original on March 5, 2016.

[31] Tran, Duc Chung. “The First FOSD-Tacotron-2-Based Text-to-Speech Application for Vietnamese.” Bulletin of Electrical Engineering and Informatics 10.2 898–903.