XÂY DỰNG ỨNG DỤNG

Một phần của tài liệu KHÓA LUẬN TỐT NGHIỆP ĐỀ TÀI:"Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị". (Trang 51)

4.1 Những tính năng của ứng dụng

Bởi vì ứng dụng được xây dựng với mục đích giúp cho người khiếm thị có thể đọc sách một cách thuận tiện nhất, nên việc thao tác trên ứng dụng phải đảm bảo được sự tiện lợi, dễ dàng cho người khiếm thị. Vì vậy việc thao tác với ứng dụng phần lớn sẽ là những thao tác sử dụng bàn phím và chuột.

Những tính năng chính có trong ứng dụng :

• Thay đổi vùng miền của giọng đọc và giới tính của giọng đọc: Nhằm hỗ trợ nhiều em học sinh đến từ nhiều vùng miền khác nhau có thể nghe âm thanh một cách dễ dàng và quen thuộc hơn ngoài ra thì ứng dụng có hỡ trợ ba giọng đọc từ ba miền : Bắc, Trung, Nam và hai giới tính : Nam và Nữ.

Hình 4.1 - Giao diện của ứng dụng

Hình 4.1 - Giao diện của ứng dụng

Hình 4.1 - Giao diện của ứng dụng

45

• Thay đổi âm lượng : Giúp người nghe có thể tùy chỉnh âm lượng của âm thanh trở nên to hơn hay nhỏ đi để phù hợp cho việc học.

• Thay đổi tốc độ đọc : Giúp người nghe có thể tùy chỉnh tốc độ đọc để phù hợp cho việc học.

• Thực hiện chuyển đổi hình ảnh sang văn bản : Đây là một trong hai tính năng chính của ứng dụng giúp chuyển đổi hình ảnh đầu vào sang văn bản. • Thực hiện chuyển đổi văn bản sang âm thanh : Thực hiện chuyển đổi văn

bản sang âm thanh để đọc cho người nghe.

Ngoài ra ứng dụng còn thông báo sau khi người dùng thực hiện một thao tác nào đó và thông báo lật trang khi đã đọc xong.

• Những thao tác chính của ứng dụng là :

• Thao tác nhấn chuột phải : Để chuyển đổi vùng miền giọng nói • Thao tác nhấn chuột giữa : Để chuyển đổi giới tính của người đọc • Thao tác nhấn chuột trái : Để thực hiện đọc văn bản

• Thao tác nhấn mũi tên phải : Để tăng âm lượng của âm thanh • Thao tác nhấn mũi tên trái : Để giảm âm lượng của âm thanh

• Thao tác nhấn nút Space : Thực hiện chuyển đổi văn bản thành âm thanh • Thao tác nhấn nút Enter : Thực hiện chuyển đổi hình ảnh sang văn bản

4.2 Quy trình hoạt động của ứng dụng

Bước 1 : Khi người dùng nhấn nút Enter thì camera gắn trên đèn chụp sẽ tự động chụp ảnh trang sách được đặt bên dưới và ảnh chụp được sử dụng như đầu vào cho tác vụ nhận diện kí tự quang học.

Bước 2 : Người dùng sử dụng con trỏ phải của chuột để chọn vùng, miền giọng

đọc phù hợp và dễ nghe.

Bước 3 : Người dùng sử dụng con trỏ giữa của chuột để chọn giới tính của

giọng đọc mình muốn nghe.

Bước 4 : Sau khi đã chọn cài đặt giọng đọc phù hợp, nhấn phím Space để thực

46

Bước 5 : Sau khi hoàn thành các bước trên thì nhấn chuột trái để bắt đầu nghe

ứng dụng đọc văn bản, trong quá trình nghe có thể ấn lần nữa để dừng hoặc thay đổi tốc độ đọc hay âm lượng cho phù hợp

Hình 4.2 - Trình tự thao tác với ứng dụng

Hình 4.2 - Trình tự thao tác với ứng dụng

Hình 4.2 - Trình tự thao tác với ứng dụng

Hình 4.2 - Trình tự thao tác với ứng dụng

47

KẾT LUẬN Kết quả đạt được

Trong luận văn này, nhóm đã thực hiện được những yêu cầu cơ bản nhất đã được đề ra như : Nhận dạng văn bản chữ in tiếng Việt trong sách giáo khoa môn xã hội cấp I, đọc thành tiếng Việt văn bản nhận dạng được. Hoàn thiện được những tính năng cơ bản phù hợp cho người khiếm thị sử dụng và thao tác dễ dàng như tùy chỉnh giọng đọc, tốc độ và âm lượng đọc. Ứng dụng hướng đến đối tượng dùng là người khiếm thị nên thao tác của người dùng được đơn giản hóa với bàn phím và chuột máy tính đem lại trải nghiệm đơn giản.

Hạn chế

Chưa hoàn thành được việc kết nối camera với đèn bàn vì vấn đề về chức năng tự động lấy nét của camera được sử dụng trong đồ án hoạt động không tốt, cụ thể hơn đồ án chỉ dừng lại ở việc sử dụng hình ảnh đã được chụp sẵn để mơ phỏng lại việc ảnh thu được từ camera gắn trên đèn bàn. Độ chính xác của tác vụ nhận diện kí tự quang học vẫn chưa đạt được mức hoàn hảo, đôi khi vẫn xuất hiện những vấn đề nhận dạng sai về lỗi chính tả hay dấu câu.

Hướng phát triển

1. Huấn luyện lại mô hình nhận dạng bên trong công cụ Tesseract

Bộ dữ liệu được sử dụng trong việc huấn luyện mơ hình Tesseract cho ngơn ngữ Tiếng Việt mà nhóm tác giả sử dụng gồm 4 font chính đó là Times New Roman, Arial, Verdana và Courier New, và nói rằng việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có phông tương tự. Từ đó ta có thể thấy Tesseract rất nhạy cảm với phông chữ mà nó sử dụng, nên việc huấn luyện lại mơ hình sẽ giúp cải thiện đáng kể độ chính xác.

Đặc biệt khi ta hướng đến một sản phẩm giá thành thấp cho những trẻ em khiếm thị thì việc sử dụng những camera giá thành thấp là điều đáng lưu ý, nhưng camera giá thấp sẽ dẫn đến việc ảnh đầu vào có chất lượng khơng cao khi so với hình ảnh trong tập huấn luyện hiện tại. Do đó việc chuẩn bị dữ liệu từ camera giá thấp và huấn luyện từ tập dữ liệu đó là một lựa chọn vừa có thể giúp nâng cao độ chính xác và giảm thiểu chi phí khi làm ra sản phẩm cho trẻ khiếm thị.

48

2. Xây dựng mô hình sửa lỗi chính tả cho văn bản

Đầu ra của tác vụ nhận dạng kí tự quang học vẫn còn một số lỗi như lẫn lộn giữa chữ hoa và chữ thường, lỗi do sự xử lý không chính xác gây ra các lỗi như thiếu sót dấu, lầm với các kí tự có hình dáng tương tự, lỡi về ngữ nghĩa.

Việc duyệt qua một lần đê sửa các lỗi trên cũng là một bước cần thiết để có thể có một kết quả chính xác nhất. Chúng ta có thể sử dụng mơ hình ngơn ngữ đơn giản như N-grams với số lượng n và bộ dữ liệu đủ lớn để có thể có một mơ hình tốt cho việc sửa lỡi chính tả. Hoặc ứng dụng mơ hình học sâu, cụ thể hơn là những mơ hình dịch máy với kích thước nhỏ để sửa lỗi chính tả trên từng câu.

TÀI LIỆU THAM KHẢO

[1] Aaron James S, Sanjana S, Monisha M, "OCR based automatic book reader for the visually impaired using Raspberry PI", Vol. 4, Issue 7, January 2016.

[2] A. Black, P. Taylor, R. Caley, R. Clark, K. Richmond, S. King, V. Strom, and H. Zen, “The festival speech synthesis system, version 1.4.2,” Unpublished document available via http://www.cstr.ed.ac.uk/projects/festival.html, 2001.

[3] Christopher G Relf, "Image Acquisition and Processing with LabVIEW", CRC Press, 2004.

[4] Chucai Yi, Yingli Tian, “Scene Text Recognition in Mobile Applications by Character Descriptor and Structure Configuration”, IEEE Transactions on Image Processing, Vol. 23 No. 7, July 2014.

[5] Dhavale, Sunita Vikrant (March 10, 2017). Advanced Image-Based Spam Detection and Filtering Techniques. Hershey, PA: IGI Global. p. 91. ISBN 9781683180142. Retrieved September 27, 2019.

[6] H.-T. Luong and H.-Q. Vu, “A non-expert kaldi recipe for vietnamese speech recognition system,” in Proc. WLSI/OIAF4HLT, 2016, pp. 51–55.

[7] H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc. ICASSP, 2013, pp. 7962–7966.

[8] H. Kawahara, I. Masuda-Katsuse, and A. De Cheveigne, “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous- frequency-based f0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, vol. 27, no. 3-4, pp. 187–207, 1999.

[9] Jisha Gopinath, Aravind S, Pooja Chandran, Saranya S S, "Text to Speech Conversion System using OCR", International Journal of Emerging Technology and Advanced Engineering , Volume 5, Issue 1, January 2015.

[10] Julinda Gllavata, Ralph Ewerth and Bernd Freisleben, "A Robust Algorithm for Text Detection in Images".

[11]J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc. ICASSP, 2018, pp. 4779–4783.

[12] K. Oura, S. Sako, and K. Tokuda, “Japanese text-to-speech synthesis system: Open jtalk,” in Proc. ASJ, 2010, pp. 343–344.

[13] M. Morise, F. Yokomori, and K. Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T. Inf. Syst., vol. 99, no. 7, pp. 1877– 1884, 2016.

[14] M. Narendranath, H. A. Murthy, S. Rajendran, and B. Yegnanarayana, “Transformation of formants for voice conversion using artificial neural networks,” Speech communication, vol. 16, no. 2, pp. 207–216, 1995.

[15] M. Morise, F. Yokomori, and K. Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T. Inf. Syst., vol. 99, no. 7, pp. 1877– 1884, 2016.

[16] OnDemand, HPE Haven. "OCR Document". Archived from the original on April 15, 2016.

[17] P. Ghahremani, B. BabaAli, D. Povey, K. Riedhammer, J. Trmal, and S. Khudanpur, “A pitch extraction algorithm tuned for automatic speech recognition,” in Proc. ICASSP. IEEE, 2014, pp. 2494–2498.

[18] R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flow-based generative network for speech synthesis,” in Proc. ICASSP, 2019, pp. 3617–3621.

[19] Sonia Bhaskar, Nicholas Lavassar, Scott Green, "Implementing Optical Character Recognition on the Android Operating System for Business Cards".

[20] Schantz, Herbert F. (1982). The history of OCR, optical character recognition.

[Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN

9780943072012.

[21] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Impacts of input linguistic feature representation on japanese end-to-end speech synthesis,” in Proc. SSW10, 2019, pp. 166–171.

[22] X. Wang, S. Takaki, and J. Yamagishi, “Neural source-filter waveform models for statistical parametric speech synthesis,” IEEE/ACM Trans. Audio, Speech, Language Process., vol. 28, pp. 402–415, 2019.

[23] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le, Y. Agiomyrgiannakis, R. Clark, and R. A. Saurous, “Tacotron: Towards end-to-end speech synthesis,” Proc. INTERSPEECH, pp. 4006–4010, 2017.

[24] Y. Yasuda, X. Wang, S. Takaki, and J. Yamagishi, “Investigation of enhanced tacotron text-to-speech synthesis systems with self-attention for pitch accent language,” in Proc. ICASSP, 2019, pp. 6905–6909. [25] https://vtc.vn/may-doc-sach-cho-nguoi-khiem-thi-ar368723.html [26] https://baodanang.vn/channel/5433/201801/may-doc-sach-cho-nguoi-khiem-thi- 2588151/ [27]https://moh.gov.vn/diem-tin-y-te/-/asset_publisher/sqTagDPp4aRX/content/thong-tin-y- te-09-12-10-2020

[28] "The History of OCR". Data Processing Magazine. 12: 46. 1970.

[29] "Extracting text from images using OCR on Android". June 27, 2015. Archived from the original on March 15, 2016.

[30] "[Tutorial] OCR on Google Glass". October 23, 2014. Archived from the original on March 5, 2016.

[31] Tran, Duc Chung. “The First FOSD-Tacotron-2-Based Text-to-Speech Application for Vietnamese.” Bulletin of Electrical Engineering and Informatics 10.2 898–903.

Một phần của tài liệu KHÓA LUẬN TỐT NGHIỆP ĐỀ TÀI:"Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị". (Trang 51)

Tải bản đầy đủ (PDF)

(58 trang)