1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị

58 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 1,7 MB
File đính kèm 22.rar (2 MB)

Nội dung

Theo số liệu thống kê của Viện Mắt Trung ương, năm 2020, trên thế giới có khoảng 314 triệu người khiếm thị và thị lực thấp, trong đó khoảng 45 triệu người khiếm thị, những người trên 80 tuổi chiếm 80%. Cứ 5 giây thế giới có thêm một người khiếm thị, và cứ một phút lại có thể 1 trẻ bị khiếm thị 27. Trẻ khiếm thị gặp rất nhiều khó khăn trong việc học hỏi, giao tiếp vì trẻ không thể tưởng tượng, ghi nhớ và nhận biết chính xác mọi thứ xung quanh theo cách của những đứa trẻ bình thường được. Bằng quy tắc bù trừ, khi mà khả năng thị giác của bé không tốt thì sự tập trung sẽ được chuyển sang các giác quan còn lại một cách tốt hơn, thậm chí các giác quan này còn có phần nhạy bén hơn khi so sánh với những đứa trẻ bình thường.

TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HCM KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN NHỊ THÀNH TÀI NGÔ DUY KHANG Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị KHÓA ḶN TỚT NGHIỆP TP.Hờ Chí Minh, 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HCM KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN NHỊ THÀNH TÀI NGÔ DUY KHANG Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị Chuyên ngành : KHOA HỌC MÁY TÍNH TP.Hồ Chí Minh, 2022 LỜI CẢM ƠN Trước tiên, chúng em xin gửi lời cảm ơn biết ơn sâu sắc đến Tiến sĩ Ngô Quốc Việt – Khoa Công nghệ thông tin – Trường Đại học Sư phạm Thành phố Hồ Chí Minh người tận tình hướng dẫn, bảo, giúp đỡ chúng em suốt thời gian nghiên cứu khóa luận Đờng thời là người đưa ý tưởng, kiểm tra phù hợp luận văn Chúng em xin gửi lời cảm ơn đến toàn thể thầy cô trường Đại học Sư phạm Thành phố Hồ Chí Minh giảng dạy, tạo điều kiện cho chúng em trình học tập nghiên cứu trường Những kiến thức mà chúng em nhận hành trang giúp chúng em vững bước tương lai Cuối cùng, chúng em xin cảm ơn gia đình, bạn bè, người thân bên để động viên nguồn cổ vũ lớn lao, động lực giúp chúng em hoàn thành luận văn Mặc dù cố gắng hoàn thành luận văn phạm vi khả Tuy nhiên khơng tránh khỏi thiếu sót Chúng em mong nhận cảm thơng tận tình bảo q thầy tồn thể bạn Chúng em xin chân thành cảm ơn! Hồ Chí Minh, tháng 04 năm 2022 Sinh viên thực Nguyễn Nhị Thành Tài, Ngô Duy Khang MỤC LỤC PHẦN MỞ ĐẦU Lí chọn đề tài Mục đích nghiên cứu Phạm vi nghiên cứu Phương pháp nghiên cứu Các nghiên cứu liên quan NỘI DUNG NGHIÊN CỨU CHƯƠNG KHIẾM THỊ 1.1 Tình hình bệnh khiếm thị 1.2 Những ảnh hưởng bệnh khiếm thị 1.3 Chương trình giáo dục cho trẻ khiếm thị và khó khăn CHƯƠNG NHẬN DẠNG KÍ TỰ QUANG HỌC 2.1 Bài toán nhận dạng kí tự quang học 2.1.1 Giới thiệu 2.1.2 Lịch sử 2.2 Ứng dụng nhận dạng kí tự quang học 10 2.3 Cấu trúc mơ hình nhận diện kí tự quang học 11 2.4 Thư viện Tesseract 14 2.4.1 Lịch sử đời 14 2.4.2 Kiến trúc hệ thống Tesseract 14 2.5 Các bước tiền xử lý sử dụng 21 2.5.1 Khử nhiễu 21 2.5.2 Thay đổi kích thước ảnh 22 2.5.3 Loại bỏ bảng tính 24 2.5.4 Tách ảnh khỏi trang 26 2.5.5 Đánh giá 28 CHƯƠNG PHÁT ÂM VĂN BẢN TIẾNG VIỆT 30 3.1 Bài toán trích xuất văn thành âm 30 3.1.1 Giới thiệu 30 3.1.2 Lịch sử 31 3.2 Ứng dụng trích xuất văn thành âm 32 3.3 Cấu trúc mơ hình trích xuất văn thành âm 33 3.3.1 Bộ phân tích ngôn ngữ và âm học 34 3.3.2 Bộ xếp trình tự và mơ hình seq2seq 35 3.3.3 Mơ hình âm nơ ron 36 3.3.4 Sinh sóng âm 37 3.4 Giới thiệu FPT.AI Text-to-speech 38 CHƯƠNG XÂY DỰNG ỨNG DỤNG 44 4.1 Những tính ứng dụng 44 4.2 Quy trình hoạt động ứng dụng 45 KẾT LUẬN 47 Kết đạt 47 Hạn chế 47 Hướng phát triển 47 TÀI LIỆU THAM KHẢO 49 BẢNG CÁC KÍ HIỆU, CHỮ VIẾT TẮT STT Ký hiệu Chữ viết đầy đủ API AI Application Programming Interface – giao diện lập trình ứng dụng AI : Artificial Intelligence – Trí tuệ nhân tạo ASR Automatic speech recognition – nhận diện giọng nói tự động CMYK Cyan-Magenta-Yellow-Key – màu xanh lơ-màu hồng sẫmmàu vàng-màu đen E2E End to end model – mơ hình quy trình đầu cuối GDCB Giáo dục chuyên biệt HSKT Học sinh khiếm thị HMM Hidden Markov Model – Mô hình Markov ẩn KHGDVN Khoa học giáo dục Việt Nam 10 MFCC Mel-frequency cepstral coefficients – đặc trưng âm 11 MOS Mean opinion score – Điểm số ý kiến trung bình 12 OCR Optical Character Recognition – Nhận dạng kí tự quang học 13 Seq2Seq Sequence to sequence – mơ hình học sâu với đầu vào là chuỗi và đầu là chuỗi 14 TTS Text to speech – Chuyển đổi văn thành âm 15 VC Voice Conversion – Chuyển đổi giọng nói 16 WHO World Health Organization – Tổ chức Y tế giới BẢNG DANH MỤC CÁC BẢNG BIỂU VÀ HÌNH VẼ Bảng 2.5.5 - Tỉ lệ WER và CER sau thực tiền xử lý 30 Bảng 3.4.3 - Tham số cài đặt để huấn luyện TTS 39 Bảng 3.4.6 - Những văn ngẫu nhiên dùng để đánh giá 41 Bảng 3.4.7 - Tỉ lệ từ bị thiếu 42 Bảng 3.4.8 - Độ rõ ràng và tự nhiên – MOS 43 Hình 2.3 - Cấu trúc mơ hình OCR 11 Hình 2.4.2 - Kiến trúc hệ thống Tesseract công bố tác giả Ray Smith, Google Inc 15 Hình 2.4.2.2 - Hiệu chỉnh đường sở hàng chữ không thẳng hàng 16 Hình 2.4.2.3 - Cắt các kí tự từ có khoảng cách cố định 17 Hình 2.4.2.4 - Các từ khơng có khoảng cách cố định gây khó khăn tách kí tự 17 Hình 2.4.2.6 - Các điểm cắt đề xuất 18 Hình 2.4.2.7 - Từ cần liên kết lại để nhận dạng 18 Hình 2.4.2.8 (a) Hình ban đầu (b) Hình cắt (c) các đặc trưng phù hợp với nguyên mẫu 19 Hình 2.4.2.9 - Chuẩn hóa đường sở và chuẩn hóa điểm 21 Hình 2.5.1.1 - Ví dụ các cửa sổ tương tự ảnh 22 Hình 2.5.1.2 - Ảnh sau khử nhiễu 22 Hình 2.5.2.1 - Quan hệ độ lỡi và kích thước chữ theo pixel 23 Hình 2.5.2.2 - Ảnh sau thay đổi kích thước 23 Hình 2.5.3.1 - Ảnh nhị phân hóa 24 Hình 2.5.3.2 - Xác định các cạnh ngang và dọc bảng 25 Hình 2.5.3.3 - Ảnh kết thu 25 Hình 2.5.4.1 - White mask tách bằng hộp giới hạn 26 Hình 2.5.4.2 - Xác định vùng có chứa màu 27 Hình 2.5.4.3 - Các hộp giới hạn bao quanh phần hình ảnh 28 Hình 3.3 - Mơ tả khái niệm cấu trúc hệ thống TTS thơng thường 33 Hình 3.3.1.1 - Hệ thống TTS với mơ hình encoder-attention-decoder 34 Hình 3.3.2.2 - Mơ tả khái niệm cấu trúc hệ thống TTS seq2seq 36 Hình 3.4.1 - Quy trình nghiên cứu 38 Hình 4.1 - Giao diện ứng dụng 44 Hình 4.2 - Trình tự thao tác với ứng dụng 46 PHẦN MỞ ĐẦU Lí chọn đề tài Theo số liệu thống kê Viện Mắt Trung ương, năm 2020, giới có khoảng 314 triệu người khiếm thị và thị lực thấp, đó khoảng 45 triệu người khiếm thị, người 80 tuổi chiếm 80% Cứ giây giới có thêm người khiếm thị, và phút lại có thể trẻ bị khiếm thị [27] Trẻ khiếm thị gặp nhiều khó khăn việc học hỏi, giao tiếp trẻ tưởng tượng, ghi nhớ và nhận biết chính xác thứ xung quanh theo cách đứa trẻ bình thường Bằng quy tắc bù trừ, mà khả thị giác bé khơng tốt tập trung chuyển sang các giác quan còn lại cách tốt hơn, chí các giác quan này còn có phần nhạy bén so sánh với đứa trẻ bình thường Nên để dạy tốt cho trẻ khiếm thị chúng ta có thể tận dụng nhạy bén các giác quan còn lại để giúp cho các em có thể học cách hiệu Hiện các em thường dạy học dựa chữ Braille bằng cách cảm nhận chấm tròn đầu ngón tay để hình thành mặt chữ để đọc – xúc giác Hay chúng ta thường nghe nói sách nói giúp các em nghe và tiếp nhận thông tin - thính giác Nhưng vấn đề theo ghi nhận nhiều địa phương cho thấy nhiều nơi chưa có trung tâm, trường chuyên biệt hay đầu tư sở vật chất, thiết bị học tập dành riêng cho học sinh khuyết tật, cụ thể trẻ khiếm thị không có sách giáo khoa riêng và giáo trình khơng đổi thường xun gây nhiều hạn chế cho quá trình đào tạo trẻ khiếm thị Theo bà Trần Thị Phương Lan, Phó hiệu trưởng trường PTCS Nguyễn Đình Chiểu chia sẻ, tiền chế để hoàn thành sách giáo khoa chữ lên tới 170 triệu đồng, còn tính riêng giá nguyên liệu để làm sách Tiếng Việt là 500.000 đồng Sách nói có thể là giải pháp khác việc giúp trẻ khiếm thị tiếp thu tri thức điểm hạn chế là sách cần phải có người đọc ghi âm trước và lượng đầu sách còn bị giới hạn (nổi bật là không có sách giáo khoa), trẻ muốn tìm tòi và học hỏi sách mà chưa phát hành dạng sách nói sao? Trong thời đại phát triển công nghệ thông tin nay, việc ứng dụng AI (trí tuệ nhân tạo) vào việc xây dựng ứng dụng có thể đọc sách cho người khiếm thị là việc làm vơ cùng thiết thực ứng dụng này vừa có thể giải vấn đề việc thiếu sách giáo khoa chữ và hạn chế số lượng sách nói Mục đích nghiên cứu Xây dựng chương trình đọc sách cho người khiếm thị, từ đó có thể đọc sách giáo khoa các trẻ em bình thường nhằm giúp các em có thể học tập và phát triển thân tốt Đồng thời tận dụng sách giáo khoa bình thường có sẵn thị trường để giảng dạy cho trẻ khiếm thị để giải vấn đề sách, xóa bỏ khoảng cách chương trình học trẻ khiếm thị và trẻ bình thường Phạm vi nghiên cứu Một chương trình có thể nhận diện chữ viết từ sách giáo khoa số môn xã hội cấp I, đồng thời nhận biết số hình đơn giản sách Sử dụng các kiến trúc có sẵn cho tác vụ OCR, cụ thể là mơ hình Tesseract Google để nhận diện kí tự quang học và API Text2Speech FPT.AI để đọc thành tiếng đoạn văn sau thực OCR Cụ thể nhóm thực nghiên cứu sách giáo khoa Tiếng Việt lớp tập Bởi sách tiếng Việt có đa dạng cấu trúc trang, đa dạng các loại liệu như: kí hiệu, bảng,… và hình ảnh đa dạng hình dạng và kích thước Nếu thực đọc tốt sách Tiếng Việt khả cao thực tốt sách khác Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: • Tìm hiểu các cơng trình nghiên cứu, dự án liên quan: Tìm hiểu và đánh giá dự án, sản phẩm giúp người khiếm thị đọc sách có sẵn thị trường, xem xét ưu điểm và khuyết điểm sản phẩm đó nhằm phát triển sản phẩm tốt • Thu thập liệu phục vụ cho nghiên cứu: Thu thập liệu phương pháp xử lý ảnh số, xử lý chuỗi sử dụng ứng dụng để giúp cho các tác vụ ứng dụng hoạt động tốt • So sánh các mơ hình có sẵn: So sánh các mơ hình OCR có sẵn và các API tác vụ Text2Speech để lựa chọn mơ hình phụ thuộc cho ứng dụng Phương pháp nghiên cứu thực nghiệm: • Phân tích, xây dựng chương trình thử nghiệm: Phân tích điểm hạn chế người khiếm thị sử dụng máy tính để giúp cho việc tương tác người khiếm thị và ứng dụng tiện lợi • So sánh và đánh giá kết đạt được: Đánh giá kết đạt các tác vụ con, thời gian thực thi và điểm hạn chế ứng dụng Phương pháp phân tích và tổng hợp: • Phân tích, giải hạn chế các tác vụ và đưa giải pháp: Thực nghiệm và xem xét hạn chế các tác vụ từ đó đưa giải pháp hợp lí • Sử dụng kết hợp nhiều phương pháp để giải vấn đề : Dùng phương pháp xử lý ảnh số Chuỗi học để cải thiện chất lượng ứng dụng Các nghiên cứu liên quan Việc sử dụng các tác vụ Nhận dạng kí tự quang học (OCR) và tác vụ Text2Speech để ứng dụng vào thiết bị đọc sách cho người khiếm thị không còn là bài toán : • Trong bài báo [9], tác giả sử dụng MATLAB và phần mềm LabVIEW để tiền xử lý hình ảnh đầu vào, sau đó ảnh phân đoạn và thực tác vụ nhận dạng kí tự quang học ảnh phân đoạn Tiếp theo đó ứng dụng này thực chuyển đổi văn sang âm từ kết OCR Ứng dụng này khơng chuyển đổi hình ảnh sang âm mà nó còn có thể nhận input là văn từ người dùng nhập vào và chuyển đổi sang âm dành cho người không nói hay khó phát âm Ban đầu, hệ thống tạo bitmap ARGB-8888, sau đó chuyển nó đến công cụ Tesseract để nhận dạng • Trong bài báo [1], quá trình nhận dạng văn thực bằng cách sử dụng Raspberry PI Những kí tự nhận dạng bằng thuật toán trước mô-đun quy trình Mơ hình âm thần kinh chức có thể huấn luyện sử dụng mạng nơron để lập mơ hình chuyển đổi mục tiêu [14, 7] Các tham số mạng nơ-ron, θtts, huấn luyện với mẫu giọng nói gắn nhãn bắt cặp bằng cách sử dụng giải thuật gradient descent backpropagation cho học giám sát 3.3.4 Sinh sóng âm Đối với hệ thống tổng hợp giọng nói, đầu mơ hình âm là các đặc tính âm thay dạng sóng thơ để giảm độ phức tạp chuyển đổi văn thành giọng nói (hoặc giọng nói thành lời nói), dạng sóng tần số cao và tương quan thời gian cao tính Để tổng hợp dạng sóng từ các tính này, mô-đun gọi là “bộ mã hóa” sử dụng Có hai cách tiếp cận chính để tổng hợp dạng sóng giọng nói từ các đặc trưng âm học, các phương pháp tiếp cận tham số thơng thường mơ hình thần kinh hướng liệu 3.3.4.1 Phương pháp tiếp cận tham sớ Các hàm mã hóa tham số thiết kế dựa giả định (ví dụ: mơ hình lọc nguồn) Đưa chuỗi đặc trưng âm học, chứa F0 và các đặc trưng phổ, mã hóa tham số tạo phân đoạn dạng sóng bằng cách sử dụng khung phổ sau đó chồng lên thêm tất phân đoạn dựa thông tin F0 Hai vocoder thường sử dụng để tổng hợp giọng nói STRAIGHT [8] WORLD [15] Các mơ-đun tham số coi mô-đun bất biến không phụ thuộc vào liệu 3.3.4.2 Phương pháp tiếp cận nơ ron nhân tạo Với tiến gần học sâu, nhiều công trình cố gắng thay từng thành phần bằng thành phần khác dựa mạng nơ-ron Một bước đột phá xu hướng này là đề xuất hệ thống mã hóa thần kinh có khả tạo dạng sóng mẫu thời điểm Dẫn đầu lĩnh vực mơ hình WaveNet [13] DeepMind đề xuất, nhiều hệ thống đề xuất để giải hệ thống tương tự WaveGlow [18] và lọc nguồn thần kinh (NSF) [22] Các định dạng thần kinh tạo giọng nói với độ tự nhiên tốt so với các định nghĩa 37 tham số nhờ khả tạo từng mẫu Tuy nhiên, mô hình đào tạo, hiệu suất mơ hình thần kinh phụ thuộc vào liệu đào tạo chúng bất kỳ mơ hình học sâu 3.4 Giới thiệu về FPT.AI Text-to-speech 3.4.1 Nghiên cứu Hình 3.4.1 - Quy trình nghiên cứu Tổng quan phương pháp thực đào tạo mơ hình TTS FPT.AI Text2Speech miêu tả biểu đồ Đầu tiên, cách tổ chức xử lí liệu đầu vào trình bày Sau đóBảng là thơng 3.4.3tin Tham sớ cài cài đặtđặt để cho h́nmơ hình Tacotron-2 trình dùng để huấn luyện kiểmluyện định.TTSHình Phần tiếp3.4.1 theo -sẽQuy trình bày khâu xử lí Tiếng Việt nghiên cứu Tiếp theo, thơng tin mơ hình đào tạo trình bày thấy nỡ lực để vận hành mơ hình đào tạo điều kiện mơ hình đào tạo sử dụng công việc Cuối cùng, cách tiếp cận để tạo liệu đầu vào để Bảng 3.4.3 Tham số cài đặt để huấn cung cấp các trường hợp khác củaluyện các trường TTS hợp kiểm định mơ hình 3.4.2 Xử lí dữ liệu Bộ liệu chứa 25.000 tệp âm (khoảng 30 ghi âm) bằng tiếng Việt 3.4.6 Những văn ngẫu tách thành hai tập conBảng Tất -cả tệp âmbản định dạng nén (tức nhiên dùng để đánh giáBảng 3.4.3 *.mp3) ghi chúng tệp *.txt thư Tham số cài đặtlưu để trữ huấn luyện 3.4.1 là - Quy trình Để nghiên mục Tốc độ bit củaTTSHình tệp âm 64 kbps cungcứu cấp tệp âm vào công cụ TTS dựa Mozilla, tác giả sử dụng hộp công cụ SOX, tất chúng chuyển đổi thành định dạng *.wav với tốc độ bit 352 kbps Ngoài ra, tất tệp âm đặt mộtsớthư để h́n đào tạo mơ hình Các tệp Bảng 3.4.3 Tham càimục đặt để TTSHình 3.4.1theo - Quy trìnhcách: tên file âm thanh|bản ghi tập hợp thànhlụn tệp; mỡi dịng phong nghiên cứu 38 Bảng 3.4.3 - Tham số cài đặt để huấn luyện TTS ghi|thời gian bắt đầu lời nói_1-thời gian kết thúc lời nói_1 thời gian bắt đầu lời nói _2thời gian kết thúc lời nói _2 Ở đây, tên file âm là tên tệp bao gồm phần mở rộng; ghi là văn phát biểu; thời lượng giọng nói đánh dấu bằng hai điểm (thời gian bắt đầu lời nói_1-thời gian kết thúc lời nói_1); có nhiều lời nói tệp, mỡi thời lượng phân tách bằng ký tự khoảng trắng Sau đó, tệp ghi tách thành hai tệp *.csv để đào tạo kiểm định Tệp đào tạo bao gờm 23.000 dịng ghi tệp kiểm tra bao gờm 1.900 dịng ghi 3.4.3 Cài đặt kiến trúc Tacotron-2 Trong cơng trình này, kiến trúc Tacotron-2 sử dụng cung cấp chất lượng đầu tốt so với kiến trúc Tacotron, khuyến nghị ghi Mozilla cho nhà phát triển Bảng bên trình bày cấu hình tham số quan trọng để huấn luyện mô hình Trong bảng này, số lượng quang phổ mel 80, số mức tần số phép biến đổi fourier thời gian ngắn (STFT) (bằng với kích thước khung hình phổ tuyến tính) 1,025, giống giá trị mặc định Tốc độ lấy mẫu đặt thành 22.050 Hz để đào tạo kiến trúc Tacotron-2 nhanh Vì mơ hình sử dụng nghiên cứu Tacotron-2, hàm softmax sử dụng để tính tốn mức độ chú ý, theo đề xuất Mozilla Bảng 3.4.3 - Tham số cài đặt để huấn luyện TTS THAM SỐ GIÁ TRỊ Num_mels 80 Num_freq 1,025 Sample_rate 22,050 Hz Model Tacotron-2 Attention_norm Softmax Min_seq_len =>10 Max_seq_len 150 => 100 Use_phonemes False 39 Text_cleaner Vietnamese_cleaner Datasets.name Fptopenspeechdata Datasets.path /content/MyDrive/FptOpenSpeechData Datasets.meta_file_train Metadata_train.csv Datasets.meta_file_val Metadata_val.csv Ngoài ra, độ dài trình tự tối thiểu tối đa thay đổi từ thành 10 150 thành 100 sau 100.000 bước huấn luyện Điều nhằm làm cho mơ hình hội tụ nhanh và phù hợp với tập liệu có có độ dài trình tự tối thiểu là 2, độ dài trình tự tối đa là 301, độ dài trình tự trung bình 52,43 Kết là, 1.145 trường hợp bị loại bỏ chúng nằm ngồi phạm vi độ dài trình tự nói Cần lưu ý rằng, mơ hình đào tạo hoàn toàn Google Colaboratory, tảng hỡ trợ TensorFlow miễn phí 3.4.4 Bợ xử lí văn bản tiếng Việt Trình xử lí tiếng Việt phát triển để hỡ trợ tiếng Việt thay tiếng Anh Trình xử lí cho phép thực chuyển đổi đặc biệt sau: • ký hiệu thành từ: ví dụ: “+” thành “cộng” • ký tự đặc biệt thành từ: ví dụ: “%” thành “phần trăm” • từ đặc biệt thành từ tương tự có cách phát âm giống nhau: ví dụ: “hỷ” thành “hỉ” • số thành từ: ví dụ: “11” thành “mười một” Cần lưu ý rằng tất từ viết hoa chuyển đổi thành chữ thường để tạo thành các văn nguồn thống trước cung cấp cho mạng để đào tạo, xác nhận thử nghiệm 3.4.5 Huấn luyện mô hình Để chứng minh rằng trình xử lí tiếng Việt phát triển phù hợp với mơ hình tạo nói tiếng Việt rõ ràng từ các văn ngẫu nhiên, mơ hình đào tạo cho 225.000 bước Kết là, độ mát đào tạo 0,10406 độ mát kiểm định 0,12349 40 3.4.6 Kết quả Trong phần này, kết thu từ mô hình TTS tiếng Việt trình bày Lúc đầu, các đoạn giọng nói tạo xem xét dựa tính hồn chỉnh nó Điều cho biết liệu mơ hình tạo các đoạn giọng nói hồn chỉnh dựa các văn định hay không Thứ hai, các đoạn giọng nói xem xét dựa độ rõ ràng tự nhiên tùy thuộc vào điểm mean opinion score (MOS), số điển hình để đánh giá chất lượng các đoạn âm tạo từ công cụ TTS Trong bảng bên dưới, câu ngẫu nhiên không liên quan tới chọn để kiếm tra mơ hình TTS huấn luyện Bảng 3.4.6 - Những văn bản ngẫu nhiên dùng để đánh giá VĂN BẢN ĐẦU VÀO STT Một vịt to bò Chị sơn xinh gái Không có Tuấn Anh, Văn Toàn mời sang thử việc Tây Ban Nha Đào xuống phố sớm, nhiều tuyến đường Hà Nội rộn ràng sắc xuân Sao bóng đá Việt Nam đua tặng xế sang bạc tỷ cho người thân 41 3.4.7 Tính hoàn chỉnh của các đoạn âm được tạo Trong số năm câu nói ví dụ chuyển đổi thành âm thanh, ba câu (bài đầu tiên, thứ hai thứ năm) là hoàn chỉnh Câu thứ ba thiếu 2/17 từ câu thứ tư thiếu 10/14 từ (tức phần thứ hai câu, sau dấu phẩy) Phân tích sâu các từ thiếu, Bảng bên trình bày tần suất từ thiếu liệu đào tạo liệu kiểm định sử dụng để đào tạo kiểm định mơ hình FOSD Từ bảng này, thấy rằng, tỷ lệ điển hình từ xác nhận từ đào tạo từ xấp xỉ 0,05 đến 0,14 Bảng 3.4.7 - Tỉ lệ những từ bị thiếu Stt Chữ Huấn luyện Kiểm định Tỉ lệ Văn 167 20 0.1197 Toàn 267 23 0.0861 nhiều 1,038 81 0.0780 tuyến 57 0.1404 đường 395 31 0.0785 Hà 3,056 259 0.0848 Nội 166 0.0542 1,829 125 0.0683 rộn 149 15 0.1007 10 ràng 49 0.1429 11 sắc 80 0.0250 12 xuân 35 0.0571 3.4.8 Sự rõ ràng tự nhiên của các đoạn âm được tạo Một khảo sát thực nhóm 100 người tham gia ngẫu nhiên sinh viên Đại học FPT để đánh giá độ rõ ràng tự nhiên các đoạn âm Ở đây, tính tự nhiên đề cập đến trạng thái chất lượng tự nhiên (giống người) đoạn âm tạo độ rõ ràng biểu thị rõ ràng (tiếng ồn thấp) 42 Dựa khảo sát, 50% sinh viên sử dụng tai nghe 50% lại sử dụng loa vi tính cho kiểm tra Ngồi ra, tất học sinh chưa nghe nói câu đoạn âm này trước MOS họ nêu bảng bên Bảng 3.4.8 - Độ rõ ràng và tự nhiên – MOS Stt Sự rõ ràng Sự tự nhiên 2.95 ± 1.15 2.54 ± 1.12 2.62 ± 1.17 2.52 ± 1.07 2.94 ± 1.07 2.84 ± 1.00 2.97 ± 1.17 2.81 ± 1.02 3.39 ± 0.98 3.06 ± 1.07 Từ bảng này, MOS cho độ nằm khoảng từ đến 4,5 Bốn số năm đoạn âm coi là rõ ràng đoạn âm thứ hai rõ ràng Câu nói rõ ràng câu thứ năm, MOS 3,39 với độ lệch chuẩn 0,98 khiến trở thành câu tạo hay thử nghiệm Trong đó, MOS cho độ tự nhiên các đoan âm tạo thường thấp chút so với độ rõ ràng Tuy nhiên, đoan âm thứ năm là tự nhiên kiểm tra Ở đây, ba số năm đoan âm đạt mức trung bình (khoảng 2,50) 43 CHƯƠNG 4.1 XÂY DỰNG ỨNG DỤNG Những tính của ứng dụng Bởi ứng dụng xây dựng với mục đích giúp cho người khiếm thị có thể đọc sách cách thuận tiện nhất, nên việc thao tác ứng dụng phải đảm bảo tiện lợi, dễ dàng cho người khiếm thị Vì việc thao tác với ứng dụng phần lớn là thao tác sử dụng bàn phím và chuột Hình 4.1 - Giao diện của ứng dụng Những tính chính có ứng dụng : • Thay đổi vùng miền giọng đọc và giới tính giọng đọc: Nhằm hỗ trợ nhiều em họcHình sinh đến nhiều vùng 4.1 -từGiao diện củamiền ứng khác dụng có thể nghe âm cách dễ dàng và quen thuộc ngoài ứng dụng có hỡ trợ ba giọng đọc từ ba miền : Bắc, Trung, Nam và hai giới tính : Nam và Nữ Hình 4.1 - Giao diện của ứng dụng 44 Hình 4.1 - Giao diện của ứng dụng • Thay đổi âm lượng : Giúp người nghe có thể tùy chỉnh âm lượng âm trở nên to hay nhỏ để phù hợp cho việc học • Thay đổi tốc độ đọc : Giúp người nghe có thể tùy chỉnh tốc độ đọc để phù hợp cho việc học • Thực chuyển đổi hình ảnh sang văn : Đây là hai tính chính ứng dụng giúp chuyển đổi hình ảnh đầu vào sang văn • Thực chuyển đổi văn sang âm : Thực chuyển đổi văn sang âm để đọc cho người nghe Ngoài ứng dụng còn thông báo sau người dùng thực thao tác nào đó và thông báo lật trang đọc xong • Những thao tác chính ứng dụng là : • Thao tác nhấn chuột phải : Để chuyển đổi vùng miền giọng nói • Thao tác nhấn chuột : Để chuyển đổi giới tính người đọc • Thao tác nhấn chuột trái : Để thực đọc văn • Thao tác nhấn mũi tên phải : Để tăng âm lượng âm • Thao tác nhấn mũi tên trái : Để giảm âm lượng âm • Thao tác nhấn nút Space : Thực chuyển đổi văn thành âm • Thao tác nhấn nút Enter : Thực chuyển đổi hình ảnh sang văn 4.2 Quy trình hoạt động của ứng dụng Bước : Khi người dùng nhấn nút Enter camera gắn đèn chụp tự động chụp ảnh trang sách đặt bên và ảnh chụp sử dụng đầu vào cho tác vụ nhận diện kí tự quang học Bước : Người dùng sử dụng trỏ phải chuột để chọn vùng, miền giọng đọc phù hợp và dễ nghe Bước : Người dùng sử dụng trỏ chuột để chọn giới tính giọng đọc muốn nghe Bước : Sau chọn cài đặt giọng đọc phù hợp, nhấn phím Space để thực tác vụ chuyển đổi văn sang âm 45 Bước : Sau hoàn thành các bước nhấn chuột trái để bắt đầu nghe ứng dụng đọc văn bản, quá trình nghe có thể ấn lần để dừng thay đổi tốc độ đọc hay âm lượng cho phù hợp Hình 4.2 - Trình tự thao tác với ứng dụng Hình 4.2 - Trình tự thao tác với ứng dụng Hình 4.2 - Trình tự thao tác với ứng dụng Hình 4.2 - Trình tự thao tác với ứng dụng 46 KẾT LUẬN Kết quả đạt được Trong luận văn này, nhóm thực yêu cầu đề : Nhận dạng văn chữ in tiếng Việt sách giáo khoa môn xã hội cấp I, đọc thành tiếng Việt văn nhận dạng Hoàn thiện tính phù hợp cho người khiếm thị sử dụng và thao tác dễ dàng tùy chỉnh giọng đọc, tốc độ và âm lượng đọc Ứng dụng hướng đến đối tượng dùng là người khiếm thị nên thao tác người dùng đơn giản hóa với bàn phím và chuột máy tính đem lại trải nghiệm đơn giản Hạn chế Chưa hoàn thành việc kết nối camera với đèn bàn vấn đề chức tự động lấy nét camera sử dụng đồ án hoạt động không tốt, cụ thể đồ án dừng lại việc sử dụng hình ảnh chụp sẵn để mô lại việc ảnh thu từ camera gắn đèn bàn Độ chính xác tác vụ nhận diện kí tự quang học chưa đạt mức hoàn hảo, xuất vấn đề nhận dạng sai lỗi chính tả hay dấu câu Hướng phát triển Huấn luyện lại mô hình nhận dạng bên công cụ Tesseract Bộ liệu sử dụng việc huấn luyện mơ hình Tesseract cho ngôn ngữ Tiếng Việt mà nhóm tác giả sử dụng gồm font chính đó là Times New Roman, Arial, Verdana và Courier New, và nói rằng việc nhận dạng có kết cao cho các ảnh có phông tương tự Từ đó ta có thể thấy Tesseract nhạy cảm với phông chữ mà nó sử dụng, nên việc huấn luyện lại mơ hình giúp cải thiện đáng kể độ chính xác Đặc biệt ta hướng đến sản phẩm giá thành thấp cho trẻ em khiếm thị việc sử dụng camera giá thành thấp là điều đáng lưu ý, camera giá thấp dẫn đến việc ảnh đầu vào có chất lượng khơng cao so với hình ảnh tập huấn luyện Do đó việc chuẩn bị liệu từ camera giá thấp và huấn luyện từ tập liệu đó là lựa chọn vừa có thể giúp nâng cao độ chính xác và giảm thiểu chi phí làm sản phẩm cho trẻ khiếm thị 47 Xây dựng mô hình sửa lỗi chính tả cho văn bản Đầu tác vụ nhận dạng kí tự quang học còn số lỗi lẫn lộn chữ hoa và chữ thường, lỗi xử lý không chính xác gây các lỗi thiếu sót dấu, lầm với các kí tự có hình dáng tương tự, lỡi ngữ nghĩa Việc duyệt qua lần đê sửa các lỗi là bước cần thiết để có thể có kết chính xác Chúng ta có thể sử dụng mơ hình ngơn ngữ đơn giản N-grams với số lượng n và liệu đủ lớn để có thể có mơ hình tốt cho việc sửa lỡi chính tả Hoặc ứng dụng mơ hình học sâu, cụ thể là mơ hình dịch máy với kích thước nhỏ để sửa lỗi chính tả từng câu 48 TÀI LIỆU THAM KHẢO [1] Aaron James S, Sanjana S, Monisha M, "OCR based automatic book reader for the visually impaired using Raspberry PI", Vol 4, Issue 7, January 2016 [2] A Black, P Taylor, R Caley, R Clark, K Richmond, S King, V Strom, and H Zen, “The festival speech synthesis system, version 1.4.2,” Unpublished document available via http://www.cstr.ed.ac.uk/projects/festival.html, 2001 [3] Christopher G Relf, "Image Acquisition and Processing with LabVIEW", CRC Press, 2004 [4] Chucai Yi, Yingli Tian, “Scene Text Recognition in Mobile Applications by Character Descriptor and Structure Configuration”, IEEE Transactions on Image Processing, Vol 23 No 7, July 2014 [5] Dhavale, Sunita Vikrant (March 10, 2017) Advanced Image-Based Spam Detection and Filtering Techniques Hershey, PA: IGI Global p 91 ISBN 9781683180142 Retrieved September 27, 2019 [6] H.-T Luong and H.-Q Vu, “A non-expert kaldi recipe for vietnamese speech recognition system,” in Proc WLSI/OIAF4HLT, 2016, pp 51–55 [7] H Zen, A Senior, and M Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc ICASSP, 2013, pp 7962–7966 [8] H Kawahara, I Masuda-Katsuse, and A De Cheveigne, “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneousfrequency-based f0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, vol 27, no 3-4, pp 187–207, 1999 [9] Jisha Gopinath, Aravind S, Pooja Chandran, Saranya S S, "Text to Speech Conversion System using OCR", International Journal of Emerging Technology and Advanced Engineering , Volume 5, Issue 1, January 2015 [10] Julinda Gllavata, Ralph Ewerth and Bernd Freisleben, "A Robust Algorithm for Text Detection in Images" [11]J Shen, R Pang, R J Weiss, M Schuster, N Jaitly, Z Yang, Z Chen, Y Zhang, Y Wang, R Skerry-Ryan, R A Saurous, Y Agiomyrgiannakis, and Y Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc ICASSP, 2018, pp 4779–4783 [12] K Oura, S Sako, and K Tokuda, “Japanese text-to-speech synthesis system: Open jtalk,” in Proc ASJ, 2010, pp 343–344 [13] M Morise, F Yokomori, and K Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T Inf Syst., vol 99, no 7, pp 1877– 1884, 2016 [14] M Narendranath, H A Murthy, S Rajendran, and B Yegnanarayana, “Transformation of formants for voice conversion using artificial neural networks,” Speech communication, vol 16, no 2, pp 207–216, 1995 [15] M Morise, F Yokomori, and K Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T Inf Syst., vol 99, no 7, pp 1877– 1884, 2016 [16] OnDemand, HPE Haven "OCR Document" Archived from the original on April 15, 2016 [17] P Ghahremani, B BabaAli, D Povey, K Riedhammer, J Trmal, and S Khudanpur, “A pitch extraction algorithm tuned for automatic speech recognition,” in Proc ICASSP IEEE, 2014, pp 2494–2498 [18] R Prenger, R Valle, and B Catanzaro, “Waveglow: A flow-based generative network for speech synthesis,” in Proc ICASSP, 2019, pp 3617–3621 [19] Sonia Bhaskar, Nicholas Lavassar, Scott Green, "Implementing Optical Character Recognition on the Android Operating System for Business Cards" [20] Schantz, Herbert F (1982) The history of OCR, optical character recognition [Manchester Center, Vt.]: Recognition Technologies Users Association ISBN 9780943072012 [21] T Fujimoto, K Hashimoto, K Oura, Y Nankaku, and K Tokuda, “Impacts of input linguistic feature representation on japanese end-to-end speech synthesis,” in Proc SSW10, 2019, pp 166–171 [22] X Wang, S Takaki, and J Yamagishi, “Neural source-filter waveform models for statistical parametric speech synthesis,” IEEE/ACM Trans Audio, Speech, Language Process., vol 28, pp 402–415, 2019 [23] Y Wang, R Skerry-Ryan, D Stanton, Y Wu, R J Weiss, N Jaitly, Z Yang, Y Xiao, Z Chen, S Bengio, Q Le, Y Agiomyrgiannakis, R Clark, and R A Saurous, “Tacotron: Towards end-to-end speech synthesis,” Proc INTERSPEECH, pp 4006–4010, 2017 [24] Y Yasuda, X Wang, S Takaki, and J Yamagishi, “Investigation of enhanced tacotron text-to-speech synthesis systems with self-attention for pitch accent language,” in Proc ICASSP, 2019, pp 6905–6909 [25] https://vtc.vn/may-doc-sach-cho-nguoi-khiem-thi-ar368723.html [26] 2588151/ https://baodanang.vn/channel/5433/201801/may-doc-sach-cho-nguoi-khiem-thi- [27]https://moh.gov.vn/diem-tin-y-te/-/asset_publisher/sqTagDPp4aRX/content/thong-tin-yte-09-12-10-2020 [28] "The History of OCR" Data Processing Magazine 12: 46 1970 [29] "Extracting text from images using OCR on Android" June 27, 2015 Archived from the original on March 15, 2016 [30] "[Tutorial] OCR on Google Glass" October 23, 2014 Archived from the original on March 5, 2016 [31] Tran, Duc Chung “The First FOSD-Tacotron-2-Based Text-to-Speech Application for Vietnamese.” Bulletin of Electrical Engineering and Informatics 10.2 898–903 ... đại phát triển công nghệ thông tin nay, việc ứng dụng AI (trí tuệ nhân tạo) vào việc xây dựng ứng dụng có thể đọc sách cho người khiếm thị là việc làm vô cùng thiết thực ứng dụng... khả chi trả đa số người Việt Nam, đặc biệt là người khiếm thị Ở Việt Nam, nắm bắt khó khăn đó, số nhóm các trường Đại học phát triển thiết bị đọc thông minh cho người khiếm thị với giá... các ứng dụng di động dịch các kí hiệu tiếng nước ngoài theo thời gian thực điện thoại thông minh Với phát triển điện thoại thông minh và mắt kính thông minh, OCR có thể sử dụng các ứng

Ngày đăng: 26/07/2022, 17:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w