Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	58
Dung lượng	1,7 MB
File đính kèm	22.rar (2 MB)

Nội dung

Theo số liệu thống kê của Viện Mắt Trung ương, năm 2020, trên thế giới có khoảng 314 triệu người khiếm thị và thị lực thấp, trong đó khoảng 45 triệu người khiếm thị, những người trên 80 tuổi chiếm 80%. Cứ 5 giây thế giới có thêm một người khiếm thị, và cứ một phút lại có thể 1 trẻ bị khiếm thị 27. Trẻ khiếm thị gặp rất nhiều khó khăn trong việc học hỏi, giao tiếp vì trẻ không thể tưởng tượng, ghi nhớ và nhận biết chính xác mọi thứ xung quanh theo cách của những đứa trẻ bình thường được. Bằng quy tắc bù trừ, khi mà khả năng thị giác của bé không tốt thì sự tập trung sẽ được chuyển sang các giác quan còn lại một cách tốt hơn, thậm chí các giác quan này còn có phần nhạy bén hơn khi so sánh với những đứa trẻ bình thường.

TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HCM KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN NHỊ THÀNH TÀI NGÔ DUY KHANG Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị KHÓA ḶN TỚT NGHIỆP TP.Hờ Chí Minh, 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HCM KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN NHỊ THÀNH TÀI NGÔ DUY KHANG Phát triển ứng dụng hỗ trợ xây dựng đèn thông minh dành cho người khiếm thị Chuyên ngành : KHOA HỌC MÁY TÍNH TP.Hồ Chí Minh, 2022 LỜI CẢM ƠN Trước tiên, chúng em xin gửi lời cảm ơn biết ơn sâu sắc đến Tiến sĩ Ngô Quốc Việt – Khoa Công nghệ thông tin – Trường Đại học Sư phạm Thành phố Hồ Chí Minh người tận tình hướng dẫn, bảo, giúp đỡ chúng em suốt thời gian nghiên cứu khóa luận Đờng thời là người đưa ý tưởng, kiểm tra phù hợp luận văn Chúng em xin gửi lời cảm ơn đến toàn thể thầy cô trường Đại học Sư phạm Thành phố Hồ Chí Minh giảng dạy, tạo điều kiện cho chúng em trình học tập nghiên cứu trường Những kiến thức mà chúng em nhận hành trang giúp chúng em vững bước tương lai Cuối cùng, chúng em xin cảm ơn gia đình, bạn bè, người thân bên để động viên nguồn cổ vũ lớn lao, động lực giúp chúng em hoàn thành luận văn Mặc dù cố gắng hoàn thành luận văn phạm vi khả Tuy nhiên khơng tránh khỏi thiếu sót Chúng em mong nhận cảm thơng tận tình bảo q thầy tồn thể bạn Chúng em xin chân thành cảm ơn! Hồ Chí Minh, tháng 04 năm 2022 Sinh viên thực Nguyễn Nhị Thành Tài, Ngô Duy Khang MỤC LỤC PHẦN MỞ ĐẦU Lí chọn đề tài Mục đích nghiên cứu Phạm vi nghiên cứu Phương pháp nghiên cứu Các nghiên cứu liên quan NỘI DUNG NGHIÊN CỨU CHƯƠNG KHIẾM THỊ 1.1 Tình hình bệnh khiếm thị 1.2 Những ảnh hưởng bệnh khiếm thị 1.3 Chương trình giáo dục cho trẻ khiếm thị và khó khăn CHƯƠNG NHẬN DẠNG KÍ TỰ QUANG HỌC 2.1 Bài toán nhận dạng kí tự quang học 2.1.1 Giới thiệu 2.1.2 Lịch sử 2.2 Ứng dụng nhận dạng kí tự quang học 10 2.3 Cấu trúc mơ hình nhận diện kí tự quang học 11 2.4 Thư viện Tesseract 14 2.4.1 Lịch sử đời 14 2.4.2 Kiến trúc hệ thống Tesseract 14 2.5 Các bước tiền xử lý sử dụng 21 2.5.1 Khử nhiễu 21 2.5.2 Thay đổi kích thước ảnh 22 2.5.3 Loại bỏ bảng tính 24 2.5.4 Tách ảnh khỏi trang 26 2.5.5 Đánh giá 28 CHƯƠNG PHÁT ÂM VĂN BẢN TIẾNG VIỆT 30 3.1 Bài toán trích xuất văn thành âm 30 3.1.1 Giới thiệu 30 3.1.2 Lịch sử 31 3.2 Ứng dụng trích xuất văn thành âm 32 3.3 Cấu trúc mơ hình trích xuất văn thành âm 33 3.3.1 Bộ phân tích ngôn ngữ và âm học 34 3.3.2 Bộ xếp trình tự và mơ hình seq2seq 35 3.3.3 Mơ hình âm nơ ron 36 3.3.4 Sinh sóng âm 37 3.4 Giới thiệu FPT.AI Text-to-speech 38 CHƯƠNG XÂY DỰNG ỨNG DỤNG 44 4.1 Những tính ứng dụng 44 4.2 Quy trình hoạt động ứng dụng 45 KẾT LUẬN 47 Kết đạt 47 Hạn chế 47 Hướng phát triển 47 TÀI LIỆU THAM KHẢO 49 BẢNG CÁC KÍ HIỆU, CHỮ VIẾT TẮT STT Ký hiệu Chữ viết đầy đủ API AI Application Programming Interface – giao diện lập trình ứng dụng AI : Artificial Intelligence – Trí tuệ nhân tạo ASR Automatic speech recognition – nhận diện giọng nói tự động CMYK Cyan-Magenta-Yellow-Key – màu xanh lơ-màu hồng sẫmmàu vàng-màu đen E2E End to end model – mơ hình quy trình đầu cuối GDCB Giáo dục chuyên biệt HSKT Học sinh khiếm thị HMM Hidden Markov Model – Mô hình Markov ẩn KHGDVN Khoa học giáo dục Việt Nam 10 MFCC Mel-frequency cepstral coefficients – đặc trưng âm 11 MOS Mean opinion score – Điểm số ý kiến trung bình 12 OCR Optical Character Recognition – Nhận dạng kí tự quang học 13 Seq2Seq Sequence to sequence – mơ hình học sâu với đầu vào là chuỗi và đầu là chuỗi 14 TTS Text to speech – Chuyển đổi văn thành âm 15 VC Voice Conversion – Chuyển đổi giọng nói 16 WHO World Health Organization – Tổ chức Y tế giới BẢNG DANH MỤC CÁC BẢNG BIỂU VÀ HÌNH VẼ Bảng 2.5.5 - Tỉ lệ WER và CER sau thực tiền xử lý 30 Bảng 3.4.3 - Tham số cài đặt để huấn luyện TTS 39 Bảng 3.4.6 - Những văn ngẫu nhiên dùng để đánh giá 41 Bảng 3.4.7 - Tỉ lệ từ bị thiếu 42 Bảng 3.4.8 - Độ rõ ràng và tự nhiên – MOS 43 Hình 2.3 - Cấu trúc mơ hình OCR 11 Hình 2.4.2 - Kiến trúc hệ thống Tesseract công bố tác giả Ray Smith, Google Inc 15 Hình 2.4.2.2 - Hiệu chỉnh đường sở hàng chữ không thẳng hàng 16 Hình 2.4.2.3 - Cắt các kí tự từ có khoảng cách cố định 17 Hình 2.4.2.4 - Các từ khơng có khoảng cách cố định gây khó khăn tách kí tự 17 Hình 2.4.2.6 - Các điểm cắt đề xuất 18 Hình 2.4.2.7 - Từ cần liên kết lại để nhận dạng 18 Hình 2.4.2.8 (a) Hình ban đầu (b) Hình cắt (c) các đặc trưng phù hợp với nguyên mẫu 19 Hình 2.4.2.9 - Chuẩn hóa đường sở và chuẩn hóa điểm 21 Hình 2.5.1.1 - Ví dụ các cửa sổ tương tự ảnh 22 Hình 2.5.1.2 - Ảnh sau khử nhiễu 22 Hình 2.5.2.1 - Quan hệ độ lỡi và kích thước chữ theo pixel 23 Hình 2.5.2.2 - Ảnh sau thay đổi kích thước 23 Hình 2.5.3.1 - Ảnh nhị phân hóa 24 Hình 2.5.3.2 - Xác định các cạnh ngang và dọc bảng 25 Hình 2.5.3.3 - Ảnh kết thu 25 Hình 2.5.4.1 - White mask tách bằng hộp giới hạn 26 Hình 2.5.4.2 - Xác định vùng có chứa màu 27 Hình 2.5.4.3 - Các hộp giới hạn bao quanh phần hình ảnh 28 Hình 3.3 - Mơ tả khái niệm cấu trúc hệ thống TTS thơng thường 33 Hình 3.3.1.1 - Hệ thống TTS với mơ hình encoder-attention-decoder 34 Hình 3.3.2.2 - Mơ tả khái niệm cấu trúc hệ thống TTS seq2seq 36 Hình 3.4.1 - Quy trình nghiên cứu 38 Hình 4.1 - Giao diện ứng dụng 44 Hình 4.2 - Trình tự thao tác với ứng dụng 46 PHẦN MỞ ĐẦU Lí chọn đề tài Theo số liệu thống kê Viện Mắt Trung ương, năm 2020, giới có khoảng 314 triệu người khiếm thị và thị lực thấp, đó khoảng 45 triệu người khiếm thị, người 80 tuổi chiếm 80% Cứ giây giới có thêm người khiếm thị, và phút lại có thể trẻ bị khiếm thị [27] Trẻ khiếm thị gặp nhiều khó khăn việc học hỏi, giao tiếp trẻ tưởng tượng, ghi nhớ và nhận biết chính xác thứ xung quanh theo cách đứa trẻ bình thường Bằng quy tắc bù trừ, mà khả thị giác bé khơng tốt tập trung chuyển sang các giác quan còn lại cách tốt hơn, chí các giác quan này còn có phần nhạy bén so sánh với đứa trẻ bình thường Nên để dạy tốt cho trẻ khiếm thị chúng ta có thể tận dụng nhạy bén các giác quan còn lại để giúp cho các em có thể học cách hiệu Hiện các em thường dạy học dựa chữ Braille bằng cách cảm nhận chấm tròn đầu ngón tay để hình thành mặt chữ để đọc – xúc giác Hay chúng ta thường nghe nói sách nói giúp các em nghe và tiếp nhận thông tin - thính giác Nhưng vấn đề theo ghi nhận nhiều địa phương cho thấy nhiều nơi chưa có trung tâm, trường chuyên biệt hay đầu tư sở vật chất, thiết bị học tập dành riêng cho học sinh khuyết tật, cụ thể trẻ khiếm thị không có sách giáo khoa riêng và giáo trình khơng đổi thường xun gây nhiều hạn chế cho quá trình đào tạo trẻ khiếm thị Theo bà Trần Thị Phương Lan, Phó hiệu trưởng trường PTCS Nguyễn Đình Chiểu chia sẻ, tiền chế để hoàn thành sách giáo khoa chữ lên tới 170 triệu đồng, còn tính riêng giá nguyên liệu để làm sách Tiếng Việt là 500.000 đồng Sách nói có thể là giải pháp khác việc giúp trẻ khiếm thị tiếp thu tri thức điểm hạn chế là sách cần phải có người đọc ghi âm trước và lượng đầu sách còn bị giới hạn (nổi bật là không có sách giáo khoa), trẻ muốn tìm tòi và học hỏi sách mà chưa phát hành dạng sách nói sao? Trong thời đại phát triển công nghệ thông tin nay, việc ứng dụng AI (trí tuệ nhân tạo) vào việc xây dựng ứng dụng có thể đọc sách cho người khiếm thị là việc làm vơ cùng thiết thực ứng dụng này vừa có thể giải vấn đề việc thiếu sách giáo khoa chữ và hạn chế số lượng sách nói Mục đích nghiên cứu Xây dựng chương trình đọc sách cho người khiếm thị, từ đó có thể đọc sách giáo khoa các trẻ em bình thường nhằm giúp các em có thể học tập và phát triển thân tốt Đồng thời tận dụng sách giáo khoa bình thường có sẵn thị trường để giảng dạy cho trẻ khiếm thị để giải vấn đề sách, xóa bỏ khoảng cách chương trình học trẻ khiếm thị và trẻ bình thường Phạm vi nghiên cứu Một chương trình có thể nhận diện chữ viết từ sách giáo khoa số môn xã hội cấp I, đồng thời nhận biết số hình đơn giản sách Sử dụng các kiến trúc có sẵn cho tác vụ OCR, cụ thể là mơ hình Tesseract Google để nhận diện kí tự quang học và API Text2Speech FPT.AI để đọc thành tiếng đoạn văn sau thực OCR Cụ thể nhóm thực nghiên cứu sách giáo khoa Tiếng Việt lớp tập Bởi sách tiếng Việt có đa dạng cấu trúc trang, đa dạng các loại liệu như: kí hiệu, bảng,… và hình ảnh đa dạng hình dạng và kích thước Nếu thực đọc tốt sách Tiếng Việt khả cao thực tốt sách khác Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: • Tìm hiểu các cơng trình nghiên cứu, dự án liên quan: Tìm hiểu và đánh giá dự án, sản phẩm giúp người khiếm thị đọc sách có sẵn thị trường, xem xét ưu điểm và khuyết điểm sản phẩm đó nhằm phát triển sản phẩm tốt • Thu thập liệu phục vụ cho nghiên cứu: Thu thập liệu phương pháp xử lý ảnh số, xử lý chuỗi sử dụng ứng dụng để giúp cho các tác vụ ứng dụng hoạt động tốt • So sánh các mơ hình có sẵn: So sánh các mơ hình OCR có sẵn và các API tác vụ Text2Speech để lựa chọn mơ hình phụ thuộc cho ứng dụng Phương pháp nghiên cứu thực nghiệm: • Phân tích, xây dựng chương trình thử nghiệm: Phân tích điểm hạn chế người khiếm thị sử dụng máy tính để giúp cho việc tương tác người khiếm thị và ứng dụng tiện lợi • So sánh và đánh giá kết đạt được: Đánh giá kết đạt các tác vụ con, thời gian thực thi và điểm hạn chế ứng dụng Phương pháp phân tích và tổng hợp: • Phân tích, giải hạn chế các tác vụ và đưa giải pháp: Thực nghiệm và xem xét hạn chế các tác vụ từ đó đưa giải pháp hợp lí • Sử dụng kết hợp nhiều phương pháp để giải vấn đề : Dùng phương pháp xử lý ảnh số Chuỗi học để cải thiện chất lượng ứng dụng Các nghiên cứu liên quan Việc sử dụng các tác vụ Nhận dạng kí tự quang học (OCR) và tác vụ Text2Speech để ứng dụng vào thiết bị đọc sách cho người khiếm thị không còn là bài toán : • Trong bài báo [9], tác giả sử dụng MATLAB và phần mềm LabVIEW để tiền xử lý hình ảnh đầu vào, sau đó ảnh phân đoạn và thực tác vụ nhận dạng kí tự quang học ảnh phân đoạn Tiếp theo đó ứng dụng này thực chuyển đổi văn sang âm từ kết OCR Ứng dụng này khơng chuyển đổi hình ảnh sang âm mà nó còn có thể nhận input là văn từ người dùng nhập vào và chuyển đổi sang âm dành cho người không nói hay khó phát âm Ban đầu, hệ thống tạo bitmap ARGB-8888, sau đó chuyển nó đến công cụ Tesseract để nhận dạng • Trong bài báo [1], quá trình nhận dạng văn thực bằng cách sử dụng Raspberry PI Những kí tự nhận dạng bằng thuật toán trước mô-đun quy trình Mơ hình âm thần kinh chức có thể huấn luyện sử dụng mạng nơron để lập mơ hình chuyển đổi mục tiêu [14, 7] Các tham số mạng nơ-ron, θtts, huấn luyện với mẫu giọng nói gắn nhãn bắt cặp bằng cách sử dụng giải thuật gradient descent backpropagation cho học giám sát 3.3.4 Sinh sóng âm Đối với hệ thống tổng hợp giọng nói, đầu mơ hình âm là các đặc tính âm thay dạng sóng thơ để giảm độ phức tạp chuyển đổi văn thành giọng nói (hoặc giọng nói thành lời nói), dạng sóng tần số cao và tương quan thời gian cao tính Để tổng hợp dạng sóng từ các tính này, mô-đun gọi là “bộ mã hóa” sử dụng Có hai cách tiếp cận chính để tổng hợp dạng sóng giọng nói từ các đặc trưng âm học, các phương pháp tiếp cận tham số thơng thường mơ hình thần kinh hướng liệu 3.3.4.1 Phương pháp tiếp cận tham sớ Các hàm mã hóa tham số thiết kế dựa giả định (ví dụ: mơ hình lọc nguồn) Đưa chuỗi đặc trưng âm học, chứa F0 và các đặc trưng phổ, mã hóa tham số tạo phân đoạn dạng sóng bằng cách sử dụng khung phổ sau đó chồng lên thêm tất phân đoạn dựa thông tin F0 Hai vocoder thường sử dụng để tổng hợp giọng nói STRAIGHT [8] WORLD [15] Các mơ-đun tham số coi mô-đun bất biến không phụ thuộc vào liệu 3.3.4.2 Phương pháp tiếp cận nơ ron nhân tạo Với tiến gần học sâu, nhiều công trình cố gắng thay từng thành phần bằng thành phần khác dựa mạng nơ-ron Một bước đột phá xu hướng này là đề xuất hệ thống mã hóa thần kinh có khả tạo dạng sóng mẫu thời điểm Dẫn đầu lĩnh vực mơ hình WaveNet [13] DeepMind đề xuất, nhiều hệ thống đề xuất để giải hệ thống tương tự WaveGlow [18] và lọc nguồn thần kinh (NSF) [22] Các định dạng thần kinh tạo giọng nói với độ tự nhiên tốt so với các định nghĩa 37 tham số nhờ khả tạo từng mẫu Tuy nhiên, mô hình đào tạo, hiệu suất mơ hình thần kinh phụ thuộc vào liệu đào tạo chúng bất kỳ mơ hình học sâu 3.4 Giới thiệu về FPT.AI Text-to-speech 3.4.1 Nghiên cứu Hình 3.4.1 - Quy trình nghiên cứu Tổng quan phương pháp thực đào tạo mơ hình TTS FPT.AI Text2Speech miêu tả biểu đồ Đầu tiên, cách tổ chức xử lí liệu đầu vào trình bày Sau đóBảng là thơng 3.4.3tin Tham sớ cài cài đặtđặt để cho h́nmơ hình Tacotron-2 trình dùng để huấn luyện kiểmluyện định.TTSHình Phần tiếp3.4.1 theo -sẽQuy trình bày khâu xử lí Tiếng Việt nghiên cứu Tiếp theo, thơng tin mơ hình đào tạo trình bày thấy nỡ lực để vận hành mơ hình đào tạo điều kiện mơ hình đào tạo sử dụng công việc Cuối cùng, cách tiếp cận để tạo liệu đầu vào để Bảng 3.4.3 Tham số cài đặt để huấn cung cấp các trường hợp khác củaluyện các trường TTS hợp kiểm định mơ hình 3.4.2 Xử lí dữ liệu Bộ liệu chứa 25.000 tệp âm (khoảng 30 ghi âm) bằng tiếng Việt 3.4.6 Những văn ngẫu tách thành hai tập conBảng Tất -cả tệp âmbản định dạng nén (tức nhiên dùng để đánh giáBảng 3.4.3 *.mp3) ghi chúng tệp *.txt thư Tham số cài đặtlưu để trữ huấn luyện 3.4.1 là - Quy trình Để nghiên mục Tốc độ bit củaTTSHình tệp âm 64 kbps cungcứu cấp tệp âm vào công cụ TTS dựa Mozilla, tác giả sử dụng hộp công cụ SOX, tất chúng chuyển đổi thành định dạng *.wav với tốc độ bit 352 kbps Ngoài ra, tất tệp âm đặt mộtsớthư để h́n đào tạo mơ hình Các tệp Bảng 3.4.3 Tham càimục đặt để TTSHình 3.4.1theo - Quy trìnhcách: tên file âm thanh|bản ghi tập hợp thànhlụn tệp; mỡi dịng phong nghiên cứu 38 Bảng 3.4.3 - Tham số cài đặt để huấn luyện TTS ghi|thời gian bắt đầu lời nói_1-thời gian kết thúc lời nói_1 thời gian bắt đầu lời nói _2thời gian kết thúc lời nói _2 Ở đây, tên file âm là tên tệp bao gồm phần mở rộng; ghi là văn phát biểu; thời lượng giọng nói đánh dấu bằng hai điểm (thời gian bắt đầu lời nói_1-thời gian kết thúc lời nói_1); có nhiều lời nói tệp, mỡi thời lượng phân tách bằng ký tự khoảng trắng Sau đó, tệp ghi tách thành hai tệp *.csv để đào tạo kiểm định Tệp đào tạo bao gờm 23.000 dịng ghi tệp kiểm tra bao gờm 1.900 dịng ghi 3.4.3 Cài đặt kiến trúc Tacotron-2 Trong cơng trình này, kiến trúc Tacotron-2 sử dụng cung cấp chất lượng đầu tốt so với kiến trúc Tacotron, khuyến nghị ghi Mozilla cho nhà phát triển Bảng bên trình bày cấu hình tham số quan trọng để huấn luyện mô hình Trong bảng này, số lượng quang phổ mel 80, số mức tần số phép biến đổi fourier thời gian ngắn (STFT) (bằng với kích thước khung hình phổ tuyến tính) 1,025, giống giá trị mặc định Tốc độ lấy mẫu đặt thành 22.050 Hz để đào tạo kiến trúc Tacotron-2 nhanh Vì mơ hình sử dụng nghiên cứu Tacotron-2, hàm softmax sử dụng để tính tốn mức độ chú ý, theo đề xuất Mozilla Bảng 3.4.3 - Tham số cài đặt để huấn luyện TTS THAM SỐ GIÁ TRỊ Num_mels 80 Num_freq 1,025 Sample_rate 22,050 Hz Model Tacotron-2 Attention_norm Softmax Min_seq_len =>10 Max_seq_len 150 => 100 Use_phonemes False 39 Text_cleaner Vietnamese_cleaner Datasets.name Fptopenspeechdata Datasets.path /content/MyDrive/FptOpenSpeechData Datasets.meta_file_train Metadata_train.csv Datasets.meta_file_val Metadata_val.csv Ngoài ra, độ dài trình tự tối thiểu tối đa thay đổi từ thành 10 150 thành 100 sau 100.000 bước huấn luyện Điều nhằm làm cho mơ hình hội tụ nhanh và phù hợp với tập liệu có có độ dài trình tự tối thiểu là 2, độ dài trình tự tối đa là 301, độ dài trình tự trung bình 52,43 Kết là, 1.145 trường hợp bị loại bỏ chúng nằm ngồi phạm vi độ dài trình tự nói Cần lưu ý rằng, mơ hình đào tạo hoàn toàn Google Colaboratory, tảng hỡ trợ TensorFlow miễn phí 3.4.4 Bợ xử lí văn bản tiếng Việt Trình xử lí tiếng Việt phát triển để hỡ trợ tiếng Việt thay tiếng Anh Trình xử lí cho phép thực chuyển đổi đặc biệt sau: • ký hiệu thành từ: ví dụ: “+” thành “cộng” • ký tự đặc biệt thành từ: ví dụ: “%” thành “phần trăm” • từ đặc biệt thành từ tương tự có cách phát âm giống nhau: ví dụ: “hỷ” thành “hỉ” • số thành từ: ví dụ: “11” thành “mười một” Cần lưu ý rằng tất từ viết hoa chuyển đổi thành chữ thường để tạo thành các văn nguồn thống trước cung cấp cho mạng để đào tạo, xác nhận thử nghiệm 3.4.5 Huấn luyện mô hình Để chứng minh rằng trình xử lí tiếng Việt phát triển phù hợp với mơ hình tạo nói tiếng Việt rõ ràng từ các văn ngẫu nhiên, mơ hình đào tạo cho 225.000 bước Kết là, độ mát đào tạo 0,10406 độ mát kiểm định 0,12349 40 3.4.6 Kết quả Trong phần này, kết thu từ mô hình TTS tiếng Việt trình bày Lúc đầu, các đoạn giọng nói tạo xem xét dựa tính hồn chỉnh nó Điều cho biết liệu mơ hình tạo các đoạn giọng nói hồn chỉnh dựa các văn định hay không Thứ hai, các đoạn giọng nói xem xét dựa độ rõ ràng tự nhiên tùy thuộc vào điểm mean opinion score (MOS), số điển hình để đánh giá chất lượng các đoạn âm tạo từ công cụ TTS Trong bảng bên dưới, câu ngẫu nhiên không liên quan tới chọn để kiếm tra mơ hình TTS huấn luyện Bảng 3.4.6 - Những văn bản ngẫu nhiên dùng để đánh giá VĂN BẢN ĐẦU VÀO STT Một vịt to bò Chị sơn xinh gái Không có Tuấn Anh, Văn Toàn mời sang thử việc Tây Ban Nha Đào xuống phố sớm, nhiều tuyến đường Hà Nội rộn ràng sắc xuân Sao bóng đá Việt Nam đua tặng xế sang bạc tỷ cho người thân 41 3.4.7 Tính hoàn chỉnh của các đoạn âm được tạo Trong số năm câu nói ví dụ chuyển đổi thành âm thanh, ba câu (bài đầu tiên, thứ hai thứ năm) là hoàn chỉnh Câu thứ ba thiếu 2/17 từ câu thứ tư thiếu 10/14 từ (tức phần thứ hai câu, sau dấu phẩy) Phân tích sâu các từ thiếu, Bảng bên trình bày tần suất từ thiếu liệu đào tạo liệu kiểm định sử dụng để đào tạo kiểm định mơ hình FOSD Từ bảng này, thấy rằng, tỷ lệ điển hình từ xác nhận từ đào tạo từ xấp xỉ 0,05 đến 0,14 Bảng 3.4.7 - Tỉ lệ những từ bị thiếu Stt Chữ Huấn luyện Kiểm định Tỉ lệ Văn 167 20 0.1197 Toàn 267 23 0.0861 nhiều 1,038 81 0.0780 tuyến 57 0.1404 đường 395 31 0.0785 Hà 3,056 259 0.0848 Nội 166 0.0542 1,829 125 0.0683 rộn 149 15 0.1007 10 ràng 49 0.1429 11 sắc 80 0.0250 12 xuân 35 0.0571 3.4.8 Sự rõ ràng tự nhiên của các đoạn âm được tạo Một khảo sát thực nhóm 100 người tham gia ngẫu nhiên sinh viên Đại học FPT để đánh giá độ rõ ràng tự nhiên các đoạn âm Ở đây, tính tự nhiên đề cập đến trạng thái chất lượng tự nhiên (giống người) đoạn âm tạo độ rõ ràng biểu thị rõ ràng (tiếng ồn thấp) 42 Dựa khảo sát, 50% sinh viên sử dụng tai nghe 50% lại sử dụng loa vi tính cho kiểm tra Ngồi ra, tất học sinh chưa nghe nói câu đoạn âm này trước MOS họ nêu bảng bên Bảng 3.4.8 - Độ rõ ràng và tự nhiên – MOS Stt Sự rõ ràng Sự tự nhiên 2.95 ± 1.15 2.54 ± 1.12 2.62 ± 1.17 2.52 ± 1.07 2.94 ± 1.07 2.84 ± 1.00 2.97 ± 1.17 2.81 ± 1.02 3.39 ± 0.98 3.06 ± 1.07 Từ bảng này, MOS cho độ nằm khoảng từ đến 4,5 Bốn số năm đoạn âm coi là rõ ràng đoạn âm thứ hai rõ ràng Câu nói rõ ràng câu thứ năm, MOS 3,39 với độ lệch chuẩn 0,98 khiến trở thành câu tạo hay thử nghiệm Trong đó, MOS cho độ tự nhiên các đoan âm tạo thường thấp chút so với độ rõ ràng Tuy nhiên, đoan âm thứ năm là tự nhiên kiểm tra Ở đây, ba số năm đoan âm đạt mức trung bình (khoảng 2,50) 43 CHƯƠNG 4.1 XÂY DỰNG ỨNG DỤNG Những tính của ứng dụng Bởi ứng dụng xây dựng với mục đích giúp cho người khiếm thị có thể đọc sách cách thuận tiện nhất, nên việc thao tác ứng dụng phải đảm bảo tiện lợi, dễ dàng cho người khiếm thị Vì việc thao tác với ứng dụng phần lớn là thao tác sử dụng bàn phím và chuột Hình 4.1 - Giao diện của ứng dụng Những tính chính có ứng dụng : • Thay đổi vùng miền giọng đọc và giới tính giọng đọc: Nhằm hỗ trợ nhiều em họcHình sinh đến nhiều vùng 4.1 -từGiao diện củamiền ứng khác dụng có thể nghe âm cách dễ dàng và quen thuộc ngoài ứng dụng có hỡ trợ ba giọng đọc từ ba miền : Bắc, Trung, Nam và hai giới tính : Nam và Nữ Hình 4.1 - Giao diện của ứng dụng 44 Hình 4.1 - Giao diện của ứng dụng • Thay đổi âm lượng : Giúp người nghe có thể tùy chỉnh âm lượng âm trở nên to hay nhỏ để phù hợp cho việc học • Thay đổi tốc độ đọc : Giúp người nghe có thể tùy chỉnh tốc độ đọc để phù hợp cho việc học • Thực chuyển đổi hình ảnh sang văn : Đây là hai tính chính ứng dụng giúp chuyển đổi hình ảnh đầu vào sang văn • Thực chuyển đổi văn sang âm : Thực chuyển đổi văn sang âm để đọc cho người nghe Ngoài ứng dụng còn thông báo sau người dùng thực thao tác nào đó và thông báo lật trang đọc xong • Những thao tác chính ứng dụng là : • Thao tác nhấn chuột phải : Để chuyển đổi vùng miền giọng nói • Thao tác nhấn chuột : Để chuyển đổi giới tính người đọc • Thao tác nhấn chuột trái : Để thực đọc văn • Thao tác nhấn mũi tên phải : Để tăng âm lượng âm • Thao tác nhấn mũi tên trái : Để giảm âm lượng âm • Thao tác nhấn nút Space : Thực chuyển đổi văn thành âm • Thao tác nhấn nút Enter : Thực chuyển đổi hình ảnh sang văn 4.2 Quy trình hoạt động của ứng dụng Bước : Khi người dùng nhấn nút Enter camera gắn đèn chụp tự động chụp ảnh trang sách đặt bên và ảnh chụp sử dụng đầu vào cho tác vụ nhận diện kí tự quang học Bước : Người dùng sử dụng trỏ phải chuột để chọn vùng, miền giọng đọc phù hợp và dễ nghe Bước : Người dùng sử dụng trỏ chuột để chọn giới tính giọng đọc muốn nghe Bước : Sau chọn cài đặt giọng đọc phù hợp, nhấn phím Space để thực tác vụ chuyển đổi văn sang âm 45 Bước : Sau hoàn thành các bước nhấn chuột trái để bắt đầu nghe ứng dụng đọc văn bản, quá trình nghe có thể ấn lần để dừng thay đổi tốc độ đọc hay âm lượng cho phù hợp Hình 4.2 - Trình tự thao tác với ứng dụng Hình 4.2 - Trình tự thao tác với ứng dụng Hình 4.2 - Trình tự thao tác với ứng dụng Hình 4.2 - Trình tự thao tác với ứng dụng 46 KẾT LUẬN Kết quả đạt được Trong luận văn này, nhóm thực yêu cầu đề : Nhận dạng văn chữ in tiếng Việt sách giáo khoa môn xã hội cấp I, đọc thành tiếng Việt văn nhận dạng Hoàn thiện tính phù hợp cho người khiếm thị sử dụng và thao tác dễ dàng tùy chỉnh giọng đọc, tốc độ và âm lượng đọc Ứng dụng hướng đến đối tượng dùng là người khiếm thị nên thao tác người dùng đơn giản hóa với bàn phím và chuột máy tính đem lại trải nghiệm đơn giản Hạn chế Chưa hoàn thành việc kết nối camera với đèn bàn vấn đề chức tự động lấy nét camera sử dụng đồ án hoạt động không tốt, cụ thể đồ án dừng lại việc sử dụng hình ảnh chụp sẵn để mô lại việc ảnh thu từ camera gắn đèn bàn Độ chính xác tác vụ nhận diện kí tự quang học chưa đạt mức hoàn hảo, xuất vấn đề nhận dạng sai lỗi chính tả hay dấu câu Hướng phát triển Huấn luyện lại mô hình nhận dạng bên công cụ Tesseract Bộ liệu sử dụng việc huấn luyện mơ hình Tesseract cho ngôn ngữ Tiếng Việt mà nhóm tác giả sử dụng gồm font chính đó là Times New Roman, Arial, Verdana và Courier New, và nói rằng việc nhận dạng có kết cao cho các ảnh có phông tương tự Từ đó ta có thể thấy Tesseract nhạy cảm với phông chữ mà nó sử dụng, nên việc huấn luyện lại mơ hình giúp cải thiện đáng kể độ chính xác Đặc biệt ta hướng đến sản phẩm giá thành thấp cho trẻ em khiếm thị việc sử dụng camera giá thành thấp là điều đáng lưu ý, camera giá thấp dẫn đến việc ảnh đầu vào có chất lượng khơng cao so với hình ảnh tập huấn luyện Do đó việc chuẩn bị liệu từ camera giá thấp và huấn luyện từ tập liệu đó là lựa chọn vừa có thể giúp nâng cao độ chính xác và giảm thiểu chi phí làm sản phẩm cho trẻ khiếm thị 47 Xây dựng mô hình sửa lỗi chính tả cho văn bản Đầu tác vụ nhận dạng kí tự quang học còn số lỗi lẫn lộn chữ hoa và chữ thường, lỗi xử lý không chính xác gây các lỗi thiếu sót dấu, lầm với các kí tự có hình dáng tương tự, lỡi ngữ nghĩa Việc duyệt qua lần đê sửa các lỗi là bước cần thiết để có thể có kết chính xác Chúng ta có thể sử dụng mơ hình ngơn ngữ đơn giản N-grams với số lượng n và liệu đủ lớn để có thể có mơ hình tốt cho việc sửa lỡi chính tả Hoặc ứng dụng mơ hình học sâu, cụ thể là mơ hình dịch máy với kích thước nhỏ để sửa lỗi chính tả từng câu 48 TÀI LIỆU THAM KHẢO [1] Aaron James S, Sanjana S, Monisha M, "OCR based automatic book reader for the visually impaired using Raspberry PI", Vol 4, Issue 7, January 2016 [2] A Black, P Taylor, R Caley, R Clark, K Richmond, S King, V Strom, and H Zen, “The festival speech synthesis system, version 1.4.2,” Unpublished document available via http://www.cstr.ed.ac.uk/projects/festival.html, 2001 [3] Christopher G Relf, "Image Acquisition and Processing with LabVIEW", CRC Press, 2004 [4] Chucai Yi, Yingli Tian, “Scene Text Recognition in Mobile Applications by Character Descriptor and Structure Configuration”, IEEE Transactions on Image Processing, Vol 23 No 7, July 2014 [5] Dhavale, Sunita Vikrant (March 10, 2017) Advanced Image-Based Spam Detection and Filtering Techniques Hershey, PA: IGI Global p 91 ISBN 9781683180142 Retrieved September 27, 2019 [6] H.-T Luong and H.-Q Vu, “A non-expert kaldi recipe for vietnamese speech recognition system,” in Proc WLSI/OIAF4HLT, 2016, pp 51–55 [7] H Zen, A Senior, and M Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc ICASSP, 2013, pp 7962–7966 [8] H Kawahara, I Masuda-Katsuse, and A De Cheveigne, “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneousfrequency-based f0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, vol 27, no 3-4, pp 187–207, 1999 [9] Jisha Gopinath, Aravind S, Pooja Chandran, Saranya S S, "Text to Speech Conversion System using OCR", International Journal of Emerging Technology and Advanced Engineering , Volume 5, Issue 1, January 2015 [10] Julinda Gllavata, Ralph Ewerth and Bernd Freisleben, "A Robust Algorithm for Text Detection in Images" [11]J Shen, R Pang, R J Weiss, M Schuster, N Jaitly, Z Yang, Z Chen, Y Zhang, Y Wang, R Skerry-Ryan, R A Saurous, Y Agiomyrgiannakis, and Y Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc ICASSP, 2018, pp 4779–4783 [12] K Oura, S Sako, and K Tokuda, “Japanese text-to-speech synthesis system: Open jtalk,” in Proc ASJ, 2010, pp 343–344 [13] M Morise, F Yokomori, and K Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T Inf Syst., vol 99, no 7, pp 1877– 1884, 2016 [14] M Narendranath, H A Murthy, S Rajendran, and B Yegnanarayana, “Transformation of formants for voice conversion using artificial neural networks,” Speech communication, vol 16, no 2, pp 207–216, 1995 [15] M Morise, F Yokomori, and K Ozawa, “WORLD: a vocoder-based highquality speech synthesis system for real-time applications,” IEICE T Inf Syst., vol 99, no 7, pp 1877– 1884, 2016 [16] OnDemand, HPE Haven "OCR Document" Archived from the original on April 15, 2016 [17] P Ghahremani, B BabaAli, D Povey, K Riedhammer, J Trmal, and S Khudanpur, “A pitch extraction algorithm tuned for automatic speech recognition,” in Proc ICASSP IEEE, 2014, pp 2494–2498 [18] R Prenger, R Valle, and B Catanzaro, “Waveglow: A flow-based generative network for speech synthesis,” in Proc ICASSP, 2019, pp 3617–3621 [19] Sonia Bhaskar, Nicholas Lavassar, Scott Green, "Implementing Optical Character Recognition on the Android Operating System for Business Cards" [20] Schantz, Herbert F (1982) The history of OCR, optical character recognition [Manchester Center, Vt.]: Recognition Technologies Users Association ISBN 9780943072012 [21] T Fujimoto, K Hashimoto, K Oura, Y Nankaku, and K Tokuda, “Impacts of input linguistic feature representation on japanese end-to-end speech synthesis,” in Proc SSW10, 2019, pp 166–171 [22] X Wang, S Takaki, and J Yamagishi, “Neural source-filter waveform models for statistical parametric speech synthesis,” IEEE/ACM Trans Audio, Speech, Language Process., vol 28, pp 402–415, 2019 [23] Y Wang, R Skerry-Ryan, D Stanton, Y Wu, R J Weiss, N Jaitly, Z Yang, Y Xiao, Z Chen, S Bengio, Q Le, Y Agiomyrgiannakis, R Clark, and R A Saurous, “Tacotron: Towards end-to-end speech synthesis,” Proc INTERSPEECH, pp 4006–4010, 2017 [24] Y Yasuda, X Wang, S Takaki, and J Yamagishi, “Investigation of enhanced tacotron text-to-speech synthesis systems with self-attention for pitch accent language,” in Proc ICASSP, 2019, pp 6905–6909 [25] https://vtc.vn/may-doc-sach-cho-nguoi-khiem-thi-ar368723.html [26] 2588151/ https://baodanang.vn/channel/5433/201801/may-doc-sach-cho-nguoi-khiem-thi- [27]https://moh.gov.vn/diem-tin-y-te/-/asset_publisher/sqTagDPp4aRX/content/thong-tin-yte-09-12-10-2020 [28] "The History of OCR" Data Processing Magazine 12: 46 1970 [29] "Extracting text from images using OCR on Android" June 27, 2015 Archived from the original on March 15, 2016 [30] "[Tutorial] OCR on Google Glass" October 23, 2014 Archived from the original on March 5, 2016 [31] Tran, Duc Chung “The First FOSD-Tacotron-2-Based Text-to-Speech Application for Vietnamese.” Bulletin of Electrical Engineering and Informatics 10.2 898–903 ... đại phát triển công nghệ thông tin nay, việc ứng dụng AI (trí tuệ nhân tạo) vào việc xây dựng ứng dụng có thể đọc sách cho người khiếm thị là việc làm vô cùng thiết thực ứng dụng... khả chi trả đa số người Việt Nam, đặc biệt là người khiếm thị Ở Việt Nam, nắm bắt khó khăn đó, số nhóm các trường Đại học phát triển thiết bị đọc thông minh cho người khiếm thị với giá... các ứng dụng di động dịch các kí hiệu tiếng nước ngoài theo thời gian thực điện thoại thông minh Với phát triển điện thoại thông minh và mắt kính thông minh, OCR có thể sử dụng các ứng

Ngày đăng: 26/07/2022, 17:03