Xây dựng Mô-đun điều khiển bằng giọng nói trong ứng dụng đọc báo điện tử cho người khiếm thị

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	633,75 KB

Nội dung

Nghiên cứu trình bày khái quát mô hình Markov ẩn và thiết kế tập lệnh giúp người khiếm thị điều khiển ứng dụng đọc báo điện tử bằng giọng nói. Thu âm bộ dữ liệu của nhiều người nói, sau đó tiến hành thực nghiệm huấn luyện mô hình và nhận dạng tiếng nói trên bộ dữ liệu nhằm đánh giá sự phụ thuộc của hệ thống vào các tham số khác nhau của mô hình.

212 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Xây dựng Mơ-đun điều khiển giọng nói ứng dụng đọc báo điện tử cho người khiếm thị Lê Vũ Cơng Hịa1, Hồng Thị Minh Khanh1, Lê Quang Tam1, Ninh Khánh Duy1 Trường Đại học Bách Khoa, Đại học Đà Nẵng conghoacntt13t1@gmail.com, minhkhanhhoang2105@gmail.com, lesan1995@gmail.com, nkduy@dut.udn.vn Tóm tắt Nhận dạng tiếng nói dùng mơ hình Markov ẩn (HMM) ứng dụng rộng rãi hệ thống giao tiếp người-máy giọng nói Nghiên cứu mơ tả bước việc xây dựng mô-đun điều khiển máy tính giọng nói nhằm trợ giúp người khiếm thị điều khiển ứng dụng đọc báo điện tử Để tạo hệ thống dễ sử dụng cho người khiếm thị, thiết kế tập lệnh điều khiển gồm nhóm với 46 lệnh từ đơn Để huấn luyện kiểm thử hệ thống nhận dạng tiếng nói, chúng tơi thu âm liệu tiếng nói 42 người với chất giọng khác điều kiện môi trường thực tế tiến hành thử nghiệm nhận dạng Thực nghiệm cho thấy việc thiết lập tham số HMM kích thước liệu huấn luyện ảnh hưởng không nhỏ đến kết nhận dạng Ở chế độ offline, hệ thống nhận dạng tiếng nói rời rạc chúng tơi đạt độ xác cao 99,42% 91,14% thử nghiệm nhận dạng phụ thuộc người nói độc lập người nói Ở chế độ online, hệ thống đạt độ xác 80% nhận dạng độc lập người nói điều kiện phịng tương đối n tĩnh phần cứng máy tính có tài nguyên hạn chế Từ khóa: Điều khiển giọng nói, Nhận dạng tiếng nói rời rạc, Mơ hình Markov ẩn, Đọc báo cho người khiếm thị Giới thiệu Nhận dạng tiếng nói đời góp phần thay đổi cách người dùng điều khiển máy tính thiết bị điện tử khác Không cần phải thao tác hình hay bàn phím thơng thường, hệ thống nhận dạng tiếng nói giúp chuyển đổi tín hiệu tiếng nói từ người dùng thành câu lệnh tương ứng Dựa vào khả này, việc áp dụng nhận dạng tiếng nói cho người khiếm thị điều khiển máy tính hoàn toàn phù hợp Hiện nay, giới ngày phẳng dần, người có nhu cầu tiếp cận nguồn thông tin vô tận Internet, kể người khiếm thị Ý tưởng tạo ứng dụng đọc báo điện tử hình thành từ Việc tương tác với ứng dụng giọng nói cần thiết người khiếm thị khơng có khả dùng hình Do đó, cần tạo hệ thống điều khiển giọng nói mà thay thao tác giao diện Trong hướng tiếp cận cho việc huấn luyện nhận dạng tiếng nói, hướng tiếp cận học máy dùng mơ hình Markov ẩn vượt trội Được nghiên cứu phát triển từ năm 50 60, mơ hình Markov ẩn trở nên phổ biến năm gần dồi cấu trúc toán học áp dụng tốt ứng dụng thực tiễn [1][2] Vì chúng tơi chọn hướng tiếp cận để thực công việc nhận dạng tiếng nói phục vụ cho mục tiêu Tuy nhiên, q trình áp dụng, cơng đoạn chuẩn bị liệu huấn luyện cấu hình tham số cho mơ hình cần nghiên cứu thực kỹ lưỡng Dữ liệu cần đủ nhiều tham số cần lựa chọn cho thích hợp để đem lại kết khả quan Lê Vũ Cộng Hịa, Hồng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy 213 Đề tài đọc báo điện tử nhận dạng tiếng nói tiếng Việt khơng Gần có ứng dụng đọc báo điện tử tiếng Việt đáp ứng việc đọc nội dung trang báo thành tiếng tên VNR4B [3], ứng dụng hạn chế chỗ chưa có cơng cụ nhận lệnh giọng nói Điều gây khó khăn cho người khiếm thị sử dụng Vì thế, cần thiết phải kết hợp tính đọc văn thành tiếng với tính điều khiển tiếng nói, đặc biệt tiếng Việt, để tạo ứng dụng đọc báo phục vụ cho người khiếm thị Việt Nam, người Việt khác muốn dùng ứng dụng mà thông qua việc nghe nói Trong nghiên cứu này, chúng tơi trọng đến việc tìm hiểu điều khiển giọng nói cho ứng dụng đọc báo điện tử Từ vấn đề trên, chúng tơi tiến hành tìm hiểu mơ hình Markov ẩn, cụ thể ứng dụng nhận dạng tiếng nói rời rạc, từ áp dụng vào đề tài nhóm Đóng góp đề tài là: thiết kế tập lệnh hướng tới dễ sử dụng cho người khiếm thị; thu âm tập lệnh thiết kế để chuẩn bị liệu cho việc huấn luyện nhận dạng; ứng dụng hệ thống nhận dạng tiếng nói rời rạc dùng mơ hình Markov ẩn để thực nghiệm liệu thu âm đánh giá kết Nghiên cứu tổ chức thành phần sau: Phần phần giới thiệu ngắn gọn mơ hình Markov ẩn ứng dụng nhận dạng tiếng nói rời rạc Chúng mô tả thiết kế tập lệnh Phần Phần trình bày thực nghiệm kết Phần đưa kết luận hướng phát triển Mơ hình Markov ẩn 2.1 Giới thiệu Mơ hình Markov ẩn (Hidden Markov Model - HMM) phương pháp thống kê phổ biến dùng để mơ hình hóa chuỗi vector đặc trưng tiếng nói Một mơ hình Markov ẩn biểu diễn cho đơn vị âm (như từ hay âm vị) Trong nhận dạng tiếng nói, HMM giải việc phân lớp tín hiệu tiếng nói cách hiệu Mơ hình Markov ẩn gồm chuỗi trạng thái (state), nối với dây cung hay gọi xác suất chuyển đổi trạng thái Mỗi trạng thái sinh quan sát (observation) theo xác suất định (Hình 1) Ta gọi mơ hình Markov ẩn trạng thái bị ẩn đi, chuỗi quan sát không cho biết cụ thể quan sát sinh từ trạng thái Các tham số mơ hình HMM mơ tả đầy đủ [1] Trong phần thực nghiệm khảo sát chủ yếu tham số sau: Hình Mơ hình Markov ẩn sinh chuỗi quan sát [4] KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 214 - nState: Số trạng thái mơ hình HMM - nMix: Số hỗn hợp (mixture) phân bố Gauss, phân bố xác suất sinh quan sát trạng thái 2.2 Ba tốn Từ mơ hình biểu diễn trên, có ba tốn đặt để ứng dụng vào hệ thống sử dụng mơ hình Markov ẩn Ba tốn cách giải trình bày cụ thể [1] Bài toán đánh giá Cho chuỗi quan sát O = o1 o2 …oT Và mơ hình HMM λ Tính xác suất mơ hình sinh chuỗi quan sát P(O/λ) Bài toán dùng giai đoạn nhận dạng cách chọn mơ hình tiếng nói sinh chuỗi quan sát tốt Bài toán nghiên cứu giải thuật toán tiến-lui (Forward-Backward Procedure) Bài toán giải mã Cho mơ hình HMM λ chuỗi quan sát O = o1 o2 …oT Tìm chuỗi trạng thái Q = q1 q2 … qT tối ưu Đây cịn gọi tốn tìm phần ẩn, dùng để tìm hiểu cấu trúc mơ hình Thuật tốn Viterbi áp dụng để giải toán Bài toán huấn luyện Điều chỉnh tham số mơ hình HMM λ để mơ tả tốt cách mà chuỗi quan sát tạo cách tối đa hóa xác suất P(O/λ) Áp dụng thuật tốn Baum-Welch để giải toán vào việc huấn luyện mơ hình từ liệu chuỗi quan sát 2.3 Ứng dụng nhận dạng tiếng nói rời rạc Giả sử ta có từ vựng gồm V từ cần nhận dạng, từ mơ hình HMM Việc huấn luyện mơ hình HMM cho từ cần có liệu huấn luyện gồm K liệu, mà liệu đưa vào chuỗi vector đặc trưng tiếng nói hay cịn gọi chuỗi quan sát mơ hình HMM Hình Sơ đồ khối hệ nhận dạng tiếng nói rời rạc [1] Lê Vũ Cộng Hịa, Hồng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy 215 Hình Giai đoạn huấn luyện mơ hình [1] Với từ từ điển, ta cần xây dựng mơ hình HMM λ cách tính tốn tham số mơ hình cho biểu diễn tốt k chuỗi quan sát liệu huấn luyện Bài tốn giải mã áp dụng để tìm chuỗi trạng thái tối ưu, sau thực toán huấn luyện để điều chỉnh tham số (Hình 3) Với từ cần nhận dạng, cần giải toán đánh giá để chọn mơ hình mơ tả từ đưa vào (Hình 2) Thiết kế tập lệnh Tập lệnh thiết kế phục vụ điều khiển ứng dụng đọc báo điện tử, hướng tới dễ sử dụng cho người khiếm thị, nghĩa giúp người khơng có khả nhìn truy cập tồn nội dung trang web Thêm vào đó, hệ thống chúng tơi sử dụng hệ thống nhận dạng tiếng nói rời rạc, nên lệnh gồm từ Do cần thiết kế cho với từ mơ tả câu lệnh thực điều gì, đảm bảo dễ đọc cho người dùng Dựa vào mục đích điều khiển mà lệnh phân nhóm sau 3.1 Nhóm điều hướng (Navigation) Đây nhóm lệnh giúp hệ thống trỏ đến trạng thái trang web nhằm điều hướng truy cập Mỗi trang web thường cấu thành từ danh sách mục, mục chứa mục (nếu có) danh sách bài, nơi chứa nội dung Hình Hình minh họa trang web KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 216 Có cấp điều hướng: trang (page), mục (category) (post) Cấp điều hướng trang: Những lệnh điều hướng có thực tải đường dẫn trang web nhóm vào cấp Một ví dụ dễ thấy lệnh thuộc trình duyệt “Về” để lui lại trang trước, “Chủ” lệnh trở trang chủ Ngồi cịn có lệnh “Vào” giúp tải đường dẫn đến mục đến, tương tự việc click chuột vào mục hay trang web Cấp điều hướng mục: Việc điều hướng mục không làm thay đổi trang tại, thực trỏ đến phần tử danh sách mục, giống việc di chuyển chuột đến mục trang Chỉ trỏ đến mục mong muốn, thực mở mục lệnh cấp điều hướng trang Các lệnh “Đầu”, “Cuối”, “Kế”, “Trước” dùng để thao tác đến mục đầu tiên, mục cuối cùng, mục kế sau, mục kế trước Mỗi lệnh thực hiện, hệ thống đọc tên mục đến để người dùng biết mục lựa chọn “Vào” không Cấp điều hướng bài: Giống cấp điều hướng mục, trỏ đến danh sách Vì có giống “Đầu”, “Cuối”, “Kế”, “Trước” nên cần lệnh hướng trỏ đến danh sách cần chỉ, “Mục” “Bài” giúp báo ứng dụng chuẩn bị nhận lệnh mục hay 3.2 Nhóm điều khiển (Control) Nhóm điều khiển thực chức giống trình phát nhạc, dùng để kiểm sốt âm phát từ ứng dụng Ví dụ: lệnh “Dừng”/“Tiếp” hay “To”/”Nhỏ” có chức nút Play/Pause điều chỉnh âm lượng 3.3 Nhóm tương tác (Interaction) Nhận lệnh “Có”/”Khơng” “Đúng”/”Sai” từ người dùng để định thực lệnh kế trước 3.4 Nhóm lựa chọn (Selection) Đánh số mục để tiện cho việc lựa chọn nhận lệnh lệnh “Một” đến “Chín” Thực nghiệm kết 4.1 Chuẩn bị liệu Điều kiện thu âm: Tần số lấy mẫu liệu thiết lập mức 16kHz, tín hiệu định dạng WAV (Microsoft) 16-bit PCM Người nói thu điều kiện phịng tương đối yên tĩnh (có nhiễu nhẹ từ tạp âm tiếng quạt, tiếng chim hót,…), thu âm sử dụng thiết bị micro Phụ thuộc người nói: Bộ liệu gồm 20 set thu âm người nói nữ, set gồm 46 lệnh phần Độc lập người nói: Thu âm liệu 42 người nói thuộc vùng khác (đa số giọng miền Trung), người thu âm set với set gồm 46 câu lệnh mô tả phần Từ liệu, chúng tơi phân nhóm liệu huấn luyện kiểm thử sau: Lê Vũ Cộng Hịa, Hồng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy Dữ liệu huấn luyện: Dữ liệu kiểm thử: 4.2 217 2.756 câu thu âm từ 31 người nói giọng Quảng Nam Đà Nẵng (trong có nữ) 1.012 câu thu âm từ 11 người nói giọng địa phương khác (4 nữ) Huấn luyện mơ hình Việc lựa chọn tham số phù hợp với hệ thống sử dụng để thiết lập cho thực nghiệm cụ thể sau: Loại mơ hình: đơn giản, khơng chia sẻ tham số Loại ma trận phương sai: ma trận đường chéo Số luồng: Ngữ cảnh: không phụ thuộc ngữ cảnh Loại tham số phổ: MFCC Kích thước vector tham số: 39 chiều Các tham số thay đổi: Số trạng thái HMM (nStates): từ đến Số hỗn hợp phân bố Gauss (nMixes): từ đến Với mơ hình HMM liên tục, có nghiên cứu cho việc dùng ma trận phương sai đường chéo thuận tiện thích hợp việc dùng tồn ma trận phương sai Lý việc tính tốn thành phần nằm đường chéo mà dựa kích thước liệu nhỏ khơng đáng tin cậy [1][2] Ngữ cảnh thiết lập mono (không phụ thuộc ngữ cảnh) sử dụng hệ thống nhận dạng từ rời rạc nên tính chất âm học từ không phụ thuộc vào từ lân cận Kích thước vector đặc trưng 39 chọn sau: phương pháp trích xuất vector đặc trưng Mel Frequency Cepstral Coefficients (MFCCs), vector tĩnh tham số hóa có 12 chiều, có chứa thành phần lượng (energy component), có hệ số delta (đạo hàm cấp một), hệ số acceleration (đạo hàm cấp hai) Số 39 tính từ chiều dài vector tĩnh 13 (12 chiều thêm thành phần lượng), cộng hệ số delta (+13), cộng hệ số acceleration (+13) [2] 4.3 Kết thực nghiệm Bảng trình bày kết nhận dạng phụ thuộc độc lập người nói chế độ offline, việc huấn luyện nhận dạng thực tệp lưu tín hiệu tiếng nói định dạng WAV Microsoft dùng máy tính laptop thư viện HTK [4] Bảng Thống kê kết nhận dạng phụ thuộc người nói nStates nMixes 5 99,13% 99,28% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,13% 99,42% 99,13% 99,13% 99,13% 99,13% 99,28% 99,13% 99,13% 99,13% 99,13% 218 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Bảng Thống kê kết nhận dạng độc lập người nói nStates nMixes 5 88,04% 90,09% 90,61% 91,14% 90,78% 88,11% 90,18% - 89,49% - 90,74% - 90,65% - Hệ thống nhận dạng phụ thuộc người nói đạt kết cao, 99%, tất cấu hình số trạng thái HMM số hỗn hợp phân bố Gauss, đạt độ xác cao số trạng thái số hỗn hợp với 99,42% Trong đó, hệ thống độc lập người nói đạt kết cao 91,14% số trạng thái số hỗn hợp Một số ô kết nhận dạng độc lập người nói khơng có liệu huấn luyện khơng đủ để huấn luyện mơ hình phức tạp (mơ hình có số lượng tham số lớn) Chúng tơi tiến hành thử nghiệm nhận dạng tiếng nói online máy tính nhúng có tài ngun hạn chế Raspberry Pi [5] kết hợp với card âm có giá thành rẻ Ở chế độ online, việc nhận dạng thực trực tiếp tín hiệu tiếng nói thu từ micro chuyển đến card âm Chúng tơi dùng tồn liệu tiếng nói 42 người mô tả Phần 4.1 cho việc huấn luyện mơ hình, dùng giọng nói thành viên nhóm nghiên cứu để kiểm thử Do HTK không hỗ trợ chế độ online, dùng thư viện pocketsphinx [6] để thử nghiệm Hệ thống đạt độ xác 80% nhận dạng độc lập người nói điều kiện phịng tương đối n tĩnh Kết luận Nghiên cứu trình bày khái quát mơ hình Markov ẩn thiết kế tập lệnh giúp người khiếm thị điều khiển ứng dụng đọc báo điện tử giọng nói Chúng tơi thu âm liệu nhiều người nói, sau tiến hành thực nghiệm huấn luyện mơ hình nhận dạng tiếng nói liệu nhằm đánh giá phụ thuộc hệ thống vào tham số khác mơ hình Kết khả quan thử nghiệm nhận dạng khơng phụ thuộc người nói hệ thống máy tính có tài ngun hạn chế cho phép phát triển thiết bị cho phép người dùng lệnh điều khiển giọng nói theo thời gian thực tương lai Tài liệu tham khảo Lawrence R Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of the IEEE, Vol 77, No 2, 1989 Mark Gales, Steve Young, The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing, Vol 1, No 3, 2008 https://play.google.com/store/apps/details?id=com.vnspeak.newsreader4blind&hl=vi Last accessed: 30/11/2017 Steve Young et al., The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2009 https://www.raspberrypi.org/products/raspberry-pi-3-model-b/ Last accessed: 30/11/2017 https://sourceforge.net/projects/cmusphinx/ Last accessed: 30/11/2017 ... tạo ứng dụng đọc báo phục vụ cho người khiếm thị Việt Nam, người Việt khác muốn dùng ứng dụng mà thơng qua việc nghe nói Trong nghiên cứu này, trọng đến việc tìm hiểu điều khiển giọng nói cho ứng. .. lập người nói điều kiện phòng tương đối yên tĩnh Kết luận Nghiên cứu trình bày khái qt mơ hình Markov ẩn thiết kế tập lệnh giúp người khiếm thị điều khiển ứng dụng đọc báo điện tử giọng nói Chúng... phục vụ điều khiển ứng dụng đọc báo điện tử, hướng tới dễ sử dụng cho người khiếm thị, nghĩa giúp người khơng có khả nhìn truy cập toàn nội dung trang web Thêm vào đó, hệ thống chúng tơi sử dụng

Ngày đăng: 17/12/2021, 09:04