1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng HTK toolkit xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn

26 279 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 2,56 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -  - LÊ NGỌC HUY ỨNG DỤNG HTK TOOLKIT XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI RỜI RẠC VỚI BỘ TỪ VỰNG HỮU HẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101 TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS Ninh Khánh Duy Phản biện 1: PGS.TS Võ Trung Hùng Phản biện 2: TS Lê Xuân Việt Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa học máy tính họp Trường Đại học Phạm Văn Đồng vào ngày 17 tháng năm 18 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa - Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Ngày nay, cách mạng khoa học công nghệ bước sang giai đoạn 4.0, ngành khoa học máy tính đạt thành tựu bật nhiều hướng nghiên cứu khác nhau, tương tác người máy tính trở nên dễ dàng qua thiết bị đầu vào chuột, bàn phím, camera, microphone Có nhiều cách để người giao tiếp với máy tính, có giao tiếp tiếng nói Nhu cầu giao tiếp với máy tính tiếng nói trở nên cần thiết, phương thức giao tiếp tự nhiên nhất, đại Ở nước ta, nhận dạng tiếng nói lĩnh vực mẻ đầu phát triển Do tùy thuộc vào điều kiện nghiên cứu phức tạp ngữ âm tiếng Việt nên nghiên cứu hệ thống nhận dạng giọng nói tiếng Việt nhiều hạn chế Đến nay, nghiên cứu nhận dạng tiếng Việt đạt số kết định mang tính ứng dụng cao như: Ứng dụng iSago thực giao tiếp giọng nói tiếng Việt điện thoại iPhone (phiên 1.0) VIS (Viet Voice Systems) - tổng đài hỏi đáp thông tin tự động tiếng Việt, sử dụng cơng nghệ nhận dạng tổng hợp giọng nói tiếng Việt với độ xác cao tốc độ xử lý nhanh Phòng thí nghiệm Trí tuệ Nhân tạo (AILab) Trường Đại học Khoa học Tự nhiên nghiên cứu, phát triển từ năm 2008 Mảng điều khiển máy tính giọng nói nhiều hạn chế Việt Nam Có thể nói, ViaVoice phần mềm điều khiển máy tính tiếng nói xuất Việt Nam vào năm 1999-2000 sử dụng tiếng Anh Với Vspeech: phần mềm điều khiển máy tính giọng nói nhóm sinh viên BK02, Đại học Bách Khoa thành phố Hồ Chí Minh nghiên cứu vào năm 2004 Phần mềm sử dụng thư viện Microsoft Speech SDK để nhận dạng tiếng Anh chuyển thành tiếng Việt Hiện nay, hướng phát triển ứng dụng điều khiển máy tính giọng nói tiếng Việt tiềm xu số ứng dụng Việt Nam, đem đến nhiều tiện ích sống Vì vậy, tơi chọn đề tài: “Ứng dụng HTK Toolkit xây dựng hệ thống nhận dạng tiếng nói rời rạc với từ vựng hữu hạn” nhằm bước đầu tìm hiểu cơng nghệ nhận dạng tiếng nói Mục đích ý nghĩa đề tài 2.1 Mục đích - Nghiên cứu đề xuất phương pháp nhận dạng tiếng Việt rời rạc (isolated speech recognition) - Xây dựng cài đặt hệ thống nhận dạng tiếng nói tiếng Việt với từ vựng gồm 10 từ biểu diễn 10 số (“khơng”, “một”, …, “chín”) Hệ thống có khả nhận dạng khơng phụ thuộc người nói 2.2 Ý nghĩa khoa học thực tiễn đề tài - Góp phần nhỏ số phương pháp xử lý tiếng nói cho tiếng Việt - Có thể mở rộng từ vựng rời rạc để xây dựng ứng dụng giao tiếp với máy tính tiếng Việt như: nhập điểm học sinh, bán hàng, điều khiển webbrowser dành cho người khuyết tật, thiết bị điều khiển thông minh… Mục tiêu nhiệm vụ 3.1 Mục tiêu - Nghiên cứu, thử nghiệm hướng nhận dạng tiếng Việt rời rạc HTK Toolkit (Hidden MarKov Model Toolkit - công cụ phát triển để xây dựng mô hình Markov ẩn – Hidden Markov Models (HMM)) - Xây dựng chương trình nhận dạng tiếng nói tiếng Việt cho 10 số từ “khơng” đến “chín”, có khả nhận dạng khơng phụ thuộc người nói 3.2 Nhiệm vụ - Nghiên cứu lý thuyết ứng dụng HMM nhận dạng tiếng nói rời rạc - Tìm hiểu cơng cụ HTK Toolkit cho nhận dạng tiếng nói - Thu âm liệu tiếng nói nhiều người với chất giọng khác (từ 30 người trở lên) - Cài đặt chương trình huấn luyện HMM từ liệu thu âm HTK Toolkit - Cài đặt chương trình nhận dạng tiếng nói dùng HTK Toolkit - Đánh giá độ xác chương trình nhận dạng Đối tượng phạm vi nghiên cứu - Bộ cơng cụ HTK Toolkit, mơ hình HMM ứng dụng nhận dạng tiếng nói - Dữ liệu tiếng nói tiếng Việt rời rạc từ “khơng” đến “chín” nhiều người nói - Phương pháp nhận dạng tiếng nói rời rạc (isolated speech recognition) Phương pháp nghiên cứu 5.1 Phương pháp lý thuyết - Nghiên cứu lý thuyết ứng dụng HMM nhận dạng tiếng nói rời rạc - Tìm hiểu phương pháp nhận dạng tiếng Việt HMM - Nghiên cứu công cụ HTK Toolkit nhận dạng tiếng Việt - Tìm hiểu phương pháp xử lý tiếng nói - So sánh phương pháp để đưa giải pháp tối ưu 5.2 Phương pháp thực nghiệm - Thu mẫu âm tiếng Việt rời rạc từ “khơng” đến “chín” - Tìm hiểu công cụ hỗ trợ nghiên cứu, thực nghiệm - Cài đặt thuật toán, xây dựng hệ thống - Triển khai, đánh giá kết đạt Kết luận 6.1 Kết đề tài - Dữ liệu thu âm tiếng nói 30 người với chất giọng khác - Đưa mơ hình nhận dạng tiếng Việt rời rạc - Xây dựng, cài đặt hệ thống nhận dạng tiếng Việt rời rạc cho mười chữ số 6.2 Hướng phát triển đề tài - Xây dựng, mở rộng sở liệu huấn luyện tiếng Việt rời rạc - Tối ưu hoá phương pháp nhận dạng tiếng Việt để có kết nhận dạng xác nhanh Cấu trúc luận văn Chương Cơ sở lý thuyết xử lý tiếng nói Chương Mơ hình Markov ẩn ứng dụng nhận dạng tiếng nói Chương cơng cụ HTK Toolkit Chương Cài đặt đánh giá hệ thống nhận dạng Chương Kết luận hướng phát triển Chương I CƠ SỞ LÝ THUYẾT CỦA XỬ LÝ TIẾNG NĨI 1.1 Tổng quan xử lý tiếng nói 1.1.1 Các lĩnh vực xử lý tín hiệu tiếng nói Trong xử lý tiếng nói chia thành lĩnh vực sau: - Phân tích/tổng hợp tiếng nói (analysis/synthesis): Tạo tiếng nói từ liệu đầu vào dạngtự - Mã hóa (coding): Mã hóa tín hiệu tiếng nói, thường áp dụng cho lưu trữ liệu truyền tín hiệu tiếng nói - Nhận dạng (recognition): Nhận dạng tiếng nói, nhận dạng người nói, nhận dạng ngơn ngữ Trong nhận dạng tiếng nói, chia làm hai lĩnh vực nghiên cứu, ứng dụng nhỏ, là: Định danh người nói, xác minh người nói Trong lĩnh vực định danh người nói xác minh người nói có điểm tương đồng nhận dạng độc lập văn không phụ thuộc văn 1.1.2 Phân loại kỹ thuật nhận dạng tiếng nói Nhận dạng tiếng nói chia làm loại sau: 1.1.2.1 Nhận dạng từ phát âm liên tục nhận dạng từ phát âm rời rạc - Nhận dạng từ phát âm liên tục: Hệ thống thực nhận dạng chuỗi tín hiệu tiếng nói liên tục phát âm câu, đoạn văn - Nhận dạng từ phát âm rời rạc: Hệ thống thực nhận dạng tín hiệu tiếng nói rời rạc (số điện thoại, mệnh lệnh điều khiển) 1.1.2.2 Nhận dạng phụ thuộc người nói độc lập người nói - Nhận dạng phụ thuộc người nói: Hệ thống nhận dạng giọng nói người giọng nói họ đưa vào tập liệu huấn luyện (training) - Nhận dạng độc lập người nói: Hệ thống có khả nhận dạng giọng nói người nào, khơng phụ thuộc giọng nói người có liệu huấn luyện hay không Trong đề tài này, tập trung nghiên cứu hệ thống có khả nhận dạng tiếng nói rời rạc khơng phụ thuộc người nói 1.2 Tín hiệu tiếng nói 1.2.1 Đặc điểm Hình 1.3 Tín hiệu tiếng nói tiếng Việt phát âm rời rạc từ “khơng” đến “chín” Tiếng nói phương thức giao tiếp người phát dạng sóng âm Tai người cảm thụ dao động hay gọi sóng âm miền tần số từ khoảng 16Hz đến khoảng 20000Hz Giọng nam phát âm thường miên tần số từ 75Hz đến 150Hz, giọng nữ từ 200 Hz đến 300Hz Mỗi người có đặc tính phát âm riêng biệt Một số định dạng lưu trữ: wav, mp3, au, aif, smp… tần số lấy mẫu thường 8000, 11025,…96000Hz… với độ phân giải 16/bít/mẫu… 1.2.2 Tiếng nói tiếng Việt Tiếng Việt ngôn ngữ đơn âm tiết (monosyllable), nghĩa âm tiết thể từ đơn vị phát âm Theo nghiên cứu [2], đặc điểm âm tiết tiếng Việt có tính độc lập cao (khác với tiếng Anh); có khả biểu ý nghĩa có cấu trúc chặt chẽ - hình 1.6 Mơ hình cấu trúc tổng qt tất âm tiết tiếng Việt: THANH ĐIỆU ÂM ĐẦU VẦN Âm đệm Âm Âm cuối Hình 1.6 Cấu trúc âm tiếng Việt [2] 1.2.3 Các đặc tính tín hiệu tiếng nói 1.2.3.1 Phổ tín hiệu Biểu diễn tín hiệu miền tần số Các đỉnh phổ tín hiệu tần số trung tâm tín hiệu (còn gọi tần số formant) Phổ tín hiệu sau nhân với hàm cửa sổ Hamming sử dụng phép biến đổi Fourier nhanh ta thu biên độ phổ chứa thơng tin có ích tín hiệu tiếng nói 1.2.3.2 Ảnh phổ Là cơng cụ nhận dạng tiếng nói Nhìn vào ảnh phổ, ta dễ dàng phân biệt vùng biên âm tiết – hình 1.8 Nó chuyển đổi sóng tín hiệu tiếng nói từ chiều (tần số, cường độ) thành chiều (tần số, cường độ, thời gian) Hình 1.8 Các trục, độ đậm nhạt vùng biên ảnh phổ tín hiệu phát âm “ba” 1.2.3.3 Tần số formant Đóng vai trò quan trọng phân tích phổ tín hiệu tiếng nói Nó tạo nên cộng hưởng tuyến âm hiển thị quang phổ dải màu đậm nằm ngang biểu thị cho tần số formant – hình 1.9 Hình 1.9 Tín hiệu tiếng nói ảnh phổ phát âm “tám” với formant nguyên âm “a” 1.2.3.4 Tần số Tần số (F0) mang tính chất điệu, biểu diễn cao độ, ngữ điệu tiếng nói, sử dụng lĩnh vực tổng hợp tiếng nói 1.2.3.5 Âm vơ Tín hiệu có đặc điểm khơng tuần hồn (p, h, k, ch, th…), lượng tập trung tần số cao Các tần số phân bố đồng miền tần số cao tần số thấp 1.2.3.6 Âm hữu Tín hiệu tuần hồn, lượng phân bổ khơng đồng đều, tín hiệu có vạch cực trị, đặc điểm phổ tín hiệu có tần số (F0) 1.3 Phân tích phổ ngắn hạn tín hiệu tiếng nói – đặc trưng MFCC Để phân tích tín hiệu tiếng nói, người thường dùng phương pháp rút trích đặc trưng tín hiệu Hiện phương pháp phổ biến MFCC (Mel-Frequency Cepstral Coefficients) - kỹ thuật tính tốn dựa phân tích phổ ngắn hạn tín hiệu Theo nghiên cứu [4] MFCC thơng dụng cho kết xác phương pháp khác Tổng quan quy trình phân tích phổ ngắn hạn tín hiệu tiếng nói phương pháp rút trích đặc trưng MFCC - hình 1.11 Hình 1.11 Quy trình phân tích phổ ngắn hạn tín hiệu tiếng nói MFCC 1.3.1 Tiền nhấn mạnh Giai đoạn tín hiệu khuếch đại lượng tần số cao tín hiệu đầu vào phổ tiếng hữu có khuynh hướng suy giảm cường độ (dB) Trong xử lý tín hiệu số, người ta thường dùng lọc thơng cao có tần số cắt 3dB dải tần số từ 100Hz đến 1kHz, với phương trình sai phân là: 𝑦(𝑛) = 𝑥(𝑛) − 𝑎 ∗ 𝑥(𝑛 − 1) (1.1) Trong đó: y(n) mẫu tín hiệu sau tiền nhấn; x(n) mẫu tín hiệu vào; x(n-1) mẫu vào trước x(n); a số chọn khoảng từ 0.9 đến 1.0 thường sử dụng 0.97 Điều làm cho tín hiệu hữu ích rõ ràng hơn, dễ nhận biết trình nhận dạng theo mơ hình HMM (Hidden Markov Model) trình bày chương sau 1.3.2 Phân khung tín hiệu Tín hiệu phân thành khung (frame) có chiều dài khoảng 30ms (gần độ dài âm tiết), xếp chồng lên (overlap) khoảng từ 50 - 70% nhằm tránh thông tin Cụ thể, bước này, tín hiệu lời nói liên tục bị chặn vào khung mẫu N, với khung liền kề cách M (M

Ngày đăng: 11/08/2018, 07:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN