Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
2,56 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - - LÊ NGỌC HUY ỨNGDỤNGHTKTOOLKITXÂYDỰNGHỆTHỐNGNHẬNDẠNGTIẾNGNÓIRỜIRẠCVỚIBỘTỪVỰNGHỮUHẠN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101 TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS Ninh Khánh Duy Phản biện 1: PGS.TS Võ Trung Hùng Phản biện 2: TS Lê Xuân Việt Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa học máy tính họp Trường Đại học Phạm Văn Đồng vào ngày 17 tháng năm 18 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa - Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Ngày nay, cách mạng khoa học công nghệ bước sang giai đoạn 4.0, ngành khoa học máy tính đạt thành tựu bật nhiều hướng nghiên cứu khác nhau, tương tác người máy tính trở nên dễ dàng qua thiết bị đầu vào chuột, bàn phím, camera, microphone Có nhiều cách để người giao tiếp với máy tính, có giao tiếp tiếngnói Nhu cầu giao tiếp với máy tính tiếngnói trở nên cần thiết, phương thức giao tiếp tự nhiên nhất, đại Ở nước ta, nhậndạngtiếngnói lĩnh vực mẻ đầu tư phát triển Do tùy thuộc vào điều kiện nghiên cứu phức tạp ngữ âm tiếng Việt nên nghiên cứu hệthốngnhậndạng giọng nóitiếng Việt nhiều hạn chế Đến nay, nghiên cứu nhậndạngtiếng Việt đạt số kết định mang tính ứngdụng cao như: Ứngdụng iSago thực giao tiếp giọng nóitiếng Việt điện thoại iPhone (phiên 1.0) VIS (Viet Voice Systems) - tổng đài hỏi đáp thông tin tự động tiếng Việt, sử dụng cơng nghệ nhậndạng tổng hợp giọng nóitiếng Việt với độ xác cao tốc độ xử lý nhanh Phòng thí nghiệm Trí tuệ Nhân tạo (AILab) Trường Đại học Khoa học Tự nhiên nghiên cứu, phát triển từ năm 2008 Mảng điều khiển máy tính giọng nói nhiều hạn chế Việt Nam Có thể nói, ViaVoice phần mềm điều khiển máy tính tiếngnói xuất Việt Nam vào năm 1999-2000 sử dụngtiếng Anh Với Vspeech: phần mềm điều khiển máy tính giọng nói nhóm sinh viên BK02, Đại học Bách Khoa thành phố Hồ Chí Minh nghiên cứu vào năm 2004 Phần mềm sử dụng thư viện Microsoft Speech SDK để nhậndạngtiếng Anh chuyển thành tiếng Việt Hiện nay, hướng phát triển ứngdụng điều khiển máy tính giọng nóitiếng Việt tiềm xu số ứngdụng Việt Nam, đem đến nhiều tiện ích sống Vì vậy, tơi chọn đề tài: “Ứng dụngHTKToolkitxâydựnghệthốngnhậndạngtiếngnóirờirạcvớitừvựnghữu hạn” nhằm bước đầu tìm hiểu cơng nghệ nhậndạngtiếngnói Mục đích ý nghĩa đề tài 2.1 Mục đích - Nghiên cứu đề xuất phương pháp nhậndạngtiếng Việt rờirạc (isolated speech recognition) - Xâydựng cài đặt hệthốngnhậndạngtiếngnóitiếng Việt vớitừvựng gồm 10 từ biểu diễn 10 số (“khơng”, “một”, …, “chín”) Hệthống có khả nhậndạng khơng phụ thuộc người nói 2.2 Ý nghĩa khoa học thực tiễn đề tài - Góp phần nhỏ số phương pháp xử lý tiếngnói cho tiếng Việt - Có thể mở rộng từvựngrờirạc để xâydựngứngdụng giao tiếp với máy tính tiếng Việt như: nhập điểm học sinh, bán hàng, điều khiển webbrowser dành cho người khuyết tật, thiết bị điều khiển thông minh… Mục tiêu nhiệm vụ 3.1 Mục tiêu - Nghiên cứu, thử nghiệm hướng nhậndạngtiếng Việt rờirạcHTKToolkit (Hidden MarKov Model Toolkit - công cụ phát triển để xâydựng mô hình Markov ẩn – Hidden Markov Models (HMM)) - Xâydựng chương trình nhậndạngtiếngnóitiếng Việt cho 10 số từ “khơng” đến “chín”, có khả nhậndạng khơng phụ thuộc người nói 3.2 Nhiệm vụ - Nghiên cứu lý thuyết ứngdụng HMM nhậndạngtiếngnóirờirạc - Tìm hiểu cơng cụ HTKToolkit cho nhậndạngtiếngnói - Thu âm liệu tiếngnói nhiều người với chất giọng khác (từ 30 người trở lên) - Cài đặt chương trình huấn luyện HMM từ liệu thu âm HTKToolkit - Cài đặt chương trình nhậndạngtiếngnóidùngHTKToolkit - Đánh giá độ xác chương trình nhậndạng Đối tượng phạm vi nghiên cứu - Bộ cơng cụ HTK Toolkit, mơ hình HMM ứngdụngnhậndạngtiếngnói - Dữ liệu tiếngnóitiếng Việt rờirạctừ “khơng” đến “chín” nhiều người nói - Phương pháp nhậndạngtiếngnóirờirạc (isolated speech recognition) Phương pháp nghiên cứu 5.1 Phương pháp lý thuyết - Nghiên cứu lý thuyết ứngdụng HMM nhậndạngtiếngnóirờirạc - Tìm hiểu phương pháp nhậndạngtiếng Việt HMM - Nghiên cứu công cụ HTKToolkitnhậndạngtiếng Việt - Tìm hiểu phương pháp xử lý tiếngnói - So sánh phương pháp để đưa giải pháp tối ưu 5.2 Phương pháp thực nghiệm - Thu mẫu âm tiếng Việt rờirạctừ “khơng” đến “chín” - Tìm hiểu công cụ hỗ trợ nghiên cứu, thực nghiệm - Cài đặt thuật toán, xâydựnghệthống - Triển khai, đánh giá kết đạt Kết luận 6.1 Kết đề tài - Dữ liệu thu âm tiếngnói 30 người với chất giọng khác - Đưa mơ hình nhậndạngtiếng Việt rờirạc - Xây dựng, cài đặt hệthốngnhậndạngtiếng Việt rờirạc cho mười chữ số 6.2 Hướng phát triển đề tài - Xây dựng, mở rộng sở liệu huấn luyện tiếng Việt rờirạc - Tối ưu hoá phương pháp nhậndạngtiếng Việt để có kết nhậndạng xác nhanh Cấu trúc luận văn Chương Cơ sở lý thuyết xử lý tiếngnói Chương Mơ hình Markov ẩn ứngdụngnhậndạngtiếngnói Chương Bơ cơng cụ HTKToolkit Chương Cài đặt đánh giá hệthốngnhậndạng Chương Kết luận hướng phát triển Chương I CƠ SỞ LÝ THUYẾT CỦA XỬ LÝ TIẾNG NĨI 1.1 Tổng quan xử lý tiếngnói 1.1.1 Các lĩnh vực xử lý tín hiệu tiếngnói Trong xử lý tiếngnói chia thành lĩnh vực sau: - Phân tích/tổng hợp tiếngnói (analysis/synthesis): Tạo tiếngnóitừ liệu đầu vào dạng ký tự - Mã hóa (coding): Mã hóa tín hiệu tiếng nói, thường áp dụng cho lưu trữ liệu truyền tín hiệu tiếngnói - Nhậndạng (recognition): Nhậndạngtiếng nói, nhậndạng người nói, nhậndạng ngơn ngữ Trong nhậndạngtiếng nói, chia làm hai lĩnh vực nghiên cứu, ứngdụng nhỏ, là: Định danh người nói, xác minh người nói Trong lĩnh vực định danh người nói xác minh người nói có điểm tương đồng nhậndạng độc lập văn không phụ thuộc văn 1.1.2 Phân loại kỹ thuật nhậndạngtiếngnóiNhậndạngtiếngnói chia làm loại sau: 1.1.2.1 Nhậndạngtừ phát âm liên tục nhậndạngtừ phát âm rờirạc - Nhậndạngtừ phát âm liên tục: Hệthống thực nhậndạng chuỗi tín hiệu tiếngnói liên tục phát âm câu, đoạn văn - Nhậndạngtừ phát âm rời rạc: Hệthống thực nhậndạng tín hiệu tiếngnóirờirạc (số điện thoại, mệnh lệnh điều khiển) 1.1.2.2 Nhậndạng phụ thuộc người nói độc lập người nói - Nhậndạng phụ thuộc người nói: Hệthốngnhậndạng giọng nói người giọng nói họ đưa vào tập liệu huấn luyện (training) - Nhậndạng độc lập người nói: Hệthống có khả nhậndạng giọng nói người nào, khơng phụ thuộc giọng nói người có liệu huấn luyện hay không Trong đề tài này, tập trung nghiên cứu hệthống có khả nhậndạngtiếngnóirờirạc khơng phụ thuộc người nói 1.2 Tín hiệu tiếngnói 1.2.1 Đặc điểm Hình 1.3 Tín hiệu tiếngnóitiếng Việt phát âm rờirạctừ “khơng” đến “chín” Tiếngnói phương thức giao tiếp người phát dạng sóng âm Tai người cảm thụ dao động hay gọi sóng âm miền tần số từ khoảng 16Hz đến khoảng 20000Hz Giọng nam phát âm thường miên tần số từ 75Hz đến 150Hz, giọng nữ từ 200 Hz đến 300Hz Mỗi người có đặc tính phát âm riêng biệt Một số định dạng lưu trữ: wav, mp3, au, aif, smp… tần số lấy mẫu thường 8000, 11025,…96000Hz… với độ phân giải 16/bít/mẫu… 1.2.2 Tiếngnóitiếng Việt Tiếng Việt ngôn ngữ đơn âm tiết (monosyllable), nghĩa âm tiết thể từ đơn vị phát âm Theo nghiên cứu [2], đặc điểm âm tiết tiếng Việt có tính độc lập cao (khác vớitiếng Anh); có khả biểu ý nghĩa có cấu trúc chặt chẽ - hình 1.6 Mơ hình cấu trúc tổng qt tất âm tiết tiếng Việt: THANH ĐIỆU ÂM ĐẦU VẦN Âm đệm Âm Âm cuối Hình 1.6 Cấu trúc âm tiếng Việt [2] 1.2.3 Các đặc tính tín hiệu tiếngnói 1.2.3.1 Phổ tín hiệu Biểu diễn tín hiệu miền tần số Các đỉnh phổ tín hiệu tần số trung tâm tín hiệu (còn gọi tần số formant) Phổ tín hiệu sau nhânvới hàm cửa sổ Hamming sử dụng phép biến đổi Fourier nhanh ta thu biên độ phổ chứa thơng tin có ích tín hiệu tiếngnói 1.2.3.2 Ảnh phổ Là cơng cụ nhậndạngtiếngnói Nhìn vào ảnh phổ, ta dễ dàng phân biệt vùng biên âm tiết – hình 1.8 Nó chuyển đổi sóng tín hiệu tiếngnóitừ chiều (tần số, cường độ) thành chiều (tần số, cường độ, thời gian) Hình 1.8 Các trục, độ đậm nhạt vùng biên ảnh phổ tín hiệu phát âm “ba” 1.2.3.3 Tần số formant Đóng vai trò quan trọng phân tích phổ tín hiệu tiếngnói Nó tạo nên cộng hưởng tuyến âm hiển thị quang phổ dải màu đậm nằm ngang biểu thị cho tần số formant – hình 1.9 Hình 1.9 Tín hiệu tiếngnói ảnh phổ phát âm “tám” với formant nguyên âm “a” 1.2.3.4 Tần số Tần số (F0) mang tính chất điệu, biểu diễn cao độ, ngữ điệu tiếng nói, sử dụng lĩnh vực tổng hợp tiếngnói 1.2.3.5 Âm vơ Tín hiệu có đặc điểm khơng tuần hồn (p, h, k, ch, th…), lượng tập trung tần số cao Các tần số phân bố đồng miền tần số cao tần số thấp 1.2.3.6 Âm hữu Tín hiệu tuần hồn, lượng phân bổ khơng đồng đều, tín hiệu có vạch cực trị, đặc điểm phổ tín hiệu có tần số (F0) 1.3 Phân tích phổ ngắn hạn tín hiệu tiếngnói – đặc trưng MFCC Để phân tích tín hiệu tiếng nói, người thường dùng phương pháp rút trích đặc trưng tín hiệu Hiện phương pháp phổ biến MFCC (Mel-Frequency Cepstral Coefficients) - kỹ thuật tính tốn dựa phân tích phổ ngắn hạn tín hiệu Theo nghiên cứu [4] MFCC thơngdụng cho kết xác phương pháp khác Tổng quan quy trình phân tích phổ ngắn hạn tín hiệu tiếngnói phương pháp rút trích đặc trưng MFCC - hình 1.11 Hình 1.11 Quy trình phân tích phổ ngắn hạn tín hiệu tiếngnói MFCC 1.3.1 Tiền nhấn mạnh Giai đoạn tín hiệu khuếch đại lượng tần số cao tín hiệu đầu vào phổ tiếnghữu có khuynh hướng suy giảm cường độ (dB) Trong xử lý tín hiệu số, người ta thường dùng lọc thơng cao có tần số cắt 3dB dải tần số từ 100Hz đến 1kHz, với phương trình sai phân là: 𝑦(𝑛) = 𝑥(𝑛) − 𝑎 ∗ 𝑥(𝑛 − 1) (1.1) Trong đó: y(n) mẫu tín hiệu sau tiền nhấn; x(n) mẫu tín hiệu vào; x(n-1) mẫu vào trước x(n); a số chọn khoảng từ 0.9 đến 1.0 thường sử dụng 0.97 Điều làm cho tín hiệu hữu ích rõ ràng hơn, dễ nhận biết trình nhậndạng theo mơ hình HMM (Hidden Markov Model) trình bày chương sau 1.3.2 Phân khung tín hiệu Tín hiệu phân thành khung (frame) có chiều dài khoảng 30ms (gần độ dài âm tiết), xếp chồng lên (overlap) khoảng từ 50 - 70% nhằm tránh thông tin Cụ thể, bước này, tín hiệu lời nói liên tục bị chặn vào khung mẫu N, với khung liền kề cách M (M