1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp khôi phục tiếng nói truyền trong xương

65 376 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 2,33 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ KIM DUNG NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ KIM DUNG NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS PHÙNG TRUNG NGHĨA THÁI NGUYÊN - 2016 i LỜI CẢM ƠN Lời em xin chân thành cảm ơn TS Phùng Trung Nghĩa dành nhiều tâm huyết, kinh nghiệm thầy để dẫn, định hướng nghiên cứu luôn góp ý cho em để hoàn thành luận văn Em chân thành cảm ơn toàn thể thầy cô ân cần dạy dỗ, bảo, truyền đạt cho chúng em kiến thức quý báu suốt trình học Cuối em xin gửi lời cảm ơn tới gia đình, người động viên tạo điều kiện cho em học tập nghiên cứu thật tốt Và gửi lời cảm ơn tới người bạn giúp đỡ em trình học tập hoàn thành đề tài luận văn Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2016 Học viên Nguyễn Thị Kim Dung ii LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu hoàn toàn tự làm hướng dẫn thầy giáo TS Phùng Trung Nghĩa Những kết tìm hiểu nghiên cứu trình bày luận văn hoàn toàn trung thực chưa công bố công trình Nếu xảy điều không lời cam đoan trên, xin chịu hoàn toàn trách nhiệm trước Nhà trường Thái Nguyên, ngày tháng năm 2016 Tác giả Nguyễn Thị Kim Dung iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC BẢNG iv DANH MỤC HÌNH v DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU vi LỜI NÓI ĐẦU 1 Lý chọn đề tài Đối tượng phạm vi nghiên cứu Hướng nghiên cứu luận văn Những nội dung nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học luận văn CHƯƠNG I TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG 1.1 Tổng quan tiếng nói 1.1.1 Nguồn gốc phân loại tiếng nói 1.1.2 Quá trình tạo tiếng nói 1.2 Các đặc điểm tiếng nói tiếng việt 1.2.1 Đặc tính âm học tiếng nói 1.2.2 Các đặc tính khác 10 1.2.3 Đặc điểm điệu tiếng Việt 12 1.2.4 Ngữ điệu tiếng nói Tiếng Việt 13 1.3 Tiếng nói truyền xương (BC- Bone Conducted) 16 1.4 Khôi phục tiếng nói truyền xương 18 1.4.1 Phương pháp phổ chéo 19 1.4.2 Phương pháp biến đổi Fourier 21 iv CHƯƠNG 2: MÔ HÌNH KHÔI PHỤC MÙ TIẾNG NÓI TRUYỀN TRONG XƯƠNG 23 2.1 Giới thiệu xử lý mù 23 2.2 Phương pháp khôi phục dùng mô hình dự đoán tuyến tính (LP) 24 2.2.1 Khái niệm mô hình LP 24 2.2.2 Phân tích tổng hợp LP 28 2.2.3 Phương pháp khôi phục 29 2.3 Các phương pháp khôi phục mù LP 30 2.3.1 Hệ số LSF 30 2.3.3 Mô hình Gaussian hỗn hợp (Gaussian Mixture Model – GMM) 36 2.3.4 Hệ số dự đoán 38 2.3.5 Khôi phục mù LP-GMM 39 CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG 42 3.1 Cơ sở liệu tiếng nói AC/BC tiếng Việt 42 3.1.1 Môi trường thiết bị 43 3.1.2 Danh sách từ tiếng Việt 45 3.2 Cài đặt phương pháp 46 3.3 Đánh giá kết thực nghiệm 48 3.3.1 Phương pháp đánh giá chủ quan 48 3.3.2 Phương pháp đánh giá khách quan 50 3.3.3 Kết đánh giá thực nghiệm 50 3.4 Nhận xét chung kết 51 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52 iv DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU Từ Tiếng anh Nghĩa tiếng việt viết tắt ASR Automatic speech recognition Nhận dạng tiếng nói tự động AC Air conducted speech Tiếng nói truyền không khí BC Bone conducted speech Tiếng nói truyền xương LP Linear Prediction Dự đoán tuyến tính GMM Gausian Mixture Models Mô hình hỗn hợp Gaussian F0 Fundamental Frequency Tần số dao động ZT Z Transform Phép biến đổi Z LPC Linear predictive coding Mã hóa dự đoán tuyến tính LSF Line spectral frequency Tần số đường phổ MOS Mean Opinion Scores Đánh giá theo quan điểm người nghe FFT Fast Fourier Transform Phép biến đổi Fourier nhanh RNN Recurrent nerual network Mạng nơron hồi quy SRN Simple recurrent network Mạng hồi quy đơn giản WAV Waveform Audio Dữ liệu âm không nén HMM Hidden Markor Model Mô hình Mackor ẩn Autoregressive Tự hồi quy LP coefficient distance Khoảng cách hệ số LP AR LCD iv DANH MỤC BẢNG Bảng 1.1: Giá trị tần số tương ứng với giới tính độ tuổi 11 Bảng 3.1 Thông tin sở liệu tiếng nói AC/BC 42 Bảng 3.2 Danh sách thiết bị 43 Bảng 3.3 Mô tả điểm đặt mic 44 Bảng 3.4 TEMPCO Microphone thông số kỹ thuật 44 Bảng 3.5 Mô tả mức điểm đánh giá 49 Bảng 3.6 Kết đánh giá phương pháp LCD 100 mẫu tín hiệu 50 Bảng 3.7 Kết đánh giá phương pháp MOS 51 vi DANH MỤC HÌNH Hình Sơ đồ thu âm tiếng nói truyền xương (tiếng nói BC) Mic B, C vị trí 1, 2, 3, 4, tiếng nói truyền không khí (tiếng nói AC) Mic A Hình 1.1 Mô trình truyền tiếng nói không khí Hình 1.2 Bộ máy phát âm người Hình 1.3.Mô tả dây âm Hình 1.4 Phổ tín hiệu giai đoạn Hình 1.5 Mô hình nguồn lọc tạo tiếng nói Hình 1.6 Sự thay đổi F0 với chữ “Chi” 13 Hình 1.7 Mô hình nguồn lọc tiếng nói truyền không khí tiếng nói truyền xương 17 Hình 1.8 Định nghĩa hàm: (a) sóng tín hiệu, (b) miền thời gian, và(c) đường bao công suất 19 Hình 1.9 Mối quan hệ tiếng nói truyền không khí tiếng nói truyền xương mô hình khôi phục 20 Hình 1.10 (a) Biến đổi từ tiếng nói truyền không khí tiếng nói truyền xương, (b) từ tiếng nói truyền xương tiếng nói truyền không khí 21 Hình 2.1 Mô hình tổng hợp tiếng nói phương pháp LP 25 Hình 2.2 Tỷ lệ dư lượng AC/BC, (a) tiếng nói AC, (b) tiếng nói BC, (c) tương quan dư lượng (gx(n), gy (n)), (d) tỷ lệ dư lượng Gy (z)/Gx(z) 28 Hình 2.3 Hàm chuyển đổi mô hình LP 29 Hình 2.4 Sơ đồ khối (a) Mô hình khôi phục không mù 32 vii Hình 2.5 Mô hình SRN 34 Hình 2.6 Hàm mật độ Gauss 36 Hình 2.7 Mô hình GMM 37 Hình 2.8 Hàm mật độ GMM có phân phối Gauss 38 Hình 3.1 Môi trường ghi âmtiếng nói AC/BC 43 Hình 3.2 TEMPCO micro thu âm tiếng nói truyền xương 45 Hình 3.3 Huấn luyện mô hình GMM cho tham số phổ LSF 46 Hình 3.4 Chuyển đổi mô hình GMM cho tham số phổ LSF 47 41 Và xác suất x thuộc thành phần Gauss thứ m Sử dụng công thức (2.29) để dự đoán véc tơ véc tơ (tiếng nói AC) từ (tiếng nói BC) Sau tách riêng hệ số LSF số dư trung bình Hệ số k tính công thức (2.23) lọc ngược để khôi phục tiếng nói BC công thức (2.15) Trong thí nghiệm sử dụng đường chéo hiệp phương sai GMM Nên chọn thành phần Gauss M đủ lớn có đủ liệu để huấn luyện Các kích thước khung thiết lợp đủ lớn 256ms bước 128ms Việc sử dụng khung hình lớn hỗ trợ phương pháp miền thời gian thực Trình tự phân tích LP số P chọn 20 tất thí nghiệm 42 CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG Các phương pháp khôi phục tiếng nói hướng tới mô hình độc lập ngôn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngôn ngữ cụ thể [22] Các nghiên cứu trước V.T.Thắng [7] P.T.Nghĩa [9] đánh giá so sánh hiệu phương pháp khôi phục tiếng nói truyền xương dùng phương pháp khôi phục mù LP-SRN LP-GMM với sở liệu tiếng Nhật tiếng Anh Luận văn tập trung vào việc đánh giá phương pháp khôi phục tiếng nói không mù phương pháp khôi phục mù LP-GMM tiếng nói tiếng Việt Qua xác định phương pháp phù hợp với tiếng nói tiếng Việt lớp ứng dụng cụ thể 3.1 Cơ sở liệu tiếng nói AC/BC tiếng Việt Một sở liệu AC/BC chứa cặp tín hiệu tiếng nói truyền xương tiếng nói truyền không khí ghi đồng thời cách sử dụng hệ thống DAT (2 kênh) CSDL dùng sử dụng việc kiểm tra phân tích đặc tính hữu ích cho việc khôi phục tiếng nói truyền xương mô hình khôi phục tiếng nói Đối với mục đích thứ hai này, từ danh sách lựa chọn cẩn thận để giúp thực kiểm tra đánh giá dễ dàng Bảng 3.1 cho thấy thông tin ngắn gọn sở liệu AC/BC tiến hành Bảng 3.1 Thông tin sở liệu tiếng nói AC/BC Tiếng việt Số từ Số điểm đặt Số loa Tổng 100 1-5 10(5m,5f) 10,000 43 Việc phân tích đặc tính quan trọng giúp thực kiểm tra chủ quan chất lượng tiếng nói để đánh giá phương pháp khôi phục, danh sách từ phải bao gồm thành phần ngôn ngữ Vì vậy, từ lựa chọn phải bao gồm tất âm vị Hơn nữa, khó khăn ghi danh sách từ nhiều lần điểm đặt mic, nên số lượng từ tốt Vì vậy, thực vấn đề khó khăn cho việc lựa chọn danh sách từ để ghi sở liệu AC/BC 3.1.1 Môi trường thiết bị SoundProofRoom DAT Mic.B L R Mic.power supplyA Mic.C Mic Amp.B x(t) y(t) Mic.A Hình 3.1 Môi trường ghi âmtiếng nói AC/BC Bảng 3.2 Danh sách thiết bị Vị trí đo Số điểm đặt mick Số người nói Máy ghi Phương pháp mã hóa Tần số lấy mẫu Cỡ mẫu Số kênh Mic AforACspeech Mic powersupplyA Mic BforBCspeech Mic CforBCspeech Mic amp.B&C Phòng cách âm 10 MARANZ, PMD671 PCM 48kHz 16bits 2(Left:AC,Right:BC) SONY, C536P SONY, AC148F TEMCO, HG-17 TEMCO, SK-1 Handmade 44 Hình 3.1 Bảng 3.2 cho thấy môi trường thiết bị sử dụng để xây dựng sở liệu Âm BC thu thập vị trí khác đầu mặt, tức là: (1) góc hàm dưới, (2) thái dương, (3) nhân trung, (4) trán, (5)vòm sọ Ở vị trí ghi âm đồng thời âm BC AC Microphone B sử dụng vị trí microphone C sử dụng vị trí khác Những điểm lựa chọn số nhiều điểm pick-up khác từ tín hiệu pick-up họ chất lượng rõ ràng tốt so với người khác [20] Một điểm pick-up liên kết với âm AC Bảng 3.3 Mô tả điểm đặt mic Vị trí đặt mic Tên vị trí Góc hàm Thái dương Nhân trung Trán Vòm sọ Bảng 3.4 TEMPCO Microphone thông số kỹ thuật Điện áp gia tốc Điện trở đầu < 2.4 KΩ Dải tần số 200Hz-5KHz Mức đầu Mức tiêu thụ 25dB±5dBat1KHz,(0dB=1V/0.5G) MAX0.5mA Trong dễ dàng đính kèm micro C, tem- PCO SK-1, để thu âm điểm 1-4, lại khó sử dụng thiết bị để ghi lại 45 vị trí đỉnh đầu, mái tóc người nói Vì vậy, microphone B, TEMPCO HG-17, giúp việc đo tín hiệu âm BC dễ dàng điểm Hình 3.2 cho thấy hình ảnh hai micro thu âm BC a) HG–17 b)SK1 Hình 3.2 TEMPCO micro thu âm tiếng nói truyền xương 3.1.2 Danh sách từ tiếng Việt Mười người nói (05 nam 05 nữ) tham gia vào việc thu âm 100 từ tiếng Việt Với 10 người nói, 100 từ, điểm đặt mic, có 5.000 cặp file âm mẫu dạng sóng sở liệu tiếng Việt Bởi nguồn tài nguyên lớn văn tiếng Việt thu thập từ trang web tiếng Việt Internet, tạo số tần số từ tiếng Việt Sau đó, chọn trăm chữ mà bao gồm tất dải tần số âm vị tiếng Việt Cơ sở liệu bao gồm bốn phần: • 30 từ mono-âm tiết từ thấp đến tần số trung bình thấp • 30 từ mono âm tiết từ trung bình đến cao • 20 đôi âm tiết từ thấp đến tần số trung bình thấp • 20 đôi âm tiết từ trung bình đến tần số cao Về âm vị tiếng Việt từ Việt bao gồm số dư nhiều tốt Có hạn chế số âm vị tiếng Việt / p / tồn số từ tần số thấp Luận văn lựa chọn sở liệu tiếng Việt nghiên cứu tác giả V.T Thắng [7] để thực nghiệm đánh giá cho luận văn 46 3.2 Cài đặt phương pháp Cơ sở lý thuyết phương pháp khôi phục tiếng nói truyền xương trình bày chương chương Để cài đặt phương pháp LP-GMM tác giả sử dụng thư viện STRAIGHT [21] lấy từ website tác giả Kawahara, công cụ cho phép phân tích/ tái tạo tiếng nói theo mô hình nguồn âm/ lọc Đây công cụ sử dụng nhiều nghiên cứu xử lý tiếng nói Ngoài sử dụng thư viện Voice Conversion Toolbox cho hàm thống kê GMM thực MATLAB Lưu đồ thuật toán trình huấn luyện mô hình GMM cho tham số phổ LSF cặp tiếng nói BC – tiếng nói AC trình bày hình 3.3 Tiếng nói BC Tiếng nói AC STRAIGHT Đường bao phổ Rút gọn đường bao phổ Rút gọn đường bao phổ LSF BC LSF AC Huấn luyện GMM Hình 3.3 Huấn luyện mô hình GMM cho tham số phổ LSF 47 Lưu đồ thuật toán trình chuyển đổi tham số phổ tiếng nói BC thành tham số tương ứng với tiếng nói AC cho hình 3.4 Tiếng nói BC STRAIGHT Đường bao phổ Rút gọn đường bao phổ GMM AC-BC LSF BC Chuyển đổi phổ LSF AC STRAIGHT Tiếng nói AC Hình 3.4 Chuyển đổi mô hình GMM cho tham số phổ LSF 48 3.3 Đánh giá kết thực nghiệm Trong phần luận văn đánh giá tính khả thi phương pháp khôi phục tín hiệu tiếng nói truyền xương Mục đích việc đánh giá để kiểm tra xem liệu phương pháp nghiên cứu khôi phục đầy đủ tín hiệu tiếng nói BC để đạt chất lượng âm tốt từ xác định phương pháp hữu ích để áp dụng cho hệ thống thính giác người hệ thống nhận dạng tự động ASR Ở tác giả sử dụng phương pháp đánh giá chủ quan MOS (người nghe đánh giá) phương pháp đánh giá khách quan (máy đánh giá theo công thức) LCD để đánh giá cải thiện việc khôi phục tiếng nói truyền xương sử dụng phương pháp như: Phương pháp phổ chéo (Crossing), phương pháp biến đổi Fourie (FFT) phương pháp khôi phục không mù phương pháp mù LP-GMM Mỗi phương pháp có ưu nhược điểm riêng Theo nghiên cứu V.T.Thắng [7] cho thấy tín hiệu thu điểm thể tần số đầy đủ Chính luận văn tác giả sử dụng tín hiệu tiếng nói truyền xương thu âm điểm (vòm sọ) để phục vụ cho việc đánh giá 3.3.1 Phương pháp đánh giá chủ quan Đánh giá chủ quan phương pháp sử dụng người nghe để đánh giá chất lượng tiếng nói Việc đánh giá chủ quan xem quan trọng mục tiêu cuối tiếng nói sau khôi phục phải đảm bảo người nghe hiểu chấp nhận Tuy nhiên để đánh giá chủ quan tốn kém, thời gian cần thiết bị nghe phòng nghe chuyên dụng để tránh nhiễu môi trường Ngoài phương pháp đánh giá chủ quan khó đảm bảo tin cậy người nghe tập trung, không tâm vào 49 việc đánh giá cố tình cho điểm sai Để khắc phục yếu điểm cần tăng số lượng người nghe, số lượng phép test để đảm bảo giá trị thống kê có ổn định tin cậy Trong luận văn tác giả sử dụng độ đo MOS sử dụng để đo lường chất lượng tiếng nói sau khôi phục việc đánh giá chấm điểm theo mức cảm nhận đối tượng nghe Các mức đánh giá trình bày bảng 3.5 Bảng 3.5 Mô tả mức điểm đánh giá Mức Chất lượng đánh giá tiếng nói Rất tốt Tốt Trung bình Kém Không đạt yêu cầu Cụ thể người nghe lựa chọn để đánh giá 05 sinh viên có độ tuổi từ 18 đến 25, có khả nghe bình thường Tất mẫu tín hiệu tiếng nói 100 từ tiếng Việt lấy ngẫu nhiên 30 mẫu từ liệu chọn để kiểm tra đánh giá Tác giả sử dụng loại tín hiệu âm thanh: AC tín hiệu tiếng nói truyền không khí, BC tín hiệu tiếng nói truyền xương loại tín hiệu khôi phục sử dụng phương pháp khôi phục (Phương pháp biến đổi Fourier, phương pháp phổ chéo phương pháp mù LP-GMM) Mức điểm đánh giá MOS điểm trung bình tất 30 mẫu đánh giá 50 3.3.2 Phương pháp đánh giá khách quan Nhằm khắc phục phần yếu điểm việc đánh giá chủ quan, nhiều phương pháp đánh giá khách quan xây dựng Trong luận văn tác giả sử dụng phương pháp đánh giá khách quan truyền thống theo cách so sánh trực tiếp hai tín hiệu AC BC, AC tín hiệu khôi phục sử dụng phương pháp đánh giá LCD (khoảng cách LP) Những số đo mục tiêu đánh giá tính toán theo công thức sau: Trong hệ số LP thứ i tín hiệu với thứ tự LP thiết lập P = 20 3.3.3 Kết đánh giá thực nghiệm Với 100 mẫu tín hiệu tiếng nói lựa chọn để đánh giá Sau đo khoảng cách tín hiệu tiếng nói AC với tín hiệu: tiếng nói BC tín hiệu tiếng nói khôi phục tác giả đánh giá cải thiện tín hiệu khôi phục so với tín hiệu tiếng nói BC Bảng 3.6 Bảng 3.7 cho thấy biến đổi trung bình phép đo khách quan với 100 mẫu đánh giá chủ quan 30 mẫu liệu chọn ngẫu nhiên Bảng 3.6 Kết đánh giá phương pháp LCD 100 mẫu tín hiệu Phương pháp khôi phục LCD Phổ chéo (Cross) 0.262 Fourier 0.252 LP-GMM 0.125 AC-BC 0,72 51 Bảng 3.7 Kết đánh giá phương pháp MOS Phương pháp MOS BC Phổ chéo Fourier LP-GMM AC 2.17 2.43 2.71 3.25 4.43 Nhìn vào kết đánh giá ta thấy phương pháp phổ chéo Fourier cho kết tốt so với tín hiệu tiếng nói BC ban đầu nhìn chung phương pháp khôi phục mù LP-GMM phương pháp tốt cho tất phép đo 3.4 Nhận xét chung kết So với kết nghiên cứu công bố [7,8, 9] kết thử nghiệm luận văn tương đồng Điều lần khẳng định phương pháp khôi phục mù tiếng nói truyền xương LP-GMM phương pháp tốt so với phương pháp khôi phục không mù phổ chéo hay Fourier Và với phương pháp sử dụng mô hình khôi phục mù phương pháp hiệu cần quan tâm nghiên cứu thử nghiệm tiếp Tuy nhiên phương pháp khôi phục LP-GMM hạn chế để phương pháp đạt hiệu tối đa cần phải có sở liệu lớn để huấn luyện 52 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận văn trình bày nghiên cứu lý thuyết, thực nghiệm tiếng nói truyền xương phương pháp khôi phục tiếng nói truyền xương Sau trình tìm hiểu, nghiên cứu phương pháp khôi phục tiếng nói truyền xương, luận văn đạt mục tiêu đề Cụ thể: Đã tìm hiểu trình bày tổng quan tiếng nói nói chung tiếng nói truyền tron xương nói riêng Ngoài tìm hiểu số phương pháp khôi phục tiếng truyền xương Về mặt thực nghiệm tìm hiểu phương pháp cài đặt, công cụ hỗ trợ Trong bao gồm việc chi tiết hóa bước cài đặt thực cài đặt thuật toán theo phương pháp LP-GMM nghiên cứu Thực nghiệm sở tiếng nói tiếng Việt, so sánh đánh giá phương pháp khôi phục Bằng cách khôi phục chất lượng tiếng nói BC ứng dụng tiếng nói BC sau khôi phục hiệu tiếng nói AC môi trường nhiễu Vì có nhiều ứng dụng môi trường nhiễu nặng máy trợ thính người hay hệ thống máy thính giác mà sử dụng tiếng nói truyền xương sau khôi phục Tuy nhiên luận văn tồn hạn chế sở liệu tiếng nói tiếng Việt chưa đủ lớn để phục vụ cho việc huấn luyện liệu Nên số mẫu khôi phục cho kết chưa khả thi Chính từ kết phân tích ban đầu mặt hạn chế, đề xuất số hướng phát triển đề tài như: Xây dựng CSDL thử nghiệm với CSDL lớn Thực nghiệm thêm với phương pháp khác SVM, HMM, RNN… 53 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Đoàn Thiện Thuật (1999), “Ngữ âm tiếng Việt”, NXB Đại học Quốc Gia Hà Nội [2] Đỗ Tiến Thắng (2003), “Ngữ điệu tiếng Việt sơ khảo”, NXB Đại học Quốc Gia Hà Nội [3] Đinh Đồng Lưỡng, Trịnh Văn Loan, Phạm Thị Kim Ngoan (2009), “Xây dựng sở liệu cho tổng hợp tiếng Việt chất lượng tốt”, Bài báo trình bày Hội thảo Quốc gia lần thứ 12, Một số vấn đề chọn lọc Công nghệ Thông tin Truyền thông, Biên Hòa, 5-6 tháng Tài liệu tiếng anh [4] S Kitamori, and M Takizawa (1989), “An Analysis of Bone Conducted Speech Signal by Articulation Tests”, IEICE Trans, J72-A(11), pp 17641771 [5] S Ishimitsu, H Kitakaza, Y Tshuchibushi, H Yanagawa, and M Fukushima (2004), “A noise-robust speech recognition system making use of body-conducted signals”, Acoust Sci & Tech., Vol 25, pp 166-169 [6] T Tamiya and T Shimamura (2004), “Reconstruct filter design for boneconducted speech,” Proc ICSLP 2004, II, pp 1085-1088 [7] Thang Tat Vu, K Kimura, M Unoki, and M Akagi (2006), “A Study on Restoration of Bone-conducted Speech with MTF-based and LP-based Models,” J Signal Processing, Vol 10, No 6, pp 407-417 [8] Thang Tat Vu, G Seide, M Unoki, and M Akagi (2007), “Method of LPbased blind restoration for improving intelligibility of bone-conducted speech,” Interspeech 2007, pp 966-969 [9] Trung-Nghia Phung, M Unoki, and M Akagi (2012), “A Study on Restoration of Bone-Conducted Speech in Noisy Environments with LP- 54 based Model and Gaussian Mixture Model”, J Signal Processing, Vol 16, No 5, pp 409-417 [10] T.Tomicura and T Shimamura (2003), “A study on improving the quality of voice of bone-conduction”, Proc.2003 spring meeting on Acoust Soc Jpn, 2-Q-14, pp.401-402 [11] M.Unoki, M.Furukawa, K.Sakata and M Akagi, “A speech dereverberation method based on the MTF concept in power envelope restoration”, Acoust Sci &Tech., Vol 25, pp.243-254, 204 [12] L.R Rabiner (1978), “Digital Processing of Speech Signals”, PenticeHall Inc., Englewood Cliffs, New Jersey [13] J.L Elman (1990), “Finding structure in time”, Cognitive Science, vol 14, pp.179-211 [14] A Kain and M.W Macon (1998), “Spectral voice conversion for text-tospeech synthesis”, Proc.ICASSP-1998, Vol 1, pp.285-288 [15] M Ida and S Nakamura (2002), “HMM composition-based rapid model adaptation using apriori noise GMM adaptation evaluation on Aurora2 corpus, Proc ICSLP-2002, pp.437-440 [16] Y Saitou, T Nigaki, Y Nagano, M Fukushima, S Ishimitsu and H Yanagawa (2002), “Change of the voice picked up by accelerometer of the face”, Proc.2002 autumn meeting on Acoust, Soc.Jpn, 3-Pp22, pp 623-624 [17] Tran Do Dat, Eric Castelli, Jean-Francois Serignat, Trinh Van Loan, Le Xuan Hung (1998), “Influence of F0 on VietNamese syllable perception” [18] Kain, Alexander, and Michael W Macon (1998), “Spectral voice conversion for text-to-speech synthesis” Acoustics, Speech and Signal Processing, 1998.Proceedings of the 1998 IEEE International Conference on.Vol 1.IEEE 55 [19] V.B Le, D.D Tran, L Besacier, E Castelli, and J.F Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese”, Proc RIVF05, pp 330-333, pp 21-24 [20] Nghia, Phung Trung, et al (2007), “A robust wavelet-based textindependent speaker identification”, Conference on Computational Intelligence and Multimedia Applications, 2007 International Conference on Vol IEEE [21] Kawahara, Hideki, Jo Estill, and Osamu Fujimura (2001), "Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system STRAIGHT."MAVEBA [22] Qian, Yao, Frank K Soong, and Zhi-Jie Yan(2013), "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2: 280-290 [23] Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving Bone-Conducted Speech Restoration in noisy environment based on LP scheme”, Proc APSIPA 2010, (2010) [24] T N Phung, M Unoki, and M Akagi, “Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme”, “IEICE Technical Report”, vol 110, no 71, pp 53-58, June, 2010 [...]... việc kiểm tra các mối quan hệ của tiếng nói truyền trong không khí tương ứng với nó Các kết quả phân tích mối quan hệ này sẽ được trình bày ở các phần sau 1.4 Khôi phục tiếng nói truyền trong xương Có một số nghiên cứu phương pháp khôi phục lại chất lượng tiếng nói và độ hiểu của tiếng nói truyền trong xương Như phương pháp phổ chéo [5], phương pháp Fourier [6], phương pháp LP hay MTF[7]… Phần này trước... khôi phục mù tiếng nói BC sử dụng mô hình LP-GMM và so sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt để có được đánh giá đầy đủ hơn về phương pháp này và sự phù hợp của phương pháp với tiếng nói tiếng Việt 2 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là tiếng nói và các phương pháp khôi phục tiếng nói Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tiếng nói AC,... quá trình tạo tín hiệu tiếng nói truyền trong xương có thể được coi là tương tự quá trình tạo tín hiệu của tiếng nói trong không khí Điều khác biệt nằm ở lọc của tiếng nói truyền trong xương là bộ lọc 18 Có thể đo đồng thời tiếng nói truyền trong xương của người nói và tiếng nói truyền trong không khí ở mặt hoặc đầu Thay vì trực tiếp kiểm tra các tín hiệu tiếng nói truyền trong xương bằng việc kiểm... phương pháp này là rất hạn chế Trong nghiên cứu [7], [8], [9], phương pháp khôi phục tiếng nói BC mù (không cần có tín hiệu tham chiếu tại đầu thu) sử dụng mô hình dự đoán tuyến tính LP được đề xuất như phương pháp khôi phục mù LP-SRN hay LP-GMM Các phương pháp này cũng đã được so sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Nhật [9] Trong nghiên cứu này sẽ tập trung nghiên cứu về phương pháp khôi. .. các phương pháp khôi phục không mù và mù, và tập trung vào nghiên cứu thực nghiệm đánh giá về hiệu quả của phương pháp khôi phục không mù phổ chéo, Fourier, và phương pháp mù dùng mô hình LP-GMM [9] đối với cơ sở dữ liệu tiếng nói BC tiếng Việt 3 3 Hướng nghiên cứu của luận văn Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu cho tín hiệu tiếng nói bằng giải pháp dùng tiếng nói BC Trong. .. hình 1.7 Các tín hiệu tiếng nói truyền trong không khí thanh quản được mô tả như đầu ra của một bộ lọc Tín hiệu tiếng nói truyền trong xương thông qua một bộ lọc có thể thu được Hệ thống hiển thị trong hình 1.10 là hai hệ thống để chuyển đổi giữa tiếng nói truyền trong không khí và tiếng nói truyền trong xương Có thể khôi phục được tiếng nói truyền trong xương bởi hàm chuyển trong hình 1.10 (b) Về... gian trong hình 1.8(b), từ đó có thể thể hiện các đặc điểm của các tín hiệu như sau [11]: (1.1) 1.4.1 Phương pháp phổ chéo Gọi hai tín hiệu tiếng nói truyền trong xương và tiếng nói truyền trong không khí là Fourier của và và trong miền thời gian trong miền tần số tương ứng và các biến đổi 20 Hình 1.9 Mối quan hệ của tiếng nói truyền trong không khí và tiếng nói truyền trong xương trong mô hình khôi phục. .. những tiếp cận của các phương pháp khôi phục với tiếng nói Hình 1.8 cho thấy ba loại lọc nghịch đảo khác nhau để khôi phục lại tiếng nói Nói chung, tất cả đều phải thiết kế bộ lọc ngược để khôi phục lại tiếng nói truyền trong xương Như thể hiện trong hình 1.8(a), một trong những cách tiếp cận của phương pháp đơn giản là thiết kế đáp ứng xung ngược từ như phương pháp phổ chéo và phương pháp biến đổi Fourier... luận văn tập trung nghiên cứu phương pháp khôi phục mù dùng mô hình LP-GMM [9] 4 Những nội dung nghiên cứu chính - Tổng quan về tiếng nói AC/BC - Ảnh hưởng của nhiễu đối với tiếng nói AC/BC - Khôi phục tiếng nói AC từ BC - Mô hình LP - Phương pháp khôi phục mù dùng mô hình LP-GMM - Mô tả bài toán khôi phục BC thành AC trên CSDL tiếng Việt để áp dụng cho các hệ thống sử dụng tiếng nói BC - Kết quả đánh... nhà nghiên cứu quan tâm [6-9] Có nhiều phương pháp khôi phục tiếng nói AC từ tiếng nói BC đã được đề xuất như phương pháp dùng phổ chéo (Cross-spectrum) [5], phương pháp dùng biến đổi Fourier [6] Tuy nhiên các phương pháp này yêu cầu có tiếng nói AC tham chiếu tại đầu thu để biến đổi tiếng nói BC thành AC Nói cách khác, đây là các phương pháp không mù (non-blind) Hiển nhiên phạm vi áp dụng của các phương ... hệ tiếng nói truyền không khí tiếng nói truyền xương mô hình khôi phục 20 Hình 1.10 (a) Biến đổi từ tiếng nói truyền không khí tiếng nói truyền xương, (b) từ tiếng nói truyền xương tiếng nói. .. phương pháp phù hợp phương pháp với tiếng nói tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn tiếng nói phương pháp khôi phục tiếng nói Phạm vi luận văn bao gồm nghiên cứu. .. nghiệm sở liệu tiếng nói tiếng Nhật [9] Trong nghiên cứu tập trung nghiên cứu phương pháp khôi phục mù tiếng nói BC sử dụng mô hình LP-GMM so sánh thực nghiệm sở liệu tiếng nói tiếng Việt để có

Ngày đăng: 09/12/2016, 15:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w