Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

68 107 0
Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ii ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THANH HUẾ NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NĨI TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Vũ Thanh Huế NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NĨI TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN Ngành : Công nghệ thông tin Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Phùng Trung Nghĩa Thái Nguyên, năm 2015 LỜI CAM ĐOAN Tên là: Vũ Thanh Huế Sinh ngày: 25/03/1985 Học viên lớp cao học K12I - Trường Đại học Công nghệ thông tin Truyền thông - Thái Ngun Tơi xin cam đoan, tồn nội dung liên quan tới đề tài trình bày luận văn thân tơi tìm hiểu nghiên cứu, hướng dẫn khoa học Thầy giáo Tiến sĩ Phùng Trung Nghĩa Các nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Nếu sai tơi hồn tồn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Tác giả luận văn LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghia, với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc độ bit thấp kỹ thuật phân rã tiếng nói theo thời gian” hồn thành Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa tận tình d ẫn, giúp đỡ em hoàn thành luận văn Bộ phận sau Đại học Trường Đại học công nghệ thông tin truyền thơng giúp đỡ em q trình học tập thực luận văn Em xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ em suốt trình học tập, thực hoàn thành luận văn Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng Học viên Vũ Thanh Huế năm 2015 vii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN vi MỤC LỤC vii LỜI MỞ ĐẦU…………………………………………………………………… 1 Lý chọn đề tài Mục tiêu đề tài Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 1.1 Thơng tin tín hiệu tiếng nói 1.2 Q trình tạo tiếng nói 1.3 Khả cảm thụ tiếng nói người 1.4 Mơ hình hóa tiếng nói .13 1.5 Mã hóa tiếng nói 16 1.6 Kỹ thuật phân rã tiếng nói theo thời gian TD ứng dụng mã hóa tiếng nói 20 CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .23 2.1 Phương pháp Atal .23 2.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 26 2.3 Phương pháp MRTD 29 2.4 Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT 34 2.4.1 Sơ lược phương pháp mã hóa TD-STRAIGHT 34 2.4.2 Tính tham số phổ đường LSF từ phổ STRAIGHT 36 2.4.3 Lượng tử hóa vector LSF .37 2.4.4 Lượng tử hóa vector kiện 37 2.4.5 Lượng tử hóa hàm kiện .37 2.4.6 Lượng tử hóa tham số tần số F0 .38 2.4.7 Lượng tử hóa tham số độ lợi 38 2.4.8 Lượng tử hóa tham số nhiễu 38 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT .40 3.1 Ngữ âm tiếng Việt .40 3.2 Cơ sở liệu tiếng nói tiếng Việt .42 3.3 Cài đặt phương pháp mã hóa tiếng nói dùng MRTD MATLAB.44 3.4 Tiêu chí đánh giá khách quan chủ quan 46 3.5 Kết khách quan chủ quan phương pháp …………………….49 3.6 Đánh giá kết 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Viết đầy đủ Ý nghĩa PCM Pulse Code Modulation Mã hóa theo dạng xung LPC Linear Predictive Coding Mã hóa dự đốn tuyến tính Code-Excited Linear Prediction Mã hóa dự đốn tuyến tính coder kích thích mã CELP Kỹ thuật phân rã theo thời TD Temporal Decomposition LSF Line Spectral Frequency Đặc trưng phổ đường Modified Restricted Temporal Kỹ thuật phân rã theo thời Decomposition gian giới hạn cải tiến Restricted Temporal Kỹ thuật phân rã theo thời Decomposition gian giới hạn Perceptual evaluation of speech Phương pháp đánh giá chất quality lượng tiếng nói cảm thụ MRTD RTD PESQ gian 10 DANH MỤC CÁC BẢNG Bảng 3.1 Cấu trúc âm tiết tiếng Việt 42 Bảng 3.2 Sáu điệu tiếng Việt 42 Bảng 3.3 Thang điểm Scheffe 47 Bảng 3.4 Thang điểm PESQ 49 11 DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Hình 1.1 Dạng sóng tiếng nói câu tiếng Việt Hình 1.2 Tiếng nói hữu Hình 1.3 Bộ phận cung cấp Hình 1.4 Dây âm Hình 1.5 Cấu trúc quan phát âm Hình 1.6 Hình dáng quan phát âm thay đổi trình phát âm Hình 1.7 Mơ hình hóa quan phát âm .8 Hình 1.8 Mơ hình hóa quan phát âm đầy đủ máy tính Hình 1.9 Cơ quan thính giác người .9 Hình 1.10 Mơ hình điểm cực formant quan phát âm 14 Hình 1.11 Mơ hình kích thích âm hữu 15 Hình 1.12 Mơ hình kích thích nguồn âm 16 Hình 1.13 Phương pháp mã hóa tiếng nói PCM 17 Hình 1.14 Phân tích mẫu tiếng nói TD 21 Hình 2.1 Ví dụ hai hàm kiện liền kề sử dụng mơ hình phân rã bậc hai 27 Hình 2.2 Hàm kiện có tính chất “hình học chuẩn” “hình học khơng chuẩn”.29 Hình 2.3 Thuật tốn chuẩn hóa vector kiện .33 Hình 2.4 Hình vẽ hàm kiện nhận MRTD phân tích câu tiếng Nhật, số miền thời gian số khung 34 Hình 2.5 Phương pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT 36 Hình 3.1 Đường F0 sáu điệu tiếng Việt .41 Hình 3.2 Thuật tốn mã hóa đánh giá chất lượng tiếng nói mã hóa MRTD 45 Hình 3.3 Mơ hình hóa người nghe PESQ .48 Hình 3.4 Tích hợp phân tích khả cảm thụ người để tính điểm chất lượng tiếng nói nhân tạo 48 xii Hình 3.5 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 20 .50 Hình 3.6 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 30 .50 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, khơng nén với tỉ lệ nén 20 51 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM TRÊN CƠ SỞ DỮ LIỆU TIẾNG VIỆT Các phương pháp mã hóa tiếng nói hướng tới mơ hình độc lập ngơn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngôn ngữ khác [6, 7] Luận văn tập trung vào việc đánh giá phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian, cụ thể phương pháp phân rã tiếng nói cải tiến MRTD tác giả N.P Chien [6, 7] sở liệu tiếng nói tiếng Việt Qua đó, đánh giá mức độ phù hợp phương pháp với tiếng nói tiếng Việt 3.1 Ngữ âm tiếng Việt Tiếng Việt ngơn ngữ thức Việt Nam Nó 90 triệu người Việt sử dụng hàng ngày Khoảng triệu người Việt nước thường xuyên sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Đoàn Thiện Thuật [13] Hoàng Phê [14] Cấu trúc âm tiết tiếng Việt Tiếng Việt ngơn ngữ đơn âm có điệu điển hình [13] Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt mơ tả hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt [14] Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần đuôi vần khơng tồn với số âm tiết nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đôi (diphthong) Đuôi vần phụ âm bán nguyên âm (semi-vowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngơn ngữ có điệu Có sáu điệu phân biệt tiếng Việt bảng 3.2 hình 3.1 (dấu ? ngã đường F0 ngã không thống mẫu vùng giữa) Mỗi điệu có đường tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm mở Âm tiết đóng kết thúc với vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.1 Đường F0 sáu điệu tiếng Việt Bảng 3.1 Cấu trúc âm tiết tiếng Việt Thanh điệu Phần vần Phần đầu âm tiết Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2 Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop 3.2 Cơ sở liệu tiếng nói tiếng Việt Trong phần này, chúng tơi giới thiệu số sở liệu tiếng nói tiếng Việt trung bình lớn phổ biến Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [15] Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt khơng tính điệu 1646 bao phủ gần toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [15] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit/mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Đây sở liệu kích cỡ trung bình với chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu nói 50 người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [16] Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt Do có chất lượng cao gán nhãn mức âm vị, lựa chọn sở liệu DEMEN567 để thực nghiệm đánh giá cho luận văn 3.3 Cài đặt phương pháp mã hóa tiếng nói dùng MRTD MATLAB Môi trường để cài đặt MATLAB 7.0 Thư viện hàm phân tích, xử lý tiếng nói STRAIGHT lấy từ website tác giả Kawahara địa chỉ: http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_e.html Thư viện hàm tính tốn đánh giá khách quan PESQ lấy từ thư viện tác giả Rix Antony Hình 3.2 Thuật tốn mã hóa đánh giá chất lượng tiếng nói mã hóa MRTD Thuật tốn cài đặt hệ thống mã hóa tiếng nói dùng MRTD mơ tả hình 3.2, chúng tơi thực mã hóa MRTD với tham số phổ LSF với tỉ lệ kiện tương ứng với tỉ lệ nén Nói cách khác tỉ lệ nén cố định Sau chất lượng tiếng nói tái tạo so sánh với chất lượng tiếng nói nguồn Đây chưa phải hệ thống mã hóa hồn thiện (bao gồm khối mã hóa F0, AP), nhiên đủ để đánh giá chất lượng tiếng nói tái tạo mã hóa nén tham số phổ với tỉ lệ nén cho trước 3.4 Tiêu chí đánh giá khách quan chủ quan Trong đánh giá chất lượng tiếng nói phương pháp khách quan (máy đánh giá theo công thức) chủ quan (người nghe đánh giá) sử dụng Mỗi phương pháp có ưu nhược điểm riêng Dưới xem xét cụ thể tiêu chí phương pháp Tiêu chí chủ quan: Tiêu chí đánh giá chủ quan tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói Tiêu chí chủ quan xem quan trọng mục tiêu cuối tiếng nói mã hóa phải đảm bảo người nghe hiểu được, chấp nhận Tuy nhiên để thực đánh giá chủ quan tốn kém, thời gian, cần thiết bị nghe phòng nghe chun dụng để tránh nhiễu mơi trường Ngồi ra, phương pháp chủ quan khó đảm bảo tin cậy hồn tồn người nghe tập trung, không tâm vào việc đánh giá chí cố tình cho điểm sai Các điểm yếu phương pháp chủ quan khắc phục cách tăng số lượng người nghe, số lượng phép test để đảm bảo giá trị thống kê có ổn định tin cậy Trong luận văn sử dụng phương pháp Scheffe [16] Trong sinh viên có khả nghe bình thường lựa chọn để thực đánh giá nghe chủ quan loại tiếng nói (có nén, khơng nén) 20 mẫu Mỗi người hỏi để phân loại chất lượng tiếng nói nghe theo thang từ -2 đến so sánh hai mẫu tiếng nói nguồn mã hóa cặp Bảng 3.3 Thang điểm Scheffe Chất lượng tiếng nói Điểm Rất tốt Tốt Trung bình Kém -1 Rất -2 Tiêu chí khách quan: Nhằm khắc phục yếu điểm tiêu chí đánh giá chủ quan, nhiều phương pháp đánh giá khách quan xây dựng Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn mã hóa để tính tốn sai số khác biệt chứng tỏ không hiệu khả nghe người khơng tỉ lệ tuyến tính với sai số Nói cách khác hai tín hiệu có sai khác lớn người nghe thấy giống hai tín hiệu có sai khác nhỏ (nhưng điểm khác điểm quan trọng với tai người) Các phương pháp đánh giá khách quan đại sử dụng phương pháp mơ hình hóa khả nghe người để “chủ quan hóa” tham số khách quan, từ đưa phương pháp tính tốn khách quan phù hợp với khả nghe người Trong số phương pháp đánh giá chất lượng tiếng nói khách quan phương pháp PESQ [17] sử dụng phổ biến sử dụng luận văn Đây tiêu chí khách quan mơ tiêu chí chủ quan mơ tả hình 3.3 cách xây dựng mơ hình nghe nhân tạo tích hợp phân tích khả cảm thụ âm người Trong chất lượng tiếng nói đánh giá theo thang điểm bảng 3.4, với tiếng nói chuẩn quy chiếu thang điểm cao điểm Hình 3.3 Mơ hình hóa người nghe PESQ Hình 3.4 Tích hợp phân tích khả cảm thụ người để tính điểm chất lượng tiếng nói nhân tạo Bảng 3.4 Thang điểm PESQ Chất lượng tiếng nói Điểm Rất tốt Tốt Trung bình Kém Rất 3.5 Kết khách quan chủ quan phương pháp Sau thực nghiệm phương pháp mã hóa tiếng nói MRTD, chúng tơi thử nghiệm phương pháp sở liệu tiếng nói tiếng Việt DEMEN567 Tỉ lệ nén sử dụng làm để chọn tỉ lệ kiện tiếng nói, tỉ lệ nén đầu vào, so sánh tiếng nói mã hóa nén tiếng nói gốc để tính tốn tiêu chí đánh giá khách quan PESQ đánh giá chủ quan Kết đánh giá chủ quan phương pháp Scheffe trung bình với 20 mẫu loại tiếng nói trích từ sở liệu DEMEN567 (có nén với tỉ lệ nén 20, khơng nén) cho hình 3.5, 3.6 Kết đánh giá khách quan phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với tiếng nói khơng nén trung bình 4.5/5 tiếng nói có nén 3.3/5 hình 3.7 Tiếng nói mã hóa STRAIGHT (khơng nén) Tiếng nói mã hóa MRTD (nén) -2 -1 Chất lượng thấp Chất lượng cao Hình 3.5 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 20 Tiếng nói mã hóa STRAIGHT (khơng nén) Tiếng nói mã hóa MRTD (nén) -2 -1 Chất lượng thấp Chất lượng cao Hình 3.6 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 30 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, khơng nén với tỉ lệ nén 20 3.6 Đánh giá kết Với phương pháp nén truyền thống nén MP3, tỉ lệ nén trung bình khoảng 1/11 cho đầu âm CD có tốc độ bit 128 Kbps Trong luận văn này, thử nghiệm tỉ lệ nén mức cao (20-30 lần) tiếng nói có tốc độ bit thấp chất lượng tiếng nói có nén chấp nhận với đánh giá chủ quan khách quan Hình 3.5 3.6 cho thấy thay đổi tỉ lệ nén từ 20 đến 30 chất lượng tiếng nói suy giảm không nhiều mức chấp nhận được, đủ để nghe hiểu Các kết cho thấy phương pháp mã hóa nén tiếng nói MRTD phương pháp tốt tiếng Việt Cùng với kết đánh giá hiệu MRTD tiếng Anh, tiếng Nhật [6, 7] kết nghiên cứu cho thấy MRTD phương pháp mã hóa nén hiệu với nhiều ngơn ngữ, có nhiều tiềm ứng dụng KẾT LUẬN Kỹ thuật phân rã tiếng nói theo thời gian TD kỹ thuật phân tích tiếng nói đề xuất Atal năm 1983 Các kết nghiên cứu cho thấy TD thích hợp để phân tích mơ hình hóa tiếng nói mã hóa nén tiếng nói Tuy nhiên thuật tốn TD Atal có độ phức tạp tính tốn cao, khơng phù hợp với việc mã hóa tiếng nói thời gian thực Vì vậy, số nhà nghiên cứu cải tiến thuật toán TD Atal theo hướng giảm độ phức tạp tính tốn, ứng dụng mã hóa tiếng nói tốc độ bit thấp thời gian thực kỹ thuật TD cải tiến giới hạn (MRTD) Hướng nghiên cứu tiếp tục phát triển năm gần Luận văn nghiên cứu phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật MRTD, phân tích lý thuyết, cài đặt thực nghiệm đánh giá hiệu phương pháp mã hóa tiếng nói dùng kỹ thuật MRTD với tiếng nói tiếng Việt, từ cho thấy phương pháp mã hóa nén tiếng nói MRTD phương pháp tốt tiếng Việt Cùng với kết đánh giá hiệu MRTD tiếng Anh, tiếng Nhật kết nghiên cứu cho thấy MRTD phương pháp mã hóa nén hiệu với nhiều ngơn ngữ, có nhiều tiềm ứng dụng TÀI LIỆU THAM KHẢO [1] Atal, Bishnu S., and Manfred R Schroeder "Adaptive predictive coding of speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986 [2] Atal, Bishnu S., and J Remde "A new model of LPC excitation for producing natural-sounding speech at low bit rates." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82 Vol IEEE, 1982 [3 Kleijn, W Bastiaan, and Kuldip K Paliwal Speech coding and synthesis Elsevier Science Inc., 1995 [4] Atal, Bishnu S "Efficient coding of LPC parameters by temporal decomposition." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83 Vol IEEE, 1983 [5] Kim, Sung-Joo, and Yung-Hwan Oh "Efficient quantization method for LSF parameters based on restricted temporal decomposition." Electronics Letters35.12 (1999): 962-964 [6] Nguyen, Phu Chien, Ochi Takao, and Masato Akagi "Modified restricted temporal decomposition and its application to low rate speech coding." IEICE TRANSACTIONS on Information and Systems 86.3 (2003): 397-405 [7] Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen "Limited error based event localizing temporal decomposition and its application to variable-rate speech coding." Speech communication 49.4 (2007): 292-304 [8] Hiroya, Sadao "Non-Negative Temporal Decomposition of Speech Parameters by Multiplicative Update Rules", IEEE Transactions on Audio, Speech, and Language Processing, 21.10 (2013): 2108-2117 [9] Bimbot, Frederic, et al "Temporal decomposition and acousticphonetic decoding of speech." Acoustics, Speech, and Signal Processing, 1988 ICASSP-88., 1988 International Conference on IEEE, 1988 [10] Phung, Trung-Nghia, et al "Improving naturalness of HMM-based TTS trained with limited data by temporal decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 [11] Kawahara, Hideki "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353 [12] Paliwal, Kuldip K., and Bishnu S Atal "Efficient vector quantization of LPC parameters at 24 bits/frame." Speech and Audio Processing, IEEE Transactions on 1.1 (1993): 3-14 [13] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003 [14] Hồng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15, 2003 [15] L.C Mai and D.N Duc, “Design of Vietnamese speech corpus and current status," Proc ISCSLP-06, pp 748-758 (2006) [16] H Scheffe, “An analysis of variance for paired comparisons,” Journal of the AmericanStatistical Association, vol 47, pp 381-400, 1952 [17] Rix, Antony W., et al "Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs."Acoustics, Speech, and Signal Processing, 2001 Proceedings (ICASSP'01) 2001 IEEE International Conference on Vol IEEE, 2001 ... tiếng nói 20 CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .23 2.1 Phương pháp Atal .23 2.2 Phương pháp phân rã tiếng nói theo. .. hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian TD tiếp tục phát triển năm gần [8] Việt Nam, hướng nghiên cứu mẻ Luận văn nghiên cứu phương pháp mã hóa tiếng nói tốc. .. mã hóa tiếng nói tốc độ bit thấp hướng nghiên cứu có tính thời Việt Nam giới nay, có hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian (Temporal

Ngày đăng: 08/01/2019, 08:31

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan