Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG THÂN THẾ HUYẾN NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI TRONG TIẾNG NĨI DÙNG KỸ THUẬT PHÂN RÃ THEO THỜI GIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cám ơn TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hướng dẫn lời động viên thầy giúp em vượt qua nhiều khó khăn q trình thực luận văn Em xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa hoc máy tính” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu Cuối cùng, em xin gửi lời cám ơn tới gia đình bạn bè ln ủng hộ động viên giúp đỡ em suốt năm học vừa qua Em xin chân thành cám ơn! Thái Nguyên, ngày 22 tháng 06 năm 2018 Học viên Thân Thế Huyến i LỜI CAM ĐOAN Em xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Em xin chịu trách nhiệm nghiên cứu Học viên Thân Thế Huyến ii MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU viii MỞ ĐẦU 1 Lý chọn đề tài Đối tượng phạm vi nghiên cứu Hướng nghiên cứu luận văn Những nội dung nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học luận văn: CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NĨI VÀ VẤN ĐỀ BIẾN ĐỔI THƠNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 1.1 Thơng tin tiếng nói 1.2 Tín hiệu tiếng nói 1.3 Q trình tạo tiếng nói 1.4 Cơ quan thính giác 10 1.5 Xử lý tiếng nói 12 1.6 Thơng tin người nói tiếng nói 13 1.7 Biến đổi thông tin người nói tiếng nói ứng dụng 15 1.8 Phương pháp biến đổi thay đổi tham số trực tiếp 16 CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG DỤNG TRONG BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI 21 2.1 Kỹ thuật phân rã tiếng nói theo thời gian 21 2.1.1 Phương pháp TD nguyên thủy 21 iii 2.1.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 24 2.1.3 Phương pháp MRTD 27 2.2 Một số kỹ thuật biến đổi thông tin người nói dùng TD 32 2.2.1 Biến đổi thơng tin người nói TD-GMM 32 2.2.2 Biến đổi thơng tin người nói HTD [12] 34 CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 42 3.1 Ngữ âm tiếng Việt 42 3.2 Cơ sở liệu tiếng nói tiếng Việt 44 3.3 Tổng hợp tiếng nói tiếng Việt 47 3.4 Lựa chọn sở liệu 47 3.5 Đánh giá phương pháp 48 3.5.1 Tiêu chí đánh giá 48 3.5.2 Thực nghiệm phương pháp 49 3.5.3 Kết đánh giá 50 3.5.4 Thảo luận 51 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 54 iv DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt 44 Bảng 3.2: Sáu điệu tiếng Việt 44 Bảng 3.3 Các tham số thực nghiệm 49 Bảng 3.4 Kết đánh giá khách quan 50 Bảng 3.5 Kết đánh giá chủ quan ABX 50 v DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói câu tiếng Việt Hình 1.2: Tiếng nói hữu Hình 1.3: Bộ phận cung cấp Hình 1.4: Dây âm Hình 1.5: Cấu trúc quan phát âm Hình 1.6: Hình dáng quan phát âm thay đổi trình phát âm Hình 1.7: Mơ hình hóa quan phát âm Hình 1.8: Biểu diễn mơ hình hóa quan phát âm đầy đủ máy tính 10 Hình 1.9: Mơ hình quan thính giác 10 Hình 1.10: Thang tần số Bark 11 Hình 1.11: Ngưỡng nghe 11 Hình 1.12: Mặt nạ thời gian (che âm liền trước liền sau) 12 Hình 1.13: Mặt nạ tần số (che âm có tần số khác phát thời điểm) 12 Hình 1.14: Một số ứng dụng xử lý tiếng nói 13 Hình 1.15: Hệ thống nhận dạng người nói – ứng dụng xử lý thơng tin người nói 13 Hình 1.16: Người nói khác có quan phát âm cách phát âm khác dẫn tới tiếng nói khác 14 Hình 2.1: Ví dụ hai hàm kiện liền kề 25 Hình 2.2: Hàm kiện có tính chất “hình học chuẩn” “hình học không chuẩn” 27 Hình 2.3: Thuật tốn chuẩn hóa vector kiện MRTD 31 Hình 2.4: Hình vẽ hàm kiện nhận MRTD phân tích câu tiếng Nhật, số miền thời gian số khung 32 Hình 2.5: Phương pháp biến đổi TD-GMM 34 vi Hình 2.6: Mơ hình biến đổi giọng người nói HTD 35 Hình 2.7: Ví dụ phân tích / tái tạo tiếng nói MRTD với N khung K điểm kiện 37 Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ? ngã đường F0 ngã không thống mẫu vùng 43 vii DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU Ký tự Ý nghĩa F0 Tần số dao động TD Phân rã theo thời gian RTD Giới hạn LSF Tham số đường phố DLSF Các ràng buộc MRTD PP Phân rã tiếng nói theo thời gian giới hạn cải tiến GMM Mơ hình Gaussian hỗn hợp TD- GMM HTD PI PI-LSF MOS AMDF LP Mơ hình pha trộn Gausce Kỹ thuật phân rã ( kết hợp HTT+TD) Chỉ số hiệu Hiệu phổ Thang điểm đánh giá chủ quan trung bình Hàm hiệu biên độ trung bình Phương pháp dự đốn tuyến tính PCM Kỹ thuật điều chế xung mã WAV Dữ liệu âm không nén PSTN Mạng điện thoại chuyển mạch công cộng LSF Tham số phổ đường ABX Thang điểm đánh giá theo cặp viii MỞ ĐẦU Lý chọn đề tài Tiếng nói phương tiện giao tiếp người Vì tiếng nói loại hình thơng tin phổ biến hệ thống viễn thơng Tín hiệu tiếng nói mang nhiều thơng tin, thơng tin ngơn ngữ, thơng tin người nói, thơng tin cảm xúc nói,… Hầu hết hệ thống xử lý tiếng nói truyền thơng tập trung vào xử lý thơng tin ngơn ngữ để đảm bảo tiếng nói sau xử lý hiểu [1] Tuy nhiên để ứng dụng xử lý tiếng nói máy tính áp dụng rộng rãi thực tế, tính tự nhiên tiếng nói xử lý cần quan tâm quan tâm nghiên cứu thời gian gần [2] Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp) tự nhiên, vấn đề quan trọng cần đảm bảo thơng tin người nói, bao gồm thơng tin chung người nói giới tính, độ tuổi,… đến thơng tin chi tiết thơng tin nhận danh xác người nói [5,6,7,9,10,11] Các hệ thống tổng hợp tiếng nói nhân tạo thường tổng hợp tiếng nói số giọng nói thu sẵn huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện đại, việc biến đổi thông tin người nói tín hiệu tiếng nói có vai trị quan trọng Một số ví dụ điển hình như: - Trong phim lịch sử cần diễn viên nói với giọng giống với giọng nhân vật lịch sử [6] - Trong clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát diễn viên theo tiêu chí cụ thể khác cao hơn, trầm hơn, giống với nhân vật thật hơn,… [6] end catch % for unexpected errors LSFy_match = LSFy(:, 1:size(LSFx, 2)); F0y_match = f0rawY(1:length(f0rawX)); %disp('unexpected error'); end n3sgramY_match=lsf2spc(LSFy_match,P,PLx); yt_match = exstraightsynth(F0y_match,n3sgramY_match,apX,fsS,pram); %Synthesis dBsy=powerchk(yt_match,fsS,15); cf=(20*log10(32768)-22)-dBsy; yt_match=yt_match*(10.0.^(cf/20)); wavwrite(yt_match/(max(abs(yt_match))+1),fsS,[dirNameOut, lsWavefilesS(i).name]); end end 41 CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI TRONG TIẾNG NĨI Các phương pháp biến đổi thơng tin người nói hướng tới mơ hình độc lập ngơn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngơn ngữ cụ thể, chí khác đánh giá sở liệu khác Luận văn tập trung vào việc đánh giá phương pháp thay đổi tham số trực tiếp, thay tiếng nói theo mẫu [9], phương pháp sử dụng kỹ thuật phân rã tiếng nói theo thời gian với tiếng nói tiếng Việt Qua đó, xác định phương pháp phù hợp với tiếng nói tiếng Việt lớp ứng dụng cụ thể 3.1 Ngữ âm tiếng Việt Tiếng Việt ngơn ngữ thức quốc ngữ Việt Nam Nó 90 triệu người Việt sử dụng hàng ngày Khoảng triệu người Việt nước thường xuyên sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Hoàng Phê [2] Đoàn Thiện Thuật [3] a,Cấu trúc âm tiết tiếng Việt Tiếng Việt ngơn ngữ đơn âm có điệu điển hình [3] Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt mơ tả hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt [11, 14] 42 Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần đuôi vần khơng tồn với số âm tiết cịn nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đôi (diphthong) Đuôi vần phụ âm bán nguyên âm (semi-vowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt b Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngơn ngữ có điệu Có sáu điệu phân biệt tiếng Việt bảng 3.2 hình 3.1 Mỗi điệu có đường tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm mở Âm tiết đóng kết thúc với vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ? ngã đường F0 ngã không thống mẫu vùng 43 Bảng 3.1: Cấu trúc âm tiết tiếng Việt Thanh điệu Phần đầu âm tiết Phần vần Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2: Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop 3.2 Cơ sở liệu tiếng nói tiếng Việt Nghiên cứu xử lý tiếng nói tiếng Việt khoảng thập kỷ Tuy nhiên, số lượng nghiên cứu khơng nhiều Một lí dẫn tới phát triển nghiên cứu xử lý tiếng nói tiếng Việt chưa thực mạnh mẽ chưa có nhiều sở liệu tiếng nói tiếng Việt tin cậy chuẩn hóa Ở Việt Nam, thơng thường nhóm nghiên cứu tự xây dựng sở liệu tiếng nói để thực nghiệm Do giới hạn thời gian, kiến thức, kinh phí dẫn tới sở liệu thường không đủ lớn chất lượng chưa cao Ngồi ra, việc nhóm nghiên cứu sử dụng sở liệu riêng dẫn tới việc phối hợp nghiên cứu nhóm nghiên cứu khó khăn, nhiều khơng thể 44 Trong phần này, liệt kê số sở liệu tiếng nói tiếng Việt sử dụng phổ biến nghiên cứu xử lý tiếng nói tiếng Việt gần a Cơ sở liệu số điện thoại Cơ sở liệu tiếng nói xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [16] Định dạng âm PCM WAV với tần số lấy mẫu tần số lấy mẫu hệ thống điện thoại cơng cộng PSTN 8KHz Mã hóa 16 bit / mẫu Kích cỡ sở liệu nhỏ với 1541 từ mô tả số điện thoại Phần đầu bao gồm 170 người nói với 94 đàn ơng 76 phụ nữ đến từ địa phương khác khu vực miền Bắc Phần hai gồm 208 người nói bao gồm 130 đàn ơng 78 phụ nữ đến từ địa phương khu vực miền Nam Cơ sở liệu gán nhãn mức âm vị b.Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [16] Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt khơng tính điệu 1646 bao phủ gần tồn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị 45 c Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [16] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit / mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thơng tin điệu Mặc dù kích cỡ nhỏ, xem sở liệu chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác d Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [12] Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mơ tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt e Các sở liệu khác Gần đây, số nhóm nghiên cứu cố gắng thu thập nguồn tài nguyên tiếng nói để xây dựng sở liệu tiếng nói tiếng Việt lớn, ví dụ sở liệu tin tức phát tiếng Việt (VNBN) với khoảng 40 sở liệu đàm thoại với khoảng 11 tiếng nói [15] Tuy 46 nhiên sở liệu chưa gán nhãn gán nhãn mức âm vị Do chúng chưa sử dụng rộng rãi nghiên cứu xử lý tiếng nói tiếng Việt 3.3 Tổng hợp tiếng nói tiếng Việt Chuyển đổi thơng tin người nói xem nhánh nghiên cứu tổng hợp tiếng nói Do đó, phần điểm lại số nghiên cứu tổng hợp tiếng nói tiếng Việt Tổng hợp tiếng nói tiếng Việt bắt đầu nghiên cứu khoảng hai thập kỷ trở lại Hai tổng hợp tiếng nói tiếng Việt coi sơ khai VnSpeech [14] sử dụng công nghệ tổng hợp formant VnVoice [11] sử dụng kỹ thuât ghép nối đơn vị âm Chất lượng tổng hợp chưa cao, chúng gần không phát triển tiếp Một số tổng hợp tiếng nói tiếng Việt thương mại hóa tổng hợp tiếng nói phương Nam (VOS) [15], Hoa Súng [17] Đây tổng hợp dựa kỹ thuật ghép nối mức âm tiết, hay mức từ Chúng tổng hợp tốt với giọng người nói sở liệu Tuy nhiên hệ thống chưa tích hợp khả chuyển đổi giọng người nói để tổng hợp nhiều giọng khác Gần đây, hệ thống tổng hợp tiếng nói dùng phương pháp thống kê GMM nghiên cứu phát triển [11], nhiên vấn đề chuyển đổi giọng người nói để tổng hợp nhiều giọng nói đầu khác chưa quan tâm nghiên cứu 3.4 Lựa chọn sở liệu Dựa phân tích sở liệu tiếng Việt có mục 3.3, lựa chọn sở liệu tiếng Việt DEMEN567 (làm liệu nguồn) VOV-HMM (làm liệu đích) để thực nghiệm đánh giá cho luận văn 47 3.5 Đánh giá phương pháp 3.5.1 Tiêu chí đánh giá a Đánh giá khách quan Phương pháp đánh giá khách quan áp dụng có người nói nguồn người nói đích xác định sử dụng phổ biến hệ thống chuyển đổi giọng người nói người pháp số hiệu PI (performance index) PI với tham số phổ LSF tính công thức 3.1 PI LSF   ELSF (t (n), tˆ(n)) ELSF (t (n), s(n)) (3.1) Trong đó, t(n) biểu diễn mẫu tiếng nói giọng đích, s(n) biểu diễn mẫu tiếng nói giọng nguồn, tˆ(n) biểu diễn mẫu tiếng nói chuyển đổi từ nguồn thành đích ELSF sai số LSF trung bình tính cơng thức 3.2 ELSF ( A, B)  L P ( LSFAl ,i  LSFBl ,i )   L l 1 P i 1 (3.2) Với L tổng số khung tiếng nói (sau thời gian để tổng số khung trùng khớp), P số hệ số LSF PI LSF = hệ thống chuyển đổi khơng giống hệ thống đích chút PI LSF = hệ thống chuyển đổi hồn tồn giống hệ thống đích Giữa lớn giống đích Phương pháp đánh giá khách quan áp dụng để đánh giá phương pháp biến đổi giọng người nói thay khung phương pháp thống kê GMM không áp dụng với phương pháp thay đổi tham số trực tiếp người nói đích khơng xác định cụ thể b Đánh giá chủ quan Trong phương pháp đánh giá chủ quan, phương pháp áp dụng rộng rãi hệ thống chuyển đổi giọng nói có người nói nguồn đích xác định phương pháp ABX [10] Trong A người nói nguồn, B 48 người nói đích, X giọng nói chuyển đổi từ A thành B Người nghe nghe thử giọng nói A B trước Sau đánh giá nghe mẫu chuyển đổi đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ đến Điểm tức giọng chuyển đổi giống giọng nguồn A, điểm tức giọng chuyển đổi giống giọng đích B Phương pháp đánh giá áp dụng để đánh giá phương pháp chuyển đổi giọng với người nói nguồn đích xác định Trong trường hợp người nói đích khơng xác định, phương pháp ABX áp dụng có thay đổi, theo điểm giống giọng nguồn điểm khơng có nghĩa giống giọng đích mà “rất khác” giọng nguồn 3.5.2 Thực nghiệm phương pháp Phương pháp HTD thực nghiệm so sánh với phương pháp HTT TD-GMM Các tham số thực nghiệm sử dụng phương pháp cho bảng: Bảng 3.3 Các tham số thực nghiệm Tần số lấy mẫu DEMEN VOV-HMM 11025 Hz lấy mẫu lại Chiều dài khung ms Độ dịch khung ms Số chiều LSF 20 Số thành phần GMM 20 Số điểm kiện / âm vị Khi thực nghiệm ba phương pháp với sở liệu tiếng Việt (DEMEN567m VOV-HMM), 400/567 cặp câu tiếng Việt sở liệu DEMEN567 VOV-HMM sử dụng để huấn luyện (với TDGMM) tìm kiếm / thay (với HTT HTD) 30 cặp câu khơng có tập liệu huấn luyện tập liệu để tìm kiếm / thay sử dụng để đánh giá Phân tích mức độ bao phủ mặt âm vị câu tập huấn 49 luyện câu tập đánh giá cho thấy 100% âm vị tập đánh giá (30 câu) nằm tập âm vị tập liệu huấn luyện tập liệu tìm kiếm / thay (400 câu tiếng Việt) Phương pháp đánh giá khách quan PI tính tự động theo công thức (9) Phương pháp đánh giá chủ quan thực với 05 người đánh giá người Việt sinh viên độ tuổi 18 đến 20 trường Đại học Công nghệ thông tin truyền thông, Đại học Thái Ngun, có khả nghe bình thường Do mục đích phần đánh giá chủ quan ABX đánh giá giọng nói X giống với người nguồn A hay người đích B vấn đề độc lập ngơn ngữ, không cần người đánh giá phải hiểu ngữ nghĩa mẫu tiếng nói đánh giá Chính vậy, 05 sinh viên người Việt lựa chọn để thực đánh giá ABX với phần liệu tiếng Việt Điểm MOS đánh giá điểm ABX trung bình tất mẫu đánh giá 3.5.3 Kết đánh giá Như trình bày phần trước, phương pháp đánh giá chủ quan ABX đánh giá khách quan bẳng hiệu phổ PI_LSF đánh giá hiệu chuyển đổi người nói phương pháp thay khung HTT phương pháp thống kê TD-GMM) Bảng 3.4 Kết đánh giá khách quan Phương pháp PI_LSF Thay khung HTT 0.663 TD-GMM 0.468 HTD 0.612 Bảng 3.5 Kết đánh giá chủ quan ABX Phương pháp MOS Thay khung HTT 3.8 TD-GMM 3.2 HTD 3.6 50 Kết đánh giá Bảng 3.4, 3.5 cho thấy hiệu biến đổi giọng người nói phương pháp HTD cao phương pháp TD-GMM gần tương đương với HTT (đặc biệt với đánh giá chủ quan) với sở liệu kích cỡ trung bình tiếng Việt thử nghiệm Kết đánh giá bảng 3.4 3.5 cho thấy phương pháp thay khung có hiệu rõ rệt phương pháp GMM có tác dụng chuyển đổi giọng nói có hiệu vừa phải Tất nhiên phải lưu ý phương pháp thay khung có nhược điểm địi hỏi sở liệu tìm kiếm phải đủ lớn cịn phương pháp GMM khơng u cầu liệu huấn luyện lớn 3.5.4 Thảo luận Phương pháp biến đổi giọng người nói HTD tận dụng ưu điểm phương pháp HTT TD-GMM So với TD-GMM, phương pháp HTD có chất lượng tiếng nói chuyển đổi cao hẳn sở liệu vừa phải lựa chọn để đánh giá thực nghiệm thay phương pháp huấn luyện / biến đổi thống kê với GMM phương pháp thay vật lý trực tiếp Cả TD-GMM HTD sử dụng sở liệu tiếng nói đích gán nhãn mức âm vị yêu cầu sở liệu đích bao phủ hết âm vị So với HTT, tương đương hiệu chuyển đổi giọng nói, HTD thể 03 ưu điểm bật sau Thứ nhất, HTT yêu cầu liệu đích phải lớn đảm bảo độ trơn tiếng nói sau thay ghép nối Trong đó, độ trơn tiếng nói sau thay HTD đảm bảo hàm kiện nguồn vốn trơn giữ nguyên, không thay đổi q trình thay Do đó, u cầu độ lớn liệu đích với HTD nhỏ HTT Thứ hai, yêu cầu sở liệu người nói đích vừa phải điểm kiện vector thưa với độ dài ngắn nhiều so với vector 51 khung tiếng nói (K

Định dạng
Số trang	64
Dung lượng	1,5 MB