Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,67 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG THÂN THẾ HUYẾN lu an n va p ie gh tn to NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI TRONG TIẾNG NĨI DÙNG KỸ THUẬT PHÂN RÃ THEO THỜI GIAN d oa nl w an lu ll u nf va LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z m co l gm @ an Lu THÁI NGUYÊN, 2018 n va ac th si LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cám ơn TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hướng dẫn lời động viên thầy giúp em vượt qua nhiều khó khăn q trình thực luận văn Em xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa hoc máy tính” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu lu an Cuối cùng, em xin gửi lời cám ơn tới gia đình bạn bè ủng hộ động n va viên giúp đỡ em suốt năm học vừa qua gh tn to Em xin chân thành cám ơn! p ie Thái Nguyên, ngày 22 tháng 06 năm 2018 w d oa nl Học viên va an lu ll u nf Thân Thế Huyến oi m z at nh z m co l gm @ an Lu n va ac th i si LỜI CAM ĐOAN Em xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Em xin chịu trách nhiệm nghiên cứu lu an n va tn to p ie gh Học viên nl w d oa Thân Thế Huyến ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th ii si MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU viii MỞ ĐẦU 1 Lý chọn đề tài lu Đối tượng phạm vi nghiên cứu an va Hướng nghiên cứu luận văn n Những nội dung nghiên cứu to Ý nghĩa khoa học luận văn: p ie gh tn Phương pháp nghiên cứu CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI oa nl w THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI d 1.1 Thơng tin tiếng nói an lu 1.2 Tín hiệu tiếng nói u nf va 1.3 Quá trình tạo tiếng nói ll 1.4 Cơ quan thính giác 10 m oi 1.5 Xử lý tiếng nói 12 z at nh 1.6 Thơng tin người nói tiếng nói 13 1.7 Biến đổi thơng tin người nói tiếng nói ứng dụng 15 z gm @ 1.8 Phương pháp biến đổi thay đổi tham số trực tiếp 16 CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG l m co DỤNG TRONG BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI 21 2.1 Kỹ thuật phân rã tiếng nói theo thời gian 21 an Lu 2.1.1 Phương pháp TD nguyên thủy 21 n va ac th iii si 2.1.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 24 2.1.3 Phương pháp MRTD 27 2.2 Một số kỹ thuật biến đổi thơng tin người nói dùng TD 32 2.2.1 Biến đổi thông tin người nói TD-GMM 32 2.2.2 Biến đổi thơng tin người nói HTD [12] 34 CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI TRONG TIẾNG NÓI 42 3.1 Ngữ âm tiếng Việt 42 3.2 Cơ sở liệu tiếng nói tiếng Việt 44 lu an 3.3 Tổng hợp tiếng nói tiếng Việt 47 n va 3.4 Lựa chọn sở liệu 47 3.5.1 Tiêu chí đánh giá 48 3.5.2 Thực nghiệm phương pháp 49 p ie gh tn to 3.5 Đánh giá phương pháp 48 w 3.5.3 Kết đánh giá 50 oa nl 3.5.4 Thảo luận 51 d KẾT LUẬN 53 lu ll u nf va an TÀI LIỆU THAM KHẢO 54 oi m z at nh z m co l gm @ an Lu n va ac th iv si DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt 44 Bảng 3.2: Sáu điệu tiếng Việt 44 Bảng 3.3 Các tham số thực nghiệm 49 Bảng 3.4 Kết đánh giá khách quan 50 Bảng 3.5 Kết đánh giá chủ quan ABX 50 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th v si DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói câu tiếng Việt Hình 1.2: Tiếng nói hữu Hình 1.3: Bộ phận cung cấp Hình 1.4: Dây âm Hình 1.5: Cấu trúc quan phát âm Hình 1.6: Hình dáng quan phát âm thay đổi trình phát âm Hình 1.7: Mơ hình hóa quan phát âm Hình 1.8: Biểu diễn mơ hình hóa quan phát âm đầy đủ máy tính 10 lu an Hình 1.9: Mơ hình quan thính giác 10 va n Hình 1.10: Thang tần số Bark 11 tn to Hình 1.11: Ngưỡng nghe 11 ie gh Hình 1.12: Mặt nạ thời gian (che âm liền trước liền sau) 12 p Hình 1.13: Mặt nạ tần số (che âm có tần số khác phát thời nl w điểm) 12 d oa Hình 1.14: Một số ứng dụng xử lý tiếng nói 13 an lu Hình 1.15: Hệ thống nhận dạng người nói – ứng dụng xử lý va thơng tin người nói 13 ll u nf Hình 1.16: Người nói khác có quan phát âm cách phát âm khác oi m dẫn tới tiếng nói khác 14 z at nh Hình 2.1: Ví dụ hai hàm kiện liền kề 25 Hình 2.2: Hàm kiện có tính chất “hình học chuẩn” “hình học không z chuẩn” 27 @ gm Hình 2.3: Thuật tốn chuẩn hóa vector kiện MRTD 31 m co l Hình 2.4: Hình vẽ hàm kiện nhận MRTD phân tích câu tiếng Nhật, số miền thời gian số khung 32 an Lu Hình 2.5: Phương pháp biến đổi TD-GMM 34 n va ac th vi si Hình 2.6: Mơ hình biến đổi giọng người nói HTD 35 Hình 2.7: Ví dụ phân tích / tái tạo tiếng nói MRTD với N khung K điểm kiện 37 Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ? ngã đường F0 ngã không thống mẫu vùng 43 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th vii si DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU Ký tự Ý nghĩa F0 Tần số dao động TD Phân rã theo thời gian RTD Giới hạn LSF Tham số đường phố lu an DLSF Các ràng buộc MRTD PP Phân rã tiếng nói theo thời gian giới hạn cải tiến GMM Mơ hình Gaussian hỗn hợp Mơ hình pha trộn Gausce n va TD- GMM Kỹ thuật phân rã ( kết hợp HTT+TD) Chỉ số hiệu PI Hiệu phổ PI-LSF p ie gh tn to HTD Thang điểm đánh giá chủ quan trung bình w MOS Hàm hiệu biên độ trung bình Phương pháp dự đốn tuyến tính d LP oa nl AMDF lu Kỹ thuật điều chế xung mã WAV Dữ liệu âm không nén PSTN Mạng điện thoại chuyển mạch công cộng ll u nf va an PCM m Tham số phổ đường ABX Thang điểm đánh giá theo cặp oi LSF z at nh z m co l gm @ an Lu n va ac th viii si MỞ ĐẦU Lý chọn đề tài Tiếng nói phương tiện giao tiếp người Vì tiếng nói loại hình thơng tin phổ biến hệ thống viễn thơng Tín hiệu tiếng nói mang nhiều thơng tin, thơng tin ngơn ngữ, thơng tin người nói, thơng tin cảm xúc nói,… Hầu hết hệ thống xử lý tiếng nói truyền thơng tập trung vào xử lý thơng tin ngơn ngữ để đảm bảo tiếng nói sau xử lý hiểu [1] lu Tuy nhiên để ứng dụng xử lý tiếng nói máy tính áp an dụng rộng rãi thực tế, tính tự nhiên tiếng nói xử lý cần va n quan tâm quan tâm nghiên cứu thời gian gần tn to [2] Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp) tự ie gh nhiên, vấn đề quan trọng cần đảm bảo thơng tin người p nói, bao gồm thơng tin chung người nói giới tính, độ tuổi,… nl w đến thơng tin chi tiết thơng tin nhận danh xác người nói d oa [5,6,7,9,10,11] an lu Các hệ thống tổng hợp tiếng nói nhân tạo thường tổng hợp va tiếng nói số giọng nói thu sẵn huấn luyện trước cho máy ll u nf tính Trong nhiều ứng dụng truyền thông đa phương tiện đại, việc biến z at nh ví dụ điển hình như: oi m đổi thơng tin người nói tín hiệu tiếng nói có vai trò quan trọng Một số - Trong phim lịch sử cần diễn viên nói với giọng giống với z giọng nhân vật lịch sử [6] @ gm - Trong clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát m co l diễn viên theo tiêu chí cụ thể khác cao hơn, trầm hơn, giống với nhân vật thật hơn,… [6] an Lu n va ac th si end catch % for unexpected errors LSFy_match = LSFy(:, 1:size(LSFx, 2)); F0y_match = f0rawY(1:length(f0rawX)); %disp('unexpected error'); end lu n3sgramY_match=lsf2spc(LSFy_match,P,PLx); yt_match = exstraightsynth(F0y_match,n3sgramY_match,apX,fsS,pram); %Synthesis dBsy=powerchk(yt_match,fsS,15); cf=(20*log10(32768)-22)-dBsy; yt_match=yt_match*(10.0.^(cf/20)); wavwrite(yt_match/(max(abs(yt_match))+1),fsS,[dirNameOut, lsWavefilesS(i).name]); end an n va tn to p ie gh end d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th 41 si CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THƠNG TIN NGƯỜI NĨI TRONG TIẾNG NĨI Các phương pháp biến đổi thơng tin người nói hướng tới mơ hình độc lập ngơn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngơn ngữ cụ thể, chí khác đánh giá sở liệu khác lu Luận văn tập trung vào việc đánh giá phương pháp thay đổi an tham số trực tiếp, thay tiếng nói theo mẫu [9], phương pháp sử dụng kỹ va n thuật phân rã tiếng nói theo thời gian với tiếng nói tiếng Việt Qua đó, gh tn to xác định phương pháp phù hợp với tiếng nói tiếng Việt lớp ứng ie dụng cụ thể p 3.1 Ngữ âm tiếng Việt nl w Tiếng Việt ngôn ngữ thức quốc ngữ Việt Nam Nó d oa 90 triệu người Việt sử dụng hàng ngày Khoảng triệu người an lu Việt nước thường xuyên sử dụng tiếng Việt u nf va Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Hoàng Phê [2] Đoàn Thiện Thuật [3] ll oi m a,Cấu trúc âm tiết tiếng Việt z at nh Tiếng Việt ngôn ngữ đơn âm có điệu điển hình [3] Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 z nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết @ l gm bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt m co mơ tả hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần an Lu điệu tiếng Việt [11, 14] n va ac th 42 si Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần vần khơng tồn với số âm tiết cịn nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) ngun âm đơi (diphthong) Đi vần phụ âm bán nguyên âm (semi-vowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt b Thanh điệu tiếng Việt lu an Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn n va ngơn ngữ có điệu Có sáu điệu phân biệt tn to tiếng Việt bảng 3.2 hình 3.1 Mỗi điệu có đường tần Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm p ie gh số (F0) xác định w mở Âm tiết đóng kết thúc với vần /p/, /t/, /k/ kết hợp với oa nl sắc nặng âm tiết mở âm tiết đóng khác d kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa ll u nf va an lu oi m z at nh z l gm @ m co Hình 3.1: Đường F0 sáu điệu tiếng Việt theo, dấu ? ngã đường F0 ngã không thống mẫu vùng an Lu n va ac th 43 si Bảng 3.1: Cấu trúc âm tiết tiếng Việt Thanh điệu Phần vần Phần đầu âm tiết Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2: Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh lu an n va Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop p ie gh tn to 3.2 Cơ sở liệu tiếng nói tiếng Việt oa nl w Nghiên cứu xử lý tiếng nói tiếng Việt khoảng thập kỷ d Tuy nhiên, số lượng nghiên cứu khơng nhiều Một lí an lu dẫn tới phát triển nghiên cứu xử lý tiếng nói tiếng Việt chưa thực ll cậy chuẩn hóa u nf va mạnh mẽ chưa có nhiều sở liệu tiếng nói tiếng Việt tin oi m Ở Việt Nam, thơng thường nhóm nghiên cứu tự xây dựng z at nh sở liệu tiếng nói để thực nghiệm Do giới hạn thời gian, kiến thức, kinh phí dẫn tới sở liệu thường không đủ lớn chất z gm @ lượng chưa cao Ngồi ra, việc nhóm nghiên cứu sử dụng sở liệu riêng dẫn tới việc phối hợp nghiên cứu nhóm nghiên cứu l m co khó khăn, nhiều an Lu n va ac th 44 si Trong phần này, liệt kê số sở liệu tiếng nói tiếng Việt sử dụng phổ biến nghiên cứu xử lý tiếng nói tiếng Việt gần a Cơ sở liệu số điện thoại Cơ sở liệu tiếng nói xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [16] Định dạng âm PCM WAV với tần số lấy mẫu tần số lấy mẫu hệ thống điện thoại công cộng PSTN 8KHz Mã hóa 16 bit / mẫu Kích cỡ sở liệu nhỏ với 1541 từ mô tả số điện thoại Phần đầu bao gồm 170 người nói với lu an 94 đàn ơng 76 phụ nữ đến từ địa phương khác khu vực n va miền Bắc Phần hai gồm 208 người nói bao gồm 130 đàn ơng 78 phụ nữ tn to đến từ địa phương khu vực miền Nam Cơ sở liệu gán nhãn b.Cơ sở liệu tiếng nói phát VOV p ie gh mức âm vị w Bộ sở liệu xây dựng Viện Công nghệ thông tin, oa nl Viện hàn lâm, khoa học công nghệ Việt Nam [16] Bộ sở liệu gồm d câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát lu va an sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng u nf RealAudio sưu tập từ website VOV chuyển đổi dạng âm ll PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz m oi Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết z at nh Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân z biệt khơng tính điệu 1646 bao phủ gần toàn âm tiết tiếng gm @ Việt Kích cỡ sở liệu khoảng 2.5 GB l Bộ sở liệu lựa chọn cân người nói m co phiên gán nhãn tay mức âm tiết Mặc dù khăn chưa có nhãn gán mức âm vị an Lu sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó n va ac th 45 si c Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [16] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit / mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao lu an gồm thơng tin điệu Mặc dù kích cỡ nhỏ, xem n va sở liệu chất lượng cao việc thiết kế kịch văn đảm bảo độ cân tn to âm cao việc gán nhãn mức âm vị xác Đây sở liệu xây dựng Trung tâm nghiên cứu quốc p ie gh d Cơ sở liệu MICA VNSpeech w tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 oa nl người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu d hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, lu va an miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 u nf KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [12] ll Mặc dù sở liệu xem sở liệu tiếng nói lớn với m oi chất lượng thu âm cao, nhãn mô tả sở liệu tạo z at nh phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng z sở liệu nghiên cứu xử lý tiếng nói tiếng Việt gm @ e Các sở liệu khác l Gần đây, số nhóm nghiên cứu cố gắng thu thập nguồn tài m co nguyên tiếng nói để xây dựng sở liệu tiếng nói tiếng Việt lớn, ví an Lu dụ sở liệu tin tức phát tiếng Việt (VNBN) với khoảng 40 sở liệu đàm thoại với khoảng 11 tiếng nói [15] Tuy n va ac th 46 si nhiên sở liệu chưa gán nhãn gán nhãn mức âm vị Do chúng chưa sử dụng rộng rãi nghiên cứu xử lý tiếng nói tiếng Việt 3.3 Tổng hợp tiếng nói tiếng Việt Chuyển đổi thơng tin người nói xem nhánh nghiên cứu tổng hợp tiếng nói Do đó, phần chúng tơi điểm lại số nghiên cứu tổng hợp tiếng nói tiếng Việt Tổng hợp tiếng nói tiếng Việt bắt đầu nghiên cứu khoảng hai thập kỷ trở lại Hai tổng hợp tiếng nói tiếng Việt coi sơ khai lu an VnSpeech [14] sử dụng công nghệ tổng hợp formant VnVoice [11] sử n va dụng kỹ thuât ghép nối đơn vị âm Chất lượng tổng hợp tn to chưa cao, chúng gần không phát triển tiếp gh Một số tổng hợp tiếng nói tiếng Việt thương mại hóa p ie tổng hợp tiếng nói phương Nam (VOS) [15], Hoa Súng [17] w Đây tổng hợp dựa kỹ thuật ghép nối mức âm tiết, d liệu oa nl hay mức từ Chúng tổng hợp tốt với giọng người nói sở lu va an Tuy nhiên hệ thống chưa tích hợp khả chuyển đổi giọng u nf người nói để tổng hợp nhiều giọng khác ll Gần đây, hệ thống tổng hợp tiếng nói dùng phương pháp thống kê m oi GMM nghiên cứu phát triển [11], nhiên vấn đề chuyển đổi z at nh giọng người nói để tổng hợp nhiều giọng nói đầu khác z chưa quan tâm nghiên cứu gm @ 3.4 Lựa chọn sở liệu l Dựa phân tích sở liệu tiếng Việt có mục 3.3, m co lựa chọn sở liệu tiếng Việt DEMEN567 (làm liệu an Lu nguồn) VOV-HMM (làm liệu đích) để thực nghiệm đánh giá cho luận văn n va ac th 47 si 3.5 Đánh giá phương pháp 3.5.1 Tiêu chí đánh giá a Đánh giá khách quan Phương pháp đánh giá khách quan áp dụng có người nói nguồn người nói đích xác định sử dụng phổ biến hệ thống chuyển đổi giọng người nói người pháp số hiệu PI (performance index) PI với tham số phổ LSF tính cơng thức 3.1 PI LSF ELSF (t (n), tˆ(n)) ELSF (t (n), s(n)) (3.1) lu an Trong đó, t(n) biểu diễn mẫu tiếng nói giọng đích, s(n) biểu diễn mẫu n va tiếng nói giọng nguồn, tˆ(n) biểu diễn mẫu tiếng nói chuyển đổi từ gh tn to nguồn thành đích ELSF sai số LSF trung bình tính cơng thức 3.2 p ie ELSF ( A, B) L P ( LSFAl ,i LSFBl ,i ) L l 1 P i 1 (3.2) nl w Với L tổng số khung tiếng nói (sau thời gian để tổng số d oa khung trùng khớp), P số hệ số LSF an lu PI LSF = hệ thống chuyển đổi khơng giống hệ thống đích chút u nf va PI LSF = hệ thống chuyển đổi hoàn toàn giống hệ thống đích ll Giữa lớn giống đích Phương pháp đánh giá khách quan m oi áp dụng để đánh giá phương pháp biến đổi giọng người nói thay z at nh khung phương pháp thống kê GMM không áp dụng với phương pháp thay đổi tham số trực tiếp người nói đích khơng xác z gm @ định cụ thể l b Đánh giá chủ quan m co Trong phương pháp đánh giá chủ quan, phương pháp áp dụng an Lu rộng rãi hệ thống chuyển đổi giọng nói có người nói nguồn đích xác định phương pháp ABX [10] Trong A người nói nguồn, B n va ac th 48 si người nói đích, X giọng nói chuyển đổi từ A thành B Người nghe nghe thử giọng nói A B trước Sau đánh giá nghe mẫu chuyển đổi đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ đến Điểm tức giọng chuyển đổi giống giọng nguồn A, điểm tức giọng chuyển đổi giống giọng đích B Phương pháp đánh giá áp dụng để đánh giá phương pháp chuyển đổi giọng với người nói nguồn đích xác định Trong trường hợp người nói đích khơng xác định, phương pháp ABX áp dụng có thay đổi, theo điểm giống giọng nguồn lu an điểm nghĩa giống giọng đích mà “rất khác” giọng nguồn n va 3.5.2 Thực nghiệm phương pháp tn to Phương pháp HTD thực nghiệm so sánh với phương pháp gh HTT TD-GMM Các tham số thực nghiệm sử dụng phương pháp p ie cho bảng: d oa nl w Bảng 3.3 Các tham số thực nghiệm Tần số lấy mẫu DEMEN VOV-HMM 11025 Hz lấy mẫu lại Chiều dài khung ms lu an Độ dịch khung ms va 20 u nf Số chiều LSF Số thành phần GMM ll 20 m oi Số điểm kiện / âm vị z at nh Khi thực nghiệm ba phương pháp với sở liệu tiếng Việt z (DEMEN567m VOV-HMM), 400/567 cặp câu tiếng Việt sở @ gm liệu DEMEN567 VOV-HMM sử dụng để huấn luyện (với TD- m co l GMM) tìm kiếm / thay (với HTT HTD) 30 cặp câu khơng có tập liệu huấn luyện tập liệu để tìm kiếm / thay sử dụng để an Lu đánh giá Phân tích mức độ bao phủ mặt âm vị câu tập huấn n va ac th 49 si luyện câu tập đánh giá cho thấy 100% âm vị tập đánh giá (30 câu) nằm tập âm vị tập liệu huấn luyện tập liệu tìm kiếm / thay (400 câu tiếng Việt) Phương pháp đánh giá khách quan PI tính tự động theo công thức (9) Phương pháp đánh giá chủ quan thực với 05 người đánh giá người Việt sinh viên độ tuổi 18 đến 20 trường Đại học Công nghệ thông tin truyền thơng, Đại học Thái Ngun, có khả nghe bình thường Do mục đích phần đánh giá chủ quan ABX đánh giá giọng nói X giống với người nguồn A hay người đích B vấn đề độc lập ngôn ngữ, lu an không cần người đánh giá phải hiểu ngữ nghĩa mẫu tiếng nói n va đánh giá Chính vậy, 05 sinh viên người Việt lựa chọn để thực tn to đánh giá ABX với phần liệu tiếng Việt Điểm MOS đánh giá điểm 3.5.3 Kết đánh giá p ie gh ABX trung bình tất mẫu đánh giá w Như trình bày phần trước, phương pháp đánh giá chủ quan oa nl ABX đánh giá khách quan bẳng hiệu phổ PI_LSF đánh giá d hiệu chuyển đổi người nói phương pháp thay khung HTT lu va an phương pháp thống kê TD-GMM) ll u nf Bảng 3.4 Kết đánh giá khách quan Phương pháp PI_LSF Thay khung HTT 0.663 TD-GMM 0.468 HTD 0.612 Bảng 3.5 Kết đánh giá chủ quan ABX Phương pháp MOS Thay khung HTT 3.8 TD-GMM 3.2 HTD 3.6 oi m z at nh z m co l gm @ an Lu n va ac th 50 si Kết đánh giá Bảng 3.4, 3.5 cho thấy hiệu biến đổi giọng người nói phương pháp HTD cao phương pháp TD-GMM gần tương đương với HTT (đặc biệt với đánh giá chủ quan) với sở liệu kích cỡ trung bình tiếng Việt thử nghiệm Kết đánh giá bảng 3.4 3.5 cho thấy phương pháp thay khung có hiệu rõ rệt phương pháp GMM có tác dụng chuyển đổi giọng nói có hiệu vừa phải Tất nhiên phải lưu ý phương pháp thay khung có nhược điểm địi hỏi sở liệu tìm kiếm phải đủ lớn cịn phương pháp GMM khơng u cầu liệu huấn luyện lớn lu an 3.5.4 Thảo luận n va Phương pháp biến đổi giọng người nói HTD tận dụng ưu điểm tn to phương pháp HTT TD-GMM gh So với TD-GMM, phương pháp HTD có chất lượng tiếng nói chuyển p ie đổi cao hẳn sở liệu vừa phải lựa chọn để đánh giá w thực nghiệm thay phương pháp huấn luyện / biến đổi thống kê với oa nl GMM phương pháp thay vật lý trực tiếp Cả TD-GMM HTD d sử dụng sở liệu tiếng nói đích gán nhãn mức âm vị yêu cầu lu va an sở liệu đích bao phủ hết âm vị u nf So với HTT, tương đương hiệu chuyển đổi giọng ll nói, HTD thể 03 ưu điểm bật sau m oi Thứ nhất, HTT yêu cầu liệu đích phải lớn đảm bảo z at nh độ trơn tiếng nói sau thay ghép nối Trong đó, độ trơn z tiếng nói sau thay HTD đảm bảo hàm kiện nguồn gm @ vốn trơn giữ nguyên, không thay đổi q trình thay Do đó, l u cầu độ lớn liệu đích với HTD nhỏ HTT m co Thứ hai, yêu cầu sở liệu người nói đích vừa phải an Lu điểm kiện vector thưa với độ dài ngắn nhiều so với vector n va ac th 51 si khung tiếng nói (K