tổng hợp tiếng nói sử dụng giải thuật td psola

101 639 1
tổng hợp tiếng nói sử dụng giải thuật td psola

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ VÕ VĂN NGUYÊN TỔNG HỢP TIẾNG NÓI SỬ DỤNG GIẢI THUẬT TD_PSOLA S K C 0 9 NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 S KC 0 Tp Hồ Chí Minh, 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SĨ VÕ VĂN NGUYÊN TỔNG HỢP TIẾNG NÓI SỬ DỤNG GIẢI THUẬT TD_PSOLA NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 Tp Hồ Chí Minh, tháng 03 năm 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SĨ VÕ VĂN NGUYÊN TỔNG HỢP TIẾNG NÓI SỬ DỤNG GIẢI THUẬT TD_PSOLA NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 Hướng dẫn khoa học: PGS.TS DƯƠNG HOÀI NGHĨA Tp Hồ Chí Minh, tháng 03 năm 2013 LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC: Họ & tên: Võ Văn Nguyên Giới tính: Nam Ngày, tháng, năm sinh: 02/04/1985 Nơi sinh: Đồng Tháp Quê quán: Đồng Tháp Dân tộc: Kinh Chỗ địa liên lạc: Số 9, Tổ 5, Ấp 1, Mỹ Trà, Cao Lãnh, Đồng Tháp Điện thoại quan: Điện thoại nhà riêng: Fax: E-mail: vovannguyen1985@gmail.com II QUÁ TRÌNH ĐÀO TẠO: Trung học chuyên nghiệp: Hệ đào tạo: Thời gian đào tạo từ …/… đến …/ … Nơi học (trường, thành phố): Ngành học: Đại học: Hệ đào tạo: quy Thời gian đào tạo từ 2003 đến 2008 Nơi học (trường, thành phố): Trường Đại học sư phạm kỹ thuật TP Hồ Chí Minh Ngành học: Kỹ Thuật Điện Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: Thiết kế thi công Kit thí nghiệm vi xử lý đa 8051, AVR, PIC Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 10/2008, Trường đại học sư phạm kỹ thuật TP Hồ Chí Minh Người hướng dẫn: Ths Nguyễn Thanh Bình Trang i III QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian 2008 - 2006 - 2010 2010 - 2012 Nơi công tác Trường Đại học Công Nghệ Sài Gòn Nhà Văn hóa Sinh viên TP HCM (Cộng tác viên) Công việc đảm nhiệm Giảng viên, khoa Điện – điện tử Quản lý thiết bị điện tòa nhà, hệ thống âm - ánh sáng sân khấu Công ty Thang máy Đại Thiên Ân Nhân viên thiết kế mạch điện (Cộng tác viên) Trang ii lập trình điều khiển thang máy LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tp Hồ Chí Minh, ngày 02 tháng 04 năm 2013 (Ký tên ghi rõ họ tên) Võ Văn Nguyên Trang iii CẢM TẠ Lời em xin gửi lời tri ân đến quý Thầy Cô khoa Điện điện tử trường Đại học sư phạm kỹ thuật TP Hồ Chí Minh Thầy PGS.TS Dương Hoài Nghĩa Qua thời gian theo học trường từ năm 2011 đến 2013, với phấn đấu thân em giảng dạy quý báo quý Thầy Cô khoa Điện điện tử trường Đại học sư phạm kỹ thuật TP Hồ Chí Minh, mà đặc biệt Thầy Dương Hoài Nghĩa hướng dẫn em hoàn thành Chuyên đề 1, Chuyên đề Luận văn tốt nghiệp Hôm em đến phần cuối khóa học, thành mà học viên cao học mong muốn đạt sớm Để cảm tạ hỗ trợ quý giá quý Thầy Cô bạn giúp đở, hỗ trợ cho em thời gian qua, em kính chúc đến quý Thầy Cô bạn nhiều sức khỏe, thành công nhiều chúc nhà chung Trường đại học sư phạm kỹ thuật TP Hồ Chí Minh ngày phát triển mạnh Em chân thành cảm ơn HỌC VIÊN Võ Văn Nguyên Trang iv TÓM TẮT Ngày với phát triển công nghệ, làm cho việc trao đổi thông tin người với trở nên phong phú hơn, truyền thông tiếng nói phương thức trội xã hội loài người việc trao đổi thông tin Các từ ngữ ngày mở rộng thông qua phương tiện mang tính công nghệ như: điện thoại, truyền thanh, truyền hình Internet Với hỗ trợ mạnh mẽ công nghệ máy tính phương tiện truyền thông tiếng nói đòi hỏi ngày cao Nên hệ thống tổng hợp tiếng nói cần phải có khả tổng hợp câu chữ, mức độ tự nhiên, Một mục tiêu quan trọng tổng hợp tiếng nói tiếng nói tổng hợp phải đạt đến độ tự nhiên tối đa, đồng thời để áp dụng vào nhiều lĩnh vực sống phải có khả linh hoạt Hiện nhà khoa học giới, đưa nhiều giải thuật áp dụng nhằm thỏa mãn yêu cầu này, số giải thuật TD_PSOLA Giải thuật TD_PSOLA trình phân tích tín hiệu thực ban đầu thành chuỗi tín hiệu thành phần, mà đoạn tín hiệu thành phần chứa tần số khác nhau, sau thực thay đổi thành phần tần số theo tỉ lệ cường độ (Pitch) theo tỉ lệ thời gian (Time), cuối cộng chồng lấn chuỗi tín hiệu thành phần lại với ta tín hiệu Hệ thống tổng hợp tiếng nói tiếng Việt từ văn chia thành hai mức xử lý tổng hợp mức cao tổng hợp mức thấp: + Tổng hợp mức cao: trình xử lý văn tiếng Việt có dấu đầu vào, phân tích cách phát âm từ, phân tích ngôn điệu câu cuối tạo đơn vị tiếng nói (diphone) Trang v + Tổng hợp mức thấp: trình ghép nối đơn vị tiếng nói lại theo trình tự văn đầu vào, xử lý tín hiệu sau ghép nối cách làm trơn tín hiệu, điều khiển tần số cuối biểu diễn tiếng nói đầu hệ thống Trong luận văn này, em sử dụng giải thuật TD_PSOLA để áp dụng cho việc tổng hợp tiếng Việt dựa đặc thù riêng mặt ngữ âm Qua sáu tháng thực nghiệm nghiên cứu đề tài Tổng hợp tiếng nói (tiếng Việt) sử dụng giải thuật TD_PSOLA với giáo viên hướng dẫn Thầy PGS.TS Dương Hoài Nghĩa, đến thu kết khả quan: + Đạt mục tiêu đề việc xây dựng quản lý hệ thống sở liệu linh hoạt phần mềm Matlab, sở liệu giới hạn phạm vi câu nói + Dung lượng nhớ tương ứng 209 diphone 779 KB + Xử lý văn tiếng Việt đầu vào hệ thống tổng hợp tiếng nói, văn đầu vào không phân biệt chữ hoa hay chữ thường, nhập trực tiếp giao diện GUI Matlab phần mềm Microsoft Word + Chất lượng tiếng nói tổng hợp tương đối tự nhiên + Hệ thống hoạt động ổn định tiện lợi Cấu trúc nội dung báo cáo luận văn tốt nghiệp gồm có bốn chương trình bày cụ thể sau: Chương 1: Tổng quan tổng hợp tiếng nói Chương 2: Cơ sở lý thuyết Chương 3: Thiết kế chương trình Tổng hợp tiếng nói tiếng Việt Chương 4: Kết luận hướng phát triển Trang vi ABSTRACT Today with the development of technology has made the exchange of information amongst people become richer, voice communication is still the most dominant mode of human society in the exchangeinformation The word has increasingly been extended through the means of bringing technologies such as: telephone, radio, TV and Internet With the strong support of computer technology so media voices also requires increasing A voice system should have the ability to synthesize words, the level of natural One of the most important objectives of the speech synthesizer is to voice synthesis to achieve maximum natural, and to be able to apply to many areas of life, it must have a flexibility Currently scientists around the world have given quite a lot of algorithms are applied to satisfy these requirements, one of which was that TD_PSOLA algorithm Algorithm TD_PSOLA the analysis of the original real signal into the signal chain components, where each segment contains a frequency component signals are fundamentally different, then make changes to the fundamental frequency component intensity ratio (Pitch) or by the percentage of time (time), finally overlaps add the signal chain components together, we get the new signal Vietnamese speech synthesis system from the text is divided into two levels of treatment which is a combination of high and low level synthesis: + High Level Synthesis: text processing accented Vietnamese input, the pronunciation of the word analysis, metrics analysis of sentences and finally create the voice unit (diphone) + Low Level Synthesis: is the process of pairing the unit voices in the order of the text input, signal processing after pairing by smoothing the signal, the Trang vii Nếu hai tỉ lệ tiếng nói ban đầu tiếng nói sau chạy qua giải thuật không bị thay đổi Hình 3.17: Giao diện tổng hợp với tham số Pitch Time Nếu tỉ lệ Pitch = 0.8 Time = 0.9 tiếng nói tổng hợp thay đổi theo ngữ điệu câu trần thuật (câu loại 1): tương ứng với dấu: “.”, “;” “)”, “]”, “}” Trang 67 Hình 3.18: Giao diện tổng hợp với tham số Pitch 0.8 Time 0.9 Nếu tỉ lệ Pitch = 1.2 Time = tiếng nói tổng hợp thay đổi theo ngữ điệu câu lên giọng cuối câu (câu loại 3): dấu “,”, “!” Hình 3.19: Giao diện tổng hợp với tham số Pitch 1.2 Time Trang 68 3.6.6 Lƣu trữ quản lý sở liệu Sau có diphone mong muốn rồi, lúc chương đặc phải lưu trữ diphone cho tiện lợi việc quản lý thao tác với cách nhanh chống Để thuận tiện quản lý file liệu dạng wav phải lưu lại hệ thống database matlab dạng file mat Khi thực lưu trữ phải theo quy tắc sau: + Tạo file có tên txtfile.txt để lưu trữ tên diphone vào đó, diphone dòng + Viết chương trình để lấy liệu từ file wav với tên file wav lưu txtfile.txt, sau lưu liệu lên Mydatabase.mat theo quy luật sau: Vị trí [1] lưu chiều dài tên diphone wav, từ vị trí [2, ,19] lưu tên diphone wav, vị trí [20] lưu vị trí bắt đầu liệu diphone, vị trí [21] lưu chiều dài liệu diphone, từ vị trí [22, ,4000] lưu data diphone Quá trình lưu trữ lập lại liên tục với chu kỳ toàn diphone lưu Mydatabase.mat Lần 1 19 20 21 22 4000 Lần 4001 4002 4019 4020 4021 4022 8000 Bảng 3.3: Thứ tự liệu lưu trữ Mydatabase.mat + Để lấy liệu thực thi ứng dụng, khởi động hệ thống, toàn liệu lưu Mydatabase.mat lấy theo quy luật lưu vào, sau lưu liệu sổ workspace Matlab (trên RAM) để đảm bảo tốc độ xử lý máy tính diễn cách nhanh Trang 69 Hình 3.20: Giao diện quản lý sở liệu Để load diphone mẫu lên lưu lại người sử dụng phải nhập tên tập tin chứa có tên diphone vào, ví dụ: Namebase ID txtfile.txt Trên hình 3.20 cho biết thông tin tên diphone (name), số lượng diphone (Number), kích thước diphone (Size), vị trí diphone (Pointer) Hình 3.21: Tập tin lưu tên txtfile.txt cửa sổ workspace Trang 70 Trên hình 3.22 thể liệu diphone lưu vùng không gian làm việc Wordspace Matlab sẳn sàn cho thực thi ứng dụng Việc làm để đảm bảo việc truy cập diphone thực nhanh lúc sở liệu hoàn toàn có RAM Mô hệ thống tổng hợp tiếng nói tiếng Việt từ văn “Đài tiếng nói đại học sư phạm kỹ thuật” thu kết sau: Tin hieu mien tan so Do lon (dB) 20 -20 -40 500 1000 1500 2000 2500 Tan so (Hz) Tin hieu mien thoi gian 3000 3500 4000 Bien 0.05 -0.05 0.5 1.5 Thoi gian (S) 2.5 x 10 Hình 3.22: Kết mô tổng hợp tiếng nói từ văn Trang 71 CHƢƠNG KẾT LUẬN Trải qua thời gian thực Chuyên đề 1, Chuyên đề Luận văn Tổng hợp tiếng nói sử dụng giải thuật TD_PSOLA, bước đầu thực đề tài gặp nhiều khó khăn, tìm hiểu phần mềm Matlab lý thuyết Xử lý tiếng nói Tuy nhiên hỗ trợ tận tình Thầy PGS.TS Dương Hoài Nghĩa đầu tư thân em, đến luận văn tốt nghiệp hoàn thành đạt yêu cầu đề sau: + Tìm hiểu phần mềm Matlab + Lý thuyết tiếng nói, xử lý tín hiệu tiếng nói biểu diễn tín hiệu tiếng nói + Tìm hiểu phương pháp tổng hợp tiếng nói từ văn + Thiết kế chương trình Tổng hợp tiếng nói tiếng Việt sử dụng giải thuật TD_PSOLA 4.1 Đánh giá kết a Cơ sở liệu Số lượng diphone xây dựng 209 diphone, giới hạn tình giao tiếp Toàn liệu diphone lưu Mydatabase.mat, file có dung lượng tương ứng 209 diphone 779 KB Khi khởi động, hệ thống tổng hợp tiếng nói load toàn 209 diphone lên sổ workspace matlab (trên RAM), mục đích giúp việc truy cập liệu thực nhanh chống CSDL Diphone CSDL Từ Kích thước mẫu 4000 byte / diphone 16000 byte / từ Số lượng mẫu 209 diphone Khoảng 500 từ Trang 72 Kích thước sở liệu 779 KB Khoảng 11MB Bảng 4.1: Tổng kết so sanh sở liệu xây dựng a Khả tổng hợp tiếng nói từ văn Văn đầu vào không phân biệt chữ viết hoa chữ viết thường, nhập theo hai cách: nhập trực tiếp lên EditText giao diện hệ thống tổng hợp tiếng nói nhập vào từ file word_read1.doc Tiếng nói tổng hợp dễ nghe tương đối tự nhiên b Biến đổi tần số để tạo điệu, ngữ cảnh Việc biến đổi tần số diphone không dấu để tạo diphone có dấu chất lượng không tốt so với phương pháp xây dựng trực tiếp diphone có dấu Thay đổi tần số diphone sau ghép nối để tạo ngữ cảnh đạt chất lượng cao 4.2 Hƣớng phát triển đề tài Ngày lĩnh vực công nghệ phát triển vượt bậc, chất lượng công nghệ ngày nâng cao Với khả tích hợp vi mạch điện tử làm cho nhà thiết kế phần mềm bận tâm dung lượng nhớ Đó lý mà đề tài không quan tâm nhiều đến dung lượng nhớ lưu trữ diphone, mà đặc biệt quan tâm đến chất lượng tính ứng dụng Để phát triển đề tài lớn hơn, từ kết đạt cần phải giải vấn đề mang tính ứng dụng hoàn chỉnh với tiêu chí sau: + Xây dựng hệ thống sở liệu hoàn chỉnh diphone tiếng Việt + Xử lý trực tiếp văn đầu vào từ website + Nhúng hệ thống tổng hợp tiếng nói tiếng việt lên thiết bị di dộng + Thiết kế ứng dụng đọc báo điện tử online Trang 73 TÀI LIỆU THAM KHẢO TIẾNG VIỆT Phạm Văn Sự, Lê Xuân Thành, Bài giảng xử lý tiếng nói, Học viện Công nghệ Bưu viễn thông, 2010 Lê Hồng Minh, Quách Tuấn Ngọc, Một số kết phân tích ngữ âm để tổng hợp tiếng nói, Đại học Bách khoa hà nội, 2005 Lê Tiến Thường, Bài giảng Xử lý số tín hiệu, Đại học Bách Khoa TP Hồ Chí Minh, 2010 TIẾNG NƯỚC NGOÀI A Cherif, Arabic speech synthesis interface under Matlab, L.S.E laboratory Science Faculty of Tunisia Vincent Colotteand and Yves Laprie, Higher Precision Pitch Marking For TD_PSOLA, Loria, Campus scientifique, BP 239, F-54506 Vandoeuvre-lèsNancy, France Dr Gregor Rozinaj, Usage of TD_PSOLA algorithm in slovak speech synthesis based on the EMU database system, Andrej VRÁBEL, Bachelor Degree Programme Dept of Telecommunications, FEI STU Bratislava Cheng-Yuan Lin and Jyh-Shing Roger Jang, A Tow-Phase Pitch Marking Method for TD_PSOLA Synthesis, Dept.of Comuter Science, National Tsing Hua University, Taiwan Akshay Rangamani, Voice Conversion Transformation, EE09B002, 2012 Trang 74 Using PSOLA and Pitch Sean A Fulop, Speech Spectrum Analysis, Department of Linguistics California State University Fresno, 2011 10 Daniel Povey, Estimation for Speech Processing with Matlab or Octave, 2009 11 Paul Tayloy, Text-to-Speech Synthesis, University of Cambridge, 2009 12 Mark Tatham, Developments in speech synthesis, Department of Language and Linguistics, University of Essex, UK, 2005 13 Nader Abu Ghattas & Hanna Abdel Nour, Text-to-Speech Synthesis by Diphones for Modern Standard Arabic, Department of Electronic Engineering Faculty of Engineering Al-Quds University Jerusalem, Palestine, 2005 Trang 75 PHỤ LỤC Phụ lục 1: Bảng mã TCVN3 – ABC ký tự tiếng Việt chữ thường Ký tự Mã TCVN3 Ký tự Mã TCVN3 181 ế 213 184 ể 211 ả 182 ễ 212 ã 183 ệ 214 185 ì 215 ă 186 í 221 ằ 187 ỉ 216 ắ 190 ĩ 220 ẳ 188 ị 222 ẵ 189 đ 174 ặ 198 ò 223 â 169 ó 227 ầ 199 ỏ 225 ấ 202 õ 226 ẩ 200 ọ 228 ẫ 201 ô 171 ậ 203 229 è 204 ố 232 é 208 ổ 230 ẻ 206 ỗ 231 ẽ 207 ộ 233 ẹ 209 172 ê 170 234 ề 210 237 Trang 76 235 173 ỡ 236 245 ợ 238 ứ 248 ù 239 246 ú 243 ữ 247 ủ 241 ự 249 ũ 242 ỳ 250 ụ 244 ý 253 ỷ 251 ỹ 252 b 98 ỵ 254 c 99 p 112 d 100 q 113 g 103 r 114 h 104 s 115 j 106 t 116 k 107 f 102 l 108 v 118 m 109 x 120 n 110 z 122 48 53 49 54 50 55 51 56 52 57 , 44 * 42 46 : 58 + 43 = 61 - 45 ‘’ 32 Trang 77 Phụ lục 2: Bảng diphone tiếng Việt lưu sỡ liệu aafy afnh ajc aji ajm ajn ajy ao ari aro ary asc awm awn een eesn eest em ieejn ieejp ieen ieesn ieesng ifnh in inh isnh oa ojc ojt oorng oost osi owjp owsi uaajn uaajt uaast usc usng uwfng uwjc uwowfng ba_ baf_ baj_ bar_ bas_ bi_ boj_ boor_ buwf_ ca_ caaf_ caf_ caj_ car_ cas_ caw_ chaj_ char_ chi_ chiees_ chis_ choj_ choos_ chos_ chowj_ chus_ chuwf_ cowj_ cus_ cuwj_ cuwowf_ ddaj_ ddar_ dde_ ddi_ ddieej_ ddoj_ ddoos_ ddowj_ ddus_ dduwowf_ duwf_ gar_ giar_ gos_ ha_ haj_ har_ hee_ hees_ hieej_ hif_ hoj_ howj_ huwf_ ke_ kee_ khi_ kho_ khuaas_ ki_ kieej_ kiees_ kis_ Trang 78 la_ laj_ le_ lee_ li_ lis_ lo_ loj_ luaaj_ lus_ luwj_ luwowf_ ma_ maaf_ maj_ mar_ mas_ mee_ mi_ mif_ mows_ muwf_ muwj_ muwowf_ na_ naj_ naw_ nee_ ngaj_ nghieej_ ngoj_ nhaj_ ni_ niee_ noj_ nos_ nowj_ phaj_ phows_ phus_ quaas_ roor_ rus_ ruwf_ ta_ taj_ tas_ taw_ te_ tee_ tees_ thaaf_ thaf_ thaj_ thar_ thieej_ this_ thos_ thuaaj_ thus_ thuwj_ ti_ tiee_ tieej_ tiees_ tif_ tis_ to_ toor_ toos_ tows_ traw_ troj_ truwowf_ tuaas_ tus_ tuwf_ vaw_ viee_ xi_ xuaas_ anh ca coo chis ddi gia hix hoof kyx laf mix own phoos phos Six suw tix tuwr Veej vox Trang 79 Phụ lục 3: Code chương trình matlab STT Tên chương trình gui_record.m gui_record.fig gui_cute2.m gui_cute2.fig gui_cute.m gui_cute.fig gui_sumdiphone.m gui_sumdiphone.fig gui_tdpsola.m gui_tdpsola.fig gui_database.m gui_database.fig gui_final.m gui_final.fig Chức làm việc Ghi âm xử lý liệu sau thu âm Tách từ câu ghi âm Tách từ thành diphone tương ứng Thực nghiệm ghép nối hai diphone với Phân tích tiếng nói giải thuật TD_PSOLA Quản lý lưu trữ liệu sở liệu Chương trình tổng hợp tiếng nối tiếng việt gui_menu.m Giao diện hệ thống tổng hợp tiếng nói gui_menu.fig tiếng Việt readfileword1.m Xử lý tổng hợp tiếng nói từ file Word 10 tdpsola.m Giải thuật TD_PSOLA 11 find_pmarks.m Tìm đỉnh pitch (tần số bản) 12 energy.m Hàm xác định mức lượng tín hiệu 13 diphonecuter.m Tách tên từ thành hai diphone tên 14 diphonenomark.m Chuyển ký tự telex sang kiểu ký tự không dấu 15 window.m Tính toán cửa sổ thích nghi 16 word_read1.doc Nhập nội dung cần chuyển đổi sang tiếng nói 17 txtfile.txt Lưu tên diphone 18 Mydatabase.mat Chứa toàn liệu diphone có Trang 80

Ngày đăng: 10/10/2016, 02:26

Từ khóa liên quan

Mục lục

  • 1.pdf

    • Page 1

    • 2.pdf

      • 20 Trang bia luan van.pdf

      • 21 Trang tua trong luan van.pdf

      • 25a TOM TAT.pdf

      • 25b English TOM TAT.pdf

      • 36 BIA SAU.pdf

        • Page 1

Tài liệu cùng người dùng

Tài liệu liên quan