Tổng hợp tiếng nói sử dụng giải thuật TD PSOLA

Trang v TÓM TT Ngày nay cùng với sự phát triển của công nghệ, đã làm cho việc trao đổi thông tin giữa con người với nhau trở nên phong phú hơn, truyền thông tiếng nói vẫn là phương thức nổi trội nhất của xã hội loài người trong việc trao đổi thông tin. Các từ ngữ vẫn ngày càng được mở rộng thông qua các phương tiện mang tính công nghệ như: điện thoại, truyền thanh, truyền hình và Internet Với sự hỗ trợ mạnh mẽ của công nghệ máy tính do vậy phương tiện truyền thông tiếng nói cũng đòi hỏi ngày càng cao. Nên một hệ thống tổng hợp tiếng nói cần phải có khả năng tổng hợp câu chữ, mức độ tự nhiên, Một trong những mục tiêu quan trọng nhất của tổng hợp tiếng nói là làm sao tiếng nói tổng hợp được phải đạt đến độ tự nhiên tối đa, đồng thời để có thể áp dụng được vào nhiều lĩnh vực trong cuộc sống và phải có một khả năng linh hoạt. Hiện tại các nhà khoa học trên thế giới, đã đưa ra khá nhiều giải thuật được áp dụng nhằm thỏa mãn các yêu cầu này, một trong số đó là giải thuật TD_PSOLA. Giải thuật TD_PSOLA là quá trình phân tích tín hiệu thực ban đầu thành chuỗi tín hiệu thành phần, mà mỗi đoạn tín hiệu thành phần chứa một tần số cơ bản khác nhau, sau đó thực hiện thay đổi thành phần tần số cơ bản đó theo tỉ lệ cường độ (Pitch) hoặc theo tỉ lệ thời gian (Time), cuối cùng thì cộng chồng lấn các chuỗi tín hiệu thành phần lại với nhau thì ta được tín hiệu mới. Hệ thống tổng hợp tiếng nói tiếng Việt từ văn bản được chia thành hai mức xử lý đó là tổng hợp mức cao và tổng hợp mức thấp: + Tổng hợp mức cao: là quá trình xử lý văn bản tiếng Việt có dấu ở đầu vào, phân tích cách phát âm của từ, phân tích ngôn điệu của câu và cuối cùng là tạo ra các đơn vị tiếng nói (diphone). Trang vi + Tổng hợp mức thấp: là quá trình ghép nối các đơn vị tiếng nói lại theo trình tự của văn bản đầu vào, xử lý tín hiệu sau khi ghép nối bằng cách làm trơn tín hiệu, điều khiển tần số cơ bản và cuối cùng là biểu diễn tiếng nói ở đầu ra của hệ thống. Trong luận văn này, em đã sử dụng giải thuật TD_PSOLA để áp dụng cho việc tổng hợp tiếng Việt dựa trên những đặc thù riêng về mặt ngữ âm. Qua hơn sáu tháng thực nghiệm nghiên cứu đề tài Tổng hợp tiếng nói (tiếng Việt) sử dụng giải thut TD_PSOLA cùng với giáo viên hướng dẫn Thầy PGS.TS Dương Hoài Nghĩa, đến nay đã thu được kết quả là khá khả quan: + Đạt được mục tiêu đề ra về việc xây dựng và quản lý hệ thống cơ sở dữ liệu linh hoạt trên phần mềm Matlab, cơ sở dữ liệu được giới hạn trong phạm vi những câu nói cơ bản. + Dung lượng của bộ nhớ tương ứng 209 diphone là 779 KB. + Xử lý được văn bản tiếng Việt đầu vào của hệ thống tổng hợp tiếng nói, văn bản đầu vào không phân biệt chữ hoa hay chữ thường, được nhập trực tiếp trên giao diện GUI của Matlab hoặc trên phần mềm Microsoft Word. + Chất lượng của tiếng nói tổng hợp tương đối tự nhiên. + Hệ thống hoạt động ổn định và tiện lợi. Cấu trúc nội dung quyển báo cáo luận văn tốt nghiệp gồm có bốn chương được trình bày cụ thể như sau: Chương 1: Tổng quan về tổng hợp tiếng nói Chương 2: Cơ sở lý thuyết Chương 3: Thiết kế chương trình Tổng hợp tiếng nói tiếng Việt Chương 4: Kết luận và hướng phát triển Trang vii ABSTRACT Today with the development of technology has made the exchange of information amongst people become richer, voice communication is still the most dominant mode of human society in the exchangeinformation. The word has increasingly been extended through the means of bringing technologies such as: telephone, radio, TV and Internet With the strong support of computer technology so media voices also requires increasing. A voice system should have the ability to synthesize words, the level of natural One of the most important objectives of the speech synthesizer is to voice synthesis to achieve maximum natural, and to be able to apply to many areas of life, it must have a flexibility. Currently scientists around the world have given quite a lot of algorithms are applied to satisfy these requirements, one of which was that TD_PSOLA algorithm. Algorithm TD_PSOLA the analysis of the original real signal into the signal chain components, where each segment contains a frequency component signals are fundamentally different, then make changes to the fundamental frequency component intensity ratio (Pitch) or by the percentage of time (time), finally overlaps add the signal chain components together, we get the new signal. Vietnamese speech synthesis system from the text is divided into two levels of treatment which is a combination of high and low level synthesis: + High Level Synthesis: text processing accented Vietnamese input, the pronunciation of the word analysis, metrics analysis of sentences and finally create the voice unit (diphone). + Low Level Synthesis: is the process of pairing the unit voices in the order of the text input, signal processing after pairing by smoothing the signal, the Trang viii fundamental frequency control and finally voice is represented in the output of the system. In this thesis, I have use algorithms TD_PSOLA to apply to the speech synthesizer Vietnamese based on its own characteristics in terms of pronunciation. After more than six months of empirical research themes Speech Synthesis using algorithm TD_PSOLA with instructors Master Dr. Duong Hoai Nghia, so far obtained results are quite satisfactory: + Achieve targets for the development and management of database systems flexible on Matlab software, the database is limited in the scope of the basic sentence. + Corresponding memory capacity of 209 diphone is 779 KB. + Handling the written Vietnamese input speech synthesis system, the input text regardless of uppercase or lowercase letters, be entered directly on the GUI interface of Matlab or Microsoft Word software. + The quality of speech synthetic systems is relatively natural. + System stability and convenient operation. Atmospheric content structure thesis report consists of four chapters are presented as follows: Chapter 1: Overview of speech synthesis Chapter 2: Theoretical basis Chapter 3: Designing Integrated program the speech synthesizer Vietnamese Chapter 4: Conclusions and developments Trang ix  Trang tựa Trang Quyết định giao đề tài Lý lịch cá nhân i Lời cam đoan iii Cảm tạ iv Tóm tắt v Abstract vii Mục lục ix Danh sách các chữ viết tắt xiii Danh sách các hình xiv Danh sách các bảng xvii  1  1  3  4  4  5  6  6 2.1.1  6 2.1.1.1 Âm và cường độ âm 6 2.1.1.2 Các đặc trưng sinh học của âm 6 2.1.1.3 Các tham số âm 7 2.1.1.4 Một số khái niệm ngữ âm 7 2.1.  8 2.1.2.1 Âm hữu thanh và âm vô thanh 8 2.1.2.2 Âm vị 9 Trang x 2.1.2.3 Các đặc tính khác 9 2.1. 11 2.1.3.1 Cấu tạo bộ máy phát âm 11 2.1.3.2 Cơ chế phát âm 12 2.1. 13 2.1.4.1 Tần số lấy mẫu 14 2.1.4.2 Lượng tử hoá 15  16 2.2 16 2.2 18 2.2.2.1 Tổng hợp tiếng nói theo cách phát âm 18 2.2.2.2 Tổng hợp đầu cuối tự nhiên 18 2.2.3 Các  19 2.2.3.1 Phương pháp mô phỏng hệ thống phát âm 20 2.2.3.2 Phương pháp tổng hợp Formant 20 2.2.3.3 Phương pháp ghép nối 21  24  25 2.3 25 2.3.1.1 Phân tích PSOLA 27 2.3.1.2 Tổng hợp PSOLA 29 2.3 30 2.3 33 2.3 36 2.3.4.1 Xác định tần số cơ bản 37 2.3.4.2 Làm trơn tín hiệu khi ghép nối 40  41  41  42 Trang xi 2.4.2.1 Xử lý văn bản 42 2.4.2.2 Phân tích cách phát âm 43 2.4.2.3 Ngôn điệu 43  44 3 46 3 46 3 48 3 49 3.3.1 Thu âm 49 3.3.2 Tách diphone 50 3.3.3 Lưu trữ dữ liệu 51 3 52 3.4.1 Phân tích văn bản tiếng Việt thành các từ 52 3.4.2 Tách từ thành các diphone 55 3.5  58 3.5.1 Ghép nối các diphone 58 3.5.2 Biến đổi tần số cơ bản 60 3.6  60 3.6.1 Mô phỏng chương trình tổng hợp tiếng nói 62 3.6.2 Mô phỏng quá trình thu âm và tách từ 63 3.6.3 Mô phỏng quá trình tách diphone 65 3.6.4 Mô phỏng quá trình ghép nối các diphone 65 3.6.5 Mô phỏng giải thuật TD_PSOLA 66 3.6.6 Lưu trữ và quản lý cơ sở dữ liệu 69 4.  72 4 72 4 73  74  76 Trang xii 1. Phụ lục 1: Bảng mã TCVN3 – ABC các ký tự tiếng Việt chữ thường 76 2. Phụ lục 2: Bảng các diphone tiếng Việt đã lưu trong cơ sỡ dữ liệu 78 3. Phụ lục 3: Code chương trình trên matlab 80 Trang xiii  PSOLA (Pitch Synchronous Overlap Add) : Cộng chồng lấp đồng bộ hóa pitch TD_PSOLA (Time Domain_Pitch Synchronous Overlap Add) : PSOLA trên miền thời gian FD_PSOLA (Frequency Domain_Pitch Synchronous Overlap Add) : PSOLA trên miền tần số LP_PSOLA (Linear Prediction_Pitch Synchronous Overlap Add) : PSOLA trên miền thời gian và miền tần số Formant Frequency : Tần số cộng hưỡng BW (Band Width) : Dãi thông Diphone : Âm vị ghép Pitch : Chu kỳ tần số cơ bản Short-time : Thời gian ngắn Spectrum : Phổ Speech Synthesis : Tổng hợp tiếng nói TTS (Text to Speech) : Chuyển văn bản thành tiếng nói F1, F2, F3 : Các tần số cộng hưởng F0 : Tần số cơ bản Trang xiv DANH SÁCH CÁC HÌNH HÌNH Trang Hình 2.1: Tín hiệu sóng âm 6 Hình 2.2: Mô tả bộ máy phát âm 12 Hình 2.3: Phương pháp biểu diễn tín hiệu tiếng nói 13 Hình 2.4: Mô hình hoá nguồn âm đối với âm hữu thanh 16 Hình 2.5: Chuỗi 5 đoạn ống âm học lý tưởng 17 Hình 2.6: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp 20 Hình 2.7: Cấu trúc cơ bản của một bộ tổng hợp formant song song 21 Hình 2.8: Quá trình phân chia các đoạn tín hiệu 26 Hình 2.9: Xác định cực đại địa phương của hàm năng lượng 28 Hình 2.10: Cộng xếp chồng các đoạn tín hiệu 29 Hình 2.11: Quá trình làm thay đổi tần số của tín hiệu 31 Hình 2.12: Sự thay đổi tần số và thời gian với TD_PSOLA 32 Hình 2.13: a. Hiệu chỉnh giảm tỉ lệ pitch, b. Hiệu chỉnh tăng tỉ lệ pitch 35 Hình 2.14: Làm tăng tỉ lệ pitch 35 Hình 2.15: Hiệu chỉnh tỉ lệ thời gian 36 [...]... hi n Thời gian K t quả Tìm hiểu các phương pháp tổng hợp 10/2011 Báo cáo chuyên đề 1 tiếng nói 02/2012 (9 điểm) 03/2012 Báo cáo chuyên đề 2 08/2012 (8.5 điểm) Nghiên cứu phương pháp tổng hợp 2 tiếng nói sử dụng giải thuật TD_ PSOLA Thiết kế chương trình tổng hợp tiếng 3 nói tiếng Việt sử dụng giải thuật TD_ PSOLA 4 Tổng hợp lại nội dung nghiên cứu, trình bày báo cáo luận văn 09/2012 03/2013 04/2013 Bảng... và gi i hạn đề tài Tìm hiểu các đặc trưng của tiếng nói tiếng Việt và các phương pháp tổng hợp tiếng nói tiếng Việt, so sánh các phương pháp với nhau để tìm ra phương pháp tổng hợp tiếng nói tiếng Việt có chất lượng cao nhất Phân tích, xử lý các văn bản tiếng Việt có dấu Mô phỏng hệ thống tổng hợp tiếng nói tiếng Việt trên phần mềm Matlab, phiên bản 2007b Tổng kết nội dung nghiên cứu và trình bày các... nghiên cứu sâu hơn về hệ thống tổng hợp tiếng nói tiếng Việt các ứng dụng của nó 1.4 Phương pháp nghiên cứu Khảo sát thông tin và thu thập tài liệu về tổng hợp tiếng nói trên Internet và từ giáo viên hướng dẫn Trang 4 Tổng hợp tài liệu thu được, chọn lựa các tài liệu phù hợp để phân tích, đánh giá nhằm tìm kiếm phương pháp tổng hợp tiếng nói thích hợp Phân tích giải thuật của các phương pháp, có thể... phương pháp này thì tổng hợp tiếng nói bằng phương pháp ghép nối được sử dụng rộng rãi hơn cả Trang 1 TD_ PSOLA là giải thuật tổng hợp tiếng nói dùng cho phương pháp ghép nối Trước tiên tiếng nói được phân tích thành các tín hiệu thành phần, sau đó biến đổi các tín hiệu thành phần này theo mong muốn, rồi tiến hành cộng xếp chồng các thành phần này lại, ta được tín hiệu tiếng nói tổng hợp Phương pháp này... cho tuyến âm Hiện nay người ta thường sử dụng hai bộ tham số đặc trưng cho tuyến âm: + Bộ tham số formant + Bộ tham số của bộ lọc đảo Các bộ tham số này có thể được tổng kết từ các quá trình phân tích tiếng nói 2.2.3 Các phương pháp t ng h p ti ng nói Tổng hợp tiếng nói là phát sinh tiếng nói từ sóng tiếng nói Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói có chất lượng ngày càng cao Tuy nhiên... thông tiếng nói vẫn là phương thức nổi trội nhất của xã hội loài người trong việc trao đổi thông tin Tiếng nói là công cụ giao tiếp tự nhiên nhất của con người Hướng nghiên cứu tạo ra tiếng nói nhân tạo trên máy tính được gọi là tổng hợp tiếng nói Hai yêu cầu quan trọng về chất lượng tổng hợp tiếng nói là mức độ tự nhiên và mức độ dễ nghe Mức độ tự nhiên chỉ sự giống nhau giữa giọng tổng hợp và giọng nói. .. dễ nghe là khả năng hiểu câu nói phát âm có dễ dàng không Một hệ thống tổng hợp tiếng nói lý tưởng phải thỏa mãn hai tính chất này Trang 3 Mục đích của đề tài là nghiên cứu các phương pháp tổng hợp tiếng nói, để tìm ra giải pháp tốt nhất cho việc xây dựng hệ thống tổng hợp tiếng nói tiếng Việt, thỏa mãn được yêu cầu về mức độ tự nhiên, mức độ dễ nghe và tiện lợi trong sử dụng 1.3 Nhi m vụ của đề tài... tại mọi điểm trong hệ thống 2.2.2 T ng h p ti ng nói Tổng hợp tiếng nói là quá trình tạo ra tín hiệu âm thanh bằng cách điều khiển một mô hình mẫu với một tập các tham số Nếu mô hình mẫu này và các tham số được xây dựng một cách hoàn hảo thì tiếng nói tổng hợp có thể giống với tiếng nói tự nhiên Hiện có hai dạng tổng hợp tiếng nói: 2.2.2.1 T ng h p ti ng nói theo cách phát âm Đây là cách tiếp cận trực... nghệ, 2004 Một số kết quả phân tích ngữ âm để tổng Lê Hồng Minh & Quách Tuấn hợp tiếng Việt từ văn bản bằng luật Ngọc, 2005 Áp dụng phương pháp PSOLA trong Hoàng Tiểu Bình, Đại học tổng hợp tiếng nói tiếng Việt quốc gia Hà Nội, 2006 Bảng 1.1: Danh sách các nghiên cứu trong nước Các nghiên cứu tổng hợp tiếng nói ngoài nước: STT 1 Tên đề tài Tác giả Usage of TD PSOLA algorithm in Dr Gregor Rozinaj, FEI STU... mức phù hợp cho một vài ứng dụng, chẳng hạn như đa phương tiện và truyền thông Hiện nay có ba phương pháp tổng hợp tiếng nói Phương pháp đơn giản nhất để phát sinh tiếng nói tổng hợp là phát các mẫu tiếng nói đã thu từ tiếng nói tự nhiên (như các từ hoặc câu), phương pháp này cho chất lượng tương đối tốt nhưng gặp phải hạn chế là số lượng từ vựng trong cơ sở dữ liệu rất lớn Bên cạnh đó tiếng nói cũng . hiểu các đặc trưng của tiếng nói tiếng Việt và các phương pháp tổng hợp tiếng nói tiếng Việt, so sánh các phương pháp với nhau để tìm ra phương pháp tổng hợp tiếng nói tiếng Việt có chất lượng. 3 Thiết kế chương trình tổng hợp tiếng nói tiếng Việt sử dụng giải thuật TD_ PSOLA 09/2012 03/2013 Luận văn tốt nghiệp (phần mềm và quyển báo cáo) 4 Tổng hợp lại nội dung nghiên cứu,. pháp tổng hợp bằng formant lại không cho chất lượng cao. Trong ba phương pháp này thì tổng hợp tiếng nói bằng phương pháp ghép nối được sử dụng rộng rãi hơn cả. Trang 2 TD_ PSOLA là giải thuật

Định dạng
Số trang	94
Dung lượng	3,31 MB

Tổng hợp tiếng nói sử dụng giải thuật TD PSOLA

Biểu d in tín hi u ting nó

Bt ngh p formant song song