xây dựng ứng dụng tổng hợp tiếng nói tiếng việt trên hệ điều hành android

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	17
Dung lượng	1,36 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ---------- BÁO CÁO QUÁ TRÌNH ĐỒ ÁN TỐT NGHIỆP Đề tài : Xây dựng ứng dụng tổng hợp tiếng nói “Tiếng Việt”trên hệ điều hành Android Giảng viên hướng dẫn Sinh viên thực Lớp SHSV HÀ NỘI 3/2015 : Trịnh Văn Loan : Phạm Bắc Anh : KTMT-TT1 – K55 : 20101109 Mục Lục Chương 1: Tổng quan tổng hợp tiếng nói 1.1 Giới thiệu Tổng hợp tiếng nói việc tạo tiếng nói người cách nhân tạo. Một hệ thống máy tính thực mục đích gọi hệ thống tổng hợp tiếng nói. Tổng hợp tiếng nói thực bằng phần mềm hay nhúng vào phần cứng máy tính. Việc tổng hợp tiếng nói thực nhiều phương pháp. Phương pháp phổ biển phương pháp tổng hợp cách ghép nối đoạn tiếng nói nhỏ lưu trữ sở liệu. Việc lưu trữ sở liệu nhiều hay làm ảnh hưởng lớn đến kết thu tốt hay không. Đôi khi, mục đích cần phải giảm độ lớn sở liệu, người ta chấp nhận làm giảm chất lượng tiếng nói thu mức cho phép. Chất lượng hệ thống tổng hợp tiếng nói đánh giá dựa độ “giống” tiếng nói người thật khả để người nghe hiểu nghĩa văn bản. Một hệ thống chuyển văn thành tiếng nói (tiếng Anh Text To Speech, khóa luận viết tắt TTS) hệ thống có đầu vào văn đầu sóng âm thanh. 1.2 Ý nghĩa TTS Bài toán có nhiều ý nghĩa thực tiễn: • Giúp đỡ người tàn tật: ứng dụng có ý nghĩa TTS. Trước đây, người ta có loại băng ghi âm truyện hay sách dành cho người tàn tật. Tuy nhiên số lượng loại sách, truyện không nhiều công việc cách thủ công tốn nhiều thời gian. Với giúp đỡ hệ thống TTS, công việc làm tự động cho hiệu cao. • Các thiết bị truyền thông đa phương tiện: Với phát triển thành công vượt bậc TTS cho tiếng Anh, phần mềm để học tiếng Anh hay từ điển điện tử sử dụng hệ thống TTS. Ngoài ra, trò chơi điện tử ứng dụng công nghệ rộng rãi. • Trong truyền thông: Một nguyên nhân gây nhiều tai nạn xe tài xế vừa lái xe vừa đọc tin nhắn. Sự với hỗ trợ TTS, người lái xe hoàn toàn tập trung vào việc lái xe mà nghe tin nhắn nhận được. Ngoài ra, công nghệ GPRS chưa phát triển việc check email phải công tác tới khu vực chưa phát triển gặp nhiều khó khắn. Khi người ta có phần mềm sử dụng TTS để check email qua điện thoại di động • Hiện nay, Việt Nam việc sử dụng hệ thống TTS chưa nhiều. Chủ yếu việc đọc thông báo nhà ga, sân bay hay quan nhà nước có hệ thống xếp hàng 1.3 Quá trình phát triển TTS giới Tiếng nói nhân tạo nghiên cứu thời gian dài có tham gia nhiều nhà khoa học. Những người có ý tưởng máy có khả nói Gerbert of Aurillac, Albertus Magnus (1198 – 1280) Roger Bacon (1214 – 1294). Tuy phải tới năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein xây dựng thành công mô hình khí tổng hợp âm /a/, /e/, /i/, /o/, /u/. Thiết bị chưa tổng hợp câu nói hoàn chỉnh. Thiết bị xem tổng hợp tiếng nói VODER (Voice Operating Demonstrator) nhà khoa học người Mỹ Homer Dulley giới thiệu năm 1939 New York. Hệ thống tổng hợp câu đơn giản cần điều khiển phức tạp. Trong thập kỷ qua, hệ thống TTS có bước phát triển vượt bậc. Chất lượng hệ thống TTS phát triển ngày cao ứng dụng với mục đích thương mại. Đa số hệ thống dành cho tiếng Anh. Ngoài ra, có số ngôn ngữ khác tiếng Trung, tiếng Tây Ban Nha, … tiếng Anh nghiên cứu nhiều tiếng Anh có hệ thống TTS chuẩn mực cả. 1.4 TTS Việt Nam TTS Việt Nam nghiên cứu từ lâu. Hiện có chương trình thành công VnSpeech VietSound. Phần mềm VnSpeech hệ thống tổng hợp tiếng nói Tiếng Việt, phần mềm sử dụng phương pháp tổng hợp Formant. Hệ thống đọc hầu hết âm tiết tiếng Việt mức nghe rõ vậy, mức độ tự nhiên không cao. Phần mềm VietSound phần mềm phát triển đại học Bách Khoa Thành phố Hồ Chí Minh. Phần mềm sử dụng giải thuật TD-PSOLA dùng để tổng hợp nguyên âm đơn phương pháp tổng hợp FORMANT để tổng hợp phụ âm, nguyên âm âm vần đơn giản. Phần mềm chưa đạt đến mức độ tự nhiên gần giống với tiếng nói người. Cả hai phần mềm có nhược điểm âm thu rời rạc, thiếu tự nhiên. Chương 2: Phương pháp tổng hợp tiếng nói 2.1 mô hình chung hệ thống TTS Thông thường hệ thống TTS gồm bước: • Phân tích văn • Phân tích cách đọc • Tạo sóng âm Hình Mô hình hệ thống tổng hợp tiếng nói 2.1.1 Phân tích văn Phân tích văn việc chuyển kí hiệu, số, chữ viết tắt thành câu chữ đầy đủ. Ví dụ câu “Phong trào sinh viên tình nguyện TW Đoàn TNCS Hồ Chí Minh phát động hưởng ứng 10000 sinh viên nước” cần phải chuyển thành “Phong trào sinh viên tình nguyện Trung Ương Đoàn Thanh niên Cộng sản Hồ Chí Minh phát động hưởng ứng mười nghìn sinh viên nước”. Để thực việc phân tích văn tốt, ta cần có: • Một module chuyển số thành dạng chữ viết. • Một sở liệu chữ viết tắt thông dụng. • Một sở liệu khuôn dạng thông dụng ngày tháng, giờ, . Tuy vậy, ta gặp phải nhiều khó khăn tình nhập nhằng. Ví dụ cụm “1/2” hiểu “ngày mùng tháng hai” “một phần hai”. Một ví dụ khác ta gặp dãy số “38533580”, ta cần phải xác định xem số đếm (ba mươi tám triệu năm trăm ba mươi ba ngàn năm trăm tám mươi) số điện thoại (ba tám năm ba ba năm tám không). Những trường hợp đỏi hỏi ta phải xác định văn cảnh văn đầu vào. 2.1.2 Phân tích cách đọc Việc phân tích cách đọc thực chất trình tiền xử lý cho việc tổng hợp tiếng nói. Vì vậy, trình phụ thuộc vào việc sử dụng phương pháp để thực việc tổng hợp tiếng nói. Cũng phải nói thêm tiếng Việt có thuận lợi lớn cách viết có cách đọc không tiếng Anh cách viết có nhiều cách đọc phụ thuộc vào ngữ cảnh. Nếu việc tổng hợp tiếng nói thực phương pháp ghép nối, việc bắt buộc phải phân chia câu cần tổng hợp thành đơn vị có sẵn sở liệu chúng ta. Hãy xét ví dụ ta cần tổng hợp câu “Xin chào” phương pháp ghép nối diphone. Các diphone có sở liệu “âm câm – x”, “x – i”, “i – n”, “n – âm câm”, “âm câm – ch”, “ch – à”, “à – o”. Khi ta cần tách đoạn text “Xin chào” thành “âm câm – x – i – n – âm câm – ch – – o – âm câm”. Để tiếng nói tổng hợp thu chất lượng tốt phân tích ngôn điệu vô quan trọng. Ngôn điệu gồm: độ cao thấp, độ dài ngắn, cường độ. Độ cao thấp (pitch) hay tần số câu phụ thuộc vào nhiều yếu tố có loại câu (câu kể, câu hỏi, câu cảm thán); người nói (giới tính, trạng thái cảm xúc). Ví dụ câu kể thường thấp giọng cuối câu câu hỏi lại cao giọng cuối câu. Người nói nam thường nói với độ cao thấp hơn. Độ dài ngắn (duration) đặc điểm thời gian phát âm từ hay âm vị. Thông thường hai tiếng liên tiếp mà tạo thành từ khoảng nghỉ hai tiếng ngắn hai tiếng liên tiếp không tạo thành từ. Đôi khi, độ dài ngắn thể người nói muốn nhấn mạnh từ câu. Cường độ thể độ to nhỏ tiếng nói. Ở mức âm tiết, nguyên âm thường có cường độ mạnh phụ âm. Ở mức cụm, âm tiết phần cuối cách phát âm có cường độ yếu hơn. Một hệ thống TTS cần phân tích cách đọc mức gần với thực tế tốt. Đây mục tiêu hệ thống TTS cho ngôn ngữ khác nhau, chưa có hệ thống thực hoàn hảo điều này. 2.1.3 Tạo sóng âm Đây trình trực tiếp tạo tín hiệu âm thanh. Chất lượng tiếng nói tổng hợp phụ thuộc nhiều vào phần này. Trên giới có nhiều phương pháp đưa để tổng hợp tiếng nói phương pháp tổng hợp Formant, phương pháp ghép nối Diphone, . Các phương pháp chia làm nhóm: Phương pháp tổng hợp dựa hệ luật: phương pháp Formant Phương pháp tổng hợp ghép nối:  Phương pháp tổng hợp ghép nối phones  Phương pháp tổng hợp ghép nối nửa phones  Phương pháp tổng hợp ghép nối diphone • Phương pháp tổng hợp dựa mô hình:  Phương pháp tổng hợp dựa mô hình Markov ẩn (HMM)  Phương pháp tổng hợp dựa mô hình âm tiếng nói nhiễu (Harmonic plus Noise – HNM) • Phương pháp tổng hợp dựa mô phát âm • • 2.2 Phương pháp tổng hợp Formant Phương pháp có tên gọi khác phương pháp tổng hợp dựa hệ luật (rule-based). Đây phương pháp không dựa vào đoạn tiếng nói thu sẵn người. Phương pháp tổng hợp Formant sử dụng tiếng nói tổng hợp tạo dựa sở lý thuyết âm học trình tạo tiếng nói. Phổ biến mô hình nguồn âm lọc ( source-filter model) để tạo tín hiệu tiếng nói. Formant cộng hưởng âm thanh. Ở hiểu tín hiệu tiếng nói kết nguồn kích hữu vô cộng hưởng hay phản cộng hưởng tuyến âm, sau ảnh hưởng tán xạ tiếng nói qua môi mũi. Phương pháp tổng hợp Formant Walter Lawrence đưa vào năm 1953, phương pháp sử dụng formant nối song song. formant số lượng formant tối thiểu để tạo tiếng nói nghe được. Dưới mô hình formant nối nối tiếp: Hình Mô hình formant nối tiếp Đầu vào mô hình 12 tham số: tần số chung (F0), tần số Formant biên độ Formant, cường độ tần số thấp, cường độ tần số cao, … Do có nhiều tham số nên việc điều khiển phức tạp. Tuy vậy, phương pháp đưa tiếng nói với chất lượng nghe được. Tiếng nói rời rạc, không trơn chu, liền mạch hay nói cách khác không tự nhiên. Năm 1980, Dennis Klatt đưa mô hình phức tạp gồm formant cần tới 39 tham số điều khiển cập nhật mili giây lần. Dưới mô hình Klatt đưa ra: Hình Mô hình formant Klatt Cho đến nay, mô hình tốt cho phương pháp này. Phương pháp formant có đặc điểm trội so với phương pháp khác không cần phải lưu trữ sở liệu, thời gian tổng hợp nhanh. Đây phương pháp thích hợp cho ứng dụng thiết bị PDA, PC Pocket đặc điểm thiết bị phần cứng yếu. Tuy nhiên, phương pháp mặt chất lượng tiếng nói không tốt. Tiếng nói bị rời rạc, không tự nhiên. Hơn nữa, phương pháp khó xây dựng. Ta cần phải có hiểu biết sâu sắc mặt âm học thực phương pháp này. 2.3 Phương pháp tổng hợp ghép nối Trong phương pháp này, tiếng nói tổng hợp từ đoạn tiếng nói nhỏ lưu trữ sẵn sở liệu. Đối với tiếng Việt, là: phone, diphone, tiếng, … 2.3.1 Phương pháp tổng hợp ghép nối tiếng Rõ ràng phương án không khả thi, tiếng Việt, số lượng tiếng lớn, điều làm cho sở liệu phải lưu trữ lớn. Một nhược điểm cách làm tiếng độ trơn, tiếng thu riêng biệt thời điểm khác nhau. 2.3.2 Phương pháp tổng hợp ghép nối phone Phone: Là âm vị đơn vị âm nhỏ tạo tiếng nói. Thông thường ngôn ngữ chữ bảng chữ phone. Trong tiếng Việt, phone chữ có phone tổ hợp chữ như: th; gh; kh; gi; nh; ng; ngh… Âm câm (silence) coi phone đặc biệt. Thông thường âm vị có cách đọc riêng, nhiên cách đọc tương ứng với âm vị. Trong tiếng Việt, số âm vị có cách đọc giống cách viết khác (chẳng hạn: ng ngh, i y, g gh… ). Số lượng phone tiếng Việt có dấu 95 phone sở liệu ta cần bao gồm 95 phone này. Có thể thấy sở liệu nhỏ ưu điểm lớn phương pháp này. Tuy vậy, chất lượng tiếng nói tổng hợp phương pháp lại không cao. Hãy xét ví dụ cần tổng hợp câu “Hai bạn hát hay”. Từ “hai” ghép từ phone “h”, “a”, “i”. Từ “hay” ghép từ phone “h”, “a”, “y”. Rõ ràng sở liệu cách đọc phone, “h”, “a”, “i”, “y” phone “i” phone “y” có cách đọc giống hệt ghép với phone khác lại cho ta hai cách đọc hoàn toàn khác nhau. Cách tổng hợp không đạt yêu cầu hệ thống tổng hợp tiếng nói “tiếng nói sinh phải hiểu được”, làm thay đổi hoàn toàn ý nghĩa văn bản. 2.3.3 Phương pháp tổng hợp ghép nối diphone Đây phương pháp phát triển từ năm 70 kỷ trước. Cho tới nay, phương pháp phương pháp hiệu ứng dụng rộng rãi cho nhiều ngôn ngữ. Diphone: Một diphone điểm phone trước đến điểm phone sau hai phone đứng cạnh cặp phone. Với từ có một, hai nhiều diphone. Ví dụ từ ba có diphone b – a từ ban có hai diphone b – a a – n. Các từ có phone coi diphone phone với âm câm, chẳng hạn từ a coi diphone asilence. Phương pháp tổng hợp diphone thực theo bước: Liệt kê tất phone đặc tính phone Liệt kê tất cách ghép nối cặp phone-phone để tạo thành diphone. Do có cặp phone-phone không xuất nên số lượng diphone không bình phương số lượng phone. • Xây dựng sở liệu cách đọc cho diphone • Ghép nối diphone: trình quan trọng phương pháp này. Ở đây, thuật toán thường dùng đồng điểm pitch. • • 2.3.3.1 Điển pitch Điểm pitch (pitch mark) điểm có tần số cực đại địa phương sóng âm. Dưới hình ảnh ví dụ điểm pitch phone /u/. Hình Điểm pitch phone Giữa hai diphone gần ghép nối với nhau, ta có phone giống ví dụ “a – b” “b – c”. Việc cần làm chỉnh sửa sóng âm phone “b” diphone thứ diphone thứ hai hai diphone sau cho chúng chồng khít lên nhau. Hình Ghép nối hai diphone Việc ghép nối hai diphone thực thuật toán PSOLA (pitch synchronous overlap – add) gọi đồng điểm pitch. 2.3.3.2 Đồng điểm pitch theo miền thời gian TD-PSOLA Người ta phát triển nhiều phiên thuật toán PSOLA như: TD-PSOLA (time domain pitch synchronous overlap – add), MBROLA (multi band overlap add), LP-PSOLA (linear pitch synchronous overlap – add). Tất phiên có ý tưởng chung sửa đổi trực tiếp sóng âm mà không sử dụng thông số nó. Thuật toán TD-PSOLA hãng truyền thông Pháp phát triển vào đầu năm 1990 dựa ý tưởng: “Nếu x(n) tuần hoàn khoảng [−∞, +∞] ta tạo sóng s(n) từ x(n) với điểm pitch dịch chuyển từ T0 T mà ta mong muốn. Thuật toán thể công thức biến đổi: si (n) = x(n)w(n - iT0 ) Ở w(x) “cửa sổ” chọn. Có thể hiểu rằng, s(P) phụ thuộc vào điểm nằm “cửa số” x(P0) cũ mà P0 P hai điểm tương ứng sóng cũ sóng mới. Cách làm người ta chứng minh biên độ sóng không bị thay đổi trình biến đổi sóng. Hình Thuật toán TD-PSOLA Trong hình trên, tín hiệu phía bên trái giãn để khớp với điểm pitch mong muốn. Các hình bên phải biên động số tương ứng ta nhận thấy biên độ không bị thay đổi. 2.4 Phương pháp mô phát âm Tổng hợp mô phát âm kỹ thuật tổng hợp giọng nói dựa mô hình máy tính quan phát âm người trình phát âm xảy đó. Hệ thống tổng hợp mô phát âm ASY phát triển phòng thí nghiệm Haskins vào năm 1970 Philip Rubin, Tom Baer, Paul Mermelstein. Tổng hợp mô phát âm hệ thống dành cho nghiên cứu khoa học cho đến năm gần đây. Lý mô hình tạo âm chất lượng đủ cao chạy hiệu ứng dụng thương mại. Một ngoại lệ hệ thống dựa NeXT; vốn phát triển thương mại hóa Trillium Sound Research Inc, Canada. Hệ thống tạo máy tổng hợp giọng nói dựa mô phát âm hoàn chỉnh, dựa mô hình ống dẫn sóng tương đương với quan phát âm người. Nó điều khiển Mô hình Phần Riêng biệt Carré; thân mô hình lại dựa công trình Gunnar Fant người khác Phòng thí nghiệm Công nghệ Giọng nói Stockholm thuộc Viện Cộng nghệ Hoàng gia Thụy Điển tổng hợp giọng nói cộng hưởng tần số. Công trình cho thấy cộng hưởng tần số ống cộng hưởng điều khiển cách thay đổi tám tham số tương đồng với cách phát âm tự nhiên quan phát âm người. Hệ thống bao gồm từ điển phát âm với quy tắc phát âm tùy thuộc ngữ cảnh để giúp ghép nối âm điệu tạo tham số phát âm; mô theo nhịp điệu ngữ điệu thu từ kết nghiên cứu ngữ âm học. Để thực phương pháp đòi hỏi thời gian, chi phí công nghệ. Phương pháp khó ứng dụng Việt Nam thời điểm nay. 2.5 Đặc điểm tiếng việt Đối với toán TTS, tiếng Việt so với ngôn ngữ khác có nhiều thuận lợi. Mỗi cách viết có cách đọc. Tuy nhiên, khó khăn lớn tiếng Việt vấn đề điệu. Việc nguyên âm có (ngang, sắc, huyền, ngã, hỏi, nặng) lại làm cho việc tổng hợp gặp khó khăn khác. Việc đọc không dấu hầu hết hiểu gây hiểu lầm. Tuy nhiên, ta sinh sóng âm cho tiếng Việt không dấu, ta biến đổi sóng âm để thu sóng âm thể tiếng Việt có dấu. Một âm tiết tiếng Việt đọc có loại âm thanh: âm đầu (phụ âm), âm trung bình (bán nguyên âm), âm trung tâm (nguyên âm nguyên âm đôi), âm cuối (nguyên âm bán nguyên âm) điệu (dấu). Khi thay điệu vào từ, giá trị F0 thay đổi sau: • • • • • • Với ngang, giá trị F0 bắt đầu lớn trì kết thúc âm tiết. Thanh huyền giá trị F0 bắt đầu thấp ngang, sắc ngã. Thanh ngã giá trị F0 bắt đầu cao, tới âm tiết giảm xuống, tăng lên cao đến cuối âm tiết. Trong hầu hết trường hợp, âm tiết có ngã có giá trị F0 cực tiểu rơi vào khoảng đến 2/3 F0 thời điểm ban đầu. Thanh hỏi giá trị F0 giảm dần đến khoảng 2/3 giá trị F0 ban đầu tăng trở lại. Thanh sắc giá trị F0 giữ ổn định khoảng 2/3 thời gian âm tiết sau tăng nhanh. Thanh nặng giá trị F0 giảm nhanh thời gian kéo dài thường 2/3 thời gian khác. Dưới đồ thị mô tả biến thiên giá trị F0 ví dụ với việc ghi âm chữ “chi” với ngang, huyền, ngã, hỏi, sắc, nặng. Hình Sự thay đổi giá trị F0 Hình Sự thay đổi giá trị F0 với chữ "chi" 2.6 Kết luận Với mục đích xây dựng hệ thống tổng hợp tiếng nói mà âm thu phải có độ trơn, độ tự nhiên cao nhất, phương pháp ghép nối diphone vượt trội cả. Yêu cầu độ trơn độ tự nhiên tiếng nói điểm mạnh phương pháp này. Các phương pháp khác không so sánh với phương pháp ghép nối diphone tiêu chí này. Hơn nữa, phương pháp lại có ưu điểm việc xây dựng không phức tạp. Vì vậy, em định lựa chọn phương pháp ghép nối diphone để xây dựng hệ thống TTS tiếng Việt. Cùng với đặc điểm tiếng Việt trên, định áp dụng phương pháp với tiếng Việt không dấu thay đổi tần số chung F0 để tạo điệu cho tiếng nói tổng hợp. Chương 3: Xây dựng phần mềm 3.1 Các công việc phải thực để xây dựng chương trình • Xây dựng sở liệu âm tiếng việt • Code phần mền:  Phân tích văn đầu vào  Tổng hợp diphone Chương 4:Tổng kết 4.1 Các công việc thực hiện: code phân tích văn đầu vào Từ văn đầu vào em phân tích văn thành diphone theo nguyên tắc: Mỗi từ tiếng Việt tạo nên từ diphone, diphone ta diphone trước diphone lại sau, kí hiệu thêm ký tự “_” để phân biệt. Ví dụ: sai = _sa + ai_ đó: _sa diphone trước ai_ diphone sau. • Các diphone trước gồm phụ âm tới nguyên âm. Ví dụ: _cha • • Các diphone sau gồm nhóm (một nhiều) nguyên âm tới phụ âm. Ví dụ au_. 4.2 Việc thực hiện:   Thu âm tạo sở liệu: thu âm tách diphone công cụ cool edit Pro Code phần mềm: đọc file wave diphone từ csdl, tổng hợp diphone dự phương pháp TD-PSOLA [...]... để xây dựng hệ thống TTS tiếng Việt Cùng với những đặc điểm của tiếng Việt ở trên, tôi quyết định áp dụng phương pháp này với tiếng Việt không dấu và thay đổi tần số chung F0 để tạo ra thanh điệu cho tiếng nói được tổng hợp Chương 3: Xây dựng phần mềm 3.1 Các công việc phải thực hiện để xây dựng chương trình • Xây dựng cơ sở dữ liệu âm thanh tiếng việt • Code phần mền:  Phân tích văn bản đầu vào  Tổng. .. hiệu quả trên các ứng dụng thương mại Một ngoại lệ là hệ thống dựa trên NeXT; vốn được phát triển và thương mại hóa bởi Trillium Sound Research Inc, Canada Hệ thống tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương với cơ quan phát âm của người Nó được điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản thân mô hình này lại dựa trên công... đích xây dựng được một hệ thống tổng hợp tiếng nói mà âm thanh thu được phải có độ trơn, độ tự nhiên cao nhất, phương pháp ghép nối bằng diphone là vượt trội hơn cả Yêu cầu về độ trơn và độ tự nhiên của tiếng nói chính là điểm mạnh của phương pháp này Các phương pháp khác đều không so sánh được với phương pháp ghép nối diphone ở tiêu chí này Hơn nữa, phương pháp này lại có ưu điểm là việc xây dựng. .. nghệ Phương pháp này khó có thể ứng dụng tại Việt Nam trong thời điểm hiện nay 2.5 Đặc điểm của tiếng việt Đối với bài toán TTS, tiếng Việt so với các ngôn ngữ khác có rất nhiều thuận lợi Mỗi cách viết chỉ có duy nhất một cách đọc Tuy nhiên, một trong những khó khăn lớn nhất của tiếng Việt chính là vấn đề thanh điệu Việc mỗi nguyên âm có 6 thanh (ngang, sắc, huyền, ngã, hỏi, nặng) lại làm cho việc tổng. .. Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng nói dựa trên mô hình máy tính của cơ quan phát âm của người và quá trình phát âm xảy ra tại đó Hệ thống tổng hợp mô phỏng phát âm đầu tiên là ASY được phát triển ở phòng thí nghiệm Haskins vào giữa những năm 1970 bởi Philip Rubin, Tom Baer, và Paul Mermelstein Tổng hợp mô phỏng phát âm đã từng chỉ là hệ thống dành cho nghiên cứu khoa học cho... Gunnar Fant và các người khác ở Phòng thí nghiệm Công nghệ Giọng nói Stockholm thuộc Viện Cộng nghệ Hoàng gia Thụy Điển về tổng hợp giọng nói cộng hưởng tần số Công trình này cho thấy các cộng hưởng tần số trong ống cộng hưởng có thể được điều khiển bằng cách thay đổi tám tham số tương đồng với các cách phát âm tự nhiên của cơ quan phát âm của người Hệ thống bao gồm một từ điển phát âm cùng với các quy... (ngang, sắc, huyền, ngã, hỏi, nặng) lại làm cho việc tổng hợp gặp những khó khăn khác Việc đọc không dấu chúng ta hầu hết có thể hiểu được nhưng như vậy vẫn có thể gây ra những hiểu lầm Tuy nhiên, nếu ta đã sinh được sóng âm cho tiếng Việt không dấu, thì ta có thể biến đổi sóng âm đó để thu được sóng âm thể hiện tiếng Việt có dấu Một âm tiết tiếng Việt khi đọc có 5 loại âm thanh: âm đầu (phụ âm), âm trung... tương ứng của sóng cũ và sóng mới Cách làm này người ta đã chứng minh được là biên độ sóng không bị thay đổi trong quá trình biến đổi sóng Hình 6 Thuật toán TD-PSOLA Trong hình trên, tín hiệu ở phía bên trái được đã giãn ra để khớp với các điểm pitch mong muốn Các hình bên phải là biên động số tương ứng và ta có thể nhận thấy là biên độ này không bị thay đổi 2.4 Phương pháp mô phỏng phát âm Tổng hợp. .. chương trình • Xây dựng cơ sở dữ liệu âm thanh tiếng việt • Code phần mền:  Phân tích văn bản đầu vào  Tổng hợp các diphone Chương 4 :Tổng kết 4.1 Các công việc đã thực hiện: code phân tích văn bản đầu vào Từ văn bản đầu vào em phân tích văn bản thành diphone theo nguyên tắc: Mỗi từ trong tiếng Việt có thể được tạo nên từ 2 diphone, trong đó một diphone ta sẽ là diphone trước và diphone còn lại là sau,... nguyên âm rồi tới phụ âm Ví dụ như au_ 4.2 Việc tiếp theo thực hiện:   Thu âm tạo cơ sở dữ liệu: thu âm và tách diphone bằng công cụ cool edit Pro Code phần mềm: đọc file wave diphone từ csdl, tổng hợp diphone dự trên phương pháp TD-PSOLA . HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  BÁO CÁO QUÁ TRÌNH ĐỒ ÁN TỐT NGHIỆP Đề tài : Xây dựng ứng dụng tổng hợp tiếng nói Tiếng Việt trên hệ điều hành Android Giảng viên. 1: Tổng quan về tổng hợp tiếng nói 1.1 Giới thiệu Tổng hợp tiếng nói là việc tạo ra tiếng nói của con người một cách nhân tạo. Một hệ thống máy tính thực hiện mục đích này được gọi là một hệ. này được gọi là một hệ thống tổng hợp tiếng nói. Tổng hợp tiếng nói có thể được thực hiện bằng bằng phần mềm hay nhúng vào phần cứng của máy tính. Việc tổng hợp tiếng nói có thể được thực hiện bằng

Ngày đăng: 19/09/2015, 10:44

Xem thêm