Tạo ra tiếng nói bằng máy là một ƣớc mơ của loài ngƣời và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của ngƣời đã có thể phát ra đƣợc một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc mô hình hoá cộng hƣởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển nhân công 10 bộ cộng hƣởng bằng các phóm và chiết áp đã có thể tạo ra một số câu nói có thể nghe đƣợc. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói. Cùng với sự phát triển nhƣ vũ bão của khoa học và công nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bƣớc phát triển rất
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. Sự tiến bộ này đƣợc thúc đẩy do:
Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ.
Khả năng xây dựng và truy cập tới các cơ sở dữ liệu âm thanh và văn bản ngày càng dễ dàng.
Công nghệ nhận dạng tự động âm thanh tiếng nói đƣợc hoàn thiện với độ chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói cho phép tạo ra kho âm thanh rất lớn phục vụ cho việc phân tích và tổng hợp tiếng nói.
Nếu tiếng nói cũng nhƣ chữ viết là chuỗi liên tiếp các dấu cơ bản đƣợc định nghĩa rõ ràng và mang tính hiển thị, thì các vấn đề nhận dạng cũng nhƣ tổng hợp tiếng nói đã đƣợc giải quyết cách đây 20 năm. Tuy nhiên bản chất của tiếng nói rất phức tạp, là hiệu ứng liên cấu âm quyện các âm tố thành dòng thanh liên tục và mang ngôn điệu dƣới dạng sóng truyền vật lí, nên nhận dạng và tổng hợp tiếng nói trở nên hết sức khó khăn. Mặc dù các nhà khoa học trên thế giới của nhiều nƣớc khác nhau với nhiều trƣờng phái khác nhau đã nghiên cứu và đƣa ra nhiều công trình thực tế, nhƣng việc tổng hợp tiếng nói từ văn bản đã chƣa bao giờ là hoàn hảo, khi động chạm tới những ngôn ngữ có số lƣợng từ không hạn chế với đòi hỏi đạt tới mức tự nhiên trôi chảy nhƣ tiếng nói con ngƣời.
Mặc dù vậy, những kết quả đạt đƣợc còn hạn chế, nhƣng cũng đã phần nào đƣợc ứng dụng có thể nói là thành công trong nhiều lĩnh vực cụ thể, đem lại những kết quả nhất định.
Các ứng dụng này tập trung ở các lĩnh vực sau:
• Học ngoại ngữ
Tổng hợp từ văn bản có thể hỗ trợ cho ngƣời nƣớc ngoài học ngoại ngữ. Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lƣợng tốt. Hầu hết các phần mềm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
loại này chƣa thực sự đáp ứng đƣợc yêu cầu của ngƣời sử dụng. • Trợ giúp người tàn tật
Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng chữ viết có thể đọc các văn bản in cho ngƣời mù. Giúp ngƣời mất khả năng nói có thể nói qua hệ thống TTS, bằng cách soạn thảo văn bản bằng bàn phím và phần mềm thiết kế cho phép ghép nhanh các câu. Giáo sƣ vật lý thiên văn học ngƣời Anh Stephan Hawking, ngƣời đƣa ra lý thuyết vụ nổ BIG BANG giảng bài cho sinh viên thông qua các hệ thống này.
• Truyền thông tin bằng âm thanh
Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra chính tả các văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so với kiểm tra bằng mắt.
Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các quan sát thì các thông tin bằng âm thanh rất cần thiết. Ngoài ra bản tin và mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết.
• Trong lưu trữ và khai thác dữ liệu
Giờ đây có thể tích kiệm không gian lƣu trữ âm bằng cách thay thế bằng các văn bản tƣơng ứng, tất nhiên là trong trƣờng hợp giọng ngƣời nói là không quan trọng. Hơn thế các văn bản bàng chữ bao giờ cũng dễ sắp xếp và tìm kiếm hơn dữ liệu âm thanh.
• Trong viễn thông
Tiếng nói tổng hợp đã đƣợc sử dụng nhiều trong các ứng dụng trả lời trực tuyến IVR, trên nhiều mạng viễn thông hiện đại nhƣ Mỹ, châu Âu và Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng thanh đa ngữ trực tuyến.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Các hệ thống thông tin tích hợp thông điệp hợp nhất (Unified Meessaging) có khả năng đọc tự động nội dung các bức thƣ điện tử và các bức FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy di động.
Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều bằng máy điện thoại…
• Thông tin đa phương tiện
Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa bắt buộc của thông tin hai chiều giữa ngƣời và máy.
Hệ thống dịch tự động đƣợc coi là một thành tựu khoa học lớn của nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng nói ở đầu ra.
• Các ứng dụng khác
Tổng hợp tiếng nói đƣợc ứng dụng trong các trò chơi, trong các thiết bị báo động, báo chát, hệ thống chống trộm, các thiết bị gia đình và các thiết bị giải trí khác.
* Vấn đề Tổng hợp tiếng Việt:
Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan đến nhiều ngành khoa hoc khác nhƣ: ngôn ngữ, xử lý tín hiệu và khoa học máy tính. Hiện nay với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất lƣợng âm thanh tổng hợp hiện tại đã vƣợt qua ngƣỡng nghe hiểu đơn giản và đang tiến dần tới mức độ nói tự nhiên của con ngƣời. Trong một số ứng dụng ngôn ngữ hẹp, chất lƣợng âm thanh đã gần nhƣ không thể phân biệt với ngôn ngữ tự nhiên.
Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng, ở Việt Nam trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp tiếng nói. Và bƣớc đầu đã đạt đƣợc những thành tựu nhất định. Công nghệ cho
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lƣợng cao có những phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt. Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp, Đức, Nhật,... để đọc văn bản chữ Việt. Hơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh điệu. Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến hành xâu dựng công nghệ tổng hợp tiếng nói cho mình.
Việt Nam đang bƣớc vào thời kì phát triển nhanh chóng về CNTT, nó cho phép chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu cũng nhƣ triển khai các ứng dụng về khoa học công nghệ trong cuộc sống.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG 2: CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI 2.1 Phƣơng pháp tổng hợp theo cấu âm.
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình này, tiếng nói đƣợc đặc trƣng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh. Nó bao gồm hoạt động tƣơng tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh. Phƣơng pháp này còn đƣợc gọi là tổng hợp theo mô hình hệ thống.
Để xây dựng đặc trƣng âm thanh của cơ quan phát âm, hệ thống phải tham số hoá đƣợc hình khối ống thanh và ống mũi, phải lựa chọn đƣợc một mô hình để mô tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn động dây thanh, dòng không khí hỗn loạn) và sự tƣơng tác của nó với ống thanh. Phƣơng pháp này hiện nay chỉ hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh chƣa có đủ thông tin đầu đủ để mô phỏng theo cấu âm.
Mô hình ống thanh
Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện biến thiên từ thanh môn cho tới môi. Ống thanh thay đổi liên tục, hình dáng của chúng phải đƣợc xác định trong khoảng thời gian vài mini giây một lần. Hình không gian của ống thanh đƣợc mô tả theo vị trí của các cơ quan phát âm, lƣỡi, môi, hàm…
Mô hình đƣợc ứng dụng nhiều nhất là mô hình của Mermelstein với các tham số mô tả vị trí cơ quan cấu âm. Giá trị của các tham số đƣợc liệt kê chi tiết ở bảng 1 Từ mô tả cấu âm này, có thể tính đƣợc các số liệu cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc theo ống thanh từ thanh môn cho tới môi.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn STT Tên Ý nghĩa Ngƣỡng dƣới Ngƣỡng trên 1 Rtp Bán kính lƣới (cm) 2 Tejp Góc mở hàm (độ)
3 Xcp Trung tâm lƣỡi trục x (cm)
4 Stp Chiều dài lƣỡi (cm)
5 Xclp Nhô ra của môi (cm)
6 Xhp Vị trí xƣơng trục x (cm)
7 Ycp Trung tâm lƣỡi trục y (cm)
8 Telp Độ nâng lƣỡi (deg)
9 Cylp Chiều cao môi y (cm)
10 Yhp Vị trí xƣơng trục y (cm)
11 Vel Độ mở vòm miệng (cm2)
Bảng 2 - 1 . Các tham số của mô hình cấu âm Mermelstei
Lan truyền sóng trong ống thanh
Trong nhiều cách tính đặc trƣng truyền sóng trong ống thanh thì phƣơng pháp ma trận chuỗi đƣợc áp dụng nhiều nhất. Ma trận chuỗi (còn gọi là ma trận ABCD) thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay của ống mũi ta có: Uin Pin x K Uin Pin x D B B A Uout Pout
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nên ống có mặt cắt không đổi.
Mô hình nguồn kích thanh
Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lƣợng của Ishizaka và Flanagan.
Nguyên lý của tổng hợp cấu âm
Thuật toán tổng hợp theo mô hình cấu âm gồm các bƣớc nhƣ nhau. Từ đặc tả về các tham số cấu âm, ta tính đƣợc ma trận chuỗi từ thanh môn đến môi. Sau đó tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận. Chuyển đổi Fourier ngƣợc hàm truyền H và tỉ số trở kháng ta nhận đƣợc các giá trị tƣơng ứng ở miền thời gian. Sau đó tính áp suất ∆p = P5-P1. Giá trị áp suất này tác động vào bộ cộng hƣởng điều khiển chuyển động dây thanh của mô hình hai khối lƣợng tạo ra âm thanh tiếng nói.
Nhƣ vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý. Luật vật lý mô tả nhƣ ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông thƣờng, luật ngôn ngữ đƣợc thực hiện cho từng âm vị. Khi cấu âm cho một đơn vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này và cơ quan khác. Vì phát ra một âm vị không nhất thiết phải có sự chuyển động của tất cả các cơ quan nên trong cùng một thời điểm cơ quan phát âm có thể đƣợc xác định cho âm vị khác. Theo cách này thì tổng hợp theo cấu âm có thể tạo ra các giải pháp hoàn hảo cho các trƣờng hợp ngữ âm khó nhƣ cụm phụ âm, nguyên âm ba. Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lƣợng tiếng nói tổng hợp. Hiện nay, chúng ta chƣa có kiến thức đầy đủ về từng chi tiết của các loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lƣợng tiếng nói tổng hợp theo
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
cấu âm còn rất thấp. Phƣơng pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong phòng thí nghiệm hay sản phẩm mẫu mà chƣa đƣợc ứng dụng thực tế. Các bộ tổng hợp theo cấu âm là công cụ lý tƣởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói giống nhƣ tiếng nói tự nhiên của con ngƣời.
2.2 Phƣơng pháp tổng hợp theo formant.
Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này.
Phân tích tìm quy luật
Quá trình phân tích đƣợc tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ đƣợc tất cả các hình thái ngữ âm của một ngôn ngữ.
Thuật toán tiên đoán tuyến tính LPC, đƣợc sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố đƣợc lƣu giữ dƣới dạng bảng. Đó là các giá trị “đích” để tạo ra một âm vị.
Trong tiếng nói, phần mang thông tin đƣợc quan tâm nghiên cứu nhiều hơn là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngƣợc lại (C-V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia đƣợc mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Nhƣ vậy về cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lƣu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác. Hệ thống quy luật bao gồm:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
● Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lƣu cũng nhƣ thời gian tồn tại của các vị trí đó.
● Luật nhằm làm trơn các formant đích.
● Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.
Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant)
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và