2 CÁC CƠNG TRÌNH LIÊN QUAN
2.3 Cách ướng tiếp cận tổng hợp tín hiệu tiếng nĩi
Để tổng hợp tín hiệu tiếng nĩi hiện nay cĩ nhiều phương pháp tiếp cận với những ưu khuyết điểm khác nhau như sau:
Hướng tiếp cận mơ phỏng trực tiếp cố gắng xây dựng mơ hình tổng hợp tiếng nĩi bằng cách bắt chước theo mơ hình hoạt động của bộ phát âm con người với sự phối hợp các hoạt động của các thành phần như phổi, thanh quản, yết hầu, mơi, lưỡi… Hướng tiếp cận này về mặt lý thuyết hứa hẹn khả năng tạo ra được tiếng nĩi cĩ chất lượng tốt nhất, tuy nhiên việc mơ phỏng hồn chỉnh các thành phần để tạo ra được tiếng nĩi cĩ chất lượng tốt thì cần phải thực hiện những cài đặt rất phức tạp địi hỏi khả năng xử lý tính tốn rất cao nên hiện tại nĩ khơng được quan tâm nhiều so với các hướng tiếp cận khác (Rahim et al. 1993[28]).
Hướng tiếp cận tổng hợp formant dựa trên cơ sở lý thuyết âm học của quá trình tạo tiếng nĩi. Phổ biến nhất hiện nay là mơ hình nguồn-lọc (source-filter model) tạo tín hiệu tiếng nĩi. Mơ hình này mơ phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng
Trang 29
một tập các bộ lọc. Các bộ lọc này cịn được gọi là các bộ cộng hưởng formant, chúng cĩ thểđược kết hợp song song hoặc nối tiếp với nhau hoặc kết hợp cả hai. Qua thực nghiệm, người ta nhận thấy để cĩ thể tạo ra tiếng nĩi cĩ thể nghe được cần tối thiểu là 3 bộ lọc, cịn để tạo ra tiếng nĩi cĩ chất lượng cao thì phải cần ít nhất là 5 bộ lọc. Vào năm 1980, Dennis Klatt [29] đề nghị một mơ hình tổng hợp formant kết hợp cả hai cấu trúc song song và nối tiếp. Hệ thống này sử dụng một mơ hình nguồn kích thích khá phức tạp. Số tham số cho cả hệ thống này lên đến 39 tham số, và để tạo ra liên lục từ bộ tổng hợp formant này các tham số sẽđược cập nhật liên tục trong khoảng 10-20ms. Ưu điểm của phương pháp này là dữ liệu rất nhỏ, cĩ khả năng điều khiển mềm dẻo các tham số âm học của tiếng nĩi. Nhược điểm của phương pháp này là khĩ xây dựng, cần nghiên cứu sâu sắc về ngữ âm của ngơn ngữ, phức tạp trong việc xác định các tham sốđiều khiển bộ tổng hợp, hạn chế về tính tự nhiên, độ giống tiếng người của tiếng nĩi tạo ra. Tiếng nĩi tự nhiên cĩ nhiều đặc điểm hiện chưa mơ tảđược, tuy nhiên các hệ hiện cĩ đã tạo được tiếng nĩi chất lượng rất cao, khơng khác tiếng người. Phần mềm VnSpeech [8] tổng hợp tín hiệu tiếng nĩi theo hướng tiếp cận này [5][7].
Hướng tiếp cận tổng hợp ghép nối tạo ra tín hiệu tiếng nĩi bằng cách ghép nối các đoạn tiếng nĩi tự nhiên được ghi âm từ trước. Tùy thuộc vào đặc điểm của ngơn ngữ và ứng dụng, cĩ nhiều lựa chọn khác nhau vềđộ dài của các đoạn tiếng nĩi để làm đơn vị ghép nối. Đơn vị ghép nối cĩ thể là cả ngữđoạn khi các ứng dụng là các thơng báo với khung cốđịnh, chỉ cĩ một phần thơng tin thay đổi như tại các nhà ga hay bản tin thời tiết, trả lời tựđộng một số thơng tin qua điện thoại… Với các tình huống ứng dụng yêu cầu đọc khơng hạn chế văn bản thì đơn vị ghép nối cần phải ngắn hơn, như từ, âm tiết, bán âm tiết (demisyllables), âm vị kép (diphone) hay âm vị. Cĩ hai điểm trọng tâm chính của phương pháp này là: (#1) Dữ liệu âm thanh các đơn vị ghép nối cần đủđể cĩ thể ghép được mọi tình huống văn bản của ứng dụng, và (#2) làm trơn chỗ ghép nối và tạo sự liên tục về âm điệu trong cảđoạn tiếng nĩi tạo ra. Yêu cầu (#1) liên quan đến kích thước dữ liệu và chất lượng của tiếng nĩi tạo ra. Đơn vịđược lựa chọn dài thì tiếng nĩi tổng hợp sẽ rõ tiếng dễ nhận biết nhưng kém linh hoạt trong việc biến đổi ngữđiệu đồng thời cần phải cĩ cơ sở dữ liệu lớn. Đơn vịđược lựa chọn ngắn như âm vị thì dữ liệu rất nhỏ nhưng sẽ rất khĩ tạo được tiếng nĩi cĩ chất lượng rõ tiếng dễ nhận biết. Yêu cầu (#2), kỹ thuật PSOLA (Pitch Synchronous OverLap Add) do France Telecom CNET (Centre National d'Etudes
Trang 30
Télécommunications) [30] đề xuất, gồm các phiên bản miền thời gian (TD-PSOLA), miền tần số (FD-PSOLA) hay dựđốn tuyến tính (LP-PSOLA) giải quyết hiệu quả việc làm trơn điểm ghép nối và biến đổi trong phạm vi nhỏ cao độ và trường độ. Ưu điểm của phương pháp này là dễ xây dựng, tiếng nĩi tạo ra cĩ độ tự nhiên, giống tiếng người và nhược điểm của nĩ là dữ liệu lớn, khơng mềm dẻo khi cần thay đổi giọng nĩi (cần phải tạo tại cơ sở dữ liệu đơn vị ghép nối mới) và phạm vi điều khiển các tham số âm học hạn chế. Phần mềm VnVoice[11] theo hướng ghép bán âm tiết [21]; phần mềm nhu liệu đọc tiếng Việt VietVoice[9] và một số sản phNm tổng hợp tiếng Việt bằng cách ghép âm tiết như phần mềm đọc tiếng Việt Sao Mai [10].
Tổng hợp tiếng nĩi dựa trên mơ hình mã hĩa dựđốn tuyến tính LPC (Linear
Predictive Coding) [31]. Phương pháp này địi hỏi cung cấp cho nĩ các thơng số như tần số cơ bản: âm hữu thanh/vơ thanh, hệ số tỉ lệ và tập các hệ số dự báo tuyến tính. Những hệ số này cần được cập nhật đồng bộ với sự thay đổi của cao độ tiếng nĩi. Ưu điểm của phương pháp này là dữ liệu nhỏ gọn và cĩ thể mơ phỏng ngữđiệu khá tốt. Khuyết điểm là chất lượng âm thanh khơng được tốt và cần nhiều xử lý tính tốn.
Tổng hợp tiếng nĩi dựa trên HMM (Hidden Markov Model) [32][33][34], là một phương pháp dựa vào mơ hình Markov Nn. Trong hệ thống này, phổ tần số của giọng nĩi, tần số cơ bản, và thời lượng đều được mơ phỏng cùng lúc bởi HMM. Với một chuỗi văn bản được đưa vào, các thơng số tổng hợp tiếng nĩi và tín hiệu tương ứng được xác định bởi các HMM đã được huấn luyện dựa trên tiêu chí khả thực cực đại. Ưu điểm của phương pháp này là cần ít bộ nhớ, cĩ thểđiều chỉnh ngữđiệu. Khuyết điểm của nĩ là cần nhiều xử lý tính tốn tín hiệu số nên chất lượng âm thanh cịn chưa được tốt và giống tiếng robot.
Trong các phương pháp tiếp cận trên, phương pháp tổng hợp formant và tổng hợp ghép nối được sử dụng khá phổ biến trong các hệ thống tổng hợp tiếng nĩi hiện nay. Trước đây các hệ thống tổng hợp format từng chiếm ưu thế trong một thời gian khá lâu do lợi thế về kích thước dữ liệu cần lưu trữ so với phương pháp tổng hợp ghép nối. Ngày nay với sự phát triển nhanh chĩng của cơng nghệ lưu trữ dữ liệu, phương pháp tổng hợp ghép nối ngày càng chiếm ưu thế và được sử dụng phổ biến hơn do tính đơn giản và cĩ lợi thế là chất lượng tiếng nĩi tự nhiên hơn.
Trang 31