Các phƣơng pháp cải tiến chất lƣợng giọng tổng hợp- 123docz.net

CHẤT LƢỢNG GIỌNG TỔNG HỢP

3.1. Các phƣơng pháp cải tiến chất lƣợng giọng tổng hợp

Khi nói đến vấn đề cải tiến chất lượng giọng tổng hợp, trước hết chúng ta hãy tìm hiểu xem những yếu tố gì ảnh hưởng đến chất lượng giọng tổng hợp. Có rất nhiều khía cạnh có thể cải tiến chất lượng giọng tổng hợp: xây dựng CSDL tiếng nói phong phú, chỉnh sửa các đơn vị ghép nối, làm trơn tín hiệu, hiệu chỉnh ngôn điệu (tần số cơ bản, năng lượng, trường độ), …

Các hiện tượng ngôn điệu và mô hình điều khiển

Giai điệu lời nói liên kết chặt chẽ với khái niệm “ngôn điệu”. Có thể nói ngữ điệu là sự nâng cao hạ thấp của giọng nói trong câu. Tần số cơ bản (F0) là đặc trưng chính của ngữ điệu. Khái niệm ngữ điệu (intonation) khác với ngôn điệu (prosody). Ngôn điệu bao gồm cả ngữ điệu. Các đặc trưng quan trọng nhất của ngôn điệu và độ đo được trình bày trong bảng dưới đây:

Âm học Cảm giác Ngôn ngữ

Tần số cơ bản (F0) Pitch Thanh điệu, ngữ điệu, độ nhấn Biên độ, Năng

lượng, Cường độ Độ to nhỏ Độ nhấn Trường độ Độ dài Độ nhấn Biên độ động Độ mạnh Độ nhấn

Ngôn điệu là đặc trưng siêu đoạn của lời nói, nó không mang tính chất đoạn như các âm tố, âm tiết. Đường nét F0 và cường độ âm thanh có thể được tính toán trực tiếp từ tín hiệu lời nói. Độ dài được phỏng đoán bằng cách chia tín hiệu thành các đoạn nhỏ theo định nghĩa về ngữ âm hoặc âm vị.

Các thông tin ngôn ngữ được mã hóa trong các đặc trưng của ngôn điệu bao gồm:

 Từ trọng âm/thanh điệu của âm tiết (trong các ngôn ngữ có thanh điệu),

 Sự phân đoạn (sự phân nhịp, sự ngắt giọng, …),

 Loại câu (câu trần thuật, câu hỏi, …).

Trong các hệ thống tổng hợp, vấn đề sinh ngôn điệu có thể xem như là phân loại mẫu và xấp xỉ hàm ánh xạ thông tin ngữ điệu trên các tham số ngữ điệu. Chẳng hạn, dự báo biên cụm, mỗi biên của từ cũng là vấn đề nhập nhằng hoặc mức cao hơn nhập nhằng biên cụm. Vấn đề sau đó là phân biệt được giữa các khả năng có thể, đánh dấu dùng ngữ cảnh. Dự đoán kiểu trọng âm pitch cũng là một bài toán phân loại mẫu khác xác định giá trị trong tập trọng âm [19].

Để xác định các tham số ngữ điệu, nhiều nhà nghiên cứu cũng sử dụng các kỹ thuật như mạng neuron [11], HMM (Hidden Markov Model) [12] và CART (Classification and Regression Trees) [8] đạt được một số thành công trong việc nhóm ngữ điệu, dự đoán trường độ, dự đoán nhãn ngữ điệu, sinh đường F0. Trong các kỹ thuật mô hình hóa này, CART được áp dụng cho nhiều bài toán bao gồm phân cụm ngữ điệu, dự đoán trọng âm pitch, sinh đường tần số cơ bản. Ưu điểm lớn nhất của CART là dễ hiểu trong quá trình dự đoán vì kết quả sau khi dự đoán thể

hiện bằng cây. CART cũng được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như phân loại tín hiệu rada, nhận dạng chữ, chẩn đoán y học [16].

Tiếng nói tổng hợp chất lượng cao đòi hỏi các kỹ thuật tổng hợp dùng phổ biến, mẫu ngôn điệu là đặc trưng chính gây nên sự không tự nhiên và đơn điệu của tiếng nói mà chủ yếu là do biến dạng đường pitch. Hiện nay, các luật hay dùng nhất trong các hệ tổng hợp được xây dựng bởi các chuyên gia, tổng hợp dựa trên các luật này vẫn tạo ra tiếng nói có chất lượng thấp. Các kỹ thuật phân lớp và học máy để trích chọn các mẫu ngôn điệu từ CSDL tiếng nói lớn cần nhằm cải tiến độ tự nhiên và dễ hiểu của tiếng nói tổng hợp. Các mô hình ngôn điệu bởi một số kỹ thuật học máy như tập thô, mạng nơ ron nhân tạo (ANN), và cây quyết định được huấn luyện tương ứng với đường tần số cơ bản và đường năng lượng mà có thể dùng trực tiếp trong hệ tổng hợp dựa trên PSOLA. Các kết quả thực nghiệm chỉ ra rằng các đặc trưng ngôn điệu được tổng hợp hoàn toàn giống với các bản gốc cho hầu hết mọi âm tiết [15].

Kỹ thuật tổng hợp hiện có ích trong một vài ứng dụng vì chất lượng tổng hợp chưa được tốt như con người mong muốn. Ngôn điệu bao gồm cấu trúc cụm và trọng âm của tiếng nói là một trong những thành phần cở bản trong hệ tổng hợp. Trong lĩnh vực xử lý tín hiệu tiếng nói, pitch là sự diễn cảm huyền bí nhất của hiện tượng ngôn điệu và biến thiên đường pitch trong tiếng nói có thể dùng để nhấn mạnh mục đích của người nói.

Ngôn điệu trong các hệ tổng hợp gồm ba mức. Thứ nhất, thành phần phân tích văn bản tính vị trí biên cụm từ và các chỗ nhấn trong câu.Thứ hai, các thành phần ngôn điệu âm học tính trường độ âm vị, đường tần số cơ bản, và các đường tham số âm học thêm vào như biên độ và độ nghiêng phổ. Cuối cùng, thành phần xử lý tín hiệu tính toán sóng tiếng nói số biểu diễn dãy âm vị có đường thời gian và pitch mong muốn.

Trong việc tạo ngôn điệu, các đặc trưng ngôn điệu như đường F0, đường năng lượng và trường độ âm vị được dự đoán từ đầu ra thông tin có ngữ cảnh trong quá trình phân tích văn bản. Thông tin ngôn điệu này rất quan trọng cho độ hiểu và độ tự nhiên của tiếng nói tổng hợp. Mô hình Fujisaki là một trong những mô hình có thể biểu diễn lại đường F0. Mô hình này chia đường F0 thành hai thành phần,

thành phần cụm từ giảm dần về cuối câu và thành phần trọng âm tăng hoặc giảm nhanh tại mỗi cụm trọng âm. Mô hình Fujisaki thường dùng để sinh đường F0 trong hệ tổng hợp dựa trên luật thông tin có ngữ cảnh. Khi đó, các luật được sắp xếp bởi chuyên gia được áp dụng. Trong những năm gần đây, các thuật toán trích chọn tự động các tham số điều khiển và các luật từ lượng dữ liệu lớn với các phương pháp thống kê được đưa ra. Nhiều thuật toán lái dữ liệu cho việc sinh ngôn điệu cũng được đề xuất. Trong mô hình điều khiển đường F0, đường F0 trong câu sinh được tạo bởi cách ghép nối các đoạn F0, đường F0 được sinh ra bằng cách hiệu chỉnh các véc tơ chứa các đường F0 đặc trưng. Các véc tơ biểu diễn được chọn từ codebook đường F0 có thông tin ngữ cảnh. Codebook thiết kế sao cho xấp xỉ lỗi thông tin có ngữ cảnh với thông tin có ngữ cảnh dự đoán trong cơ sở dữ liệu tiếng nói. Sau đó chọn đường F0 và dùng nguyên đường F0 này. Trong nhiều trường hợp khác, chọn đường F0 là đường có thông tin ngữ cảnh phù hợp nhất và dùng nguyên F0 này. Trong tổng hợp tiếng nói dựa trên mô hình Markov ẩn thì đường F0, dãy mel- cepstrum bao gồm đường năng lượng, trường độ âm vị sinh ra trực tiếp từ các HMM đã huấn luyện từ cây quyết định dựa trên kỹ thuật phân cụm có ngữ cảnh. F0 được mô hình hóa bởi các HMM phân bố xác suất trong không gian đa chiều, trường độ được mô hình hóa bằng cách phân bố Gauss nhiều chiều, mỗi chiều là trường độ của một trạng thái của HMM. Mel-cepstrum được mô hình hóa bởi HMM Gauss nhiều chiều hoặc HMM phân bố Gauss hỗn hợp nhiều chiều. Cây quyết định được xây dựng cho mỗi đặc trưng. Cây quyết định cho đường F0 và mel-cepstrum được tạo trong mỗi trạng thái của HMM. Trường độ có một cây quyết định được tạo. Mọi thủ tục huấn luyện được thực hiện một cách tự động. Trong tổng hợp, các đường tham số làm trơn mà là các đặc trưng tĩnh sinh ra từ HMM bằng cách cực đại tiêu chuẩn độ hợp lý trong khi xét các đặc trưng động của tiếng nói. Một số hệ thống tổng hợp không thực hiện việc sinh ngôn điệu. Trong các hệ thống này, thông tin có ngữ cảnh dùng thay cho thông tin ngôn điệu cho thủ tục tiếp theo, lựa chọn đơn vị.

Tiếng Việt là ngôn ngữ có thanh điệu, các thanh điệu có các đặc trưng rất khác nhau về đường nét F0. Trong lời nói liên tục, đường nét F0 của các thanh điệu bị biến đổi phụ thuộc vào các thanh điệu của các âm tiết liền kề và vị trí của âm tiết

trong câu. Việc mô hình hóa đường F0 các thanh điệu trong câu rất có ý nghĩa trong tổng hợp tiếng nói.

Cơ sở dữ liệu

Cơ sở dữ liệu là một trong những yếu tố quan trọng ảnh hưởng đến chất lượng giọng tổng hợp. Cơ sở dữ liệu càng lớn thì chất lượng giọng tổng hợp càng cao. Đó là do chúng ta có nhiều lựa chọn các đơn vị tiếng nói trong các ngữ cảnh khác nhau.

Phần tiếp theo của luận văn sẽ giới thiệu một vài mô hình biểu diễn ngôn điệu có thể áp dụng cho tiếng Việt.

Các phƣơng pháp cải tiến chất lƣợng giọng tổng hợp

Thành phần xử tín hiệu số

Thành phần xử tín hiệu số