Gán nhãn cơ sở dữ liệu

Một phần của tài liệu Áp dụng phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt (Trang 49)

5. CHƢƠNG 5: XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM

5.3 Gán nhãn cơ sở dữ liệu

Trong phƣơng pháp tổng hợp tiếng Việt bằng cách ghép nối thì việc xây dựng cơ sở dữ liệu âm là rất quan trọng và có ảnh hƣởng trực tiếp đến chất lƣợng tiếng nói. Cơ sở dữ liệu âm càng phong phú thì tiếng nói tổng hợp đƣợc càng có chất lƣợng. Tuy nhiên vấn đề là phải cân đối giữa khả năng lƣu trữ của thiết bị cũng nhƣ tốc độ của ứng dụng và chất lƣợng của tiếng nói. Việc xây dựng cơ sở dữ liệu này phụ thuộc vào việc sử dụng đơn vị âm.

5.1 Lựa chọn đơn vị âm cho tổng hợp tiếng Việt

Việc lựa chọn đơn vị âm cho tổng hợp tiếng nói đòi hỏi phải có sự nghiên cứu và thử nghiệm thực tiễn. Mỗi tùy chọn cũng có những lợi thế riêng của mình, trong khi đơn vị âm dài cho ta tổng hợp câu có chất lƣợng cao, trơn tru, nhƣng số lƣợng âm lại lớn, ngƣợc lại, khi chọn âm có độ dài là nhỏ thì cơ sở dữ liệu âm nhỏ, đồng thời tổng hợp đƣợc nhiều câu hơn nhƣng chất lƣợng âm thanh bị giảm sút, đặc biệt ở những chỗ ghép nối sẽ có sự chênh lệch do sự ghép nối âm gây ra. Tiếng Việt có khoảng 12000 từ đơn đƣợc ghép từ những vần cơ bản (khoảng 150 vần) nhƣng nếu bao gồm cả dấu thanh thì lên đến 1800 vần. Việc sử dụng đơn vị âm dài có lợi thế là nó bao phủ đƣợc các hiệu ứng liên cấu âm, số điểm xích chuỗi ít hơn nhƣng số lƣợng đơn vị âm là rất lớn do đó trong thực tế số lƣợng ngữ cảnh là vô hạn nên không thể biên soạn, ghi âm để tổng hợp một văn bản bất kỳ. Do vậy hiện nay ngƣời ta thiên về phƣơng án chọn đơn vị âm nhỏ.

Tuy nhiên ta cần phải xác định "nhỏ nhƣ thế nào" ? Trong tiếng Anh, tiếng Pháp (là những ngôn ngữ đa âm tiết) đều sử dụng những đơn vị âm tƣơng đối nhỏ nhƣ biến thể của âm vị (allophone), âm đôi (diphone), và âm ba (triphone) vì chúng linh hoạt, dễ điều khiển, với số lƣợng âm không lớn có thể tổng hợp văn bản bất kỳ.

Trong tổng hợp formant theo luật, âm vị là đơn vị âm đƣợc sử dụng rất hiệu quả, tuy nhiên trong tổng hợp ghép nối sẽ bị ảnh hƣởng bởi liên cấu âm, do sự ghép nối rất dễ gây nên hiện tƣợng gãy âm ở biên ghép nối. Trong trƣờng hợp này chúng ta sẽ sử dụng âm đôi cho kết quả rất khả quan.

Âm đôi là đơn vị âm thanh có kích thƣớc của âm vị bởi nó đƣợc ghép từ 2 nửa âm vị, bắt đầu từ giữa một âm vị này và kết thúc ở giữa một âm vị kế tiếp. Sử dụng âm đôi đƣợc giả thiết rằng : hiệu ứng âm thanh của âm vị chỉ tác động đến nửa độ dài của hai âm kế bên. Đơn vị âm này bảo toàn đƣợc sự chuyển tiếp từ đơn vị này sang âm vị kia. Các biên của âm đôi khi xích chuỗi nằm giữa âm vị, tại điểm này phổ tiếng nói tuy ổn định nhƣng mức năng lƣợng cao và việc sử dụng âm đôi cũng gây ra việc chênh lệch âm tại điểm xích chuỗi này. Để việc tổng hợp đƣợc gần với tiếng nói tự nhiên thì các bán âm tiết phải thỏa mãn các điều kiện sau :

+ Phổ phải giống nhau tại 2 biên ghép nối với các bán âm tiết ghép nối.

+ Năng lƣợng trung bình của tín hiệu tại thời điểm ghép nối phải xấp xỉ bằng nhau.

+ Trƣờng độ các bán âm tiết phải hài hòa.

+ Tại điểm liên kết biên độ tín hiệu phải bằng nhau.

5.2 Ghi âm

Mục tiêu của việc ghi âm là tạo đƣợc một bộ đồng nhất các âm thỏa mãn các tiêu chí trên. Do đó ngƣời ghi âm phải có giọng chuẩn và không bị khản giọng, ốm hay bất cứ một tác động nào ảnh hƣởng đến chất lƣợng giọng nói. Quá trình ghi âm phải liên tục và chất giọng ngƣời ghi âm phải đảm bảo suốt thời gian ghi âm nếu không chúng ta sẽ phải ghi âm lại, bởi chỉ cần có sự không đồng bộ, tai chúng ta sẽ nhận rõ đƣợc sự khác biệt ấy. Ngƣời ta nhận thấy rằng việc ghi âm vào buổi sáng là tốt nhất và một ngày chỉ ghi âm tối đa trong vòng một tiếng đồng hồ. Mỗi lần ghi âm phải đƣợc thử giọng để cho lần sau ghi trùng khớp giọng so với lần trƣớc. Nhƣ vậy quy trình ghi âm cũng hết sức chặt chẽ để đảm bảo thu đƣợc một cơ sở dữ liệu tốt cho việc ghép âm. Không gian thu âm cũng phải tuyệt đối tinh khiết để không bị lẫn tạp âm, và thƣờng ngƣời ta dùng các thiết bị chuyên dụng nhƣ microphone Shure-SM 2 headset với khoảng cách từ micro tới môi là 8mm ! [3].

Để tập hợp đầy đủ các trƣờng hợp ngữ âm, ngữ cảnh khác nhau ta phải tạo ra một cơ sở dữ liệu khoảng 1800 câu ngắn có độ dài từ 5 đến 10 âm tiết để có thể bao phủ số vần có khả năng trong tiếng Việt.

Ngoài ra, các vần bị thay đổi khi đƣợc ghép với các phụ âm do nguyên âm tắc của sự tiếp hợp. Ví dụ nhƣ vần /uya/ ở /khuya/ khác với vần /uya/ ở /xuya/. Do vậy cần nhiều biến thể của vần trong CSDL. Để có một CSDL âm tốt cần phải xem xét đến các yếu tố nhƣ vị trí của vần trong âm đoạn hay các loại âm tiết trƣớc sau.

5.3 Gán nhãn cơ sở dữ liệu

Một vấn đề gặp phải khi sử dụng phƣơng pháp ghép nối là làm thế nào để gán nhãn và trích chọn đƣợc đúng đoạn dữ liệu trong một cơ sở dữ liệu âm lớn nhƣ vậy. Giải pháp ở đây là chia tách tín hiệu tiếng nói thành các đoạn âm không chồng nhau. Các đoạn âm này tƣơng ứng với một đơn vị ngôn ngữ đƣợc lựa chọn trƣớc và đƣợc ghi lại các thể hiện của ngôn ngữ đó. Đây là quá trình mô tả tín hiệu tiếng nói và lấy ra cấu trúc âm vị của một ngữ đoạn trực tiếp từ tín hiệu tiếng nói và còn đƣợc gọi là quá trình phân tích âm vị. Trong một ngữ đoạn thu đƣợc, các biên của mỗi âm vị không rõ vì tín hiệu chuyển tiếp liên tục từ âm vị này sang âm vị khác. Vì vậy sự thể hiện của tiếng nói thành chuỗi các đoạn âm đƣợc gán nhãn là tƣơng đối.

Nhƣ ta phân tích ở trên, cấu trúc âm tiếng Việt gồm 2 thành phần là phụ âm đầu và phần vần. Phần vần lại bao gồm âm đệm, âm chính và âm cuối. Trong một âm tiếng Việt có thể có nguyên âm ba (triphthong – tiếng Anh cũng có hiện tƣợng này, ví dụ nhƣ liar, loyal) và việc phân tách 3 âm này là tƣơng đối khó. Bên cạnh đó, phần thanh điệu là siêu đoạn tính và trải dài trên toàn bộ âm tiết trong trƣờng hợp các phụ âm đầu là phụ âm hữu thanh. Vì vậy việc trích xuất âm tiết đƣợc thực hiện cho phụ âm đầu và phần vần trong CSDL âm.

Khi phân tách phụ âm trong một âm tiết, cần phải đặc biệt lƣu ý bởi đối với các âm tiết thì khi phân đoạn rất đơn giản bởi chúng tƣơng đối độc lập và dễ dàng nhận biết trong biểu đồ sóng hoặc biểu đồ phổ. Tuy nhiên đối với phụ âm, âm tố của chúng là không độc lập. Ví dụ nhƣ phụ âm /ng/ thì khi cấu âm không phải là

"ngờ" mà chỉ là phiên âm. Ta biết rằng các phụ âm khi cấu âm thƣờng luôn gắn với phần vần cụ thể. Do đó để phân tách chính xác đòi hỏi ngƣời thực hiện phải có sự so sánh nhiều mẫu âm và có một chút kinh nghiệm trong vấn đề này.

Để phân đoạn âm ta dựa vào một số nguyên tắc nhằm đảm bảo sự chính xác và nhất quán nhƣ sau :

+ Sau đoạn nghỉ : Tại điểm bắt đầu của biên độ đầu tiên lớn hơn nhiễu nên nhìn thấy trên tín hiệu.

+ Trƣớc khi nghỉ : Tại điểm cuối của biên đội cuối cùng lớn hơn nhiễu nên nhìn thấy trên tín hiệu :

+ Chuyển tiếp phụ âm hữu thanh-vần : Đánh dấu sự chuyển tiếp dựa trên âm thanh, năng lƣợng và phổ.

+ Giữa các phụ âm vô thanh-vần : Tại điểm chủ kỳ cao độ tần số cơ bản thứ 2 của phần vần.

+ Đối với các âm tắc : Phân đoạn trƣớc khoảng 20ms cho giai đoạn tắc âm. Hiện nay có một số công cụ để gán nhãn là Praat (www.praat.org) hay Speech Filing System (http://www.phon.ucl.ac.uk/resource/sfs/), ở đây tôi chọn Praat bởi đây là một công cụ miễn phí và mở, nó cho phép phân tích, tổng hợp và xử lý các file âm thanh rất hiệu quả, khả năng tùy biến cao cho phép chúng ta có thể lập trình (dƣới dạng script) nhằm tự động hóa một số công việc trong quá trình phân tích. Praat cũng là một công cụ đƣợc mọi ngƣời sử dụng rộng rãi.

Thông thƣờng có 3 cách gán nhãn một cơ sở dữ liệu âm là : gán nhãn bằng tay, bán tự động và tự động.

Một phần của tài liệu Áp dụng phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt (Trang 49)

Tải bản đầy đủ (PDF)

(83 trang)