5. CHƢƠNG 5: XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM
5.3.1 Gán nhãn bằng tay
Phƣơng pháp gán nhãn bằng tay đƣợc áp dụng khi CSDL âm chƣa lớn và việc gán nhãn đòi hỏi sự chính xác cao. Việc gán nhãn đòi hỏi ngƣời thực hiện phải có những hiểu biết nhất định về các đặc trƣng ngôn ngữ, phổ, năng lƣợng..., ngay cả việc gán nhãn tự động cũng đòi hỏi các thao tác thủ công để điều chỉnh, chuẩn hoá.
Khi gán nhãn bằng tay, ngƣời thực hiện xác định ranh giới giữa các âm vị bằng cách dựa vào biểu đồ sóng (waveform) và biểu đồ phổ (spectrogram).
Biểu đồ phổ là hình biểu diễn tổng hợp các giá trị phổ thời gian ngắn (thƣờng từ 5-20ms, có thể coi trong thời gian tín hiệu tiếng nói là dừng do quán tính của cơ quan cấu âm mà F0 không thay đổi) của tín hiệu tiếng nói. Trục tung của biểu đồ phổ thể hiện tần số, có điểm gốc là 0 Hz. Trục hoành của biểu đồ là trục thời gian. Mức năng lƣợng của một tần số thành phần tại một thời điểm t trong biểu đồ phổ S của tín hiệu tiếng nói thƣờng đƣợc biểu thị bằng độ đậm nhạt S(t,f). Các đƣờng đậm nét trên biểu đồ phổ thể hiện các formant của tín hiệu tiếng nói.
Hình 5.1 : Biểu đồ sóng (trên), biểu đồ phổ (giữa) và kết quả gán nhãn mức âm vị và mức âm tiết của 2 từ "tổng hợp"
Thông tin về âm học trên biểu đồ sóng đƣợc dùng để xác định nơi đặt các ranh giới. Đối với các âm có tần số cao, biên độ thấp thì việc đọc thông tin trên biểu đồ sóng tƣơng đối khó khăn, khi đó biểu đồ phổ sẽ đƣợc sử dụng. Sự biến đổi trên biểu đồ sóng nói chung là đáng tin cậy hơn sự biến đổi trong biểu đồ phổ, đặc biệt là trong các trƣờng hợp có sự chuyển dịch từ biên độ thấp sang biên độ cao.
Việc xác định và so sánh độ chính xác của nhãn thời gian là tƣơng đối khó khăn do trở ngại của việc xác định chính xác ranh giới (boundary) giữa các âm vị. Đối với các phát âm liên tục, nhiều ranh giới đƣợc nhận thức bởi ngƣời nghe nhƣng không tồn tại nếu chúng ta phân tích chúng dƣới góc độ âm học, nhiều âm vị bị
trùng khớp và dính liền vào nhau. Do vậy ranh giới giữa các âm vị chúng ta xác định trong quá trình gán nhãn có thể đƣợc hiểu nhƣ là nhân tạo. Các trƣờng hợp nhập nhằng đƣợc giải quyết bằng một số luật đƣợc qui ƣớc chung để đảm bảo tính nhất quán và bền vững. Tuy nhiên việc gán nhãn thủ công sẽ mang đậm tính chủ quan của ngƣời gán nhãn do đó sẽ không tồn tại một dãy các nhãn âm vị chính xác cố định cho mỗi phát âm, một phát âm có thể đƣợc phiên âm theo nhiều cách phụ thuộc vào ngƣời gán nhãn.
Khi gán nhãn CSDL âm, ta cũng phải lƣu ý đến tính chất của các âm để có thể gán nhãn một cách chính xác:
a. Âm tắc:
Khi phát âm một âm tắc, cơ quan phát âm sẽ khép lại và luồng không khí từ phổi đi ra sẽ bị cản trở hoàn toàn. Âm tắc đƣợc hình thành khi luồng hơi phá vỡ sự cản trở và bật ra thành một tiếng nổ (do vậy âm tắc cũng đƣợc gọi là âm nổ).
Các âm tắc đƣợc nhận diện trên biểu đồ phổ bằng một sự tăng đột biến năng lƣợng trong một khoảng thời gian ngắn trên khoảng tần số rộng tạo thành một hình cột dựng đứng gọi là burst. Do các cơ quan phát âm đóng hoàn toàn trƣớc khi phát âm một âm tắc nên trên biểu đồ phổ của một phát âm liên tục, trƣớc âm tắc thƣờng có một khoảng trắng năng lƣợng và đƣợc gọi là âm đóng.
Việc gán nhãn một âm tắc đƣợc dựa vào sự thay đổi trong biểu đồ sóng, đặc biệt khi chúng đứng sau một ngắt giọng hay một âm đóng. Các âm tắc có bật hơi mạnh rất dễ đƣợc đánh dấu. Các âm tắc không có bật hơi có thể dễ nghe hơn là nhìn thấy trên biểu đồ phổ. Gán nhãn các âm tắc này đƣợc dựa vào một xung ở biểu đồ sóng mà biên độ thấp hơn nhiều so với biên độ của nguyên âm theo sau.
Trong phát âm nhanh, các âm tắc thƣờng đƣợc bật ra rất nhẹ với rất ít hoặc không có áp lực. Nếu burst không xuất hiện rõ ràng trong biểu đồ phổ hay biểu đồ sóng thì có thể coi là chúng không tồn tại [5].
− Đặt chế độ phân giải mịn hơn trên biểu đồ sóng. Với độ phân giải 0.25ms/1pixel việc gán nhãn sẽ dễ dàng hơn trong trƣờng hợp này.
− Quan sát formant theo sau các âm đóng. Nếu có đoạn formant nằm ngang và sau đó bắt đầu chuyển sang vị trí của nguyên âm đứng đằng sau thì đặt ranh giới vào phần formant mà nằm ngang đó.
− Nếu không có thông tin gì về âm học thì có thể giả thiết là âm tắc không xuất hiện.
b. Âm đóng:
Ranh giới trái của âm đóng thƣờng đƣợc xác định khi năng lƣợng của âm trƣớc đã hết. Ngƣời nói thƣờng tạo ra một lƣợng tạp âm nhỏ khi di chuyển các bộ phận phát âm của họ vào vị trí của âm đóng. Khi điều này xuất hiện, sẽ có một xung nhỏ trên biểu đồ sóng hoặc biểu đồ phổ. Ranh giới trái của âm đóng đƣợc xác định bằng điểm này.
Nếu không có biểu hiện âm học về điểm bắt đầu của âm đóng thì âm đóng đƣợc gán biên giới trái 50ms nếu âm đóng đứng trƣớc một âm tắc và 100ms từ khi năng lƣợng ở biểu đồ phổ kết thúc nếu âm đóng đứng cuối một từ.
Âm tắc hữu thanh (ví dụ nhƣ /d/) theo sau một âm mũi thƣờng không có âm đóng. Đó là vì âm đóng thƣờng rất ngắn, vòm miệng đƣợc đóng lại chỉ ngay trƣớc burst để cho tăng áp lực tạo thành các burst khi phát âm âm tắc. Thời gian này rất ngắn và có thể không cần thiết phải gán nhãn.
Có đôi khi âm tắc không xuất hiện trong các phát âm liên tục và nhanh. Tuy nhiên âm đóng vẫn tồn tại và vì vậy có hai trƣờng hợp có thể xảy ra: "âm đóng+âm tắc+ nguyên âm" và "âm đóng + nguyên âm".
c. Âm xát:
Đặc trƣng của âm xát là tiếng cọ xát phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn phải lách qua một khe hở nhỏ và trong khi thoát ra nhƣ vậy cọ xát vào thành của bộ máy phát âm. Trên biểu đồ phổ, âm xát có hình dáng là một vùng năng luợng ở tần số cao có với sự phân bố năng lƣợng ngẫu nhiên.
Các âm xát đƣợc định ranh giới tại nơi có sự thay đổi gốc trên biểu đồ sóng. Nếu không có hoặc rất ít sự thay đổi trên biểu đồ sóng thì ranh giới đƣợc xác định là điểm có sự tăng năng lƣợng trên biểu đồ phổ.
Ta thấy hình ảnh của âm vị /s/ có biên độ thấp không tuần hoàn trên biểu đồ sóng và một hình chữ nhật với năng lƣợng phân bố ngẫu nhiên tại vùng tần số cao trên biểu đồ phổ.
d. Âm mũi
Âm mũi phát sinh do luồng không khí từ phổi bị đóng hoàn toàn ở đằng miệng, đi ra ở đằng mũi và nhận đƣợc sự cộng hƣởng của khoang mũi. Âm mũi đƣợc nhận biết trên biểu đồ sóng bởi các sóng đi lên hoặc đi xuống với tính tuần hoàn cao, biên độ thấp trên biểu đồ sóng. Trên biểu đồ phổ các âm mũi thƣờng mang các formant cùng với các formant của các âm đứng xung quanh nhƣng với mầu nhạt về mầu sắc và cƣờng độ trong biểu đồ phổ.
Tại cuối của một phát âm, âm mũi thƣờng giảm dần, kéo dài đều đặn cho đến khi không phân biệt đƣợc với môi trƣờng hoặc tín hiệu nhiễu. Ranh giới phải của âm mũi là điểm kết thúc của formant F1, điểm này thƣờng phải trùng với điểm kết thúc trên biểu đồ sóng. Trên hình 2 ta thấy hình ảnh của các âm mũi /m/ và /n/. Các âm mũi là các sóng biên độ thấp, giảm dần. Hình ảnh phổ của hai âm mũi /m/ và /n/ là các formant F2, F3 có độ sáng yếu, trùng với các formant F2, F3 của các nguyên âm đứng trƣớc.
e. Nguyên âm đơn, nguyên âm đôi và bán nguyên âm
Nguyên âm có đặc điểm chung là có các formant nằm ngang song song với các trục hoành (thƣờng là F2, F3) trong tất cả khoảng thời gian tồn tại của nó. Việc xuất hiện của nguyên âm đứng đằng sau một âm mũi hoặc một âm tắc có thể đƣợc đánh dấu bởi xuất hiện hay tăng độ đậm của formant trên biểu đồ phổ và bởi tăng biên độ (có thể là tuần hoàn) ở biểu đồ sóng. Ranh giới của nguyên âm đƣợc xác định là điểm thay đổi gốc trên biểu đồ sóng.
Khi hai nguyên âm đi liền nhau, hay một bán nguyên âm đi sau một nguyên âm, ranh giới giữa hai âm vị thƣờng rất khó phân biệt. Ranh giới đƣợc xác định là sự thay đổi về hình dáng tuần hoàn của sóng trên biểu đồ sóng, và đó cũng trùng với ranh giới có sự thay đổi về formant trên biểu đồ phổ. Nếu ranh giới này khó xác
định bằng mắt thƣờng, điểm ranh giới đƣợc đặt tại giữa phần chuyển dịch của formant.
Nguyên âm đôi có các formant không bằng phẳng và chúng đi lên hoặc đi xuống trong suốt thời gian tồn tại của nguyên âm đôi. Formant sẽ di chuyển từ độ cao các formant của nguyên âm trƣớc đến nguyên âm sau. Trên Hình 3 nguyên âm đôi /wa/ có các formant F2 đi lên và F3 đi xuống từ âm /w/ sang nguyên âm /a/. Với trƣờng hợp của nguyên âm đơn /a/ ta thấy các F1, F2, F3 đều là các đƣờng nằm ngang song song với trục hoành. Trên biểu đồ sóng âm vị /a/ có biến đổi lớn hơn âm xát /h/ đứng trƣớc.
f. Phụ âm cuối
Trong trƣờng hợp phụ âm cuối là các âm tắc, khi phát âm cơ quan cấu âm di chuyển vào vị trí phát âm của phụ âm cuối tƣơng ứng, bộ máy phát âm đóng hoàn toàn. Nhƣng trên thực tế phát âm không có giai đoạn buông, do đó phụ âm cuối không bao giờ thực sự đƣợc phát. Đây là một đặc điểm riêng biệt của tiếng Việt. Vì vậy trên biểu đồ phổ hình ảnh của phụ âm cuối loại này là một khoảng trắng năng lƣợng và chúng đƣợc xếp vào cùng loại với âm đóng. Đối với phụ âm cuối mũi, hình ảnh trên biểu đồ sóng và biểu đồ phổ tƣơng tự nhƣ trong trƣờng hợp các phụ âm mũi đứng ở đầu câu. Các phụ âm cuối âm mũi thƣờng mang formant F2, F3 của nguyên âm đứng trƣớc nó nhƣng với độ sáng kém hơn.
g. Âm đệm
Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hoá âm tiết và khu biệt âm tiết này với âm tiết khác. Âm đệm không xuất hiện trƣớc các nguyên âm tròn môi /u,o/, nó cũng chỉ xuất hiện trƣớc các nguyên âm hàng trƣớc. Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm đi sau.
Trên biểu đồ phổ, âm đệm thƣờng có hình ảnh là các formant gắn liền với các formant của nguyên âm đứng sau nhƣng không bẳng phẳng.