Chủ đề Số câu Số âm tiết Nguồn
Cơ bản 25 349 Biên soạn
Đời sống 25 855 VnExpress
Khoa học 25 893 VnExpress
Kinh doanh 25 729 VnExpress
Ơ tơ-xe máy 25 652 VnExpress
Pháp luật 25 855 VnExpress
Tổng 150 4333
Kết quả thống kê sự phân bố âm vị trên VDSPEC (Hình 2.6) cho thấy ngữ liệu cũng đồng thời thỏa mãn tiêu chí bao phủ về mặt âm vị tiếng Việt. Giá trị mỗi cột trên đồ thị là tỷ lệ (%) số lần xuất hiện của âm vị trên tổng số tất cả các âm vị có trong VDSPEC.
Hình 2.6: Sự phân bố các âm vị trong VDSPEC
Tổ chức lưu trữ văn bản sao cho thuận lợi trong quá trình xây dựng cũng như khai thác về sau cũng đã được tính đến. Sau khi chuẩn hóa, mỗi đoạn văn bản (gọi là một câu) được phân biệt bởi một cặp thẻ bao gồm thẻ mở <s> và thẻ đóng </s>, xen giữa là nội dung văn bản ghi vào file văn bản theo chủ đề. Ví dụ, văn bản “Theo đại diện một ngân hàng thương mại cổ phần” sẽ được lưu thành “<s>Theo đại diện một ngân hàng thương mại cổ phần</s>”. Mỗi chủ đề được lưu thành một tập tin văn bản (định dạng UTF-8) với tên tập tin đặt theo định dạng “YY.txt” trong đó “YY” là mã tương ứng với các chủ đề (cb: “cơ bản”, ds: “đời sống”, kd: “kinh doanh”, ox: “ô tô xe máy”, pl: “pháp luật”). Trong mỗi tập
64
tin văn bản của chủ đề, các đoạn văn được được bắt đầu bởi một ký hiệu theo định dạng “YYZZZZ” ghi trên một dòng (liền trước dòng nội dung văn bản). Mã ZZZZ là số thứ tự đoạn văn thuộc chủ đề “YY”. Ví dụ “cb0001” là ký hiệu bắt đầu cho đoạn văn bản số 1 thuộc chủ đề “cb” (cơ bản). Dòng kế tiếp là nội dung văn bản bắt đầu bởi thẻ <s> và kết thúc bằng thẻ </s>. Việc phân chia các đoạn văn bản cũng cần có chọn lựa sao cho độ dài một đoạn không quá ngắn hoặc quá dài, thuận tiện cho việc đọc sau này, hạn chế các nhầm lẫn có thể xảy ra khi đọc. Trong bộ văn bản đã xây dựng, mỗi đoạn có độ dài tương ứng trung bình là 10 giây theo tốc độ nói bình thường.
2.6.3. Ghi âm
2.6.3.1. Thiết bị ghi âm
Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh chất lượng cao. Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi âm tiếng nói (Shure SM48). SM48 có đáp ứng tần số từ 55Hz đến 14000Hz, trở kháng đầu ra 270 Ohms, đạt -57.5 dBV/Pa (1.3 mV) ở tần số 1 kHz [7]. Đây là loại micro đơn hướng, hạn chế nhiễu nền và nguồn tạp âm xung quanh. Phòng ghi âm được lựa chọn riêng, nhiễu nền thấp theo kết quả tính tốn ở phần sau cho thấy. Hình 2.7 là đáp ứng tần số của SM48 [7].
Hình 2.7: Đáp ứng tần số của SM48
2.6.3.2. Lựa chọn người nói
Việc lựa chọn người nói có ảnh hưởng đáng kể đến chất lượng tiếng nói thu được. Để ghi âm giọng nói đặc trưng cho phương ngữ, người nói được chọn sao cho có giọng gốc của địa phương. Tuổi trung bình của người nói là 21. Người nhỏ tuổi nhất là 17 và cao tuổi nhất là 38. Song tuổi người nói chủ yếu trong khoảng từ 19 đến 22 (chiếm 85%). Ở độ tuổi này, chất giọng được xem là ổn định, thể hiện được đầy đủ các đặc trưng cho giọng địa phương. Việc ghi âm cũng được tổ chức theo nhiều phiên khác nhau để bao hàm được sự biến thiên của tiếng nói ở các thời điểm khác nhau đối với cùng một người nói.
Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi phương ngữ có 50 người nói bao gồm 25 giọng nam và 25 giọng nữ.
65
2.6.3.3. Phần mềm hỗ trợ ghi âm
Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch bản TCL/TK. Các chức năng chính của phần mềm bao gồm:
- Quản lý thơng tin người dùng - Quản lý các chủ để ghi âm
- Quản lý các tập tin tiếng nói đã ghi được
- Thực hiện các thống kê, cung cấp các thơng tin hữu ích cho người điều khiển ghi âm như: số lượng tập tin tiếng nói đã ghi mỗi chủ đề, số lượng tập tin tiếng nói tương ứng với một người nói…
- Hỗ trợ q trình ghi âm, có khả năng hiển thị dạng sóng tiếng nói đang ghi, có thể phát lại tiếng nói đã ghi, thực hiện ghi lại đoạn tiếng nói đã ghi nếu cần; tự động tìm các đoạn tiếng nói chưa được ghi để chọn cho lần ghi kế tiếp.
2.6.3.4. Môi trường ghi âm
Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp (tỷ số tín hiệu trên nhiễu xấp xỉ 35 dB). Để xác định tỉ số tín hiệu trên nhiễu của VDSPEC, tác động của nhiễu nền lên tín hiệu tiếng nói được giả thiết mang tính chất của nhiễu cộng. Giả thiết này phù hợp với thực tế tác động của nhiễu nền trong phịng thu. Vì vậy, việc xác định tỉ số tín hiệu trên nhiễu được tiến hành như sau. Trong thời gian ứng với khoảng lặng, nghĩa là khơng có tiếng nói và chỉ có nhiễu nền, cơng suất nhiễu sẽ được tính theo cơng thức sau đây:
𝑃𝑁 = 1 𝑁∑ 𝑏 2 𝑁−1 𝑛=0 (𝑛) (2.1)
Trong công thức trên, PN là công suất nhiễu nền trong thời gian ngắn, N là độ rộng cửa sổ để tính PN, b(n) là nhiễu nền. Với tần số lấy mẫu 16000 Hz, N được chọn bằng 256. Để có tín hiệu tiếng nói sạch (tức là khơng có nhiễu), dựa trên giả thiết về nhiễu cộng, phương pháp trừ phổ đã được thực hiện và từ đó tính được cơng suất tín hiệu tiếng nói như sau: 𝑃𝑆 = 1 𝑁∑ 𝑥 2 𝑁−1 𝑛=0 (𝑛) (2.2)
Ở đây, 𝑃𝑆 là công suất tín hiệu tiếng nói trong thời gian ngắn, x(n) là tín hiệu tiếng nói. Cuối cùng, tỉ số tín hiệu trên nhiễu tính theo dB sẽ là:
𝑆𝑁𝑑𝐵 = 10𝑙𝑜𝑔10𝑃𝑆
𝑃𝑁
66
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này
Theo phương pháp trên, tỉ số tín hiệu trên nhiễu của ngữ liệu VDSPEC đã được xác định có giá trị trung bình xấp xỉ 35 dB. Giá trị này là hồn tồn thích hợp đối với ngữ liệu dùng cho nghiên cứu nhận dạng và tổng hợp tiếng nói.
2.6.3.5. Định dạng ghi âm
Định dạng ghi âm đã được thiết lập sẵn trong phần mềm hỗ trợ ghi âm và giữ cố định, thống nhất trong suốt thời gian ghi âm. Cụ thể, âm thanh được ghi theo chuẩn PCM, không nén, tần số lấy mẫu 16kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono). Định dạng này đáp ứng được yêu cầu về dải tần số tiếng nói thơng thường đồng thời kích thước tập tin tiếng nói khơng q lớn.
2.6.3.6. Tổ chức lưu dữ liệu
Để giúp quản lý và khai thác bộ ngữ liệu thuận lợi, các tập tin tiếng nói được đặt tên thống nhất theo một định dạng. Tập tin tiếng nói tương ứng với mỗi đoạn văn trong các chủ đề đều được ghi trên đĩa thành một tập tin có tên duy nhất theo định dạng “XXYYZZZZ.wav”, trong đó:
- XX: là mã (ID) của một người nói, bao gồm chữ cái, chữ số và là duy nhất - YY: mã chủ đề (cb, ds, kd, kh, pl)
- ZZZZ: mã số đoạn âm thanh (đánh số từ 0000)
Thơng tin của người nói được ghi trong một tập tin đặt tên là user.xml. Tập tin này chứa các thơng tin cơ bản của người nói:
0 5 10 15 20 -0.5 0 0.5 Time in ms A m p lit u d e 2 4 6 8 10 12 14 16 18 20 0 20 40 60 S /N i n d B (a) (b) SN trung bình
67
- Mã số (ID) của người nói, bao gồm 2 ký tự và là duy nhất - Họ và tên đầy đủ của người nói
- Địa chỉ: ghi theo địa chỉ có ảnh hưởng nhiều nhất tới việc hình thành giọng nói hiện tại của người nói.
- Giới tính, tuổi, thơng tin liên hệ
Tổ chức lưu dữ liệu của bộ ngữ liệu được trình bày ở Bảng 2.11.