4. Xây dựng cơ sở dữ liệu
4.1. Xây dựng danh sách các âm tiết trong cơ sở dữ liệu
Dựa vào cấu trúc âm tiết tiếng Việt và dùng công cụ máy tính, chúng tôi đã thành lập danh sách đầy đủ các âm tiết chứa các đơn vị âm cần thu. Công việc xây dựng danh sách được thực hiện bằng phương pháp tổ hợp nhằm vét cạn tất cả các trường hợp có thể có đối với các âm tiết tiếng Việt. Sau bước tổ hợp, tiến hành loại bỏ các trường hợp không có trong tiếng Việt, lọc ra một danh sách các âm cần thu bằng phương pháp thủ công. Các âm tiết được ghi âm dựa trên số lượng các đơn vị âm đầu và đơn vị âm cuối đã được xác định.
- Xây dựng đơn vị âm đầu: Bằng cách tổ hợp các phụ âm đầu với nguyên âm chính mang thanh ngang ta được 324 tổ hợp. Tiến hành loại bỏ thủ công các tổ hợp không có trong tiếng Việt ta thu được 294 tổ hợp. Chẳng hạn loại bỏ các tổ hợp không có trong tiếng Việt như: ce, cê, ci, nghu, nghư,…
- Xây dựng đơn vị âm cuối: Bằng cách tổ hợp phần âm đệm, âm chính và âm cuối trong bảng cấu trúc âm tiết tiếng Việt cuối cùng ta được 721 tổ hợp tồn tại trong tiếng Việt. Cụ thể, bằng cách tổ hợp âm đệm với âm chính và sau khi loại bỏ tổ hợp không có trong tiếng Việt ta được 187 tổ hợp. Tiếp tục lấy 187 tổ hợp này để tổ hợp với âm cuối sẽ thu được 2244 tổ hợp. Tiếp theo loại bỏ các tổ
hợp không có trong tiếng Việt sẽ chỉ còn 721 tổ hợp. Chẳng hạn loại bỏ các tổ hợp không có trong tiếng Việt như: àt, ảt, ãt, àp, ảp, ãp, ă, ăi, â, âo,…
Tổng cộng có 1015 tổ hợp được xây dựng và số tổ hợp này được kết hợp với các ký tự cần thiết tạo thành danh sách các âm tiết cần thu. Trong số các âm tiết phải thu có một số âm tiết có phát âm trùng nhau. Vì vậy, khi thực hiện thu âm ta chỉ còn phải thu 976 âm tiết.