CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TTS TIẾNG VIỆT VÀ ỨNG DỤNG ĐỌC BÁO ĐIỆN TỬ
3.1. Xây dựng dữ liệu
Trong quá trình xây dựng dữ liệu, các đoạn tin tức, tường thuật trực tiếp các trận đấu bóng đá từ đài tiếng nói Nam bộ được thống kê, phân tích để xây dựng bộ từ vựng. Với dữ liệu văn bản thu thập được, một bộ từ vựng gồm 23092 từ và cụm từ, bao phủ hết toàn bộ từ vựng trong tiếng Việt. Cơ sở dữ liệu được xây dựng từ hơn 50 giờ thu âm của một giọng đọc nữ miền Nam, tách thành 14375 đoạn âm thanh. Các đoạn âm thanh được phân tích để xác định các thông tin của các đơn vị cơ sở.
Đơn vị cơ sở có thể là chữ cái, từ, cụm từ, hay là câu, mỗi đơn vị cần xác định các thông tin như: tên đơn vị, vị trí bắt đầu, vị trí kết thúc trong đoạn âm thanh, các đơn vị đứng trước và sau đơn vị đó. Toàn bộ thông tin của các đơn vị cơ sở được lưu thành từ điển chứa thông tin của tất cả các đơn vị, thuận tiện cho quá trình truy suất, nâng cấp. Cùng với từ điển thông tin đơn vị, các từ viết tắt, tiếng nước ngoài cũng được xây dựng thành từ điển. Như vậy, cơ sở dữ liệu của hệ thống bao gồm: các câu ghi âm, từ điển phân đoạn đơn vị, từ điển thông tin đơn vị, từ điển từ viết tắt, từ điển phiên âm tiếng nước ngoài.
3.1.1. Từ điển phân đoạn đơn vị
Các đơn vị cơ sở được chuyển thành số tương ứng để dễ dàng cho việc quản lý và thực hiện phần tra cụm từ. Cấu trúc của từ điển đơn vị gồm hai cột như Bảng 3-1, một cột là tên cụm từ và phần số tự quy ước tương ứng.
Bảng 3-1 Từ điển phân đoạn đơn vị Tên cụm từ Tên đơn vị phần đoạn
A 1
… …
VỆ BINH 287
VỆ QUỐC 288
VỆ SINH 291
VỆ SINH MÔI TRƯỜNG 293
VỆ SINH THỰC PHẨM 294
… …
MA LAI SI A 11261
MÃ SỐ 11291
MÃ VẠCH 11292
3.1.2. Từ điển thông tin đơn vị
Mỗi đơn vị cơ sở như chữ cái, từ, cụm từ hay câu có nhiều biến thể khác nhau và thông tin của từng biến thể này được xác định trong từ điển thông tin đơn vị như Bảng 3-2. Thông tin các đơn vị này bao gồm: tên đơn vị, tên file âm thanh chứa đơn vị, vị trí bắt đầu và kết thúc của đơn vị đó trong câu thu âm, số quy ước của đơn vị bên trái, số quy ước của đơn vị bên phải của nó. Từ điển thông tin đơn vị chứa thông tin của 938228 biến thể khác nhau của 23902 đơn vị cơ sở trong từ điển phân đoạn đơn vị.
Bảng 3-2 Từ điển thông tin đơn vị Tên
đơn vị Tên file âm thanh Vị trí
bắt đầu
Vị trí
kết thúc
Đơn vị bên trái
Đơn vị bên phải
1 A090308_054_F_V1 0 12343 270 1080
2 B200209_023 2673 22687 3770 5180
3 B241108_027 2673 15611 6730 7850
4 A280308_085_F_V1 3296 3031 9370 10590 4 A300308_031_F_V1 20578 0 10860 11870
5 B200209_107 7529 20196 3730 5250
6 3053 2673 7929 1190 3150
7 2040 9165 20347 15830 17640
8 A130109_095 8347 18843 1880 3240
9 A010908_080 22631 13554 3790 4850
9 A010908_081 15611 5599 1660 2440
10 2672 6961 7004 10740 11310
… … … …
23091 THEM6_102 8422 316 9890 10230
23092 THEM6_102 22927 14725 9890 10640
3.1.3. Từ điển từ viết tắt
Các cụm từ viết tắt được thường xuất hiện trong các văn bản tiếng Việt, để tổng hợp chính xác nội dung văn bản cần phải chuyển những cụm từ viết tắt này thành chữ viết đầy đủ. Các cụm từ viết tắt được thống kê từ nội dung các bài báo điện tử, sau đó chuyển thành nội dung đầy đủ tương ứng và lưu trữ thành từ điển từ viết tắt. Từ điển từ viết tắt có tổng cộng 11252 cụm từ viết tắt được thống kê, chuyển nghĩa đầy đủ và thể hiện như Bảng 3-3.
Bảng 3-3 Từ điển từ viết tắt Cụm từ viết tắt Cụm từ đầy đủ
ANTQ AN NINH TỔ QUỐC ATGT AN TOAN GIAO THÔNG ATKT AN TOÀN KỸ THUẬT
BBCVT BỘ BƯU CHÍNH VIỄN THÔNG BCHBP BỘ CHỈ HUY BIÊN PHÒNG BCHQS BAN CHỈ HUY QUÂN SỰ
BCSĐ BAN CÁN SỰ ĐẢNG BCVN BƯU CHÍNH VIỆT NAM BCVT BƯU CHÍNH VIỄN THÔNG
3.1.4. Từ điển phiên âm tiếng nước ngoài
Từ điển phiên âm tiếng nước ngoài được xây dựng và sử dụng để chuẩn hóa các từ nước ngoài thường gặp thành tiếng Việt. Sử dụng từ điển từ phiên âm tiếng nước ngoài trong quá trình chuẩn hóa giúp hệ thống tổng hợp đầy đủ và chính xác nội dung văn bản đầu vào. Từ điển phiên âm bao gồm 7655 từ nước ngoài, bao gồm: tên quốc gia, tên thủ đô, tên các câu lạc bộ bóng đá, các từ nước ngoài thường gặp … Cấu trúc của từ điển phiên âm gồm hai phần là tiếng nước ngoài và cụm từ phiên âm tương ứng, thể hiện như Bảng 3-4.
Bảng 3-4 Từ điển phiên âm Tiếng nước ngoài Cụm từ phiên âm
CUP CÚP
LONDON LUÂN ĐÔN
NEW NIU
MILAN MI LAN
ITALIA I TA LI A
CANADA CA NA ĐA
INTERNET IN TƠ NÉT
IRAN I RAN
MALAYSIA MA LAI XI A
SIZE SAI
GOOGLE GU GỒ
NEWCASTLE NIU CÁT SÔ
ASIAN A SI AN
BOLTON BON TƠN
MOBIFONE MÔ BI PHÔN
HONDA HON ĐA
… …
3.2. Phân tích và thực hiện giải thuật TTS
Chương trình TTS được thiết kế thành ba khối như Hình 3-1:
Hình 3-1 Hệ thống TTS được xây dựng