Đây là vấn đề rất khó khăn phức tạp vì nó phụ thuộc vào nhiều yếu tố nằm ngoài văn bản như: ý nghĩa ngữ cảnh của câu nói, trạng thái tình cảm của người nói… 1.1.3 Ng ữ điệu trong tiếng n
Trang 1Trang 1
ỦY BAN NHÂN DÂN TP.HCM
S Ở KHOA HỌC VÀ CÔNG NGHỆ
BÁO CÁO NGHI ỆM THU
( Đã chỉnh sửa theo góp ý của Hội đồng nghiệm thu)
CH Ủ NHIỆM ĐỀ TÀI
(Ký tên)
CƠ QUAN QUẢN LÝ CƠ QUAN CHỦ TRÌ
(Ký tên/ đóng dấu xác nhận) (Ký tên/đóng dấu xác nhận)
THÀNH PHỐ HỒ CHÍ MINH
THÁNG 04 / 2009
Trang 2Trang 2
Theo ước tính của Bộ Thương Binh Lao Động và Xã Hội và Hội Người Mù Việt Nam, hiện
có kho ảng 600.000 người mù và kém mắt ở nước ta Đối với ngưòi khiếm thị, máy tính đã thể hiện
m ột vai trò quan trọng đối người khiếm thị trong việc tiếp cận thông tin So với phưong cách truyền
th ống của người khiếm thị trong việc tiếp nhận thông tin bằng băng ghi âm, tài liệu chữ nổi; máy tính đã giúp người khiếm thị có thể truy cập nguồn thông tin qua âm thanh một cách chủ động Bên c ạnh đó, ngôn ngữ tiếng Anh hiện là ngôn ngữ phổ biến nhất trong giao tiếp trên thế giới Ngôn ng ữ cũng đóng vai trò quan trọng cho người khiếm thị, đặc biệt trong xã hội mà Internet ngày càng phát tri ển thì biết tiếng Anh sẽ mở ra cơ hội lớn cho người khiếm thị trong giao tiếp cộng đồng và nghề nghiệp Tuy nhiên, công cụ và phương tiện cho người khiếm thị học tiếng Anh thì còn r ất ít, vì vậy học tiếng Anh đối người khiếm thị là công việc khó khăn hơn rất nhiều so với
ng ười sáng mắt
Với định hướng giúp ngưòi khiếm thị Việt Nam có thể dễ dàng tiếp cận với máy tính
phục vụ cho việc học tập tiếng Anh, dự án này nghiên cứu và xây dựng các công cụ và
phần mềm cần thiết cho nhu cầu cơ bản của người khiếm thị Với những công cụ và phần
mềm của dự án, người khiếm thị có thể dễ dàng học ngôn ngữ tiếng Anh một cách thuận
lợi và hiệu quả Trong đề tài này, chúng tôi tập trung nghiên cứu những vấn đề sau:
B ộ phát âm tiếng Việt: Bộ phát âm máy tính thể hiện một cách chính xác như
người thường đọc trong việc ngưng nghỉ, nhấn nhá âm thanh để người nghe có thể nắm bắt được thông tin Với mô hình nghiên cứu mạng nơ-ron, chúng tôi xây dựng bộ phát âm đạt
theo những yêu cầu mong muốn cho người khiếm thị
Ph ần mềm Từ điển Anh – Việt: Chúng tôi tập trung nghiên cứu hành vi sử dụng
máy tính của của người khiếm thị và đề ra giải pháp xây dựng phần mềm từ điển để người
khiếm thị có thể tự sử dụng học tiếng Anh
Ch ương trình đọc màn hình: Với quan điểm thiết kế một chương trình tổng quan
có thể giúp người khiếm thị điều khiển các thành phần trên máy tính Chúng tôi tập trung
nghiên cứu kĩ thuật lập trình trên Windows để truy cập các thông tin các đối tượng
Windows và mô tả lại bằng tiếng nói cho người khiếm thị Với công cụ này người khiếm
thị có thể sử dụng máy tính soạn thảo văn bản, sử dụng các chương trình phục vụ học tiếng
Anh
Ph ần mềm giáo trình học tiếng Anh cho người khiếm thị: Qua phân tích các cấu
trúc và phương pháp học tiếng Anh, chúng tôi xây dựng phần mềm dựa trên giáo trình học
tiếng Anh sẵn có nhằm giúp người khiếm thị dễ dàng học tiếng Anh
Trang 3Trang 3
ABSTRACT
According to the Ministry of Labor and Vietnamese Blind Association, there are about 600,000 blind and visually impaired people in Vietnam The blind people realise the important role of computers to access information In compared with the traditional
methods in accessing information such as tape recording, Braille materials, the computer helps blind people can actively manage information by speech responses In addition, English language is currently the most popular language in communications over world In developing society, English is used an essential tool in communication in business,
education and technology, so those who are good at English have good opportunities and advantages in jobs and life Unfortunately , the blind people have many obstacles to access English language because most of English books are written and printed for the sight people
The project aims to help Vietnamese blind people to utilize the advantages of the computer in learning English It focuses on studying and developing software which use text-to-speech engine to assist the blind people in using computer and improve English skill
Text-to-Speech Engine based on neuron network: The project pursuits a goal to
build an engine that reads the inputted Vietnamese text like a real voice of human It uses studies on neuron network to analyze the significant factors of human voice and applies for machine’s voice
English – Vietnamese Dictionary: The project concentrates to study the blind
people’s behaviors in using the computer Based on that, it proposes the solutions for blinds in using computers and develops an dictionary application which helps the bind people to look up English words easily and quickly
Screen reader: With the point of view that the blind people can control the
computer in Windows, the project aims to research technologies of GUI components in Windows OS to get the information and describe these components in voice With the results in the project, the blind people can control the Windows and edit Word documents for learning English
English electronic textbook: Based on knowledge in English education from
contemporary English textbook, we develop an electronic textbook for the blind people which can speak in English and Vietnamese in most of basic situations in English learning
Trang 4Trang 4
TÓM T ẮT NỘI DUNG NGHIÊN CỨU 2
DANH SÁCH B ẢNG 8
DANH SÁCH HÌNH 9
PH ẦN 1 PH ẦN MỞ ĐẦU 13
1 THÔNG TIN VỀ DỰ ÁN 13
2 MỤC TIÊU 13
3 NỘI DUNG 14
4 SẢN PHẨM CỦA ĐỀ TÀI 15
PH ẦN 2 T ỔNG HỢP TIẾNG NÓI 16
1 GIỚI THIỆU 16
1.1 Tổng hợp tiếng nói nhân tạo 16
1.2 Một vài đặc điểm của tiếng việt, ngữ âm, ngữ điệu 19
1.3 Những khó khăn trong tổng hợp tiếng nói 23
2 CÁC CÔNG TRÌNH LIÊN QUAN 24
2.1 Các hướng tiếp cận liên quan đến xử lý ngữ điệu 24
2.2 Các mô hình biểu diễn tần số cơ bản 27
2.3 Các hướng tiếp cận tổng hợp tín hiệu tiếng nói 28
2.4 Nhận xét về các hướng tiếp cận 31
3 MÔ HÌNH MẠNG NƠ-RON XÁC ĐNNH CÁC THÔNG SỐ NGỮ ĐIỆU CHO CÁC ÂM TIẾT TIẾNG VIỆT 32
3.1 Sơ lược về mạng nơ-ron 32
3.2 Xác định các thông số ngữ điệu cho bộ phát âm tiếng việt bằng mạng nơ-ron 35 4 XÂY DỰNG BỘ PHÁT ÂM TIẾNG VIỆT 44
4.1 Cấu trúc và quy trình xử lý của bộ phát âm 44
4.2 Mô tả các xử lý 45
4.3 Minh họa quá trình xử lý phát âm 50
5 THỬ NGHIỆM VÀ KẾT QUẢ 56
Trang 5Trang 5
5.1 Thử nghiệm 56
5.2 Kết quả 62
5.3 Nhận xét 73
5.4 Một số kết quả tiêu biểu 74
6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76
6.1 Kết luận 76
6.2 Hướng phát triển 77
PH ẦN 3 PH ẦN MỀM TỪ ĐIỂN NÓI ANH – VIỆT 79
1 NHU CẦU VÀ GIẢI PHÁP 79
1.1 Phân tích vấn đề: 79
1.2 Thiết kế: 82
2 CÀI ĐẶT – THỬ NGHIỆM – KẾT LUẬN 85
2.1 Cài đặt: 85
2.2 Thử nghiệm 89
2.3 Kết luận 89
PH ẦN 4 PH ẦN MỀM ĐỌC MÀN HÌNH 91
1 TỔNG QUAN 91
1.1 Ý nghĩa 91
1.2 Nội dung nghiên cứu 92
2 KHẢO SÁT CÔNG CỤ VÀ YÊU CẦU HỆ THỐNG 92
2.1 Phần mềm Narrator 92
2.2 Phần mềm NonVisual Desktop Access 93
2.3 Phần mềm Jaws 95
2.4 Yêu cầu hệ thống 96
3 TỔNG QUAN VỀ ACTIVE ACCESSIBILITY VÀ HOOK 99
3.1 Cách hoạt động của Active Accessibility 100
3.2 Nền tảng Active Accessibility 101
3.3 Giao tiếp giữa Client và Server 104
3.4 Giao diện IAccessible 105
3.5 Thu nhận tham chiếu giao diện Accessible Object 111
3.6 WinEvents Hook dùng trong Active Accessibility 112
3.7 Hook trong Windows 115
Trang 6Trang 6
4 NHỮNG KỸ THUẬT SỬ DỤNG TRONG ỨNG DỤNG 122
4.1 Các kỹ thuật tương tác với mã khơng quản lý 122
4.2 Xây dựng lớp xử lý thơng tin một đối tượng 124
4.3 Cài đặt Hook 126
4.4 Xử lý văn bản 128
4.5 Cơ chế thực thi bất đồng bộ 132
4.6 Xử lý bắt phím & Thực hiện chức năng 134
5 PHÂN TÍCH THIẾT KẾ ỨNG DỤNG 137
5.1 Sơ đồ Use Case 137
5.2 Danh sách các Actor 140
5.3 Danh sách các Use-case 140
5.4 Kiến trúc hệ thống 144
5.5 Thiết kế giao diện 149
6 TỔNG KẾT 153
6.1 So sánh với những ứng dụng hỗ trợ người khiếm thị khác 153
6.2 Kết quả đạt được 155
6.3 Hướng phát triển 155
PHẦN 5 PHẦN MỀM GIÁO TRÌNH HỌC TIẾNG ANH 156
1 TỔNG QUAN 156
2 PHÂN TÍCH YÊU CẦU 156
2.1 Yêu cầu chức năng 156
2.2 Yêu cầu phi chức năng 159
3 THIẾT KẾ ĐỐI TƯỢNG 160
3.1 Lớp đối tượng người dùng 160
3.2 Đối tượng Đơn vị bài : 160
3.3 Đối tượng bài : 161
3.4 Quan hệ làm bài : 161
4 THIẾT KẾ DỮ LIỆU 162
4.1 Sơ đồ các bảng 162
4.2 Danh sách các bảng : 162
4.3 Mô tả chi tiết các bảng 163
Trang 7Trang 7
5 THIẾT KẾ GIAO DIỆN SOẠN BÀI GIÁO TRÌNH 167
5.1 Sơ đồ màn hình : 167
5.2 Màn hình giới thiệu : 167
5.3 Màn hình chính : 168
5.4 Màn hình thêm bài mới 169
5.5 Màn hình soạn đơn vị bài 170
5.6 Màn hình soạn từ khoá 171
5.7 Màn hình soạn văn phạm : 172
5.8 Màn hình soạn trắc nghiệm 174
5.9 Màn hình soạn bài học 175
5.10 Màn hình xử lý âm thanh cho bài đọc 177
5.11 Màn hình soạn điền vào chỗ trống 178
6 HỆ THỐNG MÀN HÌNH BÀI HỌC 183
6.1 Sơ đồ màn hình: 183
6.2 Màn hình chính 184
6.3 Màn hình chọn bài 185
6.4 Màn hình bài đọc 186
6.5 Màn hình bài tập Điền Từ 187
6.6 Màn hình học văn phạm 188
6.7 Màn hình tra cứu văn phạm 189
6.8 Màn hình trắc nghiệm(Bài tập True False) 190
7 CÀI ĐẶT KIỂM NGHIỆM 191
Trang 8Trang 8
Bảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng 37
Bảng 2 Minh họa cấu trúc nội dung của dữ liệu đánh dấu 39
Bảng 3 Minh họa thông tin xác định giá trị các đặc trưng của các âm tiết 52
Bảng 4 Minh họa thông tin các đặc trưng của âm tiết đã được chuNn hóa 53
Bảng 5 Minh họa kết quả xác định các thông số ngữ điệu của mạng nơ-ron 54
Bảng 6 Minh họa kết quả xác định các thông số ngữ điệu 55
Bảng 7 Giá trị trung bình và độ lệch chuNn của các yếu tố ngữ điệu 61
Bảng 8 Mạng nơ-ron xác định cường độ 62
Bảng 9 Mạng nơ-ron xác định trường độ 64
Bảng 10 Mạng nơ-ron xác định khoảng ngừng 66
Bảng 11Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với cường độ 70
Bảng 12 Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với trường độ 71
Bảng 13 Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với khoảng ngừng 72
Bảng 14 Những hạn chế và hướng cải tiến cho bộ phát âm 77
Bảng 15 Danh sách các Actor 140
Bảng 16 Danh sách các UseCase 143
Bảng 17 Mô tả các lớp trong module HOOK 146
Bảng 18 Mô tả các lớp trong COMMON FEATURES 148
Bảng 19 Mô tả các lớp trong TEXT PROCESS 149
Trang 9Trang 9
DANH SÁCH HÌNH
Hình 1 Cấu trúc tổng quát của một bộ phát âm 16
Hình 2 Cấu trúc của âm tiết tiếng Việt 21
Hình 3 Cấu trúc của một nơ-ron nhân tạo 32
Hình 4 Đồ thị hàm sigmoid 33
Hình 5 Minh họa một kiến trúc mạng nơ-ron 34
Hình 6 Màn hình công cụ Transcriber 42
Hình 7 Xác định các thông số ngữ điệu bằng các mạng nơ-ron 42
Hình 8 Cấu trúc và quy trình xử lý của bộ phát âm 44
Hình 9 Các bước xây dựng vector đặc trưng âm tiết 48
Hình 10 Xử lý tổng hợp tín hiệu tiếng nói 50
Hình 11 Biểu đồ histogram phân bố cường độ của tập dữ liệu thử nghiệm 57
Hình 12 Biểu đồ histogram phân bố trường độ của tập dữ liệu thử nghiệm 57
Hình 13 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu thử nghiệm 58
Hình 14 Biểu đồ histogram phân bố cường độ của tập dữ liệu huấn luyện 58
Hình 15 Biểu đồ histogram phân bố trường độ của tập dữ liệu huấn luyện 59
Hình 16 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu huấn luyện 59
Hình 17 Biểu đồ histogram phân bố cường độ của tập dữ liệu kiểm thử 60
Hình 18 Biểu đồ histogram phân bố trường độ của tập dữ liệu kiểm thử 60
Hình 19 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu kiểm thử 61
Hình 20 Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu huấn luyện 63
Hình 21 Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu kiểm thử 63
Hình 22 Biểu đồ histogram phân bố sai lệch cường độ đối với toàn tập dữ liệu thử nghiệm 64
Hình 23 Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu huấn luyện 65
Hình 24 Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu kiểm thử 65
Hình 25 Biểu đồ histogram phân bố sai lệch trường độ đối với toàn tập dữ liệu thử nghiệm 66
Hình 26 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu huấn luyện 67
Trang 10Trang 10
Hình 27 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu kiểm thử 67
Hình 28 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với toàn tập dữ liệu thử
nghiệm 68
Hình 29 Biểu đồ histogram phân bố output cường độ đối với toàn tập dữ liệu thử nghiệm 68
Hình 30 Biểu đồ histogram phân bố output trường độ đối với toàn tập dữ liệu thử nghiệm 69
Hình 31 Biểu đồ histogram phân bố output khoảng ngừng đối với toàn tập dữ liệu thử nghiệm 69
Hình 32 Kết quả đọc câu “Hôm nay trời đẹp quá!” 74
Hình 33 Kết quả đọc câu “Hôm nay trời nắng chang chang” 75
Hình 34 Kết quả đọc câu “Mèo con đi học chẳng mang thứ gì” 75
Hình 35 Kết quả đọc câu “Địa chỉ: 227 Nguyễn Văn Cừ.” 76
Hình 36 Giao tiếp giữa người khiếm thị và máy tính 80
Hình 37 Mô hình xử lý tra từ điển 82
Hình 38 Mô hình phát âm tiếng Anh 83
Hình 39 Bộ điều phối phát âm tiếng Anh và tiếng Việt 84
Hình 40 Màn hình tra từ điển 88
Hình 41 Hệ thống bảng chọn 89
Hình 42 Phần mềm Narrator 93
Hình 43 Chương trình NVDA 94
Hình 44 Phần mềm Jaws 95
Hình 45 Minh họa Simple Element 103
Hình 46 Minh họa một cửa sổ Window chuNn 104
Hình 47 Mối quan hệ giữa các miền 110
Hình 48 Một điểm hook trong quá trình lưu chuyển thông điệp không có hàm lọc 117
Hình 49 Một điểm hook trong quá trình lưu chuyển thông điệp có hàm lọc 118
Hình 50 Một điểm hook có 3 thủ tục Hook đính kèm 118
Hình 51 Chương trình Winword 131
Hình 52 Thêm thư viện Word 131
Hình 53 Minh họa lớp ShortCutKeyInfo 136
Trang 11Trang 11
Hình 54 Sơ đồ Use Case cho phần xử lý văn bản 138
Hình 55 Sơ đồ Use Case cho phần các chức năng chung 139
Hình 56 Sơ đồ Use Case cho phần các Module chuyên biệt 140
Hình 57 Sơ đồ hoạt động của hệ thống 144
Hình 58 Sơ đồ lớp module HOOK 146
Hình 59 Sơ đồ lớp COMMON FEATURES 147
Hình 60 Sơ đồ lớp TEXT PROCESS 148
Hình 61 Chương trình chính 150
Hình 62 Màn hình cấu hình mơ tả 151
Hình 63 Màn hình cấu hình âm thanh 151
Hình 64 Màn hình cấu hình xử lý văn bản 152
Hình 65 Màn hình cấu hình mơ tả chuột 152
Hình 66 Màn hình cấu hình ngơn ngữ 153
Hình 67 Màn hình giúp đỡ 153
Hình 68 Các đơn vị trong giáo trình 157
Hình 69 Phân tích đối tượng bài 161
Hình 70 Sơ đồ các bảng 162
Hình 71 Mô hình màn hình 167
Hình 72 Màn hình giới thiệu soạn bài 167
Hình 73 Màn hình chính soạn bài 168
Hình 74 Màn hình thêm bài học mới 169
Hình 75 Màn hình soạn đơn vị bài 170
Hình 76 Màn hình soạn từ khoá 171
Hình 77 Màn hình soạn văn phạm 173
Hình 78 Màn hình soạn trắc nghiệm 174
Hình 79 Màn hình soạn từ vựng 175
Hình 80 Màn hình soạn bài đọc 176
Hình 81 Màn hình xử lý âm thanh 177
Hình 82 Màn hình soạn tiêu đề 179
Trang 12Trang 12
Hình 83 Màn hình xác lập ngôn ngữ 180
Hình 84 Màn hình điền từ 180
Hình 85 Màn hình phát sinh câu 181
Hình 86 Màn hình đáp án điền tư 182
Hình 87 Sơ đồ màn hình bài học 183
Hình 88 Màn hình học bài chính 184
Hình 89 Màn hình soạn bài học 185
Hình 90 Màn hình học bài đọc 186
Hình 91 Màn hình học bài điền từ 187
Hình 92 Màn hình học bài văn phạm 188
Hình 93 Màn hình tra cứu văn phạm 189
Hình 94 Màn hình học bài trắc nghiệm 190
Trang 13Trang 13
1 THÔNG TIN V Ề DỰ ÁN
Tên d ự án: Phần mềm hỗ trợ cho người khiếm thị học tiếng Anh
Ch ủ nhiệm đề tài/dự án: Huỳnh Ngọc Dũng
Nhóm nghiên c ứu: Nguyễn Tấn Đạt, Nguyễn Hữu Minh, Ông Mộc Vinh, Trần Văn
Quý
C ơ quan chủ trì: Trung tâm phát triển Khoa học và Công nghệ trẻ
Thời gian thực hiện:
Kinh phí được duyệt: 45.000.000 đồng
Kinh phí đã cấp: 45.000.000 đồng theo TB số: TB-SKHCN ngày / /
Theo ước tính của Bộ Thương Binh Lao Động và Xã Hội và Hội Người Mù Việt
Nam, hiện có khoảng 600.000 người mù và kém mắt ở nước ta Ngoài 22 trường mù và
trường khuyết tật có trẻ em mù, hiện có một số người khiếm thị đông đảo đang sinh hoạt
tại hơn 22 Thành, Tỉnh, Hội và hàng trăm quận huyện hội trong số 61 tỉnh thành trên nước
Việt Nam
Hiện nay, máy tính đã thể hiện một vai trò quan trọng đối người khiếm thị trong việc
tiếp cận thông tin So với phưong cách truyền thống của người khiếm thị trong việc tiếp
nhận thông tin bằng băng ghi âm, tài liệu chữ nổi; máy tính đã giúp người khiếm thị có thể
truy cập nguồn thông tin qua âm thanh một cách chủ động Trên thế giới và Việt Nam đã
có những phần mềm giúp người khiếm thị tương tác với máy tính phục vụ cho nhu cầu của
mình như học tập, làm việc và tra cứu thông tin Các phần mềm này đều có những mục tiêu
riêng và hướng vào những đối tượng cụ thể, ví dụ: các chương trình nước ngoài chỉ cho
người biết tiếng Anh, phần mềm chuyên đọc web
Ngôn ngữ tiếng Anh hiện là ngôn ngữ phổ biến nhất trong giao tiếp trên thế giới
Một điều không thể phủ nhận rằng tiếng Anh là hành trang cho tất cả mọi người trong con đường lập nghiệp Người khiếm thị cũng vậy, ngôn ngữ cũng đóng vai trò quan trọng, đặc
biệt trong xã hội mà Internet ngày càng phát triển thì biết tiếng Anh sẽ mở ra cơ hội lớn
Trang 14Trang 14
cho người khiếm thị trong giao tiếp cộng đồng và nghề nghiệp Tuy nhiên, công cụ và
phương tiện cho người khiếm thị học tiếng Anh còn rất ít, vì vậy việc học tiếng Anh đối
người khiếm thị là công việc khó khăn hơn rất nhiều so với người sáng mắt
Với định hướng giúp ngưòi khiếm thị Việt Nam có thể dễ dàng tiếp cận với máy tính
phục vụ cho việc học tập tiếng Anh, dự án này nghiên cứu và xây dựng các công cụ và
phần mềm cần thiết cho nhu cầu cơ bản của người khiếm thị Với những công cụ và phần
mềm của dự án, người khiếm thị có thể dễ dàng học ngôn ngữ tiếng Anh một cách thuận
lợi và hiệu quả
Với mục đích xây dựng công cụ hỗ trợ cho người khiếm thị học tiếng Anh như nêu
trên, đề tài tập trung vào nghiên cứu những vấn đề sau:
B ộ phát âm tiếng Việt: Tiếng nói đóng vai trò quan trọng trong việc điều khiển máy
tính của người khiếm thị Bởi vì người khiếm thị không thể nhìn màn hình máy tính, tiếng
nói sẽ mô tả lại tất cả những gì trên màn hình để họ có thể hiểu đuợc Vì vậy, bộ phát âm
máy tính cần thể hiện một cách chính xác như người thường đọc trong việc phát âm, ngưng
nghỉ và nhấn âm thanh để người nghe có thể nắm bắt được thông tin Với mô hình nghiên
cứu mạng nơ-ron, chúng tôi xây dựng bộ phát âm đạt theo những yêu cầu mong muốn cho
người khiếm thị
Công c ụ hỗ trợ học tiếng Anh: Trong đề tài này chúng tôi tập trung nghiên cứu và
xây dựng hai phần mềm chính giúp người khiếm thị học tiếng Anh
- Ph ần mềm Từ điển Anh – Việt: Từ điển là công cụ không thể thiếu với
người học tiếng Anh Đã có nhiều từ điển sách, từ điển máy tính như Lạc
Việt, nhưng một từ điển để người khiếm thị sử dụng để tự học thì còn thiếu
Trong phần mềm này chúng tôi tập trung nghiên cứu hành vi sử dụng máy
tính của của người khiếm thị và đề ra giải pháp xây dựng phần mềm từ điển
để người khiếm thị có thể tự sử dụng học tiếng Anh
- Ch ương trình đọc màn hình: Với quan điểm thiết kế một chương trình
tổng quan có thể giúp người khiếm thị điều khiển các thành phần trên máy
Trang 15Trang 15
tính Chúng tôi tập trung nghiên cứu kĩ thuật lập trình trên Windows để
truy cập các thông tin các đối tượng Windows và mô tả lại bằng tiếng nói
cho người khiếm thị Với công cụ này người khiếm thị có thể sử dụng máy
tính soạn thảo văn bản, sử dụng các chương trình phục vụ học tiếng Anh
- Ph ần mềm giáo trình học tiếng Anh cho người khiếm thị: Qua phân tích
các cấu trúc và phương pháp học tiếng Anh, chúng tôi xây dựng phần mềm
dựa trên giáo trình học tiếng Anh sẵn có nhằm giúp người khiếm thị dễ
dàng học tiếng Anh
Sản phNm đề tài bao gồm 3 thành phần chính:
- Bộ phát âm tiếng Việt dựa trên nghiên cứu mạng nơ-ron
- Phần mềm Từ điển Anh – Việt
- Phần mềm đọc màn hình
- Phần mềm Giáo trình học tiếng Anh
Trong báo cáo này chúng tôi trình bày thành ba phần theo từng nội dung sản phNm
của đề tài
Trang 16Trang 16
1.1 T ổng hợp tiếng nói nhân tạo
Tổng hợp tiếng nói là quá trình tạo ra lời nói một cách tự động từ văn bản Một hệ
thống tổng hợp tiếng nói (speech synthesis) hay còn gọi là bộ phát âm là một hệ thống cho
phép chuyển đổi một cách tự động văn bản có nội dung bất kỳ thành lời nói
(Text-To-Speech, viết tắt là TTS) [13]
1.1.1 Ki ến trúc của một hệ thống tổng hợp tiếng nói
Hình 1 C ấu trúc tổng quát của một bộ phát âm
Một hệ thống tổng hợp tiếng nói về cơ bản sẽ có 2 thành phần gồm: Khối phân tích
xử lý ngôn ngữ tự nhiên và khối xử lý tổng hợp tiếng nói
Khối phân tích xử lý ngôn ngữ tự nhiên (NLP: Natural Language Processing) nhận
vào một chuỗi các ký tự văn bản, thực hiện các tiền xử lý (pre-processing), phân tích hình
thái (morphological analysis), phân tích cấu trúc ngữ pháp của văn bản, xác định cách đọc
nội dung văn bản với thông tin ngữ âm và ngữ điệu tương ứng
Khối xử lý tổng hợp tiếng nói (DSP: Digital Signal Processing) thực hiện việc tổng
hợp tạo ra tín hiệu tiếng nói tương ứng với nội dung văn bản theo các thông tin ngữ âm và
ngữ điệu do khối phân tích xử lý ngôn ngữ tự nhiên cung cấp
Trang 17Trang 17
1.1.2 X ử lý ngôn ngữ tự nhiên
Nhiệm vụ của khối xử lý ngôn ngữ tự nhiên là phát sinh các thông tin về ngữ âm và
ngữ điệu cho việc đọc văn bản đầu vào Thông tin ngữ âm cho biết những âm nào sẽ được
phát ra, thông tin ngữ điệu mô tả điệu tính của các âm được phát Việc xử lý ngôn ngữ tự
nhiên bao gồm nhiều bước phức tạp như: chuNn hóa văn bản, phân tích cú pháp, phân tích
ngữ cảnh và ngữ nghĩa, phát sinh thông tin ngữ âm và ngữ điệu
Việc chuNn hóa văn bản khá phức tạp và tùy thuộc vào từng ngôn ngữ khác nhau
Công đoạn này bao gồm các xử lý như: làm sạch văn bản bằng cách loại bỏ những nội
dung không cần thiết, định dạng lại văn bản cho phù hợp với yêu cầu của các xử lý tiếp
theo
Xử lý phân tích cú pháp nhằm nhận biết các thành phần trong văn bản Cùng với việc
phân tích ngữ cảnh và ngữ nghĩa của các thành phần văn bản sẽ cho phép phát sinh các
thông tin ngữ âm và ngữ điệu phù hợp Ví dụ: nhận biết các thành phần như chữ số, tùy
ngữ cảnh chữ số có thể là số điện thoại hoặc số tiền, số ký hiệu… mà sẽ phát sinh cách
phát âm khác nhau (chẳng hạn: “0953951116” sẽ được phát âm thành “không chín năm, ba
chín năm, một một một sáu”, “1000000000” sẽ được phát âm thành “một tỷ”); chữ viết tắt
“HTX” sẽ được phát âm thành “hợp tác xã”…
Xử lý xác định các thông tin ngữ điệu đóng vai trò đặc biệt quan trọng quyết định
chất lượng của tiếng nói tổng hợp Đây là vấn đề rất khó khăn phức tạp vì nó phụ thuộc
vào nhiều yếu tố nằm ngoài văn bản như: ý nghĩa ngữ cảnh của câu nói, trạng thái tình cảm
của người nói…
1.1.3 Ng ữ điệu trong tiếng nói tổng hợp
Ngữ điệu trong tiếng nói được thể hiện ở: cao độ, cường độ, trường độ và khoảng
ngừng của tiếng nói
Cao độ, độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm thanh Đối
với tiếng nói, tần số dao động của dây thanh âm quy định độ cao giọng nói của con người
Tiếng nói gồm nhiều dao động âm thanh có tần số khác nhau kết hợp lại, trong đó tần số
thấp nhất chính là tần số cơ bản F0 và cũng chính là tần số dao động của dây thanh Mỗi
người có một độ cao giọng nói khác nhau, độ cao của nữ giới thường cao hơn nam giới và
Trang 18Trang 18
độ cao của trẻ em thường cao hơn của người lớn Cao độ giọng nói cũng thay đổi với
những trạng thái biểu lộ xúc cảm khác nhau Cao độ là yếu tố cơ bản tạo nên những hiện
tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm, và cả trọng âm
Cường độ là độ to nhỏ của âm thanh Cường độ càng lớn thì âm thanh có thể truyền
đi được càng xa Xét trên phương diện sóng cơ học thì cường độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng của sóng âm Cường độ âm thanh được đo bằng đơn vị decibel (dB) Cường độ là yếu tố chính tạo nên hiện tượng trọng âm
Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm Nó tạo nên sự tương
phản giữa các bộ phận của lời nói Tốc độ phát âm được quy định bởi đặc điểm cá nhân
của người nói, phong cách và hoàn cảnh phát âm Tốc độ lời nói còn phụ thuộc vào nội
dung câu nói
Khoảng ngừng được hiểu là chỗ lặng về âm học và chỗ ngừng về cấu âm Chức năng
của khoảng ngừng là tạo nên ranh giới giữa các phần khác nhau của câu, tách đơn vị ngữ
pháp này với đơn vị ngữ pháp khác và thể hiện mối quan hệ giữa chúng
Tùy tính chất của mỗi ngôn ngữ khác nhau và mức độ yêu cầu chất lượng ngữ điệu
cho bộ phát âm, việc xử lý ngữ điệu có thể được thực hiện ở nhiều mức độ, từ mức hoàn
toàn không xử lý ngữ điệu đến mức chỉ xử lý một số hoặc tất cả các yếu tố ngữ điệu
1.1.4 X ử lý tổng hợp tín hiệu tiếng nói
Bộ xử lý tổng hợp tín hiệu tiếng nói đảm trách thực hiện việc tổng hợp tạo ra tín hiệu
tiếng nói từ các thông tin ngữ âm và ngữ điệu do khối phân tích xử lý ngôn ngữ tự nhiên
cung cấp Chất lượng tiếng nói tổng hợp được có hai tính chất quan trọng là: mức độ tự
nhiên và mức độ dễ nghe Mức độ tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau
giữa giọng nói tổng hợp và giọng nói tự nhiên của con người Mức độ dễ nghe chỉ đến việc
câu phát âm có thể hiểu được dễ dàng không Một hệ thống tổng hợp giọng nói lý tưởng
cần phải vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng hệ thống tổng hợp giọng nói là
làm gia tăng đến mức tối đa hai tính chất này Có nhiều phương pháp tổng hợp giọng nói
khác nhau được sử dụng, một số thiên về mức độ dễ nghe hơn hoặc mức độ tự nhiên hơn,
tùy thuộc vào mục đích mà các phương pháp được lựa chọn Có hai phương pháp chính
Trang 19Trang 19
thường được dùng là tổng hợp ghép nối và tổng hợp cộng hưởng tần số, ngoài ra cũng có
các phương pháp khác
1.2 M ột vài đặc điểm của tiếng việt, ngữ âm, ngữ điệu
1.2.1 M ột vài đặc điểm của tiếng Việt
Tiếng Việt là ngôn ngữ được xếp vào loại hình đơn lập (isolate) hay còn được gọi là
loại hình phi hình thái, không biến hình, đơn tiết Tiếng Việt có một vài đặc điểm chính
như sau [1]:
• Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ pháp
nằm ở ngoài từ
• Phương thức ngữ pháp chủ yếu là trật tự từ và hư từ
• Tồn tại một loại đơn vị đặc biệt là “hình tiết” mà vỏ ngữ âm của chúng
trùng khít với âm tiết, và đơn vị đó cũng chính là “hình vị tiếng Việt” hay
còn gọi là “tiếng” (tiếng Việt sử dụng khoảng 10.000 tiếng)
• Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng như các
thứ tiếng biến hình khác Ví dụ: “học sinh học sinh học” Điều này khiến
cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn Việc nhận
diện ranh giới từ là quan trọng làm tiền đề cho các bài toán xử lý ngôn ngữ
tiếp theo sau đó như kiểm lỗi chính tả, gán nhãn từ loại, …
• Tồn tại loại từ đặc biệt “từ chỉ loại” (classifier) hay còn gọi là phó danh từ
chỉ loại đi kèm với danh từ, như: cái bàn, cuốn sách, bức thư, …
• Về mặt ngữ âm học, các âm tiết tiếng Việt đều mang một trong 6 thanh điệu
(ngang, sắc, huyền, hỏi, ngã, nặng) Đây là âm vị siêu đoạn tính
• Có hiện tượng láy trong từ tiếng Việt, như: lấp lánh, lung linh,… Ngoài ra
còn có hiện tượng nói lái (do mối liên kết giữa phụ âm đầu và phần vần
trong âm tiết là lỏng lẻo), như: “biệt thự” láy thành “bự thiệt”, “cá đối” láy
thành “cối đá”,
Trang 20Trang 20
1.2.2 Ng ữ âm tiếng Việt
Trong ngữ âm tiếng Việt các âm tố cấu tạo thành âm tiết về mặt chức năng gồm có
[4]:
• Phụ âm: là yếu tố đi kèm, không tạo thành âm tiết (trừ các phụ âm vang)
• Nguyên âm: thường làm hạt nhân hay đỉnh của âm tiết
• Bán nguyên âm: là những âm tố có đặc tính giống nguyên âm nhưng thường chỉ
đi kèm, bản thân không tạo thành âm tiết được, như: các âm tố được viết thành
u, i, trong các âm tiết “sau”, “mai”
• Thanh điệu: các âm tiết tiếng Việt đều mang một trong 6 thanh điệu gồm:
ngang, sắc, huyền, hỏi, ngã, nặng
Người ta thường định nghĩa âm vị là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ,
dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ -
từ và hình vị Ví dụ: tôi và đôi, ta và đa của tiếng Việt phân biệt nhau bởi các âm vị /t/ và
/d/
Âm tiết là đơn vị phát âm nhỏ nhất, được phân định tự nhiên trong lời nói con người
Về phương diện phát âm, dù lời nói chậm đến đâu cũng chỉ phân chia được đến giới hạn
của âm tiết mà thôi Nhưng về mặt thính giác thì âm tiết là một tổ hợp âm thanh có thể bao
gồm nhiều âm tố hoặc đôi khi chỉ có một âm tố
Về mặt ngữ âm học, các cứ liệu thực nghiệm cho thấy âm tiết tiếng Việt được cấu tạo
bởi 3 thành tố độc lập là thanh điệu, phụ âm đầu và thành phần còn lại
Thanh điệu là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt Tính chất độc lập về
mặt ngữ âm của thanh điệu thể hiện ở chỗ nó có đường nét và trường độ tương đối ổn định
tùy thuộc các loại hình âm tiết
Phụ âm đầu là yếu tố mở đầu của âm tiết Tính chất độc lập của phụ âm đầu thể hiện
ở chỗ nó không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết
Phần còn lại của âm tiết còn được gọi là phần vần, có từ một đến ba yếu tố, gồm một
bán nguyên âm chiếm vị trí trung gian giữa phụ âm đầu và phần còn lại, một nguyên âm
âm tiết tính và một phụ âm hoặc bán nguyên âm cuối, có vai trò kết thúc âm tiết Trừ bán
Trang 21• Bậc một là những yếu tố độc lập về mặt ngữ âm và có thể được tách rời về
mặt hình thái học, đó là: thanh điệu, âm đầu và vần
• Bậc hai là các yếu tố của phần vần, gồm bán nguyên âm trước nguyên âm
âm tiết tính (được gọi là âm đệm), nguyên âm âm tiết tính (được gọi là âm
chính), phụ âm hoặc bán nguyên âm cuối (được gọi là âm cuối) Các yếu tố
này gắn liền với nhau về mặt ngữ âm do tính chất cố định về trường độ của
âm tiết và chỉ được tách ra bằng những ranh giới thuần túy ngữ âm học
Các thành tố của âm tiết tiếng Việt và quan hệ hai bậc giữa các thành tố có thể được
trình bày như lược đồ sau:
THANH ĐIỆU
Âm đầu
Vần
Âm đệm Âm chính Âm cuối
Hình 2 C ấu trúc của âm tiết tiếng Việt
1.2.3 Ng ữ điệu trong tiếng Việt
Trong chuỗi lời nói, mỗi câu thường được thể hiện như một chỉnh thể toàn vẹn về
ngữ âm, được tách ra giữa hai chỗ ngừng giọng Hình thức ngữ âm của câu được gọi là ngữ điệu câu Ngữ điệu có hai mặt:
Ngữ điệu giao tiếp: là ngữ điệu thể hiện những kiểu câu khác nhau như câu kể, câu
hỏi, câu cảm thán, câu cầu khiến và biểu hiện mối quan hệ giữa các câu, thông báo câu đã
kết thúc chưa, hay phân chia các câu thành các bộ phận nhỏ hơn, các ngữ đoạn…
Ngữ điệu tình thái: là ngữ điệu biểu hiện một sắc thái tình cảm nào đấy, phù hợp với
trạng thái cảm xúc của người nói (vui, buồn, giận, âu yếm, mỉa mai…) Ngữ điệu tình thái
Trang 22Trang 22
không nhất thiết phải liên quan đến nội dung ý nghĩa của câu Cùng một câu, một ý nghĩa
ấy có thể được thông báo với nhiều cảm xúc khác nhau
Ngữ điệu gồm có những thành tố:
• Âm điệu: Âm điệu là đặc điểm của sự biến thiên tần số thanh cơ bản trong
quá trình phát âm một âm tiết Sự biến thiên này được gọi là đường nét âm điệu, nó có thể bằng phẳng hoặc không bằng phẳng Dựa vào đặc trưng này
có thể phân các thanh điệu tiếng Việt thành 2 nhóm bằng và trắc Thanh
ngang và thanh huyền là những thanh bằng Chúng có âm điệu bằng phẳng
hoặc hơi đi xuống Các thanh ngã, hỏi, sắc và nặng là những thanh trắc
Chúng có đường nét âm điệu phức tạp và giới hạn biến đổi rất rộng
• Cường độ: Chức năng cơ bản của cường độ là làm nổi bật một bộ phận quan
trọng nào đó trong câu, thể hiện qua kiểu loại trọng âm (trọng âm câu hay
ngữ đoạn, trọng âm logic…
• Trường độ: Được hiểu là tốc độ phát âm Tốc độ phát âm được quy định bởi đặc điểm cá nhân của người nói, phong cách và hoàn cảnh phát âm Tốc độ
lời nói còn phụ thuộc vào nội dung câu nói
• Chỗ ngừng: Được hiểu là chỗ lặng về âm học và chỗ ngừng về cấu âm Đôi
khi không có hai đặc điểm trên nhưng người nghe cảm nhận có chỗ ngừng,
đó là chỗ ngừng tâm lý Chức năng của chỗ ngừng là tạo nên ranh giới giữa
các phần khác nhau của câu, tách đơn vị ngữ pháp này với đơn vị ngữ pháp
khác và thể hiện mối quan hệ giữa chúng Chỗ ngừng có thể truyền đạt được
những sắc thái tình cảm Sự im lặng có tác dụng truyền cảm, đó chính là sự
ngắt giọng tâm lý Nó có vị trí đáng kể trong việc đọc, kể chuyện văn học và
diễn xuất…
• Âm sắc: Được hiểu là chất lượng của giọng, thể hiện qua mối quan hệ phức
tạp giữa tần số âm cơ bản và các thượng âm, độ vang, độ rõ của giọng… Âm
sắc dùng để thể hiện mặt tình thái của ngữ điệu
Trang 23Trang 23
Trọng âm là sự nêu bật một số đơn vị nào đó so với những đơn vị khác trong chuỗi
lời nói Trọng âm câu nêu bật một từ trong câu, còn trọng âm từ nêu bật một âm tiết trong
từ Phương tiện để nêu bật đơn vị có trọng âm khác nhau trong các ngôn ngữ có thể là độ
cao, độ mạnh, độ dài của âm tiết hoặc sự phát âm rõ ràng các nguyên âm, phụ âm và các
yếu tố khác cấu thành âm tiết Trọng âm trong tiếng Việt tuy tồn tại nhưng không điển hình
và có nội dung không hoàn toàn giống khái niệm trọng âm trong các ngôn ngữ phi âm tiết
tính Trong tiếng Việt có các trọng âm câu, trọng âm ngữ đoạn, trọng âm logic…
1.3 Nh ững khó khăn trong tổng hợp tiếng nói
Trong quá trình xây dựng bộ phát âm, để hệ thống có thể tổng hợp được tiếng nói
một cách chính xác và có ngữ điệu tự nhiên chúng ta cần phải xác định đúng các thông số
về ngữ âm và ngữ điệu cần thiết Việc xác định chính xác các thông số này thường gặp
nhiều khó khăn do những nguyên nhân hạn chế như:
• Văn bản viết thường rất đa dạng và phong phú về các thành phần nội dung
như chữ, các loại số, ngày tháng, các ký hiệu, chữ viết tắt… để chuyển được
văn bản thành các âm tiết tiếng nói phù hợp đòi hỏi nhiều xử lý phân tích văn
bản phức tạp và khó có được độ chính xác cao
• Ngữ điệu của tiếng nói tự nhiên phụ thuộc nhiều vào ngữ cảnh khi nói, trong
nội dung văn bản thường không chứa đựng đầy đủ những thông tin ngữ cảnh
khi nói
• Đối với những người khác nhau sẽ thể hiện tiếng nói với những sắc thái ngữ điệu khác nhau
• Ở những trạng thái cảm xúc khác nhau của người nói, cùng một câu khi nói
sẽ thể hiện những ngữ điệu rất khác nhau
• Các yếu tố ngữ điệu phụ thuộc nhiều vào nội dung, cấu trúc ngữ pháp và ý
nghĩa của văn bản Việc phân tích các tri thức ngôn ngữ này đối với tiếng
Việt còn nhiều hạn chế
Ngoài ra để tạo được tín hiệu tiếng nói với chất lượng rõ ràng dễ nghe với âm điệu tự
nhiên cũng gặp những khó khăn về tốc độ xử lý, khả năng lưu trữ… Chính vì những khó
Trang 24Trang 24
khăn trên, hiện tại các thành quả tổng hợp tiếng nói tiếng Việt với chất lượng ngữ điệu tự
nhiên còn khá khiêm tốn và chưa được ứng dụng rộng rãi
2 CÁC CÔNG TRÌNH LIÊN QUAN
2.1 Các h ướng tiếp cận liên quan đến xử lý ngữ điệu
Trong tổng hợp tiếng nói nhân tạo, việc xử lý ngữ điệu được thực hiện trên các yếu
tố vật lý của tiếng nói gồm: tần số cơ bản F0, cường độ và trường độ Các hệ thống tổng
hợp tiếng nói hầu hết tập trung vào mục đích là tạo ra giọng nói với ngữ điệu bình thường,
có sự nhấn giọng hợp lý, nhịp điệu nhịp nhàng tự nhiên và bỏ qua các hình thái cảm xúc
của người nói Tùy tính chất của mỗi ngôn ngữ khác nhau mà các yếu tố ngữ điệu có mức
độ quan trọng khác nhau, và tùy mức độ yêu cầu chất lượng ngữ điệu của hệ thống mà việc
xử lý ngữ điệu có thể được thực hiện ở nhiều mức độ, từ mức hoàn toàn không xử lý ngữ điệu đến mức chỉ xử lý một số hoặc tất cả các yếu tố ngữ điệu Trong 3 yếu tố ngữ điệu
trên, yếu tố cường độ thường không được xử lý hoặc được xử lý cùng với tần số F0 Có
nhiều mô hình khác nhau được dùng để xử lý các yếu tố ngữ điệu trong tổng hợp tiếng nói,
mỗi mô hình đều có những ưu và khuyết điểm riêng và được trình bày thành 2 nhóm gồm:
các mô hình xử lý trường độ và các mô hình biểu diễn tần số cơ bản F0
2.1.1 Các mô hình x ử lý trường độ
Sau đây là một số mô hình phổ biến được dùng để xử lý trường độ:
2.1.2 Mô hình lu ật Klatt
Dennis Klatt đã đưa ra một mô hình dựa trên luật được sử dụng trong hệ thống
MITalk [34] Mô hình này được dùng để xác định trường độ các âm vị bằng công thức dựa
trên các thông tin ngữ âm có ảnh hưởng liên quan Theo đó, trường độ của âm vị khi tổng
hợp được xác định theo công thức như sau:
MINDUR
PRCNT MINDUR
INHDUR
100
*)
Trong đó:
DUR: trường độ cần xác định của âm vị
INHDUR: trường độ của âm vị mẫu
Trang 25Trang 25
MINDUR: trường độ âm vị ngắn nhất
PRCNT: Tỉ lệ biến đổi trường độ được xác định dựa vào các luật
Để xác định tham số PRCNT, Dennis Klatt sử dụng 10 luật kết hợp với nhau dựa trên
các yếu tố ngữ cảnh của âm vị như sự nhấn giọng, mức độ nhấn giọng, v.v… Cũng như các
mô hình dựa trên luật khác, các luật Klatt và các thông số được xác định một cách thủ công
qua một quá trình thử sai Phần mềm đọc tiếng Việt VnSpeech [8] của tác giả Lê Hồng
Minh xác định trường độ dựa trên mô hình này [6]
2.1.3 Mô hình Sums-of-Products
Jan van Santen đã đưa ra mô hình sums-of-products với các công thức có dạng tổng
của các tích để tính trường độ của một âm vị được biểu diễn bởi vector đặc trưng d như sau
d S d
(2.2)
Trong đó:
dj: thành phần thứ j của vector đặc trưng d
Si,j: là một hệ số tương ứng với đặc trưng j, và mối liên hệ giữa hai đặc
trưng i,j
K: tập các chỉ số tương ứng với các chuỗi tích
Ii: tập các hệ số tương ứng với chuỗi tích i
Mô hình này về cơ bản là một sự tổng quát hóa của một số mô hình đã có như mô
hình luật Klatt Nó được ứng dụng bằng cách xây dựng một cây với các nút lá tách không
gian đặc trưng thành các lớp con thuần nhất mà có thể được biểu diễn bởi một công thức
sums-of-products riêng biệt Công việc này được thực hiện một cách thủ công dựa trên các
kiến thức ngôn ngữ học và phân tích ngữ liệu
2.1.4 Mô hình cây phân l ớp và hồi quy (CART)
Mô hình cây phân lớp và hồi quy (Classification and Regression Trees) là mô hình
tiêu biểu được dùng khá phổ biến để xác định yếu tố ngữ điệu trong các hệ tổng hợp tiếng
Trang 26Trang 26
nói như Festival [45] Mô hình này về cơ bản là một cây phân lớp nhị phân với đầu vào là
các âm vị và vector các thuộc tính đặc trưng của nó được đưa vào từ nút gốc, sau đó âm vị được chuyển đi theo các nhánh thỏa mãn các luật tương ứng tại mỗi nút con cho đến khi
gặp nút lá Trị số ở các nút lá sẽ cho phép xác định thông số ngữ điệu của âm vị tương ứng
Việc huấn luyện cây được thực hiện với một tập ngữ liệu mẫu với input và output được xác định sẳn Trong quá trình huấn luyện các luật phân lớp ở các nút sẽ được xây
dựng tự động Sau khi huấn luyện, cây hầu như sẽ cho kết quả chính xác đối với những
mẫu đã huấn luyện, tuy nhiên với những mẫu mới không có trong ngữ liệu huấn luyện thì
kết quả thường không chính xác Để khắc phục tình trạng quá luyện, việc “tỉa nhánh” được
thực hiện bằng cách chọn cắt bớt những nhánh gây nên tình trạng quá luyện bằng cách thử
với tập mẫu dữ liệu chưa được huấn luyện Mô hình này được áp dụng trong phần mềm đọc tiếng Việt VnVoice [11][21]
2.1.5 Mô hình m ạng Nơ-ron:
Campbell [43] đã đề xuất mô hình mạng nơ-ron để xác định độ dài âm tiết và sau đó
chỉnh độ dài các âm vị cho khớp với âm tiết đó Mạng nơ-ron được chọn sử dụng chủ yếu
vì nó có khả năng học được các mối liên hệ Nn chứa bên trong các yếu tố đặc trưng ngữ
cảnh và có khả năng dự đoán tốt các mẫu chưa xuất hiện trong ngữ liệu huấn luyện
Để xác định độ dài âm tiết, Campbell xây dựng một vector đặc trưng cho âm tiết gồm
các thuộc tính: số lượng âm vị, cấu trúc hạt nhân của âm tiết, vị trí nhóm thanh điệu, kiểu
chân, mức nhấn, loại từ (chức năng hoặc nội dung) Các mạng được huấn luyện với một
tập ngữ liệu mẫu với input là các âm vị cùng với vector các thuộc tính đặc trưng ngôn ngữ
của nó và output là thông số trường độ tương ứng Sau đó trường độ của âm tiết sẽ được
xác định bằng cách thực thi mạng nơ-ron đã huấn luyện với input là vector đặc trưng của
âm tiết Mạng nơ-ron cho kết quả tốt đối với những mẫu đã huấn luyện và có khả năng dự đoán khá tốt cho những mẫu mới chưa xuất hiện trong ngữ liệu huấn luyện Do tính chất
này mà mô hình mạng nơ-ron được sử dụng khá phổ biến trong các hệ tổng hợp tiếng nói
trên thế giới
Trang 27Trang 27
2.2 Các mô hình bi ểu diễn tần số cơ bản
Sự biến đổi tần số cơ bản F0 trong âm tiết quyết định chủ yếu hiện tượng thanh điệu
của âm tiết, tần số F0 cũng đóng vai trò tạo nên hiện tượng trọng âm Đối với các ngôn ngữ
như tiếng Anh, việc xác định sai trọng âm và cao độ của âm tiết sẽ dẫn đến việc hiểu sai
nội dung của lời nói Vì vậy đối với các ngôn ngữ như tiếng Anh vấn đề xử lý đường biểu
diễn tần số F0 đóng vai trò đặc biệt quan trọng Trong tiếng Việt với các hệ tổng hợp ghép
nối, cao độ của âm tiết không ảnh hưởng nhiều đến nội dung của lời nói, tuy nhiên nó có ảnh hưởng đến chất lượng ngữ điệu và sự mượt mà của câu nói Sau đây là một số mô hình
biểu diễn tần số F0 phổ biến:
2.2.1 Mô hình ToBI (Tone and Break Indices)
Mô hình này được sử dụng rộng rãi và là nên tảng biểu diễn cấu trúc ngữ điệu cho
một số ngôn ngữ trên thế giới Nó dựa trên việc nghiên cứu chi tiết các hệ thống âm điệu
và mối liên hệ giữa cấu trúc âm điệu và ngữ điệu của ngôn ngữ cụ thể Mỗi dấu trọng âm được biểu diễn bởi không quá 2 điểm thể hiện sự tương phản một cách trừu tượng giữa âm
cao (H) và âm thấp (L) [42] Mục tiêu của hệ thống ToBI là mô tả một tập nhỏ nhất các
kiểu trọng âm
2.2.2 Mô hình Tilt
Mô hình này biểu diễn âm điệu trong hình dạng một chuỗi tuyến tính các sự kiện
trọng âm hoặc thanh điệu Mỗi sự kiện được xác định bởi các thông số liên tiếp biểu diễn
cường độ, trường độ và “độ nghiêng” (được đo bởi khung hình của sự kiện) [42]
2.2.3 Mô hình INTSINT (INTernational Transcription System for INTonation)
Mô hình này được đề xuất bởi Hirst và Di Cristo năm 1998 Đây là một hệ thống mô
tả âm điệu hệ thống hóa các mẫu tần số F0 sử dụng một tập trừu tượng các ký hiệu mô tả
thanh điệu Những ký hiệu này có thể có tính tuyệt đối hoặc tương đối Các ký hiệu {T, M,
B} ứng với (cao, trung bình, thấp) là các ký hiệu có tính tuyệt đối tượng trưng cho khoảng
biến đổi tần số F0 Các ký hiệu {H, S, L, U, D} ứng với (cao hơn, không đổi, thấp hơn,
tăng bậc, giảm bậc) là các ký hiệu có tính tương đối liên hệ với điểm trước đó Mỗi ký hiệu đại diện cho một điểm đích trong chuỗi ngữ âm sau đó được khai triển bởi giải thuật
Trang 28Trang 28
MOMEL, giải thuật này cho phép mô phỏng tự động ngữ điệu tổng thể của đường biểu
diễn F0 bằng một dãy các điểm biểu diễn đường spline bậc 2 [42]
2.2.4 Mô hình Fujisaki
Mô hình Fujisaki được xây dựng với mục đích tạo ra đường biểu diễn F0 cho các từ
và câu tiếng Nhật Mô hình này được sử dụng rộng rãi trong các hệ tổng hợp tiếng nói và
áp dụng thành công cho rất nhiều ngôn ngữ khác như Anh, Pháp, Đức, Tây Ban Nha…
Fujisaki cho rằng đường biểu diễn F0 bao gồm 2 thành phần là ngữ điệu ngữ đoạn và ngữ điệu trọng âm Thông tin về ngữ điệu ngữ đoạn và ngữ điệu trọng âm sẽ là đầu vào cho mô
hình này và đầu ra của nó sẽ là một đường biểu diễn F0 hoàn chỉnh liên tục Thông tin ngữ điệu đoạn được cho dưới dạng hàm xung (impulse) và thông tin ngữ điệu trọng âm được
cho dưới dạng hàm bước (step)
Mô hình Fujisaki bao gồm 2 bộ lọc Một bộ lọc cho thành phần ngữ đoạn và một bộ
lọc cho thành phần trọng âm Fujisaki đã chứng minh rằng mô hình của mình có thể mô
phỏng chính xác đường F0 nếu như các tham số đầu vào được lựa chọn một cách thích hợp
[42] Phần mềm VnVoice [11] [23] đã áp dụng mô hình này
2.3 Các h ướng tiếp cận tổng hợp tín hiệu tiếng nói
Để tổng hợp tín hiệu tiếng nói hiện nay có nhiều phương pháp tiếp cận với những ưu
khuyết điểm khác nhau như sau:
Hướng tiếp cận mô phỏng trực tiếp cố gắng xây dựng mô hình tổng hợp tiếng nói
bằng cách bắt chước theo mô hình hoạt động của bộ phát âm con người với sự phối hợp
các hoạt động của các thành phần như phổi, thanh quản, yết hầu, môi, lưỡi… Hướng tiếp
cận này về mặt lý thuyết hứa hẹn khả năng tạo ra được tiếng nói có chất lượng tốt nhất, tuy
nhiên việc mô phỏng hoàn chỉnh các thành phần để tạo ra được tiếng nói có chất lượng tốt
thì cần phải thực hiện những cài đặt rất phức tạp đòi hỏi khả năng xử lý tính toán rất cao
nên hiện tại nó không được quan tâm nhiều so với các hướng tiếp cận khác (Rahim et al
1993[28])
Hướng tiếp cận tổng hợp formant dựa trên cơ sở lý thuyết âm học của quá trình tạo
tiếng nói Phổ biến nhất hiện nay là mô hình nguồn-lọc (source-filter model) tạo tín hiệu
tiếng nói Mô hình này mô phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng
Trang 29Trang 29
một tập các bộ lọc Các bộ lọc này còn được gọi là các bộ cộng hưởng formant, chúng có
thể được kết hợp song song hoặc nối tiếp với nhau hoặc kết hợp cả hai Qua thực nghiệm,
người ta nhận thấy để có thể tạo ra tiếng nói có thể nghe được cần tối thiểu là 3 bộ lọc, còn
để tạo ra tiếng nói có chất lượng cao thì phải cần ít nhất là 5 bộ lọc Vào năm 1980, Dennis
Klatt [29] đề nghị một mô hình tổng hợp formant kết hợp cả hai cấu trúc song song và nối
tiếp Hệ thống này sử dụng một mô hình nguồn kích thích khá phức tạp Số tham số cho cả
hệ thống này lên đến 39 tham số, và để tạo ra liên lục từ bộ tổng hợp formant này các tham
số sẽ được cập nhật liên tục trong khoảng 10-20ms Ưu điểm của phương pháp này là dữ
liệu rất nhỏ, có khả năng điều khiển mềm dẻo các tham số âm học của tiếng nói Nhược điểm của phương pháp này là khó xây dựng, cần nghiên cứu sâu sắc về ngữ âm của ngôn
ngữ, phức tạp trong việc xác định các tham số điều khiển bộ tổng hợp, hạn chế về tính tự
nhiên, độ giống tiếng người của tiếng nói tạo ra Tiếng nói tự nhiên có nhiều đặc điểm hiện
chưa mô tả được, tuy nhiên các hệ hiện có đã tạo được tiếng nói chất lượng rất cao, không
khác tiếng người Phần mềm VnSpeech [8] tổng hợp tín hiệu tiếng nói theo hướng tiếp cận
này [5][7]
Hướng tiếp cận tổng hợp ghép nối tạo ra tín hiệu tiếng nói bằng cách ghép nối các đoạn tiếng nói tự nhiên được ghi âm từ trước Tùy thuộc vào đặc điểm của ngôn ngữ và ứng dụng, có nhiều lựa chọn khác nhau về độ dài của các đoạn tiếng nói để làm đơn vị
ghép nối Đơn vị ghép nối có thể là cả ngữ đoạn khi các ứng dụng là các thông báo với
khung cố định, chỉ có một phần thông tin thay đổi như tại các nhà ga hay bản tin thời tiết,
trả lời tự động một số thông tin qua điện thoại… Với các tình huống ứng dụng yêu cầu đọc
không hạn chế văn bản thì đơn vị ghép nối cần phải ngắn hơn, như từ, âm tiết, bán âm tiết
(demisyllables), âm vị kép (diphone) hay âm vị Có hai điểm trọng tâm chính của phương
pháp này là: (#1) Dữ liệu âm thanh các đơn vị ghép nối cần đủ để có thể ghép được mọi
tình huống văn bản của ứng dụng, và (#2) làm trơn chỗ ghép nối và tạo sự liên tục về âm điệu trong cả đoạn tiếng nói tạo ra Yêu cầu (#1) liên quan đến kích thước dữ liệu và chất
lượng của tiếng nói tạo ra Đơn vị được lựa chọn dài thì tiếng nói tổng hợp sẽ rõ tiếng dễ
nhận biết nhưng kém linh hoạt trong việc biến đổi ngữ điệu đồng thời cần phải có cơ sở dữ
liệu lớn Đơn vị được lựa chọn ngắn như âm vị thì dữ liệu rất nhỏ nhưng sẽ rất khó tạo được tiếng nói có chất lượng rõ tiếng dễ nhận biết Yêu cầu (#2), kỹ thuật PSOLA (Pitch
Synchronous OverLap Add) do France Telecom CNET (Centre National d'Etudes
Trang 30Trang 30
Télécommunications) [30] đề xuất, gồm các phiên bản miền thời gian (TD-PSOLA), miền
tần số (FD-PSOLA) hay dự đoán tuyến tính (LP-PSOLA) giải quyết hiệu quả việc làm trơn điểm ghép nối và biến đổi trong phạm vi nhỏ cao độ và trường độ Ưu điểm của phương
pháp này là dễ xây dựng, tiếng nói tạo ra có độ tự nhiên, giống tiếng người và nhược điểm
của nó là dữ liệu lớn, không mềm dẻo khi cần thay đổi giọng nói (cần phải tạo tại cơ sở dữ
liệu đơn vị ghép nối mới) và phạm vi điều khiển các tham số âm học hạn chế Phần mềm
VnVoice[11] theo hướng ghép bán âm tiết [21]; phần mềm nhu liệu đọc tiếng Việt
VietVoice[9] và một số sản phNm tổng hợp tiếng Việt bằng cách ghép âm tiết như phần
mềm đọc tiếng Việt Sao Mai [10]
Tổng hợp tiếng nói dựa trên mô hình mã hóa dự đoán tuyến tính LPC (Linear
Predictive Coding) [31] Phương pháp này đòi hỏi cung cấp cho nó các thông số như tần số
cơ bản: âm hữu thanh/vô thanh, hệ số tỉ lệ và tập các hệ số dự báo tuyến tính Những hệ số
này cần được cập nhật đồng bộ với sự thay đổi của cao độ tiếng nói Ưu điểm của phương
pháp này là dữ liệu nhỏ gọn và có thể mô phỏng ngữ điệu khá tốt Khuyết điểm là chất
lượng âm thanh không được tốt và cần nhiều xử lý tính toán
Tổng hợp tiếng nói dựa trên HMM (Hidden Markov Model) [32][33][34], là một
phương pháp dựa vào mô hình Markov Nn Trong hệ thống này, phổ tần số của giọng nói,
tần số cơ bản, và thời lượng đều được mô phỏng cùng lúc bởi HMM Với một chuỗi văn
bản được đưa vào, các thông số tổng hợp tiếng nói và tín hiệu tương ứng được xác định bởi
các HMM đã được huấn luyện dựa trên tiêu chí khả thực cực đại Ưu điểm của phương
pháp này là cần ít bộ nhớ, có thể điều chỉnh ngữ điệu Khuyết điểm của nó là cần nhiều xử
lý tính toán tín hiệu số nên chất lượng âm thanh còn chưa được tốt và giống tiếng robot
Trong các phương pháp tiếp cận trên, phương pháp tổng hợp formant và tổng hợp
ghép nối được sử dụng khá phổ biến trong các hệ thống tổng hợp tiếng nói hiện nay Trước đây các hệ thống tổng hợp format từng chiếm ưu thế trong một thời gian khá lâu do lợi thế
về kích thước dữ liệu cần lưu trữ so với phương pháp tổng hợp ghép nối Ngày nay với sự
phát triển nhanh chóng của công nghệ lưu trữ dữ liệu, phương pháp tổng hợp ghép nối
ngày càng chiếm ưu thế và được sử dụng phổ biến hơn do tính đơn giản và có lợi thế là
chất lượng tiếng nói tự nhiên hơn
Trang 31Trang 31
2.4 Nh ận xét về các hướng tiếp cận
Với các hướng tiếp cận đã trình bày trong phần 2.1.1, chúng tôi nhận thấy hướng tiếp
cận dùng mô hình luật Klatt tuy dễ cài đặt nhưng khó xây dựng được đầy đủ các luật để
xác định chính xác các trường hợp trong thực tế Hướng tiếp cận dùng mô hình
Sums-of-products cho kết quả tốt hơn nhưng việc xây dựng các hệ số cho các đặc trưng và phân lớp
các công thức đòi hỏi nhiều công sức và kiến thức chuyên môn Mô hình CART cài đặt đơn giản, cho kết quả tương đối tốt nhưng có thể không đảm bảo tốt khả năng dự đoán các
mẫu chưa được huấn luyện
Mô hình sử dụng mạng nơ-ron chứng tỏ khả năng ưu việt với khả năng tự phát hiện
các mối liên hệ giữa các đặc trưng âm tiết ở đầu vào và các thông số ngữ điệu ở đầu ra Mô
hình này còn có khả năng dự đoán khá chính xác cho các mNu chưa được huấn luyện và
việc cài đặt cũng không phức tạp Do đó, chúng tôi chọn sử dụng mô hình này để xử lý xác
định các thông số ngữ điệu cho các âm tiết (Xem chương 3)
Đối với việc xử lý tần số cơ bản F0, mô hình Fujisaki thể hiện ưu điểm vượt trội và được ứng dụng rất thành công trong các hệ thống tổng hợp tiếng nói Tuy nhiên, do mức
độ ảnh hưởng của tần số F0 đối với bộ phát âm tiếng Việt không đòi hỏi quá nghiêm ngặt
so với các yếu tố còn lại nên chúng tôi tạm thời bỏ qua chưa xử lý yếu tố này Hệ thống sẽ
giữ nguyên cao độ của các âm tiết khi thực hiện tổng hợp ghép nối âm tiết
Phần xử lý tổng hợp tín hiệu tiếng nói, chúng tôi chọn cách tiếp cận ghép nối âm tiết
vì tính đơn giản trong xử lý, tiếng nói tổng hợp rõ ràng tự nhiên, kích thước dữ liệu lưu trữ
chấp nhận được đối với các hệ thống máy tính hiện tại Việc xử lý biến đổi ngữ điệu có thể được thực hiện với các kỹ thuật time-stretching và pitch-shifting [48] để biến đổi trường độ
và cao độ; cường độ được điều chỉnh dễ dàng bằng cách thay đổi biên độ tín hiệu (Xem
m ục 4.2.2)
Trang 32Trang 32
3 MÔ HÌNH M ẠNG NƠ-RON XÁC ĐNNH CÁC THÔNG SỐ
3.1 S ơ lược về mạng nơ-ron
Ý tưởng đầu tiên xây dựng mạng nơ-ron nhân tạo giống mạng nơ-ron của con người
là của MC.Culloch và Pitts vào năm 1943 với nguyên lý là các nơ-ron có thể được mô hình
hóa như thiết bị ngưỡng giới hạn logic Đến nay đã có nhiều nghiên cứu phát triển mô hình
mạng nơ-ron và các ứng dụng của nó Về cơ bản mạng nơ-ron bao gồm một hệ thống các
phần tử đơn vị là các nơ-ron còn được gọi là nút được kết nối với nhau Khả năng xử lý
của mạng nơ-ron nằm ở các kết nối giữa các nơ-ron và trọng số của các kết nối đó Các kết
nối và trọng số tương ứng được xây dựng qua một quá trình huấn luyện với một tập dữ liệu
mẫu cho trước
3.1.1 C ấu trúc của một nơ-ron nhân tạo
Hình 3 C ấu trúc c ủa một nơ-ron nhân tạo
Cấu trúc của một nơ-ron nhân tạo có thể được mô tả như trong Hình 3
Trang 33Hàm tác động h(f(i)) có thể là hàm tuyến tính hoặc phi tuyến Thông thường hàm tác
động được dùng là hàm sigmoid có dạng chữ S như Hình 4 với công thức như sau:
fe
f h
−
+
= 1
1 )
Hình 4 Đồ thị hàm sigmoid
Trang 34Trang 34
3.1.2 Ki ến trúc mạng nơ-ron
Có nhiều kiểu kiến trúc mạng nơ-ron khác nhau nhưng thông dụng nhất là kiến trúc
mạng nơ-ron truyền thẳng nhiều lớp gồm một lớp input, một lớp output và một số lượng
lớp Nn tùy ý Tuy nhiên chỉ cần với một lớp Nn thì mạng nơ-ron đã có thể mô tả được mọi
hàm phi tuyến Theo Cybenco [46] thì bất kỳ hàm phi tuyến nào cũng có thể xấp xỉ tùy ý
trên một tập compact bằng mạng nơ-ron truyền thẳng gồm 2 lớp Nn với độ phi tuyến cố
định Như vậy khi xây dựng mạng nơ-ron trong xử lý, mạng 2 lớp Nn đủ khả năng xấp xỉ
một hàm bất kỳ mà không cần phải dùng nhiều lớp hơn gây phức tạp tính toán Hình 5
minh họa một mạng nơ-ron gồm một lớp input với n nút vào, 2 lớp Nn b1 và b2, một lớp
output b3 có 1 nút
Hình 5 Minh h ọa một kiến trúc mạng nơ-ron
Số lượng nút input là số tín hiệu đầu vào tương ứng với số lượng các đặc trưng input
của bài toán cần giải quyết, số lượng nút output tương ứng với số lượng các kết quả output
của bài toán Thông thường để cho việc huấn luyện được dễ dàng cho kết quả tốt, bài toán
sẽ được chia ra thành nhiều mạng riêng biệt chỉ có một nút output cho từng kết quả yêu
cầu
Trang 35Tri thức của mạng nơ-ron được chứa đựng trong các trọng số giữa các mối liên kết
nơ-ron Khi mới khởi tạo các trọng số này thường được cho một giá trị mặc định hoặc ngẫu
nhiên Để có thể mô phỏng bài toán cần giải quyết, mạng phải được huấn luyện với các dữ
liệu mẫu để điều chỉnh các trọng số cho phù hợp Thuật toán huấn luyện được sử dụng cho
mạng truyền thẳng nhiều lớp là thuật toán lan truyền ngược Thuật toán này sẽ thực hiện điều chỉnh trọng số các kết nối bắt đầu từ lớp output lần ngược về hướng lớp input theo
tiêu chí cực tiểu hóa sự khác biệt giữa kết quả tính toán của mạng và dữ liệu huấn luyện
Khi huấn luyện mạng nơ-ron, nếu việc huấn luyện được thực hiện quá nhiều thì các
trọng số của mạng sẽ bị điều chỉnh để thích nghi quá mức với đặc thù của dữ liệu huấn
luyện làm mất tính tổng quát cho dữ liệu bài toán Khi này khả năng dự đoán cho các mẫu
chưa huấn luyện sẽ kém chính xác Để tránh tình trạng quá luyện thông thường dữ liệu được chia thành 2 phần, một phần dùng để huấn luyện và phần còn lại dùng để đánh giá
Một khi việc huấn luyện bắt đầu làm cho khả năng thích nghi với dữ liệu đánh giá có xu
hướng giảm đi qua khỏi một mức tối ưu thì sẽ được dừng lại
3.2 Xác định các thông số ngữ điệu cho bộ phát âm tiếng việt bằng mạng nơ-ron
Việc xác định các thông số ngữ điệu sẽ được tiếp cận theo hướng “học” từ ngữ liệu
tiếng nói tự nhiên với công cụ mạng nơ-ron Các thông số ngữ điệu của từng âm tiết trong
câu sẽ được các mạng nơ-ron xác định dựa vào vector mô tả đặc trưng cho âm tiết đó trong
ngữ cảnh câu, giá trị của vector đặc trưng này cần phải xác định được một cách tự động
trong quá trình xử lý văn bản
Như vậy để xây dựng hệ thống ta cần phải thực hiện những việc sau:
• Xây dựng vector đặc trưng phù hợp cho các âm tiết tiếng Việt trong ngữ cảnh
câu
• Xây dựng dữ liệu huấn luyện
Trang 36Trang 36
• Thiết lập và huấn luyện các mạng nơ-ron
3.2.1 Vector mô t ả đặc trưng âm tiết trong ngữ cảnh câu
Với đầu vào của hệ thống là một câu văn bản, thành phần xử lý ngôn ngữ tự nhiên sẽ
chuyển đổi câu thành một dãy các âm tiết được phát âm Các thuộc tính đặc trưng cho âm
tiết trong ngữ cảnh câu được chọn bao gồm các thuộc tính có khả năng liên hệ ảnh hưởng đến các thông số ngữ điệu của âm tiết trong câu và giá trị các thuộc tính này phải xác định được một cách tự động
Đối với một âm tiết riêng biệt ta có các yếu tố đặc trưng cấu tạo hình vị gồm: phụ âm đầu, âm đệm (bán nguyên âm đầu), âm chính (nguyên âm), âm cuối (phụ âm hoặc bán
nguyên âm cuối) và dấu thanh (Hình 2) Các yếu tố này tác động trực tiếp đến các tính chất
âm học của âm tiết trong đó có các tính chất về cường độ và trường độ Biểu diễn hình vị
(con chữ) không hoàn toàn tương ứng 1-1 với âm vị, một âm vị có khi được ghi lại bằng
nhiều cách khác nhau, các vùng miền khác nhau có thể có cách phát âm khác nhau cho
cùng một con chữ [3] Do đó để hệ thống được linh hoạt, chúng tôi sử dụng biểu diễn hình
vị thay vì âm vị cho các yếu tố trên, các mạng nơ-ron sẽ tự khám phá mối liên hệ giữa các
yếu tố hình vị và thông số ngữ điệu tương ứng
Trong ngữ cảnh câu nói, bằng thực nghiệm ta thấy ngữ điệu của âm tiết còn phụ
thuộc vào mối liên hệ giữa nó với các âm tiết xung quanh, tính chất của ngữ đoạn chứa âm
tiết, vị trí âm tiết trong ngữ đoạn tương ứng [6] Ngoài ra ngữ điệu âm tiết còn phụ thuộc
vào các loại câu khác nhau
Thừa hưởng thành quả từ các nghiên cứu xử lý ngôn ngữ tự nhiên cho phép xác định
tự động ranh giới từ và từ loại tiếng Việt, chúng tôi xây dựng vector đặc trưng mô tả âm
tiết trong ngữ cảnh câu bao gồm:
• Các thuộc tính đặc trưng hình vị của: âm tiết hiện tại, âm tiết liền trước và
sau
• Số âm tiết của từ chứa: âm tiết hiện tại, âm tiết liền trước và sau
• Vị trí của âm tiết trong từ chứa nó
• Từ loại của từ chứa nó
Trang 37Trang 37
• Loại câu
Như vậy, vector mô tả đặc trưng âm tiết trong câu được chọn bao gồm 21 thuộc tính
như trong Bảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng
(Giá trị Ø dùng cho các trường hợp hình vị âm tiết không có thành phần tương ứng và từ
loại không xác định):
B ảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng
01 Phụ âm đầu b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng,
nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø
03 Âm chính a, ă, â, e, ê, ia, iê, i, o, ô, ơ, ua, uô, u, ưa, ươ,
ư, ya, yê, y, Ø
07 Âm đệm của âm tiết trước o, u, Ø
08 Âm chính của âm tiết trước a, ă, â, e, ê, ia, iê, i, o, ô, ơ, ua, uô, u, ưa, ươ,
ư, ya, yê, y, Ø
09 Âm cuối của âm tiết trước ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø
10 Dấu thanh của âm tiết trước 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền,
hỏi, ngã, nặng)
11 Phụ âm đầu của âm tiết sau b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng,
nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø
12 Âm đệm của âm tiết sau o, u, Ø
13 Âm chính của âm tiết sau a, ă, â, e, ê, ia, iê, i, o, ô, ơ, ua, uô, u, ưa, ươ,
ư, ya, yê, y, Ø
14 Âm cuối của âm tiết sau ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø
15 Dấu thanh của âm tiết sau 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền,
hỏi, ngã, nặng)
Trang 38Trang 38
16 Số âm tiết của từ chứa nó 1 4
17 Số âm tiết của từ chứa âm tiết trước 1 4
18 Số âm tiết của từ chứa âm tiết sau 1 4
19 Vị trí âm tiết trong từ chứa nó 0 3
20 Từ loại của từ chứa âm tiết N, V, I, E, J, X, A, C, P, Ø
Giá trị các thuộc tính đặc trưng này có thể xác định được một cách hoàn toàn tự động Đối với các thuộc tính liên quan đến đặc trưng hình vị của âm tiết và thuộc tính
“Loại câu” (các thuộc tính từ 1 đến 15 và 21 trong Bảng 1), giá trị của chúng có thể được
xác định dễ dàng bằng các xử lý đơn giản Đối với các thuộc tính còn lại (từ 16 đến 20), để
xác định giá trị thì cần phải có thông tin về ranh giới từ và từ loại Chúng tôi đã sử dụng
thư viện phần mềm tách từ và gán nhãn từ loại do nhóm VCL cung cấp [16][17] Đầu vào
là câu văn gồm các âm tiết sẽ đọc, đầu ra là ranh giới từ và từ loại của mỗi từ Một ví dụ xử
lý tách từ và gán nhãn từ loại như sau:
• Giả sử, với các âm tiết sẽ đọc gồm: (học), (sinh), (học), (sinh), (học)
• Ghép các âm tiết trên thành câu văn: “học sinh học sinh học ”
• Thực hiện xử lý tách từ và gán nhãn từ loại cho câu văn trên ta được chuỗi
chứa thông tin về ranh giới từ và tự loại như sau: “học_sinh/N học/V
sinh_học/N /.”
Sau khi xác định được các giá trị đặc trưng ta chuNn hoá chúng bằng cách ánh xạ về
miền giá trị số thực trong khoảng [0 1] theo công thức:
(V ị trí tính từ 0 của giá trị trong cột “Nội dung” Bảng 3.1)
Trang 39Trang 39
+ Thuộc tính đặc trưng thứ 3 là “Nguyên âm” có giá trị là “y” (ứng với vị trí là 19) sẽ được chuNn hoá thành: 19 / (20 – 1) = 1
+ Thuộc tính đặc trưng thứ 5 là “Dấu thanh” có giá trị là dấu huyền (ứng với vị trí là
2) sẽ được chuNn hoá thành: 2 / (6 – 1) = 0,4
3.2.2 D ữ liệu huấn luyện
Dữ liệu huấn luyện được xây dựng dựa trên dữ liệu tiếng nói tự nhiên Tập dữ liệu
huấn luyện bao gồm tập hợp các mẫu dữ liệu huấn luyện, mỗi mẫu gồm chứa thông tin
vector đặc trưng của âm tiết trong ngữ cảnh câu và các thông số ngữ điệu tương ứng với nó
gồm: cường độ, trường độ và khoảng ngừng
Bộ dữ liệu được xây dựng qua các bước như sau:
• Thu âm dữ liệu tiếng nói tự nhiên của cùng một người với cùng một phong
cách ngữ điệu nhất định
• Với mỗi âm tiết trong chuỗi tiếng nói ta đánh dấu vị trí bắt đầu, vị trí kết thúc,
và nhãn tên của mỗi âm tiết Việc đánh dấu được thực hiện thủ công với sự
trợ giúp của công cụ phần mềm Transciber [49] (Hình 6) Cấu trúc nội dung
của dữ liệu đánh dấu được trình bày minh họa như trong Bảng 2:
B ảng 2 Minh họa cấu trúc nội dung của dữ liệu đánh dấu
V ị trí bắt đầu (giây) Âm ti ết
Trang 40Từ các thông tin đánh dấu, ta dễ dàng xác định được các thông tin về trường độ các
âm tiết và khoảng ngừng sau mỗi âm tiết như sau:
• Trường độ âm tiết = Vị trí bắt đầu của dòng kế tiếp – Vị trí bắt đầu âm tiết
• Khoảng ngừng sau âm tiết:
bằng: 0, nếu dòng tiếp theo là một âm tiết
bằng: độ dài của <khoảng ngừng>, nếu dòng tiếp theo là <khoảng
ngừng>
Với thông số vị trí bắt đầu và trường độ của âm tiết, ta trích đoạn tín hiệu tiếng nói
tương ứng và tính được giá trị cường độ trung bình của âm tiết
Sau khi xác định được hết các giá trị cường độ, trường độ và khoảng ngừng cho tất
cả các âm tiết huấn luyện, ta thống kê và loại bỏ các giá trị biên có tần suất xuất hiện thấp
không đáng kể, ta được khoảng giá trị của các thông số ngữ điệu như sau:
• Cường độ: -35 -3 (dB)
• Trường độ: 50 550 (milisecond)
• Khoảng ngừng: 0 1000 (milisecond)