phần mềm hỗ trợ người khiếm thị học tiếng anh

Đây là vấn đề rất khó khăn phức tạp vì nó phụ thuộc vào nhiều yếu tố nằm ngoài văn bản như: ý nghĩa ngữ cảnh của câu nói, trạng thái tình cảm của người nói… 1.1.3 Ng ữ điệu trong tiếng n

Trang 1

ỦY BAN NHÂN DÂN TP.HCM

S Ở KHOA HỌC VÀ CÔNG NGHỆ

BÁO CÁO NGHI ỆM THU

( Đã chỉnh sửa theo góp ý của Hội đồng nghiệm thu)

CH Ủ NHIỆM ĐỀ TÀI

(Ký tên)

CƠ QUAN QUẢN LÝ CƠ QUAN CHỦ TRÌ

(Ký tên/ đóng dấu xác nhận) (Ký tên/đóng dấu xác nhận)

THÀNH PHỐ HỒ CHÍ MINH

THÁNG 04 / 2009

Trang 2

Theo ước tính của Bộ Thương Binh Lao Động và Xã Hội và Hội Người Mù Việt Nam, hiện

có kho ảng 600.000 người mù và kém mắt ở nước ta Đối với ngưòi khiếm thị, máy tính đã thể hiện

m ột vai trò quan trọng đối người khiếm thị trong việc tiếp cận thông tin So với phưong cách truyền

th ống của người khiếm thị trong việc tiếp nhận thông tin bằng băng ghi âm, tài liệu chữ nổi; máy tính đã giúp người khiếm thị có thể truy cập nguồn thông tin qua âm thanh một cách chủ động Bên c ạnh đó, ngôn ngữ tiếng Anh hiện là ngôn ngữ phổ biến nhất trong giao tiếp trên thế giới Ngôn ng ữ cũng đóng vai trò quan trọng cho người khiếm thị, đặc biệt trong xã hội mà Internet ngày càng phát tri ển thì biết tiếng Anh sẽ mở ra cơ hội lớn cho người khiếm thị trong giao tiếp cộng đồng và nghề nghiệp Tuy nhiên, công cụ và phương tiện cho người khiếm thị học tiếng Anh thì còn r ất ít, vì vậy học tiếng Anh đối người khiếm thị là công việc khó khăn hơn rất nhiều so với

ng ười sáng mắt

Với định hướng giúp ngưòi khiếm thị Việt Nam có thể dễ dàng tiếp cận với máy tính

phục vụ cho việc học tập tiếng Anh, dự án này nghiên cứu và xây dựng các công cụ và

phần mềm cần thiết cho nhu cầu cơ bản của người khiếm thị Với những công cụ và phần

mềm của dự án, người khiếm thị có thể dễ dàng học ngôn ngữ tiếng Anh một cách thuận

lợi và hiệu quả Trong đề tài này, chúng tôi tập trung nghiên cứu những vấn đề sau:

B ộ phát âm tiếng Việt: Bộ phát âm máy tính thể hiện một cách chính xác như

người thường đọc trong việc ngưng nghỉ, nhấn nhá âm thanh để người nghe có thể nắm bắt được thông tin Với mô hình nghiên cứu mạng nơ-ron, chúng tôi xây dựng bộ phát âm đạt

theo những yêu cầu mong muốn cho người khiếm thị

Ph ần mềm Từ điển Anh – Việt: Chúng tôi tập trung nghiên cứu hành vi sử dụng

máy tính của của người khiếm thị và đề ra giải pháp xây dựng phần mềm từ điển để người

khiếm thị có thể tự sử dụng học tiếng Anh

Ch ương trình đọc màn hình: Với quan điểm thiết kế một chương trình tổng quan

có thể giúp người khiếm thị điều khiển các thành phần trên máy tính Chúng tôi tập trung

nghiên cứu kĩ thuật lập trình trên Windows để truy cập các thông tin các đối tượng

Windows và mô tả lại bằng tiếng nói cho người khiếm thị Với công cụ này người khiếm

thị có thể sử dụng máy tính soạn thảo văn bản, sử dụng các chương trình phục vụ học tiếng

Anh

Ph ần mềm giáo trình học tiếng Anh cho người khiếm thị: Qua phân tích các cấu

trúc và phương pháp học tiếng Anh, chúng tôi xây dựng phần mềm dựa trên giáo trình học

tiếng Anh sẵn có nhằm giúp người khiếm thị dễ dàng học tiếng Anh

Trang 3

ABSTRACT

According to the Ministry of Labor and Vietnamese Blind Association, there are about 600,000 blind and visually impaired people in Vietnam The blind people realise the important role of computers to access information In compared with the traditional

methods in accessing information such as tape recording, Braille materials, the computer helps blind people can actively manage information by speech responses In addition, English language is currently the most popular language in communications over world In developing society, English is used an essential tool in communication in business,

education and technology, so those who are good at English have good opportunities and advantages in jobs and life Unfortunately , the blind people have many obstacles to access English language because most of English books are written and printed for the sight people

The project aims to help Vietnamese blind people to utilize the advantages of the computer in learning English It focuses on studying and developing software which use text-to-speech engine to assist the blind people in using computer and improve English skill

Text-to-Speech Engine based on neuron network: The project pursuits a goal to

build an engine that reads the inputted Vietnamese text like a real voice of human It uses studies on neuron network to analyze the significant factors of human voice and applies for machine’s voice

English – Vietnamese Dictionary: The project concentrates to study the blind

people’s behaviors in using the computer Based on that, it proposes the solutions for blinds in using computers and develops an dictionary application which helps the bind people to look up English words easily and quickly

Screen reader: With the point of view that the blind people can control the

computer in Windows, the project aims to research technologies of GUI components in Windows OS to get the information and describe these components in voice With the results in the project, the blind people can control the Windows and edit Word documents for learning English

English electronic textbook: Based on knowledge in English education from

contemporary English textbook, we develop an electronic textbook for the blind people which can speak in English and Vietnamese in most of basic situations in English learning

Trang 4

TÓM T ẮT NỘI DUNG NGHIÊN CỨU 2

DANH SÁCH B ẢNG 8

DANH SÁCH HÌNH 9

PH ẦN 1 PH ẦN MỞ ĐẦU 13

1 THÔNG TIN VỀ DỰ ÁN 13

2 MỤC TIÊU 13

3 NỘI DUNG 14

4 SẢN PHẨM CỦA ĐỀ TÀI 15

PH ẦN 2 T ỔNG HỢP TIẾNG NÓI 16

1 GIỚI THIỆU 16

1.1 Tổng hợp tiếng nói nhân tạo 16

1.2 Một vài đặc điểm của tiếng việt, ngữ âm, ngữ điệu 19

1.3 Những khó khăn trong tổng hợp tiếng nói 23

2 CÁC CÔNG TRÌNH LIÊN QUAN 24

2.1 Các hướng tiếp cận liên quan đến xử lý ngữ điệu 24

2.2 Các mô hình biểu diễn tần số cơ bản 27

2.3 Các hướng tiếp cận tổng hợp tín hiệu tiếng nói 28

2.4 Nhận xét về các hướng tiếp cận 31

3 MÔ HÌNH MẠNG NƠ-RON XÁC ĐNNH CÁC THÔNG SỐ NGỮ ĐIỆU CHO CÁC ÂM TIẾT TIẾNG VIỆT 32

3.1 Sơ lược về mạng nơ-ron 32

3.2 Xác định các thông số ngữ điệu cho bộ phát âm tiếng việt bằng mạng nơ-ron 35 4 XÂY DỰNG BỘ PHÁT ÂM TIẾNG VIỆT 44

4.1 Cấu trúc và quy trình xử lý của bộ phát âm 44

4.2 Mô tả các xử lý 45

4.3 Minh họa quá trình xử lý phát âm 50

5 THỬ NGHIỆM VÀ KẾT QUẢ 56

Trang 5

5.1 Thử nghiệm 56

5.2 Kết quả 62

5.3 Nhận xét 73

5.4 Một số kết quả tiêu biểu 74

6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76

6.1 Kết luận 76

6.2 Hướng phát triển 77

PH ẦN 3 PH ẦN MỀM TỪ ĐIỂN NÓI ANH – VIỆT 79

1 NHU CẦU VÀ GIẢI PHÁP 79

1.1 Phân tích vấn đề: 79

1.2 Thiết kế: 82

2 CÀI ĐẶT – THỬ NGHIỆM – KẾT LUẬN 85

2.1 Cài đặt: 85

2.2 Thử nghiệm 89

2.3 Kết luận 89

PH ẦN 4 PH ẦN MỀM ĐỌC MÀN HÌNH 91

1 TỔNG QUAN 91

1.1 Ý nghĩa 91

1.2 Nội dung nghiên cứu 92

2 KHẢO SÁT CÔNG CỤ VÀ YÊU CẦU HỆ THỐNG 92

2.1 Phần mềm Narrator 92

2.2 Phần mềm NonVisual Desktop Access 93

2.3 Phần mềm Jaws 95

2.4 Yêu cầu hệ thống 96

3 TỔNG QUAN VỀ ACTIVE ACCESSIBILITY VÀ HOOK 99

3.1 Cách hoạt động của Active Accessibility 100

3.2 Nền tảng Active Accessibility 101

3.3 Giao tiếp giữa Client và Server 104

3.4 Giao diện IAccessible 105

3.5 Thu nhận tham chiếu giao diện Accessible Object 111

3.6 WinEvents Hook dùng trong Active Accessibility 112

3.7 Hook trong Windows 115

Trang 6

4 NHỮNG KỸ THUẬT SỬ DỤNG TRONG ỨNG DỤNG 122

4.1 Các kỹ thuật tương tác với mã khơng quản lý 122

4.2 Xây dựng lớp xử lý thơng tin một đối tượng 124

4.3 Cài đặt Hook 126

4.4 Xử lý văn bản 128

4.5 Cơ chế thực thi bất đồng bộ 132

4.6 Xử lý bắt phím & Thực hiện chức năng 134

5 PHÂN TÍCH THIẾT KẾ ỨNG DỤNG 137

5.1 Sơ đồ Use Case 137

5.2 Danh sách các Actor 140

5.3 Danh sách các Use-case 140

5.4 Kiến trúc hệ thống 144

5.5 Thiết kế giao diện 149

6 TỔNG KẾT 153

6.1 So sánh với những ứng dụng hỗ trợ người khiếm thị khác 153

6.2 Kết quả đạt được 155

6.3 Hướng phát triển 155

PHẦN 5 PHẦN MỀM GIÁO TRÌNH HỌC TIẾNG ANH 156

1 TỔNG QUAN 156

2 PHÂN TÍCH YÊU CẦU 156

2.1 Yêu cầu chức năng 156

2.2 Yêu cầu phi chức năng 159

3 THIẾT KẾ ĐỐI TƯỢNG 160

3.1 Lớp đối tượng người dùng 160

3.2 Đối tượng Đơn vị bài : 160

3.3 Đối tượng bài : 161

3.4 Quan hệ làm bài : 161

4 THIẾT KẾ DỮ LIỆU 162

4.1 Sơ đồ các bảng 162

4.2 Danh sách các bảng : 162

4.3 Mô tả chi tiết các bảng 163

Trang 7

5 THIẾT KẾ GIAO DIỆN SOẠN BÀI GIÁO TRÌNH 167

5.1 Sơ đồ màn hình : 167

5.2 Màn hình giới thiệu : 167

5.3 Màn hình chính : 168

5.4 Màn hình thêm bài mới 169

5.5 Màn hình soạn đơn vị bài 170

5.6 Màn hình soạn từ khoá 171

5.7 Màn hình soạn văn phạm : 172

5.8 Màn hình soạn trắc nghiệm 174

5.9 Màn hình soạn bài học 175

5.10 Màn hình xử lý âm thanh cho bài đọc 177

5.11 Màn hình soạn điền vào chỗ trống 178

6 HỆ THỐNG MÀN HÌNH BÀI HỌC 183

6.1 Sơ đồ màn hình: 183

6.2 Màn hình chính 184

6.3 Màn hình chọn bài 185

6.4 Màn hình bài đọc 186

6.5 Màn hình bài tập Điền Từ 187

6.6 Màn hình học văn phạm 188

6.7 Màn hình tra cứu văn phạm 189

6.8 Màn hình trắc nghiệm(Bài tập True False) 190

7 CÀI ĐẶT KIỂM NGHIỆM 191

Trang 8

Bảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng 37

Bảng 2 Minh họa cấu trúc nội dung của dữ liệu đánh dấu 39

Bảng 3 Minh họa thông tin xác định giá trị các đặc trưng của các âm tiết 52

Bảng 4 Minh họa thông tin các đặc trưng của âm tiết đã được chuNn hóa 53

Bảng 5 Minh họa kết quả xác định các thông số ngữ điệu của mạng nơ-ron 54

Bảng 6 Minh họa kết quả xác định các thông số ngữ điệu 55

Bảng 7 Giá trị trung bình và độ lệch chuNn của các yếu tố ngữ điệu 61

Bảng 8 Mạng nơ-ron xác định cường độ 62

Bảng 9 Mạng nơ-ron xác định trường độ 64

Bảng 10 Mạng nơ-ron xác định khoảng ngừng 66

Bảng 11Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với cường độ 70

Bảng 12 Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với trường độ 71

Bảng 13 Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với khoảng ngừng 72

Bảng 14 Những hạn chế và hướng cải tiến cho bộ phát âm 77

Bảng 15 Danh sách các Actor 140

Bảng 16 Danh sách các UseCase 143

Bảng 17 Mô tả các lớp trong module HOOK 146

Bảng 18 Mô tả các lớp trong COMMON FEATURES 148

Bảng 19 Mô tả các lớp trong TEXT PROCESS 149

Trang 9

DANH SÁCH HÌNH

Hình 1 Cấu trúc tổng quát của một bộ phát âm 16

Hình 2 Cấu trúc của âm tiết tiếng Việt 21

Hình 3 Cấu trúc của một nơ-ron nhân tạo 32

Hình 4 Đồ thị hàm sigmoid 33

Hình 5 Minh họa một kiến trúc mạng nơ-ron 34

Hình 6 Màn hình công cụ Transcriber 42

Hình 7 Xác định các thông số ngữ điệu bằng các mạng nơ-ron 42

Hình 8 Cấu trúc và quy trình xử lý của bộ phát âm 44

Hình 9 Các bước xây dựng vector đặc trưng âm tiết 48

Hình 10 Xử lý tổng hợp tín hiệu tiếng nói 50

Hình 11 Biểu đồ histogram phân bố cường độ của tập dữ liệu thử nghiệm 57

Hình 12 Biểu đồ histogram phân bố trường độ của tập dữ liệu thử nghiệm 57

Hình 13 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu thử nghiệm 58

Hình 14 Biểu đồ histogram phân bố cường độ của tập dữ liệu huấn luyện 58

Hình 15 Biểu đồ histogram phân bố trường độ của tập dữ liệu huấn luyện 59

Hình 16 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu huấn luyện 59

Hình 17 Biểu đồ histogram phân bố cường độ của tập dữ liệu kiểm thử 60

Hình 18 Biểu đồ histogram phân bố trường độ của tập dữ liệu kiểm thử 60

Hình 19 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu kiểm thử 61

Hình 20 Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu huấn luyện 63

Hình 21 Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu kiểm thử 63

Hình 22 Biểu đồ histogram phân bố sai lệch cường độ đối với toàn tập dữ liệu thử nghiệm 64

Hình 23 Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu huấn luyện 65

Hình 24 Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu kiểm thử 65

Hình 25 Biểu đồ histogram phân bố sai lệch trường độ đối với toàn tập dữ liệu thử nghiệm 66

Hình 26 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu huấn luyện 67

Trang 10

Hình 27 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu kiểm thử 67

Hình 28 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với toàn tập dữ liệu thử

nghiệm 68

Hình 29 Biểu đồ histogram phân bố output cường độ đối với toàn tập dữ liệu thử nghiệm 68

Hình 30 Biểu đồ histogram phân bố output trường độ đối với toàn tập dữ liệu thử nghiệm 69

Hình 31 Biểu đồ histogram phân bố output khoảng ngừng đối với toàn tập dữ liệu thử nghiệm 69

Hình 32 Kết quả đọc câu “Hôm nay trời đẹp quá!” 74

Hình 33 Kết quả đọc câu “Hôm nay trời nắng chang chang” 75

Hình 34 Kết quả đọc câu “Mèo con đi học chẳng mang thứ gì” 75

Hình 35 Kết quả đọc câu “Địa chỉ: 227 Nguyễn Văn Cừ.” 76

Hình 36 Giao tiếp giữa người khiếm thị và máy tính 80

Hình 37 Mô hình xử lý tra từ điển 82

Hình 38 Mô hình phát âm tiếng Anh 83

Hình 39 Bộ điều phối phát âm tiếng Anh và tiếng Việt 84

Hình 40 Màn hình tra từ điển 88

Hình 41 Hệ thống bảng chọn 89

Hình 42 Phần mềm Narrator 93

Hình 43 Chương trình NVDA 94

Hình 44 Phần mềm Jaws 95

Hình 45 Minh họa Simple Element 103

Hình 46 Minh họa một cửa sổ Window chuNn 104

Hình 47 Mối quan hệ giữa các miền 110

Hình 48 Một điểm hook trong quá trình lưu chuyển thông điệp không có hàm lọc 117

Hình 49 Một điểm hook trong quá trình lưu chuyển thông điệp có hàm lọc 118

Hình 50 Một điểm hook có 3 thủ tục Hook đính kèm 118

Hình 51 Chương trình Winword 131

Hình 52 Thêm thư viện Word 131

Hình 53 Minh họa lớp ShortCutKeyInfo 136

Trang 11

Hình 54 Sơ đồ Use Case cho phần xử lý văn bản 138

Hình 55 Sơ đồ Use Case cho phần các chức năng chung 139

Hình 56 Sơ đồ Use Case cho phần các Module chuyên biệt 140

Hình 57 Sơ đồ hoạt động của hệ thống 144

Hình 58 Sơ đồ lớp module HOOK 146

Hình 59 Sơ đồ lớp COMMON FEATURES 147

Hình 60 Sơ đồ lớp TEXT PROCESS 148

Hình 61 Chương trình chính 150

Hình 62 Màn hình cấu hình mơ tả 151

Hình 63 Màn hình cấu hình âm thanh 151

Hình 64 Màn hình cấu hình xử lý văn bản 152

Hình 65 Màn hình cấu hình mơ tả chuột 152

Hình 66 Màn hình cấu hình ngơn ngữ 153

Hình 67 Màn hình giúp đỡ 153

Hình 68 Các đơn vị trong giáo trình 157

Hình 69 Phân tích đối tượng bài 161

Hình 70 Sơ đồ các bảng 162

Hình 71 Mô hình màn hình 167

Hình 72 Màn hình giới thiệu soạn bài 167

Hình 73 Màn hình chính soạn bài 168

Hình 74 Màn hình thêm bài học mới 169

Hình 75 Màn hình soạn đơn vị bài 170

Hình 76 Màn hình soạn từ khoá 171

Hình 77 Màn hình soạn văn phạm 173

Hình 78 Màn hình soạn trắc nghiệm 174

Hình 79 Màn hình soạn từ vựng 175

Hình 80 Màn hình soạn bài đọc 176

Hình 81 Màn hình xử lý âm thanh 177

Hình 82 Màn hình soạn tiêu đề 179

Trang 12

Hình 83 Màn hình xác lập ngôn ngữ 180

Hình 84 Màn hình điền từ 180

Hình 85 Màn hình phát sinh câu 181

Hình 86 Màn hình đáp án điền tư 182

Hình 87 Sơ đồ màn hình bài học 183

Hình 88 Màn hình học bài chính 184

Hình 89 Màn hình soạn bài học 185

Hình 90 Màn hình học bài đọc 186

Hình 91 Màn hình học bài điền từ 187

Hình 92 Màn hình học bài văn phạm 188

Hình 93 Màn hình tra cứu văn phạm 189

Hình 94 Màn hình học bài trắc nghiệm 190

Trang 13

1 THÔNG TIN V Ề DỰ ÁN

Tên d ự án: Phần mềm hỗ trợ cho người khiếm thị học tiếng Anh

Ch ủ nhiệm đề tài/dự án: Huỳnh Ngọc Dũng

Nhóm nghiên c ứu: Nguyễn Tấn Đạt, Nguyễn Hữu Minh, Ông Mộc Vinh, Trần Văn

Quý

C ơ quan chủ trì: Trung tâm phát triển Khoa học và Công nghệ trẻ

Thời gian thực hiện:

Kinh phí được duyệt: 45.000.000 đồng

Kinh phí đã cấp: 45.000.000 đồng theo TB số: TB-SKHCN ngày / /

Theo ước tính của Bộ Thương Binh Lao Động và Xã Hội và Hội Người Mù Việt

Nam, hiện có khoảng 600.000 người mù và kém mắt ở nước ta Ngoài 22 trường mù và

trường khuyết tật có trẻ em mù, hiện có một số người khiếm thị đông đảo đang sinh hoạt

tại hơn 22 Thành, Tỉnh, Hội và hàng trăm quận huyện hội trong số 61 tỉnh thành trên nước

Việt Nam

Hiện nay, máy tính đã thể hiện một vai trò quan trọng đối người khiếm thị trong việc

tiếp cận thông tin So với phưong cách truyền thống của người khiếm thị trong việc tiếp

nhận thông tin bằng băng ghi âm, tài liệu chữ nổi; máy tính đã giúp người khiếm thị có thể

truy cập nguồn thông tin qua âm thanh một cách chủ động Trên thế giới và Việt Nam đã

có những phần mềm giúp người khiếm thị tương tác với máy tính phục vụ cho nhu cầu của

mình như học tập, làm việc và tra cứu thông tin Các phần mềm này đều có những mục tiêu

riêng và hướng vào những đối tượng cụ thể, ví dụ: các chương trình nước ngoài chỉ cho

người biết tiếng Anh, phần mềm chuyên đọc web

Ngôn ngữ tiếng Anh hiện là ngôn ngữ phổ biến nhất trong giao tiếp trên thế giới

Một điều không thể phủ nhận rằng tiếng Anh là hành trang cho tất cả mọi người trong con đường lập nghiệp Người khiếm thị cũng vậy, ngôn ngữ cũng đóng vai trò quan trọng, đặc

biệt trong xã hội mà Internet ngày càng phát triển thì biết tiếng Anh sẽ mở ra cơ hội lớn

Trang 14

cho người khiếm thị trong giao tiếp cộng đồng và nghề nghiệp Tuy nhiên, công cụ và

phương tiện cho người khiếm thị học tiếng Anh còn rất ít, vì vậy việc học tiếng Anh đối

người khiếm thị là công việc khó khăn hơn rất nhiều so với người sáng mắt

Với định hướng giúp ngưòi khiếm thị Việt Nam có thể dễ dàng tiếp cận với máy tính

phục vụ cho việc học tập tiếng Anh, dự án này nghiên cứu và xây dựng các công cụ và

phần mềm cần thiết cho nhu cầu cơ bản của người khiếm thị Với những công cụ và phần

mềm của dự án, người khiếm thị có thể dễ dàng học ngôn ngữ tiếng Anh một cách thuận

lợi và hiệu quả

Với mục đích xây dựng công cụ hỗ trợ cho người khiếm thị học tiếng Anh như nêu

trên, đề tài tập trung vào nghiên cứu những vấn đề sau:

B ộ phát âm tiếng Việt: Tiếng nói đóng vai trò quan trọng trong việc điều khiển máy

tính của người khiếm thị Bởi vì người khiếm thị không thể nhìn màn hình máy tính, tiếng

nói sẽ mô tả lại tất cả những gì trên màn hình để họ có thể hiểu đuợc Vì vậy, bộ phát âm

máy tính cần thể hiện một cách chính xác như người thường đọc trong việc phát âm, ngưng

nghỉ và nhấn âm thanh để người nghe có thể nắm bắt được thông tin Với mô hình nghiên

cứu mạng nơ-ron, chúng tôi xây dựng bộ phát âm đạt theo những yêu cầu mong muốn cho

người khiếm thị

Công c ụ hỗ trợ học tiếng Anh: Trong đề tài này chúng tôi tập trung nghiên cứu và

xây dựng hai phần mềm chính giúp người khiếm thị học tiếng Anh

- Ph ần mềm Từ điển Anh – Việt: Từ điển là công cụ không thể thiếu với

người học tiếng Anh Đã có nhiều từ điển sách, từ điển máy tính như Lạc

Việt, nhưng một từ điển để người khiếm thị sử dụng để tự học thì còn thiếu

Trong phần mềm này chúng tôi tập trung nghiên cứu hành vi sử dụng máy

tính của của người khiếm thị và đề ra giải pháp xây dựng phần mềm từ điển

để người khiếm thị có thể tự sử dụng học tiếng Anh

- Ch ương trình đọc màn hình: Với quan điểm thiết kế một chương trình

tổng quan có thể giúp người khiếm thị điều khiển các thành phần trên máy

Trang 15

tính Chúng tôi tập trung nghiên cứu kĩ thuật lập trình trên Windows để

truy cập các thông tin các đối tượng Windows và mô tả lại bằng tiếng nói

cho người khiếm thị Với công cụ này người khiếm thị có thể sử dụng máy

tính soạn thảo văn bản, sử dụng các chương trình phục vụ học tiếng Anh

- Ph ần mềm giáo trình học tiếng Anh cho người khiếm thị: Qua phân tích

các cấu trúc và phương pháp học tiếng Anh, chúng tôi xây dựng phần mềm

dựa trên giáo trình học tiếng Anh sẵn có nhằm giúp người khiếm thị dễ

dàng học tiếng Anh

Sản phNm đề tài bao gồm 3 thành phần chính:

- Bộ phát âm tiếng Việt dựa trên nghiên cứu mạng nơ-ron

- Phần mềm Từ điển Anh – Việt

- Phần mềm đọc màn hình

- Phần mềm Giáo trình học tiếng Anh

Trong báo cáo này chúng tôi trình bày thành ba phần theo từng nội dung sản phNm

của đề tài

Trang 16

1.1 T ổng hợp tiếng nói nhân tạo

Tổng hợp tiếng nói là quá trình tạo ra lời nói một cách tự động từ văn bản Một hệ

thống tổng hợp tiếng nói (speech synthesis) hay còn gọi là bộ phát âm là một hệ thống cho

phép chuyển đổi một cách tự động văn bản có nội dung bất kỳ thành lời nói

(Text-To-Speech, viết tắt là TTS) [13]

1.1.1 Ki ến trúc của một hệ thống tổng hợp tiếng nói

Hình 1 C ấu trúc tổng quát của một bộ phát âm

Một hệ thống tổng hợp tiếng nói về cơ bản sẽ có 2 thành phần gồm: Khối phân tích

xử lý ngôn ngữ tự nhiên và khối xử lý tổng hợp tiếng nói

Khối phân tích xử lý ngôn ngữ tự nhiên (NLP: Natural Language Processing) nhận

vào một chuỗi các ký tự văn bản, thực hiện các tiền xử lý (pre-processing), phân tích hình

thái (morphological analysis), phân tích cấu trúc ngữ pháp của văn bản, xác định cách đọc

nội dung văn bản với thông tin ngữ âm và ngữ điệu tương ứng

Khối xử lý tổng hợp tiếng nói (DSP: Digital Signal Processing) thực hiện việc tổng

hợp tạo ra tín hiệu tiếng nói tương ứng với nội dung văn bản theo các thông tin ngữ âm và

ngữ điệu do khối phân tích xử lý ngôn ngữ tự nhiên cung cấp

Trang 17

1.1.2 X ử lý ngôn ngữ tự nhiên

Nhiệm vụ của khối xử lý ngôn ngữ tự nhiên là phát sinh các thông tin về ngữ âm và

ngữ điệu cho việc đọc văn bản đầu vào Thông tin ngữ âm cho biết những âm nào sẽ được

phát ra, thông tin ngữ điệu mô tả điệu tính của các âm được phát Việc xử lý ngôn ngữ tự

nhiên bao gồm nhiều bước phức tạp như: chuNn hóa văn bản, phân tích cú pháp, phân tích

ngữ cảnh và ngữ nghĩa, phát sinh thông tin ngữ âm và ngữ điệu

Việc chuNn hóa văn bản khá phức tạp và tùy thuộc vào từng ngôn ngữ khác nhau

Công đoạn này bao gồm các xử lý như: làm sạch văn bản bằng cách loại bỏ những nội

dung không cần thiết, định dạng lại văn bản cho phù hợp với yêu cầu của các xử lý tiếp

theo

Xử lý phân tích cú pháp nhằm nhận biết các thành phần trong văn bản Cùng với việc

phân tích ngữ cảnh và ngữ nghĩa của các thành phần văn bản sẽ cho phép phát sinh các

thông tin ngữ âm và ngữ điệu phù hợp Ví dụ: nhận biết các thành phần như chữ số, tùy

ngữ cảnh chữ số có thể là số điện thoại hoặc số tiền, số ký hiệu… mà sẽ phát sinh cách

phát âm khác nhau (chẳng hạn: “0953951116” sẽ được phát âm thành “không chín năm, ba

chín năm, một một một sáu”, “1000000000” sẽ được phát âm thành “một tỷ”); chữ viết tắt

“HTX” sẽ được phát âm thành “hợp tác xã”…

Xử lý xác định các thông tin ngữ điệu đóng vai trò đặc biệt quan trọng quyết định

chất lượng của tiếng nói tổng hợp Đây là vấn đề rất khó khăn phức tạp vì nó phụ thuộc

vào nhiều yếu tố nằm ngoài văn bản như: ý nghĩa ngữ cảnh của câu nói, trạng thái tình cảm

của người nói…

1.1.3 Ng ữ điệu trong tiếng nói tổng hợp

Ngữ điệu trong tiếng nói được thể hiện ở: cao độ, cường độ, trường độ và khoảng

ngừng của tiếng nói

Cao độ, độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm thanh Đối

với tiếng nói, tần số dao động của dây thanh âm quy định độ cao giọng nói của con người

Tiếng nói gồm nhiều dao động âm thanh có tần số khác nhau kết hợp lại, trong đó tần số

thấp nhất chính là tần số cơ bản F0 và cũng chính là tần số dao động của dây thanh Mỗi

người có một độ cao giọng nói khác nhau, độ cao của nữ giới thường cao hơn nam giới và

Trang 18

độ cao của trẻ em thường cao hơn của người lớn Cao độ giọng nói cũng thay đổi với

những trạng thái biểu lộ xúc cảm khác nhau Cao độ là yếu tố cơ bản tạo nên những hiện

tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm, và cả trọng âm

Cường độ là độ to nhỏ của âm thanh Cường độ càng lớn thì âm thanh có thể truyền

đi được càng xa Xét trên phương diện sóng cơ học thì cường độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng của sóng âm Cường độ âm thanh được đo bằng đơn vị decibel (dB) Cường độ là yếu tố chính tạo nên hiện tượng trọng âm

Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm Nó tạo nên sự tương

phản giữa các bộ phận của lời nói Tốc độ phát âm được quy định bởi đặc điểm cá nhân

của người nói, phong cách và hoàn cảnh phát âm Tốc độ lời nói còn phụ thuộc vào nội

dung câu nói

Khoảng ngừng được hiểu là chỗ lặng về âm học và chỗ ngừng về cấu âm Chức năng

của khoảng ngừng là tạo nên ranh giới giữa các phần khác nhau của câu, tách đơn vị ngữ

pháp này với đơn vị ngữ pháp khác và thể hiện mối quan hệ giữa chúng

Tùy tính chất của mỗi ngôn ngữ khác nhau và mức độ yêu cầu chất lượng ngữ điệu

cho bộ phát âm, việc xử lý ngữ điệu có thể được thực hiện ở nhiều mức độ, từ mức hoàn

toàn không xử lý ngữ điệu đến mức chỉ xử lý một số hoặc tất cả các yếu tố ngữ điệu

1.1.4 X ử lý tổng hợp tín hiệu tiếng nói

Bộ xử lý tổng hợp tín hiệu tiếng nói đảm trách thực hiện việc tổng hợp tạo ra tín hiệu

tiếng nói từ các thông tin ngữ âm và ngữ điệu do khối phân tích xử lý ngôn ngữ tự nhiên

cung cấp Chất lượng tiếng nói tổng hợp được có hai tính chất quan trọng là: mức độ tự

nhiên và mức độ dễ nghe Mức độ tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau

giữa giọng nói tổng hợp và giọng nói tự nhiên của con người Mức độ dễ nghe chỉ đến việc

câu phát âm có thể hiểu được dễ dàng không Một hệ thống tổng hợp giọng nói lý tưởng

cần phải vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng hệ thống tổng hợp giọng nói là

làm gia tăng đến mức tối đa hai tính chất này Có nhiều phương pháp tổng hợp giọng nói

khác nhau được sử dụng, một số thiên về mức độ dễ nghe hơn hoặc mức độ tự nhiên hơn,

tùy thuộc vào mục đích mà các phương pháp được lựa chọn Có hai phương pháp chính

Trang 19

thường được dùng là tổng hợp ghép nối và tổng hợp cộng hưởng tần số, ngoài ra cũng có

các phương pháp khác

1.2 M ột vài đặc điểm của tiếng việt, ngữ âm, ngữ điệu

1.2.1 M ột vài đặc điểm của tiếng Việt

Tiếng Việt là ngôn ngữ được xếp vào loại hình đơn lập (isolate) hay còn được gọi là

loại hình phi hình thái, không biến hình, đơn tiết Tiếng Việt có một vài đặc điểm chính

như sau [1]:

• Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ pháp

nằm ở ngoài từ

• Phương thức ngữ pháp chủ yếu là trật tự từ và hư từ

• Tồn tại một loại đơn vị đặc biệt là “hình tiết” mà vỏ ngữ âm của chúng

trùng khít với âm tiết, và đơn vị đó cũng chính là “hình vị tiếng Việt” hay

còn gọi là “tiếng” (tiếng Việt sử dụng khoảng 10.000 tiếng)

• Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng như các

thứ tiếng biến hình khác Ví dụ: “học sinh học sinh học” Điều này khiến

cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn Việc nhận

diện ranh giới từ là quan trọng làm tiền đề cho các bài toán xử lý ngôn ngữ

tiếp theo sau đó như kiểm lỗi chính tả, gán nhãn từ loại, …

• Tồn tại loại từ đặc biệt “từ chỉ loại” (classifier) hay còn gọi là phó danh từ

chỉ loại đi kèm với danh từ, như: cái bàn, cuốn sách, bức thư, …

• Về mặt ngữ âm học, các âm tiết tiếng Việt đều mang một trong 6 thanh điệu

(ngang, sắc, huyền, hỏi, ngã, nặng) Đây là âm vị siêu đoạn tính

• Có hiện tượng láy trong từ tiếng Việt, như: lấp lánh, lung linh,… Ngoài ra

còn có hiện tượng nói lái (do mối liên kết giữa phụ âm đầu và phần vần

trong âm tiết là lỏng lẻo), như: “biệt thự” láy thành “bự thiệt”, “cá đối” láy

thành “cối đá”,

Trang 20

1.2.2 Ng ữ âm tiếng Việt

Trong ngữ âm tiếng Việt các âm tố cấu tạo thành âm tiết về mặt chức năng gồm có

[4]:

• Phụ âm: là yếu tố đi kèm, không tạo thành âm tiết (trừ các phụ âm vang)

• Nguyên âm: thường làm hạt nhân hay đỉnh của âm tiết

• Bán nguyên âm: là những âm tố có đặc tính giống nguyên âm nhưng thường chỉ

đi kèm, bản thân không tạo thành âm tiết được, như: các âm tố được viết thành

u, i, trong các âm tiết “sau”, “mai”

• Thanh điệu: các âm tiết tiếng Việt đều mang một trong 6 thanh điệu gồm:

ngang, sắc, huyền, hỏi, ngã, nặng

Người ta thường định nghĩa âm vị là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ,

dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ -

từ và hình vị Ví dụ: tôi và đôi, ta và đa của tiếng Việt phân biệt nhau bởi các âm vị /t/ và

/d/

Âm tiết là đơn vị phát âm nhỏ nhất, được phân định tự nhiên trong lời nói con người

Về phương diện phát âm, dù lời nói chậm đến đâu cũng chỉ phân chia được đến giới hạn

của âm tiết mà thôi Nhưng về mặt thính giác thì âm tiết là một tổ hợp âm thanh có thể bao

gồm nhiều âm tố hoặc đôi khi chỉ có một âm tố

Về mặt ngữ âm học, các cứ liệu thực nghiệm cho thấy âm tiết tiếng Việt được cấu tạo

bởi 3 thành tố độc lập là thanh điệu, phụ âm đầu và thành phần còn lại

Thanh điệu là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt Tính chất độc lập về

mặt ngữ âm của thanh điệu thể hiện ở chỗ nó có đường nét và trường độ tương đối ổn định

tùy thuộc các loại hình âm tiết

Phụ âm đầu là yếu tố mở đầu của âm tiết Tính chất độc lập của phụ âm đầu thể hiện

ở chỗ nó không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết

Phần còn lại của âm tiết còn được gọi là phần vần, có từ một đến ba yếu tố, gồm một

bán nguyên âm chiếm vị trí trung gian giữa phụ âm đầu và phần còn lại, một nguyên âm

âm tiết tính và một phụ âm hoặc bán nguyên âm cuối, có vai trò kết thúc âm tiết Trừ bán

Trang 21

• Bậc một là những yếu tố độc lập về mặt ngữ âm và có thể được tách rời về

mặt hình thái học, đó là: thanh điệu, âm đầu và vần

• Bậc hai là các yếu tố của phần vần, gồm bán nguyên âm trước nguyên âm

âm tiết tính (được gọi là âm đệm), nguyên âm âm tiết tính (được gọi là âm

chính), phụ âm hoặc bán nguyên âm cuối (được gọi là âm cuối) Các yếu tố

này gắn liền với nhau về mặt ngữ âm do tính chất cố định về trường độ của

âm tiết và chỉ được tách ra bằng những ranh giới thuần túy ngữ âm học

Các thành tố của âm tiết tiếng Việt và quan hệ hai bậc giữa các thành tố có thể được

trình bày như lược đồ sau:

THANH ĐIỆU

Âm đầu

Vần

Âm đệm Âm chính Âm cuối

Hình 2 C ấu trúc của âm tiết tiếng Việt

1.2.3 Ng ữ điệu trong tiếng Việt

Trong chuỗi lời nói, mỗi câu thường được thể hiện như một chỉnh thể toàn vẹn về

ngữ âm, được tách ra giữa hai chỗ ngừng giọng Hình thức ngữ âm của câu được gọi là ngữ điệu câu Ngữ điệu có hai mặt:

Ngữ điệu giao tiếp: là ngữ điệu thể hiện những kiểu câu khác nhau như câu kể, câu

hỏi, câu cảm thán, câu cầu khiến và biểu hiện mối quan hệ giữa các câu, thông báo câu đã

kết thúc chưa, hay phân chia các câu thành các bộ phận nhỏ hơn, các ngữ đoạn…

Ngữ điệu tình thái: là ngữ điệu biểu hiện một sắc thái tình cảm nào đấy, phù hợp với

trạng thái cảm xúc của người nói (vui, buồn, giận, âu yếm, mỉa mai…) Ngữ điệu tình thái

Trang 22

không nhất thiết phải liên quan đến nội dung ý nghĩa của câu Cùng một câu, một ý nghĩa

ấy có thể được thông báo với nhiều cảm xúc khác nhau

Ngữ điệu gồm có những thành tố:

• Âm điệu: Âm điệu là đặc điểm của sự biến thiên tần số thanh cơ bản trong

quá trình phát âm một âm tiết Sự biến thiên này được gọi là đường nét âm điệu, nó có thể bằng phẳng hoặc không bằng phẳng Dựa vào đặc trưng này

có thể phân các thanh điệu tiếng Việt thành 2 nhóm bằng và trắc Thanh

ngang và thanh huyền là những thanh bằng Chúng có âm điệu bằng phẳng

hoặc hơi đi xuống Các thanh ngã, hỏi, sắc và nặng là những thanh trắc

Chúng có đường nét âm điệu phức tạp và giới hạn biến đổi rất rộng

• Cường độ: Chức năng cơ bản của cường độ là làm nổi bật một bộ phận quan

trọng nào đó trong câu, thể hiện qua kiểu loại trọng âm (trọng âm câu hay

ngữ đoạn, trọng âm logic…

• Trường độ: Được hiểu là tốc độ phát âm Tốc độ phát âm được quy định bởi đặc điểm cá nhân của người nói, phong cách và hoàn cảnh phát âm Tốc độ

lời nói còn phụ thuộc vào nội dung câu nói

• Chỗ ngừng: Được hiểu là chỗ lặng về âm học và chỗ ngừng về cấu âm Đôi

khi không có hai đặc điểm trên nhưng người nghe cảm nhận có chỗ ngừng,

đó là chỗ ngừng tâm lý Chức năng của chỗ ngừng là tạo nên ranh giới giữa

các phần khác nhau của câu, tách đơn vị ngữ pháp này với đơn vị ngữ pháp

khác và thể hiện mối quan hệ giữa chúng Chỗ ngừng có thể truyền đạt được

những sắc thái tình cảm Sự im lặng có tác dụng truyền cảm, đó chính là sự

ngắt giọng tâm lý Nó có vị trí đáng kể trong việc đọc, kể chuyện văn học và

diễn xuất…

• Âm sắc: Được hiểu là chất lượng của giọng, thể hiện qua mối quan hệ phức

tạp giữa tần số âm cơ bản và các thượng âm, độ vang, độ rõ của giọng… Âm

sắc dùng để thể hiện mặt tình thái của ngữ điệu

Trang 23

Trọng âm là sự nêu bật một số đơn vị nào đó so với những đơn vị khác trong chuỗi

lời nói Trọng âm câu nêu bật một từ trong câu, còn trọng âm từ nêu bật một âm tiết trong

từ Phương tiện để nêu bật đơn vị có trọng âm khác nhau trong các ngôn ngữ có thể là độ

cao, độ mạnh, độ dài của âm tiết hoặc sự phát âm rõ ràng các nguyên âm, phụ âm và các

yếu tố khác cấu thành âm tiết Trọng âm trong tiếng Việt tuy tồn tại nhưng không điển hình

và có nội dung không hoàn toàn giống khái niệm trọng âm trong các ngôn ngữ phi âm tiết

tính Trong tiếng Việt có các trọng âm câu, trọng âm ngữ đoạn, trọng âm logic…

1.3 Nh ững khó khăn trong tổng hợp tiếng nói

Trong quá trình xây dựng bộ phát âm, để hệ thống có thể tổng hợp được tiếng nói

một cách chính xác và có ngữ điệu tự nhiên chúng ta cần phải xác định đúng các thông số

về ngữ âm và ngữ điệu cần thiết Việc xác định chính xác các thông số này thường gặp

nhiều khó khăn do những nguyên nhân hạn chế như:

• Văn bản viết thường rất đa dạng và phong phú về các thành phần nội dung

như chữ, các loại số, ngày tháng, các ký hiệu, chữ viết tắt… để chuyển được

văn bản thành các âm tiết tiếng nói phù hợp đòi hỏi nhiều xử lý phân tích văn

bản phức tạp và khó có được độ chính xác cao

• Ngữ điệu của tiếng nói tự nhiên phụ thuộc nhiều vào ngữ cảnh khi nói, trong

nội dung văn bản thường không chứa đựng đầy đủ những thông tin ngữ cảnh

khi nói

• Đối với những người khác nhau sẽ thể hiện tiếng nói với những sắc thái ngữ điệu khác nhau

• Ở những trạng thái cảm xúc khác nhau của người nói, cùng một câu khi nói

sẽ thể hiện những ngữ điệu rất khác nhau

• Các yếu tố ngữ điệu phụ thuộc nhiều vào nội dung, cấu trúc ngữ pháp và ý

nghĩa của văn bản Việc phân tích các tri thức ngôn ngữ này đối với tiếng

Việt còn nhiều hạn chế

Ngoài ra để tạo được tín hiệu tiếng nói với chất lượng rõ ràng dễ nghe với âm điệu tự

nhiên cũng gặp những khó khăn về tốc độ xử lý, khả năng lưu trữ… Chính vì những khó

Trang 24

khăn trên, hiện tại các thành quả tổng hợp tiếng nói tiếng Việt với chất lượng ngữ điệu tự

nhiên còn khá khiêm tốn và chưa được ứng dụng rộng rãi

2 CÁC CÔNG TRÌNH LIÊN QUAN

2.1 Các h ướng tiếp cận liên quan đến xử lý ngữ điệu

Trong tổng hợp tiếng nói nhân tạo, việc xử lý ngữ điệu được thực hiện trên các yếu

tố vật lý của tiếng nói gồm: tần số cơ bản F0, cường độ và trường độ Các hệ thống tổng

hợp tiếng nói hầu hết tập trung vào mục đích là tạo ra giọng nói với ngữ điệu bình thường,

có sự nhấn giọng hợp lý, nhịp điệu nhịp nhàng tự nhiên và bỏ qua các hình thái cảm xúc

của người nói Tùy tính chất của mỗi ngôn ngữ khác nhau mà các yếu tố ngữ điệu có mức

độ quan trọng khác nhau, và tùy mức độ yêu cầu chất lượng ngữ điệu của hệ thống mà việc

xử lý ngữ điệu có thể được thực hiện ở nhiều mức độ, từ mức hoàn toàn không xử lý ngữ điệu đến mức chỉ xử lý một số hoặc tất cả các yếu tố ngữ điệu Trong 3 yếu tố ngữ điệu

trên, yếu tố cường độ thường không được xử lý hoặc được xử lý cùng với tần số F0 Có

nhiều mô hình khác nhau được dùng để xử lý các yếu tố ngữ điệu trong tổng hợp tiếng nói,

mỗi mô hình đều có những ưu và khuyết điểm riêng và được trình bày thành 2 nhóm gồm:

các mô hình xử lý trường độ và các mô hình biểu diễn tần số cơ bản F0

2.1.1 Các mô hình x ử lý trường độ

Sau đây là một số mô hình phổ biến được dùng để xử lý trường độ:

2.1.2 Mô hình lu ật Klatt

Dennis Klatt đã đưa ra một mô hình dựa trên luật được sử dụng trong hệ thống

MITalk [34] Mô hình này được dùng để xác định trường độ các âm vị bằng công thức dựa

trên các thông tin ngữ âm có ảnh hưởng liên quan Theo đó, trường độ của âm vị khi tổng

hợp được xác định theo công thức như sau:

MINDUR

PRCNT MINDUR

INHDUR

100

*)

Trong đó:

DUR: trường độ cần xác định của âm vị

INHDUR: trường độ của âm vị mẫu

Trang 25

MINDUR: trường độ âm vị ngắn nhất

PRCNT: Tỉ lệ biến đổi trường độ được xác định dựa vào các luật

Để xác định tham số PRCNT, Dennis Klatt sử dụng 10 luật kết hợp với nhau dựa trên

các yếu tố ngữ cảnh của âm vị như sự nhấn giọng, mức độ nhấn giọng, v.v… Cũng như các

mô hình dựa trên luật khác, các luật Klatt và các thông số được xác định một cách thủ công

qua một quá trình thử sai Phần mềm đọc tiếng Việt VnSpeech [8] của tác giả Lê Hồng

Minh xác định trường độ dựa trên mô hình này [6]

2.1.3 Mô hình Sums-of-Products

Jan van Santen đã đưa ra mô hình sums-of-products với các công thức có dạng tổng

của các tích để tính trường độ của một âm vị được biểu diễn bởi vector đặc trưng d như sau

d S d

(2.2)

Trong đó:

dj: thành phần thứ j của vector đặc trưng d

Si,j: là một hệ số tương ứng với đặc trưng j, và mối liên hệ giữa hai đặc

trưng i,j

K: tập các chỉ số tương ứng với các chuỗi tích

Ii: tập các hệ số tương ứng với chuỗi tích i

Mô hình này về cơ bản là một sự tổng quát hóa của một số mô hình đã có như mô

hình luật Klatt Nó được ứng dụng bằng cách xây dựng một cây với các nút lá tách không

gian đặc trưng thành các lớp con thuần nhất mà có thể được biểu diễn bởi một công thức

sums-of-products riêng biệt Công việc này được thực hiện một cách thủ công dựa trên các

kiến thức ngôn ngữ học và phân tích ngữ liệu

2.1.4 Mô hình cây phân l ớp và hồi quy (CART)

Mô hình cây phân lớp và hồi quy (Classification and Regression Trees) là mô hình

tiêu biểu được dùng khá phổ biến để xác định yếu tố ngữ điệu trong các hệ tổng hợp tiếng

Trang 26

nói như Festival [45] Mô hình này về cơ bản là một cây phân lớp nhị phân với đầu vào là

các âm vị và vector các thuộc tính đặc trưng của nó được đưa vào từ nút gốc, sau đó âm vị được chuyển đi theo các nhánh thỏa mãn các luật tương ứng tại mỗi nút con cho đến khi

gặp nút lá Trị số ở các nút lá sẽ cho phép xác định thông số ngữ điệu của âm vị tương ứng

Việc huấn luyện cây được thực hiện với một tập ngữ liệu mẫu với input và output được xác định sẳn Trong quá trình huấn luyện các luật phân lớp ở các nút sẽ được xây

dựng tự động Sau khi huấn luyện, cây hầu như sẽ cho kết quả chính xác đối với những

mẫu đã huấn luyện, tuy nhiên với những mẫu mới không có trong ngữ liệu huấn luyện thì

kết quả thường không chính xác Để khắc phục tình trạng quá luyện, việc “tỉa nhánh” được

thực hiện bằng cách chọn cắt bớt những nhánh gây nên tình trạng quá luyện bằng cách thử

với tập mẫu dữ liệu chưa được huấn luyện Mô hình này được áp dụng trong phần mềm đọc tiếng Việt VnVoice [11][21]

2.1.5 Mô hình m ạng Nơ-ron:

Campbell [43] đã đề xuất mô hình mạng nơ-ron để xác định độ dài âm tiết và sau đó

chỉnh độ dài các âm vị cho khớp với âm tiết đó Mạng nơ-ron được chọn sử dụng chủ yếu

vì nó có khả năng học được các mối liên hệ Nn chứa bên trong các yếu tố đặc trưng ngữ

cảnh và có khả năng dự đoán tốt các mẫu chưa xuất hiện trong ngữ liệu huấn luyện

Để xác định độ dài âm tiết, Campbell xây dựng một vector đặc trưng cho âm tiết gồm

các thuộc tính: số lượng âm vị, cấu trúc hạt nhân của âm tiết, vị trí nhóm thanh điệu, kiểu

chân, mức nhấn, loại từ (chức năng hoặc nội dung) Các mạng được huấn luyện với một

tập ngữ liệu mẫu với input là các âm vị cùng với vector các thuộc tính đặc trưng ngôn ngữ

của nó và output là thông số trường độ tương ứng Sau đó trường độ của âm tiết sẽ được

xác định bằng cách thực thi mạng nơ-ron đã huấn luyện với input là vector đặc trưng của

âm tiết Mạng nơ-ron cho kết quả tốt đối với những mẫu đã huấn luyện và có khả năng dự đoán khá tốt cho những mẫu mới chưa xuất hiện trong ngữ liệu huấn luyện Do tính chất

này mà mô hình mạng nơ-ron được sử dụng khá phổ biến trong các hệ tổng hợp tiếng nói

trên thế giới

Trang 27

2.2 Các mô hình bi ểu diễn tần số cơ bản

Sự biến đổi tần số cơ bản F0 trong âm tiết quyết định chủ yếu hiện tượng thanh điệu

của âm tiết, tần số F0 cũng đóng vai trò tạo nên hiện tượng trọng âm Đối với các ngôn ngữ

như tiếng Anh, việc xác định sai trọng âm và cao độ của âm tiết sẽ dẫn đến việc hiểu sai

nội dung của lời nói Vì vậy đối với các ngôn ngữ như tiếng Anh vấn đề xử lý đường biểu

diễn tần số F0 đóng vai trò đặc biệt quan trọng Trong tiếng Việt với các hệ tổng hợp ghép

nối, cao độ của âm tiết không ảnh hưởng nhiều đến nội dung của lời nói, tuy nhiên nó có ảnh hưởng đến chất lượng ngữ điệu và sự mượt mà của câu nói Sau đây là một số mô hình

biểu diễn tần số F0 phổ biến:

2.2.1 Mô hình ToBI (Tone and Break Indices)

Mô hình này được sử dụng rộng rãi và là nên tảng biểu diễn cấu trúc ngữ điệu cho

một số ngôn ngữ trên thế giới Nó dựa trên việc nghiên cứu chi tiết các hệ thống âm điệu

và mối liên hệ giữa cấu trúc âm điệu và ngữ điệu của ngôn ngữ cụ thể Mỗi dấu trọng âm được biểu diễn bởi không quá 2 điểm thể hiện sự tương phản một cách trừu tượng giữa âm

cao (H) và âm thấp (L) [42] Mục tiêu của hệ thống ToBI là mô tả một tập nhỏ nhất các

kiểu trọng âm

2.2.2 Mô hình Tilt

Mô hình này biểu diễn âm điệu trong hình dạng một chuỗi tuyến tính các sự kiện

trọng âm hoặc thanh điệu Mỗi sự kiện được xác định bởi các thông số liên tiếp biểu diễn

cường độ, trường độ và “độ nghiêng” (được đo bởi khung hình của sự kiện) [42]

2.2.3 Mô hình INTSINT (INTernational Transcription System for INTonation)

Mô hình này được đề xuất bởi Hirst và Di Cristo năm 1998 Đây là một hệ thống mô

tả âm điệu hệ thống hóa các mẫu tần số F0 sử dụng một tập trừu tượng các ký hiệu mô tả

thanh điệu Những ký hiệu này có thể có tính tuyệt đối hoặc tương đối Các ký hiệu {T, M,

B} ứng với (cao, trung bình, thấp) là các ký hiệu có tính tuyệt đối tượng trưng cho khoảng

biến đổi tần số F0 Các ký hiệu {H, S, L, U, D} ứng với (cao hơn, không đổi, thấp hơn,

tăng bậc, giảm bậc) là các ký hiệu có tính tương đối liên hệ với điểm trước đó Mỗi ký hiệu đại diện cho một điểm đích trong chuỗi ngữ âm sau đó được khai triển bởi giải thuật

Trang 28

MOMEL, giải thuật này cho phép mô phỏng tự động ngữ điệu tổng thể của đường biểu

diễn F0 bằng một dãy các điểm biểu diễn đường spline bậc 2 [42]

2.2.4 Mô hình Fujisaki

Mô hình Fujisaki được xây dựng với mục đích tạo ra đường biểu diễn F0 cho các từ

và câu tiếng Nhật Mô hình này được sử dụng rộng rãi trong các hệ tổng hợp tiếng nói và

áp dụng thành công cho rất nhiều ngôn ngữ khác như Anh, Pháp, Đức, Tây Ban Nha…

Fujisaki cho rằng đường biểu diễn F0 bao gồm 2 thành phần là ngữ điệu ngữ đoạn và ngữ điệu trọng âm Thông tin về ngữ điệu ngữ đoạn và ngữ điệu trọng âm sẽ là đầu vào cho mô

hình này và đầu ra của nó sẽ là một đường biểu diễn F0 hoàn chỉnh liên tục Thông tin ngữ điệu đoạn được cho dưới dạng hàm xung (impulse) và thông tin ngữ điệu trọng âm được

cho dưới dạng hàm bước (step)

Mô hình Fujisaki bao gồm 2 bộ lọc Một bộ lọc cho thành phần ngữ đoạn và một bộ

lọc cho thành phần trọng âm Fujisaki đã chứng minh rằng mô hình của mình có thể mô

phỏng chính xác đường F0 nếu như các tham số đầu vào được lựa chọn một cách thích hợp

[42] Phần mềm VnVoice [11] [23] đã áp dụng mô hình này

2.3 Các h ướng tiếp cận tổng hợp tín hiệu tiếng nói

Để tổng hợp tín hiệu tiếng nói hiện nay có nhiều phương pháp tiếp cận với những ưu

khuyết điểm khác nhau như sau:

Hướng tiếp cận mô phỏng trực tiếp cố gắng xây dựng mô hình tổng hợp tiếng nói

bằng cách bắt chước theo mô hình hoạt động của bộ phát âm con người với sự phối hợp

các hoạt động của các thành phần như phổi, thanh quản, yết hầu, môi, lưỡi… Hướng tiếp

cận này về mặt lý thuyết hứa hẹn khả năng tạo ra được tiếng nói có chất lượng tốt nhất, tuy

nhiên việc mô phỏng hoàn chỉnh các thành phần để tạo ra được tiếng nói có chất lượng tốt

thì cần phải thực hiện những cài đặt rất phức tạp đòi hỏi khả năng xử lý tính toán rất cao

nên hiện tại nó không được quan tâm nhiều so với các hướng tiếp cận khác (Rahim et al

1993[28])

Hướng tiếp cận tổng hợp formant dựa trên cơ sở lý thuyết âm học của quá trình tạo

tiếng nói Phổ biến nhất hiện nay là mô hình nguồn-lọc (source-filter model) tạo tín hiệu

tiếng nói Mô hình này mô phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng

Trang 29

một tập các bộ lọc Các bộ lọc này còn được gọi là các bộ cộng hưởng formant, chúng có

thể được kết hợp song song hoặc nối tiếp với nhau hoặc kết hợp cả hai Qua thực nghiệm,

người ta nhận thấy để có thể tạo ra tiếng nói có thể nghe được cần tối thiểu là 3 bộ lọc, còn

để tạo ra tiếng nói có chất lượng cao thì phải cần ít nhất là 5 bộ lọc Vào năm 1980, Dennis

Klatt [29] đề nghị một mô hình tổng hợp formant kết hợp cả hai cấu trúc song song và nối

tiếp Hệ thống này sử dụng một mô hình nguồn kích thích khá phức tạp Số tham số cho cả

hệ thống này lên đến 39 tham số, và để tạo ra liên lục từ bộ tổng hợp formant này các tham

số sẽ được cập nhật liên tục trong khoảng 10-20ms Ưu điểm của phương pháp này là dữ

liệu rất nhỏ, có khả năng điều khiển mềm dẻo các tham số âm học của tiếng nói Nhược điểm của phương pháp này là khó xây dựng, cần nghiên cứu sâu sắc về ngữ âm của ngôn

ngữ, phức tạp trong việc xác định các tham số điều khiển bộ tổng hợp, hạn chế về tính tự

nhiên, độ giống tiếng người của tiếng nói tạo ra Tiếng nói tự nhiên có nhiều đặc điểm hiện

chưa mô tả được, tuy nhiên các hệ hiện có đã tạo được tiếng nói chất lượng rất cao, không

khác tiếng người Phần mềm VnSpeech [8] tổng hợp tín hiệu tiếng nói theo hướng tiếp cận

này [5][7]

Hướng tiếp cận tổng hợp ghép nối tạo ra tín hiệu tiếng nói bằng cách ghép nối các đoạn tiếng nói tự nhiên được ghi âm từ trước Tùy thuộc vào đặc điểm của ngôn ngữ và ứng dụng, có nhiều lựa chọn khác nhau về độ dài của các đoạn tiếng nói để làm đơn vị

ghép nối Đơn vị ghép nối có thể là cả ngữ đoạn khi các ứng dụng là các thông báo với

khung cố định, chỉ có một phần thông tin thay đổi như tại các nhà ga hay bản tin thời tiết,

trả lời tự động một số thông tin qua điện thoại… Với các tình huống ứng dụng yêu cầu đọc

không hạn chế văn bản thì đơn vị ghép nối cần phải ngắn hơn, như từ, âm tiết, bán âm tiết

(demisyllables), âm vị kép (diphone) hay âm vị Có hai điểm trọng tâm chính của phương

pháp này là: (#1) Dữ liệu âm thanh các đơn vị ghép nối cần đủ để có thể ghép được mọi

tình huống văn bản của ứng dụng, và (#2) làm trơn chỗ ghép nối và tạo sự liên tục về âm điệu trong cả đoạn tiếng nói tạo ra Yêu cầu (#1) liên quan đến kích thước dữ liệu và chất

lượng của tiếng nói tạo ra Đơn vị được lựa chọn dài thì tiếng nói tổng hợp sẽ rõ tiếng dễ

nhận biết nhưng kém linh hoạt trong việc biến đổi ngữ điệu đồng thời cần phải có cơ sở dữ

liệu lớn Đơn vị được lựa chọn ngắn như âm vị thì dữ liệu rất nhỏ nhưng sẽ rất khó tạo được tiếng nói có chất lượng rõ tiếng dễ nhận biết Yêu cầu (#2), kỹ thuật PSOLA (Pitch

Synchronous OverLap Add) do France Telecom CNET (Centre National d'Etudes

Trang 30

Télécommunications) [30] đề xuất, gồm các phiên bản miền thời gian (TD-PSOLA), miền

tần số (FD-PSOLA) hay dự đoán tuyến tính (LP-PSOLA) giải quyết hiệu quả việc làm trơn điểm ghép nối và biến đổi trong phạm vi nhỏ cao độ và trường độ Ưu điểm của phương

pháp này là dễ xây dựng, tiếng nói tạo ra có độ tự nhiên, giống tiếng người và nhược điểm

của nó là dữ liệu lớn, không mềm dẻo khi cần thay đổi giọng nói (cần phải tạo tại cơ sở dữ

liệu đơn vị ghép nối mới) và phạm vi điều khiển các tham số âm học hạn chế Phần mềm

VnVoice[11] theo hướng ghép bán âm tiết [21]; phần mềm nhu liệu đọc tiếng Việt

VietVoice[9] và một số sản phNm tổng hợp tiếng Việt bằng cách ghép âm tiết như phần

mềm đọc tiếng Việt Sao Mai [10]

Tổng hợp tiếng nói dựa trên mô hình mã hóa dự đoán tuyến tính LPC (Linear

Predictive Coding) [31] Phương pháp này đòi hỏi cung cấp cho nó các thông số như tần số

cơ bản: âm hữu thanh/vô thanh, hệ số tỉ lệ và tập các hệ số dự báo tuyến tính Những hệ số

này cần được cập nhật đồng bộ với sự thay đổi của cao độ tiếng nói Ưu điểm của phương

pháp này là dữ liệu nhỏ gọn và có thể mô phỏng ngữ điệu khá tốt Khuyết điểm là chất

lượng âm thanh không được tốt và cần nhiều xử lý tính toán

Tổng hợp tiếng nói dựa trên HMM (Hidden Markov Model) [32][33][34], là một

phương pháp dựa vào mô hình Markov Nn Trong hệ thống này, phổ tần số của giọng nói,

tần số cơ bản, và thời lượng đều được mô phỏng cùng lúc bởi HMM Với một chuỗi văn

bản được đưa vào, các thông số tổng hợp tiếng nói và tín hiệu tương ứng được xác định bởi

các HMM đã được huấn luyện dựa trên tiêu chí khả thực cực đại Ưu điểm của phương

pháp này là cần ít bộ nhớ, có thể điều chỉnh ngữ điệu Khuyết điểm của nó là cần nhiều xử

lý tính toán tín hiệu số nên chất lượng âm thanh còn chưa được tốt và giống tiếng robot

Trong các phương pháp tiếp cận trên, phương pháp tổng hợp formant và tổng hợp

ghép nối được sử dụng khá phổ biến trong các hệ thống tổng hợp tiếng nói hiện nay Trước đây các hệ thống tổng hợp format từng chiếm ưu thế trong một thời gian khá lâu do lợi thế

về kích thước dữ liệu cần lưu trữ so với phương pháp tổng hợp ghép nối Ngày nay với sự

phát triển nhanh chóng của công nghệ lưu trữ dữ liệu, phương pháp tổng hợp ghép nối

ngày càng chiếm ưu thế và được sử dụng phổ biến hơn do tính đơn giản và có lợi thế là

chất lượng tiếng nói tự nhiên hơn

Trang 31

2.4 Nh ận xét về các hướng tiếp cận

Với các hướng tiếp cận đã trình bày trong phần 2.1.1, chúng tôi nhận thấy hướng tiếp

cận dùng mô hình luật Klatt tuy dễ cài đặt nhưng khó xây dựng được đầy đủ các luật để

xác định chính xác các trường hợp trong thực tế Hướng tiếp cận dùng mô hình

Sums-of-products cho kết quả tốt hơn nhưng việc xây dựng các hệ số cho các đặc trưng và phân lớp

các công thức đòi hỏi nhiều công sức và kiến thức chuyên môn Mô hình CART cài đặt đơn giản, cho kết quả tương đối tốt nhưng có thể không đảm bảo tốt khả năng dự đoán các

mẫu chưa được huấn luyện

Mô hình sử dụng mạng nơ-ron chứng tỏ khả năng ưu việt với khả năng tự phát hiện

các mối liên hệ giữa các đặc trưng âm tiết ở đầu vào và các thông số ngữ điệu ở đầu ra Mô

hình này còn có khả năng dự đoán khá chính xác cho các mNu chưa được huấn luyện và

việc cài đặt cũng không phức tạp Do đó, chúng tôi chọn sử dụng mô hình này để xử lý xác

định các thông số ngữ điệu cho các âm tiết (Xem chương 3)

Đối với việc xử lý tần số cơ bản F0, mô hình Fujisaki thể hiện ưu điểm vượt trội và được ứng dụng rất thành công trong các hệ thống tổng hợp tiếng nói Tuy nhiên, do mức

độ ảnh hưởng của tần số F0 đối với bộ phát âm tiếng Việt không đòi hỏi quá nghiêm ngặt

so với các yếu tố còn lại nên chúng tôi tạm thời bỏ qua chưa xử lý yếu tố này Hệ thống sẽ

giữ nguyên cao độ của các âm tiết khi thực hiện tổng hợp ghép nối âm tiết

Phần xử lý tổng hợp tín hiệu tiếng nói, chúng tôi chọn cách tiếp cận ghép nối âm tiết

vì tính đơn giản trong xử lý, tiếng nói tổng hợp rõ ràng tự nhiên, kích thước dữ liệu lưu trữ

chấp nhận được đối với các hệ thống máy tính hiện tại Việc xử lý biến đổi ngữ điệu có thể được thực hiện với các kỹ thuật time-stretching và pitch-shifting [48] để biến đổi trường độ

và cao độ; cường độ được điều chỉnh dễ dàng bằng cách thay đổi biên độ tín hiệu (Xem

m ục 4.2.2)

Trang 32

3 MÔ HÌNH M ẠNG NƠ-RON XÁC ĐNNH CÁC THÔNG SỐ

3.1 S ơ lược về mạng nơ-ron

Ý tưởng đầu tiên xây dựng mạng nơ-ron nhân tạo giống mạng nơ-ron của con người

là của MC.Culloch và Pitts vào năm 1943 với nguyên lý là các nơ-ron có thể được mô hình

hóa như thiết bị ngưỡng giới hạn logic Đến nay đã có nhiều nghiên cứu phát triển mô hình

mạng nơ-ron và các ứng dụng của nó Về cơ bản mạng nơ-ron bao gồm một hệ thống các

phần tử đơn vị là các nơ-ron còn được gọi là nút được kết nối với nhau Khả năng xử lý

của mạng nơ-ron nằm ở các kết nối giữa các nơ-ron và trọng số của các kết nối đó Các kết

nối và trọng số tương ứng được xây dựng qua một quá trình huấn luyện với một tập dữ liệu

mẫu cho trước

3.1.1 C ấu trúc của một nơ-ron nhân tạo

Hình 3 C ấu trúc c ủa một nơ-ron nhân tạo

Cấu trúc của một nơ-ron nhân tạo có thể được mô tả như trong Hình 3

Trang 33

Hàm tác động h(f(i)) có thể là hàm tuyến tính hoặc phi tuyến Thông thường hàm tác

động được dùng là hàm sigmoid có dạng chữ S như Hình 4 với công thức như sau:

fe

f h

−

+

= 1

1 )

Hình 4 Đồ thị hàm sigmoid

Trang 34

3.1.2 Ki ến trúc mạng nơ-ron

Có nhiều kiểu kiến trúc mạng nơ-ron khác nhau nhưng thông dụng nhất là kiến trúc

mạng nơ-ron truyền thẳng nhiều lớp gồm một lớp input, một lớp output và một số lượng

lớp Nn tùy ý Tuy nhiên chỉ cần với một lớp Nn thì mạng nơ-ron đã có thể mô tả được mọi

hàm phi tuyến Theo Cybenco [46] thì bất kỳ hàm phi tuyến nào cũng có thể xấp xỉ tùy ý

trên một tập compact bằng mạng nơ-ron truyền thẳng gồm 2 lớp Nn với độ phi tuyến cố

định Như vậy khi xây dựng mạng nơ-ron trong xử lý, mạng 2 lớp Nn đủ khả năng xấp xỉ

một hàm bất kỳ mà không cần phải dùng nhiều lớp hơn gây phức tạp tính toán Hình 5

minh họa một mạng nơ-ron gồm một lớp input với n nút vào, 2 lớp Nn b1 và b2, một lớp

output b3 có 1 nút

Hình 5 Minh h ọa một kiến trúc mạng nơ-ron

Số lượng nút input là số tín hiệu đầu vào tương ứng với số lượng các đặc trưng input

của bài toán cần giải quyết, số lượng nút output tương ứng với số lượng các kết quả output

của bài toán Thông thường để cho việc huấn luyện được dễ dàng cho kết quả tốt, bài toán

sẽ được chia ra thành nhiều mạng riêng biệt chỉ có một nút output cho từng kết quả yêu

cầu

Trang 35

Tri thức của mạng nơ-ron được chứa đựng trong các trọng số giữa các mối liên kết

nơ-ron Khi mới khởi tạo các trọng số này thường được cho một giá trị mặc định hoặc ngẫu

nhiên Để có thể mô phỏng bài toán cần giải quyết, mạng phải được huấn luyện với các dữ

liệu mẫu để điều chỉnh các trọng số cho phù hợp Thuật toán huấn luyện được sử dụng cho

mạng truyền thẳng nhiều lớp là thuật toán lan truyền ngược Thuật toán này sẽ thực hiện điều chỉnh trọng số các kết nối bắt đầu từ lớp output lần ngược về hướng lớp input theo

tiêu chí cực tiểu hóa sự khác biệt giữa kết quả tính toán của mạng và dữ liệu huấn luyện

Khi huấn luyện mạng nơ-ron, nếu việc huấn luyện được thực hiện quá nhiều thì các

trọng số của mạng sẽ bị điều chỉnh để thích nghi quá mức với đặc thù của dữ liệu huấn

luyện làm mất tính tổng quát cho dữ liệu bài toán Khi này khả năng dự đoán cho các mẫu

chưa huấn luyện sẽ kém chính xác Để tránh tình trạng quá luyện thông thường dữ liệu được chia thành 2 phần, một phần dùng để huấn luyện và phần còn lại dùng để đánh giá

Một khi việc huấn luyện bắt đầu làm cho khả năng thích nghi với dữ liệu đánh giá có xu

hướng giảm đi qua khỏi một mức tối ưu thì sẽ được dừng lại

3.2 Xác định các thông số ngữ điệu cho bộ phát âm tiếng việt bằng mạng nơ-ron

Việc xác định các thông số ngữ điệu sẽ được tiếp cận theo hướng “học” từ ngữ liệu

tiếng nói tự nhiên với công cụ mạng nơ-ron Các thông số ngữ điệu của từng âm tiết trong

câu sẽ được các mạng nơ-ron xác định dựa vào vector mô tả đặc trưng cho âm tiết đó trong

ngữ cảnh câu, giá trị của vector đặc trưng này cần phải xác định được một cách tự động

trong quá trình xử lý văn bản

Như vậy để xây dựng hệ thống ta cần phải thực hiện những việc sau:

• Xây dựng vector đặc trưng phù hợp cho các âm tiết tiếng Việt trong ngữ cảnh

câu

• Xây dựng dữ liệu huấn luyện

Trang 36

• Thiết lập và huấn luyện các mạng nơ-ron

3.2.1 Vector mô t ả đặc trưng âm tiết trong ngữ cảnh câu

Với đầu vào của hệ thống là một câu văn bản, thành phần xử lý ngôn ngữ tự nhiên sẽ

chuyển đổi câu thành một dãy các âm tiết được phát âm Các thuộc tính đặc trưng cho âm

tiết trong ngữ cảnh câu được chọn bao gồm các thuộc tính có khả năng liên hệ ảnh hưởng đến các thông số ngữ điệu của âm tiết trong câu và giá trị các thuộc tính này phải xác định được một cách tự động

Đối với một âm tiết riêng biệt ta có các yếu tố đặc trưng cấu tạo hình vị gồm: phụ âm đầu, âm đệm (bán nguyên âm đầu), âm chính (nguyên âm), âm cuối (phụ âm hoặc bán

nguyên âm cuối) và dấu thanh (Hình 2) Các yếu tố này tác động trực tiếp đến các tính chất

âm học của âm tiết trong đó có các tính chất về cường độ và trường độ Biểu diễn hình vị

(con chữ) không hoàn toàn tương ứng 1-1 với âm vị, một âm vị có khi được ghi lại bằng

nhiều cách khác nhau, các vùng miền khác nhau có thể có cách phát âm khác nhau cho

cùng một con chữ [3] Do đó để hệ thống được linh hoạt, chúng tôi sử dụng biểu diễn hình

vị thay vì âm vị cho các yếu tố trên, các mạng nơ-ron sẽ tự khám phá mối liên hệ giữa các

yếu tố hình vị và thông số ngữ điệu tương ứng

Trong ngữ cảnh câu nói, bằng thực nghiệm ta thấy ngữ điệu của âm tiết còn phụ

thuộc vào mối liên hệ giữa nó với các âm tiết xung quanh, tính chất của ngữ đoạn chứa âm

tiết, vị trí âm tiết trong ngữ đoạn tương ứng [6] Ngoài ra ngữ điệu âm tiết còn phụ thuộc

vào các loại câu khác nhau

Thừa hưởng thành quả từ các nghiên cứu xử lý ngôn ngữ tự nhiên cho phép xác định

tự động ranh giới từ và từ loại tiếng Việt, chúng tôi xây dựng vector đặc trưng mô tả âm

tiết trong ngữ cảnh câu bao gồm:

• Các thuộc tính đặc trưng hình vị của: âm tiết hiện tại, âm tiết liền trước và

sau

• Số âm tiết của từ chứa: âm tiết hiện tại, âm tiết liền trước và sau

• Vị trí của âm tiết trong từ chứa nó

• Từ loại của từ chứa nó

Trang 37

• Loại câu

Như vậy, vector mô tả đặc trưng âm tiết trong câu được chọn bao gồm 21 thuộc tính

như trong Bảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng

(Giá trị Ø dùng cho các trường hợp hình vị âm tiết không có thành phần tương ứng và từ

loại không xác định):

B ảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng

01 Phụ âm đầu b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng,

nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø

03 Âm chính a, ă, â, e, ê, ia, iê, i, o, ô, ơ, ua, uô, u, ưa, ươ,

ư, ya, yê, y, Ø

07 Âm đệm của âm tiết trước o, u, Ø

08 Âm chính của âm tiết trước a, ă, â, e, ê, ia, iê, i, o, ô, ơ, ua, uô, u, ưa, ươ,

ư, ya, yê, y, Ø

09 Âm cuối của âm tiết trước ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø

10 Dấu thanh của âm tiết trước 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền,

hỏi, ngã, nặng)

11 Phụ âm đầu của âm tiết sau b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng,

nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø

12 Âm đệm của âm tiết sau o, u, Ø

13 Âm chính của âm tiết sau a, ă, â, e, ê, ia, iê, i, o, ô, ơ, ua, uô, u, ưa, ươ,

ư, ya, yê, y, Ø

14 Âm cuối của âm tiết sau ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø

15 Dấu thanh của âm tiết sau 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền,

hỏi, ngã, nặng)

Trang 38

16 Số âm tiết của từ chứa nó 1 4

17 Số âm tiết của từ chứa âm tiết trước 1 4

18 Số âm tiết của từ chứa âm tiết sau 1 4

19 Vị trí âm tiết trong từ chứa nó 0 3

20 Từ loại của từ chứa âm tiết N, V, I, E, J, X, A, C, P, Ø

Giá trị các thuộc tính đặc trưng này có thể xác định được một cách hoàn toàn tự động Đối với các thuộc tính liên quan đến đặc trưng hình vị của âm tiết và thuộc tính

“Loại câu” (các thuộc tính từ 1 đến 15 và 21 trong Bảng 1), giá trị của chúng có thể được

xác định dễ dàng bằng các xử lý đơn giản Đối với các thuộc tính còn lại (từ 16 đến 20), để

xác định giá trị thì cần phải có thông tin về ranh giới từ và từ loại Chúng tôi đã sử dụng

thư viện phần mềm tách từ và gán nhãn từ loại do nhóm VCL cung cấp [16][17] Đầu vào

là câu văn gồm các âm tiết sẽ đọc, đầu ra là ranh giới từ và từ loại của mỗi từ Một ví dụ xử

lý tách từ và gán nhãn từ loại như sau:

• Giả sử, với các âm tiết sẽ đọc gồm: (học), (sinh), (học), (sinh), (học)

• Ghép các âm tiết trên thành câu văn: “học sinh học sinh học ”

• Thực hiện xử lý tách từ và gán nhãn từ loại cho câu văn trên ta được chuỗi

chứa thông tin về ranh giới từ và tự loại như sau: “học_sinh/N học/V

sinh_học/N /.”

Sau khi xác định được các giá trị đặc trưng ta chuNn hoá chúng bằng cách ánh xạ về

miền giá trị số thực trong khoảng [0 1] theo công thức:

(V ị trí tính từ 0 của giá trị trong cột “Nội dung” Bảng 3.1)

Trang 39

+ Thuộc tính đặc trưng thứ 3 là “Nguyên âm” có giá trị là “y” (ứng với vị trí là 19) sẽ được chuNn hoá thành: 19 / (20 – 1) = 1

+ Thuộc tính đặc trưng thứ 5 là “Dấu thanh” có giá trị là dấu huyền (ứng với vị trí là

2) sẽ được chuNn hoá thành: 2 / (6 – 1) = 0,4

3.2.2 D ữ liệu huấn luyện

Dữ liệu huấn luyện được xây dựng dựa trên dữ liệu tiếng nói tự nhiên Tập dữ liệu

huấn luyện bao gồm tập hợp các mẫu dữ liệu huấn luyện, mỗi mẫu gồm chứa thông tin

vector đặc trưng của âm tiết trong ngữ cảnh câu và các thông số ngữ điệu tương ứng với nó

gồm: cường độ, trường độ và khoảng ngừng

Bộ dữ liệu được xây dựng qua các bước như sau:

• Thu âm dữ liệu tiếng nói tự nhiên của cùng một người với cùng một phong

cách ngữ điệu nhất định

• Với mỗi âm tiết trong chuỗi tiếng nói ta đánh dấu vị trí bắt đầu, vị trí kết thúc,

và nhãn tên của mỗi âm tiết Việc đánh dấu được thực hiện thủ công với sự

trợ giúp của công cụ phần mềm Transciber [49] (Hình 6) Cấu trúc nội dung

của dữ liệu đánh dấu được trình bày minh họa như trong Bảng 2:

B ảng 2 Minh họa cấu trúc nội dung của dữ liệu đánh dấu

V ị trí bắt đầu (giây) Âm ti ết

Trang 40

Từ các thông tin đánh dấu, ta dễ dàng xác định được các thông tin về trường độ các

âm tiết và khoảng ngừng sau mỗi âm tiết như sau:

• Trường độ âm tiết = Vị trí bắt đầu của dòng kế tiếp – Vị trí bắt đầu âm tiết

• Khoảng ngừng sau âm tiết:

bằng: 0, nếu dòng tiếp theo là một âm tiết

bằng: độ dài của <khoảng ngừng>, nếu dòng tiếp theo là <khoảng

ngừng>

Với thông số vị trí bắt đầu và trường độ của âm tiết, ta trích đoạn tín hiệu tiếng nói

tương ứng và tính được giá trị cường độ trung bình của âm tiết

Sau khi xác định được hết các giá trị cường độ, trường độ và khoảng ngừng cho tất

cả các âm tiết huấn luyện, ta thống kê và loại bỏ các giá trị biên có tần suất xuất hiện thấp

không đáng kể, ta được khoảng giá trị của các thông số ngữ điệu như sau:

• Cường độ: -35 -3 (dB)

• Trường độ: 50 550 (milisecond)

• Khoảng ngừng: 0 1000 (milisecond)

Định dạng
Số trang	196
Dung lượng	8,26 MB

phần mềm hỗ trợ người khiếm thị học tiếng anh

Thu nhận tham chiếu giao diện AccessibleObject