1. Các kết quả nghiên cứu bằng phần mềm WaveSufer
1.3.3. dài âm tiết trong ngữ đoạn
1.3.3.1 Thay đổi độ dài âm tiết do vị trí.
Vị trí của âm tiết trong ngữ đoạn là một trong những yếu tố ảnh hưởng đến độ dài của âm tiết. Các công bố trong tiếng Anh cũng như trong tiếng Việt là độ dài của âm tiết ở cuối ngữ đoạn dài ra. Việc kiểm nghiệm lại trong một số tình huống cho thấy những kết quả cụ thể hơn: khi âm tiết ở cuối ngữ đoạn thì giá trị độ dài tăng từ 25 đến 50% so với độ dài tự nhiên (độ dài của âm tiết khi ở giữa ngữ đoạn). Khi ở đầu ngữ đoạn thì tăng khoảng 5 đến 10 % so với độ dài tự nhiên.
1.3.3.2 Thay đổi độ dài âm tiết do tốc độ đọc.
Tốc độ đọc trung bình cho bộ tổng hợp được thiết đặt trước là 150 âm tiết/ 1 phút (được chủ ý làm chậm hơn người với mục đích tăng khả năng nghe rừ, tham số này có thể điều chỉnh được). Khi tăng tốc độ đọc thì độ dài của âm tiết và độ dài của các khoảng nghỉ đều được rút ngắn đi, và ngược lại. Quy tắc đơn giản sau được sử dụng để điều khiển độ dài ứng với thay đổi tốc độ: độ dài âm tiết được dự đoán cho tốc độ đọc bình thường và vị trí không đặc biệt, khi tăng tốc, giả sử 200 âm tiết trong 1 phút nghĩa là tốc độ đọc tăng thành 200/150=1,33, như vậy mỗi âm tiết sẽ phải giảm độ dài 33 % và ừm chớnh phải điều chỉnh độ dài như theo mục 1.3.1.
1.4 Trường độ các phần nghỉ
Khi đọc thành tiếng một đoạn văn bản tiếng Việt với một tốc độ đọc nào đó, sự phừn bố thời gian được dành cho phát ừm thành tiếng và dành cho các quãng nghỉ. Mỗi chúng ta khi đọc thành tiếng đều nhớ và vận dụng quy tắc: “dấu chấm nghỉ dài và dấu phẩy nghỉ ngắn”. Ngoài yếu tố cần thay đổi độ dài cho các quóng nghỉ thích hợp với tốc độ đọc, độ dài quóng nghỉ cũn thể hiện ngữ điệu và có thể dẫn đến hiểu một mệnh đề theo nhiều nghĩa khác nhau. Độ kéo dài quóng nghỉ cho các dấu cách có thể dẫn đến rất dễ gừy nên sự hiểu sai nghĩa của cả mệnh đề, đó là tình huống người nghe nhầm lẫn giữa nghỉ dấu cách với nghỉ dấu phẩy. Ví dụ, mệnh đề “mẹ con đi chợ chiều mới về”, tuỳ theo sự nghỉ dài hay ngắn sau âm tiết “mẹ” hoặc “chợ” sẽ tạo cho mệnh đề trên có những nội dung khác hẳn nhau. Nghiên cứu các quãng nghỉ chỉ cần thiết khi làm việc với ngữ đoạn, có 3 loại nghỉ (không có tín hiệu) trong tiếng Việt, đó là:
• Gặp các dấu chỉ hết đoạn, hết cừu như “chấm , phẩy, hỏi chấm, chấm than…”
• Gặp các từ nối đoạn như “ và, là, có nghĩa là,…” hoặc do người đọc cố tình nghỉ để nhấn mạnh hoặc tạo sự chú ý.
• Do chuyển từ âm tiết này sang âm tiết khác được biểu hiện bằng dấu cách
1.4.1. Nghỉ ứng với các dấu ngắt đoạn.
Không có yêu cầu chớnh xác và đặc biệt cho các giá trị này và sự thay
đổi giá trị của nó không ảnh hưởng đến nghĩa của cừu. Do vậy áp dụng trong tổng hợp là độ dài cho dấu chấm tương đương với độ dài trung bình của một âm tiết, độ dài của dấu phẩy bằng 50% độ dài của dấu chấm. Khi tốc độ đọc bình thường (150 âm tiết/1phút) thì dấu “.?!:;” nghỉ khoảng 400ms (bằng một âm tiết), dấu phẩy bằng khoảng 200ms.
Độ dài của các khoảng nghỉ này sẽ được thay đổi tăng lên hoặc giảm đi, tỷ lệ với tốc độ đọc tương ứng.
1.4.2. Nghỉ do chủ ý của người đọc
Tình huống này cần phải phừn tích ngữ pháp và phụ thuộc vào cảm nhận và ý muốn của người đọc. Trường hợp này cần những khảo sát và phừn tích ngữ pháp cũng như ngữ nghĩa tiếng Việt sừu hơn. Đõy là nội dung cần tiếp tục nghiên cứu cho tương lai.
1.4.3 Nghỉ ứng với các dấu cách
Đây chớnh là đặc điểm đơn âm tiết trong tiếng Việt, giữa các âm tiết không phừn biệt một từ hay hai từ đều có một dấu cách. Về cấu ừm, nó là thời gian cần cho sự chuyển đổi vị trí của các bộ phận trong bộ máy phát ừm và nguồn ừm. Sự thiết lập đơn giản một giá trị như nhau cho các dấu cách là nguyên nhừn làm cho tiếng nói tổng hợp có cảm giác đều đều vô cảm.
Phừn tích ngữ đoạn của tiếng nói tự nhiên cho thấy rằng, độ dài đoạn nghỉ ứng với các dấu cách khác nhau có giá trị khác nhau, mặc dù trong chữ viết được biểu diễn giống nhau. Tuy nhiên khi ta đọc thành tiếng nhiều lần cùng một đoạn văn bản với tốc độ và ngữ điệu tương đối như nhau thì các giá trị độ kéo dài kể trên vẫn luôn khác nhau. Do vậy, sử dụng khái niệm
độ dài tự nhiên của quóng nghỉ ứng với khoảng trống của các âm tiết. Độ dài này được xác định theo công thức sau:
Các khảo sát sơ bộ từ tiếng nói tự nhiên cho phép kết luận rằng: độ dài của âm tiết liền kề hay vị trí quóng nghỉ trong ngữ đoạn (đầu, giữa hay cuối) không phải là nguyên nhừn tạo nên sự thay đổi độ dài tự nhiên của các dấu cách. Độ kéo dài khoảng nghỉ của các âm tiết phụ thuộc chủ yếu là cặp 2 âm vị kết thúc của âm tiết trước và bắt đầu của âm tiết sau và cặp dấu thanh của âm tiết trước- âm tiết sau.
Để nghiên cứu ảnh hưởng các âm tiết liền kề đến độ dài khoảng trống, các âm tiết tiếng Việt được chia làm 3 nhúm theo các yếu tố được chọn làm đặc điểm phừn biệt, đó là theo dấu thanh, theo âm vị kết thúc và theo âm vị bắt đầu.
Phừn loại âm tiết tiếng Việt theo dấu thanh.
Bảng 23: Phừn loại âm tiết tiếng Việt theo thanh điệu Phừn loại âm tiết tiếng Việt theo âm vị kết thúc.
Phừn loại âm tiết tiếng Việt theo âm vị bắt đầu.
Bảng 25: Phừn loại âm tiết tiếng Việt theo âm vị bắt đầu
Để khảo sát quóng nghỉ ứng với quóng trống, đối tượng được chọn là cặp các âm tiết. Bảng sau liệt kê các luật thay đổi độ dài khoảng thời gian ứng với dấu cách được rút ra từ việc phừn tích tiếng nói tự nhiên.
Bảng 26: Sự biến đổi của quóng nghỉ giữa hai âm tiết kế cận
Độ dài tối thiểu của khoảng nghỉ là 0 ms, tối đa bằng ẵ giá trị thiết lập cho dấu “phẩy”. Thực tế trong tiếng nói tự nhiên có hiện tượng cấu ừm chồng lên nhau, đõy là một hướng nghiên cứu để tiếp tục nừng cao chất lượng tổng hợp tiếng nói.
2. Ảnh hưởng của vị trí ngữ đoạn đến độ dài âm tiết (Phần mềm Praat) (Phần mềm Praat)
Trong phần này em trình bày các kết quả nghiên cứu về ảnh hưởng của vị trí cừu đối với độ dài âm tiết. Kết quả nghiên cứu của em chỉ áp dụng cho đối tượng là câu trần thuật được trích chọn bằng phần mềm tự xừy dựng. CSDL
tiếng nói được lấy từ trung từm nghiên cứu tiếng nói MICA của 4 người thu ừm là nữ, giọng Bắc Bộ chuẩn. Phần mềm đo các thông số về độ dài của các âm tiết là Praat. Để tạo thuận lợi cho việc viết các modun tích hợp sau này các phép đo về độ dài âm tiết được dựa theo đường cong năng lượng, điểm bắt đầu và điểm kết thúc là tại các vị trí cực tiểu địa phương trên đường cong năng lượng.
Các kết quả nghiên cứu kiểm nghiệm cho thấy sự phù hợp với các nghiên cứu bằng phần mềm Wavesufer như ta đã nói ở trên.
Đó là trường độ âm tiết đứng ở cuối cừu luôn dài hơn khi nó đứng ở đầu cừu, hoặc giữa cừu. Trường độ của âm tiết đứng ở đầu cừu thường không sai khác nhiều so với khi đứng ở giữa cừu. Nếu ta lấy giá trị trung bình của trường độ âm tiết đứng ở giữa cừu so sánh với giá trị trung bình của trường độ âm tiết khi đứng ở cuối cừu thì thấy ở cuối cừu trường độ của ừm tiết lớn hơn từ 25 đến 50% so với khi đứng ở giữa cừu.
(Cụ thể xem phụ lục C trong bảng phụ lục đi kèm, trang 101).
3. Kết luận
Một trong các yếu tố cải thiện chất lượng tổng hợp tiếng Việt trong các hệ chuyển văn bản thành tiếng nói là phải dự đoán được các thông số về độ dài hợp lý của các âm vị, âm tiết cũng như quóng nghỉ giữa các âm tiết.
Độ dài các âm vị là thông tin quan trọng để tổng hợp các âm tiết. Âm đầu cũng như các phụ ừm vô thanh không biến đổi độ dài nhiều, ừm chớnh và các phụ ừm cuối hữu thanh luôn biến đổi độ dài để thể hiện dấu thanh cũng như trong các tình huống cần dài ra hay ngắn lại của các âm tiết. Âm tiết ở cuối hay đầu ngữ đoạn sẽ dài ra khi nó ở giữa ngữ đoạn. Điều này có thể giải thích là các âm tiết ở giữa ngữ đoạn có hiện tượng chồng ừm của các âm tiết trước hoặc sau.
Có hai tình huống dẫn đến các quãng nghỉ khi phát biểu một ngữ đoạn, đó là sự dừng do gặp dấu nghỉ hoặc từ nối và dạng bắt buộc phải nghỉ do cơ quan cấu ừm dịch chuyển trạng thái như tình huống âm tiết đứng trước là âm tiết đóng và âm tiết đứng sau bắt đầu bằng ừm tắc vô thanh hoặc âm tiết trước có dấu thanh là “nặng” và âm tiết tiếp sau có dấu thanh là “sắc”.
Chương VII: Kết luận và hướng phát triển tiếp theo 1. Kết luận
• Phạm vi nghiên cứu trong đề tài này là các đặc tính về trường độ và sự biến đổi cao độ của âm tiết trong ngữ đoạn.
• Về sự biến đổi cao độ, hai đặc điểm nghiên cứu là hình dáng đường cong F0, và giá trị cao độ trung bình của âm tiết biến đổi trong ngữ đoạn.
• Về các đặc tính về trường độ, đặc điểm nghiên cứu là trường độ của õm tiết trong ngữ đoạn, của khoảng nghỉ và dự đoán độ dài các âm vị trong âm tiết. Các kết quả này đã được thử nghiệm cài đặt và cho kết quả tốt bởi Viện khoa học và Công nghệ.
• Đối tượng nghiên cứu là “câu trần thuật”, giọng nữ, chuẩn Bắc Bộ.
• Do hạn chế về mặt thời gian, cũng như đây là một lĩnh vực mới, là hướng phát triển cho tương lai nhưng mang đầy tính phức tạp và trừu tượng, cho nên các kết quả về sự biến đổi cao độ chưa đủ mạnh để có thể ứng dụng tốt vào viết các modun cho bộ tổng hợp. Tuy nhiên cũng đã phát hiện được hầu hết các đặc trưng cấu trúc tiếng Việt về sự biến đổi cao độ cũng như trường độ trong ngữ đoạn. Đặc biệt là về sự biến đổi đường cong F0 của cỏc âm tiết trong ngữ đoạn. Đây là kết quả mới, mang đầy ý nghĩa ứng dụng trong tổng hợp tiếng nói nhằm nâng cao tính tự nhiên của tiếng nói tổng hợp. Các kết quả này cần được kiểm tra lại với tập CSDL rộng hơn.
2. Hướng phát triển tiếp theo
• Đối tượng nghiên cứu mở rộng cho các thể loại cừu khỏc như: câu hỏi, câu mệnh lệnh, câu cảm thán.
• Các kết quả về sự biến đổi độ cao độ của âm tiết trong ngữ đoạn cần được kiểm tra với tập CSDL đủ lớn cho cả giọng nam thì mới có kết luận chính xác.
• Cài đặt các kết quả nghiên cứu cho bộ tổng hợp để đánh giá tính đúng đắn của các kết quả này.
• Nghiên cứu thêm đặc tính năng lượng trong câu nói liên tục .
• Phát triển chương trình tỡm đường ngữ điệu cho tín hiệu cừu nói liên tục bằng các bộ lọc khác. Sau đó nghiên cứu ngữ điệu của các thể loại cừu khác nhau dựa vào chương trình này.
Phụ lục A: Sự thay đổi hình dáng đường cong F0 của âm tiết trong ngữ đoạn
1. Thanh không dấu. 1.1.Thanh không dấu. 1.1.Thanh không dấu. 1.1.Thanh không dấu. 1.1.Thanh không dấu. 1.1.Thanh không dấu. 1.1.Thanh không dấu. 1.1.Thanh không dấu.
Anh cho tôi mét cốc nước cam.
(1) (2) (3) (4)
Em không được khỏe lắm.
(5) (6) (7) (8) δ =∆*100/Begin, ∆=Begin-End STT Begin(Hz) End(Hz) ∆(Hz) δ(%) 238->302 224->262 1 238 224 14 6 2 299 251 48 16 3 278 252 26 9 4 256 231 25 10 5 254 231 23 9 6 302 260 42 14 7 282 262 20 7 8 265 232 33 12
1.2. Thanh huyền
Tôi vào gọi nhà tôi.
(1) (2) (3) (4)
Chín giờ hai mươi.
(5) (6) (7) (8)
1.3. Thanh sắc
Cách haitiếng
(1) (2) (3) (4)
Nếu khôngcó thể xảy ra các biến chứng nguy hiểm
(5) (6) (7) (8)
Thậm chí cũn nớu kéo không cho xe qua đường
(9) 10 11 12
Ông làm ơn chỉ cho chóng tôi trường tiểu học Giảng võ được không ? STT Max(Hz ) End(Hz) ∆(Hz) δ(%) 219-275 201-238 1 223 201 22 10 2 232 203 29 13 3 226 204 22 10 4 219 210 9 4 5 241 230 11 5 6 275 233 42 15 7 255 238 17 7 8 239 219 20 8
13 14 15 16 δ =∆*100/Begin, ∆=Begin-End 1.4. Thanh nặng STT Begin(Hz) End(Hz) ∆(Hz) δ(%) 220-303 199-284 1 266 239 27 10 2 301 281 20 7 3 282 255 17 6 4 270 252 18 7 5 257 221 36 14 6 274 247 27 10 7 303 280 23 8 8 271 224 47 17 9 272 243 29 11 10 287 270 17 6 11 302 284 18 6 12 276 253 23 8 13 220 199 21 10 14 284 265 19 7 15 245 224 21 8 16 232 215 17 7
Được điđó đi đây
(1) (2) (3) (4)
Không được đâu.
(5) (6) (7) (8) δ =∆*100/Max, ∆=Max-Begin STT Max(Hz ) Begin(Hz) ∆(Hz) δ(%) 222-300 83-271 1 248 83 165 67 2 267 181 86 32 3 300 271 29 10 4 249 117 132 53 5 222 205 17 8 6 263 148 115 44 7 256 222 34 13 8 232 211 21 9
1.5. Thanh hỏi
Chìa khoá của anh
(1) (2) (3) (4)
Em phải đi học từ ngày mai cho đến thứ sáu.
(5) (6) (7) (8) δ =∆*100/Max, ∆=Max-Begin STT Max(Hz ) Begin(Hz) ∆(Hz) δ(%) 216-281 190-259 1 229 214 15 7 2 281 259 22 8 3 250 228 22 9 4 276 247 29 11 5 216 216 0 0 6 271 201 70 18 7 227 190 37 16 8 253 202 51 20
1.6. Thanh ngã
Mình rủ thêm Thảo và Nghĩa đi.
(1) (2) (3) (4)
Em sẽ đi mua xương bò để làm nước.
(5) (6) (7) (8) δ =∆*100/Begin, ∆=BeginMax-End STT Begin(Hz) End(Hz) ∆(Hz) δ(%) 241-303 189-263 1 284 257 27 10 2 303 259 44 15 3 264 216 48 18 4 263 243 20 8 5 242 209 33 14 6 296 253 43 15 7 267 222 45 17 8 241 221 20 9
2. Thanh huyền
2.2. Thanh không dấu
Sàn diễn dành chỗ cho người này lờn thỡ người kia phải xuống.
(1) (2) (3) (4)
Giới thiệu ông đây là nhà mới của tôi.
Anh là người hay quên (9) 10 11 12 δ =∆*100/Begin, ∆=Begin-End STT Begin(Hz) End(Hz) ∆(Hz) δ(%) 200-272 152-206 1 260 190 70 27 2 271 183 88 32 3 210 152 58 28 4 264 170 94 36 5 200 183 17 9 6 262 190 72 27 7 212 174 38 18 8 256 196 60 23 9 201 185 16 8 10 272 206 66 24 11 226 191 35 15 12 263 191 72 27
2.3. Thanh huyền
Chỗ này là cái đầu với hai cái tai
(1) (2) (3) (4)
Về người Việt Nam ở nước ngoài
(5) (6) (7) (8)
(9) 10 11 12 δ =∆*100/Begin, ∆=Begin-End STT Begin(Hz) End(Hz) ∆(Hz) δ(%) 162-264 140-175 1 181 169 12 7 2 264 175 89 34 3 219 163 56 26 4 229 160 69 30 5 164 155 9 5 6 165 144 21 13 7 166 152 14 8 8 180 165 15 8 9 164 148 16 10 10 162 140 22 14 11 173 140 33 19 12 179 157 22 12
2.4. Thanh sắc
Không bao giê thiếu người quan tâm
(1) (2) (3) (4)
áp dụng đối với người Việt Nam ở trong nước.
(5) (6) (7) (8)
Tờn bỏc gái là gì ?
(9) 10 11 12
13 14 15 16 Bên trái là em gái tôi
17 18 19 20 δ =∆*100/Max, ∆=Max-End STT Max(Hz ) End(Hz) ∆(Hz) δ(%) 200-306 158-260 1 256 179 77 35 2 242 158 84 42 3 231 158 73 38 4 249 157 92 37 5 249 173 76 36 6 235 167 68 34 7 200 177 23 12 8 252 200 52 20