Dữ liệu thực nghiệm

Một phần của tài liệu Mô hình chuyển ngữ tiếng nước ngoài trong hệ thống tổng hợp tiếng nói tiếng việt (Trang 48 - 66)

Toàn bộ dữ liệu thực nghiệm dùng trong đề tài này đều đƣợc xây dựng thủ công. Dữ liệu gồm 7543 cặp từ tiếng nƣớc ngoài và phiên âm tiếng Việt tƣơng ứng, trong ngữ cảnh đề tài này, tôi sử dụng thuật ngữ “dữ liệu song ngữ” để chỉ bộ dữ liệu thực nghiệm này. Bộ dữ liệu song ngữ đƣợc chia làm hai phần: 5009 cặp dữ liệu song ngữ đƣợc dùng để huấn luyện mô hình, 2534 cặp dữ liệu song ngữ còn lại dùng để kiểm tra mô hình.

Tập dữ liệu huấn luyện 5009

Tập dữ liệu kiểm thử 2534

5.2. Phương pháp và tiêu chí đánh giá

Độ chính xác của mô hình chuyển ngữ đƣợc đo bằng tỉ lệ lỗi âm vị (PER)24

là edit distance giữa kết quả chuyển ngữ tự động và phiên âm tiếng Việt tƣơng ứng đã xây dựng thủ công trong tập dữ liệu song ngữ kiểm thử. Edit distance là cực tiểu hoá số phép chèn, xoá và thay thế cần thiết để chuyển một chuỗi thành chuỗi khác.

Một độ đo thứ hai đƣợc đƣa ra là tỷ lệ lỗi từ (WER)25 là tỷ lệ những từ liên quan có ít nhất một âm sai.

Trong đề tài này, tôi chỉ đánh giá edit distance giữa hai chuỗi âm vị mục tiêu và chuỗi âm vị do máy tổng hợp. Không đánh giá kết quả nối chuỗi âm vị thành tiếng Việt hoàn chỉnh.

Ví dụ : đánh giá chuỗi âm vị của từ nƣớc ngoài gilberto

 Chuỗi âm vị mục tiêu (thiết kê thủ công để đánh giá):

24 PER là viết tắt của Phoneme Error Rate

g i n b es c t oo

 Chuỗi âm vị do máy tổng hợp: g i n b es t oo

Tỷ lệ lỗi âm vị là PER=1 (đó là 1 phép chèn), tỷ lệ lỗi từ là WER=1 do có 1 vị trí âm vị sai.

5.3. Các kết quả thực nghiệm

5.3.1. Mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê 5.3.1.1. Quá trình thực nghiệm 5.3.1.1. Quá trình thực nghiệm

Huấn luyện mô hình dịch

Một danh sách gồm khoảng 5009 cặp từ tiếng nƣớc ngoài và chuyển ngữ tƣơng ứng trong tiếng Việt. Bảng ánh xạ âm tiết tiếng Việt cũng đƣợc cung cấp trong Bảng 5.1 và Bảng 5.2. Dùng module phân tích âm vị trong hệ thống tổng hợp tiếng nói Festival để có đƣợc đặc trƣng âm vị của tiếng nƣớc ngoài. Sử dụng bảng âm tiết tiếng Việt xây dựng module phân tích âm vị và sử dụng module này để phân tích các đặc trƣng âm vị của chuyển ngữ tiếng Việt. Hệ thống GIZA++, canh chỉnh từ trong dịch máy thống kê, đƣợc áp dụng vào hệ thống. Mỗi âm vị của mỗi từ đóng vai trò nhƣ một từ trong câu. Kết quả sau khi huấn luyện mô hình dịch là một bảng ánh xạ giữa một âm vị tiếng nƣớc ngoài với một âm vị tiếng Việt cùng với tần suất xuất hiện của cặp ánh xạ này trong toàn kho ngữ liệu huấn luyện. Chi tiết bảng ánh xạ xem trong Bảng 5.3.

Huấn luyện mô hình ngôn ngữ

Mô hình ngôn ngữ dùng trong quá trình dịch từ chuỗi âm vị tên riêng nƣớc ngoài sang chuỗi âm vị tiếng Việt, đƣợc ƣớc lƣợng từ 5009 phiên ngữ tiếng Việt đã đƣợc dùng trong quá trình huấn luyện mô hình dịch. Đầu tiên sử dụng bảng âm vị tiếng Việt trong Bảng 5.1 và Bảng 5.2 để đạt đƣợc đặc trƣng âm vị tiếng Việt trên dữ liệu huấn luyện mô hình ngôn ngữ. Một mô hình ngôn ngữ trigram trên tập từ vựng âm vị tiếng Việt đƣợc ƣớc lƣợng với bộ công cụ SRILM.

Quá trình giải mã

Moses – bộ giải mã dựa trên cụm từ trong dịch máy thống kê – cùng với mô hình dịch và mô hình ngôn ngữ tƣơng ứng đã đƣợc huấn luyện trên 5009 cặp tên riêng nhƣ đƣợc mô tả ở trên, để thực hiện “dịch” chuỗi âm vị tiếng nƣớc ngoài thành chuỗi âm vị tiếng Việt.

Quá trình giải mã

Các bƣớc của quá trình chuyển ngữ đƣợc mô tả nhƣ sau:

1. Đầu tiên, tiếng nƣớc ngoài đƣợc chuyển sang chuỗi âm vị bằng hệ thống tổng hợp tiếng nói Festival.

2. Chuỗi âm vị này sẽ đƣợc dịch sang chuỗi âm vị tiếng Việt sử dụng mô hình dịch nhƣ đƣợc mô tả ở trên.

3. Kết quả đầu ra của quá trình dịch đƣợc chỉnh sửa nếu cần thiết để tạo chuỗi âm vị tiếng Việt.

4. Chuỗi âm vị tiếng Việt đƣợc gom nhóm theo luật để tạo thành tiếng Việt hoàn chỉnh. STT Âm vị STT Âm vị STT Âm vị 1 i 8 o 15 iê 2 y 9 oo 16 ia 3 ê 10 ƣ 17 ya 4 e 11 ơ 18 ua 5 a 12 ă 19 uô 6 u 13 â 20 ƣa 7 ô 14 yê 21 ƣơ STT Âm vị STT Âm vị STT Âm vị 1 p 10 q 19 d 2 b 11 m 20 gi 3 th 12 n 21 z 4 t 13 nh 22 s 5 đ 14 g 23 r 6 tr 15 ngh 24 kh 7 ch 16 ph 25 gh 8 c 17 v 26 h 9 k 18 x 27 l

Bảng 5.3 - Âm vị tiếng nước ngoài với xác suất ánh xạ sang âm vị tiếng Việt

e v P(v|e) v P(v|e) v P(v|e) v P(v|e) AA a 0.647 ô 0.252 o 0.066 ă 0.013 AE a 0.871 ă 0.061 e 0.053 â 0.008 AH u 0.569 ơ 0.220 â 0.086 a 0.064 AO ô 0.374 o 0.288 a 0.135 oo 0.110 AW o 0.460 u 0.410 ơ 0.074 ua 0.024 AX a 0.407 i 0.140 ơ 0.092 e 0.083 AY i 0.639 y 0.159 d 0.052 a 0.051 B b 0.943 p 0.046 # 0.010 CH ch 0.682 t 0.086 x 0.081 s 0.081 D đ 0.502 # 0.325 t 0.169 d 0.002 DH t 0.517 đ 0.241 th 0.240 EH e 0.474 ê 0.294 a 0.107 ơ 0.061 ER ơ 0.701 r 0.079 e 0.061 ê 0.037 EY a 0.546 â 0.158 ê 0.129 e 0.124 F ph 0.773 p 0.163 # 0.055 o 0.007 G g 0.635 # 0.170 gh 0.085 t 0.047 HH h 0.725 # 0.193 kh 0.058 gi 0.011 IH i 0.807 # 0.071 ê 0.062 e 0.022 IY i 0.628 # 0.163 y 0.095 ê 0.071 JH gi 0.419 # 0.357 i 0.110 gh 0.030 K c 0.619 # 0.135 k 0.129 ch 0.054 L l 0.623 n 0.204 # 0.151 u 0.009 M m 0.996 ng 0.003 N n 0.922 ng 0.035 # 0.018 nh 0.013 NG n 0.538 ng 0.310 nh 0.151 OW ô 0.890 o 0.061 ơ 0.031 u 0.016 OY o 0.435 ô 0.393 d 0.104 â 0.066 P b 0.728 p 0.150 # 0.080 ph 0.040 R # 0.450 r 0.449 c 0.090 t 0.004 S x 0.319 t 0.290 # 0.194 s 0.182 SH s 0.739 t 0.144 ch 0.073 x 0.042 T t 0.708 # 0.224 tr 0.054 th 0.007 Th t 0.472 th 0.392 # 0.056 y 0.037 UH u 0.622 uô 0.184 ua 0.135 ô 0.033 UW u 0.715 # 0.211 ơ 0.039 o 0.009 V v 0.741 p 0.244 y 0.005 g 0.004 W q 0.370 u 0.259 # 0.191 g 0.055 Y # 0.643 d 0.131 i 0.120 ơ 0.049 Z # 0.577 gi 0.209 t 0.136 x 0.056 ZH gi 0.387 d 0.220 x 0.197 s 0.194

5.3.1.2. Các thí nghiệm liên quan

Thí nghiệm 1.1

Chúng tôi đánh giá hệ thống chuyển ngữ dựa trên độ tƣơng đồng ở mức âm vị. Độ tƣơng đồng dựa trên khoảng cách tối tiểu, đƣợc định nghĩa là số lần thêm, xoá, thay thế tối thiểu để chuyển một chuỗi thành chuỗi khác.

Hiệu suất của hệ thống đƣợc đánh giá dựa trên tỉ lệ lỗi. Cho S1 là chuỗi do máy tổng hợp và S2 là chuỗi chuẩn, tỉ lệ lỗi của quá trình chuyển ngữ đƣợc định nghĩa nhƣ sau: | 2 | ) 2 , 1 ( S S S d ER (5.1)

trong đó, d(S1,S2) là khoảng cách tối tiểu giữa S1 và S2. |S2| là độ dài chuỗi phiên ngữ chuẩn.

Trong thí nghiệm này, chúng tôi chọn ngẫu nhiên 1000 tên riêng nƣớc ngoài trong kho ngữ liệu mà chúng tôi tự xây dựng. Trong đó, 500 tên riêng đã đƣợc huấn luyện và 500 tên riêng còn lại chƣa đƣợc huấn luyện. Phân bố tỉ lệ lỗi đƣợc chia thành bốn phần 0% ~ 10%, 10% ~ 30%, 30% ~ 50% và 50% ~ 100%. Kết quả đƣợc chỉ ra trong Bảng 5.4.

Từ kết quả thí nghiệm 1.1, 71.8% (=100% - 28.2%) dữ liệu kiểm chứng có thể đƣợc chuyển ngữ sang tiếng Việt với tỉ lệ lỗi thấp hơn 50%. Điều này nói lên rằng phiên ngữ đƣợc tổng hợp bằng máy có khuynh hƣớng ít nhất là “phân nửa đúng”.

Tỉ lệ lỗi trung bình của hệ thống khi dùng 2000 cặp tên riêng để huấn luyện cả mô hình dịch và mô hình ngôn ngữ và 2534 cặp để kiểm thử là 40.81%. Bởi vì chƣa có một công trình nào làm chuyển ngữ tên riêng nƣớc ngoài sang tiếng Việt, nên khó có thể so sánh kết quả mà hệ thống chúng tôi đạt đƣợc. Tuy nhiên kết quả này có thể chấp nhận đƣợc. Các hệ thống chuyển ngữ hiện tại cho tiếng Trung Quốc với phƣơng pháp gần phƣơng pháp đƣợc đề cập trong đề tài này[18], sử dụng 2233 cặp tên riêng để huấn luyện và tỉ lệ lỗi đạt đƣợc là 52,5% so với hệ thống của chúng tôi là 40.81% với 2000 cặp tên riêng huấn luyện.

Bảng 5.4 - Kết quả đánh giá tỉ lệ lỗi của mô hình chuyển ngữ dựa trên dịch máy thống kê

Tỷ lệ lỗi (%) 0-10 10-30 30-50 >50

# % # % # % # %

Dữ liệu chưa huấn

luyện (500) 53 10.6 142 28.4 158 31.6 147 29.4

Dữ liệu đã huấn

luyện (500) 74 14.8 126 25.2 165 33 135 27

Trung bình (1000) 12.7 26.8 32.3 28.2

Thí nghiệm 1.2

Hình 5.1 - Sơ đồ chuyển ngữ cải tiến

Để so sánh với hệ thống chuyển ngữ chỉ dùng từ điển phiên ngữ, chúng tôi thiết kế lại hệ thống trên nhƣ sơ đồ minh hoạ trong Hình 5.1. Đầu tiên, tra cứu tên riêng nƣớc ngoài trong từ điển phiên ngữ. Nếu tồn tại trong từ điển phiên ngữ thì trả về kết quả phiên ngữ tƣơng ứng. Nếu không, tên riêng nƣớc ngoài sẽ đƣợc chuyển sang hệ thống nhƣ đƣợc mô tả trong CHƢƠNG 3. Từ điển phiên ngữ bao gồm 5009 tên riêng đƣợc dùng để huấn luyện mô hình dịch và mô hình ngôn ngữ. Chúng tôi tiến hành thí nghiệm với nhiều bộ dữ liệu khác nhau và kết quả về tỉ lệ lỗi của hai hệ thống đƣợc chỉ ra trong Hình 5.2.

Thí nghiệm 1.2 cho thấy rằng, hệ thống của chúng tôi cho kết quả tốt hơn so với hệ thống chỉ tra cứu từ điển phiên ngữ truyền thống. Hệ thống đã khắc phục

Không

Có Tiếng nƣớc ngoài

Tồn tại trong từ điển chuyển ngữ

Chuyển ngữ tiếng Việt

Hệ thống chuyển ngữ

nhƣợc điểm của hệ thống tra cứu trên từ điển truyền thống về mặt có thể phủ tất cả tên riêng nƣớc ngoài.

Hình 5.2 - Kết quả so sánh tỷ lệ lỗi giữa hệ thống chuyển ngữ dựa trên kỹ thuật dịch máy thống kê với phương pháp tra cứu từ điển truyền thống

Thí nghiệm 1.3

Để đánh giá độ ảnh hƣởng của mô hình dịch và mô hình ngôn ngữ đối với tỉ lệ lỗi của hệ thống, chúng tôi lần lƣợt thử nghiệm với các bộ dữ liệu huấn luyện khác nhau. Đối với quá trình huấn luyện mô hình dịch, ba bộ dữ liệu 2000 cặp tên, 4000 cặp tên, 5000 cặp tên lần lƣợt đƣợc sử dụng. Đối với quá trình huấn luyện mô hình ngôn ngữ, ngoài sử dụng cùng bộ dữ liệu nhƣ trong quá trình huấn luyện mô hình dịch, chúng tôi sử dụng thêm từ điển Viet11k[50] để tăng độ phủ của dữ liệu. Kết quả đƣợc chỉ ra trong Bảng 5.5 và Hình 5.3.

Bảng 5.5 - Bảng đánh giá tỷ lệ lỗi khi áp dụng những mô hình ngôn ngữ và mô hình dịch khác nhau

TM2000 TM4000 TM5000 LM2000 40.23 40.34 40.27 LM4000 40.01 40.31 40.49 LM5000 40.08 40.12 39.68 LM2000Viet11k 40.56 40.93 40.67 LM4000Viet11k 38.55 39.06 38.95 LM5000Viet11k 39.24 39.32 38.95 39.68 30.09 22.06 16.8 8.14 0 100 80 60 40 20 0 0 20 40 60 80 100 120

Kết quả thí nghiệm 1.3 chỉ ra rằng, hệ thống chuyển ngữ chịu ảnh hƣởng không nhiều của mô hình dịch và mô hình ngôn ngữ. Tỉ lệ lỗi trung bình khi thay thế mô hình ngôn ngữ và mô hình dịch nằm trong khoảng 38.55% - 40.93%. Kết quả này cho thấy, chúng ta chỉ cần ít dữ liệu huấn luyện cũng cho ra kết quả gần nhƣ tƣơng đƣơng.

Hình 5.3 - Biểu đồ mô tả sự ảnh hưởng của mô hình dịch và mô hình ngôn ngữ

5.3.2. Mô hình joint-sequence 5.3.2.1. Quá trình thực nghiệm 5.3.2.1. Quá trình thực nghiệm

Xây dựng tập graphone

Sử dụng cùng bộ dữ liệu huấn luyện song ngữ nhƣ trong mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê, 5009 cặp từ tiếng Anh và cách phát âm tiếng Việt đƣợc dùng để xây dựng tập graphone. Về bản chất tập graphone đƣợc xây dựng rất đơn giản, chỉ là sự tổ hợp của các ký tự trong từ tiếng nƣớc ngoài với chuỗi âm vị trong cách phát âm tiếng Việt tƣơng ứng. Loại bỏ đi những graphone có xác suất thấp, đặc biệt là cách graphone chỉ xuất hiện một lần để giảm số lƣợng graphone trong tập kết quả. Đồng thời sử dụng mô hình

37 37.5 38 38.5 39 39.5 40 40.5 41 41.5 TM2000 TM4000 TM5000

discounted EM để ƣớc lƣợng xác suất kết của một graphone với (N-1) graphone cho trƣớc. Ƣớc lƣợng này sẽ đƣợc dùng để tính xác suất kết nối các graphone trong quá trình giải mã.

Quá trình giải mã

Quá trình giải mã là quá trình tìm kiếm các graphone trong tập graphone đã xây dựng kết nối lại với nhau thoả mãn điều kiện: chuỗi ký tự rút trích từ các graphone ghép nối phải là chuỗi ký tự tiếng nƣớc ngoài đầu vào cần chuyển ngữ. Tính xác suất kết hợp của từng chuỗi graphone thoả tiêu chí nhƣ trên, chọn ra chuỗi graphone có xác suất kết lớn nhất. Rút trích các âm vị từ chuỗi graphone trên, sử dụng một số luật cấu tạo tiếng Việt để tạo thành chuỗi tiếng Việt hoàn chỉnh. Đó là kết quả chuyển ngữ của từ tiếng nƣớc ngoài đƣa vào.

Các bƣớc giãi mã đƣợc mô tả lại tóm tắt nhƣ sau:

1. Chọn các graphone trong tập graphone đã xây dựng sao cho chuỗi ký tự của các graphone ghép lại giống với từ nƣớc ngoài cần chuyển ngữ.

2. Tính xác suất kết của từng chuỗi graphone và chọn ra chuỗi graphone có xác suất kết là lớn nhất.

3. Rút trích các âm vị từ chuỗi graphone trên, sử dụng luật cấu thành tiếng Việt để tạo chuỗi tiếng Việt hoàn chỉnh.

Ví dụ, chuyển ngữ “DAVID” sang cách phát âm tiếng Việt đƣợc mô tả nhƣ sau:

Trong ví dụ trên, xác suất lớn nhất kết nối các graphone là p=0.9. Chuỗi âm vị tiếng Việt thu đƣợc là “ĐA V Í T”. Nhƣ vậy, kết quả chuyển ngữ tiếng nƣớc ngoài “DAVID” là “ĐA VÍT”

d [đ] a [ây] v [v] i [í] d [t] “david” [???????] = da [đa] vid [vi] da [đa] v [v] i [í] d [t] p=0.8 p=0.6 p=0.9

5.3.2.2. Các thí nghiệm liên quan

Để đánh giá ảnh hƣởng của kích thƣớc dữ liệu huấn luyện đối với kết quả chuyển ngữ, đồng thời cũng phân tích ảnh hƣởng của N-gram đối với độ chính xác của hệ thống. Tôi đã xây dựng bốn bộ dữ liệu huấn luyện gồm 2000, 3000, 4000 và 5000 cặp tiếng nƣớc ngoài và cách phát âm tiếng Việt đƣợc ký hiệu lần lƣợt là TRAINING2000, TRAINING3000, TRAINING4000 và TRAINING5000. Cả bốn bộ dữ liệu này sẽ lần lƣợt đƣợc huấn luyện và xây dựng các mô hình N-gram (N=1..5). Với bộ dữ liệu kiểm thử 2534 cặp dữ liệu song ngữ, tiến hành kiểm thử tỷ lệ lỗi trên tiếng (WER) và tỷ lệ lỗi trên âm vị (PER) lần lƣợt trên từng bộ dữ liệu huấn luyện và trên từng mô hình N-gram khác nhau. Kết quả đƣợc chỉ ra ở Bảng 5.6 và Bảng 5.7 bên dƣới.

Bảng 5.6 - Tỷ lệ lỗi trên tiếng (WER) đánh giá trên nhiều bộ dữ liệu

WER TRAINING2000 TRAINING3000 TRAINING4000 TRAINING5000

LM1GRAM 88.72 91.05 91.05 91.05

LM2GRAM 71.64 70.37 69.51 69.55

LM3GRAM 67.06 64.06 62.88 62.41

LM4GRAM 66.79 63.12 62.13 59.13

LM5GRAM 66.67 62.84 61.74 58.58

Bảng 5.7 - Tỷ lệ lỗi trên âm vị (PER) đánh giá trên nhiều bộ dữ liệu

PER TRAINING2000 TRAINING3000 TRAINING4000 TRAINING5000

LM1GRAM 46.41 46.54 46.54 46.54

LM2GRAM 29.76 28.87 28.05 27.98

LM3GRAM 26.63 25.36 24.23 23.48

LM4GRAM 26.51 24.82 23.94 22.31

LM5GRAM 26.44 24.69 23.52 22.1

Kết quả trên đƣợc minh hoạ thông qua biểu đồ trong Hình 5.4 và Hình 5.5. Nhìn

Một phần của tài liệu Mô hình chuyển ngữ tiếng nước ngoài trong hệ thống tổng hợp tiếng nói tiếng việt (Trang 48 - 66)

Tải bản đầy đủ (PDF)

(66 trang)