.3 Tập dữ liệu huấn luyện và kiểm thử

Một phần của tài liệu Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng ba na tự động (Trang 41 - 44)

STT Tập dữ liệu Số câu/ Cặp câu Phần trăm (%)

1 Tập dữ liệu huấn huyện 59.245 80

2 Tập dữ liệu kiểm thử 14.811 20

4.4 Kết quả thực nghiệm

4.4.1. Kết quả mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char L2R)

Người dùng nhập một chuỗi ký tự từ trái sang phải làm đầu vào để hệ thống dự đốn ký tự tiếp theo với mơ hình ngơn ngữ mức ký tự từ trái sang phải với xác xuất ký tự từ.

Bảng 4. 4 Kết quả mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char L2R)

Input : Yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'bă

output 1: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'bău - prob: 0.9999853372573853 output 2: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'bă - prob: 9.06658715398599e-06 output 3: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'băn - prob: 3.93688696931341e-06 output 4: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'băt - prob: 1.42309227157623e-06 output 5: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'băm - prob: 2.17801655821873e-07

33

Input : Sư̆ pơtho khan nă ma choh jang rim adrêch 'ba la

output 1: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lai - prob: 0.985504448489 output 2: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lao - prob: 0.01088975143 output 3: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba la - prob: 0.003877677107 output 4: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lak - prob: 0.00006310594 output 5: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lay - prob: 8.27369318e-05

Input : 'Boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭc

output 1: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭch - prob: 0.999865472 output 2: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭcc - prob: 6.790235e-05 output 3: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭcg - prob: 3.835686e-05 output 4: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭc - prob: 2.1305823e-05 output 5: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭcd - prob: 1.843488e-06

Kết quả thực nghiệm trên cho thấy hệ thống đã đoán ký tự từ tiếp theo với mơ hình ngơn ngữ mức ký tự từ trái sang phải sẽ hiển thị ra k kết quả ( cụ thể k ở đây được chọn là 5) có xác xuất tốt nhất từ trên xuống dưới. Với kết quả output 1 là kết quả có khả năng sảy ra nhất.

4.4.2. Kết quả mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char R2L)

Người dùng nhập một chuỗi ký tự từ trái sang phải làm đầu vào để hệ thống dự đốn ký tự tiếp theo với mơ hình Char R2L với xác xuất ký tự từ.

34

Input : Yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'bă

output 1: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'bău - prob: 0.9999853372573853 output 2: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'bă - prob: 9.0665871539389e-06 output 3: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'băn - prob: 3.9368869693131e-06 output 4: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'băt - prob: 1.42309227157963e-06 output 5: yôl tơ'nglaih kơpô lơ̆m tơmăn 'nhăt jê̆ 'băm - prob: 2.1780165582173e-07

Input : Sư̆ pơtho khan nă ma choh jang rim adrêch 'ba la

output 1: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lai - prob: 0.985504448-05 output 2: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lao - prob: 0.010272692-05 output 3: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba la - prob: 0.003878894-05 output 4: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lak - prob: 0.000151963-05 output 5: sư̆ pơtho khan nă ma choh jang rim adrêch 'ba lay - prob: 8.27368858-06

Input : 'Boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭc

output 1: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭch - prob: 0.9998652-05 output 2: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭcc - prob: 6.7902350-05 output 3: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭcg - prob: 3.835639e-05 output 4: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭc - prob: 2.1305828e-05 output 5: 'boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭcd - prob: 1.8434882e-06

Kết quả thực nghiệm trên cho thấy hệ thống đã đốn ký tự từ tiếp theo với mơ hình ngơn ngữ mức ký tự từ phải sang trái sẽ hiển thị ra k kết quả ( cụ thể k ở đây được chọn là 5) có xác xuất tốt nhất từ trên xuống dưới. Với kết quả output 1 là kết quả có khả năng sảy ra nhất.

4.4.3. Kết quả sửa lỗi kết hợp 2 mơ hình ngơn ngữ Char L2R và Char R2L

Ý tưởng chính :

Hàm def correct_mistake:

35

Với mỗi lần scan, xác suất replace ký tự (sửa lỗi) của mơ hình nào cao hơn thì sẽ thực hiện sửa lỗi trên mơ hình đó và trả ra output là chuỗi text đã được sửa lỗi.

Dùng chuỗi text đó làm input để scan lại với cả 2 mơ hình.

Lặp lại cho đến khi thỏa điều kiện dừng (hoặc 1 trong 2 mơ hình khơng cịn tìm thấy lỗi hoặc số vịng lặp = 20 để tránh tình trạng lặp vơ hạn) thì xuất ra output cuối cùng.

Chúng ta sẽ tiến hành sửa lỗi tự động cho hai mơ hình ngơn ngữ Char L2R và Char R2L.

Ví dụ 1:

Người dùng nhập một chuỗi ký tự vào hệ thống, hệ thống sẽ phát hiện ký tự sai và tiến hành thay thế ký tự đúng với cả hai mơ hình ngơn ngữ Char L2R và Char R2L.

Một phần của tài liệu Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng ba na tự động (Trang 41 - 44)

Tải bản đầy đủ (PDF)

(62 trang)