Flowchart sửa lỗi mức từ

Một phần của tài liệu Phát triển ứng dụng phát hiện lỗi chính tả tiếng việt sử dụng mô hình ngôn ngữ (Trang 35 - 37)

Khi sửa lỗi bằng mơ hình ngơn ngữ mức từ, lần lượt kiểm tra các từ lần lượt từ trái sang phải, nếu từ nào khơng có trong khơng gian từ vựng, tiến hành thay thế. Việc thay thế diễn ra như sau: chọn mười từ có xác suất theo mơ hình ngơn ngữ cao nhất (có thể sử dụng xác suất n-lookahead), tính Edit distance giữa mười từ đó với từ hiện tại, chọn trường hợp có Edit distance để thay thế từ bị sai. Phương pháp này được dùng tuỳ trường hợp. Thường sẽ dũng để áp dụng sau khi đã sửa lỗi từ hai phía với mức kí tự.

3.3. Phương pháp đánh giá

Đối với vấn đề chuyển tiếng nói thành văn bản, thì độ chính xác của văn bản đầu ra là yếu tố quyết định hệ thống có đạt được kết quả mong muốn. Để đo độ chính xác này, ta sẽ so sánh văn bản dự đoán khác nhau bao nhiêu so với văn bản thực tế. Sự khác

nhau càng nhỏ, sự chính xác của văn bản dự đốn được càng lớn. Một giá trị thường được sử dụng để đo sự khác nhau giữa hai văn bản đó là Word Error Rate (WER). WER là tỉ lệ lỗi giữa văn bản dự đoán và văn bản đúng, được đo trên số lượng từ bị thay đổi giữa hai văn bản (do bị xóa, thêm, chỉnh sửa) trong q trình dự đốn.

WER = S + D + I 𝑁 = S + D + I S + D + C trong đó:  𝑆: số lượng từ bị thay thế  𝐷: số lượng từ bị xoá

 𝐼: số lượng từ thêm vào

 𝐶: số lượng từ chính xác

CHƯƠNG 4. MÔ TẢ THỰC TẾ VÀ ĐÁNH GIÁ KẾT QUẢ 4.1. Hiện thực đề tài 4.1. Hiện thực đề tài

4.1.1. Mơ hình của bài tốn

Từ câu đầu vào khơng đúng (khơng dấu, sai chính tả,..) đưa vào mơ các mơ-đun xử lý ta sẽ xuất ra được đầu ra là câu có dấu với ý nghĩa trọn vẹn trong Tiếng Việt, có thể đọc hiểu, đúng chính tả Tiếng Việt.

Ví dụ:

Input: nguon cao đài tu điên  Output: nguồn cao đài tự điển 4.1.2. Mơ hình ngơn ngữ mức kí tự

Kiến trúc mơ hình ngơn ngữ mức kí tự

Một phần của tài liệu Phát triển ứng dụng phát hiện lỗi chính tả tiếng việt sử dụng mô hình ngôn ngữ (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(60 trang)