Chức năng sửa lỗi chính tả tự động

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống nhận dạng và dịch trên thiết bị di động (Trang 54 - 56)

Sau khi server thực hiện chức năng OCR, nếu client yêu cầu kiểm tra lỗi chính tả, chức năng sửa lỗi chính tả tự động được sử dụng và được thực hiện trước chức năng dịch sang ngôn ngữ khác. Luận văn đề xuất một phương pháp sửa lỗi chính tả tự động cho một chuỗi đầu vào tuân theo tuần tự các bước sau:

- Tách chuỗi cần sửa lỗi ra thành từng từ.

- Đối với mỗi từ, kiểm tra sự tồn tại của từ trong từ điển tương ứng (ví dụ OCR ngôn ngữ tiếng Anh thì kiểm tra trong từ điển tiếng Anh).

- Nếu đúng, kiểm tra từ tiếp theo.

- Nếu sai, sử dụng kết hợp hai hàm đánh giá MED (minimum edit distance) và maximum số cặp ký tự giống nhau để tự động chọn ra từ có khả năng nhất thay thế từ bị lỗi.

Dữ liệu từ điển được lấy từ trang web

http://ftp.osuosl.org/pub/openoffice/contrib/dictionaries. Từ trong các từ điển này có thể là từ đơn hoặc từ ghép. Luận văn xây dựng một modul nhỏ để thực hiện lọc tất cả các từ đơn trên từ điển gốc và lưu lại vào file từ điển mới có định dạng languagecode.dict, languagecode tuân theo tiêu chuẩn ISO 639-3 (ví dụ eng.dict, vie.dict). Các từ đơn trong các từ điển mới này lưu ở dạng text, mỗi từ nằm trên một dòng. Hiện tại hệ thống hỗ trợ sửa lỗi chính tả tự động trên 10 ngôn ngữ Latinh khác nhau.

3.3.4.1. Hàm đánh giá minimum edit distance (MED)

Để so sánh độ tương đồng giữa hai chuỗi ký tự, người ta hay dùng định nghĩa edit distance. Đó là số bé nhất (minimum) các thao tác xóa, thêm, sửa ký tự cần thiết để chuyển một chuỗi này về chuỗi kia. Ví dụ cần chuyển chuỗi

“ENWRONMENTS” về chuỗi “ENVIRONMENT”. Ký tự “-” là ký tự chưa phù hợp giữa hai chuỗi.

Dòng 1: ENVIRONMENT- Dòng 2: ENW-RONMENTS

Nhìn vào vị trí tương quan của hai chuỗi ở trường hợp trên, ta thấy cần ít nhất 3 thao tác trên chuỗi ở dòng 2 để chuyển chuỗi ở dòng 2 về chuỗi ở dòng 1: thay ký tự “W” thành “N”, thêm ký tự “I” vào trước ký tự “R”, xóa ký tự “S”

ở cuối cùng. Đối với 2 chuỗi này, sau khi quét hết các phương án chuyển đổi,

edit distance được xác định bằng 3.

Trong danh sách các từ trong từ điển, ta tính lần lượt edit distance với từ cần sửa lỗi rồi ưu tiên chọn từ có edit distance (với từ cần sửa lỗi) bé nhất so với các từ còn lại. Qua bước này có thể sẽ cho ra một danh sách các từ đề nghị thay thế có cùng edit distance bé nhất với từ bị lỗi.

3.3.4.2. Hàm đánh giá maximum số cặp ký tự giống nhau

Sau khi thực hiện đánh giá sử dụng thuật toán MED, nếu danh sách các từ đề nghị thay thế nhiều hơn 1 từ sẽ tiến hành áp dụng thêm đánh giá maximum số cặp ký tự giống nhau. Phương pháp mô tả như sau:

- Từ cần sửa lỗi : enwronment.

- Giả sử danh sách từ đề nghị {enrolment, environment}. - Từ cần sửa lỗi enwronment có 9 cặp ký tự từ trái qua phải gồm:

{en, nw, wr, ro, on, nm, me, en, nt} - Từ enrolment có 8 cặp ký tự từ trái qua phải gồm:

- Từ environment có 10 cặp ký tự từ trái qua phải gồm:

{en, nv, vi, ir, ro, on, nm, me, en, nt} - Số cặp ký tự giống nhau giữa 2 từ {enwronment,enrolment} là 5 - Số cặp ký tự giống nhau giữa 2 từ {enwronment,environment} là 7 - Ưu tiên chọn từ environment để sửa lỗi cho từ enwronment.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống nhận dạng và dịch trên thiết bị di động (Trang 54 - 56)

Tải bản đầy đủ (PDF)

(65 trang)