Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ t- 123docz.net

Ý tưởng để giải quyết bài toán sửa lỗi chính tả tiếng Việt [11] của hệ thống FSCANNER là: Giả sử phân tách từ trong câu sau: “Công việc của chúng tôi đã thành công”. Dùng thuật toán 2-gram (xét cặp 2 tiếng liền nhau) để đánh giá. Các cặp tiếng được xem xét ở vòng thứ nhất: “công việc”, “việc của”, “của chúng”, “chúng tôi”, “tôi đã”, “đã thành”, “thành công”. Chúng ta nhận dạng được “chúng tôi” và “thành công” là từ và vẫn chưa nhận dạng được từ “công việc”. Câu được viết lại: “Công việc của chúng_tôi đã thành_công”. Lúc này, “chúng_tôi” và “thành_công” sẽ được xem là 2 tiếng mới. Các cặp tiếng được xem xét ở vòng thứ hai là: “công việc”, “việc của”, “của chúng_tôi”, “chúng_tôi đã”, “đã thành_công”. Các chỉ số xác suất thay đổi sau phép nối từ. Chúng được tính lại và sẽ phản ánh độ liên kết chính xác hơn. Vì vậy, qua mỗi vòng nối từ, chuẩn xem xét được hạ xuống. Nếu cặp tiếng “công việc” được xác định là từ thì câu sẽ được viết lại: “Công_việc của chúng_tôi đã thành_công”. Việc nối từ và việc tính toán lại luôn được thực hiện nối tiếp nhau. Điều này tạo thành vòng lặp máy tự học. Kết quả tính toán sẽ chính xác lên và hội tụ đến đáp án tối ưu.

Bước phát hiện lỗi: Thực hiện sau khi phân tách từ xong. Các văn bản ở Việt Nam, trên 90% các từ là sự kết hợp của hai hay nhiều tiếng [17] Nhận thấy rằng sau khi phân tách từ xong, những từ có nhiều tiếng thường là từ đúng. Còn lại những từ có một âm tiết thường là từ nối như: “là”, “các”, “sẽ”, “của”,... hoặc từ lỗi nhận dạng OCR. Ví dụ nhận dạng câu: “Công việc của chúng tôi đã thành công” nhận dạng thành “Công việc cua chúng tôi đã thành công”, sau khi phân tách từ thành: “Công_việc cua chúng_tôi đã thành_công”; thì từ lỗi là “cua” vì xác suất xuất hiện với các từ trước nó và sau nó là rất thấp (xác suất của từ “cua” với từ trước nó:P(cua| Công_việc) và xác suất của từ “cua” với từ sau nó P(chúng_tôi|cua) là rất thấp)

Bước sửa lỗi: Thuật toán sửa lỗi thực hiện hai bước chính:

Bước 1: Sinh tập biến thể âm tiết(nhầm lẫn âm tiết): xây dựng một danh sách biến thể cho các từ và kí tự, ví dụ kí tự “ô” có những biến thể điển hình của nó là: ơ, ê, 6, ộ,ồ,ố,ỗ,ợ, ờ,...

Bước 2: Sửa lỗi: Ước lượng xác suất biến thể nào có xác suất cao nhất đi với các từ xung quanh để chọn làm từ đúng để sửa.

2.3. Trích rút metadata

Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER

Mô hình ngôn ngữ N-gram

Giới thiệu về metadata và chuẩn DublinCore