Mơ hình Trigram và Bayes

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 67 - 68)

3 Cơ sở tin học

3.4.4 Mơ hình Trigram và Bayes

Mơ hình sửa lỗi bằng Trigram rất đơn giản. Đối với mỗi câu, các từ trong tập nhầm lẫn được thay thế cho từ tương ứng trong câu, sau đó tính xác suất trigram của toàn bộ câu. Từ tương ứng với câu có xác suất lớn nhất sẽ là từ được chọn. Cho câu W = w1. . . wk. . . wn, w0k là từ được dùng để thay thế cho wk, tạo ra câu mới W0. Nếu P(W0) > P(W) thì wk0 sẽ được chọn, với

P(W) vàP(W0) lần lượt là xác suất trigram của câu W và W0.

Một cải tiến của phương pháp này là áp dụng trigram dựa trên từ loại thay vì trigram từ. Từ câu W, ta tạo ra các chuỗi từ loại. Xác suất cuối cùng là: P(W) = X T P(W, T) P(W, T) = P(W|T)P(T) = Y i P(wi|ti)Y i P(ti|ti−2ti−1) 66

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.4. BẮT LỖI TỰ ĐỘNG

với T là một chuỗi từ loại của W, T = t1. . . tn và P(ti|ti−2ti−1) là xác suất trigram từ loại.

Một mơ hình khác để tìm và sửa lỗi chính tả là áp dụng bộ phân lớp Bayes. Có thể xem đây là bài toán phân lớp từ dựa vào một tập các đặc trưng. Từ cần xét là từ nằm trong tập nhầm lẫn, ta sẽ xét từ này và các từ khác trong tập nhầm lẫn trong cùng ngữ cảnh. Tập đặc trưng chính là ngữ cảnh của từ cần xét. Tập đặc trưng được rút trích từ câu đang xét. Các đặc trưng và cách rút trích đặc trưng tương tự như trong mơ hình Winnow.

Mơ hình Trigram và Bayes, mỗi cái có điểm mạnh riêng. Mơ hình trigram hoạt động tốt nếu những từ trong tập nhầm lẫn không cùng từ loại. Ngược lại, khi không thể phân biệt dựa trên từ loại, mơ hình Bayes sẽ hoạt động tốt hơn do dựa vào các thông tin về cú pháp, ngữ cảnh xung quanh. Do đó, giải pháp tốt nhất là kết hợp hai mơ hình này với nhau. Đầu tiên ta áp dụng mơ hình Trigram. Trong quá trình xử lý, nếu thấy mọi từ trong tập nhầm lẫn đều cùng từ loại, ta áp dụng mơ hình Bayes. Ngược lại, ta sẽ chấp nhận kết quả của mơ hình Trigram. Giải pháp này được áp dụng trong [GS96], tạo ra mơ hình Tribayes.

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 67 - 68)

Tải bản đầy đủ (PDF)

(172 trang)