Tính điểm theo Bigram (Bigram scoring BGS)

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 36)

Tính điểm theo Bigram là một phƣơng pháp khác để phát hiện luật adhoc dựa trên tính toán điểm số thực bằng cách tập trung đặc biệt vào những gì mà các lớp không có điểm chung. Thay vì tính toán, so sánh trên tính toàn vẹn của chúng, phƣơng pháp này trích ra một luật từ những phần cấu thành của nó, tƣơng tự với đặc tính sử dụng thông tin về n-gram của nút vế phải trong mô hình phân tích cú pháp.

Không mất tính tổng quát, Dickinson thêm vào mỗi luật cặp thẻ START và END. Điểm số của các luật đƣợc tính toán nhƣ sau:

1. Rút gọn luật theo khái niệm lớp tƣơng đƣơng hẹp.

2. Tính tần suất của các cặp bigram <mother, bigram>. Mỗi lần xuất hiện của cặp <mother, bigram> đƣợc tính 1 điểm.

3. Gán điểm thấp nhất của cặp bigram cho luật.

Theo Dickinson, gán điểm thấp nhất cho luật bởi vì chúng ta quan tâm đến những tần số bất thƣờng. Đây cũng là ý tƣởng của Kv etion và Oliva (2002), ngƣời mà đã xác định các bigram không hợp lệ cho tần suất nhãn POS trong việc phát hiện những lỗi bất thƣờng. Theo phƣơng pháp này, ta cần tìm ra những luật nào chứa ít phần tử đƣợc sử dụng (điểm Bigram thấp) là những luật có khả năng chứa lỗi.

Trong Treebank, chúng ta xem ví dụ, NP → NP DT NNP đƣợc viết lại theo Bigram (START NP), (NP DT), (DT NNP), và (NNP END). Tất cả các cặp bigram đều tƣơng đối phổ biến (mỗi thành phần xuất hiện hơn 100 lần), ngoại trừ NP DT chỉ xuất hiện trong 2 loại luật. Thực vậy, DT là thẻ không chính xác (NNP là chính xác).

Khi tìm luật adhoc theo phƣơng pháp tính điểm trên toàn vế phải (WDS) đôi khi gặp lỗi do phƣơng pháp này không xem xét chính xác các nhãn. Phƣơng pháp tính điểm Bigram (BGS) có thể xem xét từng cặp nhƣng vẫn có thể xảy ra lỗi khi xem tổng thể một luật. Ví dụ: NP → NNP CC NP có đƣợc điểm số lớn (1905) bởi vì mỗi chuỗi con là khá phổ biến. Nhƣng những chuỗi chính xác thƣờng hiếm (NNP và NP thƣờng ít đi cùng nhau).

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 36)

Tải bản đầy đủ (PDF)

(49 trang)