Tính điểm theo Bigram (Bigram scoring BGS)

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt 04 (Trang 36)

CHƢƠNG 3 : PHƢƠNG PHÁP PHÁT HIỆN LỖI DICKINSON

3.4. Tính điểm theo Bigram (Bigram scoring BGS)

Tính điểm theo Bigram là một phƣơng pháp khác để phát hiện luật adhoc dựa trên tính tốn điểm số thực bằng cách tập trung đặc biệt vào những gì mà các lớp khơng có điểm chung. Thay vì tính tốn, so sánh trên tính tồn vẹn của chúng, phƣơng pháp này trích ra một luật từ những phần cấu thành của nó, tƣơng tự với đặc tính sử dụng thơng tin về n-gram của nút vế phải trong mơ hình phân tích cú pháp.

Khơng mất tính tổng qt, Dickinson thêm vào mỗi luật cặp thẻ START và END. Điểm số của các luật đƣợc tính tốn nhƣ sau:

1. Rút gọn luật theo khái niệm lớp tƣơng đƣơng hẹp.

2. Tính tần suất của các cặp bigram <mother, bigram>. Mỗi lần xuất hiện của cặp <mother, bigram> đƣợc tính 1 điểm.

3. Gán điểm thấp nhất của cặp bigram cho luật.

Theo Dickinson, gán điểm thấp nhất cho luật bởi vì chúng ta quan tâm đến những tần số bất thƣờng. Đây cũng là ý tƣởng của Kv etion và Oliva (2002), ngƣời mà đã xác định các bigram không hợp lệ cho tần suất nhãn POS trong việc phát hiện những lỗi bất thƣờng. Theo phƣơng pháp này, ta cần tìm ra những luật nào chứa ít phần tử đƣợc sử dụng (điểm Bigram thấp) là những luật có khả năng chứa lỗi.

Trong Treebank, chúng ta xem ví dụ, NP → NP DT NNP đƣợc viết lại theo Bigram (START NP), (NP DT), (DT NNP), và (NNP END). Tất cả các cặp bigram đều tƣơng đối phổ biến (mỗi thành phần xuất hiện hơn 100 lần), ngoại trừ NP DT chỉ xuất hiện trong 2 loại luật. Thực vậy, DT là thẻ khơng chính xác (NNP là chính xác).

Khi tìm luật adhoc theo phƣơng pháp tính điểm trên tồn vế phải (WDS) đơi khi gặp lỗi do phƣơng pháp này không xem xét chính xác các nhãn. Phƣơng pháp tính điểm Bigram (BGS) có thể xem xét từng cặp nhƣng vẫn có thể xảy ra lỗi khi xem tổng thể một luật. Ví dụ: NP → NNP CC NP có đƣợc điểm số lớn (1905) bởi vì mỗi chuỗi con là khá phổ biến. Nhƣng những chuỗi chính xác thƣờng hiếm (NNP và NP thƣờng ít đi cùng nhau).

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt 04 (Trang 36)

Tải bản đầy đủ (PDF)

(49 trang)