Tính điểm theo vế phải (Whole daughters scoring WDS)

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 35)

Mục tiêu của việc tính điểm này là tìm ra những luật dị thƣờng (luật adhoc) bằng cách xác định những luật có điểm số thấp, đó là những luật đƣợc dự đoán là lỗi. Đây là một trong hai phƣơng pháp phát hiện luật ad hoc bằng cách tính toán trực tiếp cho các luật tƣơng tự thông qua các lớp tƣơng đƣơng của Dickinson. Mỗi kiểu luật đƣợc gán một điểm số thực, đƣợc tính theo các bƣớc sau:

1. Rút gọn luật theo khái niệm lớp tƣơng đƣơng hẹp

2. Mỗi lần xuất hiện của luật rút gọn trong lớp tƣơng đƣơng hẹp này thì đƣợc tính 1 điểm.

3. Mỗi lần xuất hiện của luật rút gọn trong lớp có độ tƣơng tự cao thì đƣợc tính 0,5 điểm.

Hai luật có độ tƣơng tự cao là hai luật chỉ sai khác nhau một khoảng cách Levenshtein. Trong đó, khoảng cách Levenshtein chỉ sử dụng hai phép chèn và xóa, không sử dụng phép thay thế.

Điểm số cho mỗi luật là tổng số điểm gán cho luật đó. Xét tập các luật cùng số lần xuất hiện của luật:

NP → N N (40) NP → N N VP (20) NP → L N N (15) NP → L N N PP (30)

Trong lớp trên, luật NP → N N có độ tƣơng tự cao với tất cả các luật còn lại. Luật NP → L N N có độ tƣơng tự cao với NP → L N N và NP → L N N PP.

Điểm số tính cho luật NP → N N: 40*1 + 20*0.5 + 15*0.5 + 30*0.5 = 72.5 Điểm số tính cho luật NP → L N N: 15*1 + 30*0.5 = 30.

Theo phƣơng pháp này, các luật càng xuất hiện nhiều thì càng đáng tin cậy, những luật quan sát đƣợc ít (điểm số thấp) là những luật có khả năng chứa lỗi.

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 35)