ây là 1 ph ng pháp t ng i n gi n rút trích ra 1 s c m t th ng s d ng. Ta d a vào t n LLOCE ti ng Vi t rút ra các c m t , chú ý là, trong quá trình rút trích, ta ch quan tâm n các c m t ch ch a các t t o nên s nh p nh ng khi lo i b d u (nh t “tôi”, “t i”, “t i” khi lo i b s t o thành t “toi”à nh p nh ng) t ó, th ng kê trên kho ng li u 150MB b c trên, rút ra các c m t th ng s d ng. Các c m t này s
c l u nh sau :
i dòng có c u trúc sau :
<T chính trong c m t > {TAB <v trí | chu i | chu i>} (1,n)
Mô t :
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
- chính trong c m t : là t có d u. T này, sau khi b d u, thì t không d u này
có nhi u t có d u t ng ng (t gây nh p nh ng). T p tin CumTu.txt ch xét các c m t có ch a các chính t o nên s nh p nh ng này thôi.
- trí : ch v trí c a <T chính trong c m t > trong c m t ó so v i <chu i>, có các giá tr sau:
o trí = 0 : nói lên r ng, <T chính trong c m t > ng gi a 2 <chu i>, và chu i tr c <T chính> s c ghi tr c, 2 <chu i> s cách nhau b i kí t phân cách ‘|’
o trí = 1 : nói lên r ng, <T chính trong c m t > ng sau <chu i>, khi ó, ch xu t hi n 1 <chu i> trong c m t
o trí =2 : nói lên r ng, <T chính trong c m t > ng tr c <chu i>, khi ó, ch xu t hi n 1 <chu i> trong c m t
Ví d 3-9:
món 2| n à c m t “món n”, t chính là “món” ng tr c “ n”
u 0|môn|bóng à c m t “môn u bóng”, t chính là “ u” ng tr c “bóng” và ng sau “môn”
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 3.2-12 :Trích t p tin CumTu.txt