Trích x ut các c mt th ngs d ng

Một phần của tài liệu Phương pháp thêm tiếng việt có dấu và văn bản tiếng việt không dấu (Trang 40 - 42)

ây là 1 ph ng pháp t ng i n gi n rút trích ra 1 s c m t th ng s d ng. Ta d a vào t n LLOCE ti ng Vi t rút ra các c m t , chú ý là, trong quá trình rút trích, ta ch quan tâm n các c m t ch ch a các t t o nên s nh p nh ng khi lo i b d u (nh t “tôi”, “t i”, “t i” khi lo i b s t o thành t “toi”à nh p nh ng) t ó, th ng kê trên kho ng li u 150MB b c trên, rút ra các c m t th ng s d ng. Các c m t này s

c l u nh sau :

i dòng có c u trúc sau :

<T chính trong c m t > {TAB <v trí | chu i | chu i>} (1,n)

Mô t :

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

- chính trong c m t : là t có d u. T này, sau khi b d u, thì t không d u này

có nhi u t có d u t ng ng (t gây nh p nh ng). T p tin CumTu.txt ch xét các c m t có ch a các chính t o nên s nh p nh ng này thôi.

- trí : ch v trí c a <T chính trong c m t > trong c m t ó so v i <chu i>, có các giá tr sau:

o trí = 0 : nói lên r ng, <T chính trong c m t > ng gi a 2 <chu i>, và chu i tr c <T chính> s c ghi tr c, 2 <chu i> s cách nhau b i kí t phân cách ‘|’

o trí = 1 : nói lên r ng, <T chính trong c m t > ng sau <chu i>, khi ó, ch xu t hi n 1 <chu i> trong c m t

o trí =2 : nói lên r ng, <T chính trong c m t > ng tr c <chu i>, khi ó, ch xu t hi n 1 <chu i> trong c m t

Ví d 3-9:

món 2| n à c m t “món n”, t chính là “món” ng tr c “ n”

u 0|môn|bóng à c m t “môn u bóng”, t chính là “ u” ng tr c “bóng” và ng sau “môn”

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 3.2-12 :Trích t p tin CumTu.txt

Một phần của tài liệu Phương pháp thêm tiếng việt có dấu và văn bản tiếng việt không dấu (Trang 40 - 42)