vào danh sách g丑i là stop list. A嘘i v噂i ti院ng Anh hay ti院ng Vi羽t 8隠u có danh sách stop list. Chi ti院t v隠 quá trình l壱p ch雨 m映c s胤"8逢嬰c mô t違"荏 ch逢挨ng IV: L壱p ch雨 m映c.
3.3 Tìm ki院m
Ng逢運i dùng nh壱p câu h臼i và yêu c亥u tìm ki院m, câu h臼i mà ng逢運i dùng nh壱p vào e ng s胤"8逢嬰c x穎 lý, ngh a là ta s胤 tách t瑛 cho câu h臼i. Ph逢挨ng pháp tách t瑛 cho câu h臼i e ng nên là ph逢挨ng pháp tách t瑛 cho các tài li羽u thu th壱p 8逢嬰c 8吋"8違m b違o s詠 t逢挨ng thích. Sau 8ó, h羽 th嘘ng s胤 tìm ki院m trong t壱p tin ch雨 m映c 8吋 xác 8鵜nh các tài li羽u liên quan 8院n câu h臼i c栄a ng逢運i dùng.
3.4 U逸p x院p các tài li羽u tr違 v隠 (Ranking)
Các tài li羽u sau khi 8ã xác 8鵜nh là liên quan 8院n câu h臼i c栄a ng逢運i dùng s胤"8逢嬰c u逸p x院p l衣i, b荏i vì trong các tài li羽u 8ó có nh英ng tài li羽u liên quan 8院n câu h臼i nhi隠u j挨n. H羽 th嘘ng s胤 d詠a vào m瓜t s嘘 ph逢挨ng pháp 8吋 xác 8鵜nh tài li羽u nào liên quan nhi隠u nh医t, s逸p x院p l衣i (ranking) và tr違 v隠 cho ng逢運i dùng theo th泳 t詠"逢u tiên.
4. Nh英ng khó kh<n trong vi羽c xây d詠ng m瓜t h羽 th嘘ng tìm ki院mthông tin ti院ng Vi羽t thông tin ti院ng Vi羽t
Hi羽n nay, chúng ta 8ã quen thu瓜c v噂i r医t nhi隠u công c映 h厩 tr嬰 vi羽c tìm ki院m thông tin nh逢 Google, Yahoo Search, AltaVista, …. Tuy nhiên, 8ây là các công c映 c栄a ng逢運i n逢噂c ngoài nên chúngch雨 gi違i quy院t t嘘t 8嘘i v噂i các yêu c亥u c栄a h丑. Chúng ta e ng có m瓜t s嘘 công c映 h厩 tr嬰 tìm ki院m thông tin ti院ng Vi羽t nh逢: Vinaseek, NetNam,…Các công c映 này c ng tách t瑛 ch栄 y院u d詠a vào kho違ng tr逸ng nên vi羽c tìm ki院m c ng ch逢a 8逢嬰c c違i thi羽n. Nhìn chung, 8吋 xây d詠ng m瓜t h羽 th嘘ng tìm ki院m thông
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
tin ti院ng Vi羽t, chúng ta g員p khó kh<n trong vi羽c tách t瑛 ti院ng Vi羽t và xác 8鵜nh b違ng mã ti院ng Vi羽t.
4.1 Khó kh<n trong vi羽c tách t瑛 ti院ng Vi羽t
Có th吋 nói tách t瑛 là giai 8q衣n khó kh<n nh医t khi xây d詠ng m瓜t h羽 tìm ki院m thông tin ti院ng Vi羽t. A嘘i v噂i ti院ng Anh, vi羽c xác 8鵜nh t瑛 ch雨"8挨n gi違n d詠a vào kho違ng tr逸ng 8吋 tách t瑛. Ví d映, câu: “I am a student” s胤"8逢嬰c tách thành 4 t瑛 : I, am, a, student. Tuy nhiên, 8嘘i v噂i ti院ng Vi羽t, tách d詠a vào kho違ng tr逸ng ch雨 thu 8逢嬰c các ti院ng. T瑛 có th吋"8逢嬰c ghép t瑛 m瓜t hay nhi隠u ti院ng. T瑛 ph違i có ý ngh a hoàn ch雨nh và có c医u t衣o 鰻n 8鵜nh. Câu: “Tôi là m瓜t sinh viên” 8逢嬰c tách thành 4 t瑛: Tôi, là, m瓜t, sinh viên. Trong 8ó, t瑛 “sinh viên” 8逢嬰c hình thành t瑛 2 ti院ng: sinh và viên.
Hi羽n nay, có r医t nhi隠u ph逢挨ng pháp 8逢嬰c s穎 d映ng 8吋 tách t瑛 ti院ng Vi羽t. Tuy nhiên, v噂i s詠 ph泳c t衣p c栄a ng英 pháp ti院ng Vi羽t nên ch逢a có ph逢挨ng pháp nào 8衣t 8逢嬰c chính xác 100%. Và vi羽c l詠a ch丑n ph逢挨ng pháp nào là t嘘t nh医t c ng 8ang là v医n 8隠 tranh cãi.
4.2 X医n 8隠 b違ng mã ti院ng Vi羽t
Không nh逢 ti院ng Anh, ti院ng Vi羽t có r医t nhi隠u b違ng mã 8òi h臼i ph違i x穎 lý. M瓜t u嘘 công c映 tìm ki院m ti院ng Vi羽t h厩 tr嬰 b違ng mã r医t t嘘t nh逢 Vinaseek, h厩 tr嬰 m丑i b違ng mã (VNI, TCVN3, ViQR,…).
4.3 Các khó kh<n khác
Ti院ng Vi羽t có các t瑛"8欝ng ngh a nh逢ng khác âm. Các công c映 hi羽n nay không j厩 tr嬰 vi羽c xác 8鵜nh các t瑛"8欝ng ngh a. Vì v壱y, k院t qu違 tr違 v隠 s胤 không 8亥y 8栄.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
Ng逢嬰c l衣i, có nh英ng t瑛"8欝ng âm khác ngh a. Các h羽 th嘘ng s胤 tr違 v隠 các tài li羽u có ch泳a các t瑛"8ã 8逢嬰c tách trong câu h臼i mà không c亥n xác 8鵜nh chúng có th詠c u詠 liên quan hay không. Vì v壱y, k院t qu違 tr違 v隠 s胤 không chính xác.
O瓜t s嘘 t瑛 xu医t hi羽n r医t nhi隠u nh逢ng không có ý ngh a trong tài li羽u. Các t瑛 nh逢: và, v噂i, nh逢ng,… có t亥n s嘘 xu医t hi羽n r医t l噂n trong b医t c泳 v<n b違n nào. N院u tìm cách tr違 v隠 các tài li羽u có ch泳a nh英ng t瑛 này s胤 thu 8逢嬰c k院t qu違 vô ích, không e亥n thi院t. Do 8ó, chúng ta c亥n tìm cách lo衣i b臼 các t瑛 này tr逢噂c khi tìm ki院m.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
Ch逢挨ng 3: TÁCH T洩 T衛"A浦NG
Tr逢噂c khi l壱p ch雨 m映c là giai 8q衣n tách t瑛 cho các tài li羽u, 8ây là công vi羽c quan tr丑ng trong m瓜t h羽 th嘘ng tìm ki院m thông tin. A嘘i v噂i ti院ng Anh ch雨"8挨n gi違n d詠a vào kho違ng tr逸ng 8吋 tách t瑛. Nh逢ng 8嘘i v噂i ti院ng Vi羽t không th吋 d詠a vào kho違ng tr逸ng 8逢嬰c vì ti院ng Vi羽t là ngôn ng英"8挨n l壱p.
Hi羽n nay, có r医t nhi隠u ph逢挨ng pháp 8逢嬰c 8隠 xu医t 8吋 tách t瑛 cho ti院ng Vi羽t, nh逢ng v磯n ch逢a th嘘ng nh医t là ph逢挨ng pháp nào t嘘t nh医t. Ch逢挨ng này s胤 trình bày chi ti院t v隠 m瓜t s嘘 ph逢挨ng pháp tách t瑛.
1. Tách t瑛 trong Ti院ng Anh
Do 8員c 8k吋m ng英 pháp c栄a ti院ng Anh, tách t瑛 ch雨" 8挨n gi違n d詠a vào kho違ng tr逸ng 8吋 phân bi羽t t瑛.
2. Tách t瑛 trong Ti院ng Vi羽t
2.1 O瓜t s嘘"8員c 8k吋m chính v隠 t瑛 ti院ng Vi羽t [2.2]
2.1.1 Ti院ng
X隠 m員t ng英 âm, ti院ng là âm ti院t. Âm ti院t bao g欝m nh英ng 8挨n v鵜"荏 b壱c th医p h挨n g丑i là âm v鵜. M厩i âm v鵜"8逢嬰c ghi b茨ng m瓜t ký t詠 g丑i là ch英.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép X隠 m員t ng英 ngh a, ti院ng là 8挨n v鵜 nh臼 nh医t có ngh a, nh逢ng c ng có m瓜t s嘘 ti院ng không có ngh a. X隠 giá tr鵜 ng英 pháp, ti院ng là 8挨n v鵜 c医u t衣o t瑛. S穎 d映ng ti院ng 8吋 t衣o thành t瑛, ta có hai tr逢運ng h嬰p nh逢 sau: V瑛 m瓜t ti院ng: g丑i là t瑛"8挨n. Tr逢運ng h嬰p này m瓜t t瑛 ch雨 có m瓜t ti院ng. Ví d映 nh逢: ông, bà, …
V瑛 hai ti院ng tr荏 lên: g丑i là t瑛 ph泳c. Tr逢運ng h嬰p này m瓜t t瑛 có th吋 có hai hay nhi隠u ti院ng tr荏 lên. Ví d映 nh逢: xã h瓜i, an ninh, h嬰p tác xã,…
2.1.2 V瑛
V瑛 là 8挨n v鵜 nh臼 nh医t 8吋 t衣o thành câu. Trong 8員t câu, chúng ta dùng t瑛 ch泳 không dùng ti院ng.
2.2 Tách t瑛 t詠"8瓜ng ti院ng Vi羽t
Tách t瑛 t詠"8瓜ng ti院ng Vi羽t d詠a trên m瓜t s嘘 ph逢挨ng pháp có s印n. Sau 8ây chúng ta s胤 nghiên c泳u m瓜t s嘘 ph逢挨ng pháp 8逢嬰c s穎 d映ng 8吋 tách t瑛 cho các v<n b違n ti院ng Vi羽t.
3. Các ph逢挨ng pháp tách t瑛 ti院ng Vi羽t
3.1 fnTBL (Fast Transformation-based learning) [3.1]
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
Ý t逢荏ng chính c栄a ph逢挨ng pháp h丑c d詠a trên s詠 bi院n 8鰻i (TBL) là 8吋 gi違i quy院t o瓜t v医n 8隠 nào 8ó ta s胤 áp d映ng các phép bi院n 8鰻i, t衣i m厩i b逢噂c, phép bi院n 8鰻i nào cho m院t qu違 t嘘t nh医t s胤"8逢嬰c ch丑n và 8逢嬰c áp d映ng l衣i v噂i v医n 8隠"8ã 8逢a ra. Thu壱t toán k院t thúc khi không còn phép bi院n 8鰻i nào 8逢嬰c ch丑n. H羽 th嘘ng fnTBL g欝m hai t壱p tin chính:
Vfp tin dの liうu hがc (Training): T壱p tin d英 li羽u h丑c 8逢嬰c làm th栄 công, 8òi h臼i
8瓜 chính xác. M厩i m磯u (template) 8逢嬰c 8員t trên m瓜t dòng riêng bi羽t. Ví d映: t壱p f英 li羽u h丑c cho vi羽c xác 8鵜nh t瑛 lo衣i c栄a m瓜t v<n b違n có th吋 có 8鵜nh d衣ng nh逢 sau:
Công ty danhtu An Aông danhturieng d鵜 dongtu
giám sát dongtu
Trong ví d映 này m厩i m磯u g欝m có hai ph亥n: ph亥n 8亥u tiên là t瑛, ph亥n th泳 hai là t瑛 lo衣i t逢挨ng 泳ng.
Vfp tin chとa các mdu luft (rule-template): M厩i lu壱t 8逢嬰c 8員t trên m瓜t dòng, h羽 th嘘ng fTBL s胤 d詠a vào các m磯u lu壱t 8吋 áp d映ng vào t壱p tin d英 li羽u h丑c. Ví d映:
chunk_-2 chunk_-1 => chunk
Áp d映ng 8嘘i v噂i vi羽c xác 8鵜nh t瑛 lo衣i, v噂i chunk_-2 = 8瓜ng t瑛, chunk_- 1= s嘘 t瑛, chunk=danh t瑛 thì lu壱t trên có ý ngh a nh逢 sau: n院u hai t瑛 tr逢噂c 8ó là 8瓜ng t瑛 và s嘘 t瑛 thì chuy吋n t瑛 lo衣i hi羽n hành thành danh t瑛.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
Sau khi nghiên c泳u v隠 fnTBL, chúng em nh壱n th医y có th吋 áp d映ng ph逢挨ng pháp này 8吋 tách t瑛 cho ti院ng Vi羽t, ch雨 c亥n thay 8鰻i m瓜t s嘘"8鵜nh d衣ng cho phù h嬰p.
Xây dばng tfp tin dの liうu hがc:V壱p tin d英 li羽u cho vi羽c tách t瑛 ti院ng Vi羽t có d衣ng nh逢 sau: Vì B sao B công B ty I Vi羽t B Hà I d鵜 B 8員t B vào B tình B tr衣ng I …. Các ký t詠 B, I g丑i là các chunk và có ý ngh a nh逢 sau: Ti院ng có chunk=B ngh a là ti院ng 8ó b逸t 8亥u m瓜t t瑛 (begin) Ti院ng có chunk=I ngh a là ti院ng 8ó n茨m 荏 trong m瓜t t瑛 (inside)
Trong ví d映 trên, ta có 8逢嬰c các t瑛: Vì, sao, công ty, Vi羽t Hà, b鵜, 8員t, vào, tình tr衣ng, …
Xây dばng tfp tin chとa các mdu luft: Sau khi tìm hi吋u v隠 t瑛 trong ti院ng Vi羽t, chúng em xây d詠ng 8逢嬰c 3 lu壱t áp d映ng cho vi羽c tách t瑛 ti院ng Vi羽t nh逢 sau:
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk
3.1.2.1 Quá trình h丑c
(1) T瑛 t壱p d英 li羽u h丑c xây d詠ng t瑛"8k吋n các t瑛 (2) Kh荏i t衣o các t瑛
(3) Rút ra t壱p lu壱t
雲 b逢噂c (1) t瑛 t壱p d英 li羽u h丑c 8ã có s印n, s穎 d映ng ph逢挨ng pháp th嘘ng kê s ta s胤 có t瑛"8k吋n các ti院ng (Lexicon). Các ti院ng có th吋 xu医t hi羽n trong các t瑛 v噂i các chunk khác nhau, ta s胤 ghi nh壱n l衣i s嘘 l亥n xu医t hi羽n c栄a m厩i ti院ng v噂i các chunk t逢挨ng 泳ng. Ví d映, 8嘘i v噂i t瑛 “công ty” thì ti院ng “công” có chunk=B nh逢ng trong t瑛 “c栄a công” thì ti院ng công có chunk=I.
雲 b逢噂c (2) t瑛 t壱p d英 li羽u h丑c, t衣o ra t壱p d英 li羽u h丑c không có chunk b茨ng cách xóa h院t các chunk t逢挨ng 泳ng. T壱p d英 li羽u m噂i này s胤"8逢嬰c s穎 d映ng 8吋 kh荏i t衣o l衣i các chunk thông d映ng nh医t d詠a vào t瑛"8k吋n.
雲 b逢噂c (3) so sánh t壱p d英 li羽u h丑c v噂i t壱p d英 li羽u 8ang xét, d詠a vào các m磯u lu壱t 8ã cho, ta s胤 rút ra 8逢嬰c các lu壱t 泳ng viên, 泳ng v噂i m厩i lu壱t 泳ng viên ta l衣i áp d映ng vào t壱p d英 li羽u 8ang xét và tính 8k吋m cho nó (d詠a vào s嘘 l厩i phát sinh khi so sánh v噂i v壱p d英 li羽u h丑c là t壱p d英 li羽u chu育n). Ch丑n lu壱t có 8k吋m cao nh医t và l噂n h挨n m瓜t ng逢叡ng cho tr逢噂c 8吋"8逢a vào danh sách lu壱t 8逢嬰c ch丑n.
M院t qu違 ta s胤"8逢嬰c m瓜t t壱p các lu壱t 8逢嬰c ch丑n. Các lu壱t có d衣ng nh逢 sau: SCORE:414 RULE: chunk_0=B word_0=t院 => chunk=I
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I SCORE:231 RULE: chunk_0=B word_0=8瓜ng => chunk=I SCORE:205 RULE: chunk_0=B word_0=nghi羽p => chunk=I
SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri吋n => chunk=I SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h瓜i => chunk=I SCORE:109 RULE: chunk_0=B word_-1=8亥u word_0=t逢 => chunk=I SCORE:100 RULE: chunk_0=B word_0=th吋 => chunk=I
雲 dòng 2 ta có lu壱t: n院u t瑛 hi羽n hành là “công” (word_0=công) và t瑛 tr逢噂c 8ó là “c栄a” (word_-1=c栄a) và chunk c栄a t瑛 hi羽n hành là B ( chunk_0=B) thì chuy吋n chunk e栄a t瑛 hi羽n hành là I , ngh a là “c栄a công” ph違i là m瓜t t瑛.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
Hình 3-1 Quá trình h丑c 3.1.2.2 Xác 8鵜nh t瑛 cho tài li羽u m噂i
(1) Tài li羽u m噂i 8逢a vào ph違i có 8鵜nh d衣ng gi嘘ng nh逢 t壱p tin d英 li羽u h丑c, ngh a là m厩i ti院ng trên m瓜t dòng.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
(3) Áp d映ng các lu壱t có 8逢嬰c t瑛 giai 8q衣n h丑c vào tài li羽u 8ang xét ta s胤 tách 8逢嬰c các t瑛 hoàn ch雨nh.
Giai 8q衣n xác 8鵜nh t瑛 cho tài li羽u m噂i 8逢嬰c mô t違 nh逢 sau:
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
3.2 Longest Matching [1.4]
Ph逢挨ng pháp Longest Matching tách t瑛 d詠a vào t瑛"8k吋n có s印n.
Theo ph逢挨ng pháp này, 8吋 tách t瑛 ti院ng Vi羽t ta 8i t瑛 trái sang ph違i và ch丑n t瑛 có nhi隠u âm ti院t nh医t mà có m員t trong t瑛"8k吋n, r欝i c泳 ti院p t映c cho t瑛 k院 ti院p cho 8院n h院t câu. V噂i cách này, ta d宇 dàng tách 8逢嬰c chính xác các ng英/câu nh逢: ”h嬰p tác| mua bán”; “thành l壱p| n逢噂c|Vi羽t Nam| dân ch栄 |c瓜ng hòa”…Tuy nhiên, ph逢挨ng pháp này s胤 tách t瑛 sai trong tr逢運ng h嬰p nh逢: “h丑c sinh |h丑c sinh |h丑c”; “m瓜t| ông | quan tài | gi臼i”, “tr逢噂c | bàn là | m瓜t | ly| n逢噂c”,…
3.3 M院t h嬰p gi英a fnTBL và Longest Matching
Chúng ta có th吋 k院t h嬰p gi英a hai ph逢挨ng pháp fnTBL và Longest Matching 8吋 có 8逢嬰c k院t qu違 tách t瑛 t嘘t nh医t. A亥u tiên ta s胤 tách t瑛 b茨ng Longest Matching, 8亥u ra e栄a ph逢挨ng pháp này s胤 là 8亥u vào cho ph逢挨ng pháp fnTBL h丑c lu壱t.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
Ch逢挨ng 4:N一P CH迂 M影C 1. Khái quát v隠 h羽 th嘘ng l壱p ch雨 m映c
O瓜t cách 8吋 t<ng t嘘c 8瓜 tìm ki院m thông tin lên là t衣o ch雨 m映c cho các tài li羽u. Tuy nhiên, vi羽c l壱p ch雨 m映c có m瓜t nh逢嬰c 8k吋m l噂n, 8ó là khi thêm m瓜t tài li羽u m噂i, ph違i c壱p nh壱t l衣i t壱p tin ch雨 m映c. Nh逢ng 8嘘i v噂i h羽 th嘘ng tìm ki院m thông tin, ch雨 c亥n e壱p nh壱t l衣i t壱p tin ch雨 m映c vào m瓜t kho違ng th運i gian 8鵜nh k . Do 8ó, ch雨 m映c là m瓜t công c映 r医t có giá tr鵜.
N壱p ch雨 m映c bao g欝m các công vi羽c sau:
Xác 8鵜nh các t瑛 có kh違 n<ng 8衣i di羽n cho n瓜i dung c栄a tài li羽u
Aánh tr丑ng s嘘 cho các t瑛 này, tr丑ng s嘘 ph違n ánh t亥m quan tr丑ng c栄a t瑛 trong m瓜t tài li羽u.
2. Ph逢挨ng pháp l壱p ch雨 m映c [1.1]
2.1 Xác 8鵜nh các t瑛 ch雨 m映c
Cho m瓜t t壱p g欝m có n tài li羽u. V噂i m厩i tài li羽u, tính t亥n s嘘 c栄a m厩i t瑛 riêng bi羽t trong tài li羽u 8ó. G丑i FREQik: là t亥n s嘘 xu医t hi羽n c栄a t瑛 k trong tài li羽u i.
Xác 8鵜nh t亥n s嘘 c栄a t瑛 k trong t壱p tài li羽u, ký hi羽u là TOTFREQk b茨ng cách tính t鰻ng t亥n s嘘 xu医t hi羽n c栄a k trong t医t c違 n tài li羽u:
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép TOTFREQK = ik 1 FREQ n i= ∑
U逸p x院p các t瑛 gi違m d亥n d詠a vào t亥n s嘘 xu医t hi羽n c栄a nó trong t壱p tài li羽u. Xác 8鵜nh giá tr鵜 ng逢叡ng cao và lo衣i b臼 t医t c違 các t瑛 có t亥n s嘘 xu医t hi羽n l噂n h挨n giá tr鵜 này.
V逢挨ng t詠, lo衣i b臼 các t瑛 có t亥n s嘘 th医p . Ngh a là, xác 8鵜nh ng逢叡ng th医p và lo衣i b臼 t医t c違 các t瑛 có t亥n s嘘 xu医t hi羽n nh臼 h挨n giá tr鵜 này. Ak隠u này s胤 lo衣i b臼 các v瑛 ít xu医t hi羽n trong t壱p tài li羽u, nên s詠 có m員t c栄a các t瑛 này c ng không 違nh h逢荏ng 8院n vi羽c th詠c hi羽n truy v医n.
Các t瑛 có t亥n s嘘 xu医t hi羽n trung bình còn l衣i s胤"8逢嬰c s穎 d映ng làm t瑛 ch雨 o映c.
Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép
2.2 Các ph逢挨ng pháp tính tr丑ng s嘘 c栄a t瑛
Tr丑ng s嘘 c栄a m瓜t t瑛 ph違n ánh t亥m quan tr丑ng c栄a t瑛"8ó trong tài li羽u. Ý t逢荏ng chính là m瓜t t瑛 xu医t hi羽n th逢運ng xuyên trong t医t c違 các tài li羽u thì ít quan tr丑ng h挨n là v瑛 ch雨 xu医t hi羽n t壱p trung trong m瓜t s嘘 tài li羽u.
2.2.1 V亥n s嘘 tài li羽u ngh鵜ch 8違o
Aây là ph逢挨ng pháp tính tr丑ng s嘘 mà mô hình không gian vector 8ã s穎 d映ng 8吋 tính tr丑ng s嘘 c栄a t瑛 trong tài li羽u.
n: s嘘 t瑛 phân bi羽t trong t壱p tài li羽u
FREQik: s嘘 l亥n xu医t hi羽n c栄a t瑛 k trong tài li羽u Di (t亥n s嘘 t瑛)