1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm văn bản tiếng Việt

78 374 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 505 KB

Nội dung

Mô hình xác định từ đại diện cho văn bản

MỤC LỤC MỤC LỤC 1 Hình 1: Mô hình xác định từ đại diện cho văn bản 13 .5 Hình 2: Truy vấn văn bản 21 5 Hình 3: Thu nhỏ kích thước qua SVD. 29 5 Hình 4. Kiến trúc của hệ thống 55 .5 Hình 5: Tổ chức lưu trữ từ điển 57 5 Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản 58 5 Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản 59 .5 Hình 8: Giao diện thực hiện tính không gian dung sai cho các term 65. .5 Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản. 68 .5 Hình 10: Giao diện phục vụ tìm kiếm văn bản 69 5 LỜI MỞ ĐẦU 1 PHẦN I. CƠ SỞ LÝ THUYẾT .3 I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT___________________3 1.Tính chính xác của văn bản tiếng Việt 3 2. Từ tiếng Việt .4 2.1. Từ đơn_từ ghép 5 2.2. Từ loại .6 2.3. Dùng từ cấu tạo ngữ .7 3. Câu tiếng Việt .7 3.1 Câu đơn 8 4. Các đặc điểm của tiếng Việt .10 4.1 Đặc điểm chính tả 11 4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ .12 II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN 13 1. Biểu diễn văn bản .13 Sinh từ ( Term Generation) 14 Lọc từ (Term Filter) .15 2. Các kỹ thuật khai phá 15 2.1. Khai phá các luật kết hợp (Association Rules) .16 2.2. Lập chỉ mục tự động (Auto indexing) 17 3. Phân nhóm văn bản .18 III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN___________20 1. Tìm hiểu chung về các hệ thống khai thác thông tin .20 2. Tìm kiếm văn bản theo mô hình không gian vectơ 21 2.1 Độ chính xác và độ truy hồi .21 2.2 Bảng tần xuất. .23 2.3 Chỉ dẫn ngữ nghĩa tiềm ẩn (Latent Sematic Indexing LSI) .25 2.4.Tìm kiếm tài liệu dùng SVD 32 2.5. TV_Tree 33 2.5.1. Thiết lập TV_Tree .33 2.5.2.Chèn vào TV_Tree .34 2.5.3.Tìm kiếm trên TV_Tree 36 3. Tìm kiếm văn bản theo mô hình tập thô dung sai .38 3.1 Khái niệm tập thô và không gian dung sai 39 3.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin 41 3.2.1 Không gian dung sai: 41 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM .44 Else .45 3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính xác của tài liệu .46 PHẦN II. PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM49 I. PHƯƠNG ÁN GIẢI QUYẾT_______________________________49 Cơ sở dữ liệu .55 quan h ệ dung sai .55 Các xấp xỉ dươi 55 II. CÀI ĐẶT THỬ NGHIỆM_________________________________56 1. TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT .56 1.1 Tổ chức từ điển 56 1.2. Tổ chức cơ sở dữ liệu văn bản 57 1.3. Xác định các từ khoá trong văn bản .58 2. Xử lý dữ liệu để phục vụ cho mô hình tìm kiếm văn bản bằng phương pháp tập thô dung sai .60 Tính không gian dung sai và các xấp xỉ trên và xấp xỉ dưới .60 3. Tìm kiếm văn bản sử dụng mô hình tập thô dung sai .68 HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 71 TÀI LIỆU THAM KHẢO 73 MỤC LỤC HÌNH Hình 1: Mô hình xác định từ đại diện cho văn bản 13 Hình 2: Truy vấn văn bản .21 Hình 3: Thu nhỏ kích thước qua SVD 29 Hình 4. Kiến trúc của hệ thống 55 Hình 5: Tổ chức lưu trữ từ điển .57 Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản .58 Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản 59 Hình 8: Giao diện thực hiện tính không gian dung sai cho các term .65 Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản 68 Hình 10: Giao diện phục vụ tìm kiếm văn bản .69 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt LI M U Chỳng ta bit rng ngun ti nguyờn c lu tr di dng d liu vn bn l rt rng ln v giu thụng tin nhng vic khai thỏc ngun d liu ny vn cha t hiu qu cao. Hin nay, trờn th gii ó cú khỏ nhiu h thng thc hin cụng vic ny theo nhng phng phỏp khỏc nhau tuy cha t c hiu qu ti u nhng cng phn no ỏp ng c cỏc yờu cu thụng tin ca ngi s dng. Mi phng phỏp khỏc nhau u th hin c nhng im mnh riờng ca nú v vic la chn phng phỏp no ph thuc vo nhng mc ớch v tiờu chớ riờng t ra. Hin nay, s gia tng ca cỏc phng tin truyn thụng trong vic lu tr v s bựng n ca cỏc c s d liu ln lm cho vic tỡm kim vn bn cng tr nờn quan trng hn bao gi ht. Chớnh vỡ vy, vic la chn phng phỏp tỡm kim vn bn giỳp cho ngi s dng cú th tỡm kim c nhng thụng tin cn thit mt cỏch chớnh xỏc hiu qu t ngun ti liu vn bn rng ln phc v cho cỏc mc ớch trong cụng vic cng nh trong i sng l rt cn thit. Nhn thc c tm quan trng ca vic khai thỏc d liu vn bn, em ó la chn ti: Tỡm kim vn bn ting Vit. Vi ti ny em i sõu vo nghiờn cu vic tỡm kim vn bn ting Vit s dng lý thuyt tp thụ tp thụ dung sai (Tolerance Rough Set Model). õy cng l mt trong nhng phng phỏp rt hiu qu cho mc ớch khai phỏ d liu cng nh tỡm kim vn bn ting Vit vỡ nú ó phn no gii quyt c vn ng ngha trong ting Vit m t trc cho ti nay vn cha cú mt bin phỏp no gii quyt tt cho vn ng ngha. õy l mt ti tng i rng v phc tp nhng thi gian nghiờn cu khụng nhiu, s hiu bit trong lnh vc ny cũn b hn ch nờn ỏn tt nghip ny s khụng trỏnh khi nhng thiu sút. Em rt mong nhn c s úng gúp, ch bo thờm ca thy cụ v cỏc bn c ỏn ny hon thin v hu ớch hn trong thi gian ti. Em xin chõn thnh cm n TS. Nguyn Kim Anh. Cụ ó m ra cho em hng nghiờn cu v tỡm kim vn bn ting Vit ng thi cụ ó tn tỡnh hng dn em trong sut quỏ trỡnh lm ỏn. Trịnh Đức Cờng Trang 1 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt anh Lu Anh Tun v anh Lờ Minh Hin nhng ngi ó tn tỡnh giỳp em trong quỏ trỡnh lm ỏn. Tụi cng xin cm n cỏc bn hc cựng khoa ó úng gúp ý kin cho tụi hon thnh ỏn mt cỏch tt hn. Trịnh Đức Cờng Trang 2 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt PHN I. C S Lí THUYT I.TING VIT V NG PHP TING VIT 1.Tớnh chớnh xỏc ca vn bn ting Vit Khi nghiờn cu v vn bn ting Vit chỳng ta gp rt nhiu khú khn trong vic tin hc hoỏ phc v cho vic khai phỏ ngun d liu vn bn ting Vit. Mt trong nhng khú khn ú chớnh l ng phỏp ting Vit. phõn tớch v kim tra tớnh chớnh xỏc ca mt vn bn ting Vit, chỳng ta phi tin hnh phõn tớch t vng, phõn tớch cỳ phỏp, phõn tớch ng ngha, v phõn tớch chng thc. Phõn tớch t vng: Quỏ trỡnh ny nhm phõn tớch hỡnh thỏi ca cỏc t to nờn cõu t ú kim tra c tớnh ỳng n ca õm tit v t. Phõn tớch cỳ phỏp: Quỏ trỡnh ny a ra mụ t v quan h v vai trũ ng phỏp ca cỏc t trong cõu ng thi a ra hỡnh thỏi ca cõu. u vo ca giai on ny l cõu ó c phõn tỏch t, trong ú mi t cú c im hỡnh thỏi nht nh. Quỏ trỡnh kim tra cỳ phỏp tin hnh phõn tớch v t hp cỏc t u vo, da trờn cỏc lut cỳ phỏp loi b cỏc trng hp bt quy tc v tng bc dng lờn cu trỳc cỳ phỏp ca cõu. u ra ca giai on ny l hỡnh thỏi cõu. Cỏc lut cỳ phỏp thng c xõy dng theo c ch m, ngha l cú th sa i, b sung hay loi b cỏc lut tha. Kt qu ca bc phõn tớch cỳ phỏp ph thuc rt nhiu vo tớnh chớnh xỏc v y ca cỏc lut cỳ phỏp. Phõn tớch ng ngha: Mc ớch ca quỏ trỡnh ny l kim tra ý ngha ca cõu cú mõu thun vi c on hay khụng? Da trờn mi quan h logic v ngha gia cỏc cm t trong cõu v mi quan h gia cỏc cõu trong on, h thng s xỏc nh c mt phn ý ngha ca cõu trong ng cnh ca c on. u vo ca giai on phõn tớch ng ngha l tp cỏc kh nng phõn tớch cõu v thụng tin v ng ngha ca tt c cỏc t. Cỏc thc t thng cú nhiu ngha v ngha ca nú ch c xỏc nh duy nht trong mi quan h gii thớch vi cỏc t khỏc trong cõu. Trịnh Đức Cờng Trang 3 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt Mt cỏch tip cn c nhiu ngi quan tõm l s dng logic v t biu din thụng tin ng ngha. Thụng tin ng ngha c lu tr ging nh thụng tin cỳ phỏp. Cỏc phng phỏp lp lun logic cú th dựng phng oỏn v suy lun nhiu thụng tin hn da trờn thụng tin u vo. Cỏc thụng tin ny khụng cn phi phõn loi (nhn giỏ tr ỳng hay sai). Mụ hỡnh cu trỳc ng phỏp ca cõu l cu trỳc cú y ngha ng phỏp v thụng bỏo. Cú hai cỏch miờu t: Miờu t cỏc quan h cỳ phỏp gia t v t hp t. Miờu t mụ hỡnh hay ý ca cõu. Vic miờu t nhm cho phộp suy oỏn c ý ca cỏc b phn ln hn t t ú xỏc nh ý ca cõu. Cõu l mt th trn vn ch khụng phi l tng cỏc b phn cu thnh nú. í ca cõu l tớch ý ngha cỏc yu t tham gia cựng vi ý ngha quan h tng th cu trỳc cõu. T l mt t hp ca cõu, trong t th hin mt phn ý ca cõu. Nhng t khụng nht thit phi hin din trong cõu vi ngha m nú cú khi úng vai trũ mt n v c lp cp khỏc. Da trờn mụ hỡnh cu trỳc cỳ phỏp cõu, ta cú th nhn din cu trỳc chỡm ca cõu (nh hnh ng-ch th hnh ng, hnh ng - i tng hnh ng), giỳp gii thớch c ý ngha ca cõu v vch ra tớnh a ngha ca chỳng. Phõn tớch thc chng: Quỏ trỡnh ny xỏc nh ý ngha cõu da trờn mi quan h ca cõu vi hin thc. í ngha thc t ca cõu ph thuc ph thuc rt nhiu vo ý, t v ng cnh din ra li núi. Do vy, quỏ trỡnh phõn tớch thc chng rt khú thc hin bng mỏy tớnh thụng thng, vic phõn tớch cõu ch dng mc phõn tớch phõn tớch ng ngha, cũn vic phõn tớch thc chng do ngi dựng quyt nh. 2. T ting Vit Trong phm vi cu to t, phng tin ch yu v ng phỏp chớnh l s kt hp cỏc ting. Trt t sp xp cỏc ting cú vai trũ qua trng trong cu to t. Kt hp cỏc phng tin ny. Cú hai phng thc cu to t ch yu ú l lỏy v ghộp. Lỏy l vic sp t cỏc ting thnh ụi, k cn nhau, cú s phi hp v ng õm to nờn ngha. Cũn ghộp l vic sp t cỏc ting thnh ụi, k cn nhau, cú s kt hp v ng ngha to nờn ngha ca t ghộp. Trịnh Đức Cờng Trang 4 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 2.1. T n_t ghộp. T trong ting Vit cú th l mt ting hay gm nhiu tin. Hn na, trong ting Vit nhng t nhiu ting cú th c ghộp bi nhng ting hay t khỏc cú ngha. Vớ d nh hai t ch mt ting ú l t t, nc cú th c ghộp vi nhau thnh mt t cú ngha tru tng hn l ú l t t nc. Nhng t ny gi l t ghộp. Do s tn ti ca nhng t n (l nhng t mt ting) v t ghộp, chỳng ta phi tin hnh nghiờn cu cú th xut nhng phng ỏn hu hiu trong bi toỏn nhn dng t trong cõu. Khi xem xột t ghộp, chỳng ta cú th thy cú hai loi nh sau: T ghộp song song: Mi ting thng l mt ting cú ngha, cú th dựng l t mt ting, gn bú vi nhau theo quan h song song v núi chung cú th i ch cho nhau. Trong s phi hp v ng ngha thỡ thng cú s bin i v ngha riờng thnh mt ngha hỡnh tng. Vớ d: n ung, bn gh, nh ca T ghộp chớnh ph: Mi ting cú th cú mt ting cú ngha, nhng thụng thng cú mt ting cú th dựng lm t cũn ting kia khụng cú chc nng ng phỏp ú. Ting Vit tn ti mt s cỏc cỏc t ghộp cú nhiu hn hai ting, phỏt trin t loi t ghộp chớnh ph, qua ú cú th chia thnh cỏ phn chớnh, phn ph, thun tin hn trong vic phõn tớch t. Chớnh s tn ti ca t ghộp (ghộp bi cỏc ting cú ngha) l nguyờn nhõn ca s nhp nhng v ngha ca cõu. Do vy, trỏnh s nhp nhng v ngha trong cõu, mun phõn tớch v x lý vn bn ting Vit mt cỏch tt nht thỡ bi toỏn t ra l lm th no tỏch cỏc t trong cõu tht chớnh xỏc. Trịnh Đức Cờng Trang 5 [...]... Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt V ng: Thnh phn chớnh, b sung, gii thớch ý ngha cho thnh phn ch yu Trng ng: Thnh phn ch yu, b sung ý ngha cho cõu, ch ni chn, thi gian, khụng gian, B ng: Thnh phn ph thuc, b sung ý ngha cho ng t lm v ng nh ng: Thnh phn ph thuc, b sung ý ngha cho v ng 4 Cỏc c im ca ting Vit Trịnh Đức Cờng Trang 10 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 4.1 c im chớnh... ti liu khỏc nhau vn cú s khỏc nhau v cỏch phõn chia theo t loi Nu xem xột mt cỏch k lng hn na v mt cỳ phỏp, trong mi loi t cũn cú th chia nh hn c na Trịnh Đức Cờng Trang 6 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 2.3 Dựng t cu to ng Ng l n v ng phỏp trung gian gia t v cõu Cho nờn vic tỡm hiu cu to cng nh cỏc loi ng l cn thit tỡm hiu cu to ca cõu Qua cu to ng, cú th nhn rừ thờm c im ng phỏp ca... Cõu ting Vit Cõu l n v dựng t, hay ỳng hn l dựng ng m cu to nờn trong quỏ trỡnh t duy Xột v mt cu trỳc cõu, ting Vit cú hai loi cõu l cõu n v cõu ghộp Trịnh Đức Cờng Trang 7 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 3.1 Cõu n Cõu n l loi cõu c s ca ting Vit, nú bao gm mt nũng ct n hay mt kt cu ch v V mt ng ngha, Cõu n mang ng ngha t thõn, cũn cõu ghộp mang ngha kt hp Cõu n cú th l cõu khng nh, cõu... Thuc, anh y khụng hỳt din t mt cõu n, ngi ta thng dựng mụ hỡnh suy din: Cõu n Px Cx Vx Bx Trong ú P: Thnh phn ph C: Ch ng V: V ng B: B ng, nh ng Trịnh Đức Cờng Trang 8 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt x: thnh phn cú th trin khai tip 3.2 Cõu ghộp V mt ng phỏp, cõu ghộp bao gm b phn ch yu l mt nũng ct ghộp, c to nờn bi ớt nht hai v v mi v thng bao gm mt nũng ct n Tuy rng, cõu n ch cú...Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 2.2 T loi Trong ting Vit, t c phõn ra thnh nhiu t loi khỏc nhau Trong ti liu T loi danh t trong ting Vit hin i ca tỏc gi Nguyn Ti Cm ta thy xut hin cỏc t loi c bn sau: Danh t: bn, gh,... dch l B o Nha / B-o-Nha Cỏc cỏch vit khụng thng nht s gõy rt nhiu khú khn trong vic kim tra chớnh t cng nh ỏp dng kim tra chớnh t t ng bng mỏy tớnh Trịnh Đức Cờng Trang 11 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 4.2 Vn a ngha v nhp nhng trong ngụn ng Phõn tớch cỳ phỏp cho ta im khi u tỡm ra ý ngha ca ton b cõu Khi ch cú mt cỏch phõn tớch thỡ vic tỡm ra ý ngha ca cõu l vic khỏ n gin Nhng khi... Tụi Cỏch phõn tớch th hai thỡ i tng ra thnh ph l nú Nhng cõu nh th gi l nhp nhng cỳ phỏp S nhp nhng cỳ phỏp s gõy khú khn trong quỏ trỡnh phõn tớch Trịnh Đức Cờng Trang 12 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt II MT S K THUT KHAI PH D LIU VN BN 1 Biu din vn bn Nh chỳng ta ó bit, bi toỏn khai phỏ d liu vn bn l i phỏt hin cỏc tri thc cũn tim n trong d liu vn bn Cỏc tri thc ú cú th l mt mu hỡnh... Mụ hỡnh di õy nhm xỏc nh cỏc t i din cho vn bn mt cỏch t ng Vn bn B c (reader) Phõn tớch cỳ phỏp Sinh t Lc t Hỡnh 1: Mụ hỡnh xỏc nh t i din cho vn bn Trịnh Đức Cờng Trang 13 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt Sinh t ( Term Generation) Vn bn sau khi qua b phõn tớch cỳ phỏp cú th ó thu c khỏ chớnh xỏc cỏc t trong vn bn Tuy nhiờn, khụng phi t no cng c chn lm t i din cho vn bn Chỳng ta phi loi... Cú nhiu cỏch tớnh h s kt hp, trong ú ngi ta thng s dng mt hm tớnh o ng xut hin, tớnh s ln hai t cựng xut hin theo mu hỡnh thỏi cỳ phỏp trong vn bn Trịnh Đức Cờng Trang 14 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt Lc t (Term Filter) Bc sinh t c mụ t trờn to ra mt danh sỏch rt di cỏc t i din, danh sỏch ny c gn vi mi ti liu m khụng quan tõm n mi liờn h trờn ton b cỏc tp vn bn Trong khi ú, bc chit... xột mt s nhng k thut dựng khai phỏ tri thc t tp cỏc vn bn nh phỏt hin cỏc lut kt hp (association rules discovery), lp ch mc t ng (automated indexing) Trịnh Đức Cờng Trang 15 Đồ án tốt nghiệp Tìm kiếm văn bản tiếng Việt 2.1 Khai phỏ cỏc lut kt hp (Association Rules) Nu d liu dng vn bn ó c lp ch mc, vi mc ớch tr giỳp cho quỏ trỡnh x lý ngụn ng t nhiờn, cu trỳc ch mc (indexing structure) cú th c s dng cho

Ngày đăng: 27/04/2013, 09:14

HÌNH ẢNH LIÊN QUAN

Mô hình dưới đây nhằm xác định các từ đại diện cho văn bản một cách tự động. - Tìm kiếm văn bản tiếng Việt
h ình dưới đây nhằm xác định các từ đại diện cho văn bản một cách tự động (Trang 18)
Hình 1: Mô hình xác định từ đại diện cho văn bản - Tìm kiếm văn bản tiếng Việt
Hình 1 Mô hình xác định từ đại diện cho văn bản (Trang 18)
2. Tìm kiếm văn bản theo mô hình không gian vectơ - Tìm kiếm văn bản tiếng Việt
2. Tìm kiếm văn bản theo mô hình không gian vectơ (Trang 26)
Hình 2: Truy vấn văn bản - Tìm kiếm văn bản tiếng Việt
Hình 2 Truy vấn văn bản (Trang 26)
2.2 Bảng tần xuất. - Tìm kiếm văn bản tiếng Việt
2.2 Bảng tần xuất (Trang 28)
Bảng 1: Bảng tần suất của một số văn bản - Tìm kiếm văn bản tiếng Việt
Bảng 1 Bảng tần suất của một số văn bản (Trang 28)
Bảng 1: Bảng tần suất của một số văn bản - Tìm kiếm văn bản tiếng Việt
Bảng 1 Bảng tần suất của một số văn bản (Trang 28)
Hình 3: Thu nhỏ kích thước qua SVD. - Tìm kiếm văn bản tiếng Việt
Hình 3 Thu nhỏ kích thước qua SVD (Trang 34)
Hình 3: Thu nhỏ kích thước qua SVD. - Tìm kiếm văn bản tiếng Việt
Hình 3 Thu nhỏ kích thước qua SVD (Trang 34)
Bảng 2: Thông tin về 10 văn bản tiếngViệt - Tìm kiếm văn bản tiếng Việt
Bảng 2 Thông tin về 10 văn bản tiếngViệt (Trang 48)
Bảng 2: Thông tin về 10 văn bản tiếng Việt - Tìm kiếm văn bản tiếng Việt
Bảng 2 Thông tin về 10 văn bản tiếng Việt (Trang 48)
Bảng 3: Biểu diễn các xấp xỉ trên và dưới của 10 văn bản 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM - Tìm kiếm văn bản tiếng Việt
Bảng 3 Biểu diễn các xấp xỉ trên và dưới của 10 văn bản 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM (Trang 49)
Bảng 3: Biểu diễn các xấp xỉ trên và dưới của 10 văn bản 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM - Tìm kiếm văn bản tiếng Việt
Bảng 3 Biểu diễn các xấp xỉ trên và dưới của 10 văn bản 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM (Trang 49)
So sánh các xấp xỉ trên với bảng các xấp xỉ của các tài liệu dj chúng ta thấy q là thành phần thô trên của các tài liệu dj   với j = 1,3,10 và chồng thô dưới đối với các văn bản dj với j = 1 , 3 , 5 , 6 , 8 , 9 , 10. - Tìm kiếm văn bản tiếng Việt
o sánh các xấp xỉ trên với bảng các xấp xỉ của các tài liệu dj chúng ta thấy q là thành phần thô trên của các tài liệu dj với j = 1,3,10 và chồng thô dưới đối với các văn bản dj với j = 1 , 3 , 5 , 6 , 8 , 9 , 10 (Trang 50)
Mô hình Phương pháp đánh giá - Tìm kiếm văn bản tiếng Việt
h ình Phương pháp đánh giá (Trang 55)
Bảng 4: Các đặc trưng cơ bản của một số mô hình tìm kiếm thông tin - Tìm kiếm văn bản tiếng Việt
Bảng 4 Các đặc trưng cơ bản của một số mô hình tìm kiếm thông tin (Trang 55)
4. Đọc hình vị tiếp the ow trong câu cần tách - Tìm kiếm văn bản tiếng Việt
4. Đọc hình vị tiếp the ow trong câu cần tách (Trang 58)
Hình 4. Kiến trúc của hệ thống - Tìm kiếm văn bản tiếng Việt
Hình 4. Kiến trúc của hệ thống (Trang 60)
Hình 4. Kiến trúc của hệ thống - Tìm kiếm văn bản tiếng Việt
Hình 4. Kiến trúc của hệ thống (Trang 60)
Việc tổ chức dữ liệu từ điển theo các bảng và được chia theo bảng chữ cái sẽ giúp cho chúng ta thu hẹp được phạm vi tìm kiềm của các từ trong toàn bộ các từ có trong từ điển - Tìm kiếm văn bản tiếng Việt
i ệc tổ chức dữ liệu từ điển theo các bảng và được chia theo bảng chữ cái sẽ giúp cho chúng ta thu hẹp được phạm vi tìm kiềm của các từ trong toàn bộ các từ có trong từ điển (Trang 62)
Hình 5: Tổ chức lưu trữ từ điển - Tìm kiếm văn bản tiếng Việt
Hình 5 Tổ chức lưu trữ từ điển (Trang 62)
Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản - Tìm kiếm văn bản tiếng Việt
Hình 6 Sơ đồ lưu trữ cơ sở dữ liệu văn bản (Trang 63)
Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản - Tìm kiếm văn bản tiếng Việt
Hình 6 Sơ đồ lưu trữ cơ sở dữ liệu văn bản (Trang 63)
Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản - Tìm kiếm văn bản tiếng Việt
Hình 7 Giao diện ứng dụng tách từ có nghĩa cho văn bản (Trang 64)
Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản - Tìm kiếm văn bản tiếng Việt
Hình 7 Giao diện ứng dụng tách từ có nghĩa cho văn bản (Trang 64)
Hình 8: Giao diện thực hiện tính không gian dungsai cho các term - Tìm kiếm văn bản tiếng Việt
Hình 8 Giao diện thực hiện tính không gian dungsai cho các term (Trang 70)
Hình 8: Giao diện thực hiện tính không gian dung sai cho các term - Tìm kiếm văn bản tiếng Việt
Hình 8 Giao diện thực hiện tính không gian dung sai cho các term (Trang 70)
Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản. - Tìm kiếm văn bản tiếng Việt
Hình 9 Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản (Trang 73)
Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản. - Tìm kiếm văn bản tiếng Việt
Hình 9 Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản (Trang 73)
Hình 10: Giao diện phục vụ tìm kiếm văn bản - Tìm kiếm văn bản tiếng Việt
Hình 10 Giao diện phục vụ tìm kiếm văn bản (Trang 74)
Hình 10: Giao diện phục vụ tìm kiếm văn bản - Tìm kiếm văn bản tiếng Việt
Hình 10 Giao diện phục vụ tìm kiếm văn bản (Trang 74)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w