Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 133 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
133
Dung lượng
2,27 MB
Nội dung
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa MC LC MC LC 1 M U 3 Chng 1: TNG QUAN 5 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5 1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 9 1.2.1 Khái nim: 9 1.2.2 Các vn đ ca CLIR: 10 1.3 Các hng tip cn: 11 1.3.1 Dch máy (Machine Translation for Text Translation): 11 1.3.2 Da trên t đin đa ng (Multilingual Thesauri): 14 1.3.3 Da trên ng liu (Corpus-based techniques): 22 1.4 Mt s công trình nghiên cu trong và ngoài nc: 30 1.4.1 Vit Nam: 30 1.4.2 Trên th gii: 31 1.5 Kt lun: 32 Chng 2: C S LÝ THUYT 35 2.1 Gii thiu v MRD (Machine Readable Dictionary) 35 2.1.1 S lc lch s phát trin MRD trên th gii: 35 2.1.2 Vai trò và cu trúc ca MRD: 39 2.1.3 Khai thác tài nguyên t đin: 41 2.1.4 Xây dng t đin t đng: 42 2.1.5 Cu trúc v mô và vi mô ca t đin MRD: 43 2.1.6 Mt s t đin MRD: 43 2.2 Các phng pháp tách t: 51 2.2.1 Mô hình WFST: 51 2.2.2 Mô hình MMSEG: 57 2.3 Các phng pháp kh nhp nhng: 64 2.3.1 Gii thiu: 64 2.3.2 Kh nhp nhng: 65 2.4 Kt lun: 70 Chng 3: PHÂN TÍCH và THIT K 72 3.1 Tng quan h thng: 72 3.1.1 Phát biu bài toán: 72 3.1.2 Mô hình h thng: 72 3.1.3 Phát sinh qun lý: 73 3.2 Phân tích – thit k h thng: 76 3.2.1 Mô hình Usecase: 76 3.2.2 c t usecase: 77 3.2.3 S đ tun t: 78 3.2.4 Thit k lp: 81 3.2.5 Thit k giao din: 94 GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 1 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa 3.3 Xây dng h thng: 97 3.3.1 T chc các MRD: 97 3.3.2 Phng pháp tìm kim da trên MRD: 106 3.3.3 Tìm kim tài liu bng công c tìm kim: 110 CHNG 4: CÀI T VÀ TH NGHIM 112 4.1 Cài đt: 112 4.1.1 Tin x lý: 112 4.1.2 Cu trúc d liu: 112 4.1.3 Dch t t đin: 113 4.1.4 Kh nhp nhng : 113 4.1.5 Tìm kim: 116 4.2 Th nghim: 117 4.2.1 Module dch và kh nhp nhng: 117 4.2.2 Chng trình demo trên web: 117 4.3 ánh giá : 119 4.3.1 Module dch và kh nhp nhng: 119 4.3.2 Chng trình tìm kim trên Web: 120 Chng 5: KT LUN và HNG PHÁT TRIN 122 5.1 Kt lun: 122 5.2 Hung phát trin: 122 5.2.1 i vi t đin và ng liu: 122 5.2.2 i vi IR Engine: 123 5.2.3 M rng ngôn ng tìm kim cho h thng: 124 PH LC 125 TÀI LIU THAM KHO 132 GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 2 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa M U Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu tr trên máy tính ngày càng nhiu. Vì vy cn có các h thng tìm kim thông tin (Information Retrieval) cho phép ngi dùng tìm kim mt cách chính xác và nhanh nht các thông tin mà h cn trên kho t liu khng l này. Hn na, trong xu th toàn cu hóa nh hin nay, rt nhiu các t chc, các công ty quc t hình thành, li xut hin mt nhu cu mi trong vic tìm kim thông tin đó là tìm kim thông tin đa ng đ ngi dùng có th khai thác mt cách hiu qu nht kho tài liu đa ng mà h có. Mt ví d c th v kho t liu đa ng là Internet. Các trang Web bng nhiu ngôn ng khác nhau xut hin ngày càng nhiu, trong khi các công c tìm kim đn ng (search engine) ch có th tr v các tài liu đc vit cùng ngôn ng vi ngôn ng ca câu truy vn (query). Do đó vn đ đt ra là liu có th xây dng mt h tìm kim thông tin mà thông tin tr v là tt c các tài liu các ngôn ng khác nhau trong kho t liu có liên quan đn câu truy vn (không ph thuc vào ngôn ng ca câu truy vn). ây chính là bài toán đt ra cho vic nghiên cu các h tìm kim đa ng/ xuyên ng (multilanguage IR/ cross language IR). Mc tiêu ca các h thng tìm kim xuyên ng là cung cp công c cho ngi dùng đ có th mô t nhu cu tìm kim thông tin ngôn ng mà mình din đt gii nht (thng là ting m đ), h thng s phi tr v tt c các tài liu tt c các ngôn ng có trong kho t liu đang tìm kim có liên quan đn nhu cu thông tin ca ngi dùng. Trên đây là nhu cu chung ca hu ht các ngôn ng và ting Vit ca chúng ta cng không phi là ngoi l. Khác vi các ngôn ng khác, ting Vit có nhiu đc đim riêng bit và rt khó x lý bng máy tính, nên các đ tài nghiên cu hay các chng trình ng dng liên quan đn các h thng tìm kim bng ting Vit còn rt ít. Mà nhu cu tìm kim tài liu trên kho tàng kin thc ca th gii ca ngi Vit là rt ln. Vi mong mun phát trin nhiu hn na các h thng tìm kim xuyên ngôn ng bng ting Vit, chúng tôi xây dng “H thng tìm kim thông tin xuyên ngôn ng Vit – GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 3 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Anh – Hoa” cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài liu có liên quan bng ting Vit, ting Anh và ting Hoa. Trong lun vn này chúng tôi la chn ting Anh và ting Hoa là hai đi din tiêu biu cho hai loi hình ngôn ng bin hình và đn lp. T đó cho thy rng h thng tìm kim thông tin xuyên ng có th thc thi trên hai loi hình ngôn ng khác nhau. B cc ca lun vn gm các chng sau: • Chng 1 – TNG QUAN : gii thiu tng quan v h thng tìm kim (IR), h thng tìm kim thông tin xuyên ngôn ng (CLIR), các hng tip cn và các vn đ cn gii quyt ca h thng. • Chng 2 – C S LÝ THUYT: trình bày c s lý thuyt và các phng pháp đã nghiên cu trong lun vn. • Chng 3 – PHÂN TÍCH VÀ THIT K: phân tích và thit k h thng. • Ch ng 4 – CÀI T VÀ KIM TRA: cài đt, kim th chng trình. • Chng 5 – KT LUN và HNG PHÁT TRIN: trình bày các kt qu đt đc, các đánh giá v h thng và hng phát trin trong tng lai. • Phn TÀI LIU THAM KHO và PH LC: trình bày các thông tin có liên quan đc s dng trong lun vn. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 4 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Chng 1: TNG QUAN Trong chng này, chúng tôi s trình bày khái quát v các h thng tìm kim (Information Retrieval), h thng tìm kim thông tin xuyên ngôn ng (Cross-Language Information Retrieval) và mt s kho sát v tình hình nghiên cu trong và ngoài nc. Cui chng chúng tôi s rút ra kt lun chung và la chn hng tip cn cho h thng ca mình. Ni dung trình bày bao gm: X Gii thiu mô hình tìm kim thông tin. X H thng tìm kim thông tin xuyên ngôn ng. X Mt s công trình nghiên cu trong và ngoài nc. X K t lun. 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): H thng tìm kim thông tin xuyên ng (Cross Language Information Retrieval - CLIR) có liên h rt mt thit vi h thng tìm kim thông tin (Information Retrieval - IR) và cng có rt nhiu đc trng ca h thng này (IR). Qui trình ca h thng tìm kim thông tin nh sau: • Ngi dùng mun xem nhng tài liu liên quan đn mt ch đ nào đó. • Ngi dùng cung cp mt mô t v ch đ đó di dng câu truy vn. • T câu truy vn này h thng s lc ra nhng cm t ch mc. • Nhng cm t ch mc này s đc so khp vi nhng cm t ch mc ca các tài liu đã đc x lý trc đó. • Nhng tài liu nào có mc đ liên quan cao nht s đc tr v cho ngi dùng. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 5 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Mc đích ca IR là hin th cho ngi dùng mt tp các thông tin tha mãn nhu cu ca h. Chúng ta đnh ngha chính xác cho thông tin cn thit là “câu truy vn”(query), và các thông tin đc chn là “tài liu” (documents). Mi cách tip cn trong IR bao gm 2 thành phn chính: mt là các k thut đ biu din thông tin (câu truy vn, tài liu), và hai là phng pháp so sánh các cách biu din này. Mc đích là đ t đng qui trình kim tra các tài liu bng cách tính toán đ tng quan gia các câu truy vn và tài liu. Qui trình t đng này thành công khi nó tr v các kt qu ging vi các kt qu đc con ngi to ra khi so sánh câu truy vn vi các tài liu. Có mt vn đ thng xy ra đi vi h thng tìm kim là nhng t mà ngi dùng đa ra trong câu truy vn thng khác xa nhng t trong tp tài liu cha thông tin mà h tìm kim. Trng hp nh th gi là “paraphrase problem” (vn đ v di n gii). gii quyt vn đ này h thng đã to ra các hàm biu din x lý các câu truy vn và các tài liu mt cách khác nhau đ đt đn mt đ tng thích nào đó. d Hàm biu din câu truy vn Không gian biu din R [0,1] X lý ca con ngi j Hàm biu din tài liu Câu truy vn Biu din 2 Tài liu c Hàm so sánh q Biu din 1 [0,1] Không gian tài liu D Không gian câu truy vn Q GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 6 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Hình 1.1: Mô hình h thng tìm kim thông tin Gi min xác đnh ca hàm biu din câu truy vn q là Q, tp hp các câu truy vn có th có; và min giá tr ca nó là R, không gian thng nht biu din thông tin. Gi min xác đnh ca hàm biu din tài liu d là D, tp hp các tài liu; và min giá tr ca nó là R 2 . Min xác đnh ca hàm so sánh c là R x R và min giá tr ca nó là [0,1], tp các s thc t 0 đn 1. Trong mt h thng tìm kim lí tng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, khi j: Q x D > [0,1] biu din vic x lý ca ngi dùng gia các mi quan h ca 2 thông tin, đc tính da trên mt tiêu chun nào đó (ví d: s ging nhau v ni dung hay s ging nhau v kiu …). Hình 1.1 minh ha mi quan h này. Có hai kiu h thng tìm kim: tìm kim da trên so khp chính xác và da trên sp xp. Mô hình trên đây có th mô t c 2 cách tip cn. Trong h thng tìm kim da trên so khp chính xác, min giá tr ca c đc gii hn t 0 đn 1, và nó đc chuyn sang nh phân đ quyt đnh liu 1 tài liu có tha biu thc bool đc xác đnh bi câu truy vn hay không? Các IR da trên so khp chính xác thng cung cp các tài liu không sp xp tha câu truy vn ca ngi dùng, hu ht các h thng tìm kim hin nay đu dùng cách này. Cách hot đng chi tit ca h thng s đc mô t phn sau. i vi h thng IR da trên sp xp, thì các tài liu s đc sp xp theo th t gim dn v mc đ liên quan. Có 3 loi h thng tìm kim da trên sp xp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên min giá tr ca c là [0,1], tuy nhiên chúng khác nhau cách tính “giá tr trng thái tìm kim” (“retrieval status value”): • Trong h thng da trên “ranked Boolean” giá tr này là mc đ mà thông tin tha mãn biu thc bool đc ch ra bi các thông tin còn li. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 7 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa • Trong h thng da trên “probabilistic” , khái nim này hi khác mt chút, giá tr này là xác sut mà thông tin có liên quan đn mt câu truy vn. Rt nhiu h thng tìm kim da trên xác sut đc thit k đ chp nhn câu truy vn đc din t bng ngôn ng t nhiên hn là mt biu thc bool. • Trong h thng tìm kim da trên s ging nhau, giá tr trng thái tìm kim đc tính bng cách tính mc đ ging nhau ca ni dung thông tin. Trong các h thng tìm kim da trên so khp chính xác, vic đánh giá h thng ch yu da trên vic đánh giá mc đ liên quan. Gi s j là giá tr nh phân và đc cho trc. Nói cách khác, ta gi s rng các tài liu hoc có hoc không có liên quan đn câu truy vn, và đ liên quan gia tài liu và câu truy vn do con ngi xác đnh là chính xác. Theo gi đnh này, tính hiu qu ca các h thng tìm kim da trên so khp chính xác đc đánh giá da trên 2 đi lng thng kê là “đ chính xác” (precision) và “đ bao ph” (recall). chính xác là t l các tài liu đc chn, các tài liu thc s liên quan đn các thông tin mà ngi dùng cn, đ bao ph là t l tài liu có liên quan đc sp xp chính xác theo đ liên quan bi h thng tìm kim. Nói cách khác, đ chính xác bng 1 tr đi t l cnh báo sai, trong khi đó đ bao ph đo mc đ hoàn chnh ca vic tìm kim. Bng 1.1 minh ha cho các mi quan h này. Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed alarmFalseFound Found ecision + =Pr MissedFound Found call + =Re GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 8 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Bng 1.1: Tính đ hiu qu ca h thng tìm kim thông tin Vic đánh giá tính hiu qu ca h thng tìm kim da trên sp xp thì phc tp hn. Mt cách tính đ hiu qu ph bin cho các h thng này là “đ chính xác trung bình”. Nó đc tính bng cách chn mt tp ln hn các tài liu đu danh sách có giá tr bao ph gia 0 và 1. Phng pháp thng đc s dng là phng pháp tính da trên 5, 7, 11 đim theo đ bao ph. chính xác sau đó s đc tính cho tng tp mt. Qui trình s đc lp li cho tng câu truy vn, và tng ng mi đ chính xác trung bình s cho mt đ bao ph. Mi giá tr trung bình ca nhng s này sau đó s đc tính toán và ghi nhn nh là mt đc trng ca h thng. chính xác trung bình càng ln thì càng tt, và vic so sánh ch thc s có ý ngha khi chúng ta s dng cùng mt tp tài liu và câu truy vn. Tuy nhiên đ chính xác trung bình cng làm gim đi mc đ thay đi ca các câu truy vn có các đc tính khác nhau (ví d nh s lng tài liu có liên quan khác nhau). Hn th na, các tài liu có liên quan thng tp trung đu danh sách sp xp nên thông thng đ chính xác s gim mi khi tp tài liu đc m rng đ tng đ bao ph. 1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 1.2.1 Khái nim: H thng tìm kim thông tin xuyên ngôn ng (CLIR) là h thng tìm kim (IR) cho phép ngi dùng nhp câu truy vn bng mt ngôn ng đ tìm kim các tài liu trong mt ngôn ng khác. i tng s dng h thng tìm kim thông tin xuyên ng (CLIR) là: • Nhng ngi có kh nng đc các tài liu ting nc ngoài, nhng gp khó khn khi to câu truy vn bng ngôn ng đó. • Nhng ngi gp khó kh n khi đc/ tìm kim các tài liu ting nc ngoài nhng li cn mt s lng gii hn các tài liu đc tìm kim bng CLIR đ s dng trong các h thng dch máy (MT), thay vì phi dch toàn b tp hp các tài liu. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 9 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa • Nhng ngi bit các t khóa hoc cm t ting nc ngoài, và mun đc các tài liu có liên quan vi nhng t khóa hoc cm t đó bng ngôn ng bn x. 1.2.2 Các vn đ ca CLIR: Vì câu truy vn do ngi dùng nhp vào và các tài liu đc tìm kim hai ngôn ng khác nhau nên CLIR cn phi có qui trình chuyn ng cùng vi qui trình tìm kim theo cách tìm kim truyn thng ca các h đn ng. Các h tìm kim đn ng hin nay thc hin rt tt qui trình tìm kim đn ng. Và vn đ chính chúng ta cn quan tâm đây làm th nào đ qui trình chuyn ng có th đc thc hin tt nht. Chính qui trình chuyn ng này đã làm phát sinh rt nhiu vn đ trong CLIR. Vn đ đu tiên là làm sao bit đc mt t trong ngôn ng này đc vit nh th nào trong ngôn ng khác? Vn đ th hai là làm sao quyt đnh đc cách dch nào s đc gi li? Vn đ th ba là làm sao xác đnh đc tm quan trng khác nhau gia các bn dch khi có nhiu bn dch đc gi li. Hai vn đ đu tiên, làm sao đ dch và làm sao đ loi b bt bn dch, là hai vn đ ca các h thng dch máy . H thng CLIR có th loi b mt vài cách dch và gi li mt s khác bng cách kh nhp nhng. Tuy nhiên, vic gi li mt s cách dch nhp nhng giúp cho h thng tìm kim gia tng đ bao ph ca nó. Vn đ th ba ca CLIR có liên quan đn cách x lý các bn dch tng đng, là điu giúp chúng ta phân bit CLIR vi dch máy và tìm kim thông tin đn ng. Gi s rng câu truy vn ban đu có hai t phân bit. Nu t đu tiên có th đc dch sang nhiu cách khác nhau, và nu t th hai ch có th đc dch sang mt cách duy nht, thì h thng tìm kim s không tng trng s cho t đu tiên, bi vì nó có nhiu la chn khi dch. iu này minh ha cho vn đ tính trng s ca các cách dch, đc bit là đi vi h thng CLIR. Mt tài liu cha mt cách dch ca mi t trong câu truy GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 10 [...]... Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Theo tìm hi u c a chúng tôi, trong n c hi n nay ã có m t s công trình nghiên c u liên quan nh sau: 1 “ ng d ng x lý ngôn ng t nhiên trong h tìm ki m thông tin trên v n b n ti ng Vi t”, H B o Qu c, ng Th Bích Th y, H i th o qu c gia v Công ngh thông tin – Thái Nguyên – Vi t Nam 8/2003 2 “An Introduction... Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa tìm ki m xuyên ng ” Trong ó, h ã s d ng t i n song ng Anh- Tây Ban Nha tìm ki m các tài li u ti ng Anh và ti ng Tây Ban Nha Bên c nh Ballesteros, Davis và Hull, trong n m 1998 này Yamabana [7] ã xây d ng h th ng tìm ki m xuyên ng Anh – Nh t theo h ng ti p c n d a trên d ch máy và k t h p v... giúp hi u qu c a h tìm ki m xuyên ng Mã hóa thông tin ng ngh a: 5 c tr ng duy nh t c a m r ng câu truy v n trong truy xu t xuyên ng là các c m t ban câu truy v n m r ng n u nó không mang cùng m t ngh a trong c 2 ngôn ng GVHD: TS H B o Qu c TS inh i n 19 u s b lo i ra kh i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa M t khía c nh... ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Hình 1.2 Tích h p tìm ki m xuyên ng v i d ch máy Có l h u h t các h ng ti p c n tr c ti p n tìm ki m xuyên ngôn ng là vi c th c thi q ho c d b ng cách s d ng h th ng d ch hoàn toàn t ng và tài li u vào không gian bi u di n R d a trên m t ngôn ng nh t c a h th ng d ch t mang câu truy v n nh M t... ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa bi u di n tài li u d có th có nhi u thông tin v ng c nh m t h th ng ch n l a ng ngh a h n là c nhúng vào hàm bi u di n câu truy v n q Tuy nhiên, hi u qu s n có c a d ch máy ã tr thành v n th ng d ch c nhúng vào d, b i vì thông th s l tranh lu n khi m t h ng d c n ph i c cung c p cho m t ng r t... khác c a d án EMIR[2] là vi c ng d ng vi c phân rã nhanh nh ng không sâu t n d ng thông tin ng ngh a c m t ti ng Anh c mã hóa trong t i n S l ng các c gi m b ng cách gán nhãn t ng c m t ti ng Anh v i t lo i t ng ng c a nó, và sau ó ch ch n nh ng t ti ng Anh có cách s d ng cú pháp t ng t các c m t ti ng Pháp T trong ó thông tin ng ngh a i n EMIR là m t danh sách song ng các c m t c mã hóa nh là các t ghép,... 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa ng khác, k thu t xây d ng t ng c nh c a tìm ki m xu t hi n và thu t ng là m t nghiên c u quan tr ng k th a t n ng M t s l ng áng k các nghiên c u v c công b trong tài li u v d ch máy xây d ng t K thu t i nt u tiên, ng tài này ã ây chúng tôi trình bày hai k i n a ng t khía c nh tìm ki m i ta ã th c nghi m trên 1.100 ng danh t l y t ng... thi bên trong m t ngôn ng v i cùng k thu t Tr tìm ki m xuyên ng c th c thi 3 ng Gi i pháp cho t a ngh a th GVHD: TS H B o Qu c TS inh i n c qu n lý và h th ng tìm c n m 1977 ã có 4 h th ng châu Âu T các h th ng này, n i lên 6 tiêu chí c g i là kh nh p nh ng ngh a c a t 16 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa c n b n c a... ph bi n th ng tìm ki m xuyên ng Các thông tin chi ti t h n v t trình bày c s d ng trong các h i n xuyên ng s c ph n sau GVHD: TS H B o Qu c TS inh i n 14 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Ki u t T i n i n c tr ng ng ngh a theo Có m i quan h k th a và k t h p tài M t c m duy nh t Danh sách khái ni m c gán cho 1 nút Không... s d ng thông n gi n nh t là c m t 33 i u này cho th y Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa vi c kh nh p nh ng ngh a c a t (c ng nh c m t ) ch ra kh n ng có h n trong ng c nh n ng , nh ng ó là m t b c i có l i cho nghiên c u xa h n V n quan tr ng trong ng d ng c a b t c k thu t x lý ngôn ng t nhiên nào cho vi c tìm ki . thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa MC LC MC LC 1 M U 3 Chng 1: TNG QUAN 5 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5 1.2 H thng tìm. Tuyt Mai - 0112229 2 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa M U Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu tr trên máy tính. tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Anh – Hoa cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài liu có liên quan bng ting Vit, ting Anh và ting Hoa.