Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx

133 227 0
Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa MC LC MC LC 1 M U 3 Chng 1: TNG QUAN 5 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5 1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 9 1.2.1 Khái nim: 9 1.2.2 Các vn đ ca CLIR: 10 1.3 Các hng tip cn: 11 1.3.1 Dch máy (Machine Translation for Text Translation): 11 1.3.2 Da trên t đin đa ng (Multilingual Thesauri): 14 1.3.3 Da trên ng liu (Corpus-based techniques): 22 1.4 Mt s công trình nghiên cu trong và ngoài nc: 30 1.4.1  Vit Nam: 30 1.4.2 Trên th gii: 31 1.5 Kt lun: 32 Chng 2: C S LÝ THUYT 35 2.1 Gii thiu v MRD (Machine Readable Dictionary) 35 2.1.1 S lc lch s phát trin MRD trên th gii: 35 2.1.2 Vai trò và cu trúc ca MRD: 39 2.1.3 Khai thác tài nguyên t đin: 41 2.1.4 Xây dng t đin t đng: 42 2.1.5 Cu trúc v mô và vi mô ca t đin MRD: 43 2.1.6 Mt s t đin MRD: 43 2.2 Các phng pháp tách t: 51 2.2.1 Mô hình WFST: 51 2.2.2 Mô hình MMSEG: 57 2.3 Các phng pháp kh nhp nhng: 64 2.3.1 Gii thiu: 64 2.3.2 Kh nhp nhng: 65 2.4 Kt lun: 70 Chng 3: PHÂN TÍCH và THIT K 72 3.1 Tng quan h thng: 72 3.1.1 Phát biu bài toán: 72 3.1.2 Mô hình h thng: 72 3.1.3 Phát sinh qun lý: 73 3.2 Phân tích – thit k h thng: 76 3.2.1 Mô hình Usecase: 76 3.2.2 c t usecase: 77 3.2.3 S đ tun t: 78 3.2.4 Thit k lp: 81 3.2.5 Thit k giao din: 94 GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 1 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa 3.3 Xây dng h thng: 97 3.3.1 T chc các MRD: 97 3.3.2 Phng pháp tìm kim da trên MRD: 106 3.3.3 Tìm kim tài liu bng công c tìm kim: 110 CHNG 4: CÀI T VÀ TH NGHIM 112 4.1 Cài đt: 112 4.1.1 Tin x lý: 112 4.1.2 Cu trúc d liu: 112 4.1.3 Dch t t đin: 113 4.1.4 Kh nhp nhng : 113 4.1.5 Tìm kim: 116 4.2 Th nghim: 117 4.2.1 Module dch và kh nhp nhng: 117 4.2.2 Chng trình demo trên web: 117 4.3 ánh giá : 119 4.3.1 Module dch và kh nhp nhng: 119 4.3.2 Chng trình tìm kim trên Web: 120 Chng 5: KT LUN và HNG PHÁT TRIN 122 5.1 Kt lun: 122 5.2 Hung phát trin: 122 5.2.1 i vi t đin và ng liu: 122 5.2.2 i vi IR Engine: 123 5.2.3 M rng ngôn ng tìm kim cho h thng: 124 PH LC 125 TÀI LIU THAM KHO 132 GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 2 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa M U Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu tr trên máy tính ngày càng nhiu. Vì vy cn có các h thng tìm kim thông tin (Information Retrieval) cho phép ngi dùng tìm kim mt cách chính xác và nhanh nht các thông tin mà h cn trên kho t liu khng l này. Hn na, trong xu th toàn cu hóa nh hin nay, rt nhiu các t chc, các công ty quc t hình thành, li xut hin mt nhu cu mi trong vic tìm kim thông tin đó là tìm kim thông tin đa ng đ ngi dùng có th khai thác mt cách hiu qu nht kho tài liu đa ng mà h có. Mt ví d c th v kho t liu đa ng là Internet. Các trang Web bng nhiu ngôn ng khác nhau xut hin ngày càng nhiu, trong khi các công c tìm kim đn ng (search engine) ch có th tr v các tài liu đc vit cùng ngôn ng vi ngôn ng ca câu truy vn (query). Do đó vn đ đt ra là liu có th xây dng mt h tìm kim thông tin mà thông tin tr v là tt c các tài liu  các ngôn ng khác nhau trong kho t liu có liên quan đn câu truy vn (không ph thuc vào ngôn ng ca câu truy vn). ây chính là bài toán đt ra cho vic nghiên cu các h tìm kim đa ng/ xuyên ng (multilanguage IR/ cross language IR). Mc tiêu ca các h thng tìm kim xuyên ng là cung cp công c cho ngi dùng đ có th mô t nhu cu tìm kim thông tin  ngôn ng  mà mình din đt gii nht (thng là ting m đ), h thng s phi tr v tt c các tài liu  tt c các ngôn ng có trong kho t liu đang tìm kim có liên quan đn nhu cu thông tin ca ngi dùng. Trên đây là nhu cu chung ca hu ht các ngôn ng và ting Vit ca chúng ta cng không phi là ngoi l. Khác vi các ngôn ng khác, ting Vit có nhiu đc đim riêng bit và rt khó x lý bng máy tính, nên các đ tài nghiên cu hay các chng trình ng dng liên quan đn các h thng tìm kim bng ting Vit còn rt ít. Mà nhu cu tìm kim tài liu trên kho tàng kin thc ca th gii ca ngi Vit là rt ln. Vi mong mun phát trin nhiu hn na các h thng tìm kim xuyên ngôn ng bng ting Vit, chúng tôi xây dng “H thng tìm kim thông tin xuyên ngôn ng Vit – GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 3 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Anh – Hoa” cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài liu có liên quan bng ting Vit, ting Anh và ting Hoa. Trong lun vn này chúng tôi la chn ting Anh và ting Hoa là hai đi din tiêu biu cho hai loi hình ngôn ng bin hình và đn lp. T đó cho thy rng h thng tìm kim thông tin xuyên ng có th thc thi trên hai loi hình ngôn ng khác nhau. B cc ca lun vn gm các chng sau: • Chng 1 – TNG QUAN : gii thiu tng quan v h thng tìm kim (IR), h thng tìm kim thông tin xuyên ngôn ng (CLIR), các hng tip cn và các vn đ cn gii quyt ca h thng. • Chng 2 – C S LÝ THUYT: trình bày c s lý thuyt và các phng pháp đã nghiên cu trong lun vn. • Chng 3 – PHÂN TÍCH VÀ THIT K: phân tích và thit k h thng. • Ch ng 4 – CÀI T VÀ KIM TRA: cài đt, kim th chng trình. • Chng 5 – KT LUN và HNG PHÁT TRIN: trình bày các kt qu đt đc, các đánh giá v h thng và hng phát trin trong tng lai. • Phn TÀI LIU THAM KHO và PH LC: trình bày các thông tin có liên quan đc s dng trong lun vn. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 4 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Chng 1: TNG QUAN Trong chng này, chúng tôi s trình bày khái quát v các h thng tìm kim (Information Retrieval), h thng tìm kim thông tin xuyên ngôn ng (Cross-Language Information Retrieval) và mt s kho sát v tình hình nghiên cu trong và ngoài nc. Cui chng chúng tôi s rút ra kt lun chung và la chn hng tip cn cho h thng ca mình. Ni dung trình bày bao gm: X Gii thiu mô hình tìm kim thông tin. X H thng tìm kim thông tin xuyên ngôn ng. X Mt s công trình nghiên cu trong và ngoài nc. X K t lun. 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): H thng tìm kim thông tin xuyên ng (Cross Language Information Retrieval - CLIR) có liên h rt mt thit vi h thng tìm kim thông tin (Information Retrieval - IR) và cng có rt nhiu đc trng ca h thng này (IR). Qui trình ca h thng tìm kim thông tin nh sau: • Ngi dùng mun xem nhng tài liu liên quan đn mt ch đ nào đó. • Ngi dùng cung cp mt mô t v ch đ đó di dng câu truy vn. • T câu truy vn này h thng s lc ra nhng cm t ch mc. • Nhng cm t ch mc này s đc so khp vi nhng cm t ch mc ca các tài liu đã đc x lý trc đó. • Nhng tài liu nào có mc đ liên quan cao nht s đc tr v cho ngi dùng. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 5 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Mc đích ca IR là hin th cho ngi dùng mt tp các thông tin tha mãn nhu cu ca h. Chúng ta đnh ngha chính xác cho thông tin cn thit là “câu truy vn”(query), và các thông tin đc chn là “tài liu” (documents). Mi cách tip cn trong IR bao gm 2 thành phn chính: mt là các k thut đ biu din thông tin (câu truy vn, tài liu), và hai là phng pháp so sánh các cách biu din này. Mc đích là đ t đng qui trình kim tra các tài liu bng cách tính toán đ tng quan gia các câu truy vn và tài liu. Qui trình t đng này thành công khi nó tr v các kt qu ging vi các kt qu đc con ngi to ra khi so sánh câu truy vn vi các tài liu. Có mt vn đ thng xy ra đi vi h thng tìm kim là nhng t mà ngi dùng đa ra trong câu truy vn thng khác xa nhng t trong tp tài liu cha thông tin mà h tìm kim. Trng hp nh th gi là “paraphrase problem” (vn đ v di n gii).  gii quyt vn đ này h thng đã to ra các hàm biu din x lý các câu truy vn và các tài liu mt cách khác nhau đ đt đn mt đ tng thích nào đó. d Hàm biu din câu truy vn Không gian biu din R [0,1] X lý ca con ngi j Hàm biu din tài liu Câu truy vn Biu din 2 Tài liu c Hàm so sánh q Biu din 1 [0,1] Không gian tài liu D Không gian câu truy vn Q GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 6 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Hình 1.1: Mô hình h thng tìm kim thông tin Gi min xác đnh ca hàm biu din câu truy vn q là Q, tp hp các câu truy vn có th có; và min giá tr ca nó là R, không gian thng nht biu din thông tin. Gi min xác đnh ca hàm biu din tài liu d là D, tp hp các tài liu; và min giá tr ca nó là R 2 . Min xác đnh ca hàm so sánh c là R x R và min giá tr ca nó là [0,1], tp các s thc t 0 đn 1. Trong mt h thng tìm kim lí tng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, khi j: Q x D > [0,1] biu din vic x lý ca ngi dùng gia các mi quan h ca 2 thông tin, đc tính da trên mt tiêu chun nào đó (ví d: s ging nhau v ni dung hay s ging nhau v kiu …). Hình 1.1 minh ha mi quan h này. Có hai kiu h thng tìm kim: tìm kim da trên so khp chính xác và da trên sp xp. Mô hình trên đây có th mô t c 2 cách tip cn. Trong h thng tìm kim da trên so khp chính xác, min giá tr ca c đc gii hn t 0 đn 1, và nó đc chuyn sang nh phân đ quyt đnh liu 1 tài liu có tha biu thc bool đc xác đnh bi câu truy vn hay không? Các IR da trên so khp chính xác thng cung cp các tài liu không sp xp tha câu truy vn ca ngi dùng, hu ht các h thng tìm kim hin nay đu dùng cách này. Cách hot đng chi tit ca h thng s đc mô t  phn sau. i vi h thng IR da trên sp xp, thì các tài liu s đc sp xp theo th t gim dn v mc đ liên quan. Có 3 loi h thng tìm kim da trên sp xp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên min giá tr ca c là [0,1], tuy nhiên chúng khác nhau  cách tính “giá tr trng thái tìm kim” (“retrieval status value”): • Trong h thng da trên “ranked Boolean” giá tr này là mc đ mà thông tin tha mãn biu thc bool đc ch ra bi các thông tin còn li. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 7 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa • Trong h thng da trên “probabilistic” , khái nim này hi khác mt chút, giá tr này là xác sut mà thông tin có liên quan đn mt câu truy vn. Rt nhiu h thng tìm kim da trên xác sut đc thit k đ chp nhn câu truy vn đc din t bng ngôn ng t nhiên hn là mt biu thc bool. • Trong h thng tìm kim da trên s ging nhau, giá tr trng thái tìm kim đc tính bng cách tính mc đ ging nhau ca ni dung thông tin. Trong các h thng tìm kim da trên so khp chính xác, vic đánh giá h thng ch yu da trên vic đánh giá mc đ liên quan. Gi s j là giá tr nh phân và đc cho trc. Nói cách khác, ta gi s rng các tài liu hoc có hoc không có liên quan đn câu truy vn, và đ liên quan gia tài liu và câu truy vn do con ngi xác đnh là chính xác. Theo gi đnh này, tính hiu qu ca các h thng tìm kim da trên so khp chính xác đc đánh giá da trên 2 đi lng thng kê là “đ chính xác” (precision) và “đ bao ph” (recall).  chính xác là t l các tài liu đc chn, các tài liu thc s liên quan đn các thông tin mà ngi dùng cn, đ bao ph là t l tài liu có liên quan đc sp xp chính xác theo đ liên quan bi h thng tìm kim. Nói cách khác, đ chính xác bng 1 tr đi t l cnh báo sai, trong khi đó đ bao ph đo mc đ hoàn chnh ca vic tìm kim. Bng 1.1 minh ha cho các mi quan h này. Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed alarmFalseFound Found ecision + =Pr MissedFound Found call + =Re GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 8 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Bng 1.1: Tính đ hiu qu ca h thng tìm kim thông tin Vic đánh giá tính hiu qu ca h thng tìm kim da trên sp xp thì phc tp hn. Mt cách tính đ hiu qu ph bin cho các h thng này là “đ chính xác trung bình”. Nó đc tính bng cách chn mt tp ln hn các tài liu  đu danh sách có giá tr bao ph gia 0 và 1. Phng pháp thng đc s dng là phng pháp tính da trên 5, 7, 11 đim theo đ bao ph.  chính xác sau đó s đc tính cho tng tp mt. Qui trình s đc lp li cho tng câu truy vn, và tng ng mi đ chính xác trung bình s cho mt đ bao ph. Mi giá tr trung bình ca nhng s này sau đó s đc tính toán và ghi nhn nh là mt đc trng ca h thng.  chính xác trung bình càng ln thì càng tt, và vic so sánh ch thc s có ý ngha khi chúng ta s dng cùng mt tp tài liu và câu truy vn. Tuy nhiên đ chính xác trung bình cng làm gim đi mc đ thay đi ca các câu truy vn có các đc tính khác nhau (ví d nh s lng tài liu có liên quan khác nhau). Hn th na, các tài liu có liên quan thng tp trung  đu danh sách sp xp nên thông thng đ chính xác s gim mi khi tp tài liu đc m rng đ tng đ bao ph. 1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 1.2.1 Khái nim: H thng tìm kim thông tin xuyên ngôn ng (CLIR) là h thng tìm kim (IR) cho phép ngi dùng nhp câu truy vn bng mt ngôn ng đ tìm kim các tài liu trong mt ngôn ng khác. i tng s dng h thng tìm kim thông tin xuyên ng (CLIR) là: • Nhng ngi có kh nng đc các tài liu ting nc ngoài, nhng gp khó khn khi to câu truy vn bng ngôn ng đó. • Nhng ngi gp khó kh n khi đc/ tìm kim các tài liu ting nc ngoài nhng li cn mt s lng gii hn các tài liu đc tìm kim bng CLIR đ s dng trong các h thng dch máy (MT), thay vì phi dch toàn b tp hp các tài liu. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 9 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa • Nhng ngi bit các t khóa hoc cm t ting nc ngoài, và mun đc các tài liu có liên quan vi nhng t khóa hoc cm t đó bng ngôn ng bn x. 1.2.2 Các vn đ ca CLIR: Vì câu truy vn do ngi dùng nhp vào và các tài liu đc tìm kim  hai ngôn ng khác nhau nên CLIR cn phi có qui trình chuyn ng cùng vi qui trình tìm kim theo cách tìm kim truyn thng ca các h đn ng. Các h tìm kim đn ng hin nay thc hin rt tt qui trình tìm kim đn ng. Và vn đ chính chúng ta cn quan tâm  đây làm th nào đ qui trình chuyn ng có th đc thc hin tt nht. Chính qui trình chuyn ng này đã làm phát sinh rt nhiu vn đ trong CLIR. Vn đ đu tiên là làm sao bit đc mt t trong ngôn ng này đc vit nh th nào trong ngôn ng khác? Vn đ th hai là làm sao quyt đnh đc cách dch nào s đc gi li? Vn đ th ba là làm sao xác đnh đc tm quan trng khác nhau gia các bn dch khi có nhiu bn dch đc gi li. Hai vn đ đu tiên, làm sao đ dch và làm sao đ loi b bt bn dch, là hai vn đ ca các h thng dch máy . H thng CLIR có th loi b mt vài cách dch và gi li mt s khác bng cách kh nhp nhng. Tuy nhiên, vic gi li mt s cách dch nhp nhng giúp cho h thng tìm kim gia tng đ bao ph ca nó. Vn đ th ba ca CLIR có liên quan đn cách x lý các bn dch tng đng, là điu giúp chúng ta phân bit CLIR vi dch máy và tìm kim thông tin đn ng. Gi s rng câu truy vn ban đu có hai t phân bit. Nu t đu tiên có th đc dch sang nhiu cách khác nhau, và nu t th hai ch có th đc dch sang mt cách duy nht, thì h thng tìm kim s không tng trng s cho t đu tiên, bi vì nó có nhiu la chn khi dch. iu này minh ha cho vn đ tính trng s ca các cách dch, đc bit là đi vi h thng CLIR. Mt tài liu cha mt cách dch ca mi t trong câu truy GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 10 [...]... Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Theo tìm hi u c a chúng tôi, trong n c hi n nay ã có m t s công trình nghiên c u liên quan nh sau: 1 “ ng d ng x lý ngôn ng t nhiên trong h tìm ki m thông tin trên v n b n ti ng Vi t”, H B o Qu c, ng Th Bích Th y, H i th o qu c gia v Công ngh thông tin – Thái Nguyên – Vi t Nam 8/2003 2 “An Introduction... Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa tìm ki m xuyên ng ” Trong ó, h ã s d ng t i n song ng Anh- Tây Ban Nha tìm ki m các tài li u ti ng Anh và ti ng Tây Ban Nha Bên c nh Ballesteros, Davis và Hull, trong n m 1998 này Yamabana [7] ã xây d ng h th ng tìm ki m xuyên ng Anh – Nh t theo h ng ti p c n d a trên d ch máy và k t h p v... giúp hi u qu c a h tìm ki m xuyên ng Mã hóa thông tin ng ngh a: 5 c tr ng duy nh t c a m r ng câu truy v n trong truy xu t xuyên ng là các c m t ban câu truy v n m r ng n u nó không mang cùng m t ngh a trong c 2 ngôn ng GVHD: TS H B o Qu c TS inh i n 19 u s b lo i ra kh i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa M t khía c nh... ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Hình 1.2 Tích h p tìm ki m xuyên ng v i d ch máy Có l h u h t các h ng ti p c n tr c ti p n tìm ki m xuyên ngôn ng là vi c th c thi q ho c d b ng cách s d ng h th ng d ch hoàn toàn t ng và tài li u vào không gian bi u di n R d a trên m t ngôn ng nh t c a h th ng d ch t mang câu truy v n nh M t... ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa bi u di n tài li u d có th có nhi u thông tin v ng c nh m t h th ng ch n l a ng ngh a h n là c nhúng vào hàm bi u di n câu truy v n q Tuy nhiên, hi u qu s n có c a d ch máy ã tr thành v n th ng d ch c nhúng vào d, b i vì thông th s l tranh lu n khi m t h ng d c n ph i c cung c p cho m t ng r t... khác c a d án EMIR[2] là vi c ng d ng vi c phân rã nhanh nh ng không sâu t n d ng thông tin ng ngh a c m t ti ng Anh c mã hóa trong t i n S l ng các c gi m b ng cách gán nhãn t ng c m t ti ng Anh v i t lo i t ng ng c a nó, và sau ó ch ch n nh ng t ti ng Anh có cách s d ng cú pháp t ng t các c m t ti ng Pháp T trong ó thông tin ng ngh a i n EMIR là m t danh sách song ng các c m t c mã hóa nh là các t ghép,... 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa ng khác, k thu t xây d ng t ng c nh c a tìm ki m xu t hi n và thu t ng là m t nghiên c u quan tr ng k th a t n ng M t s l ng áng k các nghiên c u v c công b trong tài li u v d ch máy xây d ng t K thu t i nt u tiên, ng tài này ã ây chúng tôi trình bày hai k i n a ng t khía c nh tìm ki m i ta ã th c nghi m trên 1.100 ng danh t l y t ng... thi bên trong m t ngôn ng v i cùng k thu t Tr tìm ki m xuyên ng c th c thi 3 ng Gi i pháp cho t a ngh a th GVHD: TS H B o Qu c TS inh i n c qu n lý và h th ng tìm c n m 1977 ã có 4 h th ng châu Âu T các h th ng này, n i lên 6 tiêu chí c g i là kh nh p nh ng ngh a c a t 16 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa c n b n c a... ph bi n th ng tìm ki m xuyên ng Các thông tin chi ti t h n v t trình bày c s d ng trong các h i n xuyên ng s c ph n sau GVHD: TS H B o Qu c TS inh i n 14 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Ki u t T i n i n c tr ng ng ngh a theo Có m i quan h k th a và k t h p tài M t c m duy nh t Danh sách khái ni m c gán cho 1 nút Không... s d ng thông n gi n nh t là c m t 33 i u này cho th y Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa vi c kh nh p nh ng ngh a c a t (c ng nh c m t ) ch ra kh n ng có h n trong ng c nh n ng , nh ng ó là m t b c i có l i cho nghiên c u xa h n V n quan tr ng trong ng d ng c a b t c k thu t x lý ngôn ng t nhiên nào cho vi c tìm ki . thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa MC LC MC LC 1 M U 3 Chng 1: TNG QUAN 5 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5 1.2 H thng tìm. Tuyt Mai - 0112229 2 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa M U Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu tr trên máy tính. tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Anh – Hoa cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài liu có liên quan bng ting Vit, ting Anh và ting Hoa.

Ngày đăng: 28/07/2014, 05:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan