1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx

133 227 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 133
Dung lượng 2,27 MB

Nội dung

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa MC LC MC LC 1 M U 3 Chng 1: TNG QUAN 5 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5 1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 9 1.2.1 Khái nim: 9 1.2.2 Các vn đ ca CLIR: 10 1.3 Các hng tip cn: 11 1.3.1 Dch máy (Machine Translation for Text Translation): 11 1.3.2 Da trên t đin đa ng (Multilingual Thesauri): 14 1.3.3 Da trên ng liu (Corpus-based techniques): 22 1.4 Mt s công trình nghiên cu trong và ngoài nc: 30 1.4.1  Vit Nam: 30 1.4.2 Trên th gii: 31 1.5 Kt lun: 32 Chng 2: C S LÝ THUYT 35 2.1 Gii thiu v MRD (Machine Readable Dictionary) 35 2.1.1 S lc lch s phát trin MRD trên th gii: 35 2.1.2 Vai trò và cu trúc ca MRD: 39 2.1.3 Khai thác tài nguyên t đin: 41 2.1.4 Xây dng t đin t đng: 42 2.1.5 Cu trúc v mô và vi mô ca t đin MRD: 43 2.1.6 Mt s t đin MRD: 43 2.2 Các phng pháp tách t: 51 2.2.1 Mô hình WFST: 51 2.2.2 Mô hình MMSEG: 57 2.3 Các phng pháp kh nhp nhng: 64 2.3.1 Gii thiu: 64 2.3.2 Kh nhp nhng: 65 2.4 Kt lun: 70 Chng 3: PHÂN TÍCH và THIT K 72 3.1 Tng quan h thng: 72 3.1.1 Phát biu bài toán: 72 3.1.2 Mô hình h thng: 72 3.1.3 Phát sinh qun lý: 73 3.2 Phân tích – thit k h thng: 76 3.2.1 Mô hình Usecase: 76 3.2.2 c t usecase: 77 3.2.3 S đ tun t: 78 3.2.4 Thit k lp: 81 3.2.5 Thit k giao din: 94 GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 1 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa 3.3 Xây dng h thng: 97 3.3.1 T chc các MRD: 97 3.3.2 Phng pháp tìm kim da trên MRD: 106 3.3.3 Tìm kim tài liu bng công c tìm kim: 110 CHNG 4: CÀI T VÀ TH NGHIM 112 4.1 Cài đt: 112 4.1.1 Tin x lý: 112 4.1.2 Cu trúc d liu: 112 4.1.3 Dch t t đin: 113 4.1.4 Kh nhp nhng : 113 4.1.5 Tìm kim: 116 4.2 Th nghim: 117 4.2.1 Module dch và kh nhp nhng: 117 4.2.2 Chng trình demo trên web: 117 4.3 ánh giá : 119 4.3.1 Module dch và kh nhp nhng: 119 4.3.2 Chng trình tìm kim trên Web: 120 Chng 5: KT LUN và HNG PHÁT TRIN 122 5.1 Kt lun: 122 5.2 Hung phát trin: 122 5.2.1 i vi t đin và ng liu: 122 5.2.2 i vi IR Engine: 123 5.2.3 M rng ngôn ng tìm kim cho h thng: 124 PH LC 125 TÀI LIU THAM KHO 132 GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 2 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa M U Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu tr trên máy tính ngày càng nhiu. Vì vy cn có các h thng tìm kim thông tin (Information Retrieval) cho phép ngi dùng tìm kim mt cách chính xác và nhanh nht các thông tin mà h cn trên kho t liu khng l này. Hn na, trong xu th toàn cu hóa nh hin nay, rt nhiu các t chc, các công ty quc t hình thành, li xut hin mt nhu cu mi trong vic tìm kim thông tin đó là tìm kim thông tin đa ng đ ngi dùng có th khai thác mt cách hiu qu nht kho tài liu đa ng mà h có. Mt ví d c th v kho t liu đa ng là Internet. Các trang Web bng nhiu ngôn ng khác nhau xut hin ngày càng nhiu, trong khi các công c tìm kim đn ng (search engine) ch có th tr v các tài liu đc vit cùng ngôn ng vi ngôn ng ca câu truy vn (query). Do đó vn đ đt ra là liu có th xây dng mt h tìm kim thông tin mà thông tin tr v là tt c các tài liu  các ngôn ng khác nhau trong kho t liu có liên quan đn câu truy vn (không ph thuc vào ngôn ng ca câu truy vn). ây chính là bài toán đt ra cho vic nghiên cu các h tìm kim đa ng/ xuyên ng (multilanguage IR/ cross language IR). Mc tiêu ca các h thng tìm kim xuyên ng là cung cp công c cho ngi dùng đ có th mô t nhu cu tìm kim thông tin  ngôn ng  mà mình din đt gii nht (thng là ting m đ), h thng s phi tr v tt c các tài liu  tt c các ngôn ng có trong kho t liu đang tìm kim có liên quan đn nhu cu thông tin ca ngi dùng. Trên đây là nhu cu chung ca hu ht các ngôn ng và ting Vit ca chúng ta cng không phi là ngoi l. Khác vi các ngôn ng khác, ting Vit có nhiu đc đim riêng bit và rt khó x lý bng máy tính, nên các đ tài nghiên cu hay các chng trình ng dng liên quan đn các h thng tìm kim bng ting Vit còn rt ít. Mà nhu cu tìm kim tài liu trên kho tàng kin thc ca th gii ca ngi Vit là rt ln. Vi mong mun phát trin nhiu hn na các h thng tìm kim xuyên ngôn ng bng ting Vit, chúng tôi xây dng “H thng tìm kim thông tin xuyên ngôn ng Vit – GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 3 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Anh – Hoa” cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài liu có liên quan bng ting Vit, ting Anh và ting Hoa. Trong lun vn này chúng tôi la chn ting Anh và ting Hoa là hai đi din tiêu biu cho hai loi hình ngôn ng bin hình và đn lp. T đó cho thy rng h thng tìm kim thông tin xuyên ng có th thc thi trên hai loi hình ngôn ng khác nhau. B cc ca lun vn gm các chng sau: • Chng 1 – TNG QUAN : gii thiu tng quan v h thng tìm kim (IR), h thng tìm kim thông tin xuyên ngôn ng (CLIR), các hng tip cn và các vn đ cn gii quyt ca h thng. • Chng 2 – C S LÝ THUYT: trình bày c s lý thuyt và các phng pháp đã nghiên cu trong lun vn. • Chng 3 – PHÂN TÍCH VÀ THIT K: phân tích và thit k h thng. • Ch ng 4 – CÀI T VÀ KIM TRA: cài đt, kim th chng trình. • Chng 5 – KT LUN và HNG PHÁT TRIN: trình bày các kt qu đt đc, các đánh giá v h thng và hng phát trin trong tng lai. • Phn TÀI LIU THAM KHO và PH LC: trình bày các thông tin có liên quan đc s dng trong lun vn. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 4 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Chng 1: TNG QUAN Trong chng này, chúng tôi s trình bày khái quát v các h thng tìm kim (Information Retrieval), h thng tìm kim thông tin xuyên ngôn ng (Cross-Language Information Retrieval) và mt s kho sát v tình hình nghiên cu trong và ngoài nc. Cui chng chúng tôi s rút ra kt lun chung và la chn hng tip cn cho h thng ca mình. Ni dung trình bày bao gm: X Gii thiu mô hình tìm kim thông tin. X H thng tìm kim thông tin xuyên ngôn ng. X Mt s công trình nghiên cu trong và ngoài nc. X K t lun. 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): H thng tìm kim thông tin xuyên ng (Cross Language Information Retrieval - CLIR) có liên h rt mt thit vi h thng tìm kim thông tin (Information Retrieval - IR) và cng có rt nhiu đc trng ca h thng này (IR). Qui trình ca h thng tìm kim thông tin nh sau: • Ngi dùng mun xem nhng tài liu liên quan đn mt ch đ nào đó. • Ngi dùng cung cp mt mô t v ch đ đó di dng câu truy vn. • T câu truy vn này h thng s lc ra nhng cm t ch mc. • Nhng cm t ch mc này s đc so khp vi nhng cm t ch mc ca các tài liu đã đc x lý trc đó. • Nhng tài liu nào có mc đ liên quan cao nht s đc tr v cho ngi dùng. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 5 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Mc đích ca IR là hin th cho ngi dùng mt tp các thông tin tha mãn nhu cu ca h. Chúng ta đnh ngha chính xác cho thông tin cn thit là “câu truy vn”(query), và các thông tin đc chn là “tài liu” (documents). Mi cách tip cn trong IR bao gm 2 thành phn chính: mt là các k thut đ biu din thông tin (câu truy vn, tài liu), và hai là phng pháp so sánh các cách biu din này. Mc đích là đ t đng qui trình kim tra các tài liu bng cách tính toán đ tng quan gia các câu truy vn và tài liu. Qui trình t đng này thành công khi nó tr v các kt qu ging vi các kt qu đc con ngi to ra khi so sánh câu truy vn vi các tài liu. Có mt vn đ thng xy ra đi vi h thng tìm kim là nhng t mà ngi dùng đa ra trong câu truy vn thng khác xa nhng t trong tp tài liu cha thông tin mà h tìm kim. Trng hp nh th gi là “paraphrase problem” (vn đ v di n gii).  gii quyt vn đ này h thng đã to ra các hàm biu din x lý các câu truy vn và các tài liu mt cách khác nhau đ đt đn mt đ tng thích nào đó. d Hàm biu din câu truy vn Không gian biu din R [0,1] X lý ca con ngi j Hàm biu din tài liu Câu truy vn Biu din 2 Tài liu c Hàm so sánh q Biu din 1 [0,1] Không gian tài liu D Không gian câu truy vn Q GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 6 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Hình 1.1: Mô hình h thng tìm kim thông tin Gi min xác đnh ca hàm biu din câu truy vn q là Q, tp hp các câu truy vn có th có; và min giá tr ca nó là R, không gian thng nht biu din thông tin. Gi min xác đnh ca hàm biu din tài liu d là D, tp hp các tài liu; và min giá tr ca nó là R 2 . Min xác đnh ca hàm so sánh c là R x R và min giá tr ca nó là [0,1], tp các s thc t 0 đn 1. Trong mt h thng tìm kim lí tng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, khi j: Q x D > [0,1] biu din vic x lý ca ngi dùng gia các mi quan h ca 2 thông tin, đc tính da trên mt tiêu chun nào đó (ví d: s ging nhau v ni dung hay s ging nhau v kiu …). Hình 1.1 minh ha mi quan h này. Có hai kiu h thng tìm kim: tìm kim da trên so khp chính xác và da trên sp xp. Mô hình trên đây có th mô t c 2 cách tip cn. Trong h thng tìm kim da trên so khp chính xác, min giá tr ca c đc gii hn t 0 đn 1, và nó đc chuyn sang nh phân đ quyt đnh liu 1 tài liu có tha biu thc bool đc xác đnh bi câu truy vn hay không? Các IR da trên so khp chính xác thng cung cp các tài liu không sp xp tha câu truy vn ca ngi dùng, hu ht các h thng tìm kim hin nay đu dùng cách này. Cách hot đng chi tit ca h thng s đc mô t  phn sau. i vi h thng IR da trên sp xp, thì các tài liu s đc sp xp theo th t gim dn v mc đ liên quan. Có 3 loi h thng tìm kim da trên sp xp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên min giá tr ca c là [0,1], tuy nhiên chúng khác nhau  cách tính “giá tr trng thái tìm kim” (“retrieval status value”): • Trong h thng da trên “ranked Boolean” giá tr này là mc đ mà thông tin tha mãn biu thc bool đc ch ra bi các thông tin còn li. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 7 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa • Trong h thng da trên “probabilistic” , khái nim này hi khác mt chút, giá tr này là xác sut mà thông tin có liên quan đn mt câu truy vn. Rt nhiu h thng tìm kim da trên xác sut đc thit k đ chp nhn câu truy vn đc din t bng ngôn ng t nhiên hn là mt biu thc bool. • Trong h thng tìm kim da trên s ging nhau, giá tr trng thái tìm kim đc tính bng cách tính mc đ ging nhau ca ni dung thông tin. Trong các h thng tìm kim da trên so khp chính xác, vic đánh giá h thng ch yu da trên vic đánh giá mc đ liên quan. Gi s j là giá tr nh phân và đc cho trc. Nói cách khác, ta gi s rng các tài liu hoc có hoc không có liên quan đn câu truy vn, và đ liên quan gia tài liu và câu truy vn do con ngi xác đnh là chính xác. Theo gi đnh này, tính hiu qu ca các h thng tìm kim da trên so khp chính xác đc đánh giá da trên 2 đi lng thng kê là “đ chính xác” (precision) và “đ bao ph” (recall).  chính xác là t l các tài liu đc chn, các tài liu thc s liên quan đn các thông tin mà ngi dùng cn, đ bao ph là t l tài liu có liên quan đc sp xp chính xác theo đ liên quan bi h thng tìm kim. Nói cách khác, đ chính xác bng 1 tr đi t l cnh báo sai, trong khi đó đ bao ph đo mc đ hoàn chnh ca vic tìm kim. Bng 1.1 minh ha cho các mi quan h này. Actually is Selected as Relevant Not relevant Relevant Found False alarm Not Relevant Missed alarmFalseFound Found ecision + =Pr MissedFound Found call + =Re GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 8 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Bng 1.1: Tính đ hiu qu ca h thng tìm kim thông tin Vic đánh giá tính hiu qu ca h thng tìm kim da trên sp xp thì phc tp hn. Mt cách tính đ hiu qu ph bin cho các h thng này là “đ chính xác trung bình”. Nó đc tính bng cách chn mt tp ln hn các tài liu  đu danh sách có giá tr bao ph gia 0 và 1. Phng pháp thng đc s dng là phng pháp tính da trên 5, 7, 11 đim theo đ bao ph.  chính xác sau đó s đc tính cho tng tp mt. Qui trình s đc lp li cho tng câu truy vn, và tng ng mi đ chính xác trung bình s cho mt đ bao ph. Mi giá tr trung bình ca nhng s này sau đó s đc tính toán và ghi nhn nh là mt đc trng ca h thng.  chính xác trung bình càng ln thì càng tt, và vic so sánh ch thc s có ý ngha khi chúng ta s dng cùng mt tp tài liu và câu truy vn. Tuy nhiên đ chính xác trung bình cng làm gim đi mc đ thay đi ca các câu truy vn có các đc tính khác nhau (ví d nh s lng tài liu có liên quan khác nhau). Hn th na, các tài liu có liên quan thng tp trung  đu danh sách sp xp nên thông thng đ chính xác s gim mi khi tp tài liu đc m rng đ tng đ bao ph. 1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 1.2.1 Khái nim: H thng tìm kim thông tin xuyên ngôn ng (CLIR) là h thng tìm kim (IR) cho phép ngi dùng nhp câu truy vn bng mt ngôn ng đ tìm kim các tài liu trong mt ngôn ng khác. i tng s dng h thng tìm kim thông tin xuyên ng (CLIR) là: • Nhng ngi có kh nng đc các tài liu ting nc ngoài, nhng gp khó khn khi to câu truy vn bng ngôn ng đó. • Nhng ngi gp khó kh n khi đc/ tìm kim các tài liu ting nc ngoài nhng li cn mt s lng gii hn các tài liu đc tìm kim bng CLIR đ s dng trong các h thng dch máy (MT), thay vì phi dch toàn b tp hp các tài liu. GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 9 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa • Nhng ngi bit các t khóa hoc cm t ting nc ngoài, và mun đc các tài liu có liên quan vi nhng t khóa hoc cm t đó bng ngôn ng bn x. 1.2.2 Các vn đ ca CLIR: Vì câu truy vn do ngi dùng nhp vào và các tài liu đc tìm kim  hai ngôn ng khác nhau nên CLIR cn phi có qui trình chuyn ng cùng vi qui trình tìm kim theo cách tìm kim truyn thng ca các h đn ng. Các h tìm kim đn ng hin nay thc hin rt tt qui trình tìm kim đn ng. Và vn đ chính chúng ta cn quan tâm  đây làm th nào đ qui trình chuyn ng có th đc thc hin tt nht. Chính qui trình chuyn ng này đã làm phát sinh rt nhiu vn đ trong CLIR. Vn đ đu tiên là làm sao bit đc mt t trong ngôn ng này đc vit nh th nào trong ngôn ng khác? Vn đ th hai là làm sao quyt đnh đc cách dch nào s đc gi li? Vn đ th ba là làm sao xác đnh đc tm quan trng khác nhau gia các bn dch khi có nhiu bn dch đc gi li. Hai vn đ đu tiên, làm sao đ dch và làm sao đ loi b bt bn dch, là hai vn đ ca các h thng dch máy . H thng CLIR có th loi b mt vài cách dch và gi li mt s khác bng cách kh nhp nhng. Tuy nhiên, vic gi li mt s cách dch nhp nhng giúp cho h thng tìm kim gia tng đ bao ph ca nó. Vn đ th ba ca CLIR có liên quan đn cách x lý các bn dch tng đng, là điu giúp chúng ta phân bit CLIR vi dch máy và tìm kim thông tin đn ng. Gi s rng câu truy vn ban đu có hai t phân bit. Nu t đu tiên có th đc dch sang nhiu cách khác nhau, và nu t th hai ch có th đc dch sang mt cách duy nht, thì h thng tìm kim s không tng trng s cho t đu tiên, bi vì nó có nhiu la chn khi dch. iu này minh ha cho vn đ tính trng s ca các cách dch, đc bit là đi vi h thng CLIR. Mt tài liu cha mt cách dch ca mi t trong câu truy GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235 TS. inh in Nguyn Th Tuyt Mai - 0112229 10 [...]... Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Theo tìm hi u c a chúng tôi, trong n c hi n nay ã có m t s công trình nghiên c u liên quan nh sau: 1 “ ng d ng x lý ngôn ng t nhiên trong h tìm ki m thông tin trên v n b n ti ng Vi t”, H B o Qu c, ng Th Bích Th y, H i th o qu c gia v Công ngh thông tin – Thái Nguyên – Vi t Nam 8/2003 2 “An Introduction... Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa tìm ki m xuyên ng ” Trong ó, h ã s d ng t i n song ng Anh- Tây Ban Nha tìm ki m các tài li u ti ng Anh và ti ng Tây Ban Nha Bên c nh Ballesteros, Davis và Hull, trong n m 1998 này Yamabana [7] ã xây d ng h th ng tìm ki m xuyên ng Anh – Nh t theo h ng ti p c n d a trên d ch máy và k t h p v... giúp hi u qu c a h tìm ki m xuyên ng Mã hóa thông tin ng ngh a: 5 c tr ng duy nh t c a m r ng câu truy v n trong truy xu t xuyên ng là các c m t ban câu truy v n m r ng n u nó không mang cùng m t ngh a trong c 2 ngôn ng GVHD: TS H B o Qu c TS inh i n 19 u s b lo i ra kh i Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa M t khía c nh... ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Hình 1.2 Tích h p tìm ki m xuyên ng v i d ch máy Có l h u h t các h ng ti p c n tr c ti p n tìm ki m xuyên ngôn ng là vi c th c thi q ho c d b ng cách s d ng h th ng d ch hoàn toàn t ng và tài li u vào không gian bi u di n R d a trên m t ngôn ng nh t c a h th ng d ch t mang câu truy v n nh M t... ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa bi u di n tài li u d có th có nhi u thông tin v ng c nh m t h th ng ch n l a ng ngh a h n là c nhúng vào hàm bi u di n câu truy v n q Tuy nhiên, hi u qu s n có c a d ch máy ã tr thành v n th ng d ch c nhúng vào d, b i vì thông th s l tranh lu n khi m t h ng d c n ph i c cung c p cho m t ng r t... khác c a d án EMIR[2] là vi c ng d ng vi c phân rã nhanh nh ng không sâu t n d ng thông tin ng ngh a c m t ti ng Anh c mã hóa trong t i n S l ng các c gi m b ng cách gán nhãn t ng c m t ti ng Anh v i t lo i t ng ng c a nó, và sau ó ch ch n nh ng t ti ng Anh có cách s d ng cú pháp t ng t các c m t ti ng Pháp T trong ó thông tin ng ngh a i n EMIR là m t danh sách song ng các c m t c mã hóa nh là các t ghép,... 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa ng khác, k thu t xây d ng t ng c nh c a tìm ki m xu t hi n và thu t ng là m t nghiên c u quan tr ng k th a t n ng M t s l ng áng k các nghiên c u v c công b trong tài li u v d ch máy xây d ng t K thu t i nt u tiên, ng tài này ã ây chúng tôi trình bày hai k i n a ng t khía c nh tìm ki m i ta ã th c nghi m trên 1.100 ng danh t l y t ng... thi bên trong m t ngôn ng v i cùng k thu t Tr tìm ki m xuyên ng c th c thi 3 ng Gi i pháp cho t a ngh a th GVHD: TS H B o Qu c TS inh i n c qu n lý và h th ng tìm c n m 1977 ã có 4 h th ng châu Âu T các h th ng này, n i lên 6 tiêu chí c g i là kh nh p nh ng ngh a c a t 16 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa c n b n c a... ph bi n th ng tìm ki m xuyên ng Các thông tin chi ti t h n v t trình bày c s d ng trong các h i n xuyên ng s c ph n sau GVHD: TS H B o Qu c TS inh i n 14 Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Ki u t T i n i n c tr ng ng ngh a theo Có m i quan h k th a và k t h p tài M t c m duy nh t Danh sách khái ni m c gán cho 1 nút Không... s d ng thông n gi n nh t là c m t 33 i u này cho th y Nguy n Th H ng Nhung - 0112235 Nguy n Th Tuy t Mai - 0112229 H th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa vi c kh nh p nh ng ngh a c a t (c ng nh c m t ) ch ra kh n ng có h n trong ng c nh n ng , nh ng ó là m t b c i có l i cho nghiên c u xa h n V n quan tr ng trong ng d ng c a b t c k thu t x lý ngôn ng t nhiên nào cho vi c tìm ki . thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa MC LC MC LC 1 M U 3 Chng 1: TNG QUAN 5 1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5 1.2 H thng tìm. Tuyt Mai - 0112229 2 H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa M U Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu tr trên máy tính. tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa Anh – Hoa cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài liu có liên quan bng ting Vit, ting Anh và ting Hoa.

Ngày đăng: 28/07/2014, 05:21

HÌNH ẢNH LIÊN QUAN

Hình 1.2 Tích h p tìm ki m xuyên ng  v i d ch máy. - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 1.2 Tích h p tìm ki m xuyên ng v i d ch máy (Trang 12)
Hình 1.3 So sánh tìm ki m  đ n ng  c a SPIRIT, tìm ki m song ng  c a EMIR và d ch  câu truy v n c a SYSTRAN - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 1.3 So sánh tìm ki m đ n ng c a SPIRIT, tìm ki m song ng c a EMIR và d ch câu truy v n c a SYSTRAN (Trang 21)
Hình 1.4  Bi u di n các t  trong vector chu n so v i vector t i gi n LSI - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 1.4 Bi u di n các t trong vector chu n so v i vector t i gi n LSI (Trang 29)
Hình 2.1: S   đ  mô hình WFST_NN K t thúc - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 2.1 S đ mô hình WFST_NN K t thúc (Trang 52)
Hình 3.1 Mô hình h  th ng tìm ki m thông tin xuyên ngôn ng  Vi t – Anh – Hoa  Công vi c chính c a h  th ng là chuy n ng  câu truy v n sang ti ng Anh và ti ng  Hoa - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.1 Mô hình h th ng tìm ki m thông tin xuyên ngôn ng Vi t – Anh – Hoa Công vi c chính c a h th ng là chuy n ng câu truy v n sang ti ng Anh và ti ng Hoa (Trang 73)
Hình 3.2: S   đ  Gantt - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.2 S đ Gantt (Trang 76)
Hình 3.3: Mô hình Usecase - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.3 Mô hình Usecase (Trang 77)
Hình 3.4: Usecase chuy n ng - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.4 Usecase chuy n ng (Trang 79)
Hình 3.5: Usecase tìm tài li u - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.5 Usecase tìm tài li u (Trang 80)
Hình 3.6: Usecase s p x p tài li u - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.6 Usecase s p x p tài li u (Trang 81)
Hình 3.8: Màn hình chính  Danh sách các  đ i t ng th  hi n: - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.8 Màn hình chính Danh sách các đ i t ng th hi n: (Trang 95)
Hình 3.9: Màn hình k t qu - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.9 Màn hình k t qu (Trang 96)
Hình 3.10: C u trúc cây c a m c t  trong t  đi n Vi t –  Anh - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.10 C u trúc cây c a m c t trong t đi n Vi t – Anh (Trang 98)
Hình 3.11: C u trúc cây c a m c t  trong t  đi n Vi t – Hoa - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.11 C u trúc cây c a m c t trong t đi n Vi t – Hoa (Trang 99)
Hình 3.12: Mô hình kh  nh p nh ng d a trên ng  li u  đ n ng  và song ng   i v i ng  li u  đ n ng  (kho ng 100.000 câu ti ng Anh và 77.000 câu ti ng Hoa)  chúng tôi áp d ng theo  đ úng công th c (*) - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 3.12 Mô hình kh nh p nh ng d a trên ng li u đ n ng và song ng i v i ng li u đ n ng (kho ng 100.000 câu ti ng Anh và 77.000 câu ti ng Hoa) chúng tôi áp d ng theo đ úng công th c (*) (Trang 108)
Hình 4.1 Module d ch và kh  nh p nh ng - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 4.1 Module d ch và kh nh p nh ng (Trang 117)
Hình 4.2 Màn hình giao di n  65 - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 4.2 Màn hình giao di n 65 (Trang 118)
Hình 5.1 Mô hình c a h  th ng truy xu t xuyên ng  Vi t – Anh –  Hoa (dùng ba IR Engine) - Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx
Hình 5.1 Mô hình c a h th ng truy xu t xuyên ng Vi t – Anh – Hoa (dùng ba IR Engine) (Trang 124)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w