Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 94 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
94
Dung lượng
1,39 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ CẢNH KHÁNH TRUY HỒI THÔNG TIN THEO THỰC THỂ CÓ TÊN VÀ TỪ KHÓA Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng năm 2008 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày 03 tháng 09 năm 2008 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ CẢNH KHÁNH Giới tính: Nam Ngày, tháng, năm sinh: 14/02/1979 Nơi sinh: Khánh Hòa Chuyên ngành: Khoa Học Máy Tính MSHV: Khố (Năm trúng tuyển): 2006 00706134 1- TÊN ĐỀ TÀI: TRUY HỒI THÔNG TIN THEO THỰC THỂ CÓ TÊN VÀ TỪ KHÓA 2- NHIỆM VỤ LUẬN VĂN: Phát triển hệ thống truy hồi tài liệu theo thực thể có tên từ khóa, bao gồm: - Phân tích đánh giá mơ hình truy hồi thơng tin theo thực thể có tên có - Truy hồi tài liệu theo thực thể có tên từ khóa - Đề xuất phương pháp thực nghiệm đánh giá hiệu suất truy hồi thông tin 3- NGÀY GIAO NHIỆM VỤ: 20/01/2007 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 03/09/2008 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS CAO HOÀNG TRỤ Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH Lời cảm ơn Tôi xin chân thành cảm ơn thầy PGS.TS Cao Hồng Trụ Thầy tận tình hướng dẫn, định hướng từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, đến công việc cụ thể luận án Xin chân thành cảm ơn bạn khoa Công Nghệ Thông Tin, đồng nghiệp công ty Tường Minh, người giúp đỡ tạo điều kiện cho nhiều trình thực luận án Con xin cảm ơn cha mẹ, cảm ơn chị em trai, động viên, khuyến khích giúp đỡ trình học tập sống i Tóm tắt Nhu cầu thông tin nhu cầu người dùng Tuy nhiên, với khối lượng thông tin khổng lồ Internet, cần phải xây dựng mơ hình truy hồi thơng tin đủ mạnh, có khả đặc tả trọn vẹn truy vấn thông tin khả truy hồi tài liệu liên quan Truy hồi thông tin theo từ khóa đơn dựa xuất từ văn Trong đó, ngơn ngữ tự nhiên chứa đựng nhiều hàm ý Sự mơ hồ nhập nhằng nghĩa xử lý tốt xác định thông qua từ khóa Một giải pháp cho vấn đề việc hiểu rõ ngữ nghĩa văn bản, mà phần ngữ nghĩa văn lại xác định thực thể có tên mối quan hệ chúng Vì vậy, yêu cầu đặt kết hợp truy hồi thông tin theo thực thể có tên từ khóa nhằm nâng cao hiệu suất Luận án giới thiệu khảo sát số mơ hình truy hồi thơng tin kết hợp đặc tính mặt ngữ nghĩa thực thể có tên từ khóa theo nhiều hướng tiếp cận khác Các mơ hình mở rộng mơ hình khơng gian vectơ truyền thống, với việc khai thác đặc trưng thực thể có tên, cụ thể tên, lớp danh hiệu Đồng thời, với việc kết hợp với từ khóa, hiệu suất truy hồi mơ hình khơng bị ảnh hưởng ontology sở tri thức chưa hồn thiện, hay truy vấn khơng chứa thực thể có tên Kết thực nghiệm cho thấy mơ hình giới thiệu có hiệu suất tốt mơ hình truy hồi theo từ khóa Lucene Vì vậy, mơ hình xem sở cho nghiên cứu tiếp sau để tiếp tục hoàn thiện hệ thống nâng cao hiệu suất truy hồi ii Abstract With an ever increasing number of documents available on the Web, the challenge for keyword-based indexing and retrieval techniques, which solely relies on the presence of keywords in the texts, is to provide users with concise and relevant information Especially the vagueness and ambiguity of natural languages are handled inadequately by keyword-based search A solution for these problems is to understand the semantics of the texts, a basic part of which is determined by named entities and their relations Hence, a particular concern here is the integration of named entity-based search with traditional keyword-based search technologies in order to improve retrieval performance This thesis introduces and explores various models that combine different ontological features with keywords, and in different ways The models are based on an adaptation of the traditional Vector Space Model with an extension of named entity indexing, taking into account three features of names entities, namely, names, classes and identifiers The models also achieve tolerance to knowledge base incompleteness by taking advantage of keywordbased retrieval features Experiments show better performance of the proposed models as compared to the keyword-based Lucene, and their advantages for both text retrieval and representation of documents and queries Thus the models provide grounds for further research and enhancement of information retrieval performance iii Mục lục Lời cảm ơn i Tóm tắt ii Abstract iii Danh mục hình vi Danh mục bảng biểu vii Chương 1: Tổng quan 1.1 Phát biểu vấn đề 1.2 Các cơng trình liên quan 1.3 Cơ sở lý thuyết Chương 2: Truy hồi thơng tin theo thực thể có tên từ khóa 13 2.1 Truy hồi thơng tin theo thực thể có tên 13 2.1.1 Mơ hình truy hồi thơng tin theo thực thể có tên 15 2.1.2 Mơ hình NEn 21 2.1.3 Mơ hình NEo 22 2.2 Truy hồi thơng tin theo thực thể có tên từ khóa 23 2.2.1 Mơ hình kết hợp NE VSM KW VSM 25 2.2.2 Mơ hình kết hợp NE từ khóa không gian vectơ chung 28 2.2.3 Kiến trúc hệ thống truy hồi thông tin theo thực thể có tên từ khóa 31 Chương 3: Thiết kế thực hệ thống 33 3.1 Phân tích, thiết kế hệ thống Semantic Lucene 34 3.2 Hiện thực hệ thống Semantic Lucene 39 3.3 Ứng dụng minh họa 44 Chương 4: Thực nghiệm đánh giá 46 4.1 Phương pháp thực nghiệm đánh giá 46 iv 4.2 Thực nghiệm kết 53 4.2.1 Thực nghiệm 53 4.2.2 Kết thực nghiệm 54 Chương 5: Tổng kết 61 5.1 Đóng góp cơng trình 62 5.2 Hướng phát triển 63 Phụ lục A: Giới thiệu KIM 65 Phụ lục B: Giới thiệu Lucene 69 Phụ lục C: Phân tích tập TIME 74 Tài liệu tham khảo 82 v Danh mục hình Hình 1.1 Ví dụ KIM Ontology KB 12 Hình 2.1 Kiến trúc hệ thống truy hồi thơng tin theo NE từ khóa 31 Hình 3.1 Đánh mục Semantic Lucene 37 Hình 3.2 Hệ thống cấu trúc mục Semantic Lucene 40 Hình 3.3 Giao diện tìm kiếm 44 Hình 4.1 Độ truy hồi độ xác truy vấn 49 Hình 4.2 Đường cong P-R trung bình truy vấn 51 Hình 4.3 Phương pháp thực nghiệm 53 Hình 4.4 Đường P-R, F-R trung bình Lucene, NEn KW+NE Hình 4.5 Đường P-R trung bình truy vấn tiêu biểu Lucene, KW+NE 57 Hình A.1 Kiến trúc KIM 65 Hình A.2 Một nhánh cấu trúc phân cấp lớp PROTON 66 Hình A.3 Q trình rút trích thơng tin KIM 67 Hình B.1 Một ứng dụng tiêu biểu sử dụng Lucene 69 vi Danh mục bảng biểu Bảng 3.1 Các trường liệu Semantic Lucene 39 Bảng 4.1 Các tập liệu kiểm thử 47 Bảng 4.2 Độ xác trung bình 11 điểm truy hồi chuẩn 55 Bảng 4.3 Độ F trung bình 11 điểm truy hồi chuẩn 55 Bảng 4.4 Thời gian đáp ứng thực nghiệm tập CNN 60 Bảng C.1 Các câu truy vấn tập TIME hai mô hình Lucene KW+NE 74 vii Chương 1: Tổng quan [1-32] 1.1 Phát biểu vấn đề Như biết, Internet nơi lưu trữ nguồn thông tin khổng lồ nhân loại Nguồn thông tin chia sẻ, phát triển mở rộng không ngừng với phát triển nhanh chóng World Wide Wed (Web) Vấn đề đặt làm để khai thác sử dụng nguồn tài nguyên thông tin cách hiệu Thông tin Web hầu hết thể dạng ngôn ngữ tự nhiên, thơng qua trang Web, thích hợp cho người đọc hiểu Các hệ thống truy hồi thông tin phát triển thành công Google 1, Yahoo 2, v.v Tuy nhiên, mơ hình sử dụng từ khóa để xử lý truy hồi tài liệu Hiệu suất truy hồi chúng có giới hạn định ngữ nghĩa tài liệu bị nhiều văn biểu diễn dạng tập từ khóa Tương tự, u cầu thơng tin từ phía người sử dụng biểu diễn từ khóa, rõ ràng khơng thể thể trọn vẹn nhu cầu thơng tin mong muốn Do đó, khơng có lạ truy hồi thơng tin hệ thống nhận tài liệu khơng liên quan tới thơng tin cần tìm Để khắc phục nhược điểm mơ hình truy hồi thơng tin theo từ khóa, khoảng cuối thập niên 90, với đời phát triển Web ngữ nghĩa (Semantic Web [3]), ontology sở tri thức (Knowledge Base – KB) bắt đầu sử dụng rộng rãi nghiên cứu phát triển hệ thống truy hồi thơng tin có ngữ nghĩa www.google.com www.yahoo.com Lucene cung cấp API hỗ trợ trình tìm kiếm IndexSearcher, Term, Query, TermQuery Hits Vì Semantic Lucene sử dụng hàm xếp hạng Lucene, hiểu rõ cách tính độ tương tự Lucene quan trọng Độ tương tự truy vấn q tài liệu d định nghĩa class Similarity Lucene sau: score(q,d)= ( ∑ tf (t in d ) × idf (t ) × boost (t field in d ) × lengthNorm(t field in d )) × t in q coord (q, d ) × queryNorm(q ) (BT B.1) đó: tf(t in d): tần suất xuất từ t tài liệu d idf(t): tần suất nghịch đảo tài liệu có chứa từ t boost(t.field in d): độ ưu tiên trường liệu t.field lengthNorm(t.field in d): giá trị chuẩn hóa trường liệu, cho số lượng từ có trường liệu coord(q, d): trọng số dựa số lượng từ truy vấn tìm thấy tài liệu Một tài liệu chứa nhiều từ truy vấn có score lớn tài liệu với từ truy vấn queryNorm(q): giá trị chuẩn hóa truy vấn, dựa tổng bình phương trọng số từ truy vấn Cơng thức tính độ tương tự Lucene Lucene sử dụng mơ hình khơng gian vectơ theo từ khóa truyền thống để đo độ tương tự Hiện thực biểu thức BT B.1 Ta so sánh cơng thức với mơ hình khơng gian vectơ chuẩn theo lý thuyết với biểu thức định nghĩa 2.1 Trong mơ hình khơng gian vectơ chuẩn, độ tương tự tài liệu d truy vấn q là: 71 t ∑w i, j × wi ,q i =1 sim ( d j , q ) = t ∑w i, j × i =1 t t = t ∑w ∑w i ,q i =1 i ,q × ∑( i =1 i =1 t × tfi , j × tfi ,q × idfi ) ∑w i, j i =1 đó, ta thay: wi , j = tfi , j × idf i , wi ,q = tfi ,q × idf i Ta có: tf i ,q = 0.5 + 0.5 freqi ,q maxl freql,q = 1, thơng thường từ khóa xuất lần truy vấn (giả định cho ta freqi ,q = maxl freql,q , giả định hợp lý không làm giảm tính tổng qt) Vậy, ta có: t sim ( d j , q ) = queryNorm(q ) × ∑ tf i , j × idfi × lengthNorm(t field in d ) (BT B.2) i =1 đó, ta thay: queryNorm(q ) = t , lengthNorm(t field in d ) = ∑w t ∑w i ,q i =1 , tf i ,q = i, j i =1 Thông qua khảo sát mã nguồn Lucene, biến queryNorm tính theo lý thuyết, lengthNorm tính tương tự với giá trị 1/ numTerm Trong phép tính tổng biểu thức BT B.2, ta cần duyệt qua từ khóa có truy vấn, từ khơng có truy vấn kết Như vậy, bỏ qua biến coord, boost (đây hai biến hỗ trợ mặt ứng dụng) BT B.1, Lucene thiếu phép tính nhân idfi phép tính tổng Ta biết, idf i = log N , với ni số tài liệu có chứa từ khóa ki idf i ni số, cách tính score(q,d) Lucene theo BT B.1 có khiếm khuyết Tuy nhiên, qua kiểm tra mã nguồn Lucene, thấy Lucene thực theo lý thuyết với idfi theo BT B.2 thay idf i mô tả tài liệu Lucene BT B.1 72 Đây sai sót người viết tài liệu Dựa lý trên, Semantic Lucene, không thay đổi mã nguồn Lucene cách tính độ tương tự Hơn nữa, muốn so sánh cách khách quan mơ hình KW&NE với Lucene, đặc biệt để đánh giá hiệu suất có thêm yếu tố ngữ nghĩa NE Các công cụ hỗ trợ, bổ sung cho Lucene Tổ chức Lucene tạo môi trường cho cộng đồng phát triển công cụ hỗ trợ cho Lucene gọi Lucene Sandbox Chúng xin giới thiệu vài công cụ phục vụ đắc lực trình phát triển Semantic Lucene • Luke (Lucene Index Toolbox): ứng dụng desktop cho phép duyệt cấu trúc mục Lucene • lucli: chương trình CLI mơ tả bước q trình tìm kiếm Lucene • SnowballAnalyzer: thực xử lý cho vấn đề chuẩn từ gốc tiếng Anh theo giải thuật Dr Martin Porter Kết luận Hiện nay, Lucene hệ thống truy hồi thông tin theo từ khóa phát triển mạnh, đóng góp cộng đồng lớn Ngày nhiều công cụ hỗ trợ cho việc xây dựng hệ thống truy hồi thông tin Lucene phát triển Các ứng dụng phân tích, bóc tách từ định dạng tài liệu khác XML, PDF, HTML, Microsoft Word, RTF, v.v… thực hoàn chỉnh Các vấn đề từ kết thúc chuẩn từ gốc có thực cụ thể Tuy nhiên, Lucene hệ thống dựa từ khóa Trong luận án này, chúng tơi tích hợp yếu tố ngữ nghĩa NE vào Lucene để xây dựng Semantic Lucene Đây cải tiến lớn cho Lucene 73 Phụ lục C Phân tích tập TIME Dưới chúng tơi trình bày câu truy vấn tập TIME, sử dụng trình thực nghiệm, truy vấn theo mơ hình từ khóa KW+NE Tiêu chí cho q trình xây dựng truy vấn rút trích từ khóa thực thể có tên quan trọng, theo góc nhìn người tìm thơng tin cho ý truy vấn bảo tồn Việc xây dựng đảm bảo tính khách quan, đồng thời quan điểm tiếp cận câu truy vấn giữ đồng mơ hình Chúng tơi lưu ý cách tiếp cận sử dụng rộng rãi thực nghiệm truy hồi thơng tin, ví dụ hệ thống SMART ([4]) Bảng C.1 mô tả câu truy vấn theo mơ hình từ khóa KW+NE Với thơng tin từ hai mơ hình này, truy vấn cho mơ hình khác đưa cách tương tự Vì vậy, chúng tơi khơng liệt kê chi tiết Bảng C.1 Các câu truy vấn tập TIME hai mơ hình Lucene KW+NE No Truy vấn Lucene kennedy administration pressure on ngo dinh diem to stop suppressing the buddhists kennedy "ngo dinh diem" buddhists efforts of ambassador henry cabot lodge to get viet nam's president diem to change his policies of political repression number of troops the united states has stationed in south viet nam as compared with the number of troops it has stationed in west germany u.s policy toward the new regime in south viet nam which overthrew president diem ambassador "henry cabot lodge" diem policies troops "united states" "south viet nam" "west germany" u.s policy "south viet nam" regime diem persons involved in the viet nam war person "viet nam" war 74 KW+NE "kennedy/person/*" "ngo dinh diem/person/*" "buddhists/religiousorganization/ *" ambassador "henry cabotlodge/person/*" "diem/person/*" policies troops "united states/country/country_t.4" "south viet nam/location/*" "west germany/location/*" "u.s/country/country_t.4" policy "south viet nam/location/*" regime "diem/person/*" "*/person/*" "viet nam/country/*" war No Truy vấn Lucene KW+NE suicide buddhist "south viet nam" suicide "buddhists/religiousorganization/ *" "south viet nam/location/*" "norodom sihanouk" u.s aid u.n opinion "north borneo" sarawak join federation malaysia "norodom sihanouk/person/*" "u.s/country/country_t.4" aid ceremonial suicides committed by some buddhist monks in south viet nam and what they are seeking to gain by such acts rejection by prince norodom sihanouk, an asian neutralist leader, of all further u.s aid to his nation u.n team survey of public opinion in north borneo and sarawak on the question of joining the federation of malaysia opposition of indonesia to the newly-created malaysia growing controversy in southeast asia over the proposed creation of a federation of malaysia opposition indonesia malaysia controversy "southeast asia" malaysia arrangements for indonesia to take over the administration of west irian, which has been under united nations administration indonesia administration "west irian" "united nations" controversy between indonesia and malaya on the proposed federation of malaysia, which would unite five territories controversy indonesia malaya malaysia unite territories precarious truce in laos which was brought up by britain before the 14 nations that agreed on the truce in geneva last year maphilindo, a word formed from parts of the names of three countries, which is being used in discussions of international relations in the far east election of park chung hee as president of south korea laos truce geneva 10 11 12 13 14 15 16 efforts of the three-nation international control commission for indo-china to try to stop the fighting that has flared in laos "u.n/internationalorganization/int ernationalorganization_t.17" opinion "north borneo/province/province_t.2189 " "sarawak/location/*" join federation "malaysia/country/country_t.my" opposition "indonesia/country/country_t.id" "malaysia/country/country_t.my" controversy "southeast asia/globalregion/globalregion_t 7" "malaysia/country/country_t.my" "indonesia/country/country_t.id" administration "west irian/province/province_t.1359" "united nations/internationalorganization/ internationalorganization_t.17" controversy "indonesia/country/country_t.id" "malaya/peninsula/peninsula_t.1 01" "malaysia/country/country_t.my" unite territories "laos/country/country_t.la" truce "britain/country/country_t.uk" geneva maphilindo maphilindo election "park chung hee" president "south korea" commission indo-china fighting laos election "park chung hee/person/*" president "south korea/country/country_t.ks" 75 commission indo-china fighting "laos/country/country_t.la" No 17 18 19 20 21 22 23 Truy vấn withdrawal by the sultanate of brunei from the proposed federation of malaysia russia's refusal to contribute funds for the support of united nations peacekeeping forces withdrawal sultanate brunei federation malaysia russia refusal fund united nations peacekeeping agreement by the united arab republic and saudi arabia to withdraw their forces from yemen, which involves observers from the united nations expeditionary force being sent to yemen agreement "united arab republic" "saudi arabia" withdraw force yemen united nations expeditionary the united states has warned it would limit its united nations payments to the level of its regular assessment if nations now in arrears fail to pay up what issues are involved in these nations' being in arrears security council consideration of the complaints by 32 african nations against south africa and portugal "united states" limit "united nations" payment alternatives which have been offered if u.n forces are withdrawn from the congo u.n force withdraw congo what countries have newly joined the united nations country newly join "united nations" "united nations" efforts portugal free african colonies united nations efforts to get portugal to free its african colonies 24 25 Lucene u.n consideration of the conflict between israel and its arab neighbors security council complaint africa against "south africa" portugal u.n conflict israel arab 76 KW+NE withdrawal sultanate "brunei/country/country_t.bx" "malaysia/country/country_t.my" "russia/country/country_t.rs" refusal fund "united nations/internationalorganization/ internationalorganization_t.17" peacekeeping agreement "united arab republic/country/country_t.eg" "saudi arabia/country/country_t.sa" withdraw force "yemen/country/country_t.ym" "united nation/internationalorganization/i nternationalorganization_t.17" "united states/country/country_t.4" limit "united nations/internationalorganization/ internationalorganization_t.17" payment security council complaint "africa/continent/continent_t.3" against "south africa/country/country_t.sf" "portugal/country/country_t.po" "u.n/internationalorganization/int ernationalorganization_t.17" force withdraw "congo/country/country_t.cf" country newly join "united nations/internationalorganization/ internationalorganization_t.17" "united nations/internationalorganization/ internationalorganization_t.17" efforts "portugal/country/country_t.po" free african colonies "u.n/internationalorganization/int ernationalorganization_t.17" conflict "israel/country/country_t.is" arab No 26 27 28 29 30 31 32 Truy vấn effect in the u.n of a majority comprised of underdeveloped nations effect u.n underdeveloped nation british proposal for new high level negotiations with russia or a fourpower summit meeting british negotiation russia "four-power summit" vote party italian elections strengths in popular votes of the various political parties in the recent italian elections talks between secretary of state rusk and president tito of yugoslavia concerning most-favored-nation treatment for yugoslav exports to the united states parliamentary vote of confidence won by prime minister macmillan on the profumo scandal and what effect the profumo scandal may have on labor's chances in the next british elections leaders which figure in discussions of the future of the west german chancellorship talks held in east germany by premier khrushchev with the leaders of four east european satellite countries 37 government crisis which was produced by the controversy involving the walloons and the flemings difficulties ireland's minority government is facing because of the growing unrest over its agricultural policies talks between portugal and the u.s on the troubles portugal has been having with its african possessions shake-ups in the czech regime headed by president antonin novotny wheat deals involving the united states, russia and canada 38 speculation that the number of u.s forces in europe might be reduced 33 34 35 36 Lucene talks "secretary of state" rusk president tito treatment yugoslav export "united states" parliament macmillan profumo scandal labor chance british election KW+NE effect "u.n/internationalorganization/int ernationalorganization_t.17" underdeveloped "*/country/*" negotiation "britain/country/country_t.uk" "russia/country/country_t.rs" "four-power summit" vote party "italy/contry/country_t.it" elections talks "rusk/person/*" "tito/person/*" treatment "yugoslavia/country/country_t.yi " export "united states/country/country_t.4" parliament "profumo/person/*" "macmillan/person/*" scandal labor chance "britain/country/country_t.uk" elections leader discussion "west german" chancellorship talk east germany khrushchev leader east european country government crisis controversy walloon fleming difficulty ireland agricultural policy leaders discussions "west germany/location/*" chancellorship talk "east germany/location/*" "khrushchev/person/*" satellite portugal u.s trouble african possessions czech regime "antonin novotny" wheat deal "united states" russia canada u.s force europe "portugal/country/country_t.po" "u.s/country/country_t.4" trouble african possessions "czechoslovakia/*/*" regime "antonin novotny/person/*" 77 government crisis controversy walloon fleming difficulty "ireland/country/country_t.ei" agricultural policy wheat deal "united states/country/country_t.4" "russia/country/country_t.rs" "u.s/country/country_t.4" force "europe/continent/continent_t.4" No 39 40 41 42 43 44 45 46 47 48 49 Truy vấn Lucene KW+NE coalition government to be formed in italy by the left-wing socialists, the republicans, social democrats, and christian democrats government italy socialists republicans democrats results of the political polls in britain regarding which party is in the lead, the labor party or the conservatives what two proposals did de gaulle reject this year affecting allied relations president de gaulle's belief that france's nuclear force should be the keystone of a european defense system poll britain labor conservatives party government/government/govern ment_t.52" "italy/country/country_t.it" socialist republican christian democrats poll "britain/country/country_t.uk " conservatives labor party efforts by khrushchev to find a closer relationship with yugoslavia khrushchev relationship yugoslavia bonn's opposition to proposals for an east-west nonaggression pact background of the new prime minister of great britain bonn proposal east-west background prime minister "great britain" de gaulle policy british entry market proposal unified europe independent u.s president de gaulle's policy on british entry into the common market proposals for a unified europe independent of the u.s what is the "hot line" proposal background of the new chancellor of west germany, ludwig erhard meeting of ministers in paris in april of those countries that are members of both nato and seato proposal "de gaulle" reject allied relations "de gaulle" france nuclear keystone european defense "hot line" proposal background chancellor "west germany" "ludwig erhard" meeting minister paris nato seato 50 51 successor to premier khrushchev successor khrushchev 78 proposal "de gaulle/person/*" reject allied relations "de gaulle/person/*" "france/country/country_t.fr" nuclear keystone "europe/continent/continent_t.4" defense "khrushchev/person/*" relationship "yugoslavia/country/country_t.yi " "bonn/city/*" proposal "eastwest/location/*" background prime minister "great britain/country/country_t.uk" "de gaulle/person/*" policy "britain/country/country_t.uk" entry market proposal unified "europe/continent/continent_t.4" independent "u.s/country/country_t.4" "hot line" proposal background chancellor "west germany/location/*" "ludwig erhard/person/*" meeting minister "paris/countrycapital/countrycapi tal_t.69" "nato/internationalorganization/in ternationalorganization_t.15" "seato/internationalorganization/ *" successor "khrushchev/person/*" No 52 53 54 55 56 57 58 59 60 Truy vấn khrushchev retire "khrushchev/person/*" retire khrushchev pact nato warsaw communist china's reaction to the soviet union's signing of the nuclear test ban treaty with the west china "soviet union" nuclear treaty west "khrushchev/person/*" pact "nato/internationalorganization/in ternationalorganization_t.15" "warsaw/countrycapital/countryc apital_t.147" "china/country/country_t.ch" "russia/country/country_t.rs" nuclear treaty west suggestion made by president kennedy for a nato nuclear missile fleet manned by international crews suggestion by president kennedy that the u.s and the soviet union cooperate on a moon project kennedy nato nuclear missile provisions of the test ban treaty provisions test ban treaty nation possess u.s missile nuclear submarine fleet u.s "soviet union" inspection system geneva other nations possessing u.s polaris missiles for their nuclear submarine fleets dispute between the u.s and the soviet union over inspection systems at the geneva disarmament conferences signing of the test ban treaty nations working on nuclear weapons development 62 moscow's support of the kurd's struggle for autonomy 64 KW+NE hint by premier khrushchev, who is both the communist party secretary and premier, that he may retire from one of his two posts premier khrushchev once again pressing for a nonaggression pact between nato and the warsaw pact nations 61 63 Lucene president nasser's ruling out arab union so long as the present governing party in syria remains in control prime minister nehru's coming under attack last week in the first noconfidence motion entertained by the indian parliament since his government took office kennedy u.s "soviet union" moon project sign test ban treaty nation nuclear weapon development moscow kurd struggle autonomy nasser arab union party syria remain nehru attack indian parliament 79 "kennedy/person/*" "nato/internationalorganization/in ternationalorganization_t.15" nuclear missile "kennedy/person/*" "u.s/country/country_t.4" "russia/country/country_t.rs" moon project provisions test ban treaty "*/country/*" possess "u.s/country/country_t.4" missile nuclear submarine fleet "u.s/country/country_t.4" "russia/country/country_t.rs" inspection system "geneva/location/*" sign test ban treaty “*/country/*” nuclear weapon development "moscow/city/*" "kurd/organization/*" struggle autonomy "nasser/person/*" arab union party "syria/country/country_t.sy" remain "nehru/person/*" attack "india/country/country_t.in" parliament No 65 66 67 68 69 70 71 72 73 74 75 76 Truy vấn Lucene border dispute between israel and syria border israel syria agreement between syria and iraq on full economic unity and closer economic cooperation continuing conflict between india and pakistan over kashmir syria iraq economic unity cooperation conflict india pakistan kashmir indian fears of another chinese invasion indian chinese invasion the baath (renaissance) party founded by michel aflak, which has gained control of syria and iraq and aims to unite all arab countries king who signed away his power of state giving free rein to his halfbrother feisal's reform rule somalia is involved in border disputes with its neighbors what military aid is being supplied to somalia by russia economic steps taken against south africa as a protest against that nation's apartheid policy increasing criticism of premier ben bella in algeria from other leaders who helped bring about algerian independence take over again by moise tshombe of the katanga province in the congo baath "michel aflak" syria iraq unite arab country king state rein brother feisal reform somalia border "military aid" russia premier cyrille adoula's ordering the entire soviet embassy staff thrown out of his country on spying charges conference on african unity to be held in addis ababa on may 22 by the heads of state of 31 independent african nations "cyrille adoula" soviet embassy spy spain's relaxation of controls over some of its african territories spain relaxation african territories economic "south africa" apartheid criticism "ben bella" algeria independence "moise tshombe" katanga congo conference african unity "addis ababa" 77 80 KW+NE border "israel/country/country_t.is" "syria/country/country_t.sy" "syria/country/country_t.sy" "iraq/country/country_t.iz" economic unity cooperation conflict "india/contry/country_t.in" "pakistan/country/country_t.pk" "kashmir/location/*" "india/contry/country_t.in" "china/country/country_t.ch" invasion baath "michel aflak/person/*" "syria/country/country_t.sy" "iraq/country/country_t.iz" unite arab country king state rein brother “feisal/person/*” reform "somalia/country/country_t.so" border "military aid" "russia/country/country_t.rs" economic "south africa/globalregion/globalregion_ t.10" apartheid criticism "ben bella/person/*" "algeria/country/country_t.ag" independence "katanga/*/*" "moise tshombe/person/*" "congo/country/country_t.cf" "cyrille adoula/person/*" "russia/country/country_t.rs" embassy spy conference "africa/continent/continent_t.3" unity "addis ababa/countrycapital/countrycapi tal_t.60" "spain/country/country_t.sp" relaxation "africa/continent/continent_t.3" territories No 78 79 80 81 82 83 Truy vấn Lucene federation of east africa to be formed by kenya, tanganyika and uganda when kenya gains its independence on dec 12 from britain federation "east africa" kenya tanganyika uganda britain algerian vote on a new constitution giving full powers to premier ben bella's political party effects of the sino-soviet dispute on the new nations of africa and asia or on areas of ferment in latin america algerian vote "ben bella" communist chinese trade with the soviet union, the rest of the communist world, and with the noncommunist world albanian backing of communist china in the ideological split with the soviet union red chinese blaming of economic troubles and the treaty-breaking withdrawal of russian technical assistance for serious delays in its development program communist chinese trade soviet union sino-soviet africa asia ferment latin america albanian china split soviet union chinese economic troubles withdrawal russian technical assistance 81 KW+NE "east african federation/organization/*" "kenya/country/country_t.ke tanganyika/location/*" "uganda/country/country_t.ug" "britain/country/country_t.uk" "algeria/country/country_t.ag" vote "ben bella/person/*" sino-soviet "africa/continent/continent_t.3" "asia/continent/continent_t.2" ferment "america/country/country_t.4" "china/country/country_t.ch" trade "russia/country/country_t.rs" "albania/country/country_t.al" "china/country/country_t.ch" split "russia/country/country_t.rs" "china/country/country_t.ch" economic troubles withdrawal "russia/country/country_t.rs" technical assistance Tài liệu tham khảo Aula, A., Query Formulation in Web Information Search, in IADIS International Conference WWW/Internet (ICWI 2003) 2003: Algarve, Portugal p 403-410 Baeza-Yates, R and B Ribeiro-Neto, Modern Information Retrieval 1999: Addison Wesley Berners-Lee, T., J Hendler, and O Lassila, The Semantic Web, in Scientific American Magazine May, 2001 Buckley, C., Implementation of the SMART Information Retrieval System 1985, TR 85-686, Cornell University: Ithaca, New York Castells, P., M Fernández, and D Vallet, An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval IEEE Transactions on Knowledge and Data Engineering, 2007 19(2): p 261 - 272 Chinchor, N and P Robinson, MUC-7 Named Entity Task Definition (version 3.5) in In Proc of the MUC-7 1998 Ciorăscu, C., I Ciorăscu, and K Stoffel, knOWLer - Ontological Support for Information Retrieval Systems, in In Proceedings of 26th Annual International ACM SIGIR Conference, Workshop on Semantic Web, 2003: Toronto, Canada D.Wollersheim and J.W Rahayu, Ontology Based Query Expansion Framework for Use in Medical Information Systems IJWIS, 2005 1(1): p 101–115 Dill, S., et al., SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation Proceedings of the 12th international conference on World Wide Web, 2003 10 Gonỗalves, A., et al., LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval, in Proc of The Seventh International Conference on 82 Web-Age Information Management (WAIM 2006) 2006: LNCS 4016/2006, Hong Kong, China 11 Gong, Z., C.W Cheang, and L.H U, Multi-term Web Query Expansion Using WordNet, in DEXA 2006 p 379-388 12 Gospodnetic, O., Parsing, Indexing, and Searching XML with Digester and Lucene Journal of IBM DeveloperWorks 2003 13 Gruber, T.R., Toward Principles for the Design of Ontologies Used for Knowledge Sharing International Journal of Human-Computer Studies, 1995 43(5-6): p 907-928 14 Guha, R., R McCool, and E Miller, Semantic Search, in WWW '03: Proceedings of the 12th international conference on World Wide Web 2003, ACM Press: Budapest, Hungary p 700 709 15 Hersh, W., S Price, and L Donohoe, Assessing thesaurus-based query expansion using the UMLS metathesaurus, in In Proceedings of AMIA Annual Symp 2000 p 344–348 16 Jun-feng, S., et al., Ontology-Based Information Retrieval Model for the Semantic Web, in Proceedings of the 2005 IEEE International Conference on e-Technology, e-Commerce and e-Service (EEE'05) on e-Technology, e-Commerce and eService 2005 p 152-155 17 Kiryakov, A., et al., Semantic Annotation, Indexing, and Retrieval Elsevier's Journal of Web Semantics, 2005 2(1) 18 Mihalcea, R and D.I Moldovan Document Indexing using Named Entities in Studies in Informatics and Control 2001: Plenum Press 19 Nagypál, G., Improving information retrieval effectiveness by using domain knowledge stored in ontologies On the Move to Meaningful Internet Systems 2005: OTM Workshops, 2005: p 780-789 83 20 Paralic, J and I Kostial Ontology-based Information Retrieval in Proc of the 14th International Conference on Information and Intelligent systems, IIS 2003 2003 Varazdin, Croatia 21 Popov, B., et al., KIM – Semantic Annotation Platform, in 2nd International Semantic Web Conference (ISWC2003) 2003, Springer Verlag, Berlin Heidelberg p 834-849 22 Popov, B., et al., Towards Semantic Web Information Extraction 2nd International Semantic Web Conference (ISWC2003), 2003 23 Porter, M.F., An algorithm for suffix stripping, in Readings in information retrieval 1997, Morgan Kaufmann Publishers Inc p 313-316 24 Salton, G and C Buckley, Term Weighting Approaches in Automatic Text Retrieval Information Processing & Management, 1988 24(5): p 513-523 25 Salton, G and M.J McGill, Introduction to Modern Information Retrieval 1983: McGrawHill Book Co 26 Sekine, S (2004) Named Entity: History and Future 27 Small, H., The relationship of information science to the social science: A co- citation analysis Information Processing & Management, 1973 13(5): p 277288 28 Son, H.M., and Nghia, P.T., Information Retrieval by Named Entity 2007, Student thesis, HCM University of Technology 29 Tomassen, S.L., J.A Gulla, and D Strasunskas, Document Space Adapted Ontology Application in Query Enrichment in Natural Language Processing and Information Systems, S.B Heidelberg, Editor 2006 p 46-57 30 Varelas, G., et al Semantic Similarity Methods in WordNet and their Application to Information Retrieval on the Web in Proceedings of the 7th Annual ACM International Workshop on Web Information and Data Management 2005 Bremen, Germany: ACM 84 31 Vuong, N.M., Information Retrieval by Named Entity 2006, Master thesis, HCM University of Technology 32 Zhu, J., et al., Relation Discovery from Web Data for Competency Management Web Intelligence and Agent Systems: An International Journal, 2007 5(4) 33 Zhu, J., et al., Mining Web Data for Competency Management, in IEEE/WIC/ACM International Conference on Web Intelligence 2005 Compiegne University of Technology, France 85 ... Chương 2: Truy hồi thông tin theo thực thể có tên từ khóa 13 2.1 Truy hồi thông tin theo thực thể có tên 13 2.1.1 Mơ hình truy hồi thơng tin theo thực thể có tên 15 2.1.2... thác ngữ nghĩa thực thể có tên Một thực thể có tên biểu diễn ba Trong đó, danh hiệu xác định thực thể có tên Các thực thể có tên khác có tên, lớp Thực thể có tên đóng vai... THƠNG TIN THEO THỰC THỂ CĨ TÊN VÀ TỪ KHÓA 2- NHIỆM VỤ LUẬN VĂN: Phát triển hệ thống truy hồi tài liệu theo thực thể có tên từ khóa, bao gồm: - Phân tích đánh giá mơ hình truy hồi thơng tin theo thực