Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
5,85 MB
Nội dung
Truy hồi thơng tin theo thực thể có tên Lời cảm ơn Trước hết, xin gởi lời biết ơn chân thành sâu sắc đến Thầy PGS.TS Cao Hoàng Trụ, người tận tình hướng dẫn, định hướng cho tơi từ phương pháp nghiên cứu khoa học đến cách thức trình bày vấn đề Sự tận tình dẫn Thầy giúp tơi hồn thành tốt luận văn Xin chân thành cảm ơn NCS Nguyễn Thanh Hiên, ThS Huỳnh Tấn Đạt, KS Hồng Trung Dũng, bạn lớp cao học MT2005 giúp đỡ suốt q trình làm luận văn Tơi xin gởi lời cảm ơn đến tác giả báo mà sử dụng để nghiên cứu tham khảo luận văn tốt nghiệp Con xin cảm ơn Ba Mẹ động viên, khuyến khích tạo điều kiện cho hoàn thành năm học trường Ngô Minh Vương Trang Truy hồi thông tin theo thực thể có tên Tóm tắt Xử lý thơng tin dựa từ khóa quan tâm đến ngữ nghĩa từ vựng tài liệu, quan tâm chủ yếu đến xuất tài liệu ý nghĩa tài liệu Trong đó, ngữ nghĩa cấp độ ngơn ngữ tài liệu xác định thực thể có tên (NE) mối quan hệ chúng NE mối quan hệ chúng cấu thành nội dung tài liệu Trong luận văn này, đề xuất kiến trúc tổng quát cho truy hồi thông tin theo NE Kiến trúc đáp ứng cho đặc điểm NE tên, kiểu định danh Đặc biệt giới thiệu mở rộng mơ hình khơng gian vectơ dựa từ khóa truyền thống (VSM) thành mơ hình không gian vectơ dựa NE (NE-VSM) Và mở rộng mơ hình tương tự ngữ nghĩa dựa từ khóa (SSM) thành mơ hình tương tự ngữ nghĩa dựa NE (NE-SSM) Trong vectơ định nghĩa cho không gian NE, cụ thể tên, kiểu, đôi tên-kiểu, định danh ba tên-kiểu-định danh NE thay cho từ khóa Chúng tơi thực sáu mơ hình dựa NE thuộc hai nhóm NE-VSM NE-SMM cho việc tìm kiếm thơng tin với kết thực nghiệm xem xét thảo luận Ngô Minh Vương Trang Truy hồi thông tin theo thực thể có tên Abstract Keyword-based information processing only deals with the word-level semantics of texts, hence mainly by what appear in texts rather than what the texts convey Meanwhile, the object-level semantics of texts are determined by named entities (NE) and their relations, which constitute the main and eventual contents of the texts In this paper, we propose a general framework for NE-based information processing, taking into account all the three features of named entities, namely, their names, types, and identifiers In particular, we extend the traditional keyword-based vector space model (VSM) to NE-based vector space model (NE-VSM) And extend keyword-based semantic similarity model (SSM) to NE-based semantic similarity model (NE-SSM) Therein, vectors are defined over spaces of entity names, types, name-type pairs, and identifiers (or name-type-id triples), instead of keywords We have implemented and applied six NE-based models of two main groups which are NE-VSM and NE-SSM to document searching with experimental results presented and discussed Ngô Minh Vương Trang Truy hồi thông tin theo thực thể có tên Mục lục Lời cảm ơn Tóm tắt Abstract Danh mục hình Danh mục bảng Chương 1: Phát biểu vấn đề Chương 2: Các lý thuyết áp dụng 12 2.1 Mơ hình truy hồi thơng tin theo từ khóa .12 2.2 Hệ thống thích ngữ nghĩa KIM 16 2.3 Các độ đo chuỗi kiểu 21 Chương 3: Các cơng trình liên quan 26 3.1 Mơ hình truy hồi thơng tin dựa WordNet 26 3.2 Mở rộng vectơ tài liệu khám phá mối quan hệ tiềm ẩn 31 3.3 Mô hình truy hồi thơng tin dựa Ontology 35 Chương 4: Truy hồi thơng tin theo thực thể có tên 37 4.1 Tài liệu thích thực thể có tên 38 4.2 Kiến trúc truy hồi thông tin 40 4.3 Độ tương tự thành phần thực thể có tên 41 4.4 Mơ hình truy hồi dựa thực thể có tên tổng quát 43 4.5 Gia tăng thể vectơ tài liệu vectơ truy vấn .46 4.6 Các mơ hình NE-VSM NE-SSM .48 Chương 5: Hiện thực kết thực nghiệm 50 5.1 Hiện thực chương trình 50 5.2 So sánh mô hình NE-VSM có mở rộng tài liệu Google 51 5.3 So sánh mô hình NE-VSM mơ hình NE-SSM 56 Ngô Minh Vương Trang Truy hồi thông tin theo thực thể có tên Chương 6: Kết luận 61 6.1 Các đóng góp cơng trình 61 6.2 Hướng mở rộng 62 Phụ lục 1: Giao diện trang web 63 Phụ lục 2: Giới thiệu Lucene 64 7.1 Tổng quan Lucene 64 7.2 Cấu trúc đánh mục theo từ khóa Lucene 64 Tài liệu tham khảo 68 Ngô Minh Vương Trang Truy hồi thông tin theo thực thể có tên Danh mục hình Hình 2-1: Một phần phân cấp ontology 18 Hình 2-2: Ontology sở tri thức KIM 19 Hình 2-3: Lưu đồ rút trích ngữ nghĩa KIM† ([25]) 20 Hình 2-4: Tổ chức nhận diện thực thể có tên từ GATE 20 Hình 3-1: Lưu đồ Precision-recall SSM VSM† [31] 31 Hình 3-2: Sơ đồ truy hồi thông tin dựa ontology † [30] 36 Hình 4-1: Kiến trúc hệ thống truy hồi tin dựa NE 41 Hình 5-1: Kiến trúc đánh mục theo NE cho tài liệu 50 Hình 5-2: Tìm kiếm theo mơ hình VSM_ED cho kiểu thực thể 53 Hình 5-3: Tìm kiếm theo Google cho kiểu thực thể 53 Hình 5-4: Tìm kiếm theo mơ hình VSM_ED cho cặp tên kiểu thực thể 54 Hình 5-5: Tìm kiếm theo Google cho cặp tên kiểu thực thể 54 Hình 5-6: Tìm kiếm theo mơ hình VSM_ED cho tên thực thể AND kiểu thực thể 55 Hình 5-7: Tìm kiếm theo Google cho tên thực thể AND kiểu thực thể 56 Hình 5-8: Tìm kiếm theo mơ hình VSM_ED cho kiểu thực thể 57 Hình 5-9: Tìm kiếm theo mơ hình SSM_ED cho kiểu thực thể 57 Hình 5-10: Tìm kiếm theo mơ hình VSM_ED&DQ cho kiểu thực thể 58 Hình 5-11: Tìm kiếm theo mơ hình SSM_ED&DQ cho kiểu thực thể 58 Hình 5-12: Tìm kiếm theo mơ hình VSM_ED&EQ cho tên thực thể AND kiểu thực thể 59 Hình 5-13: Tìm kiếm theo mơ hình SSM_ED&EQ cho cho tên thực thể AND kiểu thực thể 60 Hình PL 1: Giao diện trang web: nhập truy vấn 63 Hình PL 2: Giao diện trang web: chọn mơ hình tìm kiếm 63 Hình PL 3: Sự tích hợp tiêu biểu ứng dụng với Lucene† [12] 65 Hình PL 4: Chi tiết cấu trúc bên định dạng đánh mục Lucene† [12] 66 Ngô Minh Vương Trang Truy hồi thơng tin theo thực thể có tên Danh mục bảng Bảng 3-1: Ví dụ vectơ truy vấn ban đầu 30 Bảng 3-2: Vectơ truy vấn phân bổ lại trọng số (re-weighting) 30 Bảng 3-3: Vectơ truy vấn mở rộng (expansion) tập đồng nghĩa 30 Bảng 5-1: Đánh giá Precision Recall Google 51 Ngô Minh Vương Trang Truy hồi thơng tin theo thực thể có tên Chương 1: Phát biểu vấn đề Như biết, ngày với bùng nổ phát triển nhanh chóng World Wide Web, Internet lưu trữ tài ngun thơng tin chia sẻ tồn cầu Nhu cầu khai thác thông tin Internet lớn, theo báo cáo đầu năm 2006 hãng eMarketer , tỷ người truy cập Internet tính đến cuối năm 2005 Trong số tới 845 triệu (xấp xỉ 85%) sử dụng Internet với tần suất thường xuyên Vấn đề đặt làm thể để khai thác sử dụng tài nguyên cách hiệu Dữ liệu lưu trữ Web bán cấu trúc, đa phần thông tin thể dạng ngôn ngữ tự nhiên, phù hợp cho người đọc hiểu, hệ thống truy hồi thông tin sử dụng từ khóa để liệt kê truy hồi tài liệu Trong ý nghĩa hạn hẹp, từ khóa từ nhóm từ liên quan với Trong dạng tổng quát hơn, từ khóa từ xuất văn tài liệu lưu trữ Rất nhiều ngữ nghĩa tài liệu yêu cầu người sử dụng bị biểu diễn văn thành tập từ khóa Hơn nữa, việc so trùng tài liệu yêu cầu người sử dụng tiếp cận khơng gian mơ hồ từ khóa Vì vậy, khơng có ngạc nhiên tài liệu truy hồi theo yêu cầu người sử dụng thơng qua tập từ khóa thường xun không liên quan với Nhu cầu cần khai thác thông tin Internet cách hiệu thực đáng, mơ hình truy xuất thơng tin theo từ khóa bị hạn chế Nên việc nghiên cứu đề xuất giải pháp truy tìm thơng tin ngữ nghĩa để máy tính hỗ trợ người khai thác cách có hiệu nguồn thông tin Internet (và kho tài liệu điện tử khác) việc làm mang lại lợi ích to lớn thiết thực http://www.emarketer.com Ngô Minh Vương Trang Truy hồi thông tin theo thực thể có tên Ngày nay, Thuật ngữ “thực thể có tên” (name entity) sử rụng rộng rãi ứng dụng rút trích thơng tin, trả lời câu hỏi, xử lý ngơn ngữ tự nhiên Thực thể có tên đề cập đến lần đầu Message Understanding Conferences (MUC) năm 1990 [22] Thực thể có tên người, tổ chức, nơi chốn, đối tượng khác tham khảo tên Các thực thể có tên khác chất ngữ nghĩa với từ (word) chỗ chúng nói cá thể, từ nói chung khái niệm, phân loại, quan hệ, thuộc tính Việc xử lý thực thể có tên cần đến trí thức cụ thể giới xét việc xử lý từ đòi hỏi ngữ nghĩa từ vựng ngữ nghĩa thơng thường Các thực thể có tên đề cập đến tài liệu có vị trí quan trọng mặt ngữ nghĩa tài liệu Nên tài liệu Web có thích ngữ nghĩa cho thực thể có tên giúp cho việc tìm kiếm khai thác thơng tin xác hiệu Ví dụ truy vấn thành phố Sài Gịn tài liệu đề cập đến TP.HCM Sài Gòn thành phố ưu tiên xếp danh sách tài liệu trả về, tài liệu chứa từ “Sài Gịn” “Sơng Sài Gịn”, “Ngân Hàng Sài Gịn Cơng Thương” xếp cuối khơng trả Một thực thể có tên biểu diễn ba [tên, kiểu, id], id danh hiệu, phân biệt thực thể có tên với Cùng tên có nhiều id khác nhau, kiểu có nhiều tên khác tên thuộc nhiều kiểu Ý tưởng web ngữ nghĩa nhúng ngữ nghĩa vào trang web thơ, để chúng hiểu máy tính tiện ích việc xử lý thơng tin cách thơng minh Nói cách đại khái, ngữ nghĩa văn ngôn ngữ tự nhiên phân chia thành hai phần, hai cấp độ Cấp độ cấp độ từ xác định âm tiết ngữ nghĩa từ Cấp độ thứ hai cấp độ đối tượng xác định thực thể có tên mối quan hệ chúng biểu lộ tài liệu Truy hồi thông tin truyền thống quan tâm chủ yếu đến vấn đề cấp độ từ, ví tập trung vào mơ tả tương tự mối quan hệ từ cách sử dụng WordNet cho việc truy hồi thơng tin ([31]) Trong đó, nhiều trường hợp phạm vi, NE mối quan hệ chúng tạo thành ngữ nghĩa cho tài liệu, ngữ nghĩa cấp độ từ cách thức để định nghĩa ngữ nghĩa Ngô Minh Vương Trang Truy hồi thơng tin theo thực thể có tên cấp độ đối tượng tài liệu Xa hơn, việc rút trích thơng tin đầy đủ cấp độ đối tượng cịn thách thức lớn Ví dụ [15] [32] điều thực thi dạng bán tự động, cố gắng tự động hồn tồn [34] đạt độ xác khoản 60% cho lĩnh vực đặc trưng Tuy nhiên, có ý nghĩa cho việc xử lý thơng tin có thực thể có tên nhận diện tài liệu Ví dụ như, tìm kiếm trang web nói đến “Washington” người, động tìm kiếm trả tài liệu chứa từ “Washington”, tên tạp chí trường đại học Sự thật nhận diện NE thu hút nhiều nỗ lực nghiên cứu Các hệ thống tiếng kể đến Semtag ([6]) sử dụng phương pháp thống kê KIM ([16]) sử dụng luật so trùng mẫu Trong [14], tác giả đề xuất khái niệm phải xác định truy vấn trước tìm kiếm, để đạt trả lời liên quan Ví dụ, “Washington” có truy vấn phải xác định rõ nói người trường đại học Tuy nhiên, công việc chủ yếu làm tăng thêm liệu để tìm kiếm kết Theo hướng tìm kiếm theo ngữ nghĩa, KIM ([16]) hệ thống thông tin tri thức dựa NE quản lý kho liệu tài liệu thích NE Tuy nhiên, bổ trợ cho việc tìm kiếm tài liệu theo danh hiệu NE Trong [30], VSM dựa từ khóa truyền thống mở rộng với nhãn thực thể dạng chuỗi thường xuyên lần xuất thực thể Tuy nhiên, nhiều giá trị nhãn khơng định nghĩa thức cấu trúc có hệ thống Điều cho thấy có phần khơng thực tế đặc biệt bí danh (alias) thực thể khơng quan tâm Trong đó, mở rộng VSM [10], mối quan hệ NE tài liệu dùng để gia tăng trọng số phần tử vectơ tài liệu, nhiên chúng sử dụng tên NE mà Với trái ngược hoàn toàn, luận văn này, đề xuất cấu tổ chức xử lý thơng tin dựa thực thể có tên hồn tồn mới, NE thể tồn phần Đó bên cạnh NE xác định cách đầy đủ, số Ngô Minh Vương Trang 10 Truy hồi thơng tin theo thực thể có tên Hình 5-8: Tìm kiếm theo mơ hình VSM_ED cho kiểu thực thể Hình 5-9: Tìm kiếm theo mơ hình SSM_ED cho kiểu thực thể Ngô Minh Vương Trang 57 Truy hồi thơng tin theo thực thể có tên Hình 5-10: Tìm kiếm theo mơ hình VSM_ED&DQ cho kiểu thực thể Hình 5-11: Tìm kiếm theo mơ hình SSM_ED&DQ cho kiểu thực thể Ngô Minh Vương Trang 58 Truy hồi thơng tin theo thực thể có tên Ví dụ 5.8: Truy vấn q = “Find web about US and Water Region” Trong trường hợp này, r r q ≡ {(US, nill, nil) and (nil, WaterRegion, nil)} nên q N qT có liên quan, Ta có wN = wT = 0.5 wNT = wI = Do r r r r simVSM _ ED& EQ (d , q ) = 0.5 × simVSM _ ED & EQ (d N , q N ) + 0.5 × simVSM _ ED& EQ (d T , qT ) vectơ khác rỗng Hình 5-12 Hình 5-13 hiển thị kết của VSM_ED&EQ SSM_ED&EQ Trong hai mơ hình này, tên gần nghĩa với US kiểu gần nghĩa với Water Region thêm vào truy vấn, làm gia tăng thể thông tin truy vấn Ta nhận thấy kết trả không chứa “US” mà cịn chứa alias NE có tên “US” Trong “U.S”, “America”, “United States” alias US Và “Mississippi”, “Missouri”, “Gulf” có nghĩa trùng với Water Region Vì truy vấn mở rộng nên trang web chứa NE có tên gần giống với “US” chứa NE có kiểu gần với kiểu “Water Region” trả Hình 5-12: Tìm kiếm theo mơ hình VSM_ED&EQ cho tên thực thể AND kiểu thực thể Ngô Minh Vương Trang 59 Truy hồi thơng tin theo thực thể có tên Hình 5-13: Tìm kiếm theo mơ hình SSM_ED&EQ cho cho tên thực thể AND kiểu thực thể Ngô Minh Vương Trang 60 Truy hồi thông tin theo thực thể có tên Chương 6: Kết luận 6.1 Các đóng góp cơng trình Chúng tơi đề xuất phương pháp hồn tồn việc xử lý thơng tin, từ dựa từ khóa đến dựa thực thể có tên Đặt biệt, mơ hình VSM, SMM dựa từ khóa mở rộng thành mơ hình VSM SMM dựa thực thể có tên Mỗi tài liệu (hoặc truy vấn) thể bốn vectơ thành phần bốn không gian thực thể có tên, tên, kiểu, cặp tên-kiểu danh hiệu (hoặc NE đầy đủ) Các trọng số chiều vectơ tính phù hợp với tiêu chuẩn tf.idf tương ứng với dạng bốn dạng không gian vectơ Tùy thuộc vào nhu cầu người dùng tìm kiếm tài liệu chứa thuật ngữ hay tìm kiếm tài liệu có chủ đề liên quan đến thuật ngữ nên đề xuất sáu mơ hình tính độ tương tự tài liệu truy vấn Tùy thuộc vào mơ hình mà truy vấn phân bổ lại trọng số hay mở rộng áp dụng mơ hình VSM hay SMM Đặc biêt, sáu mơ hình mà chúng tơi đề xuất, chúng tơi có sử dụng phương pháp mở rộng tài liệu Phương pháp làm gia tăng thông tin chứa tài liệu không làm thay đổi ngữ nghĩa ban đầu tài liệu Trong đó, phương pháp mở rộng tài liệu nhiều làm thay đổi ngữ nghĩa ban đầu tài liệu Mặc dù động tìm kiếm dựa từ khóa hành Google thật hữu ích, chúng tơi chứng minh lý thuyết thực tiễn việc tìm kiếm dựa thực thể có tên có nhiều thuận lợi việc tìm kiếm tài liệu Các mơ hình truy hồi thơng tin theo thực thể có tên không làm gia tăng độ đo precision độ đo recall việc tìm kiếm tài liệu Chúng cịn giúp ích cho việc rút trích thơng tin ngữ nghĩa Bởi số cơng trình rút trích thơng tin ngữ nghĩa áp dụng mơ hình truy hồi thơng tin theo từ khóa để vectơ hóa kho liệu Wikimedia đạt kết cao Chúng tơi chắn chắn việc rút trích thơng tin ngữ Ngơ Minh Vương Trang 61 Truy hồi thơng tin theo thực thể có tên nghĩa theo phương pháp đạt kết cao thay mơ hình truy hồi thơng tin theo từ khóa mơ hình truy hồi thơng tin theo thực thể có tên chúng tơi Và việc rút trích thơng tin ngữ nghĩa tốt bổ sung ngược lại cho truy hồi thông tin theo thực thể có tên 6.2 Hướng mở rộng Bởi rút trích thơng tin ngữ nghĩa cịn nhiều hạn chế Do đó, chúng tơi nhận thấy cần kết hợp từ khóa vào mơ hình để tăng độ precison độ recall việc tìm kiếm tài liệu, có kết hợp với tập đồng nghĩa từ khóa WordNet Hơn nữa, đánh trọng số việc nhận diện NE chúng tơi chưa quan tâm đến vị trí NE này, ví dụ xuất tiêu đề quan trọng nội dung Bên cạnh đó, động tìm kiếm chúng tơi hỗ trợ toán tử OR phần toán tử AND Chúng tơi cần hồn thiện tốn tử AND bổ sung thêm toán tử NOT Sự thử nghiệm tương lai với sở tri thức lớn hơn, kho tài liệu lớn cần thiết để kiểm tra cải tiến mơ hình Chúng tơi cần thống kê, so sánh kỹ mô hình mà chúng tơi đề xuất, để từ chọn mơ hình tối ưu nhất, phù hợp với mong muốn người dùng Việc rút trích mối quan hệ NE ngày đạt hiệu suất cao Như nhận xét phần giới thiệu, NE mối quan hệ chúng tạo thành ngữ nghĩa cho tài liệu Do tương lai, chúng tơi cần đề xuất mơ hình khơng hỗ trợ NE mà cịn hỗ trợ mối quan hệ chúng Ngô Minh Vương Trang 62 Truy hồi thông tin theo thực thể có tên Phụ lục 1: Giao diện trang web Hình PL 1: Giao diện trang web: nhập truy vấn Hình PL 2: Giao diện trang web: chọn mơ hình tìm kiếm Ngô Minh Vương Trang 63 Truy hồi thông tin theo thực thể có tên Phụ lục 2: Giới thiệu Lucene 7.1 Tổng quan Lucene Lucene phần mềm mã nguồn mở phát triể Doug Cutting, giới thiệu vào tháng năm 2000 Tháng năm 2001, Lucene gia nhập vào tổ chức Apache Apache phát triễn, quản lý Đây công cụ thiết kế, phát triển dùng để phân tích, đánh mục tìm kiếm thông tin với hiệu suất cao ngôn ngữ Java Cần lưu ý Lucene ứng dụng mà công cụ đặc tả API cần thiết cho việc phát triển động tìm kiếm Được xây dựng thiết kế theo kỹ thuật hướng đối tượng nên API cung cấp theo dạng hướng đối tượng Mặc dù thiết kế xây dựng ban đầu từ Java có số phiên cho ngơn ngữ khác như: Net, C++, Perl,… Thành phần đánh mục Lucene gồm có: IndexWriter, Directory, Analyzer, Document, Field Thành phần tìm kiếm Lucene gồm có: IndexSearcher, Term, Query, TermQuery, Hits Lucene cho phép bạn thêm chức đánh mục tìm kiếm vào ứng dung bạn Lucene không quan tâm đến định dạng tài liệu Nghĩa bạn tiến hành đánh mục tìm kiếm cho trang HTML, Word, PDF, XML,… 7.2 Cấu trúc đánh mục theo từ khóa Lucene Lucene sử dụng cấu trúc đánh mục tiếng gọi đánh mục đảo ngược (inverted index) Khá đơn giản khơng có đặc biệt, đánh mục đảo ngược xếp từ tài liệu, thuật ngữ nắm vai trò trung tâm Mỗi thuật ngữ tham khảo tới tài liệu chứa Chúng ta xem xét file thư mục mục để có nhìn sâu cách đánh mục Ngô Minh Vương Trang 64 Truy hồi thơng tin theo thực thể có tên Hình PL 3: Sự tích hợp tiêu biểu ứng dụng với Lucene† [12] Định dạng mục Lucene mô tả chi tiết website Lucene địa http://jakarta.apache.org/lucene/docs/fileformats.html Chúng tơi tóm tắt có chọn lọc tảng cấu trúc file Điều giúp bạn hiểu việc đánh mục Lucene cách có hệ thống nắm bắt chi tiết vụn vặt Hình PL thể phân chia cấu trúc việc đánh mục cho ví dụ Sự phân chia phân đoạn đơn (trong trường hợp này, chúng tơi có đánh mục tối ưu với phân đoạn đơn) Một phân đoạn đánh dấu tiền tố tên file (trong trường hợp _c) Sau file mô tả Hình PL mơ tả chi tiết Các tên trường (Field names, fnm) File fnm chứa tất tên trường sử dụng tài liệu phân đoạn (segment) Mỗi trường đánh dấu để xác định có đánh mục, lưu dạng vectơ hay không Thứ tự tên trường file fnm xác định q trình Ngơ Minh Vương Trang 65 Truy hồi thơng tin theo thực thể có tên đánh mục khơng cần theo thứ tự alphabet Vị trí trường file fnm sử dụng để kết hợp với file chuẩn hóa (các file với hậu tố f[0–9]*) Chúng không sâu vào file chuẩn hóa đây, tham khảo website Lucene để biết thêm chi tiết Trong ví dụ đánh mục chúng tơi, có trường subject lưu dạng vectơ, trường url không đánh mục Hình PL 4: Chi tiết cấu trúc bên định dạng đánh mục Lucene† [12] Ngô Minh Vương Trang 66 Truy hồi thông tin theo thực thể có tên Từ điển thuật ngữ (Term dictionary, tis) Tất thuật ngữ (các tên trường giá trị) phân đoạn lưu trữ file tis Các thuật ngữ theo thứ tự alphabet theo tên file theo giá trị tên file Mỗi phần tử thuật ngữ chứa doc freq: số tài liệu chứa thuật ngữ phân đoạn Hình PL ví dụ thuật ngữ đánh mục chúng tơi Trường url khơng xuất xem trường khơng đánh mục, lưu trữ khơng xem thuật ngữ Với thuật ngữ file tis, file frq chứa đường dẫn đến tài liệu chứa Các tần số thuật ngữ (Term frequencies, frq) Tần số thuật ngữ tài liệu liệt kê file frq Trong ví dụ chúng tơi, tài liệu có ID có giá trị “junit” xuất lần trường “contents” Với tài liệu liệt kê file frq, file prx chứa đường dẫn đến vị trí xuất thuật ngữ tài liệu Các vị trí thuật ngữ (Term positions, prx) File prx liệt kê vị trí thuật ngữ tài liệu Thơng tin vị trí sử dụng truy vấn yêu cầu nó, truy vấn theo đoạn truy vấn theo khoảng cách Hình PL chứa ba vị trí cho lần xuất thuật ngữ “junit” Lần đầu tài liệu ID vị trí Lần 2, tài liệu ID vị trí Ngô Minh Vương Trang 67 Truy hồi thông tin theo thực thể có tên Tài liệu tham khảo [1] Baeza-Yates, R., Ribeiro-Neto, B 1999 Modern information retrieval ACM Press, New York [2] Bilenko M., Mooney R., Cohen W., Ravikumar P., and Fienberg S 2003 Adaptive Name Matching in Information Integration IEEE Intelligent system, vol 18, No 5, pp 16-23 [3] Bundanitsky A and Hirst G 2001 Semantic Distance in WordNet: An Experimental, Application-Oriented Evaluation of Five Measures Proceedings of the Workshop on WordNet and Other Lexical Resources the 2nd Meeting of the North American Chapter of the Association rof Computational Linguistics, Pennsylvania, USA [4] Cohen, W W., Ranvikuma, P., Feinberg S E 2003 A Comparision of String Distance Metrics for Name-Matching Tasks Proceeding of IJCAI-2003 Workshop on Information Integration on the Web [5] Cunningham H 2004 Covers the Origins of Information Extraction and the Factors Relevant of Its Deployment Preprint Submitted to Elsevier Science 18th November 2004 [6] Dill, S et al.: SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation In: Proceedings of the 12th International Conference on the World Wide Web (2003) [7] Fensel D., Harmelen V F., Horrocks I 2001 OIL: An Ontology Infrastructure for the Semantic Web IEEE Intelligent system, Vol.16, No.2, pp 38-45 [8] Google http://www.google.com Ngô Minh Vương Trang 68 Truy hồi thơng tin theo thực thể có tên [9] Goto, O 1981 An Improved Algorithm for Matching Bological Sequences Journal of Molecular Biology, vol 162, pp 705-708 [10] Goncalves, A., Zhu, J., Song, D., Uren, V., Pacheco, R 2006 Latent Relation Dicovery for Vector Space Expansion and Information Retrieval In: Proceedings of the 7th International Conference on Web-Age Information Management [11] Gospodnetic, O 2003 Parsing, Indexing, and Searching XML with Digester and Lucene Journal of IBM DeveloperWorks [12] Gospodnetic, O., Hatcher, E 2004 Lucene In Action MManning [13] Gruber, T R 1993 Toward principles for the design of ontologies used for knowledge sharing Originally in N Guarino & R Poli, (Eds.), International Workshop on Formal Ontology, Padova, Italy Revised August 1993 Published in International Journal of Human-Computer Studies [14] Guha, R., McCool, R., Miller, E 2003 Semantic search In: Proceedings of the 12th International Conference on World Wide Web (2003) 700-709 [15] Handschuh, S., Staab, S., Ciravegna, F.: S-CREAM: Semi-Automatic CREAtion of Metadata In: Proceedings of the 13th International Conference on Knowledge Engineering and Management (2002) [16] Kiryakov, A., Popov, B., Terziev, I., Manov, D., Ognyanoff, D 2005 Semantic Annotation, Indexing, and Retrieval In Elsevier's Journal of Web Semantics, Vol 2, Issue (1) [17] Jaccard 1912 The Distribution of the Flora of the Alpine Zone New Phytologist vol 11, pp 37-50 [18] Jaro, M A 1989 Advances in Record-linkage Methodology as applied to the 1985 Census of Tampa, Florida Journal of the American Statistical Society, vol 84, no 406, pp 414-420 Ngô Minh Vương Trang 69 Truy hồi thông tin theo thực thể có tên [19] Jaro, M A 1995 Probabilistic Linkage of Large Public Health Data File Statistics in Medicine, vol 14, pp 491-498, 1995 [20] Jiang J., Conrath D.W 1997 Semantic Similarity based on Corpus Statistics and Lexical Taxonomy Proceeding of the International Conference on Research in Computational Linguistics, Taiwan [21] Maedche, A., Zacharias, V 2002 Clustering Ontology-based Metadata in the Semantic Web Proceeding of the 6th European Conference on Principle of Data Mining and Knowledge Discovery [22] Marsh, E., Perzanowski, D 1998 MUC-7 Evaluation of IE Technology: Overview of Results Proceeding of the Seventh Message Understanding Conference (MUC-7) [23] Monge, A E., Elkan, C P 1996 The Field-Matching Problem: Algorithm and Application Proceedings of the Second International Conference on Knowledge Discovery and Data Minning, AAAI Press, pp 267-270 [24] Needleman, S B., Wunsch, C D 1970 A General Method Application to the Search for Similarities in the Amino Acid Sequences of Two Proteins Journal of Molecular Biology 48: 443-453 [25] Popov, B., Kiryakov, A., Kirilov, A., Manov, D., Ognyanoff, D., Goranov, M 2003 KIM -Semantic Annotation Platform In: Fensel, D., Sycara, K.P., Mylopoulos, J (eds.): The Semantic Web - ISWC 2003, Second International Semantic Web Conference, Sanibel Island, FL, USA [26] Salton G., Buckley C 1988 Term-Weighting Approaches in Automatic Retrieval Information Processing & Management, 24(5): 513-523 [27] Sekine, S.: Named Entity: History and Future Proteus Project Report (2004) [28] Smith, T F., Waterman M S 1981 Identification of Common Molecular Subsequences Journal of Molecular Biology 147: 195-197 Ngô Minh Vương Trang 70 Truy hồi thông tin theo thực thể có tên [29] Tru, H C., Dat, T H 2005 Approximate Retrieval of Knowledge Graphs Retrieval Book Chapter in Sanchez, E (et al.): Fuzzy Logic and the Semantic Web Elsevier Science, to appear [30] Vallet, D., Fernández, M., Castells, P.: An Ontology-Based Information Retrieval Model In: Proceedings of the 2nd European Semantic Web Conference Lectures Notes in Computer Science, Vol 3532 Springer-Verlag (2005) 455-470 [31] Varelas G., Voutsakis E., Paraskevi R., Petrakis G.M.E., Evagelos E.M 2005 Semantic Similarity Methods in WordNet and Their Application to Information Retrieval on the Web Proceedings of the 7th annual ACM international workshop on web information and data management, pp 10-16 [32] Vargas-Vera, M et al.: MnM: Ontology Driven Semi-Automatic Support for Semantic Markup In: Proceedings of the 13th International Conference on Knowledge Engineering and Management (2002) [33] Winkler, W E 1999 The State of Record Linkage and Current Research Problems Statistics of Income Division, Internal Revenue Sevice Publication R99/04 [34] Zhang, L., Yu, Y.: Learning to Generate CGs for Domain Specific Sentences In: Proceedings of the 9th International Conference on Conceptual Structures Lectures Notes in Artificial Intelligence, Vol 2120 Springer-Verlag (2001) 44-57 [35] Zhu, J., Concalves, A., Uren, V., Motta, E., and Pacheco, R 2005 Mining Web Data for Competency Management In Proc of Web Intelligence, France, pp 94-100, IEEE Computer Society Ngô Minh Vương Trang 71 ... đến việc tăng thể tài liệu Ngô Minh Vương Trang 36 Truy hồi thơng tin theo thực thể có tên Chương 4: Truy hồi thơng tin theo thực thể có tên Ngày nay, bùng phát phổ biến thông tin Web đặt thách... Trang 42 Truy hồi thông tin theo thực thể có tên 4.4 Mơ hình truy hồi dựa thực thể có tên tổng quát VSM mơ hình truy hồi thơng tin tiếng sử dụng rộng rãi Trong VSM dựa từ khóa, tài liệu thể vectơ... thể có tên 37 4.1 Tài liệu thích thực thể có tên 38 4.2 Kiến trúc truy hồi thông tin 40 4.3 Độ tương tự thành phần thực thể có tên 41 4.4 Mô hình truy hồi dựa thực thể