1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp mở rộng truy vấn trong truy xuất thông tin information retrieval (tt)

17 31 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 373,09 KB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN THỊ BÍCH PHƯƠNG NGHIÊN CỨU PHƯƠNG PHÁP MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN (INFORMATION RETRIEVAL) Chuyên ngành : Truyền liệu mạng máy tính Mã số : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI - NĂM 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: …………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Phản biện 2: …………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm 2010 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng TĨM TẮT LUẬN VĂN Chương I Tổng quan mở rộng truy vấn truy xuất thông tin Giới thiệu tổng quan mở rộng truy vấn truy xuất thông tin 1.1 1.1.1 Hệ thống truy xuất thông tin (Information Retrieval-IR) Hệ thống Truy xuất thông tin (Information Retrieval) hệ thống thực tìm kiếm tài liệu (thường tài liệu văn bản) từ tập tài liệu (được lưu trữ máy tính) thường có tính chất phi cấu trúc (văn ngôn ngữ tự nhiên) thỏa mãn nhu cầu thông tin người Mục đích hệ thống Truy xuất thơng tin hiển thị cho người dùng tập thông tin thỏa mãn nhu cầu thơng tin Định nghĩa xác cho nhu cầu thông tin “câu truy vấn” (query), thông tin chọn “tài liệu” (documents) Một hệ thống tìm kiếm thơng tin có hai chức chính, lập mục (indexing) tìm kiếm (interrogation) Hệ thống truy xuất thông tin chia làm loại sau: - Hệ thống tìm kiếm thơng tin dựa từ khóa: Là cách sử dụng từ khóa biểu diễn tài liệu câu truy vấn Trong đó, từ khóa dùng để lập mục cho tài liệu - Hệ thống tìm kiếm thơng tin dựa khái niệm: Sử dụng khái niệm để biểu diễn tài liệu câu truy vấn Hệ thống dùng khái niệm để lập mục Có tiêu chí để đánh giá hệ thống tìm kiếm thơng tin là: Độ xác độ bao phủ thông tin 1.1.2 Mở rộng truy vấn truy xuất thông tin: Mở rộng truy vấn (query expansion) phương pháp thực bổ sung thuật ngữ tìm kiếm vào truy vấn ban đầu người dùng tạo truy vấn nhằm mục đích nâng cao hiệu truy hồi thơng tin Có phương pháp phổ biến đổ điển để mở rộng truy vấn truy xuất thơng tin là: - Phương pháp tồn cục (Global method): Là kỹ thuật mở rộng định dạng lại thuật ngữ truy vấn độc lập vào câu truy vấn kết trả - Phương pháp cục (Local method): Điều chỉnh câu truy vấn liên quan dựa tài liệu kết tìm kiếm ban đầu phù hợp với câu truy vấn 1.2 Phương pháp toàn cục cho tái định dạng lại truy vấn Là phương pháp sử dụng từ điển để tái định dạng lại truy vấn nhằm mục đích đạt hiệu cao truy hồi thơng tin Có loại từ điển từ điển tạo tay từ điển tạo tự động - Có cách tạo từ điển tự động: o Khai thác từ đồng xuất hiện: Những từ xuất tài liệu đoạn văn có nghĩa tương tự liên quan với mặt ngữ nghĩa Từ điển tạo gồm danh sách từ đồng xuất với thuật ngữ truy vấn có tần suất xuất cao o Khai thác quan hệ cú pháp: Phân tích quy tắc ngữ pháp văn để khai thác mối quan hệ ngữ pháp phụ thuộc ngữ pháp Từ điển tạo gồm danh sách từ có mối quan hệ ngữ pháp tương tự Chương II Các phương pháp mở rộng truy vấn truy xuất thông tin 2.1 Phương pháp mở rộng truy vấn truy xuất thơng tin dựa phân tích tổng thể (Global analysis) Phân tích tổng thể chiết xuất đồng xuất thuật ngữ liên quan kết ma trận tương tự cách phân tích tồn tập tài liệu Phương pháp bao gồm kỹ thuật: phân cụm thuật ngữ (term clustering), kỹ thuật tìm cụm từ (phrasefinder) kỹ thuật tạo từ điển tương tự (similar thesaurus) Trong đó, kỹ thuật Phrasefinder kỹ thuật thành công phân tích tổng thể Kỹ thuật Phrasefinder sử dụng giả thuyết: “mọi khái niệm kết hợp với tài liệu giả” Nội dung tài liệu giả cho khái niệm từ xuất cửa sổ cho khái niệm tài liệu Kích cỡ cửa sổ thường từ đến câu Cơ sở liệu INQUERY xây dựng từ tài liệu giả này, tạo sở liệu khái niệm Các khái niệm c tập {  t1 , a1  ,  t2 , a2  ,… } ti thuật ngữ xuất cửa sổ khái niệm c, số lần đồng xuất c ti Để mở rộng câu truy vấn, hệ thống chạy ngược lại sở liệu khái niệm INQUERY tạo đầu danh sách xếp hạng cụm từ khái niệm Trọng số dựa tài liệu thu thập từ phù hợp dùng để định việc xếp khái niệm Một số cụm từ xếp đầu danh sách thêm vào truy vấn đánh trọng số thích hợp 2.2 Phương pháp mở rộng truy vấn truy xuất thơng tin dựa tóm tắt (summarization) Phương pháp mở rộng truy vấn dựa tổng kết thực mở rộng truy vấn toàn văn Trong phương pháp này, chủ đề tìm kiếm mở rộng cách dán toàn câu, đoạn văn, câu khác đến trực tiếp từ tài liệu văn Phương pháp gồm nhiệm vụ thực hiện: - Bước 1: Hệ thống xây dựng câu truy vấn bao hàm nhu cầu thông tin việc sử dụng phương pháp tự động tạo tổng kết chủ đề - Bước 2: Câu truy vấn chi tiết hóa nhu cầu thơng tin xử lý tự động phương pháp xử lý ngôn ngữ tự nhiên để lấy truy vấn tìm kiếm tối ưu cho hệ thống truy hồi thơng tin thống kê Trong phương pháp mở rộng truy vấn dựa tóm tắt, người ta sử dụng kỹ thuật tổng kết văn tự động để lấy tóm tắt đặc tả truy vấn tài liệu trả vừ vịng truy hồi Bản tóm tắt thường có từ đến đoạn văn liền lựa chọn từ văn gốc Mục đích để trình bày cho người dùng cách xem nhanh văn bản, văn lấy Nếu tóm tắt xuất liên quan nắm bắt số khía cạnh quan trọng thơng tin liên quan, người dùng có lựa chọn để dán vào câu truy vấn, làm tăng hội tìm kiếm thành công 2.3 Phương pháp mở rộng truy vấn truy xuất thông tin dựa phân cụm (cluster-based) Phương pháp thu hồi thông tin dựa cụm phân chia tập tài liệu khác thành cụm có ý nghĩa (chủ đề) khác Do tài liệu cụm mô tả chủ đề thêm trả danh sách xếp hạng văn dựa cụm mà đến từ đến người dùng Có phương pháp tiếp cận thu hồi thông tin dựa phân cụm: - Phương pháp xếp hạng cụm truy vấn tương tự - Phương pháp sử dụng phân cụm để làm mịn tài liệu Kỹ thuật phân cụm mờ (fuzzy clustering) Kỹ thuật mở rộng truy vấn dựa phân cụm mờ bao gồm tiến trình: Tiến trình xây dựng từ điển (thesauri) tiến trình mở rộng truy vấn: Hình Kỹ thuật mở rộng truy vấn dựa phân cụm mờ 2.4 Phương pháp mở rộng truy vấn truy xuất thông tin dựa thể học (Ontology based Query expansion) 2.4.1 Tổng quan Ontology Khái niệm Ontology Ontology kho liệu biểu diễn tập khái niệm quan hệ, dùng để mơ tả, định nghĩa tính chất miền (domain) Các yếu tố cấu thành ontology - Ontology cấu tạo class quan hệ (relation) tồn đối tượng class - Lược đồ thuật ngữ ontology dùng để tham chiếu tới toàn class quan hệ Cơ sở tri thức thuật ngữ (thuộc ontology) tham chiếu đến lược đồ thể học cụ thể Q trình mơ hình hóa Ontology Q trình mơ hình hóa Ontology gồm giai đoạn sau: - Giai đoạn 1: Xác định mục đích ontology - Giai đoạn 2: Hình thành class quan hệ - Giai đoạn 3: Mã hóa ontology nắm giữ theo ngơn ngữ đại diện thức - Giai đoạn 4: Xác định tích hợp Ontology hành có khả tái sử dụng - Giai đoạn 5: Đánh giá thống toàn diện ontology - Giai đoạn 6: Ghi chép ontology định mơ hình hóa thành tài liệu Bước đặc biệt quan trọng ontology tái sử dụng ontology khác 2.4.2 Mở rộng truy vấn dựa Ontology 2.4.2.1 Các mô hình tốn mở rộng truy vấn dựa Ontology Các nghiên cứu trước đề xuất số mơ hình mở rộng truy vấn dựa ontology Sau bốn mơ hình tương đối đơn giản có hiệu tốt: - Mơ hình mở rộng truy vấn dựa Ontology độc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-based without  OB Information Retrieval, QEM  IR ) - Mơ hình mở rộng truy vấn dựa ontology kết hợp xác suất độc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probablity without Information Retrieval, QEM IROB  P ) - Mơ hình mở rộng truy vấn dựa ontology kết hợp với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based with  OB Information Retrieval, QEM +IR ) - Mơ hình mở rộng truy vấn dựa ontolgy kết hợp xác xuất tích hợp hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and  OB  P Probability with Information Retrieval, QEM +IR ) 2.4.2.2 Các bước thực mở rộng truy vấn dựa Ontology Phương pháp mở rộng truy vấn dựa ontology cần thực theo bước sau: - Đầu tiên, thuật ngữ câu truy vấn phải khử nhập nhằng để chúng ánh xạ vào khái niệm ontology - Sau đó, thuật ngữ có liên quan đến khái niệm khử nhập nhằng ontology thêm vào câu truy vấn + Khử nhập nhằng: Các khái niệm thể học không cần phải mô tả thuật ngữ Thông thường, khái niệm mô tả số từ đồng nghĩa Trong trường hợp đó, hệ thống phải khử nhập nhằng thuật ngữ để phù hợp với khái niệm ontology Có phương pháp khử nhập nhằng thực thủ công tự động Khử nhập nhằng nghĩa từ (Word sense disambiguation_WSD) đề cập đến trình lựa chọn nghĩa xác cho từ (word) từ tập ngữ nghĩa lựa chọn thuật ngữ ontology để ánh xạ đến thuật ngữ mà có khái niệm xác +Lựa chọn thuật ngữ để mở rộng: Sau thực khử nhập nhằng thuật ngữ, phương pháp thực lựa chọn thuật ngữ mà có liên quan tới khái niệm khử nhập nhằng quan hệ trực tiếp ontology Thông được, quan hệ lựa chọn như: đồng nghĩa (synonyms), đồng nghĩa hạ danh (synonyms and hyponyms), phận (meronyms) Chương III Các phương pháp mở rộng truy vấn truy xuất thông tin 3.1 Giải pháp mở rộng truy vấn truy xuất thông tin dựa thể học (ontology) 3.1.1 Lý lựa chọn giải pháp Mở rộng truy vấn dựa Ontology cách tiếp cận có nhiều ưu điểm ontology cho phép thể nhiều mức độ đồng nghĩa từ cú pháp ngữ nghĩa, quan hệ từ khóa Những ưu điểm trội ontology bao gồm: - Khả xây dựng, phát triển tự động bán tự động; - Khả tổ chức lưu trữ sẵn sàng cho việc sử dụng; - Khả đáp ứng nguồn tri thức phong phú với độ tin cậy cao; - Đồng thời giảm thiểu chi phí cơng sức cho việc huấn luyện, làm giàu nội dung cho ontology Dựa vào ưu điểm kể trên, ontology xem giải pháp hứa hẹn mở rộng truy vấn 3.1.2 Trình bày giải pháp Có phương pháp phổ biến mở rộng truy vấn dựa Ontology nghiên cứu giới là: - Phương pháp mở rộng truy vấn thông qua việc sử dụng WordNet (một ontology tổng quát xây dựng sẵn) Phương pháp khai thác thác trực tiếp liệu từ WordNet để thực mở rộng truy vấn - Phương pháp mở rộng truy vấn thông qua xây dựng ontology chuyên biệt kết hợp khai thác liệu ngữ nghĩa quan hệ ngữ nghĩa từ WordNet Phương pháp gồm phần: o - Xây dựng ontology chuyên biệt tối ưu dựa việc khai thác quan hệ ngữ nghĩa định nghĩa sẵn WordNet o - Thực mở rộng truy vấn dựa Ontology vừa xây dựng Phương pháp phương pháp đơn giản, dễ thực hiệu thu hồi thông tin không cao Ngược lại, phương pháp thứ phức tạp tốn nhiều thời gian, chi phí để xây dựng 3.1.2.1 Giới thiệu WordNet WordNet [http://wordnet.princeton.edu/] ontology tổng quát phổ dụng xây dựng để phục vụ nhiều ứng dụng khác xử lý ngôn ngữ tự nhiên, truy xuất thông tin, làm việc với liệu văn nói chung Đây hệ ontology dùng cho từ vựng tiếng Anh Các từ vựng WordNet phân loại tổ chức thành tập đồng nghĩa gọi synsets Mỗi tập synset biểu diễn nghĩa Các quan hệ WordNet mô tả sau: - Quan hệ Hypernymy (tên khác Superordinate, Thượng danh) quan hệ hai khái niệm A B mà nghĩa khái niệm A bao hàm khái niệm B(nhưng không ngược lại) Một dạng quan hệ Instance Hypernymy (hay Instance) quan hệ khái niệm A đối tượng B mà B dạng A tương ứng cho đối tượng - Quan hệ Hyponymy (hay Subordinate, Hạ danh IS-A) quan hệ hai khái niệm A B mà nghĩa khái niệm B bị bao hàm khái niệm A(nhưng không ngược lại) Một dạng quan hệ Instance Hyponymy (Hay Has-Instance) - Quan hệ Meronymy (hay Has-Member, Bộ phận) với dạng Member Meronymy biểu diễn quan hệ phận-toàn thể hai synet danh từ cho thành phần, dạng Part Meronymy (hay Has-Part) tương ứng cho phận, dạng Substance Meronymy tương ứng cho vật chất - Quan hệ Holonymy (hay Member-Of) với dạng Member Holonymy quan hệ toàn thể-bộ phận hai synset danh từ, cho thành phần, gạng PartHolonymy tương ứng cho phận dạng Substance Holonymy tương ứng cho vật chất - Quan hệ Synonymy Atonymy quan hệ đồng nghĩa phản nghĩa hình thái từ 3.1.2.2 Mở rộng truy vấn dựa WordNet a Mơ hình mở rộng truy vấn dựa WordNet Bảng 3.2 Mơ hình mở rộng truy vấn dựa WordNet Mơ hình mở rộng truy vấn dựa Ontology WordNet mơ tả hình 3.2 Trong mơ hình này, có ba bước thực hệ thống mở rộng truy vấn dựa Ontology WordNet là: Khử nhập nhằng, Mở rộng truy vấn Tìm kiếm tài liệu Bước khử nhập nhằng thực thuật ngữ truy vấn có nhiều nghĩa Thông thường với truy vấn Tiếng Anh, thuật ngữ truy vấn có ngữ nghĩa Do cần thực khử nhập nhằng ngữ nghĩa thuật ngữ để thuật ngữ ánh xạ vào khái niệm Ontology WordNet Khử nhập nhằng cần thiết làm bước đệm cho Mở rộng truy vấn Bước tìm kiếm tài liệu thực dựa động tìm kiếm thơng tin (Search Engine) xây dựng sẵn b Phương pháp thực * Khử nhập nhằng dùng WordNet (Word sense Disambiguation-WSD) Pavlidis [37] nghiên cứu thuật tốn khử nhập nhằng để tạo độ xác cao, độ truy hồi thấp Thuật tốn thuộc lớp phương pháp nhận dạng mẫu có cấu trúc Ở đây, Pavlidis sử dụng đồ thị để mô tả trường hợp (ngữ nghĩa từ) Thuật toán sau: Đặt Q = { w , w , …, w n } truy vấn khởi tạo Đặt: S (w k )  S kj | S kj  Synset WordNet (w k ), w k  Q tập đồng nghĩa WordNet w k , k=1,…,n Ta có: Cx  ( S x11 , S x22 , , S xnn ) cấu hình ngữ nghĩa cho Q ( xk số ngữ nghĩa nằm khoảng từ đến số ngữ nghĩa cho w k ) Với cấu hình Cx , người ta thực sau: - Tạo mạng ngữ nghĩa cho nghĩa - Phân cắt mạng ngữ nghĩa - Gán điểm số (score) cho cấu hình Bước cuối lựa chọn: Cbest  arg max( Score(Cx )) x - Tạo mạng ngữ nghĩa: Với w k  Q synset S kj w k ( S kj ngữ nghĩa thứ j w k WordNet), tạo mạng ngữ nghĩa Mạng ngữ nghĩa tạo tự động sử dụng quan hệ ngữ nghĩa sau: hypernym (vd: xe ô tô phương tiện xe cộ; ký hiệu: hypernym; ký hiệu: @ ), hyponym (ngược lại ~ ), meronym(vd: phịng có tường; ký hiệu: # ), pertainym (vd: cá thuộc động vật; ký hiệu: \ ), attribute (vd: khô giá trị ẩm ướt; ký hiệu:  ), similarity (vd: đẹp tương đương với xinh xắn; ký hiệu: & ), gloss ( gloss ), topic ( topic ), domain ( dl ) Hầu hết quan hệ đề trực tiếp chiết xuất từ WordNet, ngoại trừ gloss, topic domain Hình 3.3 ví dụ mạng ngữ nghĩa tạo cho sense#1 bus Hình 3.3 Mạng ngữ nghĩa cho nghĩa số từ “bus” Phân cắt mạng ngữ nghĩa gán điểm số cho cấu hình Đặt SN( S kj ) mạng ngữ nghĩa cho ngữ nghĩa j từ w k Xét cấu hình ngữ nghĩa Cx tương ứng với truy vấn Q, mạng ngữ nghĩa phân thành cặp giao số node chung đếm Đặt SN ( S kj )  SN ( S1m ) điểm k * * giao Gọi điểm giao node chung S Ví dụ S j  S  S m * biểu thị đường dẫn node Với cấu hình ngữ nghĩa Cx , điểm số tính tốn tổng số node chung Score(C x )   S ', S ''C x :S '# S '' | SN ( S ')  SN ( S '') | Các node chung xếp đảo chiều với đường giao Đặt [S]x danh sách xếp node chung cấu hình Cx Bước cuối lựa chọn ngữ nghĩa tốt cho truy vấn Cbest  arg max( Score(C x )) x * Mở rộng truy vấn với WordNet Để mở rộng truy vấn, người ta sử dụng phương thức mở rộng chiến lược lựa chọn từ mở rộng + Phương thức mở rộng truy vấn: i Mở rộng Synset: synset liên quan thay thuật ngữ truy vấn ban đầu (từ mở rộng nằm truy vấn ban đầu) ii Mở rộng Hypernym (thượng danh): Các từ (word) có khả mở rộng bổ sung thêm hypernyms trực tiếp vào câu truy vấn iii Mở rộng gloss synset: Các từ (word) có khả mở rộng bổ sung thêm synset gloss từ iv Mở rộng gloss word: Các từ (word) có khả mở rộng bổ sung thêm từ glosses chúng (glosses - định nghĩa khái niệm từ WordNet Ở lấy từ nằm định nghĩa tương ứng với ngữ nghĩa từ sau khử nhập nhằng) v Mở rộng node chung: Các từ mở có khả mở rộng bổ sung thêm từ (word) mà tập đồng nghĩa thuộc [S j ]x - Danh sách node chung thuộc Cx + Chiến lược lựa chọn từ có khả mở rộng: - Chiến lược 1: Chỉ mở rộng từ monosemous Đây từ có nghĩa rõ ràng (có nghĩa) - Chiến lược 2: Mở rộng từ mà synset lựa chọn theo thuật tốn khử nhập nhằng (WSD) trình bày Có k node dùng chung (k>0) cho synset khác câu truy vấn 3.2 Xây dựng mơ hình thực nghiệm Trong mơ hình thực nghiệm, ngơn ngữ cài đặt Java Cấu hình máy chủ sử dụng mơ hình thực nghiệm xử lý Intel ® core ™ duo T.7300 2.2GHz, nhớ 2GB, nhớ ngồi có phần dung lượng trống khả dụng 10GB Các công việc cần thực hiện: - Tạo kho liệu tài liệu Tiếng Anh (nhỏ) chủ đề - Xây dựng động tìm kiếm thơng tin cục (Internal Search Engine, ISE) dựa công cụ Lucene cho kho ngữ liệu nêu (Lucene thư viện truy vấn thông tin mã nguồn mở Doug Cuting xây dựng từ năm 1998 với mục tiêu phát triển thành thư viện truy vấn tài liệu hoàn chỉnh giúp người dùng dễ dàng tích hợp chức tìm kiếm vào hệ thống họ) Động tìm kiếm thơng tin cục cài đặt ngôn ngữ Java Eclipse 3.0, jdk 1.5 - Khai thác từ đồng nghĩa WordNet để thực mở rộng truy vấn tìm kiếm tài liệu Các bước thực hiện: - Người dùng thực nhập truy vấn ban đầu - Động tìm kiếm thơng tin cục thực tìm từ đồng nghĩa với thuật ngữ truy vấn ban đầu người dùng dựa ontology WordNet nhằm mục đích tìm thuật ngữ truy vấn mở rộng - Động tìm kiếm thơng tin cục sử dụng thư viện Lucence để tìm kiếm tài liệu dựa thuật ngữ truy vấn mở rộng trả tài liệu có liên quan Kết thử nghiệm: Thực tạo kho tài liệu Tiếng Anh gồm 17 tài liệu chủ đề xe đạp (“bike”) Thực chiến lược tìm kiếm sau: - Chiến lược thứ 1: Tìm kiếm tài liệu với câu truy vấn ban đầu “bike” Trong đó, hệ thống tìm kiếm thực tìm tất tài liệu kho tài liệu có chứa từ “bike” thu kết 11/17 tài liệu - Chiến lược thứ 2: Tìm kiếm mở rộng truy vấn dựa ontology WordNet Động tìm kiếm thơng tin cục thực mở rộng câu truy vấn “bike” cách tìm từ đồng nghĩa với từ “bike” WordNet thu cặp từ đồng nghĩa sau: 1) motorcycle, bike 2) bicycle, bike, wheel, cycle 3) bicycle, cycle, bike, pedal, wheel Động tìm kiếm thơng tin tiếp tục tìm tài liệu kho tài liệu ban đầu mà chứa từ đồng nghĩa với bike (như trên) thu kết 15/17 tài liệu 3.3 Đánh giá ưu khuyết điểm giải pháp mở rộng truy vấn dựa Ontology a Ưu điểm: - Chất lượng mơ hình tri thức tốt: Đặc trưng ontology độ gắn kết, tính ổn định, tính đối kháng đồng nhất, nhập nhằng nên chất lượng mơ hình tri thức tốt Bởi chất lượng việc diễn dịch văn tự phụ thuộc nhiều vào chất lượng mơ hình tri thức Theo nghiên cứu Jones [16] chất lượng mơ hình tri thức hay từ điển chun đề quan trọng Mơ hình phải xác, ổn định bao hàm tồn diện Nếu mơ hình liệu không bao phủ chủ đề hướng tồn diện truy vấn (liên quan đến chủ đề đó) khơng thu hồi kết - Am hiểu mơ hình tri thức: Theo nghiên cứu Suomela Kekalainen [17], trình tìm kiếm thơng tin có hội thành cơng nhiều người dùng hiểu rõ mơ hình tri thức - Khả định hướng mơ hình tri thức: Các phương pháp thực nghiệm nghiên cứu để áp dụng cho mở rộng truy vấn dựa ontology giúp cho hệ thống học hành vi giải thuật xếp hạng cho việc mở rộng truy vấn học tác vụ người dùng trình mở rộng truy vấn, đặc biệt cách chọn từ Đây minh chứng cho tính hiệu việc mở rộng truy vấn có tương tác thế, mở rộng truy vấn dựa ontology mơ hình có khả định hướng tốt - Quy trình ánh xạ truy vấn linh động: Trong trình ánh xạ từ truy vấn vào khái niệm ontology tương ứng so trùng xác khơng tìm thấy quy trình ánh xạ tìm so trùng kế cận tốt - Sử dụng kỹ thật mở rộng truy vấn kết hợp với ontology tạo kết tốt việc dùng kỹ thuật riêng lẻ (kỹ thuật sử dụng từ điển chuyên đề danh mục từ đồng xuất hiện, …) b Nhược điểm: - Nếu ontology cho miền cụ thể chưa tồn phải hao tốn nhiều cơng sức chi phí để xây dựng ontology - Sự khơng tương thích thuật ngữ truy vấn khái niệm ontology cần phải có quy trình liên kết để giải vấn đề c Đánh giá hiệu suất thực Mandala [19] so sánh hiệu suất với phản hồi liên quan (relevance feedback) mở rộng truy vấn dựa ontology có hiệu suất thực tốt đáng kể lại hiệu phản hồi liên quan lý tưởng (relevance feedback ideal) ... Chương III Các phương pháp mở rộng truy vấn truy xuất thông tin 3.1 Giải pháp mở rộng truy vấn truy xuất thông tin dựa thể học (ontology) 3.1.1 Lý lựa chọn giải pháp Mở rộng truy vấn dựa Ontology... vào truy vấn đánh trọng số thích hợp 2.2 Phương pháp mở rộng truy vấn truy xuất thông tin dựa tóm tắt (summarization) Phương pháp mở rộng truy vấn dựa tổng kết thực mở rộng truy vấn toàn văn Trong. .. cho truy vấn Cbest  arg max( Score(C x )) x * Mở rộng truy vấn với WordNet Để mở rộng truy vấn, người ta sử dụng phương thức mở rộng chiến lược lựa chọn từ mở rộng + Phương thức mở rộng truy vấn:

Ngày đăng: 19/03/2021, 18:01

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w