Tổng quan về mở rộng truy vấn trong truy xuất thông tin 1.1 Giới thiệu tổng quan về mở rộng truy vấn trong truy xuất thông tin 1.1.1 Hệ thống truy xuất thông tin Information Retrieval-IR
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
NGUYỄN THỊ BÍCH PHƯƠNG
NGHIÊN CỨU PHƯƠNG PHÁP MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN (INFORMATION RETRIEVAL)
Chuyên ngành : Truyền dữ liệu và mạng máy tính
Mã số : 60.48.15
TÓM TẮT LUẬN VĂN THẠC SỸ
HÀ NỘI - NĂM 2012
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS Từ Minh Phương
Phản biện 1: ………
………
………
………
………
Phản biện 2: ………
………
………
………
………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm 2010
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3TÓM TẮT LUẬN VĂN Chương I Tổng quan về mở rộng truy vấn trong truy xuất thông tin 1.1 Giới thiệu tổng quan về mở rộng truy vấn trong truy xuất thông tin
1.1.1 Hệ thống truy xuất thông tin (Information Retrieval-IR)
Hệ thống Truy xuất thông tin (Information Retrieval) là hệ thống thực hiện tìm kiếm tài liệu (thường là các tài liệu văn bản) từ một tập các tài liệu (được lưu trữ trên máy tính) thường có tính chất phi cấu trúc (văn bản ngôn ngữ tự nhiên) thỏa mãn một nhu cầu thông tin của con người
Mục đích của hệ thống Truy xuất thông tin là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu thông tin Định nghĩa chính xác cho nhu cầu thông tin là “câu truy vấn” (query), và các thông tin được chọn là “tài liệu” (documents) Một hệ thống tìm kiếm thông tin có hai chức năng chính, đó là lập chỉ mục (indexing) và tìm kiếm (interrogation)
Hệ thống truy xuất thông tin được chia làm 2 loại như sau:
- Hệ thống tìm kiếm thông tin dựa trên từ khóa: Là cách sử dụng từ khóa biểu diễn tài liệu và câu truy vấn Trong đó, từ khóa sẽ được dùng để lập chỉ mục cho các tài liệu
- Hệ thống tìm kiếm thông tin dựa trên khái niệm: Sử dụng khái niệm để biểu diễn tài liệu và câu truy vấn Hệ thống dùng các khái niệm để lập chỉ mục
Có 2 tiêu chí để đánh giá một hệ thống tìm kiếm thông tin đó là: Độ chính xác
và độ bao phủ thông tin
1.1.2 Mở rộng truy vấn trong truy xuất thông tin:
Mở rộng truy vấn (query expansion) là phương pháp thực hiện bổ sung các thuật ngữ tìm kiếm vào truy vấn ban đầu của người dùng tạo ra truy vấn mới nhằm mục đích nâng cao hiệu quả truy hồi thông tin
Có 2 phương pháp phổ biến và đổ điển để mở rộng truy vấn trong truy xuất thông tin là:
- Phương pháp toàn cục (Global method): Là kỹ thuật mở rộng hoặc định
dạng lại các thuật ngữ truy vấn độc lập vào câu truy vấn và kết quả trả về của
Trang 4nó
- Phương pháp cục bộ (Local method): Điều chỉnh câu truy vấn liên quan
dựa trên những tài liệu trong kết quả tìm kiếm ban đầu phù hợp với câu truy vấn
1.2 Phương pháp toàn cục cho tái định dạng lại truy vấn
Là phương pháp sử dụng bộ từ điển để tái định dạng lại truy vấn nhằm mục đích đạt hiệu quả cao hơn trong truy hồi thông tin Có 2 loại từ điển là từ điển được tạo bằng tay và từ điển được tạo tự động
- Có 2 cách tạo từ điển tự động:
o Khai thác từ đồng xuất hiện: Những từ cùng xuất hiện trong một tài liệu hoặc đoạn văn có thể có nghĩa tương tự nhau hoặc liên quan với nhau về mặt ngữ nghĩa Từ điển được tạo ra gồm danh sách các từ đồng xuất hiện với thuật ngữ truy vấn và có tần suất xuất hiện cao
o Khai thác quan hệ cú pháp: Phân tích quy tắc ngữ pháp của văn bản
để khai thác mối quan hệ về ngữ pháp hoặc sự phụ thuộc ngữ pháp
Từ điển được tạo ra gồm danh sách các từ có mối quan hệ ngữ pháp
tương tự nhau
Chương II Các phương pháp mở rộng truy vấn trong truy xuất thông tin 2.1 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên phân tích tổng thể (Global analysis)
Phân tích tổng thể chiết xuất sự đồng xuất hiện của các thuật ngữ liên quan và các kết quả trong một ma trận tương tự bằng cách phân tích toàn bộ tập tài liệu Phương pháp bao gồm các kỹ thuật: phân cụm thuật ngữ (term clustering), kỹ thuật tìm cụm từ (phrasefinder) và kỹ thuật tạo từ điển tương tự (similar thesaurus) Trong đó, kỹ thuật Phrasefinder là một trong các kỹ thuật thành công nhất của phân tích tổng thể
Kỹ thuật Phrasefinder sử dụng giả thuyết: “mọi khái niệm được kết hợp với một
tài liệu giả” Nội dung của tài liệu giả cho một khái niệm là các từ xuất hiện trong
mọi cửa sổ cho khái niệm đó trong tài liệu Kích cỡ của một cửa sổ thường là từ 1
Trang 5đến 3 câu Cơ sở dữ liệu INQUERY được xây dựng từ những tài liệu giả này, nó tạo một cơ sở dữ liệu khái niệm Các khái niệm c là tập {t a1, 1,t a2, 2 ,… } trong
đó t i là thuật ngữ xuất hiện trong cửa sổ của khái niệm c, a i là số lần đồng xuất hiện của c và t i Để mở rộng câu truy vấn, hệ thống chạy ngược lại cơ sở dữ liệu khái niệm INQUERY và tạo đầu ra là một danh sách xếp hạng các cụm từ khái niệm Trọng số dựa trên tài liệu và thu thập của từ phù hợp dùng để quyết định việc sắp xếp khái niệm Một số các cụm từ được sắp xếp ở đầu trong danh sách được thêm vào truy vấn và được đánh trọng số thích hợp
2.2 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên tóm tắt (summarization)
Phương pháp mở rộng truy vấn dựa trên tổng kết là thực hiện mở rộng truy vấn toàn văn Trong phương pháp này, các chủ đề tìm kiếm được mở rộng bằng cách dán trong toàn bộ các câu, đoạn văn, và những câu khác đến trực tiếp từ bất cứ một tài liệu văn bản nào Phương pháp này gồm 2 nhiệm vụ được thực hiện:
- Bước 1: Hệ thống xây dựng câu truy vấn bao hàm nhu cầu thông tin bằng việc sử dụng phương pháp tự động tạo bản tổng kết chủ đề
- Bước 2: Câu truy vấn chi tiết hóa nhu cầu thông tin được xử lý tự động bởi các phương pháp xử lý ngôn ngữ tự nhiên để lấy về truy vấn tìm kiếm tối ưu cho hệ thống truy hồi thông tin thống kê
Trong phương pháp mở rộng truy vấn dựa trên tóm tắt, người ta sử dụng kỹ thuật tổng kết văn bản tự động để lấy bản tóm tắt đặc tả truy vấn của tài liệu được trả về vừ vòng đầu tiên của truy hồi Bản tóm tắt thường có từ 1 đến 2 đoạn văn liền nhau được lựa chọn từ văn bản gốc Mục đích đầu tiên là để trình bày cho người dùng bằng cách xem nhanh văn bản, do một văn bản đã được lấy về Nếu bản tóm tắt xuất hiện liên quan và hơn nữa nắm bắt được một số khía cạnh quan trọng của thông tin liên quan, thì người dùng có 1 lựa chọn để dán nó vào câu truy vấn, vì vậy làm tăng cơ hội tìm kiếm thành công
2.3 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên phân cụm (cluster-based)
Trang 6Phương pháp thu hồi thông tin dựa trên cụm phân chia tập các tài liệu khác nhau thành các cụm có ý nghĩa (chủ đề) khác nhau Do đó những tài liệu trong cùng một cụm mô tả cùng một chủ đề và thêm nữa là trả về một danh sách xếp hạng các văn bản dựa trên các cụm mà đến từ đến người dùng
Có 2 phương pháp tiếp cận thu hồi thông tin dựa trên phân cụm:
- Phương pháp xếp hạng cụm truy vấn tương tự
- Phương pháp sử dụng phân cụm để làm mịn tài liệu
Kỹ thuật phân cụm mờ (fuzzy clustering) Kỹ thuật mở rộng truy vấn dựa trên phân cụm mờ bao gồm 2 tiến trình: Tiến trình xây dựng từ điển (thesauri) và tiến trình
mở rộng truy vấn:
Hình 1 Kỹ thuật mở rộng truy vấn dựa trên phân cụm mờ
2.4 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên bản thể học (Ontology based Query expansion)
2.4.1 Tổng quan về Ontology
Trang 7Khái niệm về Ontology
Ontology là một kho dữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng
để mô tả, định nghĩa các tính chất của miền (domain)
Các yếu tố cấu thành ontology
- Ontology được cấu tạo bởi các class và các quan hệ (relation) tồn tại giữa các đối tượng của class
- Lược đồ thuật ngữ ontology dùng để tham chiếu tới toàn bộ các class và các quan hệ Cơ sở tri thức thuật ngữ (thuộc ontology) tham chiếu đến một lược
đồ bản thể học cụ thể
Quá trình mô hình hóa Ontology
Quá trình mô hình hóa Ontology gồm các giai đoạn sau:
- Giai đoạn 1: Xác định mục đích của ontology
- Giai đoạn 2: Hình thành các class chính và các quan hệ
- Giai đoạn 3: Mã hóa ontology đã được nắm giữ theo một ngôn ngữ đại diện chính thức
- Giai đoạn 4: Xác định và tích hợp các Ontology hiện hành có khả năng tái sử dụng được
- Giai đoạn 5: Đánh giá sự thống nhất và toàn diện của ontology
- Giai đoạn 6: Ghi chép ontology và quyết định mô hình hóa thành tài liệu Bước này đặc biệt quan trọng nếu ontology được tái sử dụng bởi ontology khác
2.4.2 Mở rộng truy vấn dựa trên Ontology
2.4.2.1 Các mô hình bài toán mở rộng truy vấn dựa trên Ontology
Các nghiên cứu trước đây đã đề xuất một số mô hình mở rộng truy vấn dựa trên ontology Sau đây bốn mô hình tương đối đơn giản nhưng có hiệu quả tốt:
- Mô hình mở rộng truy vấn dựa trên Ontology và độc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-based without Information Retrieval, QEMIROB)
Trang 8- Mô hình mở rộng truy vấn dựa trên ontology kết hợp xác suất và độc lập với
hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probablity without Information Retrieval, QEMIROB P )
- Mô hình mở rộng truy vấn dựa trên ontology và kết hợp với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based with Information Retrieval, QEM+IROB)
- Mô hình mở rộng truy vấn dựa trên ontolgy kết hợp xác xuất và tích hợp hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probability with Information Retrieval, QEM+IROB P )
2.4.2.2 Các bước thực hiện mở rộng truy vấn dựa trên Ontology
Phương pháp mở rộng truy vấn dựa trên ontology cần thực hiện theo 2 bước như sau:
- Đầu tiên, các thuật ngữ của câu truy vấn phải được khử nhập nhằng để chúng
ánh xạ vào một khái niệm ontology duy nhất
- Sau đó, các thuật ngữ có liên quan đến những khái niệm đã khử nhập nhằng trong ontology được thêm vào câu truy vấn
+ Khử nhập nhằng:
Các khái niệm trong bản thể học không cần phải được mô tả bằng một thuật ngữ duy nhất Thông thường, mỗi khái niệm được mô tả bởi một số từ đồng nghĩa Trong trường hợp đó, hệ thống phải khử nhập nhằng thuật ngữ đó để nó phù hợp với một khái niệm ontology duy nhất Có 2 phương pháp khử nhập nhằng đó là thực hiện bằng thủ công hoặc tự động
Khử nhập nhằng nghĩa của từ (Word sense disambiguation_WSD) đề cập đến quá trình lựa chọn nghĩa chính xác cho một từ (word) từ một tập các ngữ nghĩa
có thể hoặc lựa chọn trong các thuật ngữ của ontology để ánh xạ đến một thuật ngữ
mà chỉ có duy nhất một khái niệm chính xác
+Lựa chọn thuật ngữ để mở rộng:
Trang 9Sau khi thực hiện khử nhập nhằng các thuật ngữ, phương pháp này thực hiện lựa chọn các thuật ngữ mà có liên quan tới khái niệm đã được khử nhập nhằng bằng quan hệ trực tiếp trong ontology Thông được, các quan hệ được lựa chọn như: đồng nghĩa (synonyms), đồng nghĩa và hạ danh (synonyms and hyponyms), bộ phận (meronyms)
Chương III Các phương pháp mở rộng truy vấn trong truy xuất thông tin 3.1 Giải pháp mở rộng truy vấn trong truy xuất thông tin dựa trên bản thể học (ontology)
3.1.1 Lý do lựa chọn giải pháp
Mở rộng truy vấn dựa trên Ontology là cách tiếp cận có nhiều ưu điểm do ontology cho phép thể hiện nhiều mức độ đồng nghĩa từ cú pháp cho tới ngữ nghĩa, cùng các quan hệ giữa các từ khóa Những ưu điểm nổi trội của ontology bao gồm:
- Khả năng xây dựng, phát triển tự động và bán tự động;
- Khả năng tổ chức lưu trữ và sẵn sàng cho việc sử dụng;
- Khả năng đáp ứng nguồn tri thức phong phú với độ tin cậy cao;
- Đồng thời giảm thiểu các chi phí và công sức cho việc huấn luyện, làm giàu nội dung cho ontology
Dựa vào những ưu điểm kể trên, ontology đã được xem như một giải pháp hứa hẹn trong mở rộng truy vấn
3.1.2 Trình bày giải pháp
Có 2 phương pháp phổ biến trong mở rộng truy vấn dựa trên Ontology được nghiên cứu trên thế giới đó là:
- Phương pháp mở rộng truy vấn thông qua việc sử dụng WordNet (một ontology tổng quát được xây dựng sẵn) Phương pháp này khai thác thác trực tiếp dữ liệu từ WordNet để thực hiện mở rộng truy vấn
- Phương pháp mở rộng truy vấn thông qua xây dựng ontology chuyên biệt kết hợp khai thác dữ liệu ngữ nghĩa và quan hệ ngữ nghĩa từ WordNet Phương pháp này gồm 2 phần:
Trang 10o 1 - Xây dựng một ontology chuyên biệt tối ưu dựa trên việc khai thác các quan hệ ngữ nghĩa đã được định nghĩa sẵn trong WordNet
o 2 - Thực hiện mở rộng truy vấn dựa trên Ontology vừa được xây dựng
Phương pháp đầu tiên là phương pháp đơn giản, dễ thực hiện nhưng hiệu quả thu hồi thông tin không cao Ngược lại, phương pháp thứ 2 khá phức tạp và tốn nhiều thời gian, chi phí để xây dựng
3.1.2.1 Giới thiệu WordNet
WordNet [http://wordnet.princeton.edu/] là một ontology tổng quát phổ dụng được xây dựng để phục vụ nhiều ứng dụng khác nhau trong xử lý ngôn ngữ tự nhiên, truy xuất thông tin, làm việc với dữ liệu văn bản nói chung Đây là một hệ ontology dùng cho từ vựng tiếng Anh Các từ vựng trong WordNet được phân loại
và tổ chức thành các tập đồng nghĩa gọi là synsets Mỗi tập synset biểu diễn một nghĩa Các quan hệ của WordNet được mô tả như sau:
- Quan hệ Hypernymy (tên khác là Superordinate, Thượng danh) là quan hệ giữa hai khái niệm A và B mà nghĩa của khái niệm A luôn bao hàm khái niệm B(nhưng không ngược lại) Một dạng của quan hệ này là Instance Hypernymy (hay Instance) là quan hệ giữa khái niệm A và đối tượng B mà B
là một dạng của A tương ứng cho đối tượng
- Quan hệ Hyponymy (hay Subordinate, Hạ danh hoặc IS-A) là quan hệ giữa hai khái niệm A và B mà nghĩa của khái niệm B luôn bị bao hàm bởi khái niệm A(nhưng không ngược lại) Một dạng của quan hệ này là Instance Hyponymy (Hay Has-Instance)
- Quan hệ Meronymy (hay Has-Member, Bộ phận) với dạng Member Meronymy biểu diễn quan hệ bộ phận-toàn thể giữa hai synet danh từ cho thành phần, và dạng Part Meronymy (hay Has-Part) tương ứng cho bộ phận, cùng dạng Substance Meronymy tương ứng cho vật chất
Trang 11- Quan hệ Holonymy (hay Member-Of) với dạng Member Holonymy là quan
hệ toàn thể-bộ phận giữa hai synset danh từ, cho thành phần, cùng gạng PartHolonymy tương ứng cho bộ phận và dạng Substance Holonymy tương ứng cho vật chất
- Quan hệ Synonymy và Atonymy lần lượt là quan hệ đồng nghĩa và phản nghĩa giữa các hình thái từ
3.1.2.2 Mở rộng truy vấn dựa trên WordNet
a Mô hình mở rộng truy vấn dựa trên WordNet
Bảng 3.2 Mô hình mở rộng truy vấn dựa trên WordNet
Mô hình mở rộng truy vấn dựa trên Ontology WordNet được mô tả trong hình 3.2 Trong mô hình này, có ba bước thực hiện cơ bản trong một hệ thống mở rộng truy vấn dựa trên Ontology WordNet đó là: Khử nhập nhằng, Mở rộng truy vấn và Tìm kiếm tài liệu Bước khử nhập nhằng được thực hiện đối với các thuật ngữ của truy vấn có nhiều hơn một nghĩa Thông thường với các truy vấn bằng