Giới thiệu

Một phần của tài liệu Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản (Trang 59)

Trong chương 2 đã giới thiệu cách tìm kiếm các vector đặc trưng cho tài liệu văn bản. Các vector đặc trưng thông thường là đa chiều. Thí dụ, trong mô hình không gian vector, tổng số chiều đặc trưng hay vector tài liệu bằng tổng số mục (items), thường hàng trăm hay hàng ngàn, được sử dụng trong tập hợp tài liệu. Tổng số chiều phụ thuộc vào phương pháp lựa chọn. Trong khi tìm kiếm, câu truy vấn cũng được biểu diễn bởi vector đa chiều. Tìm kiếm trên cơ sở mức độ tương đồng hay khoảng cách giữa vector truy vấn và vector đặc trưng của các đối tượng lưu trữ. Khi tổng số đối tượng lưu trữ hoặc/và tổng số chiều của vector đặc trưng lớn, chúng sẽ chậm khi tìm kiếm tuyến tính mọi vector đặc trưng lưu trữ để tìm ra cái thỏa mãn tiêu trí truy vấn. Do vậy, đòi hỏi có các kỹ thuật và cấu trúc dữ liệu để tổ chức các vector đặc trưng và quản lý tiến trình tìm kiếm sao cho các vector đặc trưng liên quan đến truy vấn được định vị nhanh.

Mục tiêu chính của các kỹ thuật để nâng cao hiệu năng tìm kiếm tương tự là chia không gian đặc trưng đa chiều thành nhiều vùng nhỏ sao cho việc tìm kiếm chỉ được thực hiện trong một hay trong một vài vùng nhỏ. Các kỹ thuật và cấu trúc dữ liệu khác nhau thì khác nhau về cách phân chia và lựa chọn vùng nhỏ cho mỗi truy vấn.

Có ba loại truy vấn thường được sử dụng: truy vấn điểm, truy vấn dải (range) và truy vấn k láng giềng gần nhất.

Trong truy vấn điểm: Câu truy vấn của người sử dụng được biểu diễn bởi vector, các đối tượng có vector đặc trưng đối sánh chính xác với vector truy vấn thì được xemnhư kết quả ở đầu ra.

Trong truy vấn dải: Câu truy vấn được biểu diễn bởi vector đặc trưng và dải khoảng cách. Mọi đối tượng mà khoảng cách từ chúng đến vector truy vấn nhỏ hơn hay bằng dải khoảng cách cho trước thì là kết quả. Tồn tại rất nhiều thước đo

khoảng cách khác nhau, trong đó chuẩn L1 và L2 (khoảng cách Euclid) là hay được sử dụng nhất. Loại khác của truy vấn dải được đặc tả bởi dải giá trị cho mỗi chiều của vector đặc trưng.

Trong truy vấn k láng giềng gần nhất, câu truy vấn của người sử dụng được đặc tả bởi một vector và một số nguyên k. Hệ thống sẽ tìm ra k đối tượng mà nó thỏa mãn điều kiện là những khoảng cách từ chúng đến vector truy vấn là nhỏ nhất.

Cần có kỹ thuật và cấu trúc dữ liệu hữu hiệu để hỗ trợ cả ba loại truy vấn nói trên. Có thể tối ưu các cấu trúc dữ liệu cho một loại truy vấn nhất định nếu biết rằng chỉ một loại truy vấn đó hay được sử dụng cho loại ứng dụng cụ thể.

Một phần của tài liệu Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản (Trang 59)