Xây dựng thuật toán xấp xỉ như một công cụ hạn chế những khó khăn phát

Một phần của tài liệu tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách trong cơ sở dữ liệu không gian (Trang 68 - 70)

phát sinh đối với kích thước địa lý của đối tượng

lệch về khoảng cách giữa các điểm càng nhỏ khi kích thước tăng.

Ý tưởng sử dụng kỹ thuật tính toán gần đúng như một công cụ hạn chế những khó khăn phát sinh do sự khác biệt giữa đối tượng địa lý trong không gian thực và biểu diễn hình học của đối tượng đó trong CSDL không gian, đang được áp dụng cho việc xây dựng các cấu trúc đánh chỉ mục cũng như trong quá trình tính toán các kết quả chính xác.

Có rất nhiều tiêu chuẩn tương tự trong các CSDL đa phương tiện và các hệ thống trợ giúp việc lập quyết định đang được định nghĩa dựa trên cơ sở là các không gian vecto trong không gian thứ nguyên bậc cao. Các phương pháp chỉ mục phân chia dữ liệu sử dụng trong các không gian thông thường (như grid file, R-tree và các biến thể của chúng) thường hoạt động tốt với các không gian thứ nguyên bậc thấp, nhưng lại thể hiện nghèo nàn khi bậc thứ nguyên tăng lên. Vấn đề nảy sinh này thường được gọi theo thuật ngữ là “dimensional curse[1]” – tạm dịch là “trở ngại về bậc thứ nguyên”. Giải pháp đưa ra là Vector-approximation file (VA-file[2]) (Weber, Schek, & Blott, 1998) ứng dụng trong tìm kiếm tương đương trên các không gian vector thứ nguyên bậc cao.

VA-fileThe vector approximate file: Cấu trúc tổ chức dữ liệu duới dạng chia không gian dữ liệu thành 2b ô chữ nhật – rectangle cells, mỗi ô được định nghĩa một số bít xác định là b (như một số lượng bit trên mỗi chiều). Thay vì tổ chức dưới dạng phân cấp như cấu trúc grid file hoặc R-tree, VA-file cấp phát cho mỗi ô một chuỗi bít riêng có độ dài b và qui định xấp xỉ vị trí của các điểm dữ liệu vào trong mỗi ô bằng các chuỗi bít này. VA-file bản thân nó đơn giản chỉ như một mảng của các phân phối gọi là xấp xỉ hình học. Trong bài toán tìm kiếm k lân cận gần nhất, toàn bộ các file xấp xỉ sẽđược duyệt qua và các đường biên cận trên và cận dưới giới hạn khoảng cách trong truy vấn có thể được xác định dễ dàng dựa vào các ô dạng chữ nhật được biểu diễn một cách gần đúng. Qua đó, một số lượng lớn các vectơ nằm trong chuỗi tìm kiếm này sẽ được lược bỏ dựa trên khung giới hạn gần đúng trên – bước lược bỏ nhằm giới hạn không gian tìm kiếm này còn được gọi là filtering step – Bước lọc. Sau bước này việc tìm kiếm sẽ được thu nhỏ trong giới hạn một tập các

trường hợp khả thi còn lại. Các trường hợp này sau đó sẽ được xem xét theo thứ tự tăng dần của đường biên khoảng cách thấp hơn đối với điểm truy vấn q, khoảng cách chính xác đến q sẽđược tính toán. Tuy nhiên, không cần thiết phải xét hết tất cả các trường hợp trên, nếu đường biên cận dưới tiến vượt quá k-th khoảng cách gần nhất, quá trình tìm kiếm K-NNQs (K Nearest Neighbour queries) dừng.

VA-file khắc phục được các khó khăn gây ra bởi “dimentional curse” bằng cách thay vì chú trọng quản lý cách thức phân chia dữ liệu thuộc các phương pháp chỉ mục thông thường, VA-file theo dõi cách thức lọc dữ liệu của file đã đánh dấu. Như vậy chính dữ liệu (không phải là không gian) sẽ được phân chia thành các ô, và các vector sẽđược gán tương đương theo giá trị gần đúng dựa vào các ô chứa chúng. VA-file bao gồm các giá trị xấp xỉ đã được chia nhỏ dưới dạng bít mã hóa này. Cùng với VA-file là VA+-file là hai cấu trúc lưu trữ các điểm tính toán gần đúng trong quá trình xử lý trên không gian thứ nguyên bậc cao.

Ngoài ra, A-tree[3] (Sakurai, Yoshikawa, Uemura, & Kojima 2000) là một cấu trúc khác nơi các biểu diễn của MBR và các đối tượng dữ liệu được xây dựng dựa trên các phép tính gần đúng liên quan từ các MBR ở cấp “cha” của chúng.

Những cấu trúc này đang được sử dụng trong việc tính toán chính xác các truy vấn tìm kiếm lân cận gần nhất trong không gian thứ nguyên bậc cao và biểu diễn, thực thi tốt hơn so với các kỹ thuật khác dựa trên R-tree.

Một phần của tài liệu tính toán xấp xỉ với các truy vấn liên quan đến khoảng cách trong cơ sở dữ liệu không gian (Trang 68 - 70)