Các phương pháp trên cơ sở tính không đều tam giác

Một phần của tài liệu Tìm hiểu một số kỹ thuật nâng cao tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện (Trang 61 - 63)

Phần lớn thước đo khoảng cách đặc trưng, thí dụ khoảng cách Euclid, là metrics. Metrics có tính chất gọi là tính không đều tam giác (triangle inequality). Berman và Shapiro đã sử dụng tính chất này để làm giảm số lần so sánh trực tiếp đặc trưng trong CSDL. Tính không đều của tam giác phát biểu rằng khoảng cách giữa hai đối tượng không nhỏ hơn hiệu khoảng cách của nó đến đối tượng khác (đối tượng thứ ba). Về toán học, tính chất không đều của tam giác được viết như sau:

d(i,q) ≥ |d(i, k) - d(q, k)|

trong đó, d là khoảng cách, i, q và k là các đối tượng (k là đối tượng khóa).

Bất đẳng thức trên đúng với mọi k. Vậy khi sử dụng tập các đối tượng (k1,..., km) thay cho k làm các đối tượng so sánh thì ta có:

| ) , ( ) , ( | max ) , (i q 1 j m d i kj d q kj d ≥ ≤ ≤ −

trong đó m là tổng số đối tượng so sánh.

Chúng ta áp dụng tính không đều tam giác vào tìm kiếm thông tin đa phương tiện như sau:

• Chọn m vector đặc trưng (như đối tượng khóa) làm cơ sở so sánh. Thông thường, m nhỏ hơn nhiều so với tổng số n các đối tượng (i1, ..., in) trong CSDL. • Với mỗi đối tượng i trong CSDL và mỗi vector so sánh kj, chúng ta tính trước

giá trị d(i,kj) và lưu trữ chúng trong CSDL.

• Trong khi tìm kiếm, ta tính khoảng cách d(q, k j) giữa câu truy vấn q với mỗi vector so sánh kj.

• Tìm l(i)=max1≤jm|d(i,kj)−d(q,kj)| cho mỗi đối tượng i trong CSDL.

tính toán khoảng cách từ nó tới q, gọi là d(q,i). Chúng ta không cần tính toán khoảng cách giữa q và các đối tượng khác trong CSDL vì chúng được đảm bảo là lớn hơn ngưỡng T, nó được lựa chọn theo đặc trưng sử dụng và theo yêu cầu của người sử dụng.

Chú ý rằng các đối tượng không được lựa chọn trên cơ sở l(i) thì có khoảng cách tới q lớn hơn T. Tuy nhiên, không phải mọi đối tượng được lựa chọn đều có khoảng cách tới q nhỏ hơn T. Thí dụ sau đây mô tả tiến trình này. Giả sử CSDL có 8 đối tượng ảnh được biểu diễn bởi các vector đặc trưng i1 đến i8. Hai vector so sánh là k1 và k2. Khoảng cách của từng đối tượng trong CSDL đến vector so sánh được tính toán trước như trong bảng 3.1:

Bảng 3.1: Bảng khoảng cách của từngđối tượng trong CSDL đến từng vector so sánh

Database items

d(i, k1) d(i, k2) |d(i, k1)- d(q, k1)| |d(i, k2)- d(q, k2)| l(i) i1 2 5 1 1 1 i2 4 9 1 5 5 i3 7 2 4 2 4 i4 9 3 6 1 6 i5 3 8 0 4 4 i6 2 9 1 5 5 i7 1 4 2 2 2 i8 4 10 1 6 6

Giả sử ta muốn tìm các đối tượng ảnh trong CSDL mà khoảng cách của chúng đến câu truy vấn q nhỏ hơn 3, và khoảng cách giữa q đến từng vector so sánh là 3 và 4. Cột thứ tư của bảng trên cho biết giá trị |d(i, k1)-d(q, k1)| và cột thứ năm chỉ ra |d(i, k2)-d(q, k2)| cho mỗi đối tượng ảnh trong CSDL.

Cột cuối cùng trong bảng là giá trị l(i). Từ các giá trị của cột này ta thấy chỉ đối tượng i1 và i7 là có khoảng cách đến q nhỏ hơn 3, do vậy nó cần so sánh trực tiếp với q. Thí dụ này chỉ cần tính toán trực tuyến 4 khoảng cách giữa các vector đa chiều thay cho việc tính toán 8 khoảng cách nếu không sử dụng tiến trình lọc trên cơ sở tính không đều tam giác.

Tiến trình lọc trên cơ sở tính không đều tam giác được sử dụng trong mọi kỹ thuật tìm kiếm mà thước đo khoảng cách của chúng là metric.

Một phần của tài liệu Tìm hiểu một số kỹ thuật nâng cao tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện (Trang 61 - 63)