Lọc bằng phân lớp, thuộc tính có cấu trúc và các từ khóa

Một phần của tài liệu Luận văn: Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản pot (Trang 61)

3.2 Một số kỹ thuật nâng cao hiệu năng tìm kiếm đa phương tiện

3.2.1Lọc bằng phân lớp, thuộc tính có cấu trúc và các từ khóa

Một số thuộc tính có cấu trúc, thí dụ như ngày tháng, được kết hợp với hầu hết các đối tượng đa phương tiện. Nếu người sử dụng chỉ quan tâm đến các đối tượng mà thỏa mãn một vài thuộc tính thì chúng ta sẽ sử dụng các thuộc tính này để lựa chọn sơ bộ, sau đó thực hiện tìm kiếm trên cơ sở các đặc trưng phức tạp hơn từ chúng.

Thí dụ, khi có sẵn phân lớp chủ đề thì người sử dụng chọn các chủ đề quan tâm và việc tìm kiếm các đối tượng chỉ cần thực hiện trong chủ đề đó.

Các tiệm cận trên đây thường được áp dụng, nó khơng bị giới hạntrên các đặc trưng nào được sử dụng. Với vài đặc trưng cụ thể, có thể sử dụng một số thuộc tính đặc biệt để giảm khơng gian tìm kiếm. Thí dụ, trong phương pháp chỉ mục và tìm kiếm hình dạng ảnh trên cơ sở vùng, chúng ta sử dụng độ lệch (eccentricity) hình dạng làm tiêu chí lọc – chỉ cần tìm kiếm các hình dạng trong dải lệch xác định trước.

3.2.2 Các phương pháp trên cơ sở tính khơng đều tam giác

Phần lớn thước đo khoảng cách đặc trưng, thí dụ khoảng cách Euclid, là metrics. Metrics có tính chất gọi là tính khơng đều tam giác (triangle inequality). Berman và Shapiro đã sử dụng tính chất này để làm giảm số lần so sánh trực tiếp đặc trưng trong CSDL. Tính khơng đều của tam giác phát biểu rằng khoảng cách giữa hai đối tượng không nhỏ hơn hiệu khoảng cách của nó đến đối tượng khác (đối tượng thứ ba). Về tốn học, tính chất khơng đều của tam giác được viết như sau:

d(i,q) ≥ |d(i, k) - d(q, k)|

trong đó, d là khoảng cách, i, q và k là các đối tượng (k là đối tượng khóa).

Bất đẳng thức trên đúng với mọi k. Vậy khi sử dụng tập các đối tượng (k1,..., km) thay cho k làm các đối tượng so sánh thì ta có:

| ) , ( ) , ( | max ) , (i q 1 j m d i kj d q kj d ≥ ≤ ≤ −

trong đó m là tổng số đối tượng so sánh.

Chúng ta áp dụng tính khơng đều tam giác vào tìm kiếm thơng tin đa phương tiện như sau:

• Chọn m vector đặc trưng (như đối tượng khóa) làm cơ sở so sánh. Thông thường, m nhỏ hơn nhiều so với tổng số n các đối tượng (i1, ..., in) trong CSDL. • Với mỗi đối tượng i trong CSDL và mỗi vector so sánh kj, chúng ta tính trước

giá trị d(i,kj) và lưu trữ chúng trong CSDL.

• Trong khi tìm kiếm, ta tính khoảng cách d(q, k j) giữa câu truy vấn q với mỗi vector so sánh kj.

• Tìm l(i)=max1≤jm|d(i,kj)−d(q,kj)| cho mỗi đối tượng i trong CSDL.

tính tốn khoảng cách từ nó tới q, gọi là d(q,i). Chúng ta khơng cần tính tốn khoảng cách giữa q và các đối tượng khác trong CSDL vì chúng được đảm bảo là lớn hơn ngưỡng T, nó được lựa chọn theo đặc trưng sử dụng và theo yêu cầu của người sử dụng.

Chú ý rằng các đối tượng khơng được lựa chọn trên cơ sở l(i) thì có khoảng cách tới q lớn hơn T. Tuy nhiên, không phải mọi đối tượng được lựa chọn đều có khoảng cách tới q nhỏ hơn T. Thí dụ sau đây mơ tả tiến trình này. Giả sử CSDL có 8 đối tượng ảnh được biểu diễn bởi các vector đặc trưng i1 đến i8. Hai vector so sánh là k1 và k2. Khoảng cách của từng đối tượng trong CSDL đến vector so sánh được tính tốn trước như trong bảng 3.1:

Bảng 3.1: Bảng khoảng cách của từngđối tượng trong CSDL đến từng vector so sánh

Database items

d(i, k1) d(i, k2) |d(i, k1)- d(q,

k1)| |d(i, k2)- d(q, k2)| l(i) i1 2 5 1 1 1 i2 4 9 1 5 5 i3 7 2 4 2 4 i4 9 3 6 1 6 i5 3 8 0 4 4 i6 2 9 1 5 5 i7 1 4 2 2 2 i8 4 10 1 6 6

Giả sử ta muốn tìm các đối tượng ảnh trong CSDL mà khoảng cách của chúng đến câu truy vấn q nhỏ hơn 3, và khoảng cách giữa q đến từng vector so sánh là 3 và 4. Cột thứ tư của bảng trên cho biết giá trị |d(i, k1)-d(q, k1)| và cột thứ năm chỉ ra |d(i, k2)-d(q, k2)| cho mỗi đối tượng ảnh trong CSDL.

Cột cuối cùng trong bảng là giá trị l(i). Từ các giá trị của cột này ta thấy chỉ đối tượng i1 và i7 là có khoảng cách đến q nhỏ hơn 3, do vậy nó cần so sánh trực tiếp với q. Thí dụ này chỉ cần tính tốn trực tuyến 4 khoảng cách giữa các vector đa chiều thay cho việc tính tốn 8 khoảng cách nếu khơng sử dụng tiến trình lọc trên cơ sở tính khơng đều tam giác.

Tiến trình lọc trên cơ sở tính khơng đều tam giác được sử dụng trong mọi kỹ thuật tìm kiếm mà thước đo khoảng cách của chúng là metric.

3.2.3 Mơ hình tìm kiếmtrên cơ sở cụm (cluster-based)

Trong các mơ hình tìm kiếm thơng tin đã khảo sát trong Chương 2 cũng như đầu Chương 3, các tài liệu tương tự có thể khơng gần kề trong hệ thống tệp. Với loại tổ chức tệp này, rất khó cài đặt khả năng duyệt (browsing). Hiệu quả của tìm kiếm sẽ thấp vì khơng thể tìm ra mọi mục phù hợp và phải tìm kiếm trên tồn bộ khơng gian tài liệu. Để khắc phục nhượcđiểm này, ta thực hiện cụm (nhóm) các tài liệu tương đồng vào các cụm (cluster).

3.2.3.1 Sinh cụm

Hai tiệm cận tổng quát khi sinh cụm là:

• Tiệm cận thứ nhất: Trên cơ sở tính tương tự mọi cặp (pairwise) tài liệu, hãy nhóm các mục tương tự vào cụm chung. Trong tiệm cận trên cơ sở tính tương tự từng cặp, mỗi tài liệu được đại diện như “vector tài liệu” trong mơ hình khơng gian vector. Sau đó mức độ tương đồng giữa cặp tài liệu được tính tốn. Trong tiến trình cụm, mỗi tài liệu được khởi đầu trong một lớp (class) và sau đó hai tài liệu tương tự nhau nhất trên cơ sở tính tương tự của cặp được tổ hợp trong một cụm. Tính tương đồng giữa cụm mới hình thành và các tài liệu khác được tính tốn, sau đó tài liệu tương đồng nhất (kể cả cụm) được tổ hợp vào cụm mới. Tiến trình tổ hợp tiếp tục cho mọi tài liệu được nhóm vào cụm cao hơn. Đó là tiến trình cụm phân cấp.

Các phương pháp cụm phân cấp trên cơ sở tính tương đồng giữa các tài liệu là khá đắt khi thực hiện. Nhưng phương pháp này sinh ra tập duy nhất các cụm cho mỗi tập tài liệu.

• Tiệm cận thứ hai: Sử dụng phương pháp Heuristic khơng địi hỏi tính tốn tính tương tự cặp tài liệu. (adsbygoogle = window.adsbygoogle || []).push({});

Phương pháp này sinh ra nhanh các cụm thô và tươn g đối rẻ hơn phương pháp trên. Tiến trình heuristic đơn giản nhất (tiến trình một bước) lấy các tài liệu sẽ cụm theo thứ tự tùy ý. Lấy tài liệu thứ nhất để đặt vào cụm. Mỗi tài liệu tiếp theo sẽ so sánh với các cụm trước đó, rồi đặt vào cụm tồn tại nếu đủ tính tương đồng với cụm đó. Nếu tài liệu khơng đủ tính tương đồng với các cụm có sẵn thì để vào cụm mới. Tiến trình này tiếp tục cho đến khi mọi tài liệu được cụm. Cấu trúc cụm được sinh ra theo cách này phụ thuộc vào thứ tự trong đó tài liệu được xử lý.

3.2.3.2 Tìm kiếmtrên cơ sở cụm

Khi các cụm (nhóm) được hình thành, tìm kiếm tài liệu sẽ hiệu quả. Mỗi cụm có vector đại diện, thường là tâm của chúng. Tâm của cụm được tính bằng vector trung bình của mọi tài liệu trong nhóm (trọng số của thuật ngữ tâm i được xác định bằng trọng số trung bình của mọi thuật ngữ i trong mọi tài liệu).

Trong khi tìm kiếm tài liệu, các vector câu truy vấn được so sánh với tâm của các cụm. Sau khi nhận ra cụm có tính tương đồng cao nhất với vector truy vấn, sẽ có hai khả năng:

• Mọi tài liệu trong cụm được tìm ra. Điều này xảy ra khi các cụm đều nhỏ. • Vector tìm kiếm được so sánh với từng vector tài liệu trong cụm và chỉ tài liệu nào có tính tương đồng cao nhất thì được tìm ra làm kết quả.

3.2.4 Chỉ mục ngữ nghĩa tiềm ẩn (LSI) để tìm kiếm thông tin trên cơ sở không gian vector gian vector

Một kỹ thuật khác được áp dụng để tìm kiếm thơng tin đa phương tiện đó là kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Semantic Indexing – LSI). Ý tưởng

cơ bản của kỹ thuật này là sử dụng một ma trận phân tích để xác định những thành phần chính của vector khơng gian được xác định bởi tập tài liệu, và sau đó chiếu vector lên khơng gian được mở rộng bởi những thành phần chính đó. Trong kỹ thuật LSI, những thành phần chính được xem là thể hiện cho những khái niệm quan trọng, trong khi những thành phần ít quan trọng hơn được xem là những biến đổi trong cách sử dụng khác nhau của từ. Vì thế LSI nhấn mạnh khía cạnh quan trọng của tfi.df và bỏ qua hiệu quả của cách sử dụng từ ngữ khác nhau. Sau đó, các tài liệu được so sánh bằng cách sử dụng phép đo độ tương đồng bằng hàm số cosin và kết quả sẽđược sắp xếp theo độ tương đồngđể hiển thị.

LSI là một kỹ thuật khá hiệu quả trong tìm kiếm văn bản, nên tác giả luận văn sẽ đi sâu nghiên cứu về kỹ thuật này và chi tiết sẽ được trình bày trong mục tiếp theo của chương.

3.3 Kỹ thuật LSI

3.3.1 Giới thiệu LSI

Trong mơ hình khơng gian vector, mỗi tài liệu được biểu diễn bởi một vector trọng số thuật ngữ N chiều, mỗi thành phần của vector là trọng số của từng thuật ngữ trong số N thuật ngữ của tài liệu. Nếu tập tài liệu có M tài liệu, thì tập tài liệu này được biểu diễn bằng ma trận A kích thước MxN. Trong khi tìm kiếm, câu truy vấn cũng được biểu diễn bằng vector trọng số thuật ngữ N chiều. Tính tương đồng giữa truy vấn và từng tài liệu lưu trữ được tính bằng tích vơ hướng hay hệ số cosin

giữa vector truy vấn và vector tài liệu.

Tiệm cận trực tiếp trên đây có hai yếu điểmsau đây:

Yếu điểm thứ nhất: Tập hợp tài liệu (thí dụ thư viện) có thể chứa đến hàng triệu tài liệu với nhiều ngàn khái niệm (M và N rất lớn). Vậy đòi hỏi tổng số bộ nhớ rất lớn để lưu trữ. Thí dụ, nếu thư viện có 1 triệu tài liệu với 10 000 thuật ngữ thì chúng ta cần đến 10GB bộ nhớ lưu trữ với mỗi phần tử chiếm 1 byte.

Yếu điểm thứ hai: Ít nhất cần M phép nhân vector N chiều khi tìm kiếm nếu sử dụng thước đo tương tự tích vơ hướng và địi hỏi nhiều hơn thế nếu sử dụng thước đo tương tự hệ số cosin. Khi M và N lớn, thời gian địi hỏi để tính tốn sẽ khơng đáp ứng với việc tìm kiếm trực tuyến.

Chỉ mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing) được Falotsos, Foltz, Dumais và Bently phát triển để giải quyết một phần khó khăn trên. Ý tưởng cơ bản của LSI là thực hiện nhóm các thuật ngữ tương đương để hình thành “khái niệm” hay “chủ đề” và tài liệu sẽ được đại diện bởi các khái niệm hay chủ đề này. Vì tổng số khái niệm sẽ nhỏ hơn nhiều so với tổng số thuật ngữ, do vậy địi hỏi ít bộ nhớ lưu trữ hơn và thời gian tính tốn sẽ nhanh hơn.

Mơ hình LSI

Mơ hình khơng gian Term – Doc Mơ hình term – topic - doc

Hình 3.1. Mơ hình LSI

Mơ hình này minh hoạ một cách tiếp cận trực tiếp hơn mối liên quan giữa các tài liệu và các thuật ngữnhư trong truy tìm vector, trong đó tồn tại một lớp giữa trong đó bao gồm cả lượcđồ câu truy vấn và lượcđồ tài liệu. Khơng gian của khái niệm có thể có kích thước nhỏ hơn. Chẳng hạn, chúng ta có thể xác định rằng câu truy vấn t3 trả lại kết quả là d2, d3,d4 trong tập các câu hỏi, dựa vào sự quan sát cho thấy chúng có liên quan đến khái niệm C2, không yêu cầu tài liệuđó phải chứa term t3. Câu hỏi đặt ra là làm thế nào để thu được không gian khái niệm?. Một cách khả quan để có thể tìm thấy những miêu tả chính tắc của ngơn ngữ tự nhiên, nhưng đây là một nhiệm vụ khó đạt được. Để đơn giản hơn, chúng ta có thể sử dụng những thuộc tính tốn học của ma trận term – doc, ví dụ, xác định những khái niệm bằng cách tính tốn ma trận.

3.3.2 Phương pháp luận LSI

Chỉ mục ngữ nghĩa tiềm ẩn (LSI) là một kỹ thuật được thiết kếđể giải quyết vấn đề đồng nghĩa và các vấn đề đa nghĩa của từ ngữ. Kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn giả thiết rằng có một số cấu trúc tiềm ẩn trong các mẫu có các từđồng thời

xuất hiện, thông qua các tập và các phép thử tài liệu để mơ hình hóa những phần phụ thuộc giữa các từ và tài liệu. LSI dùng kỹ thuật tách các giá trị đơn (SVD- Singular Value Decomposition) để giảm bớt kích thước ma trận term - doc, không gian r chiều xuống một không gian s chiều, s<<r, không gian mới này được gọi là không gian khái niệm.

Tất cả các thuật ngữ M và các tài liệu N có thểđược thể hiện dưới dạng các vector trong không gian s chiều. Do vậy, các từ khơng cịn độc lập nhau, và những từ đồng nghĩa sẽ tương ứng cùng kích thước hoặc có cùng độ tương đồng trong không gian này. Các tài liệu với những mẫu từ tương tự sẽ gần nhau dù chúng không chia sẻ những từ chung, điều này cho thấy rằng kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn có thể phát hiện ra những mối quan hệ ngữ nghĩa học tiềm ẩn giữa những tài liệu. Ví dụ, chỉ mục ngữ nghĩa tiềm ẩn sẽ thấy được “laptop” và “portable” xuất hiện nhiều trong cùng ngữ cảnh và có vectơ tương tự.

Xét ma trận term – doc

- Gọi A là ma trận term-doc với M cột (Terms) và N hàng (Docs). - Các phần tử của ma trận là trọng số w

i,jđược tính từ lược đồ tf-idf.

Hình 3.2. Mơ hình tính tốn và xếp thứ hạng cho các tài liệu (adsbygoogle = window.adsbygoogle || []).push({});

Hình 3.2 minh hoạ ma trận term –doc A có thể được dùng để tính tốn thứ hạng của các tài liệu đối với câu truy vấn q như thế nào.

At • q query•doc1 query•doc2 ... query•doc6 At t q doc1 doc2 doc3 doc4 doc5 doc6 N t

Kỹ thuật LSI sử dụng kỹ thuật SVD bằng cách trong ma trận S chỉ lựa chọn những giá trị đơn lớn nhất, giữ lại những cột tương ứng U và VT. Ma trận kết quả được gọi là As và được cho bởi:

- As = Us x Ss x VsT

trong đó s, s < r là kích thước của khơng gian khái niệm. - Tham số s cần phải:

o Đủ lớnđể phù hợp vớiđặc trưng của dữ liệu;

o Đủ nhỏđể lọc ra những chi tiết không liên quan.

Hình 3.3. Minh hoạ kỹ thuật Chỉ số hố ngữ nghĩa tiềm ẩn (LSI)

Trong trường hợp tìm kiếm tài liệu văn bản, hạng r của ma trận A bằng tổng khái niệm. U được xem như ma trận tương tự tài liệu – khái niệm, V là ma trận tương tự thuật ngữ - khái niệm. Thí dụ, u2,3 = 0.6 có nghĩa là khái niệm 3 có trọng số 0.6 trong tài liệu 2 và v1,2 = 0.4 có nghĩa rằng độtương đồng giữa thuật ngữ 1 và khái niệm 2 là 0.4.

Trên cơ sở SVD, chúng ta lưu trữ các ma trận U, S và V thay cho A, làm giảm đáng kể vùng nhớ cần lưu trữ. Thí dụ, giả sử M=1.000.000, N=10.000 và r=500. Tổng số không gian lưu trữ đòi hỏi sẽ là 1.000.000x500+500x500+10.000x500=505.25 MB. Giá trị này nhỏ hơn nhiều so với 10 GB để lưu trữ A. N M = MxN Mxs sxN sxs A U S VT Document vectors Term vectors N s

Trong khi tìm kiếm, độ tương đồng giữa tài liệu và câu truy vấn được tính như sau: vector tìm kiếm q trong khơng gian thuật ngữ được chuyển sang vector qc trong không gian khái niệm bằng cách nhân nó với VTnhư sau:

qc = VT x q

Độ tương đồng giữa câu truy vấn với từng tài liệu được tính bằng tích vơ hướng hay hệ số cosin giữa qc và mỗi hàng của U. Do vậy, với việc sử dụng LSI,

Một phần của tài liệu Luận văn: Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản pot (Trang 61)