Giả sử ta có tập các tài liệu được lưu trữ trong máy tính kí hệi u là D1, D2, …, Dn và câu truy vấn Q , mỗi tài liệu và câu truy vấn gồm rất nhiều từ kí hiệu là term1, term2, …, termm. Coi mỗi tài liệu được biểu diễn bằng một vectơ và một véctơ biểu diễn cho câu hỏi.
Sử dụng công thức tính trọng số trong mô hình không gian vecơt được bảng trọng số của các từ trong tập tài liệu và trong câu hỏi.
, thành lập
Quay lại ví dụ trong chương 2, gồm có 3 tài liệu D1: “ani gnu ani bee”,
D2: “dog bee dog hog dog ani dog gnu”, D3: “bee cat gnu dog eel fox” và câu truy vấn Q: “ani dog”. Xây dựng được bảng trọng số của các từ trong tài liệu:
Tài liệu Từ D1 D2 D3 ani 0.3522 0.1761 0 bee 0 0 0 cat 0 0 0.4771 dog 0 0.7044 0.1761 eel 0 0 0.4771 fox 0 0 0.4771 gnu 0 0 0 hog 0 0.4771 0
Bảng trọng số của câu truy vấn:
Truy vấn Từ Q ani 0.1761 bee 0 cat 0 dog 0.1761 eel 0 fox 0 gnu 0 hog 0
Sau đó đối sánh Q với Di bằng cách sử dụng phép tính cosin để tìm ra những tài liệu tương đồng với câu truy vấn ta được kết quả là: D1, D2, D3.
Ví dụ trên chỉ gồm có 3 tài liệu nên có thể sử dụng cosin để tính khoảng cách giữa các vectơ Di và Q. Nhưng trong thực tế Dn, Tm là rất lớn không thể dùng
cosin để tính được vì mất rất nhiều thời gian, do đó sử dụng phương pháp phân cụm để tìm kiếm.
Giả sử có D1, D2, …, D10 tài liệu và câu truy vấn Q sau khi được phân tích thành Tm từ, sử dụng mô hình khô ng gian vectơ để tính trọng số của các Tm trong các tài liệu và câu truy vấn (hình thành được bảng trọng số).
Từ bảng trọng số đó sử dụng thuật toán phân cụm để nhóm các tài liệu vào cụm, giả sử tách làm 3 cụm.
Cụm thứ nhất gồm các tài liệu D1, D4, D10; cụm thứ 2 gồm các tài liệu D2, D5, D6, D9 và cụm thứ 3 gồm tài liệu D3, D7, D8. Trong mỗi cụm ta tìm ra 1 tài liệu đại diện hay là tâm của cụm. Sau đó tính độ tương quan giữa câu truy vấn Q và các đại diện của từng cụm, nếu thấy câu truy vấn Q gần với tâm củ a cụm nào thì tiếp tục tính độ tương quan giữa câu truy vấn Q với các tài liệu còn lại trong cụm đó.
CHƯƠNG 4: CHƯƠNG TRÌNH DEMO