III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN
2. Tìm kiếm văn bản theo mô hình không gian vectơ
2.1 chính xác và độ truy hồi
Giả sử D là một tập hữu hạn các văn bản. A là một giải thuật nhận chuỗi ký tự theo chủ đề là t làm đầu vào và trả lại một tập các văn bản A(t) ở đầu ra. A(t)⊆D.
Với việc đưa vào thuộc tính thích hợp (relevant) với hai đối số: Một chủ đề t và một văn bản d. Nếu relevant(t,d) là đúng thì có nghĩa là văn bản d được xem xét thích hợp với chủ đề t. Ví dụ: Thuộc tính thích hợp có thể thực hiện trên nghiệm Dtest⊆ D của những văn bản và tập hợp kiểm tra độ tương tự Ttest của các chủ đề
Hình 2: Truy vấn văn bản
Độ chính xác (Precision) của giải thuật A với sự tập trung tới thuộc tính thích hợp và tập thử nghiệm Dtest là Pt% cho chủ đề t ⊆ Ttest được tính
tập các văn bản có liên quan thích đáng
tập các văn bản
các văn bản tìm được sau thuật toán truy vấn
× = 100
Pt 1 card({d1 Dcard({dd AD(t) relevantd A(t)})(t,d)is true})
test test ∈ ∈ + ∩ ∈ ∈ + (1)
Độ chính xác của giải thuật A với sự tập trung vào thuộc tính thích hợp, tập hợp thử của văn bản Dtest và tập hợp thử của các chủ đề Ttest là P% được tính theo công thức: ) ( test t T t T card P P = ∑ ∈test (2)
Ngược lại, độ truy hồi (recall) của một giải thuật A là tiêu chuẩn đánh giá của việc có bao nhiêu văn bản đúng được tìm thấy bởi việc truy vấn.
Độ truy hồi Rt quan hệ với chủ đề t được xác định bởi công thức sau:
× = 100
Rt 1+card1+card({d({∈dD∈testDtestd∈dA∈(t)relevant∩relevant(t,d()tis,d)trueis true}) }) (3) (Trong đó: Rt là độ truy hồi liên quan đến một chủ đề t)
Độ truy hồi R kết hợp với thử nghiệm Dtest của các văn bản và thử nghiệm Ttest của những chủ đề đã cho xác định bởi công thức sau:
) ( test t T t T card R R ∑ ∈test = (4)
Độ chính xác và độ truy hồi (precision và recall) là hai thông số tốt nhất cho việc đánh giá hiệu quả của thuật toán truy vấn văn bản. Do vậy, thuật toán tìm kiếm văn bản cần phải đạt được cả hai yếu tố trên đó là chính xác và truy hồi. Trong nhiều trương hợp một giải thuật với độ chính xác rất cao lại có thể độ truy hồi kém hoặc độ truy hồi cao thì độ chính xác lại kém.