Một số khái niệm

Một phần của tài liệu (Luận văn thạc sĩ) Xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường Đại Học Xây Dựng (Trang 53 - 54)

Thuật ngữ (term): D ng để chỉ thành ph n của một truy vấn, ví dụ ta có truy vấn: “Thủ đô của Hà Nội là gì” thuật ngữ của truy vấn sẽ là: „Thủ đô‟ „của‟ „Hà Nội‟ Hiểu đơn giản, thuật ngữ là các từ trong truy vấn/văn bản mang ý nghĩa

 Tài liệu: Các văn bản thông thường c n tìm kiếm, truy vấn c ng c thể coi là tài liệu.

 T n suất thuật ngữ hay còn gọi là tf: t n suất thuật ngữ xuất hiện trong tài liệu? 3 l n? 10 l n?

 T n suất tài liệu nghịch đảo hay còn gọi là idf: được tính bằng số lượng tài liệu mà thuật ngữ xuất hiện. T n suất tài liệu nghịch đảo (1 / df) cho biết mức độ quan trọng của thuật ngữ. Thuật ngữ có phải là một từ hiếm (chỉ xảy ra trong một tài liệu) hay không? Hay thuật ngữ này phổ biến (xảy ra trong g n như tất cả các tài liệu)?

Sử dụng hai yếu tố này TF-IDF cho biết độ tương đối của một thuật ngữ trong một tài liệu nào đ Nếu một thuật ngữ phổ biến trong tài liệu này nhưng hiếm ở tài liệu khác thì điểm TF-IDF sẽ cao và tài liệu c điểm TF-IDF cao hơn sẽ được coi là ph hợp với cụm từ tìm kiếm BM cải thiện dựa trên TF-IDF bằng cách sử dụng mức độ liên quan với một bài toán xác suất BM sẽ đưa ra điểm liên quan để xác định xem một truy vấn c mức độ liên quan thế nào đến các tài liệu Sau đ xếp hạng các điểm liên quan đ để đưa ra kết quả các tài liệu ph hợp với truy vấn

45

Một phần của tài liệu (Luận văn thạc sĩ) Xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường Đại Học Xây Dựng (Trang 53 - 54)

Tải bản đầy đủ (PDF)

(81 trang)