Số bài viết không liên quan Tổng số bài viết Độ chính xác
Sau khi nghiên cứu dữ liệu là các trang web thuộc 7 website ở mục 4.2.1 tác giả thấy một đặc điểm chung là: Trong thẻ “link” sẽ chứa tên của website. Nhƣ vậy, để gán cho một bài viết thuộc website nào, ta sẽ so sánh thông tin trong thẻ link và địa chỉ chính xác của website đó. Đánh giá hiệu suất của chức năng này, tác giả lựa chọn ngẫu nhiên 650 bài viết từ tập dữ liệu để đánh giá bằng phƣơng pháp thủ công. Độ chính xác của chức năng phân lớp đƣợc đánh giá bằng công thức (4.1) và kết quả đƣợc trình bày trong bảng (4.4).
4.3.3. Đánh giá quá trình trích chọn thông tin
Mô tả thực nghiệm: Mục đích của thực nghiệm này là đánh giá khả năng của bộ trích chọn dữ liệu đƣợc nêu ở mục 3.8.
Phát biểu thực nghiệm:
Đầu vào: Bài viết chứa thông tin về các tour du lịch.
Đầu ra: Thông tin về các tour du lịch có trong bài viết bao gồm: tên tour, thông tin chi tiết về tour.
Dữ liệu thực nghiệm: Dữ liệu là 350 bài viết thuộc 7 website dreamtravel.vn, dulichachau.com, dulichnamchau.vn, dulichviet.com.vn, dulichnet.com.vn, dulichmienbac.com.vn, dulichhn.com.
Do một bộ E đƣợc định nghĩa là một tập bao gồm tên tour và thông tin chi tiết về tour, trong đó tùy thuộc vào từng website khác nhau mà ta có các thông tin chi tiết khác nhau và với mỗi website ta lại có một quy trình riêng để trích chọn.
Để đánh giá khả năng của bộ trích chọn, tác giả sử dụng ba độ đo là độ chính xác (P - Precision), độ hồi tƣởng (R - Recall) và độ đo F (F - score) [6]. Các độ đo này đƣợc biểu diễn trong công thức (4.1), (4.2) và (4.3)
Trong đó:
Số tour trích chọn đúng là số tour mà mô hình trích chọn chính xác
Số tour trích chọn sai là số tour mà mô hình trích chọn sai
4.1 Số tour trích chọn đúng
Độ chính xác (P) =
Số tour trích chọn đúng + số tour trích chọn sai
4.2 Số tour trích chọn đúng
Trong đó:
Số tour trích chọn đúng: là số tour mà mô hình trích chọn chính xác. Số tour không trích chọn đƣợc: là số tour mà bộ trích chọn không
trích chọn ra.