Đánh giá quá trình phân lớp

Một phần của tài liệu Trích chọn thông tin trong văn bản du lịch và ứng dụng (Trang 41)

Mô tả thực nghiệm: Mục đích của thực nghiệm này là đánh giá khả năng của bộ phân lớp dữ liệu đƣợc nêu ở mục 3.6.

Phát biểu thực nghiệm:

Đầu vào: Tập các bài viết là kết quả của bộ lọc.

Đầu ra: Các bài viết đƣợc gán nhãn theo tên của 7 website.

Dữ liệu thực nghiệm: Dữ liệu là 650 bài viết sau khi đƣợc lọc bởi bộ lọc dữ liệu.

Bảng 4.4. Độ chính xác của chức năng phân lớp

Số bài viết không liên quan Tổng số bài viết Độ chính xác

Sau khi nghiên cứu dữ liệu là các trang web thuộc 7 website ở mục 4.2.1 tác giả thấy một đặc điểm chung là: Trong thẻ “link” sẽ chứa tên của website. Nhƣ vậy, để gán cho một bài viết thuộc website nào, ta sẽ so sánh thông tin trong thẻ link và địa chỉ chính xác của website đó. Đánh giá hiệu suất của chức năng này, tác giả lựa chọn ngẫu nhiên 650 bài viết từ tập dữ liệu để đánh giá bằng phƣơng pháp thủ công. Độ chính xác của chức năng phân lớp đƣợc đánh giá bằng công thức (4.1) và kết quả đƣợc trình bày trong bảng (4.4).

4.3.3. Đánh giá quá trình trích chọn thông tin

Mô tả thực nghiệm: Mục đích của thực nghiệm này là đánh giá khả năng của bộ trích chọn dữ liệu đƣợc nêu ở mục 3.8.

Phát biểu thực nghiệm:

Đầu vào: Bài viết chứa thông tin về các tour du lịch.

Đầu ra: Thông tin về các tour du lịch có trong bài viết bao gồm: tên tour, thông tin chi tiết về tour.

Dữ liệu thực nghiệm: Dữ liệu là 350 bài viết thuộc 7 website dreamtravel.vn, dulichachau.com, dulichnamchau.vn, dulichviet.com.vn, dulichnet.com.vn, dulichmienbac.com.vn, dulichhn.com.

Do một bộ E đƣợc định nghĩa là một tập bao gồm tên tour và thông tin chi tiết về tour, trong đó tùy thuộc vào từng website khác nhau mà ta có các thông tin chi tiết khác nhau và với mỗi website ta lại có một quy trình riêng để trích chọn.

Để đánh giá khả năng của bộ trích chọn, tác giả sử dụng ba độ đo là độ chính xác (P - Precision), độ hồi tƣởng (R - Recall) và độ đo F (F - score) [6]. Các độ đo này đƣợc biểu diễn trong công thức (4.1), (4.2) và (4.3)

Trong đó:

 Số tour trích chọn đúng là số tour mà mô hình trích chọn chính xác  Số tour trích chọn sai là số tour mà mô hình trích chọn sai

4.1 Số tour trích chọn đúng

Độ chính xác (P) =

Số tour trích chọn đúng + số tour trích chọn sai

4.2 Số tour trích chọn đúng

Độ hồi tƣởng (R) =

Trong đó:

 Số tour trích chọn đúng: là số tour mà mô hình trích chọn chính xác.  Số tour không trích chọn đƣợc: là số tour mà bộ trích chọn không

trích chọn ra.

Bảng 4.5. Độ chính xác của bộ trích chọn khi lấy dữ liệu ngẫu nhiên

Dữ liệu đƣợc dùng để đánh giá độ chính xác của bộ trích chọn thông tin của từng website là 50 bài viết ngẫu nhiên trên website đó. Ta thấy có sự khác nhau giữa số lƣợng tour trong mỗi website là do thiết kế của từng website. Có website thiết kế theo kiểu List Page nhƣ website dulichnamchau, dulichviet, dulichachau, dulichmienbac, có website thiết kế theo kiểu Detail Page nhƣ website dreamtravel, dulichhn.

Tên website Số tour

đúng Số tour sai P R F1 Dulichviet 710 129 86.62 85.32 84.97 Dulichachau 470 70 87.04 87.90 87.47 Dulichnamchau 482 80 85.77 86.11 85.94 Dulichnet 720 100 87.8 87.89 87.84 Dulichmienbac 143 23 86.14 85.53 88.83 Dulichhn 48 7 87.27 87.96 87.61 Dreamtravel 46 7 86.79 88.21 87.49 Trung bình 374 59 86.7 87.4 84.97 4.3 2 x P x R F1 = (P + R)

Trong đó:

 List Page: là trang chứa một vài danh sách của các đối tƣợng. Có hai dạng trang list, đó là trang list bố trí theo chiều ngang hoặc chiều dọc.  Detail Page: là trang chỉ giới thiệu một đối tƣợng đơn. Nó chứa đựng

tất cả các thông tin về một tour du lịch nhƣ: tên tour, mã tour, thời gian, giá tour … [6].

Ví dụ về hai website huộc hai kiểu thiết kế List Page và Detail Page.

Hình 4.1. Dạng biểu diễn List Page của website Du Lịch Miền Bắc

Bảng 4.6. Độ chính xác của bộ trích chọn sau khi đã qua bộ lọc dữ liệu

Trong thí nghiệm đánh giá độ chính xác của bộ trích chọn khi chƣa qua bộ lọc ta thấy độ đo F khoảng 84.97 và độ chính xác khi dữ liệu đƣợc lọc đƣợc cải thiện là 93.61%. Nhƣ vậy, độ chính xác sẽ tăng lên khi ta sử dụng bộ lọc dữ liệu. Nguyên nhân của sự khác biệt này sẽ đƣợc trình bày trong phần tiếp theo của luận văn.

Một phần của tài liệu Trích chọn thông tin trong văn bản du lịch và ứng dụng (Trang 41)

Tải bản đầy đủ (PDF)

(55 trang)