4.3.1. Đánh giá quá trình lọc dữ liệu
Mô tả thực nghiệm: Mục đích của thực nghiệm này là đánh giá khả năng của bộ lọc dữ liệu đƣợc nêu ở mục 3.5.
Phát biểu thực nghiệm:
Đầu vào: Tập các bài viết đƣợc thu thập từ các website nêu ở mục 4.2.1 Đầu ra: Các bài viết chứa thông tin về các tour du lịch
Dữ liệu thực nghiệm: Dữ liệu là3500 bài viết.
Bảng 4.3. Độ chính xác của chức năng lọc dữ liệu
Số bài viết không liên quan Tổng số bài viết Độ chính xác
95 500 81%
Bộ lọc dữ liệu là chức năng đầu tiên trong quá trình trích chọn thông tin du lịch, làm nhiệm vụ lọc các bài viết đƣợc lấy từ bộ thu thập dữ liệu. Nhƣ đã đề cập ở chƣơng 3, chức năng này đƣợc thực hiện dựa trên một trong hai tiêu chí nhƣ sau:
Những bài viết mà thẻ title bắt đầu bằng từ khóa “Tour” hoặc “Du lịch”. Những bài viết mà thẻ div chứa một trong các tiền tố “Thời gian”, “Giá
tour”, “Lịch trình”, “Phƣơng tiện”, “Mã tour”, “Điểm khởi hành”.
Để đánh giá hiệu suất của chức năng này, tác giả lựa chọn ngẫu nhiên 500 bài viết từ tập dữ liệu để đánh giá bằng phƣơng pháp thủ công. Độ chính xác đƣợc đánh giá bằng công thức (4.1) và kết quả đƣợc trình bày trong bảng (4.3)
4.3.2. Đánh giá quá trình phân lớp
Mô tả thực nghiệm: Mục đích của thực nghiệm này là đánh giá khả năng của bộ phân lớp dữ liệu đƣợc nêu ở mục 3.6.
Phát biểu thực nghiệm:
Đầu vào: Tập các bài viết là kết quả của bộ lọc.
Đầu ra: Các bài viết đƣợc gán nhãn theo tên của 7 website.
Dữ liệu thực nghiệm: Dữ liệu là 650 bài viết sau khi đƣợc lọc bởi bộ lọc dữ liệu.
Bảng 4.4. Độ chính xác của chức năng phân lớp
Số bài viết không liên quan Tổng số bài viết Độ chính xác
Sau khi nghiên cứu dữ liệu là các trang web thuộc 7 website ở mục 4.2.1 tác giả thấy một đặc điểm chung là: Trong thẻ “link” sẽ chứa tên của website. Nhƣ vậy, để gán cho một bài viết thuộc website nào, ta sẽ so sánh thông tin trong thẻ link và địa chỉ chính xác của website đó. Đánh giá hiệu suất của chức năng này, tác giả lựa chọn ngẫu nhiên 650 bài viết từ tập dữ liệu để đánh giá bằng phƣơng pháp thủ công. Độ chính xác của chức năng phân lớp đƣợc đánh giá bằng công thức (4.1) và kết quả đƣợc trình bày trong bảng (4.4).
4.3.3. Đánh giá quá trình trích chọn thông tin
Mô tả thực nghiệm: Mục đích của thực nghiệm này là đánh giá khả năng của bộ trích chọn dữ liệu đƣợc nêu ở mục 3.8.
Phát biểu thực nghiệm:
Đầu vào: Bài viết chứa thông tin về các tour du lịch.
Đầu ra: Thông tin về các tour du lịch có trong bài viết bao gồm: tên tour, thông tin chi tiết về tour.
Dữ liệu thực nghiệm: Dữ liệu là 350 bài viết thuộc 7 website dreamtravel.vn, dulichachau.com, dulichnamchau.vn, dulichviet.com.vn, dulichnet.com.vn, dulichmienbac.com.vn, dulichhn.com.
Do một bộ E đƣợc định nghĩa là một tập bao gồm tên tour và thông tin chi tiết về tour, trong đó tùy thuộc vào từng website khác nhau mà ta có các thông tin chi tiết khác nhau và với mỗi website ta lại có một quy trình riêng để trích chọn.
Để đánh giá khả năng của bộ trích chọn, tác giả sử dụng ba độ đo là độ chính xác (P - Precision), độ hồi tƣởng (R - Recall) và độ đo F (F - score) [6]. Các độ đo này đƣợc biểu diễn trong công thức (4.1), (4.2) và (4.3)
Trong đó:
Số tour trích chọn đúng là số tour mà mô hình trích chọn chính xác Số tour trích chọn sai là số tour mà mô hình trích chọn sai
4.1 Số tour trích chọn đúng
Độ chính xác (P) =
Số tour trích chọn đúng + số tour trích chọn sai
4.2 Số tour trích chọn đúng
Độ hồi tƣởng (R) =
Trong đó:
Số tour trích chọn đúng: là số tour mà mô hình trích chọn chính xác. Số tour không trích chọn đƣợc: là số tour mà bộ trích chọn không
trích chọn ra.
Bảng 4.5. Độ chính xác của bộ trích chọn khi lấy dữ liệu ngẫu nhiên
Dữ liệu đƣợc dùng để đánh giá độ chính xác của bộ trích chọn thông tin của từng website là 50 bài viết ngẫu nhiên trên website đó. Ta thấy có sự khác nhau giữa số lƣợng tour trong mỗi website là do thiết kế của từng website. Có website thiết kế theo kiểu List Page nhƣ website dulichnamchau, dulichviet, dulichachau, dulichmienbac, có website thiết kế theo kiểu Detail Page nhƣ website dreamtravel, dulichhn.
Tên website Số tour
đúng Số tour sai P R F1 Dulichviet 710 129 86.62 85.32 84.97 Dulichachau 470 70 87.04 87.90 87.47 Dulichnamchau 482 80 85.77 86.11 85.94 Dulichnet 720 100 87.8 87.89 87.84 Dulichmienbac 143 23 86.14 85.53 88.83 Dulichhn 48 7 87.27 87.96 87.61 Dreamtravel 46 7 86.79 88.21 87.49 Trung bình 374 59 86.7 87.4 84.97 4.3 2 x P x R F1 = (P + R)
Trong đó:
List Page: là trang chứa một vài danh sách của các đối tƣợng. Có hai dạng trang list, đó là trang list bố trí theo chiều ngang hoặc chiều dọc. Detail Page: là trang chỉ giới thiệu một đối tƣợng đơn. Nó chứa đựng
tất cả các thông tin về một tour du lịch nhƣ: tên tour, mã tour, thời gian, giá tour … [6].
Ví dụ về hai website huộc hai kiểu thiết kế List Page và Detail Page.
Hình 4.1. Dạng biểu diễn List Page của website Du Lịch Miền Bắc
Bảng 4.6. Độ chính xác của bộ trích chọn sau khi đã qua bộ lọc dữ liệu
Trong thí nghiệm đánh giá độ chính xác của bộ trích chọn khi chƣa qua bộ lọc ta thấy độ đo F khoảng 84.97 và độ chính xác khi dữ liệu đƣợc lọc đƣợc cải thiện là 93.61%. Nhƣ vậy, độ chính xác sẽ tăng lên khi ta sử dụng bộ lọc dữ liệu. Nguyên nhân của sự khác biệt này sẽ đƣợc trình bày trong phần tiếp theo của luận văn.
4.4. Phân tích lỗi
4.4.1. Phân tích lỗi của bộ lọc dữ liệu
Trong quá trình phát hiện thông tin về tour du lịch, kết quả trong bảng (4.3) chỉ ra rằng bộ lọc dữ liệu hoạt động không tốt trong một số trƣờng hợp. Để tìm ra nguyên nhân, tác giả kiểm tra thủ công các bài viết đƣợc lựa chọn trong mục 4.3.1. Kết quả phân tích cho thấy những trƣờng hợp bộ lọc dữ liệu hoạt động không tốt là do luật lọc dữ liệu theo thẻ tiêu đề bắt đầu bằng “Tour” hoặc “Du lịch” nhƣng trong một số trƣờng hợp thông tin về tour lại ở dạng hình ảnh hoặc dạng lựa chọn (nhƣ hình 4.3). Hoặc trong luật lọc theo thẻ div bằng các từ khóa nhƣ “Mã tour”, “Thời gian”, “Giá tour”… thì xảy ra lỗi do bài viết nói về các dịch vụ khác nhƣ cho thuê xe du lịch hay đặt vé máy bay… (nhƣ hình 4.4).
Tên website Số tour
đúng Số tour sai P R F1 Dulichviet 710 43 94.29 93.54 93.91 Dulichachau 470 31 93.81 92.83 93.37 Dulichnamchau 482 24 95.26 94.16 93.76 Dulichnet 720 41 94.61 93.27 93.51 Dulichmienbac 143 7 95.33 95.38 94.44 Dulichhn 48 2 96 92.32 93.37 Dreamtravel 46 4 92 92.45 92.91 Trung bình 374 22 93.81 93.42 93.61
Hình 4.3. Lỗi lọc dữ liệu khi thông tin ở dạng lựa chọn
4.4.2. Phân tích lỗi của quá trình trích chọn thông tin
Trong pha trích chọn thông tin thì khả năng trích chọn thông tin của trang Du Lịch Miền Bắc là thấp nhất, tác giả đã tìm hiểu nguyên nhân và thấy rằng nguyên nhân trang Du Lịch Miền Bắc cho kết quả trích chọn thấp là do có sự không đồng nhất giữa các bài viết về du lịch trên website này, dẫn đến bộ luật dùng cho website này không bao phủ đƣợc toàn bộ dữ liệu.
Ví dụ: Cùng là bài viết trên website dulichmienbac.com.vn, nhƣng có bài viết chỉ chứa thông tin là {tên tour, giá, thời gian}. Có bài viết lại chứa đầy đủ các thông tin nhƣ {tên tour, thì gian, giá tour, phƣơng tiện, điện thoại, email}
Với các website khác, bộ trích chọn làm việc sai là do các bài viết bị sai chính tả nên không khớp với bộ luật mà tác giả xây dựng.
Ví dụ với luật xác định giá ta có:
GIÁ TOUR = <TIỀN TỐ> + <ĐỊNH DẠNG> + <HẬU TỐ>
Trong đó:
Tiền tố: “Giá tour:”, “Giá: ”, “Giá từ”, “Giá khuyến mãi”, “Price” Định dạng của giá: Dạng số, bao gồm các ký tự {0, 1, 2,…, 9, “,”,
“.”}
Hậu tố: “VNĐ”, “VND/ KHÁCH”, “Đ”, “vnđ / khách”
Nhƣng ở bài viết nhƣ sau: Gia tour: 4.200.000 VNĐ, Gái: 14.238.000 VND, Trọn gói: 4.800.000 VNĐ … dẫn đến bộ trích chọn không trích ra đƣợc thuộc tính giá tour. Tƣơng tự nhƣ vậy với các thuộc tính còn lại.
4.5. Ứng dụng kết quả trích chọn thông tin4.5.1. Thống kê theo địa danh du lịch 4.5.1. Thống kê theo địa danh du lịch
Sau quá trình trích chọn thông tin từ các website, ta có thể thống kê đƣợc số tour đến từng địa danh du lịch. Từ kết quả thống kê ta có thể có một vài nhận xét nhƣ:
Địa danh du lịch nào đang đƣợc du khách quan tâm (thể hiện ở chỗ có nhiều tour)
Địa danh thế mạnh của từng website.
Do số lƣợng địa danh du lịch rất nhiều nên tác giả chỉ lựa chọn một số địa danh điển hình.
Bảng 4.7. Bảng thống kê số tour theo địa danh du lịch
WEBSITE NỘI HÀ NẴNG ĐÀ CHÍ HỒ MINH
ĐÀ
LẠT SAPA HUẾ HỘI AN LONG HẠ THÁI LAN SINGAPORE MALAYSIA
Dulichnamchau 999 117 186 82 64 188 218 466 26 242 108 Dulichviet 3218 389 4573 327 651 1103 373 487 486 1145 1685 Dulichachau 53 38 20 4 67 39 35 46 14 10 14 Dreamtravel 23 10 14 11 9 9 7 19 11 7 10 Dulichhn 80 15 15 6 2 14 7 10 0 2 0 Dulichmienbac 310 4 16 24 36 4 4 88 44 36 8 Dulichnet 56 14 13 16 15 10 8 17 80 58 47 Tổng số 4739 587 4837 470 844 1367 652 1133 661 1500 1872
Hình 4.5. Biểu đồ thống kê số tour theo địa danh du lịch Nhận xét
Theo biểu đồ (4.5) ta thấy 3 địa danh trong nƣớc có số lƣợng tour nhiều nhất là: Thành phố Hồ Chí Minh (tổng số tour 4837), Hà Nội (4739 tour), Huế (1367 tour) đây cũng là các địa danh đƣợc mạng thông tin du lịch điện tử quốc tế Touropia (touropia.com) bình chọn là những địa điểm không thể bỏ qua khi tới Việt Nam. 2 địa điểm
quốc tế có lƣợng tour nhiều nhất là Malaysia (1872 tour) và Singapore (1500 tour) cũng là các địa điểm đƣợc Huffingtonpost xếp vào danh sách những điểm đến ở Đông Nam Á “có thể thay đổi cuộc sống của bạn”.
Bảng (4.7) cho thấy các website Du Lịch Việt, Du lịch Nam Châu có số lƣợng tour nhiều hơn hẳn các website du lịch khác qua đó ta có thể nhận định rằng đây là các website có uy tín, khi lựa chọn các tour du lịch trên các website này có thể đƣợc cung cấp dịch vụ tốt hơn.
Qua biểu đồ (4.5) ta biết đƣợc các địa điểm thế mạnh của các website. Ví dụ nhƣ trên trang Du Lịch Việt, số tour đến thành phố Hồ Chí Minh là 4573 tour lớn gấp 351 lần so với trang Du Lịch Net, khi muốn đến địa điểm Hồ Chí Minh thì chọn tour của trang Du Lịch Việt sẽ có giá hợp lý và các dịch vụ sẽ tốt hơn.
4.5.2. Thống kê theo giá tour
Sau khi trích chọn thông tin về tour, ta có thể thống kê đƣợc số lƣợng tour với từng mức giá cụ thể. Từ kết quả đó có thể có một vài nhận xét nhƣ:
Giá tiền phổ biến của một tour thuộc từng website là bao nhiêu? Nên lựa chọn các tour thuộc website nào cho phù hợp với số tiền
Bảng 4.8. Bảng thống kê số tour theo giá
Tên website Liên hệ Dƣới 1 (triệu) Từ 1 - 2 (triệu) Từ 2 - 5 (triệu) Từ 5 - 10 (triệu) Từ 10 – 20 (triệu) Từ 20 - 30 (triệu) Trên 30 (triệu)
Dulichnamchau 520 42 140 563 113 176 8 24 Dulichviet 550 54 127 487 876 923 245 834 Dulichachau 124 23 48 121 39 16 7 0 Dreamtravel 44 10 15 98 42 6 5 3 Dulichhn 25 22 117 235 14 2 0 0 Dulichmienbac 23 45 234 109 7 9 0 0 Dulichnet 34 15 56 128 35 117 25 5 Tổng số 1320 211 737 1741 1126 1249 290 866
THỐNG KÊ THEO GIÁ TOUR
0 200 400 600 800 1000 1200 1400 1600 1800 2000 Liên hệ Dưới 1 (triệu) Từ 1 - 2 (triệu) Từ 2 - 5 (triệu) Từ 5 - 10 (triệu) Từ 10 - 20 (triệu) Từ 20 - 30 (triệu) Trên 30 (triệu) dulichnamchau dulichviet dulichachau dreamtravel dulichhn dulichmienbac dulichnet Tổng số
Hình 4.6. Biểu đồ thống kê số tour theo giá tiền Nhận xét
Biểu đồ (4.6), ta thấy mức giá có nhiều tour nhất là từ 2 – 5 triệu (1741 tour).
Bảng (4.8) cho ta biết số tour trong các mức giá của từng website. Từ kết quả của bảng (4.8) ta có thể biết đƣợc mỗi website có thế mạnh là các tour ở mức bao nhiêu. Ví dụ với website Du Lịch Miền Bắc thì các tour ở mức từ 1 – 2 triệu là các tour thế mạnh. Nếu ta có số tiền trong khoảng từ 1 – 2 triệu thì nên chọn các tour của trang này.
4.5.3. Thống kê theo thời gian
Từ kết quả của quá trình trích chọn thông tin, ta thống kê đƣợc thời gian du lịch phổ biến là bao lâu. Qua đó có thể có những nhận định nhƣ: Số lƣợng tour du lịch trong từng khoảng thời gian là bao nhiêu? Thời gian phổ biến nhất của một tour là bao nhiêu ngày?
Bảng 4.9. Bảng thống kê số tour theo thời gian du lịch
Tên website ngày 1 ngày 2 ngày 3 ngày 4 ngày 5 ngày 6 ngày 7 ngày 8 ngày 9 ngày 10
Dulichnamchau 66 270 414 644 488 256 378 120 8 22 Dulichviet 122 516 563 1161 1815 1021 870 337 377 431 Dulichachau 82 116 168 184 157 79 62 72 42 42 Dreamtravel 84 68 60 81 70 41 25 45 14 15 Dulichhn 20 32 20 32 15 10 10 6 4 2 Dulichmienbac 84 116 100 112 52 16 32 0 8 0 Dulichnet 50 50 98 324 351 166 369 103 49 56 Tổng số 508 1168 1423 2538 2948 1589 1746 683 502 568
THỐNG KÊ THEO THỜI GIAN DU LỊCH
0 500 1000 1500 2000 2500 3000 3500 1 ngày 2 ngày 3 ngày 4 ngày 5 ngày 6 ngày 7 ngày 8 ngày 9 ngày 10 ngày dulichnamchau dulichviet dulichachau dreamtravel dulichhn dulichmienbac dulichnet Tổng số
Hình 4.7. Biểu đồ thống kê số tour theo thời gian. Nhận xét
Từ biểu đồ (4.7), ta thấy khoảng thời gian có nhiều tour nhất là 5 ngày (2948 tour) và 4 ngày (2538 tour).
Bảng (4.9) cho ta biết số tour trong các khoảng thời gian của từng website. Từ kết quả của bảng (4.9) ta có thể biết đƣợc mỗi website có
thế mạnh là các tour trong khoảng thời gian nào. Ví dụ với website Du Lịch Nam Châu thì các tour trong khoảng 3 ngày (414 tour), 4 ngày (644 tour), 5 ngày (488 tour) là các tour thế mạnh.
4.6. Tổng kết
Trong chƣơng này, tác giả đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của mô hình trích chọn thông tin trong văn bản du lịch đƣợc xây dựng trong chƣơng ba. Kết quả thực nghiệm cho thấy tính khả thi của mô hình giải quyết bài toán trích chọn thông tin trong văn bản du lịch.
KẾT LUẬN
Kết quả đạt đƣợc của luận văn
Luận văn đã đạt đƣợc mục đích đề ra ban đầu:
Tìm hiểu các phƣơng pháp trích chọn thông tin, tập trung vào hai phƣơng pháp chính là trích chọn thông tin dựa trên luật và trích chọn thông tin dựa trên phân tích mã Html.
Xây dựng mô hình trích chọn thông tin du lịch dựa trên hƣớng tiếp cận kết hợp phƣơng pháp phân tích mã Html và luật. Kết quả thực nghiệm trên miền dữ liệu du lịch với độ đo F1 đạt hơn 90 % chứng tỏ tính khả thi của mô hình.
Hạn chế
Luận văn vẫn còn một số hạn chế nhƣ sau:
Không tự động trích chọn thông tin khi đƣa vào một bài viết thuộc website mới.
Tập luật đƣợc xây dựng thủ công, do đó khó bao phủ tới toàn bộ miền dữ liệu. Điều này dẫn tới tập luật có thể bỏ sót những dữ liệu có liên quan tới miền dữ liệu.
Kết quả của bộ lọc dữ liệu chƣa cao, còn bỏ qua nhiều bài viết chứa thông tin du lịch.
Định hƣớng tƣơng lai
Định hƣớng nghiên cứu trong thời gian tới của luận văn là tiếp tục hoàn thiện và phát triển mô hình trích chọn thông tin trong văn bản du lịch, tập trung