4.5.1. Thống kê theo địa danh du lịch
Sau quá trình trích chọn thông tin từ các website, ta có thể thống kê đƣợc số tour đến từng địa danh du lịch. Từ kết quả thống kê ta có thể có một vài nhận xét nhƣ:
Địa danh du lịch nào đang đƣợc du khách quan tâm (thể hiện ở chỗ có nhiều tour)
Địa danh thế mạnh của từng website.
Do số lƣợng địa danh du lịch rất nhiều nên tác giả chỉ lựa chọn một số địa danh điển hình.
Bảng 4.7. Bảng thống kê số tour theo địa danh du lịch
WEBSITE NỘI HÀ NẴNG ĐÀ CHÍ HỒ MINH
ĐÀ
LẠT SAPA HUẾ HỘI AN LONG HẠ THÁI LAN SINGAPORE MALAYSIA
Dulichnamchau 999 117 186 82 64 188 218 466 26 242 108 Dulichviet 3218 389 4573 327 651 1103 373 487 486 1145 1685 Dulichachau 53 38 20 4 67 39 35 46 14 10 14 Dreamtravel 23 10 14 11 9 9 7 19 11 7 10 Dulichhn 80 15 15 6 2 14 7 10 0 2 0 Dulichmienbac 310 4 16 24 36 4 4 88 44 36 8 Dulichnet 56 14 13 16 15 10 8 17 80 58 47 Tổng số 4739 587 4837 470 844 1367 652 1133 661 1500 1872
Hình 4.5. Biểu đồ thống kê số tour theo địa danh du lịch Nhận xét
Theo biểu đồ (4.5) ta thấy 3 địa danh trong nƣớc có số lƣợng tour nhiều nhất là: Thành phố Hồ Chí Minh (tổng số tour 4837), Hà Nội (4739 tour), Huế (1367 tour) đây cũng là các địa danh đƣợc mạng thông tin du lịch điện tử quốc tế Touropia (touropia.com) bình chọn là những địa điểm không thể bỏ qua khi tới Việt Nam. 2 địa điểm
quốc tế có lƣợng tour nhiều nhất là Malaysia (1872 tour) và Singapore (1500 tour) cũng là các địa điểm đƣợc Huffingtonpost xếp vào danh sách những điểm đến ở Đông Nam Á “có thể thay đổi cuộc sống của bạn”.
Bảng (4.7) cho thấy các website Du Lịch Việt, Du lịch Nam Châu có số lƣợng tour nhiều hơn hẳn các website du lịch khác qua đó ta có thể nhận định rằng đây là các website có uy tín, khi lựa chọn các tour du lịch trên các website này có thể đƣợc cung cấp dịch vụ tốt hơn.
Qua biểu đồ (4.5) ta biết đƣợc các địa điểm thế mạnh của các website. Ví dụ nhƣ trên trang Du Lịch Việt, số tour đến thành phố Hồ Chí Minh là 4573 tour lớn gấp 351 lần so với trang Du Lịch Net, khi muốn đến địa điểm Hồ Chí Minh thì chọn tour của trang Du Lịch Việt sẽ có giá hợp lý và các dịch vụ sẽ tốt hơn.
4.5.2. Thống kê theo giá tour
Sau khi trích chọn thông tin về tour, ta có thể thống kê đƣợc số lƣợng tour với từng mức giá cụ thể. Từ kết quả đó có thể có một vài nhận xét nhƣ:
Giá tiền phổ biến của một tour thuộc từng website là bao nhiêu? Nên lựa chọn các tour thuộc website nào cho phù hợp với số tiền
Bảng 4.8. Bảng thống kê số tour theo giá
Tên website Liên hệ Dƣới 1 (triệu) Từ 1 - 2 (triệu) Từ 2 - 5 (triệu) Từ 5 - 10 (triệu) Từ 10 – 20 (triệu) Từ 20 - 30 (triệu) Trên 30 (triệu)
Dulichnamchau 520 42 140 563 113 176 8 24 Dulichviet 550 54 127 487 876 923 245 834 Dulichachau 124 23 48 121 39 16 7 0 Dreamtravel 44 10 15 98 42 6 5 3 Dulichhn 25 22 117 235 14 2 0 0 Dulichmienbac 23 45 234 109 7 9 0 0 Dulichnet 34 15 56 128 35 117 25 5 Tổng số 1320 211 737 1741 1126 1249 290 866
THỐNG KÊ THEO GIÁ TOUR
0 200 400 600 800 1000 1200 1400 1600 1800 2000 Liên hệ Dưới 1 (triệu) Từ 1 - 2 (triệu) Từ 2 - 5 (triệu) Từ 5 - 10 (triệu) Từ 10 - 20 (triệu) Từ 20 - 30 (triệu) Trên 30 (triệu) dulichnamchau dulichviet dulichachau dreamtravel dulichhn dulichmienbac dulichnet Tổng số
Hình 4.6. Biểu đồ thống kê số tour theo giá tiền Nhận xét
Biểu đồ (4.6), ta thấy mức giá có nhiều tour nhất là từ 2 – 5 triệu (1741 tour).
Bảng (4.8) cho ta biết số tour trong các mức giá của từng website. Từ kết quả của bảng (4.8) ta có thể biết đƣợc mỗi website có thế mạnh là các tour ở mức bao nhiêu. Ví dụ với website Du Lịch Miền Bắc thì các tour ở mức từ 1 – 2 triệu là các tour thế mạnh. Nếu ta có số tiền trong khoảng từ 1 – 2 triệu thì nên chọn các tour của trang này.
4.5.3. Thống kê theo thời gian
Từ kết quả của quá trình trích chọn thông tin, ta thống kê đƣợc thời gian du lịch phổ biến là bao lâu. Qua đó có thể có những nhận định nhƣ: Số lƣợng tour du lịch trong từng khoảng thời gian là bao nhiêu? Thời gian phổ biến nhất của một tour là bao nhiêu ngày?
Bảng 4.9. Bảng thống kê số tour theo thời gian du lịch
Tên website ngày 1 ngày 2 ngày 3 ngày 4 ngày 5 ngày 6 ngày 7 ngày 8 ngày 9 ngày 10
Dulichnamchau 66 270 414 644 488 256 378 120 8 22 Dulichviet 122 516 563 1161 1815 1021 870 337 377 431 Dulichachau 82 116 168 184 157 79 62 72 42 42 Dreamtravel 84 68 60 81 70 41 25 45 14 15 Dulichhn 20 32 20 32 15 10 10 6 4 2 Dulichmienbac 84 116 100 112 52 16 32 0 8 0 Dulichnet 50 50 98 324 351 166 369 103 49 56 Tổng số 508 1168 1423 2538 2948 1589 1746 683 502 568
THỐNG KÊ THEO THỜI GIAN DU LỊCH
0 500 1000 1500 2000 2500 3000 3500 1 ngày 2 ngày 3 ngày 4 ngày 5 ngày 6 ngày 7 ngày 8 ngày 9 ngày 10 ngày dulichnamchau dulichviet dulichachau dreamtravel dulichhn dulichmienbac dulichnet Tổng số
Hình 4.7. Biểu đồ thống kê số tour theo thời gian. Nhận xét
Từ biểu đồ (4.7), ta thấy khoảng thời gian có nhiều tour nhất là 5 ngày (2948 tour) và 4 ngày (2538 tour).
Bảng (4.9) cho ta biết số tour trong các khoảng thời gian của từng website. Từ kết quả của bảng (4.9) ta có thể biết đƣợc mỗi website có
thế mạnh là các tour trong khoảng thời gian nào. Ví dụ với website Du Lịch Nam Châu thì các tour trong khoảng 3 ngày (414 tour), 4 ngày (644 tour), 5 ngày (488 tour) là các tour thế mạnh.
4.6. Tổng kết
Trong chƣơng này, tác giả đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của mô hình trích chọn thông tin trong văn bản du lịch đƣợc xây dựng trong chƣơng ba. Kết quả thực nghiệm cho thấy tính khả thi của mô hình giải quyết bài toán trích chọn thông tin trong văn bản du lịch.
KẾT LUẬN
Kết quả đạt đƣợc của luận văn
Luận văn đã đạt đƣợc mục đích đề ra ban đầu:
Tìm hiểu các phƣơng pháp trích chọn thông tin, tập trung vào hai phƣơng pháp chính là trích chọn thông tin dựa trên luật và trích chọn thông tin dựa trên phân tích mã Html.
Xây dựng mô hình trích chọn thông tin du lịch dựa trên hƣớng tiếp cận kết hợp phƣơng pháp phân tích mã Html và luật. Kết quả thực nghiệm trên miền dữ liệu du lịch với độ đo F1 đạt hơn 90 % chứng tỏ tính khả thi của mô hình.
Hạn chế
Luận văn vẫn còn một số hạn chế nhƣ sau:
Không tự động trích chọn thông tin khi đƣa vào một bài viết thuộc website mới.
Tập luật đƣợc xây dựng thủ công, do đó khó bao phủ tới toàn bộ miền dữ liệu. Điều này dẫn tới tập luật có thể bỏ sót những dữ liệu có liên quan tới miền dữ liệu.
Kết quả của bộ lọc dữ liệu chƣa cao, còn bỏ qua nhiều bài viết chứa thông tin du lịch.
Định hƣớng tƣơng lai
Định hƣớng nghiên cứu trong thời gian tới của luận văn là tiếp tục hoàn thiện và phát triển mô hình trích chọn thông tin trong văn bản du lịch, tập trung vào các phƣơng pháp trích chọn tự động, từ các thông tin trích chọn đƣợc xây dựng đƣợc hệ thống tƣ vấn du lịch và dự đoán xu hƣớng du lịch. Do hạn chế về thời gian và kiến thức cùng những khó khăn trong quá trình thu thập và tiền xử lý dữ liệu nên luận văn chƣa sử dụng các phƣơng pháp tự động. Vì vậy, nghiên cứu tiếp theo cũng sẽ tập trung vào việc sử dụng các phƣơng pháp tự động trong trích chọn và phát triển ứng dụng.
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt:
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.
Tài liệu tiếng Anh:
[2] Alexander Yates. Information Extraction from the Web: Techniques and Applications. Phd thesis, University of Washington, 2007.
[3] Adam Berger. The Improved Iterative Scaling Algorithm: A gentle Introduction. School of Computer Science, Carnegie Mellon University
[3] A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000.
[5][9] A. Rauber, D. Merkl, and M. Dittenbach: The Growing Hierarchical Self- Organizing Map: Exploratory Analysis of High-Dimensional Data in: IEEE Transactions on Neural Networks, Vol. 13, No 6, pp. 1331-1341, IEEE, November 2002.
[6]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html, December, 2006. [7] F. Ciravegna, "Adaptive information extraction from text by rule induction and generalisation," in Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI2001), 2001.
[8] I. Muslea, S. Minton, and C. A. Knoblock, "A hierarchical approach to wrapper induction," in Proceedings of the Third International Conference on Autonomous Agents, Seattle, WA, 1999.
[9] J. Blitzer, R. McDonald, and F. Pereira, "Domain adaptation with structural correspondence learning," in Proceedings of the Empirical Methods in Natural Language Processing (EMNLP), 2006.
[10] Michael Dittenbach, Andreas Rauber, Dieter Merkl, Uncovering Hierarchical Struture in Data Using the Growing Hierarchical Self-Organizing Map, Institute of Software Technology, Vienna University of Technology, Vienna Austria, 24 July 2002.
[11] Minh-Tien Nguyen and Tri-Thanh Nguyen. “Extraction of Disease Events for a Real-time Monitoring System”, SoICT'2013, Da Nang, Vietnam, Decem- ber 5-6, 2013.
[12] M. E. Calif and R. J. Mooney, "Relational learning of pattern-match rules for information extraction," in Proceedings of the Sixteenth Nation Conference on Artificial Intelligence (AAAI-99), pp. 328-334, July 1999. [13] N. Kushmerick, "Wrapper induction for information extraction," PhD thesis, University of Washington, 1997.
[14] Scott Miller, Heidi Fox, et al. A Novel use of statistical parsing to extract information from Text, In 6th Applied Natural Language Processing Conference, 2000.
[15] S. Soderland, "Learning information extraction rules for semi-structured and free text," Machine Learning, vol. 34, 1999.
[16] Sunita Sarawagi (2008). Information Extraction
[17] Teuvo Kohonen, et al. Self-Organizing Maps, Third edition, Springer, 2002.
[18] Yi-fang Brook Wu, Quanzhi Li. Document keyphrases as subject metadata: incorporating document key concepts in search results. Inf Retrieval -Springer. 2008.
[19] Zhou GuoDong, Su Jian, et al. Exploring Various Knowledge in Relation Extraction. Proceedings of the 43rd Annual Meeting of ACL, pages 427 – 434, Association for computational linguitics, 2005.
[20] http://www.w3.org/DOM/ [21] http://www.w3.org/TR/xpath