Thống kê theo thời gian

Từ kết quả của quá trình trích chọn thông tin, ta thống kê đƣợc thời gian du lịch phổ biến là bao lâu. Qua đó có thể có những nhận định nhƣ: Số lƣợng tour du lịch trong từng khoảng thời gian là bao nhiêu? Thời gian phổ biến nhất của một tour là bao nhiêu ngày?

Bảng 4.9. Bảng thống kê số tour theo thời gian du lịch

Tên website ngày 1 ngày 2 ngày 3 ngày 4 ngày 5 ngày 6 ngày 7 ngày 8 ngày 9 ngày 10

Dulichnamchau 66 270 414 644 488 256 378 120 8 22 Dulichviet 122 516 563 1161 1815 1021 870 337 377 431 Dulichachau 82 116 168 184 157 79 62 72 42 42 Dreamtravel 84 68 60 81 70 41 25 45 14 15 Dulichhn 20 32 20 32 15 10 10 6 4 2 Dulichmienbac 84 116 100 112 52 16 32 0 8 0 Dulichnet 50 50 98 324 351 166 369 103 49 56 Tổng số 508 1168 1423 2538 2948 1589 1746 683 502 568

THỐNG KÊ THEO THỜI GIAN DU LỊCH

0 500 1000 1500 2000 2500 3000 3500 1 ngày 2 ngày 3 ngày 4 ngày 5 ngày 6 ngày 7 ngày 8 ngày 9 ngày 10 ngày dulichnamchau dulichviet dulichachau dreamtravel dulichhn dulichmienbac dulichnet Tổng số

Hình 4.7. Biểu đồ thống kê số tour theo thời gian. Nhận xét

 Từ biểu đồ (4.7), ta thấy khoảng thời gian có nhiều tour nhất là 5 ngày (2948 tour) và 4 ngày (2538 tour).

 Bảng (4.9) cho ta biết số tour trong các khoảng thời gian của từng website. Từ kết quả của bảng (4.9) ta có thể biết đƣợc mỗi website có

thế mạnh là các tour trong khoảng thời gian nào. Ví dụ với website Du Lịch Nam Châu thì các tour trong khoảng 3 ngày (414 tour), 4 ngày (644 tour), 5 ngày (488 tour) là các tour thế mạnh.

4.6. Tổng kết

Trong chƣơng này, tác giả đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của mô hình trích chọn thông tin trong văn bản du lịch đƣợc xây dựng trong chƣơng ba. Kết quả thực nghiệm cho thấy tính khả thi của mô hình giải quyết bài toán trích chọn thông tin trong văn bản du lịch.

KẾT LUẬN

Kết quả đạt đƣợc của luận văn

Luận văn đã đạt đƣợc mục đích đề ra ban đầu:

 Tìm hiểu các phƣơng pháp trích chọn thông tin, tập trung vào hai phƣơng pháp chính là trích chọn thông tin dựa trên luật và trích chọn thông tin dựa trên phân tích mã Html.

 Xây dựng mô hình trích chọn thông tin du lịch dựa trên hƣớng tiếp cận kết hợp phƣơng pháp phân tích mã Html và luật. Kết quả thực nghiệm trên miền dữ liệu du lịch với độ đo F1 đạt hơn 90 % chứng tỏ tính khả thi của mô hình.

Hạn chế

Luận văn vẫn còn một số hạn chế nhƣ sau:

 Không tự động trích chọn thông tin khi đƣa vào một bài viết thuộc website mới.

 Tập luật đƣợc xây dựng thủ công, do đó khó bao phủ tới toàn bộ miền dữ liệu. Điều này dẫn tới tập luật có thể bỏ sót những dữ liệu có liên quan tới miền dữ liệu.

 Kết quả của bộ lọc dữ liệu chƣa cao, còn bỏ qua nhiều bài viết chứa thông tin du lịch.

Định hƣớng tƣơng lai

Định hƣớng nghiên cứu trong thời gian tới của luận văn là tiếp tục hoàn thiện và phát triển mô hình trích chọn thông tin trong văn bản du lịch, tập trung vào các phƣơng pháp trích chọn tự động, từ các thông tin trích chọn đƣợc xây dựng đƣợc hệ thống tƣ vấn du lịch và dự đoán xu hƣớng du lịch. Do hạn chế về thời gian và kiến thức cùng những khó khăn trong quá trình thu thập và tiền xử lý dữ liệu nên luận văn chƣa sử dụng các phƣơng pháp tự động. Vì vậy, nghiên cứu tiếp theo cũng sẽ tập trung vào việc sử dụng các phƣơng pháp tự động trong trích chọn và phát triển ứng dụng.

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt:

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.

Tài liệu tiếng Anh:

[2] Alexander Yates. Information Extraction from the Web: Techniques and Applications. Phd thesis, University of Washington, 2007.

[3] Adam Berger. The Improved Iterative Scaling Algorithm: A gentle Introduction. School of Computer Science, Carnegie Mellon University

[3] A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000.

[5][9] A. Rauber, D. Merkl, and M. Dittenbach: The Growing Hierarchical Self- Organizing Map: Exploratory Analysis of High-Dimensional Data in: IEEE Transactions on Neural Networks, Vol. 13, No 6, pp. 1331-1341, IEEE, November 2002.

[6]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html, December, 2006. [7] F. Ciravegna, "Adaptive information extraction from text by rule induction and generalisation," in Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI2001), 2001.

[8] I. Muslea, S. Minton, and C. A. Knoblock, "A hierarchical approach to wrapper induction," in Proceedings of the Third International Conference on Autonomous Agents, Seattle, WA, 1999.

[9] J. Blitzer, R. McDonald, and F. Pereira, "Domain adaptation with structural correspondence learning," in Proceedings of the Empirical Methods in Natural Language Processing (EMNLP), 2006.

[10] Michael Dittenbach, Andreas Rauber, Dieter Merkl, Uncovering Hierarchical Struture in Data Using the Growing Hierarchical Self-Organizing Map, Institute of Software Technology, Vienna University of Technology, Vienna Austria, 24 July 2002.

[11] Minh-Tien Nguyen and Tri-Thanh Nguyen. “Extraction of Disease Events for a Real-time Monitoring System”, SoICT'2013, Da Nang, Vietnam, Decem- ber 5-6, 2013.

[12] M. E. Calif and R. J. Mooney, "Relational learning of pattern-match rules for information extraction," in Proceedings of the Sixteenth Nation Conference on Artificial Intelligence (AAAI-99), pp. 328-334, July 1999. [13] N. Kushmerick, "Wrapper induction for information extraction," PhD thesis, University of Washington, 1997.

[14] Scott Miller, Heidi Fox, et al. A Novel use of statistical parsing to extract information from Text, In 6th Applied Natural Language Processing Conference, 2000.

[15] S. Soderland, "Learning information extraction rules for semi-structured and free text," Machine Learning, vol. 34, 1999.

[16] Sunita Sarawagi (2008). Information Extraction

[17] Teuvo Kohonen, et al. Self-Organizing Maps, Third edition, Springer, 2002.

[18] Yi-fang Brook Wu, Quanzhi Li. Document keyphrases as subject metadata: incorporating document key concepts in search results. Inf Retrieval -Springer. 2008.

[19] Zhou GuoDong, Su Jian, et al. Exploring Various Knowledge in Relation Extraction. Proceedings of the 43rd Annual Meeting of ACL, pages 427 – 434, Association for computational linguitics, 2005.

[20] http://www.w3.org/DOM/ [21] http://www.w3.org/TR/xpath

Đánh giá quá trình trích chọn thông tin

Đánh giá quá trình phân lớp