(Luận án tiến sĩ) khai phá dữ liệu tuần tự để dự đoán hành vi truy cập web

156 3 0
(Luận án tiến sĩ) khai phá dữ liệu tuần tự để dự đoán hành vi truy cập web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thơn Dã KHAI PHÁ DỮ LIỆU TUẦN TỰ ĐỂ DỰ ĐOÁN HÀNH VI TRUY CẬP WEB LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - Năm 2020 luan an i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thơn Dã KHAI PHÁ DỮ LIỆU TUẦN TỰ ĐỂ DỰ ĐOÁN HÀNH VI TRUY CẬP WEB CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 9.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TÂN HẠNH TS PHẠM HOÀNG DUY Hà Nội – Năm 2020 luan an ii LỜI CAM ĐOAN Tôi xin cam đoan luận án tiến sĩ Khai phá liệu để dự đoán hành vi truy cập Web cơng trình nghiên cứu khoa học độc lập riêng Các số liệu luận án có nguồn gốc xuất xứ rõ ràng Các kết nghiên cứu luận án tự tìm hiểu, phân tích cách trung thực, nghiêm túc, khách quan chưa công bố cơng trình khác Tác giả Nguyễn Thơn Dã luan an iii LỜI CÁM ƠN Tôi xin chân thành gửi lời cám ơn đến Ban lãnh đạo Học viện Cơng nghệ Bưu Viễn thơng, Đào tạo Sau Đại học tập thể thầy cô Khoa Công nghệ Thông tin có nhiều hỗ trợ cho tơi hồn thành nhiệm vụ nghiên cứu giao Tôi gửi lời biết ơn đến hai cán hướng dẫn luận án cho Thầy TS Tân Hạnh Thầy TS Phạm Hồng Duy (cơng tác Học viện Cơng nghệ Bưu Viễn thơng), người thầy với kinh nghiệm kiến thức chun mơn cao tận tình hướng dẫn, bảo cho tơi để tơi hồn thành luận án Tơi cám ơn Ban Giám Hiệu trường Đại học Kinh tế - Luật, ĐHQG-HCM, nơi công tác, đặc biệt lãnh đạo Khoa Hệ thống thông tin trường giới thiệu tạo điều kiện cho thực luận án Rất trân trọng cám ơn nhà nghiên cứu, thầy cơ, đồng nghiệp có góp ý hữu ích, phản biện khách quan mang tính xây dựng để tơi khơng ngừng hồn thiện luận án Tôi vô biết ơn bố mẹ tơi, người có cơng sinh thành dưỡng dục, động viên giúp đỡ suốt thời gian nghiên cứu thực luận án luan an iv MỤC LỤC LỜI CAM ĐOAN ii LỜI CÁM ƠN iii DANH MỤC CÁC CHỮ VIẾT TẮT x DANH MỤC CÁC KÝ HIỆU TOÁN HỌC xi Giới thiệu Tính cấp thiết luận án Mục tiêu luận án Đối tượng phạm vi nghiên cứu Các vấn đề nghiên cứu Phương pháp nghiên cứu Các đóng góp luận án Bố cục luận án CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TUẦN TỰ 10 CHO DỰ ĐOÁN TRUY CẬP WEB 10 1.1 Giới thiệu 10 1.2 Khái niệm dự đoán hành vi truy cập Web 12 1.3 Các phương pháp phổ biến 15 1.3.1 Phương pháp luật kết hợp 15 1.3.1.1 Khái niệm 15 1.3.1.2 Các cơng trình nghiên cứu liên quan 16 1.3.1.3 Ưu điểm hạn chế 17 1.3.2 Phương pháp chuỗi Markov 18 1.3.2.1 Khái niệm 18 1.3.2.2 Các nghiên cứu liên quan 20 luan an v 1.3.2.3 Ưu điểm hạn chế 21 1.3.3 Phương pháp Clustering 22 1.3.3.1 Khái niệm 22 1.3.3.2 Các nghiên cứu liên quan, ưu điểm hạn chế 23 1.3.4 Phương pháp mạng neuron nhân tạo 24 1.3.4.1 Khái niệm 24 1.3.4.3 Ưu điểm hạn chế 24 1.3.5 Các phương pháp phối hợp phương pháp phổ biến 25 1.3.5.1 Các cơng trình liên quan 25 1.3.5.2 Ưu điểm, hạn chế khuyến nghị 28 1.4 Phương pháp dự đoán chuỗi liệu 30 1.4.1 Phương pháp dự đoán (Compact Prediction Tree - CPT) 31 1.4.2 Phương pháp dự đoán cải tiến (Compact Prediction Tree plus - CPT+) 34 1.4.3 Ưu điểm hạn chế phương pháp dự đoán cải tiến (CPT+) 37 1.4.4 Tổng hợp so sánh phương pháp dự đoán chuỗi liệu 38 1.5 Đề xuất mơ hình dự đốn hành vi truy cập Web 40 1.6 Các giải pháp đề xuất 42 1.7 Kết luận chương 43 CHƯƠNG XÂY DỰNG CƠ SỞ DỮ LIỆU TUẦN TỰ 44 CHO DỰ ĐOÁN TRUY CẬP WEB 44 2.1 Giới thiệu 44 2.2 Cơ sở lý luận giải pháp 44 2.3 Khái niệm Web Usage Mining 45 2.3.1 Định nghĩa Web Usage Mining 45 2.3.2 Tầm quan trọng Web Usage Mining 46 2.3.3 Khái niệm sở liệu Web Log 47 luan an vi 2.3.3.1 Định nghĩa sở liệu Web Log 47 2.3.3.2 Cấu trúc nội dung Web Log 47 2.3.4 Xây dựng sở liệu cho dự đoán truy cập Web 50 2.3.4.1 Mục tiêu 50 2.3.4.2 Dữ liệu 51 2.3.4.3 Phương pháp 52 2.3.4.4 Các độ đo đánh giá 58 2.3.4.5 Các kết thử nghiệm 58 2.3.5 Đánh giá thảo luận 61 2.3.6 Kết luận chương 63 CHƯƠNG NÂNG CAO HIỆU QUẢ VỀ ĐỘ CHÍNH XÁC 64 KHAI PHÁ DỮ LIỆU TUẦN TỰ CHO DỰ ĐOÁN TRUY CẬP WEB 64 3.1 Giới thiệu 64 3.2 Cơ sở lý luận giải pháp 64 3.3 Nội dung giải pháp nâng cao hiệu độ xác cho dự đoán truy cập Web 66 3.4 Giải pháp nâng cao độ xác dự đốn truy cập Web với giải thuật PageRank CPT+ 67 3.5 Các kết thử nghiệm nâng cao hiệu độ xác cho dự đốn truy cập Web 76 3.5.1 Mục tiêu 76 3.5.2 Dữ liệu 76 3.5.3 Phương pháp 77 3.5.4 Độ đo đánh giá 80 3.5.5 Các kết thử nghiệm 81 3.6 Kết luận chương 85 CHƯƠNG NÂNG CAO HIỆU QUẢ VỀ THỜI GIAN 87 KHAI PHÁ DỮ LIỆU TUẦN TỰ CHO DỰ ĐOÁN TRUY CẬP WEB 87 4.1 Giới thiệu 87 luan an vii 4.2 Cơ sở lý luận giải pháp 87 4.3 So sánh thời gian thực thi tiếp cận dự đoán liệu 88 4.3.1 Các liệu dùng để so sánh thời gian thực thi dự đoán 88 4.3.2 So sánh thời gian tiếp cận dự đoán liệu 89 4.4 Giải pháp nâng cao hiệu thời gian cho dự đoán truy cập Web với CPT+ 91 4.4.1 Cơ sở lý luận giải pháp 91 4.4.2 Giải thuật nâng cao hiệu thời gian dự đoán truy cập Web 91 4.5 Các kết thử nghiệm nâng cao hiệu thời gian thực thi dự đoán truy cập Web 93 4.5.1 Mục tiêu 93 4.5.2 Dữ liệu 93 4.5.3 Phương pháp 94 4.5.4 Các độ đo đánh giá 96 4.5.5 Kết thử nghiệm phân tích 96 4.5.5.1 Kết thử nghiệm tập liệu FIFA 96 4.5.5.2 Kết thử nghiệm tập liệu KOSARAK 97 4.5.5.3 Kết thử nghiệm tập liệu BMS 99 4.5.2.4 Kết thử nghiệm tập liệu pamviewsanibel 100 4.5.2.5 Kết thử nghiệm tập liệu inees 101 4.6 Kết luận chương 103 CHƯƠNG TÍCH HỢP NÂNG CAO ĐỘ CHÍNH XÁC VÀ NÂNG CAO HIỆU QUẢ VỀ THỜI GIAN KHAI PHÁ DỮ LIỆU TUẦN TỰ 104 CHO DỰ ĐOÁN TRUY CẬP WEB 104 5.1 Giới thiệu 104 5.2 Tích hợp phương pháp K-Fold Cross Validation cho giải pháp nâng cao độ xác khai phá liệu cho dự đốn truy cập Web 105 5.2.1 Phương pháp K-Fold Cross Validation 105 luan an viii 5.2.2 Xây dựng tập liệu huấn luyện nâng cao độ xác 106 5.2.2.1 Mục tiêu 106 5.2.2.2 Dữ liệu 106 5.2.2.3 Phương pháp 106 5.2.2.4 Kết thực nghiệm phân tích 107 5.2.3 Kết hợp giải pháp nâng cao độ xác hiệu thời gian khai phá liệu cho dự đoán truy cập Web 112 5.2.3.1 Mục đích 112 5.2.3.2 Dữ liệu 112 5.2.3.3 Phương pháp 112 5.2.3.4 Các độ đo đánh giá 113 5.2.3.5 Kết thực nghiệm phân tích 113 5.3 Kết luận Chương 114 PHẦN KẾT LUẬN 116 Đóng góp luận án 116 Đánh giá, bàn luận tổng quan dự đoán truy cập Web 116 2.1 Đánh giá, bàn luận kết nghiên cứu chuẩn hóa sở liệu Web Log cho dự đoán truy cập Web 117 2.2 Đánh giá, bàn luận kết nâng cao hiệu độ xác khai phá liệu cho dự đoán truy cập Web 119 2.3 Đánh giá, bàn luận kết nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web 120 2.4 Đánh giá, bàn luận kết kết hợp giải pháp nâng cao độ xác nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web 121 2.5 Kết luận kiến nghị 122 2.5.1 Ưu điểm 122 2.5.2 Hạn chế 123 luan an ix 2.5.3 Hướng phát triển 123 DANH MỤC CÁC CƠNG TRÌNH NGHIÊN CỨU 125 TÀI LIỆU THAM KHẢO 127 luan an 128 [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] Bonino, D., Corno, F., & Squillero, G (2003) A real-time evolutionary algorithm for web prediction Paper presented at the Web Intelligence, 2003 WI 2003 Proceedings IEEE/WIC International Conference on Bouras, C., Konidaris, A., & Kostoulas, D (2004) Predictive prefetching on the web and its potential impact in the wide area World Wide Web, 7(2), 143-179 Brin, S., & Page, L (1998) The anatomy of a large-scale hypertextual web search engine Computer networks and ISDN systems, 30(1-7), 107-117 Cadez, I., Heckerman, D., Meek, C., Smyth, P., & White, S (2003) Model-based clustering and visualization of navigation patterns on a web site Data mining and knowledge discovery, 7(4), 399-424 Castellano, G., Fanelli, A M., & Torsello, M A (2013) Web usage mining: Discovering usage patterns for web applications In Advanced Techniques in Web Intelligence-2 (pp 75-104): Springer Chembath, J., & Fredrik, E T (2017) An Empirical Analysis of Algorithms to Predict Next Web Page Using Web Log Data International Journal of Applied Engineering Research, 12(16), 5648-5654 Chimphlee, S., Salim, N., Bin Ngadiman, M S., & Chimphlee, W (2006) Using association rules and markov model for predit next access on web usage mining Advances in Systems, Computing Sciences and Software Engineering, 371-376 Chimphlee, S., Salim, N., Ngadiman, M S B., & Chimphlee, W (2006) Using association rules and markov model for predit next access on web usage mining In Advances in Systems, Computing Sciences and Software Engineering (pp 371376): Springer Cleary, J., & Witten, I (1984) Data compression using adaptive coding and partial string matching IEEE transactions on Communications, 32(4), 396-402 da Costa, M G., & Gong, Z (2005) Web structure mining: an introduction Paper presented at the Information Acquisition, 2005 IEEE International Conference on Dhyani, D., Bhowmick, S., & Ng, W.-K (2003) Modelling and predicting a Web page accesses using Markov processes Paper presented at the Database and Expert Systems Applications, 2003 Proceedings 14th International Workshop on Dongshan, X., & Junyi, S (2002) A new markov model for web access prediction Computing in Science & Engineering, 4(6), 34-39 Dubey, S., & Mishra, N (2011) Web page prediction using hybrid model International Journal on Computer Science and Engineering, 3(5), 2170-2176 Dutta, R., Kundu, A., Dattagupta, R., & Mukhopadhyay, D (2009) An approach to web page prediction using markov model and web PageRanking Journal of Convergence Information Technology, 4(4), 61-67 Dutta, R., Kundu, A., & Mukhopadhyay, D (2011) Clustering-based web page prediction International Journal of Knowledge and Web Intelligence, 2(4), 257271 Eichinger, F., Nauck, D D., & Klawonn, F (2006) Sequence mining for customer behaviour predictions in telecommunications Paper presented at the Proceedings of the Workshop on Practical Data Mining at ECML/PKDD luan an 129 [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] Eirinaki, M., Vazirgiannis, M., & Kapogiannis, D (2005) Web path recommendations based on PageRanking and markov models Paper presented at the Proceedings of the 7th annual ACM international workshop on Web information and data management Fournier-Viger, P., Faghihi, U., Nkambou, R., & Nguifo, E M (2012) CMRules: Mining sequential rules common to several sequences Knowledge-Based Systems, 25(1), 63-76 Fournier-Viger, P., Gomariz, A., Campos, M., & Thomas, R (2014) Fast vertical mining of sequential patterns using co-occurrence information Paper presented at the Pacific-Asia Conference on Knowledge Discovery and Data Mining Fournier-Viger, P., Gomariz, A., Gueniche, T., Soltani, A., Wu, C.-W., & Tseng, V S (2014) SPMF: a Java open-source pattern mining library The Journal of Machine Learning Research, 15(1), 3389-3393 Fournier-Viger, P., Gomariz, A., Gueniche, T., Soltani, A., Wu, C.-W., & Tseng, V S (2014) SPMF: A Java Open-source Pattern Mining Library Journal of Machine Learning Research, 15(1), 3389-3393 Fournier-Viger, P., Gueniche, T., & Tseng, V S (2012) Using Partially-Ordered Sequential Rules to Generate More Accurate Sequence Prediction Paper presented at the ADMA Fournier-Viger, P., Gueniche, T., Zida, S., & Tseng, V S (2014) ERMiner: sequential rule mining using equivalence classes Paper presented at the International Symposium on Intelligent Data Analysis Fournier-Viger, P., Lin, J C.-W., Kiran, R U., Koh, Y S., & Thomas, R (2017) A survey of sequential pattern mining Data Science and Pattern Recognition, 1(1), 54-77 Fournier-Viger, P., Nkambou, R., & Tseng, V S.-M (2011) RuleGrowth: mining sequential rules common to several sequences by pattern-growth Paper presented at the Proceedings of the 2011 ACM symposium on applied computing Frias-Martinez, E., & Karamcheti, V (2002) A prediction model for user access sequences Paper presented at the WEBKDD Workshop: Web Mining for Usage Patterns and User Profiles García, E., Romero, C., Ventura, S., & Calders, T (2007) Drawbacks and solutions of applying association rule mining in learning management systems Paper presented at the Proceedings of the International Workshop on Applying Data Mining in e-Learning (ADML 2007), Crete, Greece García, S., Luengo, J., & Herrera, F (2015) Data preprocessing in data mining: Springer Geetharamani, R., Revathy, P., & Jacob, S G (2015) Prediction of users webpage access behaviour using association rule mining Sadhana, 40(8), 2353-2365 Géry, M., & Haddad, H (2003) Evaluation of web usage mining approaches for user's next request prediction Paper presented at the Proceedings of the 5th ACM international workshop on Web information and data management Gopalakrishnan, T., Sengottuvelan, P., Bharathi, A., & Lokeshkumar, R (2018) An Approach To Webpage Prediction Method Using Variable Order Markov luan an 130 [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] Model In Recommendation Systems Journal of Internet Technology, 19(2), 415424 Gueniche, T., Fournier-Viger, P., Raman, R., & Tseng, V S (2015) CPT+: Decreasing the time/space complexity of the Compact Prediction Tree Paper presented at the Pacific-Asia Conference on Knowledge Discovery and Data Mining Gueniche, T., Fournier-Viger, P., & Tseng, V S (2013) Compact Prediction Tree: A Lossless Model for Accurate Sequence Prediction Paper presented at the ADMA (2) Gueniche, T., Fournier-Viger, P., & Tseng, V S (2013) Compact prediction tree: A lossless model for accurate sequence prediction Paper presented at the International Conference on Advanced Data Mining and Applications Guerbas, A., Addam, O., Zaarour, O., Nagi, M., Elhajj, A., Ridley, M., et al (2013) Effective web log mining and online navigational pattern prediction Knowledge-Based Systems, 49, 50-62 Gündüz, Ş., & Özsu, M T (2003) A web page prediction model based on clickstream tree representation of user behavior Paper presented at the Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining Gupta, S., & Singhal, A (2017) Phishing URL detection by using artificial neural network with PSO Paper presented at the 2017 2nd International Conference on Telecommunication and Networks (TEL-NET) Hassan, M T., Junejo, K N., & Karim, A (2009) Learning and predicting key Web navigation patterns using Bayesian models Paper presented at the International Conference on Computational Science and Its Applications Hassoun, M H (1995) Fundamentals of artificial neural networks: MIT press Ho, J., Lukov, L., & Chawla, S (2005) Sequential pattern mining with constraints on large protein databases Paper presented at the Proceedings of the 12th International Conference on Management of Data (COMAD) Hoekstra, J (2016) Predicting train journeys from smart card data: a real-world application of the sequence prediction problem Hornik, K., Grün, B., & Hahsler, M (2005) arules-A computational environment for mining association rules and frequent item sets Journal of Statistical Software, 14(15), 1-25 Iliopoulos, C S., Makris, C., Panagis, Y., Perdikuri, K., Theodoridis, E., & Tsakalidis, A (2006) The weighted suffix tree: an efficient data structure for handling molecular weighted sequences and its applications Fundamenta Informaticae, 71(2, 3), 259-277 James, G., Witten, D., Hastie, T., & Tibshirani, R (2013) An introduction to statistical learning (Vol 112): Springer Jespersen, S., Pedersen, T B., & Thorhauge, J (2003) Evaluating the markov assumption for web usage mining Paper presented at the Proceedings of the 5th ACM international workshop on Web information and data management luan an 131 [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] Jianhui, L., & Bingjie, Z (2009) A Web Prediction Pattern Recommendation Algorithm Paper presented at the Networking and Digital Society, 2009 ICNDS'09 International Conference on Khalil, F., Li, J., & Wang, H (2006) A framework of combining Markov model with association rules for predicting web page accesses Paper presented at the Proceedings of the fifth Australasian conference on Data mining and analysticsVolume 61 Khalil, F., Li, J., & Wang, H (2008) Integrating recommendation models for improved web page prediction accuracy Paper presented at the Proceedings of the thirty-first Australasian conference on Computer science-Volume 74 Khalil, F., Li, J., & Wang, H (2009) An integrated model for next page access prediction International Journal of Knowledge and Web Intelligence, 1(1-2), 4880 Khalil, F., Li, J., & Wang, H (2009) An integrated model for next page access prediction IJ Knowledge and Web Intelligence, 1(1/2), 48-80 Kleinberg, J M (1999) Authoritative sources in a hyperlinked environment Journal of the ACM (JACM), 46(5), 604-632 Kohavi, R (1995) A study of cross-validation and bootstrap for accuracy estimation and model selection Paper presented at the Ijcai Kuhn, M., & Johnson, K (2013) Applied predictive modeling (Vol 26): Springer Kumar, B H., Vibha, L., & Venugopal, K (2016) Web page access prediction using hierarchical clustering based on modified levenshtein distance and higher order Markov model Paper presented at the Region 10 Symposium (TENSYMP), 2016 IEEE Kumar, P., Kadambari, S., & Rawat, S (2015) Prefetching web pages for Improving user access latency using integrated Web Usage Mining Paper presented at the Communication, Control and Intelligent Systems (CCIS), 2015 Kundra, K., Kaur, U., & Singh, D (2015) Efficient Web Log Mining and Navigational Prediction with EHPSO and Scaled Markov Model In Computational Intelligence in Data Mining-Volume (pp 529-543): Springer Labroche, N., Monmarché, N., & Venturini, G (2002) A new clustering algorithm based on the chemical recognition system of ants Paper presented at the Proceedings of the 15th European Conference on Artificial Intelligence Laird, P., & Saul, R (1994) Discrete sequence prediction and its applications Machine learning, 15(1), 43-68 Li, J.-Q., Zhao, Y., & Garcia-Molina, H (2012) A path-based approach for web page retrieval World Wide Web, 15(3), 257-283 Li, M., Yu, X., & Ryu, K H (2014) MapReduce-based web mining for prediction of web-user navigation Journal of Information Science, 40(5), 557-567 Lin, W.-Y., Tseng, M.-C., & Su, J.-H (2002) A confidence-lift support specification for interesting associations mining Paper presented at the PacificAsia Conference on Knowledge Discovery and Data Mining Liraki, Z., Harounabadi, A., & Mirabedini, J (2015) Predicting the Users' Navigation Patterns in Web, using Weighted Association Rules and Users' luan an 132 [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] Navigation Information International Journal of Computer Applications, 110(12) Luotonen, A (1995) The common log file format Maurya, J., Singh, S., Patil, H., & Jain, P (2014) A Survey on: Methods of Web Behavior Prediction by: Utilizing Different Features International Journal, 4(3) Mobasher, B., Dai, H., Luo, T., & Nakagawa, M (2002) Using sequential and non-sequential patterns in predictive web usage mining tasks Paper presented at the Data Mining, 2002 ICDM 2003 Proceedings 2002 IEEE International Conference on Mohammad, R M., Thabtah, F., & McCluskey, L (2014) Predicting phishing websites based on self-structuring neural network Neural Computing and Applications, 25(2), 443-458 Morse, P M (1968) Library effectiveness: A systems approach Narvekar, M., & Banu, S S (2015) Predicting user's Web navigation behavior using hybrid approach Procedia Computer Science, 45, 3-12 Nigam, B., Tokekar, S., & Jain, S (2015) Evaluation of models for predicting user's next request in web usage mining international Journal on Cybernetics & informatics (UCi), 4, 1-13 Padmanabhan, V N., & Mogul, J C (1996) Using predictive prefetching to improve world wide web latency ACM SIGCOMM Computer Communication Review, 26(3), 22-36 Page, L., Brin, S., Motwani, R., & Winograd, T (1999) The PageRank citation ranking: Bringing order to the web: Stanford InfoLab Papadakis, N K., Skoutas, D., Raftopoulos, K., & Varvarigou, T A (2005) Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques IEEE Transactions on Knowledge and Data Engineering, 17(12), 1638-1652 Papapetrou, P., Kollios, G., Sclaroff, S., & Gunopulos, D (2005) Discovering frequent arrangements of temporal intervals Paper presented at the null Patil, N V., & Patil, H D Prediction of Web User’s Browsing Behavior using All Kth Markov model and CSB-mine Pei, J., Han, J., Mortazavi-Asl, B., & Zhu, H (2000) Mining access patterns efficiently from web logs Paper presented at the Pacific-Asia Conference on Knowledge Discovery and Data Mining Pierrakos, D., Paliouras, G., Papatheodorou, C., & Spyropoulos, C D (2003) Web usage mining as a tool for personalization: A survey User modeling and user-adapted interaction, 13(4), 311-372 Pirolli, P L., & Pitkow, J E (1999) Distributions of surfers' paths through the World Wide Web: Empirical characterizations World Wide Web, 2(1-2), 29-45 Pitkänen, H (2017) Exploratory sequential data analysis of user interaction in contemporary BIM applications Pitkow, J., & Pirolli, P (1999) Mininglongestrepeatin g subsequencestopredict worldwidewebsurfing Paper presented at the Proc UsENIX symp on Internet Technologies and systems luan an 133 [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] Poornalatha, G., Chetan, S., & Raghavendra, P S (2017) Prediction model for prefetching web page ased on the usage patter International Journal of Control Theory and Applications, 10(14), 39-47 Rao, V M., & Kumari, V V (2010) An efficient hybrid successive Markov model for predicting web user usage behavior using web usage mining International Journal of Data Engineering (IJDE), 1(5), 43-62 Rathod, V R., & Patel, G V (2016) Prediction of User Behavior using Web log in Web Usage Mining International Journal of Computer Applications, 139(8) Rigou, M., Sirmakessis, S., & Tzimas, G (2006) A method for personalized clustering in data intensive web applications Paper presented at the Proceedings of the joint international workshop on Adaptivity, personalization & the semantic web Rjeily, C B., Badr, G., Al Hassani, A H., & Andres, E (2017) Predicting heart failure class using a sequence prediction algorithm Paper presented at the Advances in Biomedical Engineering (ICABME), 2017 Fourth International Conference on Rjeily, C B., Badr, G., El Hassani, A H., & Andres, E (2019) Medical Data Mining for Heart Diseases and the Future of Sequential Mining in Medical Field In Machine Learning Paradigms (pp 71-99): Springer Sampath, P., Wahi, A., & Ramya, D (2014) A COMPARATIVE ANALYSIS OF MARKOV MODEL WITH CLUSTERING AND ASSOCIATION RULE MINING FOR BETTER WEB PAGE PREDICTION Journal of Theoretical & Applied Information Technology, 63(3) Sarukkai, R R (2000) Link prediction and path analysis using Markov chains Computer Networks, 33(1), 377-386 Sarukkai, R R (2000) Link prediction and path analysis using Markov chains1 Computer Networks, 33(1-6), 377-386 Sarwar, B M., Karypis, G., Konstan, J A., & Riedl, J (2001) Item-based collaborative filtering recommendation algorithms Www, 1, 285-295 Srivastava, J., Cooley, R., Deshpande, M., & Tan, P.-N (2000) Web usage mining: Discovery and applications of usage patterns from web data Acm Sigkdd Explorations Newsletter, 1(2), 12-23 Srivastava, T., Desikan, P., & Kumar, V (2005) Web mining–concepts, applications and research directions In Foundations and advances in data mining (pp 275-307): Springer Strehl, A., Ghosh, J., & Mooney, R (2000) Impact of similarity measures on webpage clustering Paper presented at the Workshop on artificial intelligence for web search (AAAI 2000) Suchacka, G., & Stemplewski, S (2017) Application of Neural Network to Predict Purchases in Online Store Paper presented at the Information Systems Architecture and Technology: Proceedings of 37th International Conference on Information Systems Architecture and Technology–ISAT 2016–Part IV luan an 134 [108] Swarnakar, S., Thakur, A., Misra, D., Debopriya, P., Pakira, M., & Roy, S (2016) Enhanced model of web page prediction using PageRank and markov model International Journal of Computer Applications, 140(7) [109] Thwe, P (2014) Using Markov Model and Popularity and Similarity Based PageRank Algorithm for Web Page Access Prediction Paper presented at the International Conference on Advances in Engineering and Technology (ICATE) [110] Tseng, V S., Lin, K W., & Chang, J.-C (2008) Prediction of user navigation patterns by mining the temporal web usage evolution Soft Computing-A Fusion of Foundations, Methodologies and Applications, 12(2), 157-163 [111] Verma, A., & Prajapat, B (2016) User Next Web Page Recommendation using Weight based Prediction International Journal of Computer Applications, 142(11) [112] Wu, X., Kumar, V., Quinlan, J R., Ghosh, J., Yang, Q., Motoda, H., et al (2008) Top 10 algorithms in data mining Knowledge and information systems, 14(1), 137 [113] Yang, Q., Li, T., & Wang, K (2004) Building association-rule based sequential classifiers for web-document prediction Data mining and knowledge discovery, 8(3), 253-273 [114] Yao, Z., Wang, X., & Luan, J (2017) Using Hidden Markov Model to Predict the Web Users’ Linkage Journal of Residuals Science & Technology, 14(3) [115] Yu, X., Li, M., Paik, I., & Ryu, K H (2012) Prediction of web user behavior by discovering temporal relational rules from web log data Paper presented at the International Conference on Database and Expert Systems Applications [116] Zack, L., Lamb, R., & Ball, S (2013) An application of Google’s PageRank to NFL rankings Involve, a Journal of Mathematics, 5(4), 463-471 [117] Zaki, M J (2001) SPADE: An efficient algorithm for mining frequent sequences Machine learning, 42(1-2), 31-60 [118] Zheng, Z., Kohavi, R., & Mason, L (2001) Real world performance of association rule algorithms Paper presented at the Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining [119] Zhu, J., Hong, J., & Hughes, J G (2002) Using markov chains for link prediction in adaptive web sites In Soft-Ware 2002: Computing in an Imperfect World (pp 60-73): Springer [120] Zhu, J., Hong, J., & Hughes, J G (2002) Using Markov models for web site link prediction Paper presented at the Proceedings of the thirteenth ACM conference on Hypertext and hypermedia [121] Ziv, J., & Lempel, A (1978) Compression of individual sequences via variablerate coding IEEE transactions on Information Theory, 24(5), 530-536 luan an 135 PHỤ LỤC MỘT PHẦN MÃ NGUỒN GIẢI PHÁP NÂNG CAO HIỆU QUẢ ĐỘ CHÍNH XÁC CHO DỰ ĐỐN TRUY CẬP WEB [Source 1] Duyệt CSDL để tạo mảng chứa phần tử khác CSDL luan an 136 [Source 2] Tạo ma trận node CSDL đồ thị từ phần tử CSDL luan an 137 [Source 3] Tính tốn PageRank cho node CSDL đồ thị [Source 4] Tính tốn trung bình PageRank cho chuỗi liệu [Source 5] Sắp xếp giảm dần theo trung bình PageRank chuỗi luan an 138 luan an 139 PHỤ LỤC MỘT PHẦN MÃ NGUỒN GIẢI PHÁP NÂNG CAO HIỆU QUẢ THỜI GIAN CHO DỰ ĐOÁN TRUY CẬP WEB [Source 6] Một phần mã nguồn giải pháp nâng cao hiệu thời gian cho dự đoán truy cập Web luan an 140 PHỤ LỤC CHI TIẾT GIẢI THUẬT TÍNH TỐN SONG SONG PAGERANK Procedure Parallel_PageRank Begin For i ← to (iterations - 1) Begin For j ← to (n - 1) localPR[j] ← 0; danglingContrib ← 0; Iterator it = adjMatrix.entrySet().iterator(); While (it.hasNext()) Begin List pair ← it.next(); If pair.getValue() = null Then 10 danglingContrib ← danglingContrib + globalPR[pair.getKey()]/n; 11 Else 12 13 14 15 //If it is a dangling node, Begin current_size = pair.getValue().size(); iter = pair.getValue().iterator(); While (iter.hasNext())// For each outbound link for a node Begin 16 node ← iter.next(); temp ← globalPR[node]; 17 temp ← temp + globalPR[pair.getKey()] / current_size; 18 localPR[node] = temp; 19 End //While (iter.hasNext()) 20 End //If… Else… Then 21 End // While (it.hasNext()) 22 tempSend[] ← new double[1]; 23 tempRecv[] ← new double[1]; luan an 141 24 tempSend[0] ← danglingContrib; 25 Call Allreduce(tempRecv, tempSend, MPI.SUM); 26 Call Allreduce(localPR, globalPR, n,MPI.SUM); 27 If rank = Then 28 29 Begin For k ← to n 30 Begin 31 globalPR[k] ← globalPR[k] + tempRecv[0]; 32 globalPR[k] ← df * globalPR[k] + (1 - df) * (1/n); 33 34 35 36 End End Call Bcast(globalPR, n); End // For i ← to (iterations - 1) End luan an 142 Ý KIẾN CỦA NGƯỜI HƯỚNG DẪN (Ký ghi rõ họ tên) TS TÂN HẠNH Ý KIẾN CỦA NGƯỜI HƯỚNG DẪN (Ký ghi rõ họ tên) TS PHẠM HOÀNG DUY luan an NGƯỜI THỰC HIỆN (Ký ghi rõ họ tên) NGUYỄN THÔN DÃ ... Squery) Dự đoán hành vi truy cập Web dự đoán trang Web truy cập pnext Squery sở liệu truy cập Web SD cách sử dụng phương pháp dự đoán chuỗi truy cập Web, chẳng hạn phương pháp dự luan an 14 đoán chuỗi... luan an giải pháp khai phá liệu để dự đoán hành vi truy cập Web hiệu nâng cao độ xác giảm thời gian thực thi dự đoán Mục tiêu luận án Để giải toán khai phá liệu cho dự đoán truy cập Web, nghiên... thuyết dự đoán liệu cho dự đoán truy cập Web chuỗi tuần tự, sở liệu tuần tự, tiếp cận dự đoán truy cập Web, liệu click-stream phục vụ cho khai phá luan an liệu MSNBC, FIFA, KOSARAK 1, liệu Weblog

Ngày đăng: 01/02/2023, 08:52

Tài liệu cùng người dùng

Tài liệu liên quan