Vận dụng các kỹ thuật khai phá dữ liệu trên dữ liệu lưu trữ quá trình sử dụng các trang web (WEB USAGE MINING)

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA ] ^ NGUYỄN THỊ THANH SANG VẬN DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRÊN DỮ LIỆU LƯU TRỮ QUÁ TRÌNH SỬ DỤNG CÁC TRANG WEB (WEB USAGE MINING) Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2006 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Tiến só Nguyễn Đức Cường Cán chấm nhận xét 1: Tiến só Dương Tuấn Anh Cán chấm nhận xét 2: Tiến só Trần Văn Lăng Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 24 tháng 07 năm 2006 TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHUÙC - Tp HCM, ngày tháng năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Thanh Sang Phái: Nữ Ngày tháng năm sinh: 26/04/1981 Nơi sinh: Tp HCM Chuyên ngành: Công nghệ thông tin MSHV: 00704178 I- TÊN ĐỀ TÀI: Vận dụng kỹ thuật khai phá liệu liệu lưu trữ trình sử dụng trang web II- NHIỆM VỤ VÀ NỘI DUNG: III- NGÀY GIAO NHIỆM VỤ: 10/10/2005 IV- NGÀY HOÀN THÀNH NHIỆM VỤ: 30/06/2006 V- CÁN BỘ HƯỚNG DẪN: Tiến só Nguyễn Đức Cường CÁN BỘ HƯỚNG DẪN CN BỘ MÔN QL CHUYÊN NGÀNH Tiến só Nguyễn Đức Cường Nội dung đề cương luận văn thạc só đđược Hội đồng chuyên ngành thông qua Ngày TRƯỞNG PHÒNG ĐT – SĐH tháng năm 2006 TRUỞNG KHOA QL NGÀNH i LỜI CÁM ƠN Để hoàn thành luận văn này, nhận nhiều giúp đỡ nhiệt tình động viên từ thầy cô, bạn, đồng nghiệp người thân Trước tiên, xin chân thành cảm ơn hướng dẫn tận tình Thầy TS Nguyễn Đức Cường, Thầy hết lòng truyền đạt kiến thức kinh nghiệm quý báu giúp hoàn thành tốt luận văn Tôi xin chân thành cảm ơn người bạn, đồng nghiệp người thân gia đình, người bên cạnh ủng hộ động viên lúc gặp khó khăn Và xin chân thành cảm ơn tác giả tài liệu tham khảo đề tài Mặc dù có nhiều cố gắng, hạn chế thời gian mức độ nghiên cứu có hạn nên tránh khỏi sai sót trình làm luận văn, mong nhận ý kiến đóng góp quý thầy cô bạn Tp HCM, ngày 26 tháng 07 năm 2006 Học viên thực Nguyễn Thị Thanh Sang ii ABSTRACT The tremendous growth of data avaibilities in many disciplines has made data mining an indispensable technology for both Web organizations and end users Web mining techniques have been applied on Web usage data, the logged data of user’s accessing process on a Web site, to discover potentially useful knowledge in order to improve the Web site design or support Web personalization The goal of the thesis is an attempt of applying data mining techniques on Web usage data The proposed system consists of a mining process such as: filtering Web access sequences from Sever Web Log files, mining filtered Web log access sequences by a tree-based algorithm, and then using a Dynamic Clustering-Based Model to predict the next navigated step of users From this result, Web administrators can redesign, reconstruct Web site to suit user usage The main techniques in this thesis are the Pre-Order Linked WAP-Tree Mining (PLWAP) algorithm and the Dynamic Clustering-Based Markov Model i TÓM TẮT Nhằm hướng đến khai phá nguồn liệu ngày gia tăng nhiều lónh vực, kỹ thuật khai phá liệu đời nhằm đáp ứng nhu cầu thực tế tổ chức Web người dùng cuối Một nguồn liệu ngày quan tâm liệu truy cập web, liệu lưu trữ trình sử dụng web người dùng, nhà nghiên cứu vận dụng kỹ thuật khai phá web (web mining) để khai phá trình sử dụng web (Web Usage Mining) nhằm tìm tri thức tiềm ẩn bên trong, từ cải thiện web site hỗ trợ tiện ích cho người dùng hay khách hàng thu hút nhiều khách hàng Mục tiêu đề tài vận dụng kỹ thuật khai phá liệu liệu lưu trữ trình sử dụng trang web Hệ thống đề xuất qui trình khai phá liệu qua giai đoạn sau: lọc chuỗi truy cập web từ Log files lưu trữ Web Server, khai phá chuỗi truy cập web giải thuật dạng cây, từ xây dựng mô hình Markov có phân nhóm động để vẽ sơ đồ dự đoán bước duyệt web người dùng Dựa vào kết khai phá này, người thiết kế web thiết kế, xây dựng lại cấu trúc web site cho phù hợp với nhu cầu thực tế sử dụng web người dùng Các kỹ thuật áp dụng cho đề tài khai phá chuỗi truy cập web dùng Pre-Order Linked WAP-Tree Mining – PLWAP mô hình Markov có phân nhóm động ii MỤC LỤC LỜI CÁM ƠN .i ABSTRACT ii TÓM TẮT i MUÏC LUÏC ii DANH MỤC HÌNH iv DANH MỤC BẢNG BIỂU vi CÁC TỪ VIẾT TẮT vii GIỚI THIỆU 1.1 Sự cần thiết Khai phá liệu lưu trữ trình sử duïng web (Web Usage Mining – WUM): 1.2 Đối tượng, phạm vi nghiên cứu: 1.3 Ý nghóa thực tiễn đề tài: .3 1.4 Nội dung trình bày: .4 TOÅNG QUAN [Dimitrios Pierrakakos et al., 2003] 2.1 Phân nhóm (clustering): 2.2 Phân loại (classification): 2.3 Các luật liên kết (association rules): 10 2.4 Khám phá mẫu dạng chuỗi (sequential pattern discovery): .11 CƠ SỞ LÝ THUYẾT .16 3.1 Khai phá liệu (Data Mining – DM): 16 3.1.1 Định nghóa: 16 3.1.2 Các bước lặp trình khai phá liệu: [Chapman et al., 2000] 16 3.1.3 Các phương pháp khai phá liệu: [Fayyad, 1998] 16 3.2 Khai phá liệu Web (Web Mining – WM): 19 3.2.1 Giới thiệu: 19 3.2.2 Khai phá nội dung web (Web Content Mining): 20 3.2.3 Khai phá việc sử dụng Web (Web Usage Mining): 21 3.2.4 Khai phá cấu trúc Web (Web Structure Mining): 21 3.3 Khai phaù liệu lưu trữ trình sử dụng trang web (Web Usage Mining – WUM) [Dimitrios Pierrakakos et al., 2003]: 21 3.3.1 Thu thaäp liệu (data collection): .23 3.3.2 Chuẩn bị liệu (data preprocessing): 25 iii 3.3.3 Khám phá mẫu (Pattern Discovery): 26 3.3.4 Haäu xử lý tri thức (Knowledge Post-Processing): .32 3.4 Chuoãi Markov: 32 3.5 Đề xuất: .33 THIẾT KẾ VÀ HIỆN THỰC 35 4.1 Thieát keá: 35 4.1.1 Phương pháp thực hiện: .35 4.1.2 Các giải thuật sử dụng: 58 4.1.3 Qui trình: 63 4.2 Hieän thực: 64 4.2.1 Các thành phần: 64 4.2.2 Cấu trúc liệu: 64 4.2.3 Vận hành: 73 4.2.4 Giao diện chương trình khai phá việc sử dụng Web: 75 4.2.5 Thử nghiệm: .84 ĐÁNH GIÁ – KẾT LUẬN 89 5.1 Các ưu điểm cuûa PLWAP- tree: 89 5.2 Ưu điểm phương pháp nhân theo phân nhóm: 89 5.3 Ưu điểm kết hợp hai phương pháp: 90 5.4 Kết luận: 91 HƯỚNG PHÁT TRIỂN .92 PHUÏ LUÏC 93 Cấu trúc tập tin xmlGraph.xml mô tả kết khai phá việc sử dụng Web, theo mô hình Markov có phân nhóm động: 93 Cấu trúc tập tin HTMLGraph.html mô tả kết khai phá việc sử dụng Web, theo mô hình Markov có phân nhóm động: 95 TÀI LIỆU THAM KHAÛO 96 BẢNG THUẬT NGỮ SỬ DỤNG 102 iv DANH MỤC HÌNH Hình 3-1 Qui trình khai phá việc sử dụng Web .23 Hình 4-1 Sơ đồ chức WebLogCleaning .36 Hình 4-2 Lược đồ quan hệ CSDL lưu trữ thông tin Web log 37 Hình 4-3 Sơ đồ xử lý trình khai phá dùng giải thuật PLWAP-tree .40 Hình 4-4 Một rừng hậu tố 41 Hình 4-5 Gán mã vị trí theo nhị phân 43 Hình 4-6 Mô hình bậc tương ứng cho sessions bảng 4.5 50 Hình 4-7 Mô hình 3-gram HPG cho sessions bảng 4.5 52 Hình 4-8 Mô hình kết việc nhân trạng thái A2 hình 4.6, trường hợp xác suất truyền bậc xác hình 4.6 54 Hình 4-9 Một ví dụ trạng thái Ax có I in-links (Aj1 AjI) vaø O out-links (Ak1 AkO) 55 Hình 4-10 Một ví dụ mô tả phương pháp nhân dựa theo phân nhóm 56 Hình 4-11 Nhân trạng thái A5 dựa theo phân nhóm cho ví dụ hình 4.10 57 Hình 4-12 Các bước khai phá liệu lưu trữ trình sử dụng Web người dùng 63 Hình 4-13 Qui trình vận hành chương trình khai phá việc sử dụng Web 73 Hình 4-14 Phần giới thiệu 75 Hình 4-15 Giao diện khai phá chuỗi ban đầu (WUM: Mining): Nhấn vào nút ‘Run Web Cleaner’ để mở công cụ WebLogCleaning 75 Hình 4-16 Giao diện WebLogCleaning ban đầu: chọn Edit Ỉ Create Ỉ Text files Warehouse để tạo bảng CSDL, chọn File Ỉ Store data to Ỉ Text files Warehouse để đổ liệu vào bảng, sau chọn Edit Ỉ Create Data Set Ỉ from Text files Warehouse Ỉ based on time ID để lấy dataset 76 Hình 4-17 Chọn thời gian lấy navigation sessions cho dataset 77 Hình 4-18 Kết lưu dataset vào tập tin dataset_1.suv 77 Hình 4-19 Trở lại cửa sổ WUM: Mining: nhấn nút ‘Parse DataSet’ để phân tích dataset thành WAS.data (ô bên trái nội dung WAS) Các nút ‘Parse MS Web data’ ‘Parse MSNBC data’ để phân tích dataset từ UCI 78 Hình 4-20 Nhập MinSup, nhấn nút ‘Run PLWAP algorithm’ để khai phá chuỗi truy cập Web thường xuất hiện, kết hiển thị ô bên phải Sau nhấn nút ‘Draw graph’ để vẽ mô hình Markov 79 v Hình 4-21 Giao diện WUM: Markov Model: đồ thị Markov vẽ ô lớn, với tên nút PathID Nhấn nút ‘Mix Markov Model’ để vẽ Mô hình Markov bậc có phân nhóm động, nhấn nút ‘Load URL’ để gán địa trang Web, Nhấn nút ‘Transform into XML’ để sinh tập tin XML, nhấn nút ‘Transform into HTML’ để chọn WAS.data sinh tập tin HTML 80 Hình 4-22 Giao diện WUM: Markov Model: Xem liên kết (in-links out-links) nút cách nhấn vào nút Display Node với tên nút ô text .81 Hình 4-23 Trang xmlGraph.xml 82 Hình 4-24 Trang HTMLGraph.html 83 Hình 4-25 Trang index.htm, kết khai phá, tạo khung hiển thị trang từ liên kết thuộc HTMLGraph.html .84 Hình 4-26 Ví dụ xem trang http://www.cs.kent.edu/~jyisong/contents.html khung bên phải .86 Hình 4-27 Ví dụ xem trang http://www.cs.kent.edu/~jyisong/welcome.html khung bên phải .87 Hình 4-28 Ví dụ xem trang http://www.cs.kent.edu/~jyisong/teach.htm khung bên phải 88 90 5.3 Ưu điểm kết hợp hai phương pháp: ¾ Cả hai phương pháp thực nghiệm chứng minh có hiệu thực tế cao Do đó, ta kết hợp hai phương pháp làm tăng hiệu kết khai phá chuỗi ¾ PLWAP-tree giúp hạn chế số lượng trang Web xem không cần thiết, khai phá trang có độ hỗ trợ lớn MinSup trang thường người dùng ý, kết giải thuật tập khả điều hướng Web người dùng trang thường xem đa số người dùng ¾ Mô hình Markov có phân nhóm động cho trang thường dùng, nên kích thước mô hình không lớn, hạn chế dự đoán dư thừa cho trang không cần thiết ¾ Việc xây dựng mô hình từ kết giải thuật PLWAP-tree hiệu nhiều nhớ, xây dựng mô hình cho chuỗi điều hướng Web lấy từ Web log kích thước mô hình lớn có nhiều trạng thái tất trang truy cập kể trang không cần thiết Vì ta dự đoán qua hai lớp, lớp đầu khai phá chuỗi, liệt kê tất khả có từ chuỗi truy cập thực tế; lớp thứ hai dự đoán tiếp dựa tảng chuỗi duyệt Web lọc, tức ta làm tăng độ xác dự đoán bước điều hướng Web ¾ Tính linh động dùng MinSup, V γ, giúp ta điều chỉnh tham số kiểm định thí nghiệm cho phù hợp với thực tế Điều chỉnh MinSup để lấy trang với mức độ quan tâm nhiều khác nhau, nhằm giới hạn phạm vi cần quan tâm để dễ đánh giá toán Điều chỉnh γ để tăng hay giảm độ xác mô hình Markov Đánh giá – Kết luận 91 5.4 Kết luận: Kết thử nghiệm cho thấy phù hợp mô hình thực tế Từ giúp người quản trị nên ý trang mà người dùng thường lui tới để bố trí trang Web cho phù hợp: ¾ Dựa vào liên kết trang kết khai phá, xem site map Web site có liên kết trực tiếp đặt vào nhóm hợp lý chưa ¾ Những trang có xác suất xem nhiều nên đặt vùng bật Web site ¾ Loại bỏ liên kết người dùng ý, tránh gây dư thừa thông tin không cần thiết ¾ Biết trang người dùng thường quan tâm, ta tạo hướng dẫn tham khảo trang người dùng thường xem, tạo tiện lợi cho người dùng dễ tra cứu Đánh giá – Kết luận 92 HƯỚNG PHÁT TRIỂN Hướng người dùng: ¾ Khai phá liệu Web theo sở thích nhóm người dùng khác nhau, từ xây dựng Web site theo người dùng, ứng với loại người dùng nên thiết kế liên kết trang Web ¾ Khai phá liệu Web theo nội dung trang Web Hướng kỹ thuật: ¾ Có thể phát triển giải thuật khai phá chuỗi PLWAP-tree thành giải thuật RePL4UP [C.I Ezeife, Min Chen, 2004], cho phép khai phá tăng dần CSDL cập nhật ¾ Có thể cải tiến mô hình Markov dự đoán xác hơn, chẳng hạn bổ sung thêm xác suất phân bố trạng thái xét mô hình ¾ Cải tiến giải thuật cho chương trình khai phá CSDL phân bố Hướng phát triển 93 PHỤ LỤC Cấu trúc tập tin xmlGraph.xml mô tả kết khai phá việc sử dụng Web, theo mô hình Markov có phân nhóm động: Lược đồ XML mô tả Mô hình Markov cho nút trang web thường truy cập sau: Các nút theo thứ tự giảm tần suất truy cập Thẻ : đĐịnh danh nút Thẻ: Tên nút Thẻ : đĐịa truy cập trang web Thẻ : Số lần truy cập nút trang web Thẻ : Nút link mà thường xem kế tiếp, gồm thông tin [tên nút; số lần truy cập; xác suất truy cập] Ví dụ: … 164 http://www.cs.kent.edu/~jyisong/teach.htm 16 70; 8; 0.5 E; 4; 0.25 94 199; 4; 0.25 … 95 Cấu trúc tập tin HTMLGraph.html mô tả kết khai phá việc sử dụng Web, theo mô hình Markov có phân nhóm động: Nội dung trang gồm liên kết tương ứng cho nút mô hình Markov Mỗi liên kết có liên kết lịch sử (in-links) liên kết kế (out-links) mô tả sau: Các liên kết theo thứ tự giảm dần số lần dự đoán viếng thăm (Số lần viếng thăm) Lịch sử: { } Tại đây, người dùng thường đến: { (xác suất xem)} Ví dụ: 164 http://www.cs.kent.edu/~jyisong/teach.htm (16 Visits) History: 163 http://www.cs.kent.edu/~jyisong/welcome.html Start No page 162 http://www.cs.kent.edu/~jyisong/contents.html Here, users often go to: 70 http://www.cs.kent.edu/~jyisong/cs10051/cs10051.htm (50%) E No page 199 http://www.cs.kent.edu/~jyisong/cs10051/hw2.htm (25%) 96 TÀI LIỆU THAM KHẢO [Agrawal and Srikant, 1994] Agrawal, R and Srikant, R.: 1994, Fast algorithms for mining association rules, In: Proceedings of the 20th VLDB Conference, SantiagoChile, pp.487 – 499 [Anderson et al., 2001] Anderson, C R., Domingos, P and Weld, D S.: 2001a, Adaptive Web Navigation for Wireless Devices, In: Proceedings of the 17th International Joint Conference on Artificial Intelligence, (IJCAI-01), 879-884 [Bao] Ho Tu Bao, Knowledge Discovery and Data mining techniques and practice, Department of Pattern Recognition and Knowledge Engineering, Institute of Information Technology, Hanoi, Vietnam [Borges and Levene, 1999] Borges, J and Levene, M.: 1999, Data mining of user navigation patterns, In: Proceedings of Workshop on Web Usage Analysis and User Profling (WEBKDD), in conjunction with ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA., pp 31-36 [Borges and Levene, 2000] Borges, J and Levene, M (2000) Data mining of user navigation patterns In Masand, B and Spliliopoulou, M., editors, Web Usage Analysis and User Profiling, Lecture Notes in Artificial Intelligence (LNAI 1836), pages 92-111 Springer Verlag, Berlin [Borges and Levene, 2004] Borges, J and Levene, M (2004) A Dynamic Clustering-Based Markov Model for Web Usage Mining [Borges, 2000] Borges, J (2000) A Data Mining Model to Capture User Web Navigation PhD thesis, University College London, London University [C.I Ezeife, Min Chen, 2004] C.I Ezeife, Min Chen, (2004) Mining Web Sequential Patterns Incrementally with Revised PLWAP Tree 97 [C.I Ezeife, Yi Lu, 2004] C.I Ezeife, Yi Lu, (2004) Mining Web Log Sequential Patterns with Position Coded Pre-Order Linked WAP-Tree School of Computer Science, University of Windsor, Windsor, Ontario, Canada, N9B 3P4 [Cadez et al., 2000a] Cadez I, Heckerman, D., Meek, C., Smyth, P and White, S.: 2000, Visualization of Navigation Patterns on a Web Site Using Model Based Clustering Technical Report MSR-TR-00-18 Microsoft Research [Cadez et al., 2000b] Cadez, I., Heckerman, D., Meek, C., Smyth, P., and White, S (2000) Visualization of navigation patterns on a web site using model based clustering In Proceedings of the sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston, Massachusetts To appear [Chapman et al., 2000] Chapman P., Clinton J., Kerber R., Khabaza T., Reinartz T., Shearer C and Wirth R., 2000 CRISP-DM 1.0 Process and User Guide, http://scrisp-dm.org [Chen et al., 1998] Chen, M.-S., Park, J S., and Yu, P S (1998) Efficient data mining for traversal patterns IEEE Transactions on Knowledge and Data Engineering, 10(2):209–221 [Cooley et al., 1997b] Cooley, R., Srivastava, J and Mobasher, B.: 1997b, WebMining: Information and Pattern Discovery on the World Wide Web, In: Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’97), pp 558 – 567 [Cooley et al., 1999] Cooley, R., Mobasher, B., and Srivastava, J (1999) Data preparation for mining world wide web browsing patterns Knowledge and Information Systems, 1(1):5–32 [Cooley et al., 2000] Cooley, R., Tan, P.-N., and Srivastava, J (2000) Discovery of interesting usage patterns from web data In Masand, B and Spliliopoulou, M., 98 editors, Web Usage Mining, To appear in Lecture Notes in Artificial Intelligence (LNAI 1836) Springer Verlag, Berlin [Cuong, 2004] Nguyen Duc Cuong, 2004, Flexible Information Management Strategies in Machine Learning and Data Mining, University of Wales, pp – 17 [Dempster et al., 1977] Dempster, A P., Laird, N M and Rubin, D B.: 1977, Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society B, 39, 1-38 [Deshpande and Karypis, 2001] Deshpande and G Karypis Selective Markov Models for Predicting Web-Pages Accesses In Proceedings of the First International SIAM Conference on Data Mining, Chicago, April 2001 [Dimitrios Pierrakakos et al., 2003] Dimitrios Pierrakakos, Georgios Paliouras, Christos Papatheodorou and Constantine D Spyropoulos, Web Usage Mining as a Tool for Personalization: A Survey, In: User Modelling and User-Adapted Interaction 13: 311-372, 2003 [Fayyad, 1998] Fayyad, U (1998) Mining database: Towards algorithms for knowledge discovery Bulletin of the Technical Committee on Data Engineering, 21(1): 39-48 [Fayyad et al., 1996] Fayyad U M., Piatetsky-Shapiro G., Smyth P and Uthurusamy, R., (1996), Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA [Feller, 1968] Feller, W (1968) An Introduction to Probability Theory and Its Applications, volume I John Wiley & Sons, New York, third edition [Han and Kamber, 2001] Han, J and Kamber, M 2001, DataMining: ConceptsandTechniques, Morgan Kaufmann Publishers 99 [Han et al., 1997] Han, E H., Karypis, G., Kumar, V and Mobasher, B.: 1997, Clustering based on association rule hypergraphs, In: Proceedings of SIGMOD’97 Workshop on Research issues in Data Mining and Knowledge Discovery, 9-13 [Kemeny and Snell, 1960] Kemeny, J G and Snell, J L (1960) Finite Markov Chains D Van Nostrand, Princeton, New Jersey [Kosala and Blockeel, 2000] Kosala, R and Blockeel, H.: 2000, Web Mining Research: A Survey, SIGKDD Explorations, 2(1), 1-15 [Mitchell, 1999] Mitchell, T., Machine Learning and Data Mining, 1999 Communications of the ACM, Vol 42, No 11, November 1999, pp 30 36 [MS Web data] http://kdd.ics.uci.edu/databases/msweb/msweb.html [MSNBC Web data] http://kdd.ics.uci.edu/databases/msnbc/msnbc.html [Nasraoui et al., 1999] Nasraoui, O., Frigui, H., Joshi, A., and Krishnapuram, R (1999) Mining web access logs using a fuzzy relational clustering algorithm based on a robust estimator In Proceedings of the eighth International World Wide Web Conference, Toronto, Canada [Norris, 1997] Norris, J R (1997) Markov Chains Cambidge University Press, New York [Pei et al., 2000] Pei, J., Han, J., Mortazavi-asl, B., and Zhu, H (2000) Mining access patterns efficiently from web logs In Proceedings of the Pacific-Asia Conference on Knowledge Discovery and Data Mining, Kyoto, Japan [Perkowitz and Etzioni, 1997] Perkowitz, M and Etzioni, O (1997) Adaptive web sites: an AI challenge In Proceeding of fifteenth International Joint Conference on Artifical Intelligence, pages 16-21, Nagoya, Japan 100 [Pirolli and Pitkow, 1999] Pirolli, P L and Pitkow, J E (1999) Distributions of surfers’ paths through the world wide web: Empirical characterizations World Wide Web, 2:29–45 [Pirolli et al., 1996] Pirolli, P., Pitkow, J., and Rao, R (1996) Silk from a sow’s ear: Extracting usable structures from the web In Proceedings of the Conference on Human Factors in Computer Systems, pages 118–125, Vancouver, Canada [Pitkow, 1997] Pitkow, J (1997) In search of reliable usage data on the www In Proceedings of the sixth International World Wide Web Conference, pages 451–463, Santa Clara, California [Rosenfeld and Morville, 1998] Rosenfeld, L and Morville, P (1998) Information Architecture for the World Wide Web O’Reilly, Cambridge [Schechter et al., 1998] Schechter, S., Krishnan, M., and Smith, M D (1998) Using path profiles to predict http requests Computer Networks and ISDN Systems, 30:457–467 [Spiliopoulou and Faulstich, 1998] Spiliopoulou, M and Faulstich, L C (1998) WUM: a tool for web utilization analysis In Proceedings of the International Workshop on the Web and Databases, pages 184–203, Valencia, Spain [Spiliopoulou et al., 1999a] Spiliopoulou, M., Faulstich, L C and Wilkler, K.:1999a, A data miner analyzing the navigational behavior of Web users, In: Proceedings of the Workshop on Machine Learning in User Modelling of the ACAI99, Chania, Greece, 54-64 [Spiliopoulou et al., 2000] Spiliopoulou, M., Pohle, C., and Faulstich, L (2000) Improving the effectiveness of a web site with web usage mining In Masand, B and Spliliopoulou, M., editors, Web Usage Mining, To appear in Lecture Notes in Artificial Intelligence (LNAI1836) Springer Verlag, Berlin 101 [Web Mining] http://www.galeas.de/webmining.html [WebCleaner] http://sol.cs.uwindsor.ca/~cezeife/webcleaner.tar.gz [Wu et al., 1998] Wu, K.-L., Yu, P., and Ballman, A (1998) SpeedTracer: A web usage mining and analysis tool IBM Systems Journal, 37(1):89–105 [Yan et al., 1996] Yan, T W., Jacobsen, M., Garcia-Molina, H., and Dayal, U (1996) From user access patterns to dynamic hypertext linking In Proceedings of the fifth International World Wide Web Conference, pages 1007–1014, Paris, France 102 BẢNG THUẬT NGỮ SỬ DỤNG Thuật ngữ Diễn giải Cluster centroid Tâm nhóm Confidence Độ tin cậy Data Mining (DM) Khai phá liệu Data set Tập liệu qua bước tiền xử lý Dynamic Clustering- Mô hình Markov có phân nhóm động Based Markov Model Event-node Nút kiện Frequent Events (FE) Các kiện thường dùng hay xuất Frequent Patterns (FP) Mẫu thường dùng hay xuất Head linkage table Bảng liên kết phần đầu, lưu danh sách mối liên kết kiện có nhãn khai phá PLWAPtree Higher-order Markov Mô hình Markov bậc cao Model Hypertext Probabilistic Văn phạm xác suất siêu văn Grammar (HPG) In-links Các trang xem liền trước trang Markov Model Mô hình Markov Minimum Support Độ hỗ trợ cực tiểu (MinSup) Navigation paths Đường dẫn điều hướng, trang truy cập Web Navigation pattern Mẫu điều hướng, ghi bước (trang Web) truy cập 103 người dùng Navigation Sessions Các phiên điều hướng, duyệt web Một phiên điều hướng chuỗi trang xem người dùng lần cửa sổ thời gian Out-links Các trang mà xem sau trang Position code Mã vị trí nút WAP hay PLWAP Pre-order linkage Liên kết thứ tự trước Pre-Order Linked Khai phá Cây mẫu truy cập web liên kết thứ tự trước WAP-Tree Mining (PLWAP) Sequential mining Khai phá chuỗi Sequential patterns Các mẫu dạng chuỗi Session Một phiên làm việc, lần xem trang web cửa sổ duyệt web, khoảng thời gian hai trang xem kế không vượt ngưỡng thời gian session (qui định trình duyệt) Support Độ hỗ trợ Support count Số hỗ trợ, số lần xảy cho kiện giao dịch The association rule Luật liên kết The clustering-based Phương pháp nhân dựa theo phân nhóm cloning method Transaction Giao dịch, chuỗi bước xem trang liên quan cách liên tiếp phiên làm việc User session Phiên làm việc người dùng 104 WAP-tree mining Khai phá truy cập Web Web Access Pattern Mẫu truy cập Web (WAP) Web Access Sequence CSDL chuỗi truy cập Web Database – WASD Web Mining (WM) Khai phá liệu Web Web personalization Việc tạo đề xuất động cho Web user, dựa vào sơ lược tiểu sử hành vi người dùng Web personalization Hệ thống phục vụ người dùng dựa thông tin cá system nhân Web Web server log files = Các tập tin lưu thông tin truy cập trang Web Web server access logs người dùng máy chủ Có thể gọi tắt Web logs Web site Miền Web Web usage data Dữ liệu lưu trữ trình sử dụng trang web Web Usage Mining Khai phá liệu lưu trữ trình sử dụng trang Web (WUM) Có thể gọi tắt Khai phá việc sử dụng Web Web user Người dùng Web ... trang web cách sử dụng khai phá liệu - Khai phá việc sử dụng Web, gọi Web Log Mining, hướng đến khám phá mẫu trang thường quan tâm người dùng, cách phân tích liệu lưu trữ trình sử dụng Web (Web. .. Khai phá nội dung web (Web Content Mining): 20 3.2.3 Khai phaù việc sử dụng Web (Web Usage Mining): 21 3.2.4 Khai phá cấu trúc Web (Web Structure Mining): 21 3.3 Khai phá liệu lưu trữ trình. .. liệu truy cập web, liệu lưu trữ trình sử dụng web người dùng, nhà nghiên cứu vận dụng kỹ thuật khai phá web (web mining) để khai phá trình sử dụng web (Web Usage Mining) nhằm tìm tri thức tiềm

Định dạng
Số trang	116
Dung lượng	1,48 MB