Luận án này tập trung vào việc đề xuất mô hình dự đoán khai phá dữ liệu cho dự đoán truy cập Web để nâng cao hiệu quả về độ chính xác và thời gian xử lý cho khai phá dữ liệu mang tính chất tuần tự (còn gọi là dữ liệu phụ thuộc thời gian). Mời các bạn tham khảo chi tiết nội dung luận án này. Mời các bạn tham khảo!
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THƠNG TÓM TẮT LUẬN ÁN KHAI PHÁ DỮ LIỆU TUẦN TỰ ĐỂ DỰ ĐOÁN HÀNH VI TRUY CẬP WEB NCS: NGUYỄN THÔN DÃ NGƯỜI HƯỚNG DẪN KHOA HỌC: HÀ NỘI, NĂM 2020 TS TÂN HẠNH TS PHẠM HỒNG DUY Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: TS Tân Hạnh TS Phạm Hoàng Duy Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng cấp Học viện Học viện Cơng nghệ Bưu Viễn thơng, 122 Hồng Quốc Việt, Hà Nội Vào lúc: Có thể tìm hiểu luận án tại: Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Môi trường Web thời đại ngày trở thành môi trường phổ biến cho giao tiếp, tương tác chia sẻ liệu người dùng Điều dẫn đến hàng ngày, hàng liệu không ngừng tạo Những liệu tận dụng để thiết kế xây dựng mơ hình dự đốn, đặc biệt mơ hình dự đốn hành vi truy cập Web để hỗ trợ định Hơn nữa, phát triển không ngừng doanh nghiệp đại tạo áp lực thách thức không nhỏ cho nhà nghiên cứu khai phá liệu Luận án cố gắng giải khó khăn cách đề xuất mơ hình giải pháp khai phá liệu để dự đoán hành vi truy cập Web hiệu nâng cao độ xác giảm thời gian thực thi dự đoán Mục tiêu phạm vi nghiên cứu Để giải toán khai phá liệu cho dự đoán truy cập Web, nghiên cứu sinh đề mục tiêu sau: (1) Nghiên cứu báo liên quan đến luận án để tìm ưu điểm, hạn chế báo này, từ sở nghiên cứu sinh đề xuất giải pháp tốt cho dự đoán hành vi truy cập Web (2) Tìm mơ hình sở liệu phù hợp để hỗ trợ cho dự đoán hành vi truy cập Web (3) Tìm giải pháp tốt để nâng cao tính xác cho dự đốn hành vi truy cập Web (4) Tìm giải pháp tốt để giảm thời gian thực thi dự đoán hành vi truy cập Web Phạm vi nghiên cứu luận án khai phá liệu cho dự đoán truy cập Web tập clickstream liệu nhật ký truy cập Web (Web Log) lưu máy chủ Web, cụ thể liệu nhật ký thuộc Web Server IIS (máy chủ Web hệ điều hành Microsoft Windows) Apache (Các máy chủ Web Hệ điều hành họ Linux) Ý nghĩa đóng góp Khai phá liệu cho dự đoán truy cập Web nghiên cứu quan trọng khai phá liệu Chẳng hạn dự đoán hành vi truy cập Web người học lớp học trực tuyến, hành vi truy cập bất hợp pháp tội phạm mạng, hành vi khác hàng Website thương mại điện tử Nhiểu cơng trình thực đạt kết định độ xác hiệu thời gian dự đoán Tuy nhiên, để dự đoán truy cập Web hiệu quả, cần đề xuất giải pháp tốt độ xác vể thời gian Các đóng góp luận án gồm: (1) Đề xuất giải pháp để thiết kế xây dựng sở liệu cho dự đoán truy cập Web (2) Đề xuất giải pháp để làm giảm thời gian dự đoán cho dự đoán truy cập Web (3) Đề xuất giải pháp để tăng độ xác cho dự đốn truy cập Web (4) Đề xuất mơ hình kết hợp tăng độ xác giảm thời gian dự đốn Bố cục luận án Bố cục luận án gồm có năm chương phần kết luận Cụ thể, chương đầu tiên, nghiên cứu sinh trình bày tổng quan vấn đề cần nghiên cứu Ở chương tiếp theo, nghiên cứu sinh đưa khái niệm liệu trình bày phương pháp thiết kế sở liệu để dự đoán truy cập Web Trong Chương 3, nghiên cứu sinh trình bày giải pháp nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web Tiếp theo, Chương 4, nghiên cứu sinh đề xuất giải pháp nâng cao hiệu độ xác khai phá liệu cho dự đốn truy cập Web Bên cạnh đó, Chương 5, nghiên cứu sinh trình bày giải pháp tích hợp nâng cao độ xác nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TUẦN TỰ CHO DỰ ĐOÁN TRUY CẬP WEB 1.1 Giới thiệu Để dự đoán truy cập Web, nhiều nghiên cứu sử dụng tiếp cận dựa máy học Chẳng hạn, số cơng trình khoa học dùng phương pháp Association Rules, Sequential Pattern, Sequential Rules, Markov phương pháp lai Độ xác dự đốn xác định cơng thức: Accuracy = |successes| / |sequences| Trong Accuracy: Độ xác dự đoán (1.1) |successes|: Số lượng chuỗi dự đốn thành cơng |sequences|: Số lượng chuỗi dự đốn 1.2 Khái niệm dự đoán hành vi truy cập Web Định nghĩa 1.1 Gọi U = {IP1, IP2, …, IPk} tập hợp người dùng truy cập Web với IPi địa IP người dùng truy cập thứ i (1≤ 𝑖 ≤ 𝑘) k số lượng địa IP Cho tập hợp phần tử hữu hạn (ký hiệu) I = {i1, i2, , im}, chuỗi Seq danh sách có thứ tự Seq = 〈𝑝1 , 𝑝2 , … 𝑝𝑛 〉, px ∈ I (1 ≤ x ≤ n) Gọi S = 〈𝑝1 , 𝑝2 , … 𝑝𝑞 〉, S ∈ Seq chuỗi trang Web truy cập người dùng có địa IPi với IPi ∈ U q số lượng trang Web truy cập Nhật ký truy cập Web L = [l1, l2, …, lv] dãy dòng nhật ký lj (1≤ 𝑗 ≤ 𝑣) với v số dòng nhật ký lj = (IPi, pi, ti) dòng nhật ký thứ j ghi nhận người dùng có địa IPi ∈ U, truy cập vào trang Web pi ∈ S vào thời điểm ti Định nghĩa 1.2 Cơ sở liệu truy cập Web SD = {s1, s2, …, sN} tập hợp chuỗi sm ∈ 𝑆 (1≤ 𝑚 ≤ 𝑁) với N số lượng chuỗi liệu sở liệu Chẳng hạn, Bảng 1.1 trình bày sở liệu truy cập Web chứa chuỗi truy cập người dùng có địa IP khác Trong đó, chuỗi truy cập Web thứ có trang Web p1, p2, p4, p6, p3 p5 truy cập người dùng có địa IP1 theo thứ tự thời gian Tương tự, chuỗi truy cập Web thứ hai thể người dùng có địa IP2 truy cập vào trang Web p4, p3, p5, p6, p2 Bảng 1.1 Một ví dụ sở liệu truy cập Web Địa IP Chuỗi truy cập Web IP1 s1 〈𝑝1 , 𝑝2 , 𝑝4 , 𝑝6 , 𝑝3 , 𝑝5 〉 IP2 s2 〈𝑝4 , 𝑝3 , 𝑝5 , 𝑝6 , 𝑝2 〉 IP3 s3 〈𝑝1 , 𝑝2 , 𝑝4 , 𝑝9 , 𝑝3 , 𝑝7 , 𝑝10 〉 IP4 s4 〈𝑝6 , 𝑝1 , 𝑝4 , 𝑝8 , 𝑝3 , 𝑝5 〉 IP5 s5 〈𝑝4 , 𝑝2 , 𝑝8 , 𝑝6 , 𝑝3 , 𝑝5 〉 Định nghĩa 1.3 Cho chuỗi trang Web cần dự đoán trang Web truy cập Squery = 〈𝑝𝑎𝑔𝑒1 , 𝑝𝑎𝑔𝑒2 , … 𝑝𝑎𝑔𝑒𝑚 〉, Squery ∈ Seq pagei trang Web truy cập thứ i (1≤ 𝑖 ≤ 𝑚) m số lượng trang Web chuỗi Squery (m gọi chiều dài chuỗi Squery) Dự đoán hành vi truy cập Web dự đoán trang Web truy cập pnext Squery sở liệu truy cập Web SD cách sử dụng phương pháp dự đoán chuỗi truy cập Web, chẳng hạn phương pháp dự đoán chuỗi liệu việc dự đoán hành vi truy cập Web đặc tả công thức sau: Pnext = F (Squery, SD) (1.2) Trong đó: Pnext trang Web dự đoán F hàm xử lý dự đoán Squery chuỗi trang Web cần dự đoán SD sở liệu truy cập Web Trong số nghiên cứu trước F dùng độc lập hay kết hợp nhiều nhiều pháp như: Luật kết hợp, Clustering, Compact Prediction Tree (CPT), Compact Prediction Tree Plus (CPT+) 1.3 Các phương pháp phổ biến Theo F Khalil đồng sự, phương pháp phổ biến để dự đoán truy cập Web khai phá luật kết hợp (Association Rules), gom cụm (Clustering) mơ hình xác suất Markov * Ưu điểm, hạn chế khuyến nghị: Các tiêu chí đánh giá Độ xác dự đốn: Mức độ phù hợp trang Web tìm thấy so với thực tế Để độ xác dự đốn tốt u cầu khơng bị thơng tin không bỏ qua ứng viên tiềm năng, hay trường hợp giải loại bỏ thông tin không cần thiết Độ phức tạp thời gian thực thi dự đoán: Giải vấn đề xử lý dự đoán tập liệu lớn, khơng gian dự đốn lớn với độ phức tạp thời gian nhỏ, đảm bảo thời gian thực thi nhanh Ưu điểm: Ý tưởng phương pháp gom cụm (Clustering) để cải thiện hiệu tính linh hoạt cơng việc có tính chất cá nhân Các phiên truy cập Web nhận thông qua việc gom cụm trang hay người dùng Các mơ hình Markov thường dùng để nhận biết trang Web mà truy cập người dùng Web dựa chuỗi trang Web truy cập trước Các nghiên cứu dựa vào luật kết hợp (Association rule) khám phá luật kết hợp kết liệu nhật ký truy cập người dùng để tìm nhóm trang Web mà truy cập Sự tích hợp tiếp cận khác giảm hạn chế phương pháp cho làm tăng hiệu truy cập Web, đặc biệt phương diện độ xác Nhiều nghiên cứu tận dụng mạnh khai phá liệu lịch sử truy cập người dùng dự đoán truy cập Web Đây chủ đề quan trọng khai liệu nhiều nhà nghiên cứu quan tâm Hạn chế: Các phương pháp khai phá Association Rules tốn chi phí thời gian xử lý mẫu có số lượng lớn dài xây dựng mơ hình khơng hỗ trợ dự đốn nên q trình dự đốn, thơng tin bị hao hụt làm giảm độ xác dự đốn truy cập Web Phương pháp phân nhóm phương pháp dự đốn làm thơng tin xây dựng mơ hình khơng hỗ trợ dự đoán [46] Phương pháp quan tâm đến thời gian truy cập liên kết quan trọng, khó xác định người truy cập có thực xem liên kết hay khơng hay làm việc khác khơng liên quan Các khuyến nghị: Tìm hiểu phương pháp dự đoán truy cập Web tốt để nâng cao độ xác cải thiện hiệu thời gian Nghiên cứu kết hợp nhiều phương pháp để làm tăng hiệu dự đốn Xem xét thơng tin mối liên hệ truy cập Web cần xem xét thứ tự thời gian truy cập, tầm ảnh hưởng, độ quan trọng liên kết Website 1.4 Phương pháp dự đoán chuỗi liệu Cho tập hợp chuỗi huấn luyện, vấn đề dự đoán chuỗi tìm thành phần chuỗi cho trước cách quan sát thành phần trước 1.4.1 Phương pháp dự đốn (Compact Prediction Tree - CPT) Q trình huấn luyện CPT nhập vào tập chuỗi huấn luyện tạo ba cấu trúc phân biệt: (1) Prediction Tree (PT), (2) Lookup Table (LT) (3) Inverted Index Trong suốt trình huấn luyện, chuỗi xem xét chuỗi để xây dựng dần ba cấu trúc Ưu điểm: Mơ hình dự đốn chuỗi dự liệu CPT có ưu độ xác so với tiếp cận khác khai phá luật kết hợp, khai phá luật liên tiếp, mơ hình phát triển theo Markov Hạn chế: CPT có thời gian thực thi cịn chậm số giải thuật dự đốn chuỗi khác Do cần tiếp cận cải tiến để giải hạn chế Phần mô tả chi tiết cải tiến CPT 1.4.2 Phương pháp dự đoán cải tiến (Compact Prediction Tree plus - CPT+) CPT+ biến thể cải tiến từ giải thuật CPT Đây mơ hình dự đốn dùng giải pháp nén chuỗi không làm mát thông tin cách khai thác độ tương tự chuỗi Độ xác CPT cao nhiều so với mơ hình PPM, DG, AKOM tập liệu thực khác thời gian dự đốn cịn chậm mơ hình Một chiến lược hiệu để làm giảm thời gian dự đốn truy xuất thơng tin dự đốn để tăng tốc độ dự đốn chọn lọc thơng tin cẩn thận để tránh làm giảm độ xác Để giải vấn đề này, giải thuật cải tiến xây dựng CPT+ Chi tiết mơ hình CPT+ cải tiến từ CPT theo ba chiến lược: Frequent Subsequence Compression (FSC), Simple Branches Compression (SBC), Prediction with improved Noise Reduction (PNR) 1.4.3 Ưu điểm hạn chế phương pháp dự đoán cải tiến (CPT+) Ưu điểm: Mơ hình dự đốn chuỗi dự liệu CPT+ có ưu độ xác thời gian so với tiếp cận khác khai phá luật kết hợp, khai phá luật liên tiếp, mơ hình phát triển theo Markov, CPT Hạn chế: Để dự đoán truy cập Web, tương tự mơ hình dự đốn chuỗi khác, phương pháp dự đoán cải tiến (CPT+) cần giải vấn đề về: Thời gian thực thi dự đốn cịn chậm khơng gian dự đốn lớn [46, 47] Vì cần đề xuất giải pháp để làm tăng tốc độ thời gian dự đoán mà độ xác bảo tồn Nâng cao độ xác cho dự đốn: Xem xét mối quan hệ, tương tác trang với để đưa giải pháp để nâng cao hiệu xác cho dự đốn truy cập Web 1.4.4 Tổng hợp so sánh phương pháp dự đoán chuỗi liệu Trên tập liệu BMS, phương pháp CPT+ có độ xác vượt trội phương pháp phổ biến thường dùng để dự đoán chuỗi khác CPT, DG, PPM AKOM Mặc dù có nhiều ưu điểm so với tiếp cận phổ biến dự đoán chuỗi liệu tuần tự, phương pháp CPT+ số hạn chế sau: (1) Thời gian xử lý chậm sở liệu chứa nhiều chuỗi có số phần tử truy cập lớn kích cỡ sở liệu lớn ảnh hưởng đến thời gian thực thi dự đoán; (2) Chưa xử lý triệt để liệu dư thừa độ xác cịn bị ảnh hưởng 1.5 Đề xuất mơ hình dự đoán hành vi truy cập Web Luận án đề xuất dự đoán truy cập Web cách kết hợp giải pháp: Xây dựng sở liệu cho dự đoán truy cập Web, nâng cao độ xác cho dự đốn truy cập Web (Chương 3) nâng cao hiệu thời gian cho dự đoán truy cập Web (Chương 4) Mơ hình thể cách trực quan theo Hình 1.1 Hình 1.1 Mơ hình khai phá liệu cho dự đốn truy cập Web kết hợp nâng cao độ xác nâng cao hiệu thời gian Diễn giải mơ hình : Bước 1: Xây dựng sở liệu truy cập Web (Chi tiết trình bày Chương 2) SDB = f0 (L) (1.11) Trong đó: Cơ sở liệu SDB sở liệu xây dựng theo hàm xử lý f0 Bước 2: Nâng cao hiệu độ xác khai phá liệu cho dự đốn truy cập Web (Chi tiết trình bày Chương 3) SDB1 = g1 (SDB) (1.12) Cơ sở liệu SD1 sở liệu SD thu gọn giải pháp loại bỏ chuỗi dư thừa cách dùng hàm xử lý g1, cụ thể giải thuật Page Rank 27 Thay sử dụng giải pháp dự đốn chuỗi CPT+, khơng gian dự đốn làm giảm kích thước cách loại bỏ chuỗi trình tự dư thừa mà khơng làm độ xác dự đoán 4.3 So sánh thời gian thực thi tiếp cận dự đoán liệu Phương pháp CPT cho dự đoán chuỗi liệu hiệu phương pháp khác, cụ thể trình bày 4.3.1 Các liệu dùng để so sánh thời gian thực thi dự đoán Các tập liệu cho sử dụng bao gồm BMS, FIFA, SIGN, KOSARAK, BIBLE Trong tập liệu nêu có tập liệu thu thập từ truy cập Web BMS, FIFA KOSARAK 4.3.2 So sánh thời gian tiếp cận dự đoán liệu Trong phần nghiên cứu này, CPT so sánh với tiếp cận dự đoán liệu phổ biến khác DG [81], PPM [23], AKOM [90] Về thời gian huấn luyện (training time), kết nghiên cứu cho thấy với liệu truy cập Web BMS, FIFA, thời gian thực thi CPT chậm PPM Về thời gian dự đoán, liệu BMS KOSARAK, CPT thực thi chậm nhất; liệu FIFA, CPT nhanh gần gấp lần so với DG chậm so với PPM AKOM; liệu KOSARAK Như vậy, CPT thực thi chậm so với tiếp cận dự đoán liệu khác Tuy nhiên, Độ xác CPT vượt trội so với tiếp cận minh họa Bảng 1.3 Hơn nữa, tiếp cận cải tiến CPT CPT+ [46] cho thấy mạnh vượt trội thời gian thực thi (nhanh gần lần) độ xác (5%) so với tiếp cận CPT, xem chi tiết Bảng 3.3 Bên cạnh đó, so với tiếp cận phổ biến dự đoán chuỗi liệu khác, CPT+ cho thấy độ xác cao so với tiếp cận CPT [48], All-K-Order-Markov(AKOM) [90], Dependancy Graph (DG) [81] , LZ78 [118], PPM [23], Transition Directed Acyclic Graph(TDAG Đặc biệt, kết thực nghiệm [46] liệu truy cập Web BMS, FIFA, KOSARAK cho thấy philippe-fournier-viger.com/spmf/index.php?link=datasets.php 28 CPT+ giải pháp tốt Mặc dù vậy, trường hợp riêng lẻ, cụ thể liệu MSNBC (một truy cập Web thu thập từ kho khai phá liệu UCI https://archive.ics.uci.edu/ml) độ xác CPT+ so với tiếp cận CPT Tuy nhiên, kích cỡ liệu MSNBC xấp xỉ 50% so với FIFA khoảng 30% so với KOSARAK Ngoài ra, FIFA KOSARAK hai liệu tin cậy sử dụng phổ biến so vớ MSNBC Từ phân tích cho thấy CPT+ tiếp cận phù hợp thời điểm Tuy nhiên việc tiếp tục nâng cao hiệu thời gian tiếp cận CPT+ cần thiết thời gian chậm dần tăng dần kích cỡ khơng gian dự đốn (chẳng hạn tăng kích sở liệu tuần tự) Phần trình bày đề xuất chi tiết giải pháp để nâng cao hiệu dự đoán truy cập Web 4.4 Giải pháp nâng cao hiệu thời gian cho dự đoán truy cập Web với CPT+ 4.4.1 Phương pháp thực Nghiên cứu sinh phát triển [CT2] để làm giảm kích cỡ sở liệu ban đầu nhằm làm tăng hiệu thời gian xử lý cho dự đoán truy cập Web Chi tiết giải pháp đề xuất thực sau: Dữ liệu nhập: Chuỗi cần dự đoán S_query Cơ sở liệu SDB Xử lý: Khởi tạo thời gian thực việc xử lý Gọi thời gian khởi tạo T1 Bước 1: Xét tất chuỗi S thuộc SDB, tiến hành loại bỏ chuỗi S mà khơng chứa phần tử thuộc S_query Gọi sở liệu thu SDB1 kích cỡ tương ứng SDB1_size Bước 2: Tiếp tục thực SDB1: Loại bỏ chuỗi có chứa chuỗi S_query nằm vị trí tận chuỗi SDB1 chuỗi 29 khơng có ý nghĩa để dự đoán phần tử Gọi sở liệu thu sau thực bước SDB2 kích cỡ tương ứng SDB2_size Bước 3: Áp dụng giải thuật CPT+ để dự đoán truy cập Web sở liệu SD2 Ghi nhận thời gian thực hai bước (T1) Tính độ đo Acc1 [47] Kết thu được: Kích cỡ sở liệu SD2_size Độ đo Accuracy: Acc1 Thời gian thực thi: T1 Với tiếp cận truyền thống, sử dụng CPT+ cho dự đoán truy cập Web, Bước không thực Kết thu sau: Kích cỡ sở liệu SD_size Độ đo Accuracy: Acc Thời gian thực thi: T Vấn đề đặt : + Thời gian thực thi T1 có nhanh Thời gian thực thi T đáng kể hay khơng? + Độ xác Acc1 có tương đương hay cao độ xác Acc? 4.4.2 Giải thuật nâng cao hiệu thời gian dự đoán truy cập Web Mô tả giải thuật nâng cao hiệu thời gian truy cập Web: Dữ liệu nhập vào: + arr_sequence: Mảng chứa chuỗi sở liệu + arr_query: Mảng chứa phần tử chuỗi liệu cần dự đoán phần tử Dữ liệu thu được: Cơ sở liệu thu gọn Chi tiết mã giả (Pseudo Code) Bước sau: //Tìm chuỗi có chứa chuỗi cần dự đốn phần tử Cấp phát mảng chuỗi seq có n phần tử k := //k: số lượng các phần tử chuỗi liệu cần dự đoán str_contain_query = " " // str_contain_query chuỗi chứa chuỗi cần dự đoán 30 For i = to (k-1) If (arr_sequence[i] có chứa phần tử thuộc query) Then Begin If (query ⊆ arr_contain_query[i] and it is not at the last position of ⊈ 10 arr_contain_query[i] Or (query ⊆ arr_contain_query[i] and it is at the 11 last position of arr_contain_query[i] And Card{query ⊆ 12 arr_contain_query[i]} > 1)) Then 13 Begin SD_OK + = arr_contain_query[i] // Chuỗi hợp lệ chọn 14 15 End 16 End 4.4.4 Độ đo đánh giá Độ xác dự đốn xác định cơng thức (1.1) Nghiên cứu sinh sử dụng thư viện SPMF [35] để kiểm chứng độ xác sở liệu thu gọn (có tích hợp giải pháp phân tích chuỗi) so với sở liệu gốc Chi tiết trình bày phần 4.4 4.5 Các kết thử nghiệm nâng cao hiệu thời gian thực thi dự đốn truy cập Web Phần trình bày kết thử nghiệm nâng cao hiệu thời gian dự đoán truy cập Web tập liệu Click-stream tập liệu Weblog phương pháp phân tích chuỗi dự đốn trình bày phần 4.4 4.5.1 Dữ liệu Đối tập liệu click-stream, sở liệu sử dụng thử nghiệm: FIFA 8, KOSARAK 10, BMS 10 Bảng 4.1 Các tập liệu click-stream thử nghiệm Tập liệu Số lượng chuỗi FIFA 20540 KORARAK 69999 https://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php , truy cập ngày 12/12/2018 31 BMS 77512 Đối với tập liệu thu thập từ Weblog, sở liệu sử dụng thử nghiệm: palmviewsanibel , inees 10 Bảng 4.2 Các tập liệu Weblog thử nghiệm Tập liệu Số lượng chuỗi palmviewsanibel 4967 (được chuẩn hóa từ 5282543 mẫu tin Weblog) inees 995 (được chuẩn hóa từ 1522983 mẫu tin Weblog) 4.5.2 Kết thử nghiệm 4.5.2.1 Kết thử nghiệm tập liệu FIFA Kiểm định thời gian thực thi dự đoán, độ đo Accuracy sử dụng phương pháp kiểm định Paired T-Test với chuỗi dự đoán phụ lục với độ tin cậy 99% tập liệu FIFA Kết cho thấy thời gian giải pháp cải tiến chạy nhanh 30 lần 4.5.2.2 Kết thử nghiệm tập liệu KOSARAK Kiểm định thời gian thực thi dự đoán, độ đo Accuracy sử dụng phương pháp kiểm định Paired T-Test với chuỗi dự đoán Phụ lục với độ tin cậy 99% tập liệu KOSARAK Kết cho thấy thời gian giải pháp cải tiến chạy nhanh 30 lần 4.5.2.3 Kết thử nghiệm tập liệu BMS Kiểm định thời gian thực thi dự đoán, độ đo Accuracy sử dụng phương pháp kiểm định Paired T-Test với chuỗi dự đoán với độ tin cậy 99% tập liệu BMS Kết thử nghiệm cho thấy thời gian giải pháp cải tiến chạy nhanh 100 lần 4.5.2.4 Kết thử nghiệm tập liệu pamviewsanibel Kiểm định thời gian thực thi dự đoán, độ đo Accuracy sử dụng phương pháp kiểm định Paired T-Test với chuỗi dự đoán Phụ lục với độ tin cậy 99% tập liệu palmviewsanible Kết thử nghiệm cho thấy thời gian giải pháp cải tiến chạy nhanh khoảng 2.7 lần Truy cập www.palviewnasibel.com ngày 29/9/2019 10 Truy cập www.inees.org ngày 25/8/2017 32 4.5.2.5 Kết thử nghiệm tập liệu inees Kiểm định thời gian thực thi dự đoán, độ đo Accuracy sử dụng phương pháp kiểm định Paired T-Test với chuỗi dự đoán với độ tin cậy 99% tập liệu inees Kết thử nghiệm cho thấy thời gian giải pháp cải tiến chạy nhanh gần lần Như vậy, giải pháp tích hợp phân tích chuỗi liệu dự đốn vào CPT+ hiệu thời gian thực thi so với phương pháp dự đốn dùng CPT+ (khơng tích hợp phân tích chuỗi dự đốn) Các kết thực nghiệm dự đoán liệu tập liệu click-stream cho thấy hiệu thời gian so với tập liệu thu thập từ Web log 4.6 Kết luận chương Chương trình bày đề xuất giải pháp để nâng cao hiệu thời gian thực thi dự đoán Cụ thể dự đoán liên kết truy cập chuỗi liên kết truy cập Nghiên cứu sinh thử nghiệm giải pháp dự đoán chuỗi cải tiến cách tích hợp phương pháp phân tích chuỗi dự đốn với phương pháp CPT+: Bằng cách thức này, chuỗi dư thừa, khơng có ý nghĩa cho dự đoán bị loại bỏ, điều làm giảm kích cỡ khơng gian dự đốn sở liệu tuần để dự đoán hiệu Nghiên cứu sinh thử nghiệm tập liệu click-stream khác nhau, tập liệu thu thập từ Weblog thu kết hiệu thời gian tập liệu click-stream tốt so với tập liệu Weblog dùng phương pháp phân tích chuỗi dự đốn Bên cạnh đó, hai cơng trình liên quan đến luận án xuất [CT1, CT4] 33 CHƯƠNG TÍCH HỢP NÂNG CAO ĐỘ CHÍNH XÁC VÀ NÂNG CAO HIỆU QUẢ VỀ THỜI GIAN KHAI PHÁ DỮ LIỆU TUẦN TỰ CHO DỰ ĐOÁN TRUY CẬP WEB 5.1 Giới thiệu Giải pháp đề xuất Chương trình bày theo giai đoạn sau: (1) Giai đoạn 1: Dùng phương pháp K-Fold Crosss Validation để chia tập liệu quan sát thành 10 phần liệu xấp xỉ (K = 10) Trong phần chia thành nhóm nhỏ với liệu ngẫu nhiên Nhóm thứ gồm có 90% liệu để thực việc huấn luyện, 10% dùng để kiểm thử dự đoán (2) Giai đoạn 2: Với phần liệu, nhóm liệu huấn luyện tương ứng áp dụng giải pháp nâng cao độ xác khai phá liệu cho dự đoán truy cập Web: Cụ thể giảm kích cỡ kiểm tra độ xác dự đoán sở liệu thu gọn (3) Giai đoạn 3: Áp dụng giải pháp nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web cho dự đoán truy cập Web cho sở liệu thu gọn Giai đoạn 5.2 Tích hợp phương pháp K-Fold Cross Validation cho giải pháp nâng cao độ xác khai phá liệu cho dự đoán truy cập Web 5.2.1 Phương pháp K-Fold Cross Validation Phương pháp K-Fold Cross Validation [66] chia tập hợp quan sát thành K nhóm, xấp xỉ với kích thước [58] K thường chọn 10 K trở nên lớn hơn, khác biệt kích thước tập huấn luyện tập lấy mẫu lại nhỏ hơn, khác biệt giảm, độ lệch kỹ thuật thấp [67] Dữ liệu huấn luyện kiểm thử K lần, lần t {1, 2, , k}, huấn luyện tập D\Dt kiểm thử Dt (D tập liệu gốc Dt tập liệu kiểm thử) [66] Ước lượng độ 34 xác cross-validation tổng cộng số phân loại chia cho số thực thể tập liệu gốc Mục đích K-Fold Cross Validation chủ yếu sử dụng Machine Learning để ước tính khả mơ hình học máy liệu khơng nhìn thấy 5.2.2 Xây dựng tập liệu huấn luyện nâng cao độ xác 5.2.2.1 Mục tiêu Việc thực kiểm tra chéo phương pháp K-Fold Check Validation nhằm để tạo 10 sở liệu cách ngẫu nhiên từ sở liệu gốc Thực điều giúp khai phá liệu khách quan mang tính tin cậy 5.2.2.2 Dữ liệu Bộ liệu chọn Kosarak, sở liệu lớn giới thiệu chương trước Kích cỡ sở liệu sử dụng Chương 100,000 chuỗi liệu 11 5.2.2.3 Phương pháp Việc xây dựng tập huấn luyện kiểm thử dự đoán thực 10 lần: Lần thực thứ nhất: Thực đảo ngẫu nhiên chuỗi sở liệu Kosarak (100,000 dịng) Sau đó, sở liệu tạo chia thành tập con: 90% kích cỡ liệu sở liệu Kosarak thu sở liệu huấn luyện D_Training_1 (90,000 dòng), 10% liệu lại sở liệu Kosarak tập liệu kiểm thử dự đốn, kí hiệu D_Testing_1 (10,000 dòng) Lần thực thứ hai: Thu sở liệu huấn luyện D_Training_2 D_Testing_2 Sau 10 lần thực hiện, cặp liệu thu (D_Training_1, D_Testing_1), (D_Training_2, D_Testing_2), …, (D_Training_10, D_Testing_10) Hình 5.2 minh họa trình thực để xây dựng tập liệu huấn luyện tập liệu kiểm thử dự đoán 5.2.2.4 Kết thực nghiệm phân tích Sau tạo 10 liệu theo phương pháp trên, nghiên cứu sinh tiến hành lấy 10 tập huấn luyện (có kích cỡ 90,000 dịng) 10 liệu để thực giải 35 pháp rút gọn chuỗi liệu thừa giải thuật PageRank đề xuất Chương 3, sở liệu với độ xác tương ứng tạo minh họa Bảng 5.1 Trong Ri độ xác sở liệu thu gọn lần thực KFold Check Validation thứ i Theo Bảng 5.1, giá trị 100, 98, 96 58, 56 kích cỡ (tính theo phần trăm) sở liệu thu gọn so với sở liệu huấn luyện Kết thực nghiệm cho thấy áp dụng giải pháp PageRank để giảm dần kích cỡ tập liệu huấn luyện từ 2%, 4%, 6%, 34% (ứng với tập liệu thu gọn 98%, 96%, 94%, 66%), độ xác (được tính theo cơng thức (1.1)) độ xác sở liệu huấn luyện ban đầu Quá trình xây dựng sở liệu huấn luyện thu gọn thực thời gian xỉ 18 ngày (440 giờ) liệu lớn (100,000 dịng) số lượng nút đồ thị có hướng (mơ tả Chương 3) không nhỏ (23,496 nút) Theo kết thử nghiệm, độ xác dự đốn trung bình sở liệu huấn luyện ban đầu (có kích cỡ 90,000) 99.936%, loại bỏ chuỗi liệu thừa để sở liệu thu gọn đạt đến kích cỡ 66% (59,400 dịng) độ xác dự đốn trung bình 100% (tăng 0.0621%) Hình 5.3 minh họa biểu đồ so sánh trung bình độ xác dự đốn tập liệu thu gọn kích cỡ mà khơng tính xác dự đốn giải pháp PageRank (Chương 3) Nhận xét rằng, giảm kích cỡ cịn 66%, độ xác đạt đỉnh 100% bắt đầu q trình suy thối độ xác kích cỡ 62% trở xuống Từ kết thực nghiệm trên, ta có sở để khẳng định sử dụng tập liệu huấn luyện thu gọn có kích cỡ 66 % (59,400) để tiếp tục cho giai đoạn tiếp giai đoạn kiểm thử (dự đoán) khả thi So sánh mơ hình dự đốn truy cập Web cách tích hợp PageRank: Kết thực nghiệm trình chi tiết Bảng 5.2 Hình 5.4 cho thấy giải pháp tích hợp PageRank với CPT+ DG phù hợp với độ xác dự đoán truy cập Web xấp xỉ đạt 100% CPT+ 80% DG Ngược lại giải pháp tích 11 Trích từ http://fimi.uantwerpen.be/data/kosarak.dat ngày 02/06/2020 36 hợp PageRank với CPT (một phiên cũ CPT+) khơng phù hợp độ xác dự đốn truy cập Web chưa đạt đến 50% Hình 5.1 Biểu đồ so sánh độ xác dự đốn truy cập web mơ hình giải pháp tích hợp với PageRank Bên cạnh đó, Hình 5.1 cho thấy tích hợp PageRank với CPT+ hiệu tất phương pháp lại (DG, Markov1, AKOM, LZ78, CPT) Do giải pháp tích hợp PageRank với CPT+ giải pháp hiệu cho dự đoán truy cập Web 5.2.3 Kết hợp giải pháp nâng cao độ xác hiệu thời gian khai phá liệu cho dự đoán truy cập Web 5.2.3.1 Mục đích Chứng minh thử nghiệm giải pháp tích hợp tính tốn PageRank, phân tích chuỗi liệu tuần tự, CPT+ đạt hiệu thời gian dự đốn mà khơng làm độ xác dự đốn 5.2.3.2 Dữ liệu: Dữ liệu khai phá 10 sở liệu thu gọn có kích cỡ 66% so với sở liệu huấn luyện gốc xây dựng phần Mỗi sở 37 liệu có số dịng 54,900 có độ xác dự đốn 100% (điều chứng minh qua thử nghiệm phần trên) 5.2.3.3 Phương pháp Nghiên cứu sinh tiến hành kiểm thử cách dự đoán chuỗi thuộc tập dự đoán (10% so với sở liệu huấn luyện gốc) loại liệu huấn luyện khác nhau: Bộ liệu thứ : 10 sở liệu huấn luyện (90,000 dòng); Bộ liệu thứ hai: 10 sở liệu huấn luyện thu gọn kỹ thuật PageRank (54,900 dịng) Trình tự thực (10 lần tập sở liệu huấn luyện khác nhau): Nhập vào chuỗi sở liệu huấn luyện (90,000 dịng) áp dụng CPT+ để dự đốn ghi nhận thời gian t90 (tính milliseconds) độ xác Acc90 sở liệu huấn luyện Tiếp tục thực dự đoán chuỗi sở liệu thu gọn (54,000 dòng) cách áp dụng CPT+ kỹ thuật phân tích chuỗi (Chương 4) để thu sở liệu nhỏ nhỏ nhiều so với sở liệu nhập vào ghi nhận thời gian t66tiny (tính milliseconds) độ xác Acc66tiny sở liệu thu gọn So sánh t90 t66tiny để đưa kết luận độ hiệu thời gian dự đoán so sánh Acc90 Acc66tiny đưa kết luận việc thực dự đốn vật có tính xác hay khơng 5.2.3.4 Các độ đo đánh giá Độ đo đánh giá độ xác: Áp dụng cơng thức (1.1) cho Acc90 Acc66tiny Nếu Acc66tiny ≥ Acc90 : Dự đoán hiệu quả, ngược lại dự đốn khơng hiệu Độ đo đánh giá thời gian: Độ đo đánh giá thời gian: Nếu t66tiny nhỏ nhiều so với t90 : Dự đoán hiệu thời gian, ngược lại dự đốn khơng hiệu thời gian 5.2.3.5 Kết thực nghiệm phân tích Nghiên cứu sinh tiến hành thực dự đoán 200 chuỗi liệu, Bảng 5.2 minh họa 10 chuỗi cần dự đốn với thơng tin thời gian thực dự đoán t90, thời gian thực dự đốn t66tiny kích cỡ sở liệu thu gọn nhờ vào kỹ thuật 38 phân tích chuỗi mà trỉnh bày chi tiết Chương Kết thử nghiệm thu hình dự đốn dùng phương pháp CPT+ có chậm so với giải pháp tích hợp PageRank, CPT+ phân tích chuỗi xấp xỉ 80 lần Thử nghiệm cho thấy Acc66tiny trội Acc90 cho dù không đáng kể (xấp xỉ 0.0621%) 5.3 Kết luận Chương Chương trình bày đề xuất giải pháp tổng hợp: Vừa nâng cao độ xác, vừa nâng cao hiệu thời gian khai phá liệu cho dự đoán truy cập Web Kết thực nghiệm tập liệu Kosarak (tập liệu lớn nghiên cứu luận án) cho thấy kết hợp giải pháp Chương giải pháp Chương tăng độ xác trung bình lên 0.0621% thời gian thực thi dự đốn trung bình hiệu phương pháp truyền thống (chỉ áp dụng CPT+) lên đến 80 lần Giải pháp có cơng trình liên quan báo [CT9], [CT10] KẾT LUẬN Đóng góp luận án Luận án trình bày giải pháp cho dự đoán truy cập Web: (1) Giải pháp thiết kế chuẩn hóa sở liệu cho dự đoán truy cập Web; (2) Giải pháp nâng cao độ xác cho dự đốn truy cập Web; (3) Giải pháp nâng cao hiệu thời gian cho dự đoán truy cập Web; (4) Giải pháp tích hợp nâng cao độ xác nâng cao hiệu thời gian cho dự đoán truy cập Web 2.5.1 Ưu điểm Qua trình thực luận án, nghiên cứu sinh học hỏi nhiều kiến thức liên quan đến xử lý liệu Web Log, mơ hình dự đốn truy cập Web, ưu điểm, hạn chế mơ hình này, đặc biệt mơ hình dự đốn chuỗi liệu dự đoán nén cải tiến (CPT+) Bên cạnh đó, kiến thức giải thuật PageRank hữu ích việc dự đốn truy cập Web dựa mối quan hệ liên kết Từ việc nghiên cứu tổng quan phương pháp, mơ hình cho dự đốn hành vi truy cập Web, nghiên cứu sinh đề xuất giải pháp khác để giải toán dự đoán truy cập Web chuẩn hóa xây dựng sở liệu tuần tự, cải tiến thời gian độ xác cho dự đốn truy cập Web với CPT+ 39 Bên cạnh đó, cơng trình nghiên cứu liên quan đến luận án thực đăng Hội thảo, Tạp chí chuyên ngành nước quốc tế Cụ thể là, có cơng trình thuộc Hội thảo nước ([CT1], [CT6]), cơng trình thuộc Tạp chí nước ([CT2]), cơng trình thuộc Hội thảo quốc tế ([CT5], [CT8]), cơng trình thuộc Tạp chí quốc tế ([CT3]-ESCI, [CT4], [CT7]-Scopus, [CT9], [CT10] (đã chấp nhận, chuẩn bị xuất bản)) 2.5.2 Hạn chế Như trình bày trên, thời gian thực thi dự đoán giải pháp đề xuất (Tích hợp giải thuật, giải thuật phân tích chuỗi dự đoán giài thuật CPT+) nhanh nhiều lần so với thời thực thi theo phương pháp thông thường (chỉ dùng giải thuật CPT+) Tuy nhiên, để tăng độ xác cho dự đốn, q trình tiền xử lý (cụ thể tính tốn PageRank trang, tính tốn PageRank cho chuỗi liệu tuần tự) để loại bỏ chuỗi liệu dư thừa, khơng có ý nghĩa cho dự đốn tốn nhiều thời gian trình huấn luyện 2.5.3 Hướng phát triển Kết luận án bước đầu q trình nghiên cứu nghiên cứu sinh, cịn nhiều vấn đề lý thuyết áp dụng thực tiễn cần phải hoàn thiện Trong tương lai, nghiên cứu sinh đặc biệt quan tâm đến việc nâng cao kỹ thuật tính tốn để có kết thực nghiệm tốt Sau số kế hoạch phát triển kết luận án tương lại: + Khai phá liệu truy cập Web tập liệu click-stream sở liệu lớn, Big Data để đánh giá hiệu giải pháp trình bày luận án + Nghiên cứu thêm giải pháp tối ưu để khai phá liệu cho dự đoán truy cập Web + Áp dụng kết nghiên cứu luận án để dự đoán truy cập Web người học hệ thống E-Learning phục vụ cho đào tạo trực tuyến Đặc biệt, nghiên cứu sinh đồng viết báo mơ hình dự báo xu hướng tăng giảm đồng tiền điện tử dựa kết nghiên cứu thực DANH MỤC CÁC CÔNG TRÌNH ĐÃ CƠNG BỐ CỦA NGHIÊN CỨU SINH CT1 Nguyễn Thôn Dã, Tân Hạnh (12/2017) Một Giải Pháp Nâng Cao Hiệu Quả Cho Dự Đoán Chuỗi Dữ Liệu Tuần Tự Hội thảo Quốc gia lần thứ XX Điện tử, Truyền thông 40 Công nghệ Thông tin (National Conference on Electronics, Communications and Information Technology – REV-ECIT), TP.HCM CT2 Nguyen Thon Da, Tan Hanh (Dec-2017) Improving Performance of Sequential Rule Mining With Parallel Computing Tạp chí Khoa học Cơng nghệ Thông tin Truyền thông (JSTIC), Số 02&03 Trang 86-86, ISSN: 2525-2224 CT3 Nguyen Thon Da, Tan Hanh, Pham Hoang Duy (Feb-2018) An Approach To Build Sequence Database From Web Log Data For Webpage Access Prediction International Journal of Computer Science and Network Security (IJCSNS), Vol 18 No pp 138-143, ISSN: 1738-7906 (ESCI) CT4 Nguyen Thon Da, Tan Hanh (Sep-2018), A novel approach based on sequence prediction for webpage access, International Journal of Engineering & Technology, (4) (2018) 2356-2359 (DOI: 10.14419/ijet.v7i4.13901) CT5 N T Da, T Hanh and P H Duy (2018), "A Survey of Webpage Access Prediction," 2018 International Conference on Advanced Technologies for Communications (ATC), Ho Chi Minh City, Vietnam, 2018, pp 315-320 doi: 10.1109/ATC.2018.8587490 (ATC 2018) CT6 Nguyễn Thôn Dã, Tân Hạnh, Hồ Trung Thành (12-2018), Dự đoán hành vi đặt hàng dựa mơ hình dự đốn chuỗi tuần tự, Hội thảo khoa học Hệ thống thông tin kinh doanh quản lý (ISBM18), NXB ĐHQG TPHCM, trang 260 - 274, ISBN 978-604-736504 CT7 Da, N T., Hanh, T., & Duy, P H (2019) Improving webpage access predictions based on sequence prediction and pagerank algorithm Interdisciplinary Journal of Information, Knowledge, and Management, Volume 14, p27-p44 https://doi.org/10.28945/4176 (Scopus, Q3) CT8 Da Nguyen Thon, Hanh Tan and Duy Pham Hoang (2019), Sequence Prediction In Temporal Networks, 15th International Conference on Multimedia Information Technology and Application, ISSN: 1975-4736 CT9 Nguyen Thon Da, Tan Hanh, Pham Hoang Duy (2020) Improving webpage access predictions based on sequence prediction and pagerank algorithm International Journal of 41 Recent Technology and Engineering (IJRTE), ISSN: 2277-3878, Volume-8 Issue-6, March 2020, p2327-p2335 CT10 Nguyen Thon Da, Tan Hanh (2020) Investigating the PageRank and sequence prediction based approaches for next page prediction International Journal of Electrical and Computer Engineering(IJECE), ISSN: 2088-8708 (Scopus, Q2) (Đã chấp nhận chuẩn bị xuất bản) Ý KIẾN CỦA NGƯỜI HƯỚNG DẪN NGƯỜI THỰC HIỆN (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) TS TÂN HẠNH NGUYỄN THÔN DÃ Ý KIẾN CỦA NGƯỜI HƯỚNG DẪN (Ký ghi rõ họ tên) TS PHẠM HOÀNG DUY ... Squery) Dự đoán hành vi truy cập Web dự đoán trang Web truy cập pnext Squery sở liệu truy cập Web SD cách sử dụng phương pháp dự đoán chuỗi truy cập Web, chẳng hạn phương pháp dự đoán chuỗi liệu vi? ??c... pháp tốt để nâng cao tính xác cho dự đốn hành vi truy cập Web (4) Tìm giải pháp tốt để giảm thời gian thực thi dự đoán hành vi truy cập Web Phạm vi nghiên cứu luận án khai phá liệu cho dự đoán. .. điều hành họ Linux) Ý nghĩa đóng góp Khai phá liệu cho dự đốn truy cập Web nghiên cứu quan trọng khai phá liệu Chẳng hạn dự đoán hành vi truy cập Web người học lớp học trực tuyến, hành vi truy cập