Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,36 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - QUÁCH ĐẶNG HOÀNG MỸ CẢI TIẾN THUẬT TOÁN CÂY PLWAP CHO KHAI THÁC CHUỖI DỮ LIỆU LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ Thông tin Mã số ngành : 60480201 TP HỒ CHÍ MINH, tháng 04 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - QUÁCH ĐẶNG HOÀNG MỸ CẢI TIẾN THUẬT TOÁN CÂY PLWAP CHO KHAI THÁC CHUỖI DỮ LIỆU LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ Thông tin Mã số ngành : 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THANH SANG TP HỒ CHÍ MINH, tháng 04 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 11 tháng 04 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chủ tịch Hội đồng GS TSKH Hoàng Văn Kiếm TS Võ Đình Bảy Phản biện TS Cao Tùng Anh Phản biện TS Lư Nhật Vinh Ủy viên TS Nguyễn Văn Mùi Chủ tịch Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 11 tháng 04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên:… … QUÁCH ĐẶNG HOÀNG MỸ .Giới tính: … Nam Ngày, tháng, năm sinh: 07/03/1989 Nơi sinh: Cà Mau… Chuyên ngành: .Công nghệ thông tin MSHV: …1341860012 I- Tên đề tài: CẢI TIẾN THUẬT TOÁN CÂY PLWAP TRONG KHAI THÁC CHUỖI DỮ LIỆU II- Nhiệm vụ nội dung: - Nghiên cứu kỹ thuật khai thác mẫu chuỗi liệu phổ biến truy cập dựa vào hành vi sử dụng web người dùng ghi web log - Nghiên cứu thuật toán khai thác PLWAP - Nghiên cứu mô hình xác suất, cụ thể mô hình Markov - Áp dụng mô hình xác suất Markov lên thuật toán khai thác PLWAP III- Ngày giao nhiệm vụ: 08-08-2014 IV- Ngày hoàn thành nhiệm vụ: 11-04-2015 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS NGUYỄN THỊ THANH SANG CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực luận văn (Ký ghi rõ họ tên) ii LỜI CÁM ƠN Lời cảm ơn chân thành xin gởi đến Ban Giám Hiệu, toàn thể cán nhân viên, giảng viên trường Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho học tập nghiên cứu suốt học trình cao học Chúng xin chân thành tri ân đến thầy cô trực tiếp động viên, hướng dẫn suốt học trình: PGS.TS Lê Hoài Bắc, PGS.TS Nguyễn Xuân Huy, TS Nguyễn An Khương, TS Nguyễn Chánh Thành, TS Nguyễn Thị Thanh Sang, TS Tân Hạnh, TS Nguyễn Đình Thuân, TS Lê Mạnh Hải, TS Nguyễn Tuấn Đăng, TS Lư Nhật Vinh, TS Võ Đình Bảy, TS Cao Tùng Anh, TS Nguyễn Văn Mùi, GS TSKH Hoàng Văn Kiếm Với lòng tri ân sâu sắc, muốn nói lời cảm ơn chân thành đến cô TS Nguyễn Thị Thanh Sang tận tụy nghiêm túc hướng dẫn trình thực nghiên cứu Chúng xin chân thành cảm ơn Ban lãnh đạo Phòng Quản Trị, Phòng Tổ Chức Hành Chính, Phòng Tài Chính, Trung Tâm Thư Viện đồng nghiệp trường HUTECH tạo điều kiện, cho phép, động viên giúp đỡ suốt học trình cao học thực nghiên cứu Cuối yếu tố quan trọng giúp hoàn thành nghiên cứu này, gia đình Chúng muốn nói lời tri ân chân thành đến cha mẹ, anh chị em động viên chia sẻ hoàn cảnh với suốt học trình Quách Đặng Hoàng Mỹ iii TÓM TẮT Hệ thống đề xuất web hệ thống đề xuất thông tin hữu ích qua việc khai thác sử dụng web từ thông tin lịch sử truy cập web người dùng lưu tập tin web log máy chủ Hiện nay, giới, nhiều website thương mại điện tử ứng dụng hệ thống vào website để đề xuất thông tin cho người dùng dựa lịch sử tương tác người người khác với hệ thống nhằm giảm thiểu thời gian trực tuyến người dùng, giúp người dùng định hướng tốt website Tuy nhiên, lượng thông tin đề xuất từ tập hợp chuỗi phổ biến lại nhiều, liệu web log tiền xử lý khai thác số thuật toán, điển hình thuật toán khai thác PLWAP Chính vậy, việc nghiên cứu cải thiện thuật toán khai thác PLWAP, cải tiến thời gian, độ xác dự đoán cao từ mẫu chuỗi phổ biến khai thác từ web log Từ đây, định chọn đề tài nghiên cứu “Cải tiến thuật toán PLWAP khai thác chuỗi liệu” Các yêu cầu cần thực đề tài nghiên cứu là: - Nghiên cứu thuật toán PLWAP khai thác chuỗi liệu - Nghiên cứu mô hình Markov - Nghiên cứu ứng dụng mô hình chuỗi Markov vào thuật toán PLWAP cho việc đề xuất web - Nhận xét, đánh giá thuật toán PLWAP trước sau áp dụng mô hình Markov vào, dựa vào kết thực nghiệm liệu cụ thể iv ABSTRACT The web recommendation system is a system proposed useful information through the use of web mining that the users web access history information file stored on the server's web log Nowadays, in the world, many website commercial have already applied this system into their website to proposed with information for user based on that user’s interactive history and the others with system to reduce user online time, help user has a good orientation on their website However, amount of information has recommended from set of frequent sequence that is so much, although data in web log that has preprocessed and mining by some algorithm, typically is mining PLWAP-tree algorithm Therefore, the research improves algorithm mining PLWAP-tree, improve about time, recommendation information object to predict has a height precision from frequent sequence pattern that is mining from web log Hence, I decided to choose a topic of research “Improve algorithm PLWAP-tree in mining data sequences” These request need in this research topic: - Research algorithm PLWAP-tree in mining data sequences - Research Markov model - Research and apply Markov model to algorithm PLWAP-tree in order to improve the performance of Web recommendation - Comment, evaluation for algorithm PLWAP-tree before and after applied Markov, based on result experimented on specific dataset v MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ CÁC CHỮ VIẾT TẮT vii DANH MỤC CÁC HÌNH viii DANH MỤC CÁC BẢNG x CHƯƠNG GIỚI THIỆU 1.1 Phát biểu vấn đề 1.2 Định hướng nghiên cứu 1.3 Tổng quan tình hình nghiên cứu 1.3.1 Tổng quan hệ thống đề xuất web 1.3.2 Tổng quan khai thác chuỗi liệu 1.3.3 Tổng quan lĩnh vực nghiên cứu 1.4 Tổ chức luận văn CHƯƠNG CÁC THUẬT TOÁN KHAI THÁC CHUỖI DỮ LIỆU 2.1 Tổng quan thuật toán khai thác chuỗi liệu 2.2 liệu Thuật toán khai thác WAP PLWAP khai thác chuỗi 17 2.2.1 Khai thác WAS từ web log 17 2.2.2 Thuật toán khai thác WAP 19 2.2.3 Thuật toán khai thác PLWAP 25 CHƯƠNG CẢI TIẾN THUẬT TOÁN KHAI THÁC CÂY PLWAP TRONG KHAI THÁC CHUỖI DỮ LIỆU 40 3.1 Mô hình Markov 40 3.2 Cải tiến thuật toán PLWAP khai thác chuỗi liệu 42 3.3 Luật đề xuất 48 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 50 4.1 Thực nghiệm 50 4.2 Đánh giá giải thuật PLWAP PLWAP–Markov 50 4.3 Kết thực nghiệm 54 vi CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 5.1 Kết luận 59 5.2 Hướng phát triển 60 TÀI LIỆU THAM KHẢO 61 49 Bảng 3.1 - Thuật toán sinh luật cho PLWAP-Markov Đầu vào: T: nút liên kết cặp trang ma trận truyền với ngưỡng hỗ trợ S= a1 a2 …an: chuỗi truy cập người dùng Đầu ra: RR: luật đề xuất cho S Quá trình: Bắt đầu RR=null Cho mục (1≤i≤n-1) S: Thiết lặp nút_hiện tới nút root T Nếu nút_hiện có nút có nhãn ai+1, thêm nút vào RR theo thứ tự xác suất, sau thiết lập nút_hiện tới nút Trả RR 50 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thực nghiệm Thí nghiệm với liệu Cezeife tạo từ liệu web log từ trường Computer Science, đại học Windsor NASA từ NASA Kennedy Space Center Địa tải hai liệu http://www.cs.uwindsor.ca/~cezeife http://ita.ee.lbl.gov/html/traces.html Các liệu tiền xử lý mã hóa thành số, sử dụng khai thác mẫu Bảng 4.1 - Thông tin liệu Cezeife NASA Bộ liệu Số lượng giao dịch Số lượng URLs thực tế Nguồn 1000 92 Trường Computer Science, đại học Cezeife Windsor NASA 4.2 26037 1446 NASA Kennedy Space Center Đánh giá giải thuật PLWAP PLWAP-Markov Để đánh giá giải thuật PLWAP trước sau cải tiến, độ xác hệ thống đề xuất đo precision, satisfation Vì vậy, sử dụng hai phương pháp để đánh giá hiệu suất hệ thống đề xuất dựa giải thuật PLWAP PLWAP-Markov - Đối với giải thuật PLWAP: Cho chuỗi test trang web truy cập web người dùng S = a1 a2 ak ak+1 an Xét chuỗi tiền tố Sprefix= a1 a2 ak (k>=MinLenght), ta tạo luật đề xuất 51 RR={e1, e2, , eM } dựa PLWAP, nơi mà kiện xếp theo độ hỗ trợ, sau xác định luật luật đúng, luật thỏa mãn, luật rỗng dựa theo điểu kiện sau: + Nếu ak+1 ∈ RR RR + Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) m-bước thỏa mãn (tức RR thỏa mãn), ngược lại m-bước không thỏa mãn R={RR1, RR2, RRN} luật đề xuất với RRi (1≤ i ≤ N) luật đề xuất R=|N| tổng số luật đề xuất R bao gồm tập rỗng Precision satisfation tính sau: Precision = | 𝑅𝑐 | |𝑅| [16] Trong đó, Rc tập R bao gồm tất luật đề xuất Satisfactory(m) = | 𝑅𝑠 | |𝑅| [16] Trong đó, Rs tập R bao gồm tất luật đề xuất thỏa mãn Bảng 4.2 - Thuật toán sinh luật cho PLWAP [16] Đầu vào: T: PLWAP S= a1 a2 …an: chuỗi truy cập người dùng MinLength: Chiều dài tối thiểu chuỗi truy cập MaxLength: Chiều dài tối đa chuỗi truy cập (thấp độ sâu PLWAP) Đầu ra: RR: luật đề xuất cho S Quá trình: 52 Bắt đầu RR=null Nếu |S| > MaxLength gỡ bỏ mục |S|-MaxLength+1 từ S Nếu |S| < MinLength trở RR, ngược lại thiết lập nút_hiện trỏ tới nút gốc R T Lặp mục từ đầu S đến cuối: a Nếu nút_hiện có nút có nhãn ai+1, thiết lập nút_hiện trỏ tới nút b Ngược lại, gỡ bỏ mục khỏi S, lặp lại bước Nếu nút_hiện có nút con, sau thêm nút vào RR theo thứ tự độ hỗ trợ chúng Trở RR Bảng 4.3 - Thuật toán tính toán độ xác cho PLWAP [16] Đầu vào: T: PLWAP Si= a1 a2 …ak ak+1 …an Chạy k ≥ MinLength tới (n-1): WAS a sub S = a1 a2 …ak MinLength: chiều dài tối thiểu WAS b Các tham số (T, sub S, MinLength, MaxLength), sinh luật đề xuất RR={e1, e2,…, em} MaxLength: độ sâu PLWAP Đầu ra: Precision Satisfactory c Nếu ak+1∈ RR luật đề xuất đúng, |Rc| tăng d Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) luật đề xuất thỏa mãn m bước, |Rs| tăng e Nếu RR ≠ null tăng luật đề xuất không rỗng lên 1, tức |R| tăng Trở về: precision, satisfactory T 53 - Đối với giải thuật PLWAP-Markov: Cho chuỗi test bao gồm truy cập web truy cập người dùng S = a1 a2 an Xét trang truy cập a1, ta tạo tập luật đề xuất từ ngưỡng ma trận truyền, nơi mà cặp liên kết trang xếp theo xác suất, sau luật xác định sau: + Nếu ai+1 ∈ RR RR + Nếu ∃aj ∈ RR (i+1 ≤ j ≤ i+1+m, m>0) m-bước thỏa mãn (tức RR thỏa mãn), ngược lại m-bước không thỏa mãn R={RR1, RR2, RRN} luật đề xuất với RRi (1≤ i ≤ N) luật đề xuất R=|N| tổng số luật đề xuất R Precision satisfation tính sau: Precision = | 𝑅𝑐 | |𝑅| [16] Trong đó, Rc tập R bao gồm tất luật đề xuất Satisfactory(m) = | 𝑅𝑠 | |𝑅| [16] Trong đó, Rs tập R bao gồm tất luật đề xuất thỏa mãn Bảng 4.4 - Thuật toán tính toán độ xác cho PLWAP-Markov Đầu vào: Si= a1 a2 …an WAS Nếu xác suất cặp liên kết trang ma trận truyền > ngưỡng, sinh luật đề xuất RR Ma trận truyền Chạy i=0 tới (n-1) Si: Ngưỡng 𝛽 a Nếu ai+1 ∈ RR luật đề xuất 54 Đầu ra: Precision Satisfactory đúng, |Rc| tăng b Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) luật đề xuất thỏa mãn m bước, |Rs| tăng c |R| tăng Trở về: precision, satisfactory 4.3 Kết thực nghiệm Chúng ta thử nghiệm laptop với xử lý Intel(R) Core i5-3337U CPU @ 1.80GHz, ram 4G, hệ điều hành Microsoft Windows Professional 64 bit Với liệu Cezeife: ta tiến hành thực thi chuỗi truy cập web thuật toán khai thác PLWAP, với hỗ trợ cực tiểu 0.03, ta chuỗi truy cập phổ biến Tiếp tục, ta áp dụng mô hình chuỗi Markov vào kết khai thác Bằng cách thiết lập ngưỡng để nén, cụ thể 0.12 lúc ma trận nén lại kích thước nhỏ Sau sử dụng ma trận nén truyền cho liên kết dự đoán Với liệu NASA (web log từ ngày đến ngày 13 tháng năm 1995): ta tiến hành thực thi chuỗi truy cập web thuật toán khai thác PLWAP, với hỗ trợ cực tiểu 0.001, ta chuỗi truy cập phổ biến Tiếp tục, ta áp dụng mô hình chuỗi Markov vào kết khai thác Bằng cách thiết lập ngưỡng để nén, cụ thể 0.001 lúc ma trận nén lại kích thước nhỏ Sau sử dụng ma trận nén truyền cho liên kết dự đoán a Thời gian: Thời gian thực thi thời gian đề xuất dựa chuỗi trang truy cập người dùng, dự đoán thuật toán PLWAP PLWAP-Markov Trên liệu Cezeife NASA, thời gian thực thi hai giải thuật sau: 55 + Cezeife + PLWAP: thời gian thực thi 203 mili giây tức 0.203 giây + PLWAP-Markov: thời gian thực thi 46 mili giây tức 0.046 giây + NASA + PLWAP: giây thời gian thực thi 519 mili giây tức 0.519 giây + PLWAP-Markov: thời gian thực thi 216 mili giây tức 0.216 giây Cezeife 0.25 0.203 Second 0.2 0.15 PLWAP PLWAP-Markov 0.1 0.046 0.05 NASA 0.6 0.519 Second 0.5 0.4 0.3 PLWAP 0.216 0.2 PLWAP-Markov 0.1 Hình 4.1 - Thời gian thực thi giải thuật PLWAP PLWAP-Markov hai liệu Cezeife NASA Biều đồ cho thấy rằng, thời gian thực thi PLWAP-Markov nhanh PLWAP hai liệu Cezeife NASA 56 b Bộ nhớ: Nhìn chung, thuật toán PLWAP tốn nhiều nhớ Markov, thuật toán sinh nhiều chuỗi phổ biến, thuật toán Markov giảm thiểu nhớ đáng kể trình thực thi, ma trận truyền lớn nén lại nên tối ưu nhớ Còn thuật toán PLWAP-Markov, nhớ có kết hợp PLWAP Markov nên nhớ PLWAP-Markov cao nhớ PLWAP không đáng kể c Độ xác: Sau chạy chuỗi test, hai liệu cụ thể, ta quan sát thấy sau: + Cezeife + Về precision: PLWAP-Markov cao PLWAP + Về satisfactory: bước (tức m-satisfactory, m=2) PLWAP_Markov cao so với PLWAP precision 92 100 percent 80 60 40 20 56 PLWAP PLWAP-Markov 57 satisfactory 100 83 percent 80 60 56 PLWAP PLWAP-Markov 40 20 Hình 4.2 - Precision satisfactory đo từ hai giải thuật PLWAP PLWAP-Markov liệu Cezeife + NASA + Về precision: PLWAP-Markov cao PLWAP + Về satisfactory: bước (tức m-satisfactory, m=2) PLWAP_Markov cao so với PLWAP precision 100 90 percent 80 60 40 20 58 PLWAP PLWAP-Markov 58 satisfactory 80 70 percent 60 40 PLWAP 28 PLWAP-Markov 20 Hình 4.3 - Precision satisfactory đo từ hai giải thuật PLWAP PLWAP-Markov liệu NASA Sau thực nghiệm hai liệu cụ thể kết độ xác PLWAP-Markov cao PLWAP Điều chứng tỏ thuật toán PLWAP sau cải tiến cho độ xác cao 59 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Qua trình tìm hiểu, nghiên cứu thử nghiệm, đánh giá liệu cụ thể, ta nhận thấy luận văn mặt đạt kết mong muốn sau: - Luận văn trình bày phương pháp, kỹ thuật khai thác chuỗi làm tiền đề cho việc nghiên cứu xây dựng hệ thống đề xuất web (dựa thuật toán PLWAP) - Luận văn trình bày mô hình xác suất Markov, từ đây, ứng dụng vào thuật toán PLWAP để cải tiến thuật toán kết tốt - Đã tích hợp thành công mô hình xác suất Markov vào thuật toán khai thác PLWAP khai thác chuỗi liệu để cải tiến thuật toán PLWAP Kết cải tiến mặt thời gian độ xác dự đoán cao từ mẫu chuỗi phổ biến khai thác từ web log so với thuật toán PLWAP ban đầu Bên cạnh đó, giải thuật PLWAP-Markov có ưu nhược điểm sau: - Ưu điểm giải thuật giúp cho hệ thống đề xuất web đề xuất, dự đoán thông tin có độ xác cao thời gian đề xuất nhanh từ mẫu chuỗi phổ biến, từ đó, phục vụ cho việc thương mại điện tử, kinh doanh qua Internet tốt giúp cho người dùng giảm thiểu thời gian chọn lựa có định tốt - Tuy nhiên, bên cạnh ưu điểm giải thuật luận văn hạn chế giải thuật chưa tự động tính toán để đưa hỗ trợ cực tiểu phù hợp chuỗi phổ biến từ web log trình khai thác mà phải thực tay, mô hình xác suất markov Giải thuật 60 dừng lại chỗ đề xuất đối tượng thông tin link liên kết, chưa ứng dụng đối tượng sách, video, nhạc… 5.2 Hướng phát triển Để hoàn thiện phát triển giải thuật PLWAP-Markov hệ thống đề xuất web, ta cần khắc phục hạn chế nghiên cứu, bổ sung thêm: - Nghiên cứu xử lý tính toán tự động để đưa hỗ trợ cực tiểu phù hợp trình khai thác chuỗi, tự động tính toán đưa ngưỡng phù hợp để việc nén ma trận truyền chọn trang nén tốt giúp cho hệ thống chạy hoàn tự động - Tập trung nghiên cứu thuật toán đề xuất sách, video, nhạc để ứng dụng vào giải thuật PLWAP-Markov để giải thuật hoàn thiện 61 TÀI LIỆU THAM KHẢO V Valli Mayil (2012) "Web Navigation Path Pattern Prediction using First Order Markov Model and Depth first Evaluation" International Journal of Computer Applications, 45 (16), 26-31 Baoyao, Z (2004) Intelligent Web Usage Mining (Doctor of Philosophy of Engineering program), Division of Information Systems School of Computer Engineering, Nanyang Technological University Ezeife, C.I and Y Lu (2005) "Mining Web Log Sequential Patterns with Position Coded Pre-Order Linked WAP-Tree" Data Mining and Knowledge Discovery, 10 (1), 5-38 Agrawal, R & Srikant, R (1995) "Mining Sequential Patterns" Proceedings of the Eleventh International Conference on Data Engineering, IEEE Computer Society, Taipei, 3-14 Nguyen Thi Thanh Sang (2006) Vận dụng kỹ thuật khai phá liệu liệu lưu trữ trình sử dụng trang web Thesis (Master), Computer Science, Ho Chi Minh C I Ezeife, Kashif Saeed, Dan Zhang (2009) Mining very long sequences in large databases with PLWAPLong Proceeding IDEAS '09 Proceedings of the 2009 International Database Engineering & Applications Symposium, 234-241 ZR Vishnu Priya, A Vadivel (2011) "Revised PLWAP Tree with Nonfrequent Items for Mining Sequential Pattern" World Academy of Science, Engineering and Technology, (9), 414-419 62 Pooja (2014) "Web Usage Mining: An Approach" International Journal of Computer Applications, 86 (12), 39-42 Jiawei Han, M.K.a.J.P (2011) Data Mining - Concepts and Techniques Morgan Kaufmann, USA 10 Nguyen, T.T.S., et al (2012) "Investigation of sequential pattern mining techniques for web recommendation" International Journal of Information and Decision Sciences, (4), 293 11 Zhou B.Y., Hui S.C., and Fong A.C.M (2004) CS-mine: An Efficient WAPtree Mining for Web Access Patterns In Proceedings of the 6th Asia Pacific Web Conference Hangzhou, China, 523-532 12 Clifford A Shaffer (2000) A Practical Introduction to Data Structures and Algorithm Analysis Prentice Hall PTR Upper Saddle River, NJ, USA 13 Zhu, J., J Hong, and J.G Hughes (2002) "Using Markov Chains for Link Prediction in Adaptive Web Sites" 2311 60-73 14 Spears, W.M (1998) "A Compression Algorithm for Probability Transition Matrices" SIAM Journal on Matrix Analysis and Applications, 20 (1), 60-77 15 Sarukkai, R.R (2000) "Link prediction and path analysis using Markov chains" Computer Networks, 33 (1-6), 377-386 16 Baoyao Zhou, S.C.H., Alvis Cheuk Ming Fong (2006) "Efficient sequential access pattern mining for web recommendations" International Journal of Knowledge-Based and Intelligent Engineering Systems, 10 (2), 155-168 63 17 Borges, J.e.L.ı.C.d.M (2000) A Data Mining Model to Capture User Web Navigation Patterns Doctor of Philosophy Department of Computer Science, University College London 18 Pei, J., Han, J., Mortazavi-Asl, B., and Pinto, H (2001) PrefixSpan: Mining sequential patterns efficiently by prefix- projected pattern growth In Proceedings of the 2001 International Conference on Data Engineering (ICDE ’01) Germany, Heidelberg, 215–224 [...]... PLWAP trong khai thác chuỗi dữ liệu bao gồm tổng quan về mô hình Markov, xác suất chuỗi phổ biến trên cây PLWAP, cải tiến tiến thuật toán PLWAP- Mine dựa trên mô hình Markov Chương 4 trình bày thực nghiệm và đánh giá thuật toán khai thác cây PLWAP đã cải tiến và chưa cải tiến Chương 5 trình bày kết luận và hướng phát triển tiếp theo của luận văn 9 CHƯƠNG 2: CÁC THUẬT TOÁN KHAI THÁC CHUỖI DỮ LIỆU 2.1 Tổng... chọn cây PLWAP và mô hình Markov làm đề tài nghiên cứu 1.4 Tổ chức của luận văn Từ cuộc khảo sát trên, luận văn này sẽ tập trung nghiên cứu cải tiến thuật toán khai thác cây PLWAP Trong luận văn này, bố cục sẽ được chia như sau: Chương 2 trình bày về kỹ thuật khai thác chuỗi dữ liệu và các thuật toán khai thác chuỗi dữ liệu như WAP-Mine, PLWAP- Mine,… Chương 3 trình bày cải tiến thuật toán cây PLWAP. .. 2.2 - Khai thác cây FP bằng cách tạo ra cơ sở mẫu điều kiện [9] 15 Bảng 2.3 - Danh sách dữ liệu chuỗi truy cập web [3] 18 Bảng 2.4 - Danh sách dữ liệu chuỗi truy cập web cho cây WAP [3] 20 Bảng 2.5 – Thuật toán cây PLWAP [3] 30 Bảng 2.6 - Thuật toán xây dựng cây PLWAP [3] 31 Bảng 2.7 - Thuật toán khai thác cây PLWAP [3] 32 Bảng 3.1 - Thuật toán sinh luật cho cây PLWAP- Markov... log Kỹ thuật khai thác sử dụng web giải quyết vấn đề phát hiện hành vi sử dụng web của người dùng từ các hoạt động truy cập web của họ Sử dụng dữ liệu web là có tính chất tuần tự, tức là, mỗi phần dữ liệu là một danh sách thứ tự / chuỗi các trang web truy cập Các kỹ thuật khai thác sử dụng web bao gồm khai thác mẫu chuỗi, khai thác luật kết hợp… Khai thác luật kết hợp là một kỹ thuật khai thác dữ liệu. .. đề xuất thông tin cho người sử dụng trực tuyến Các thuật toán khai thác tuần tự giống như Apriori sẽ tạo ra bộ các mẫu ứng cử viên rất lớn, đặc biệt là khi các mẫu còn rất dài, còn thuật toán khai thác cây WAP có nhược điểm là đệ quy xây dựng lại cây WAP trung gian trong khai thác, tốn thời gian Trong khi đó, thuật toán khai thác cây PLWAP thì các lưu trữ dữ liệu chuỗi trong một cây WAP liên kết 2... xuất cho người dùng mà chưa được phân loại hay sắp xếp kết quả 1.2 Định hướng nghiên cứu Kết quả cuối cùng của thuật toán khai thác cây PLWAP mang lại là tập hợp tất cả các chuỗi phổ biến để đề xuất cho người dùng, vấn đề là khi đề xuất thông tin thì có lại nhiều chuỗi phổ biến được đề xuất Vì vậy, việc xây dựng đề tài nghiên cứu, cải tiến thuật toán khai thác cây PLWAP trong việc khai thác chuỗi dữ liệu, ... hình Markov vào cây PLWAP để giúp cho người thiết kế web có thể thiết kế, xây dựng lại cấu trúc website sao cho phù hợp với nhu cầu thực tế sử dụng web của người dùng [5] Năm 2009, thuật toán cây PLWAP được cải tiến thành PLWAPLong [6] để khai thác chuỗi phổ biến dài trong các cơ sở dữ liệu lớn Năm 2011, R Vishnu Priya, A Vadivel đề xuất cải tiến cây PLWAP với mục không phổ biến trong khai thác mẫu tuần... thuật toán khai thác có thể xử lý một cơ sở dữ liệu lớn các mẫu truy cập web, chẳng hạn như thuật toán WAPMine [3], CS-Mine [11] và PLWAP- Mine [3] Thuật toán khai thác cây WAP quét cơ sở dữ liệu ban đầu hai lần và tránh được vấn đề tạo ra tập ứng cử viên tăng nhanh 16 Hiệu quả khai thác được cải thiện mạnh, nhưng nhược điểm chính của khai thác cây WAP là nó đệ quy xây dựng số lượng lớn các trung gian cây. .. tin nhanh hơn và cải thiện trang web thương mại tốt hơn Phương pháp khai thác chuỗi truy cập web như khai thác tuần tự [3] bằng cách sử dụng ý tưởng chính của khai thác luật kết hợp Agrawal và Srikant đề xuất thuật 8 toán AprioriAll để xử lý vấn đề khai thác tuần tự Năm 2000, Pei et al đề xuất một thuật toán sử dụng cây WAP Năm 2005, Ezeife và Lu [3] đề xuất thuật toán khai thác cây PLWAP Năm 2006,... Mining Web Recommender System Mẫu truy cập web phổ biến Mẫu tuần tự tổng quát Cây WAP liên kết thứ tự trước Thuật toán khai thác mẫu truy cập web liên kết thứ tự trước Mẫu tuần tự cho cây tiền tố Chuỗi truy cập web Cơ sở dữ liệu chuỗi truy cập web Thuật toán khai thác mẫu truy cập web Cây mẫu truy cập web Khai thác nội dung web Khai thác cấu trúc web Hệ thống đề xuất web viii DANH MỤC CÁC HÌNH Hình 1.1 - ... thác PLWAP 25 CHƯƠNG CẢI TIẾN THUẬT TOÁN KHAI THÁC CÂY PLWAP TRONG KHAI THÁC CHUỖI DỮ LIỆU 40 3.1 Mô hình Markov 40 3.2 Cải tiến thuật toán PLWAP khai thác chuỗi liệu. .. kỹ thuật khai thác chuỗi liệu thuật toán khai thác chuỗi liệu WAP-Mine, PLWAP- Mine,… Chương trình bày cải tiến thuật toán PLWAP khai thác chuỗi liệu bao gồm tổng quan mô hình Markov, xác suất chuỗi. .. chuỗi liệu 2.2 liệu Thuật toán khai thác WAP PLWAP khai thác chuỗi 17 2.2.1 Khai thác WAS từ web log 17 2.2.2 Thuật toán khai thác WAP 19 2.2.3 Thuật toán khai thác