Cải tiến thuật toán cây PLWAP cho khai thác chuỗi dữ liệu

77 12 0
Cải tiến thuật toán cây PLWAP cho khai thác chuỗi dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - QUÁCH ĐẶNG HỒNG MỸ CẢI TIẾN THUẬT TỐN CÂY PLWAP CHO KHAI THÁC CHUỖI DỮ LIỆU LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ Thông tin Mã số ngành : 60480201 TP HỒ CHÍ MINH, tháng 04 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - QUÁCH ĐẶNG HOÀNG MỸ CẢI TIẾN THUẬT TOÁN CÂY PLWAP CHO KHAI THÁC CHUỖI DỮ LIỆU LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ Thông tin Mã số ngành : 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THANH SANG TP HỒ CHÍ MINH, tháng 04 năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học :  (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 11 tháng 04 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chủ tịch Hội đồng GS TSKH Hoàng Văn Kiếm TS Võ Đình Bảy Phản biện TS Cao Tùng Anh Phản biện TS Lư Nhật Vinh Ủy viên TS Nguyễn Văn Mùi Chủ tịch Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 11 tháng 04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên:… … QUÁCH ĐẶNG HỒNG MỸ .Giới tính: … Nam Ngày, tháng, năm sinh: 07/03/1989 Nơi sinh: Cà Mau… Chuyên ngành: .Công nghệ thông tin MSHV: …1341860012 I- Tên đề tài: CẢI TIẾN THUẬT TOÁN CÂY PLWAP TRONG KHAI THÁC CHUỖI DỮ LIỆU II- Nhiệm vụ nội dung: - Nghiên cứu kỹ thuật khai thác mẫu chuỗi liệu phổ biến truy cập dựa vào hành vi sử dụng web người dùng ghi web log - Nghiên cứu thuật toán khai thác PLWAP - Nghiên cứu mơ hình xác suất, cụ thể mơ hình Markov - Áp dụng mơ hình xác suất Markov lên thuật tốn khai thác PLWAP III- Ngày giao nhiệm vụ: 08-08-2014 IV- Ngày hoàn thành nhiệm vụ: 11-04-2015 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS NGUYỄN THỊ THANH SANG CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực luận văn (Ký ghi rõ họ tên) ii LỜI CÁM ƠN Lời cảm ơn chân thành xin gởi đến Ban Giám Hiệu, toàn thể cán nhân viên, giảng viên trường Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho chúng tơi học tập nghiên cứu suốt học trình cao học Chúng xin chân thành tri ân đến thầy cô trực tiếp động viên, hướng dẫn chúng tơi suốt học trình: PGS.TS Lê Hồi Bắc, PGS.TS Nguyễn Xuân Huy, TS Nguyễn An Khương, TS Nguyễn Chánh Thành, TS Nguyễn Thị Thanh Sang, TS Tân Hạnh, TS Nguyễn Đình Thuân, TS Lê Mạnh Hải, TS Nguyễn Tuấn Đăng, TS Lư Nhật Vinh, TS Võ Đình Bảy, TS Cao Tùng Anh, TS Nguyễn Văn Mùi, GS TSKH Hồng Văn Kiếm Với lịng tri ân sâu sắc, chúng tơi muốn nói lời cảm ơn chân thành đến TS Nguyễn Thị Thanh Sang tận tụy nghiêm túc hướng dẫn chúng tơi q trình thực nghiên cứu Chúng xin chân thành cảm ơn Ban lãnh đạo Phòng Quản Trị, Phòng Tổ Chức Hành Chính, Phịng Tài Chính, Trung Tâm Thư Viện đồng nghiệp trường HUTECH tạo điều kiện, cho phép, động viên giúp đỡ suốt học trình cao học thực nghiên cứu Cuối yếu tố quan trọng giúp chúng tơi hồn thành nghiên cứu này, gia đình Chúng tơi muốn nói lời tri ân chân thành đến cha mẹ, anh chị em động viên chia sẻ hoàn cảnh với chúng tơi suốt học trình Qch Đặng Hồng Mỹ iii TÓM TẮT Hệ thống đề xuất web hệ thống đề xuất thơng tin hữu ích qua việc khai thác sử dụng web từ thông tin lịch sử truy cập web người dùng lưu tập tin web log máy chủ Hiện nay, giới, nhiều website thương mại điện tử ứng dụng hệ thống vào website để đề xuất thông tin cho người dùng dựa lịch sử tương tác người người khác với hệ thống nhằm giảm thiểu thời gian trực tuyến người dùng, giúp người dùng định hướng tốt website Tuy nhiên, lượng thơng tin đề xuất từ tập hợp chuỗi phổ biến lại nhiều, liệu web log tiền xử lý khai thác số thuật toán, điển hình thuật tốn khai thác PLWAP Chính vậy, việc nghiên cứu cải thiện thuật toán khai thác PLWAP, cải tiến thời gian, độ xác dự đoán cao từ mẫu chuỗi phổ biến khai thác từ web log Từ đây, định chọn đề tài nghiên cứu “Cải tiến thuật toán PLWAP khai thác chuỗi liệu” Các yêu cầu cần thực đề tài nghiên cứu là: - Nghiên cứu thuật toán PLWAP khai thác chuỗi liệu - Nghiên cứu mơ hình Markov - Nghiên cứu ứng dụng mơ hình chuỗi Markov vào thuật toán PLWAP cho việc đề xuất web - Nhận xét, đánh giá thuật toán PLWAP trước sau áp dụng mơ hình Markov vào, dựa vào kết thực nghiệm liệu cụ thể iv ABSTRACT The web recommendation system is a system proposed useful information through the use of web mining that the users web access history information file stored on the server's web log Nowadays, in the world, many website commercial have already applied this system into their website to proposed with information for user based on that user’s interactive history and the others with system to reduce user online time, help user has a good orientation on their website However, amount of information has recommended from set of frequent sequence that is so much, although data in web log that has preprocessed and mining by some algorithm, typically is mining PLWAP-tree algorithm Therefore, the research improves algorithm mining PLWAP-tree, improve about time, recommendation information object to predict has a height precision from frequent sequence pattern that is mining from web log Hence, I decided to choose a topic of research “Improve algorithm PLWAP-tree in mining data sequences” These request need in this research topic: - Research algorithm PLWAP-tree in mining data sequences - Research Markov model - Research and apply Markov model to algorithm PLWAP-tree in order to improve the performance of Web recommendation - Comment, evaluation for algorithm PLWAP-tree before and after applied Markov, based on result experimented on specific dataset v MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ CÁC CHỮ VIẾT TẮT vii DANH MỤC CÁC HÌNH viii DANH MỤC CÁC BẢNG x CHƯƠNG GIỚI THIỆU 1.1 Phát biểu vấn đề 1.2 Định hướng nghiên cứu 1.3 Tổng quan tình hình nghiên cứu 1.3.1 Tổng quan hệ thống đề xuất web 1.3.2 Tổng quan khai thác chuỗi liệu 1.3.3 Tổng quan lĩnh vực nghiên cứu 1.4 Tổ chức luận văn CHƯƠNG CÁC THUẬT TOÁN KHAI THÁC CHUỖI DỮ LIỆU 2.1 Tổng quan thuật toán khai thác chuỗi liệu 2.2 liệu Thuật toán khai thác WAP PLWAP khai thác chuỗi 17 2.2.1 Khai thác WAS từ web log 17 2.2.2 Thuật toán khai thác WAP 19 2.2.3 Thuật toán khai thác PLWAP 25 CHƯƠNG CẢI TIẾN THUẬT TOÁN KHAI THÁC CÂY PLWAP TRONG KHAI THÁC CHUỖI DỮ LIỆU 40 3.1 Mô hình Markov 40 3.2 Cải tiến thuật toán PLWAP khai thác chuỗi liệu 42 3.3 Luật đề xuất 48 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 50 4.1 Thực nghiệm 50 4.2 Đánh giá giải thuật PLWAP PLWAP–Markov 50 4.3 Kết thực nghiệm 54 vi CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 5.1 Kết luận 59 5.2 Hướng phát triển 60 TÀI LIỆU THAM KHẢO 61 49 Bảng 3.1 - Thuật toán sinh luật cho PLWAP-Markov Đầu vào: T: nút liên kết cặp trang ma trận truyền với ngưỡng hỗ trợ S= a1 a2 …an: chuỗi truy cập người dùng Đầu ra: RR: luật đề xuất cho S Quá trình: Bắt đầu RR=null Cho mục (1≤i≤n-1) S: Thiết lặp nút_hiện tới nút root T Nếu nút_hiện có nút có nhãn ai+1, thêm nút vào RR theo thứ tự xác suất, sau thiết lập nút_hiện tới nút Trả RR 50 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thực nghiệm Thí nghiệm với liệu Cezeife tạo từ liệu web log từ trường Computer Science, đại học Windsor NASA từ NASA Kennedy Space Center Địa tải hai liệu http://www.cs.uwindsor.ca/~cezeife http://ita.ee.lbl.gov/html/traces.html Các liệu tiền xử lý mã hóa thành số, sử dụng khai thác mẫu Bảng 4.1 - Thông tin liệu Cezeife NASA Bộ liệu Số lượng giao dịch Số lượng URLs thực tế Nguồn 1000 92 Trường Computer Science, đại học Cezeife Windsor NASA 4.2 26037 1446 NASA Kennedy Space Center Đánh giá giải thuật PLWAP PLWAP-Markov Để đánh giá giải thuật PLWAP trước sau cải tiến, độ xác hệ thống đề xuất đo precision, satisfation Vì vậy, sử dụng hai phương pháp để đánh giá hiệu suất hệ thống đề xuất dựa giải thuật PLWAP PLWAP-Markov - Đối với giải thuật PLWAP: Cho chuỗi test trang web truy cập web người dùng S = a1 a2 ak ak+1 an Xét chuỗi tiền tố Sprefix= a1 a2 ak (k>=MinLenght), ta tạo luật đề xuất 51 RR={e1, e2, , eM } dựa PLWAP, nơi mà kiện xếp theo độ hỗ trợ, sau xác định luật luật đúng, luật thỏa mãn, luật rỗng dựa theo điểu kiện sau: + Nếu ak+1 ∈ RR RR + Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) m-bước thỏa mãn (tức RR thỏa mãn), ngược lại m-bước không thỏa mãn R={RR1, RR2, RRN} luật đề xuất với RRi (1≤ i ≤ N) luật đề xuất R=|N| tổng số luật đề xuất R bao gồm tập rỗng Precision satisfation tính sau: Precision = | 𝑅𝑐 | |𝑅| [16] Trong đó, Rc tập R bao gồm tất luật đề xuất Satisfactory(m) = | 𝑅𝑠 | |𝑅| [16] Trong đó, Rs tập R bao gồm tất luật đề xuất thỏa mãn Bảng 4.2 - Thuật toán sinh luật cho PLWAP [16] Đầu vào: T: PLWAP S= a1 a2 …an: chuỗi truy cập người dùng MinLength: Chiều dài tối thiểu chuỗi truy cập MaxLength: Chiều dài tối đa chuỗi truy cập (thấp độ sâu PLWAP) Đầu ra: RR: luật đề xuất cho S Quá trình: 52 Bắt đầu RR=null Nếu |S| > MaxLength gỡ bỏ mục |S|-MaxLength+1 từ S Nếu |S| < MinLength trở RR, ngược lại thiết lập nút_hiện trỏ tới nút gốc R T Lặp mục từ đầu S đến cuối: a Nếu nút_hiện có nút có nhãn ai+1, thiết lập nút_hiện trỏ tới nút b Ngược lại, gỡ bỏ mục khỏi S, lặp lại bước Nếu nút_hiện có nút con, sau thêm nút vào RR theo thứ tự độ hỗ trợ chúng Trở RR Bảng 4.3 - Thuật tốn tính tốn độ xác cho PLWAP [16] Đầu vào: T: PLWAP Si= a1 a2 …ak ak+1 …an Chạy k ≥ MinLength tới (n-1): WAS a sub S = a1 a2 …ak MinLength: chiều dài tối thiểu WAS b Các tham số (T, sub S, MinLength, MaxLength), sinh luật đề xuất RR={e1, e2,…, em} MaxLength: độ sâu PLWAP Đầu ra: Precision Satisfactory c Nếu ak+1∈ RR luật đề xuất đúng, |Rc| tăng d Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) luật đề xuất thỏa mãn m bước, |Rs| tăng e Nếu RR ≠ null tăng luật đề xuất khơng rỗng lên 1, tức |R| tăng Trở về: precision, satisfactory T 53 - Đối với giải thuật PLWAP-Markov: Cho chuỗi test bao gồm truy cập web truy cập người dùng S = a1 a2 an Xét trang truy cập a1, ta tạo tập luật đề xuất từ ngưỡng ma trận truyền, nơi mà cặp liên kết trang xếp theo xác suất, sau luật xác định sau: + Nếu ai+1 ∈ RR RR + Nếu ∃aj ∈ RR (i+1 ≤ j ≤ i+1+m, m>0) m-bước thỏa mãn (tức RR thỏa mãn), ngược lại m-bước không thỏa mãn R={RR1, RR2, RRN} luật đề xuất với RRi (1≤ i ≤ N) luật đề xuất R=|N| tổng số luật đề xuất R Precision satisfation tính sau: Precision = | 𝑅𝑐 | |𝑅| [16] Trong đó, Rc tập R bao gồm tất luật đề xuất Satisfactory(m) = | 𝑅𝑠 | |𝑅| [16] Trong đó, Rs tập R bao gồm tất luật đề xuất thỏa mãn Bảng 4.4 - Thuật tốn tính tốn độ xác cho PLWAP-Markov Đầu vào: Si= a1 a2 …an WAS Nếu xác suất cặp liên kết trang ma trận truyền > ngưỡng, sinh luật đề xuất RR Ma trận truyền Chạy i=0 tới (n-1) Si: Ngưỡng 𝛽 a Nếu ai+1 ∈ RR luật đề xuất 54 Đầu ra: Precision Satisfactory đúng, |Rc| tăng b Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) luật đề xuất thỏa mãn m bước, |Rs| tăng c |R| tăng Trở về: precision, satisfactory 4.3 Kết thực nghiệm Chúng ta thử nghiệm laptop với xử lý Intel(R) Core i5-3337U CPU @ 1.80GHz, ram 4G, hệ điều hành Microsoft Windows Professional 64 bit Với liệu Cezeife: ta tiến hành thực thi chuỗi truy cập web thuật toán khai thác PLWAP, với hỗ trợ cực tiểu 0.03, ta chuỗi truy cập phổ biến Tiếp tục, ta áp dụng mơ hình chuỗi Markov vào kết khai thác Bằng cách thiết lập ngưỡng để nén, cụ thể 0.12 lúc ma trận nén lại kích thước nhỏ Sau sử dụng ma trận nén truyền cho liên kết dự đoán Với liệu NASA (web log từ ngày đến ngày 13 tháng năm 1995): ta tiến hành thực thi chuỗi truy cập web thuật toán khai thác PLWAP, với hỗ trợ cực tiểu 0.001, ta chuỗi truy cập phổ biến Tiếp tục, ta áp dụng mơ hình chuỗi Markov vào kết khai thác Bằng cách thiết lập ngưỡng để nén, cụ thể 0.001 lúc ma trận nén lại kích thước nhỏ Sau sử dụng ma trận nén truyền cho liên kết dự đoán a Thời gian: Thời gian thực thi thời gian đề xuất dựa chuỗi trang truy cập người dùng, dự đoán thuật toán PLWAP PLWAP-Markov Trên liệu Cezeife NASA, thời gian thực thi hai giải thuật sau: 55 + Cezeife + PLWAP: thời gian thực thi 203 mili giây tức 0.203 giây + PLWAP-Markov: thời gian thực thi 46 mili giây tức 0.046 giây + NASA + PLWAP: giây thời gian thực thi 519 mili giây tức 0.519 giây + PLWAP-Markov: thời gian thực thi 216 mili giây tức 0.216 giây Cezeife 0.25 0.203 Second 0.2 0.15 PLWAP PLWAP-Markov 0.1 0.046 0.05 NASA 0.6 0.519 Second 0.5 0.4 0.3 PLWAP 0.216 0.2 PLWAP-Markov 0.1 Hình 4.1 - Thời gian thực thi giải thuật PLWAP PLWAP-Markov hai liệu Cezeife NASA Biều đồ cho thấy rằng, thời gian thực thi PLWAP-Markov nhanh PLWAP hai liệu Cezeife NASA 56 b Bộ nhớ: Nhìn chung, thuật tốn PLWAP tốn nhiều nhớ Markov, thuật tốn sinh q nhiều chuỗi phổ biến, cịn thuật tốn Markov giảm thiểu nhớ đáng kể trình thực thi, ma trận truyền lớn nén lại nên tối ưu nhớ Cịn thuật tốn PLWAP-Markov, nhớ có kết hợp PLWAP Markov nên nhớ PLWAP-Markov cao nhớ PLWAP khơng đáng kể c Độ xác: Sau chạy chuỗi test, hai liệu cụ thể, ta quan sát thấy sau: + Cezeife + Về precision: PLWAP-Markov cao PLWAP + Về satisfactory: bước (tức m-satisfactory, m=2) PLWAP_Markov cao so với PLWAP precision 92 100 percent 80 60 40 20 56 PLWAP PLWAP-Markov 57 satisfactory 100 83 percent 80 60 56 PLWAP PLWAP-Markov 40 20 Hình 4.2 - Precision satisfactory đo từ hai giải thuật PLWAP PLWAP-Markov liệu Cezeife + NASA + Về precision: PLWAP-Markov cao PLWAP + Về satisfactory: bước (tức m-satisfactory, m=2) PLWAP_Markov cao so với PLWAP precision 100 90 percent 80 60 40 20 58 PLWAP PLWAP-Markov 58 satisfactory 80 70 percent 60 40 PLWAP 28 PLWAP-Markov 20 Hình 4.3 - Precision satisfactory đo từ hai giải thuật PLWAP PLWAP-Markov liệu NASA Sau thực nghiệm hai liệu cụ thể kết độ xác PLWAP-Markov cao PLWAP Điều chứng tỏ thuật toán PLWAP sau cải tiến ln cho độ xác cao 59 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Qua trình tìm hiểu, nghiên cứu thử nghiệm, đánh giá liệu cụ thể, ta nhận thấy luận văn mặt đạt kết mong muốn sau: - Luận văn trình bày phương pháp, kỹ thuật khai thác chuỗi làm tiền đề cho việc nghiên cứu xây dựng hệ thống đề xuất web (dựa thuật tốn PLWAP) - Luận văn trình bày mơ hình xác suất Markov, từ đây, ứng dụng vào thuật toán PLWAP để cải tiến thuật toán kết tốt - Đã tích hợp thành cơng mơ hình xác suất Markov vào thuật toán khai thác PLWAP khai thác chuỗi liệu để cải tiến thuật toán PLWAP Kết cải tiến mặt thời gian độ xác dự đốn cao từ mẫu chuỗi phổ biến khai thác từ web log so với thuật tốn PLWAP ban đầu Bên cạnh đó, giải thuật PLWAP-Markov cịn có ưu nhược điểm sau: - Ưu điểm giải thuật giúp cho hệ thống đề xuất web đề xuất, dự đốn thơng tin có độ xác cao thời gian đề xuất nhanh từ mẫu chuỗi phổ biến, từ đó, phục vụ cho việc thương mại điện tử, kinh doanh qua Internet tốt giúp cho người dùng giảm thiểu thời gian chọn lựa có định tốt - Tuy nhiên, bên cạnh ưu điểm giải thuật luận văn hạn chế giải thuật chưa tự động tính tốn để đưa hỗ trợ cực tiểu phù hợp chuỗi phổ biến từ web log trình khai thác mà phải thực tay, mơ hình xác suất markov Giải thuật 60 dừng lại chỗ đề xuất đối tượng thông tin link liên kết, chưa ứng dụng đối tượng sách, video, nhạc… 5.2 Hướng phát triển Để hoàn thiện phát triển giải thuật PLWAP-Markov hệ thống đề xuất web, ta cần khắc phục hạn chế nghiên cứu, bổ sung thêm: - Nghiên cứu xử lý tính tốn tự động để đưa hỗ trợ cực tiểu phù hợp trình khai thác chuỗi, tự động tính tốn đưa ngưỡng phù hợp để việc nén ma trận truyền chọn trang nén tốt giúp cho hệ thống chạy hoàn tự động - Tập trung nghiên cứu thuật toán đề xuất sách, video, nhạc để ứng dụng vào giải thuật PLWAP-Markov để giải thuật hoàn thiện 61 TÀI LIỆU THAM KHẢO V Valli Mayil (2012) "Web Navigation Path Pattern Prediction using First Order Markov Model and Depth first Evaluation" International Journal of Computer Applications, 45 (16), 26-31 Baoyao, Z (2004) Intelligent Web Usage Mining (Doctor of Philosophy of Engineering program), Division of Information Systems School of Computer Engineering, Nanyang Technological University Ezeife, C.I and Y Lu (2005) "Mining Web Log Sequential Patterns with Position Coded Pre-Order Linked WAP-Tree" Data Mining and Knowledge Discovery, 10 (1), 5-38 Agrawal, R & Srikant, R (1995) "Mining Sequential Patterns" Proceedings of the Eleventh International Conference on Data Engineering, IEEE Computer Society, Taipei, 3-14 Nguyen Thi Thanh Sang (2006) Vận dụng kỹ thuật khai phá liệu liệu lưu trữ trình sử dụng trang web Thesis (Master), Computer Science, Ho Chi Minh C I Ezeife, Kashif Saeed, Dan Zhang (2009) Mining very long sequences in large databases with PLWAPLong Proceeding IDEAS '09 Proceedings of the 2009 International Database Engineering & Applications Symposium, 234-241 ZR Vishnu Priya, A Vadivel (2011) "Revised PLWAP Tree with Nonfrequent Items for Mining Sequential Pattern" World Academy of Science, Engineering and Technology, (9), 414-419 62 Pooja (2014) "Web Usage Mining: An Approach" International Journal of Computer Applications, 86 (12), 39-42 Jiawei Han, M.K.a.J.P (2011) Data Mining - Concepts and Techniques Morgan Kaufmann, USA 10 Nguyen, T.T.S., et al (2012) "Investigation of sequential pattern mining techniques for web recommendation" International Journal of Information and Decision Sciences, (4), 293 11 Zhou B.Y., Hui S.C., and Fong A.C.M (2004) CS-mine: An Efficient WAPtree Mining for Web Access Patterns In Proceedings of the 6th Asia Pacific Web Conference Hangzhou, China, 523-532 12 Clifford A Shaffer (2000) A Practical Introduction to Data Structures and Algorithm Analysis Prentice Hall PTR Upper Saddle River, NJ, USA 13 Zhu, J., J Hong, and J.G Hughes (2002) "Using Markov Chains for Link Prediction in Adaptive Web Sites" 2311 60-73 14 Spears, W.M (1998) "A Compression Algorithm for Probability Transition Matrices" SIAM Journal on Matrix Analysis and Applications, 20 (1), 60-77 15 Sarukkai, R.R (2000) "Link prediction and path analysis using Markov chains" Computer Networks, 33 (1-6), 377-386 16 Baoyao Zhou, S.C.H., Alvis Cheuk Ming Fong (2006) "Efficient sequential access pattern mining for web recommendations" International Journal of Knowledge-Based and Intelligent Engineering Systems, 10 (2), 155-168 63 17 Borges, J.e.L.ı.C.d.M (2000) A Data Mining Model to Capture User Web Navigation Patterns Doctor of Philosophy Department of Computer Science, University College London 18 Pei, J., Han, J., Mortazavi-Asl, B., and Pinto, H (2001) PrefixSpan: Mining sequential patterns efficiently by prefix- projected pattern growth In Proceedings of the 2001 International Conference on Data Engineering (ICDE ’01) Germany, Heidelberg, 215–224 ... thác PLWAP 25 CHƯƠNG CẢI TIẾN THUẬT TOÁN KHAI THÁC CÂY PLWAP TRONG KHAI THÁC CHUỖI DỮ LIỆU 40 3.1 Mơ hình Markov 40 3.2 Cải tiến thuật toán PLWAP khai thác chuỗi liệu. .. kỹ thuật khai thác chuỗi liệu thuật toán khai thác chuỗi liệu WAP-Mine, PLWAP- Mine,… Chương trình bày cải tiến thuật tốn PLWAP khai thác chuỗi liệu bao gồm tổng quan mơ hình Markov, xác suất chuỗi. .. chuỗi liệu 2.2 liệu Thuật toán khai thác WAP PLWAP khai thác chuỗi 17 2.2.1 Khai thác WAS từ web log 17 2.2.2 Thuật toán khai thác WAP 19 2.2.3 Thuật toán khai thác

Ngày đăng: 05/03/2021, 11:23

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan