Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
2,01 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐÀO CHÁNH TRUNG KHAI THÁC MẪU CÓ TÍNH CHU KỲ XÉT ĐẾN TRỌNG SỐ TỪ DỮ LIỆU HƯỚNG THỜI GIAN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thơng tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 03 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐÀO CHÁNH TRUNG KHAI THÁC MẪU CĨ TÍNH CHU KỲ XÉT ĐẾN TRỌNG SỐ TỪ DỮ LIỆU HƯỚNG THỜI GIAN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS LÊ VĂN QUỐC ANH TP HỒ CHÍ MINH, tháng 03 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: TS Lê Văn Quốc Anh (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 23 tháng 04 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên PGS TS Quản Thành Thơ PGS.TS Võ Đình Bảy TS Vũ Thanh Hiền TS Cao Tùng Anh TS Nguyễn Thị Thúy Loan Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS TS QUẢN THÀNH THƠ TRƯỜNG ĐH CÔNG NGHỆ TP HCM VIỆN ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 29 tháng 03 năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đào Chánh Trung Giới tính: Nam Ngày, tháng, năm sinh: 28/04/1979 Nơi sinh: Kiên Giang Chuyên ngành: Công nghệ Thông tin MSHV: 1541860030 I- Tên đề tài: KHAI THÁC MẪU CĨ TÍNH CHU KỲ XÉT ĐẾN TRỌNG SỐ TỪ DỮ LIỆU HƯỚNG THỜI GIAN II- Nhiệm vụ nội dung: Đề tài tập trung nghiên cứu thuật tốn khai thác mẫu có tính chu kỳ dựa thuật tốn khai thác mẫu phổ biến có trọng số Đề xuất phương thức khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian III- Ngày giao nhiệm vụ: 27/9/2016 IV- Ngày hoàn thành nhiệm vụ: 29/03/2017 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS LÊ VĂN QUỐC ANH CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TS LÊ VĂN QUỐC ANH KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Đào Chánh Trung ii LỜI CÁM ƠN Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến Thầy, TS Lê Văn Quốc Anh nhờ động viên, bảo tận tình, truyền đạt kiến thức tạo điều kiện tốt để em hồn thành luận văn Em xin cảm ơn PGS.TS Võ Đình Bảy cung cấp cho em kiến thức quý báu suốt thời gian học tập nghiên cứu thực luận văn Em xin cảm ơn quý Thầy Cô, Anh chị làm việc Khoa CNTT, Viện đào tạo Sau đại học trường Đại học Công nghệ Thành phồ Hồ Chí Minh hỗ trợ em nhiều thủ tục văn bản, giấy tờ liên quan đến luận văn Xin cảm ơn gia đình, đồng nghiệp, bạn bè động viên em suốt thời gian thực luận văn Luận văn tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho luận văn hoàn thiện Xin chân thành cảm ơn Tp Hồ Chí Minh, ngày 29 tháng 03 năm 2017 Học viên Đào Chánh Trung iii TÓM TẮT Khai thác mẫu có tính chu kỳ vấn đề quan trọng lĩnh vực khai thác liệu ứng dụng Tuy nhiên, thuật tốn khai thác mẫu có tính chu kỳ tập trung vào hiệu khai thác mẫu có tính chu kỳ mặc định tất kiện chuỗi kiện có quan trọng nhau, điều khơng hợp lý nhiều trường hợp thực tế Đề tài nghiên cứu tốn khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian Đây hướng nghiên cứu mang tính thực tiễn cao Về bản, chúng tơi đề xuất quy trình khai thác mẫu có tính chu kỳ xét đến trọng số hoàn chỉnh gồm ba giai đoạn Giai đoạn – Giai đoạn mã hóa: Thực chuyển đổi liệu đầu vào liệu hướng thời gian thành kiểu liệu giao tác nhằm tận dụng giải thuật khai thác mẫu phổ biến có trọng số có Giai đoạn – Giai đoạn khai thác mẫu: Lựa chọn thuật toán WIT-FWI thuật toán hiệu để khai thác mẫu phổ biến có xét đến trọng số từ liệu chuyển đổi Giai đoạn – Giai đoạn giải mã: Từ tập mẫu phổ biến trả ta tiến hành diễn dịch để có mẫu có tính chu kỳ liệu hướng thời gian ban đầu Chúng tiến hành thực nghiệm giai đoạn đề xuất đề tài với liệu thực để chứng minh tính khả thi hữu dụng giải pháp đề xuất iv ABSTRACT Periodic parttern mining is one of the important issues in the field of data mining due to its practical applications However, existing approaches to the problem of mining periodic patterns only consider the periodicity of patterns and assume all events have the same importance, this is not true in most of the real casees This research focuses on the discovery of periodic patterns the absence of event weight from temporal database This is a new research direction and highly practical Basically, we propose comprehensive framework consisting of three phases as follows: Phase – Encoding phase: Transforming input data as temporal data into the form of transactional data to employ any algorithm of frequent weighted patterns mining Phase – Frequent pattern mining phase: Using the WIT-FWI algorithm – an efficient algorithm to mine frequent weighted patterns from transformed data Phase – Decoding phase: From the frequent pattern set obtained from Phase 2, we decode and interpret to obtain periodic patterns existing in the original temporal dataset We conduct several experiments by using real-world datasets to demostrate the feasibility and utility of the framework v MỤC LỤC CHƯƠNG 1: MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài 1.3 Giới hạn đề tài 1.4 Bố cục đề tài CHƯƠNG 2: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT 2.1.Giới thiệu 2.1.1 Tổng quan khai thác luật kết hợp 2.1.2 Phương pháp Apriori 2.1.3 Phương pháp FP-tree 12 2.1.4 Phương pháp IT-tree 19 2.2.Tổng quan khai thác luật kết hợp CSDL có xét đến trọng số 25 2.2.1 Định nghĩa tính chất mẫu có trọng số 25 2.2.2 Thuật toán khai thác mẫu phổ biến dựa WIT-Tree 27 2.3.Phương pháp khai thác mẫu có tính chu kỳ 33 Thuật toán khai thác mẫu có tính chu kỳ 35 2.4.Kết luận chương 41 CHƯƠNG 3: THUẬT TỐN KHAI THÁC MẪU CĨ TÍNH CHU KỲ XÉT ĐẾN TRỌNG SỐ TỪ DỮ LIỆU HƯỚNG THỜI GIAN 43 3.1 Mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian 43 3.1.1 Khái niệm thời gian 43 vi 3.1.2 Khái niệm sở liệu hướng thời gian 44 3.1.3 Khái niệm chu kỳ 44 3.1.4 Khái niệm mẫu khai thác mẫu có tính chu kỳ 45 Phương pháp khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian đề xuất 46 3.2 Khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian 48 3.3 3.3.1 Mã hóa liệu có tính thời gian thành liệu giao tác 48 3.3.2 Thuật tốn khai thác mẫu phổ biến có trọng số 50 3.3.3 Diễn dịch mẫu phổ biến thành mẫu có tính chu kỳ 54 3.4 Kết luận chương 56 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 57 4.1 Môi trường thực nghiệm 57 4.2 Đặc điểm sở liệu thực nghiệm 57 4.3 Kết thực nghiệm 60 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 5.1 Kết luận 65 5.2 Nhận xét ưu điểm hạn chế 66 5.3 Hướng phát triển 66 TÀI LIỆU THAM KHẢO 67 54 Tiếp Theo: Ta tiến hành thực tiếp nút lại để tìm tất tập FWI thỏa điều kiện minws {} Cx2456 0.6 CEx245 0.41 CEBx245 0.41 Dx1356 0.78 Ax1345 0.72 CBx2456 0.6 ADEx135 0.59 ADx135 0.59 AEx1345 0.72 ADBx135 0.59 ABx1345 0.72 AEBx1345 0.72 Bx123456 1.0 Ex12345 0.81 DEx135 0.59 DBx1356 0.78 EBx12345 0.81 DEBx135 0.59 ADEBx135 0.59 Hình 3.7 WIT-tree hồn chỉnh CSDL D1 bảng 2.10 2.11 với minws=0.4 Quá trình khai thác CSDL từ Bảng 2.10 Bảng 3.7 ta tập kết tập FWI với minws=0.4 FWI={C, CE, CEB, CB, A, AD, ADE, ADEB, ADB, AE, AEB, AB, D, DE, DEB, DB, E, EB, B} Hoàn thành giai đoạn ta thu tập mẫu kết tập mẫu phổ biến Từ tập kết ta muốn diễn dịch thành tập mẫu có tính chu kỳ, để thực điều ta phải thực giai đoạn chuyển đổi gọi giai đoạn Decode trình bày chi tiết phần sau 3.3.3 Diễn dịch mẫu phổ biến thành mẫu có tính chu kỳ Sau giai đoạn khai thác mẫu phổ biến hồn thành đầu tập mẫu phổ biến Giai đoạn giải pháp khai thác mẫu có tính chu kỳ đề xuất ta tiếp tục giai đoạn diễn dịch – giai đoạn Decode Giai đoạn ta diễn dịch tập mẫu phổ biến thành tập mẫu có tính chu kỳ giai đoạn cuối giải pháp đề xuất Để tìm hiểu kỹ giai đoạn diễn dịch, ta xét ví dụ vụ thể sau 55 Giả sử CSDL ban đầu mô tả Bảng 3.6– q trình Encode Sau liệu đưa vào thuật toán khai thác mẫu phổ biến có trọng số ta kết qủa thu mẫu phổ biến, thể bảng sau: Bảng 3.9 Tập mẫu phổ biến trả sau giai đoạn - khai thác mẫu phổ biến STT Item 105 110 704 710 Đây tập mẫu phổ biến trả ta thực xong giai đoạn Nhiệm vụ ta giai đoạn diễn dịch mẫu phổ biến thành mẫu có tính chu kỳ Từ tập mẫu phổ biến này, ta đối chiếu ngược lại với liệu giai đoạn Encode (Bảng 3.6) ta tập mẫu có tính chu kỳ, q trình đối chiếu ngược lại ta gọi trình Decode Kết bảng sau: Bảng 3.10 Kết diễn dịch mẫu phổ biến thành mẫu có tính chu kỳ STT Item Periodic pattern 105 Sun_Df 110 Sun_Kosik 704 Sat_Dt 710 Sat_Kosik Từ mẫu có tính chu kỳ ta diễn giải thêm ý nghĩa Với mẫu có tính chu kỳ thu ta có kết luận là: Khách hàng có xu hướng vào trang web mua hàng cửa hàng điện tử vào hai ngày cuối tuần (Sunday Saturday), trang khách hàng thường quan tâm là: Comparing product parameters; Detail of product; Shopping card, detail of contract, submitting order (Bảng 3.3) Từ q trình diễn dịch này, ta đưa tính tốn dự đốn 56 tùy vào mẫu ta khai thác Đây giá trị thực tế mà giải pháp đề xuất mang lại q trình ứng dụng vào khai thác sở liệu hướng thời gian Trên phương pháp cho trình thực giai đoạn trình khai thác liệu đề xuất Tuy nhiên, tùy vào liệu hướng thời gian đầu vào cụ thể ta thực giai đoạn Encode giai đoạn Decode khác nhau, mục đích cuối giải pháp đưa khả thi hiệu 3.4 Kết luận chương Nội dung chương đề tài đưa số định nghĩa để phục vụ cho mục đích khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian Đã khái quát hóa giai đoạn giải pháp đề xuất Những đóng góp, điểm cho khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian giai đoạn Encode giai đoạn Decode Bên cạnh kế thừa giải pháp khai thác mẫu có trọng số cơng bố [6] Nội dung trình bày chi tiết giai đoạn khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian Trình bày chi tiết thuật tốn khai thác mẫu phổ biến có trọng số dựa WIT-tree, thuật toán kết hợp với q trình mã hóa liệu đầu vào giải mã liệu kết để mẫu có tính chu kỳ, mục tiêu đề tài 57 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm Các thuật tốn thực máy tính cá nhân cài đặt phần mềm: Windows 8.1; Visual Studio 2015; Eclipse IDE for Java Developers (Version Neon.1a Release 4.6.1); với cấu hình máy Intel® Core™ i7-6500U CPU @2.50GHZ 2.50GHZ , nhớ RAM 8GB 4.2 Đặc điểm sở liệu thực nghiệm Quá trình thực nghiệm, liệu đầu vào có tính hướng thời gian lấy từ trang web http://lisp.vse.cz/challenge/ecmlpkdd2005/data/clickstream/ Sau mô tả liệu từ địa trên: Ta có liệu click stream, liệu lưu trữ thông tin truy cập vào trang web bán hàng bao gồm 576 file log Mỗi file log lưu trữ thông tin khách hàng truy cập đồng hồ Cấu trúc file log gồm nhiều thành phần: shop_id; Unixtime; Ip address; Session; Visited page - Shop_id: Danh mục shop bán hàng - Unixtime: Thời gian truy cập - Ip address: Địa người truy cập - Session: Một phiên truy cập - Visited page: Trang truy cập, có tổng 29 trang để truy cập Bảng 4.1 Nội dung chi tiết đoạn file log Shop _id 10 10 10 10 11 11 11 16 Unixtime IP address Session 1074586900 1074586907 1074586912 1074586932 1074585663 1074585670 1074585678 1074588680 136.1.1.154 136.1.1.154 136.1.1.154 136.1.1.154 213.151.91.186 213.151.91.186 213.151.91.186 212.47.31.5 c68616c3ed6ec208c7e89035b68c46d3 c68616c3ed6ec208c7e89035b68c46d3 c68616c3ed6ec208c7e89035b68c46d3 c68616c3ed6ec208c7e89035b68c46d3 939dad92c4f81c9c3eda828e84208dca 87ee02ddcffbe9bc003f85667655bb9e 7eace59fd175e616a3efafb8c9a3de96 188dcfed09cf6fa93a07984b0a97450b Visited page / /ct/?c=140 /ls/?id=2 /dt/?c=141 / /ct/?c=148 /ls/?id=18 /akce/ Trong liệu click tream bao gồm: 576 file log, file lưu trữ giữ liệu truy cập trang web Toàn liệu thời gian truy cập 24 58 ngày liên tục với tổng số gần 4.300.000 mẫu tin (record) lưu trữ Đây liệu hướng thời gian (temporal data), trước đưa vào khai thác mẫu có tính chu kỳ liệu ta phải tiến hành giai đoạn 1: chuyển đổi liệu hướng thời gian thành liệu giao tác Trước tiên ta phải xác định chu kỳ muốn khai thác Nếu chọn chu kỳ ngày tuần ta có giá trị tuần (từ thứ đến chủ nhật), chọn chu kỳ ngày ta có 24 giá trị (từ đến 24 giờ) Với quy định chu kỳ cụ thể ta tiến hành encode để xây dựng file liệu giao tác từ file log liệu click tream Cách thức để xây dựng file liệu giao tác sau: - Xác định chu kỳ cho liệu (là ngày tuần hay ngày) - Xác định định ID cho giao dịch, ID Sesscion - Xác định Items cho liệu, kết hợp giá trị chu kỳ ngày (trong Unixtime) với giá trị Visited page Chu kỳ ngày tuần có 203 Items (7 X 29), chu kỳ ngày có 696 Items (24 X 29) Bảng 4.2 Nội dung chi tiết đoạn liệu giao dịch với chu kỳ ngày tuần Transaction Items Home_mon; ls_mon; dt_mon; ct_mon; akec_mon; klient_Mon Home_tue; dt_tue; ct_tue; ls_tue; findf_Tue; klient _tue ct_Fri; df_Fri; ls_Fri; dt_Fri; akec _Fri; ls_Fri Bảng 4.3 Nội dung chi tiết đoạn liệu giao dịch với chu kỳ ngày Transaction Items Home_00; ls_00; dt_00; ct_00; akec_00; klient_00 Home_11; dt_11; ct_11; ls_11; findf_11; klient_11 ct_21;ls_21; findf _21;dt_21; akec_21 Sau trình thực chuyển đổi liệu từ hướng thời gian thành liệu 59 giao dịch theo quy định chu kỳ cụ thể, ta tiếp tục thực công đoạn chuyển đổi items liệu thành dạng số để dễ dàng trình khai thác mẫu Bảng 4.4 Nội dung chi tiết đoạn liệu giao dịch Transaction Items 3002 3003 3004 3006 3008 3011 3017 5001 5002 5004 5006 5007 5008 5010 5011 5017 5018 5026 7002 7004 7008 7009 7010 7011 7012 7022 7025 Để chuẩn bị liệu cho giai đoạn 2, ta cần xây dựng liệu cụ thể Căn quy định chu kỳ ta xây dựng hai nhóm liệu cụ thể: nhóm liệu có chu kỳ ngày tuần nhóm liệu có chu kỳ ngày Trong nhóm ta lại tiến hành xây dựng liệu khác dựa số lượng tăng dần giao dịch Từ liệu click tream ta xây dựng thành hai nhóm liệu sau: - Nhóm 1: Chu kỳ ta đặt ngày, có 203 Items nhóm liệu Với nhóm ta xây dựng liệu khác vào số lượng file log liệu click tream ban đầu từ 168 file, 336 file 576 file Mục đích liệu có tăng dần số lượng giao dịch - Nhóm 2: Chu kỳ ta đặt ngày, có 696 Items nhóm liệu Tương tự nhóm 1, ta xây dựng cho nhóm liệu khác dựa tăng dần số lượng file log để tăng dần số lượng giao dịch liệu Các liệu chỉnh sửa dựa vào quy định chu kỳ cụ thể Với loại chu kỳ (chu kỳ theo ngày tuần, chu kỳ theo ngày) ta tạo Items trọng số tương ứng Item khác có giá trị từ đến 10 Trọng số gán mô tả trang web liệu ban đầu clickstream kết hợp với trọng số giá trị chu kỳ cụ thể, 60 ví dụ chu kỳ ngày: thời gian từ 8h tới 16g lượng khách hàng truy cập vào trang web cao lại, ta đặt trọng số cao lại Tiến hành thực giai đoạn – Giai đoạn mã hóa, kết số liệu xây dựng bảng Bảng 4.5 Cơ sở liệu thực nghiệm CSDL Transactions Items Số file log Số Record Chu kỳ Bộ liệu 47636 203 168 182026 Day - Bộ liệu 47636 696 168 182026 Hour - 24 Bộ liệu 92443 203 336 350080 Day - Bộ liệu 92443 696 336 350080 Hour - 24 Bộ liệu 126838 203 576 621477 Day - Bộ liệu 126838 696 576 621477 Hour - 24 Giai đoạn giai đoạn khai thác mẫu phổ biến có trọng số diễn dịch mẫu phổ biến thành mẫu có tính chu kỳ Trước đưa liệu vào thực khai thác mẫu – giai đoạn 2, liệu xây dựng gồm file: file chứa thông tin giao dịch, file chứa trọng số Item 4.3 Kết thực nghiệm Để tiến hành thực nghiệm giai đoạn trình, ta cần đề mục tiêu việc thực nghiệm Những mục tiêu cụ thể là: Ngưỡng hỗ trợ thay đổi kết thời gian khai thác số lượng mẫu khai thác nào; kích thước liệu thay đổi thời gian thực khai thác nào; tính hợp lý kết thu Ta tiến hành thực nghiệm với hai nhóm liệu khác nhau, với nhóm liệu thứ gồm ba số liệu 1, 3, nhóm liệu thứ hai gồm số liệu 2, 4, (Bảng 4.5) Từ liệu ta tiến hành thực nghiệm, ta có kết kết luận sau: - Trên liệu ngưỡng hỗ trợ giảm xuống thời gian thực thi trình khai thác tăng lên, số lượng mẫu thu tăng lên 61 - Trên số liệu tăng dần theo số lượng giao dịch, với ngưỡng hỗ trợ liệu có số lượng giao dịch nhiều có thời gian khai thác dài - Các mẫu kết mang tính hợp lý cao Với liệu khai thác với ngưỡng hỗ trợ 8% cho ta mẫu kết Kết diễn dịch thành: Khách hàng có xu hướng vào xem trang kontakt, dolozka, findp, đồng thời vừa vào trang kontakt trang dolozka vào ngày chủ nhật hàng tuần Tương tự liệu 2, khai thác với ngưỡng hỗ trợ 4% ta mẫu kết Các mẫu kết diễn dịch thành: Khách hàng có xu hướng truy cập vào trang Ct khoảng thời gian từ 10h đến 14h ngày Thời gian thực thi số lượng mẫu khai thác khác tùy thuộc vào ngưỡng trọng số hỗ trợ tối thiểu liệu Từ liệu ta tiến hành thực giai đoạn kết bảng biểu đồ Bảng 4.6 Thời gian số lượng mẫu khai thác liệu 1, 3, CSDL Bộ liệu Bộ liệu Bộ liệu Ngưỡng hỗ trợ Thời gian Số lượng mẫu 0.095 0.034 0.045 0.0374 14 0.01 0.0488 72 0.005 0.0942 280 0.001 0.265 1845 0.095 0.059 0.045 0.0652 15 0.01 0.0942 72 0.005 0.1732 253 0.001 0.6036 1842 0.095 0.1122 0.045 0.1168 13 0.01 0.1676 57 62 0.005 0.322 259 0.001 1.191 1854 Biểu đồ thời gian khai thác 1.4 Thời gian thực thi (giây) 1.2 0.8 0.6 0.4 0.2 9.5% 4.5% Bộ Dữ liệu 1.0% Bộ Dữ liệu 0.5% Bộ Dữ liệu 0.1% Hình 4.1 Biểu đồ thời gian khai thác ba liệu 1, 3, Biểu đồ số lượng mẫu khai thác 2000 Số lượng mẫu khai thác 1800 1600 1400 1200 1000 800 600 400 200 9.5% 4.5% Bộ Dữ liệu 1.0% 0.5% Bộ Dữ liệu Bộ Dữ liệu Hình 4.2 Biểu đồ số lượng mẫu khai thác liệu 1, 3, 0.1% 63 Bảng 4.7 Thời gian số lương mẫu khai thác liệu 2, 4, CSDL Bộ liệu Bộ liệu Bộ liệu Trọng số hỗ trợ Thời gian Số lượng mẫu 0.04 0.0476 0.02 0.0494 13 0.01 0.0504 16 0.005 0.1128 83 0.001 0.1128 1546 0.04 0.08 0.02 0.0892 13 0.01 0.0998 16 0.005 0.2156 74 0.001 1.3794 1558 0.04 0.1758 0.02 0.1876 14 0.01 0.1958 16 0.005 0.362 69 0.001 2.3264 1574 64 BIỂU ĐỒ THỜI GIAN KHAI THÁC Thời gian thực thi (giây) 2.5 1.5 0.5 4.0% 2.0% Bộ Dữ liệu 1.0% Bộ Dữ liệu 0.5% 0.1% Bộ Dữ liệu Hình 4.3 Biểu đồ thời gian khai thác liệu 2, 4, BIỂU ĐỒ SỐ LƯỢNG MẪU KHAI THÁC ĐƯỢC Số lượng mẫu khai thác 1800 1600 1400 1200 1000 800 600 400 200 4.0% 2.0% Bộ Dữ liệu 1.0% Bộ Dữ liệu 0.5% Bộ Dữ liệu 0.1% Hình 4.4 Biểu đồ số lượng mẫu khai thác liệu 2, 4, 65 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Nội dung đề tài tập trung vào nghiên cứu khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian dựa tảng thuật toán khai thác mẫu có trọng số Qua q trình thực đề tài, nội dung để tài thực hiện: - Nghiên cứu mơ hình liệu hướng thời gian - Nghiên cứu WIT-tree (Weighted itemset-Tidset tree) - Nghiên cứu thuật tốn khai thác mẫu có tính chu kỳ PPA - Nghiên chứu thuật tốn WIT-FWI - Đề xuất phương pháp khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian - Cài đặt thực nghiệm phương pháp đề xuất: Đã thực hoàn thành giai đoạn sau: o Thực giai đoạn 1, liệu từ trang web địa chỉ: http://lisp.vse.cz/challenge/ecmlpkdd2005/data/clickstream/, liệu có tính hướng thời gian (temporal data) Đã thực trình chuyển đổi (encode) thành liệu giao dịch dùng để khai thác mẫu phổ biến có trọng số Mỗi liệu gồm file: file lưu giao dịch file lưu trọng số o Thực giai đoạn 2, giai đoạn khai thác mẫu phổ biến có trọng số Áp dụng giải thuật WIT-FWI để tiến hành khai thác o Thực giai đoạn 3, giai đoạn diễn dịch (decode) tập mẫu phổ biến trược trả từ giai đoạn thành mẫu có tính chu kỳ Từ phương pháp đề xuất, cách tiếp cận để khai thác mẫu có tính chu kỳ từ liệu hướng thời gian Với liệu thực tế, kết 66 trình thực nghiệm đạt mục tiêu yêu cầu đề tài đặt 5.2 Nhận xét ưu điểm hạn chế Ưu điểm: Nội dung đề tài đưa phương thức tiếp cận khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian Khả ứng dụng cao thực tế Hạn chế: Tuy nhiên, với liệu thực tế đưa vào thử nghiệm thực giai đoạn để khai thác mẫu phổ biến mức hỗ trợ trọng số tương đối thấp Chưa đưa thuật toán khai thác mẫu phổ biến khác để so sách hiệu khả khai thác tốt phương pháp đề xuất 5.3 Hướng phát triển Khai thác mẫu có tính chu kỳ từ liệu hướng thời gian mảng nghiên cứu tương đối mẻ nhiều vấn đề chưa ý đến Hướng phát triển tương lai tiếp tục nghiên cứu khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng không gian thời gian, khai thác mẫu có tính chu kỳ từ liệu tăng trưởng Nghiên cứu cách cập nhật kết CSDL cập nhật 67 TÀI LIỆU THAM KHẢO [1] [2] B Vo, "Bài giảng môn Data mining", Đại học Cơng nghệ - Thành phố Hồ Chí Minh, 2015 R Ramkumar, S Ranka and S Tsur, "Weighted association rules: Model and algorithm", In Proc ACM SIGKDD, 1998 [3] C Cai, A Fu, C Cheng and W Kwong, "Mining Association Rules with Weighted Items", Database Engineering and Applications Symposium, 1998 Proceedings IDEAS'98 International, pp 68-77, 1998 [4] W Wang, J Yang and P Yu, "Efficient Mining of Weighted Association Rules (WAR)", In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, pp 270-274, 2000 [5] F Tao, F Murtagh and M Farid, "Weighted Association Rule Mining using Weighted", In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, vol 30, pp 661-666, 2003 [6] B Vo, F Coenen and B Le, "A new method for mining Frequent Weighted Itemsets based on WIT-trees", Expert Systems with Applications, vol 40, no 4, pp 1256-1264, 2013 [7] R Agrawal, T Imielinski and A Swami, "Mining association rule between sets of items in large databases", In Acm sigmod record, vol 22, no 2, pp 207-216, 1993 [8] R Agrawal and R Srikant, "Fast Algorithms for Mining Association Rules", In Proc 20th int conf very large data bases, VLDB, vol 1215, pp 487-499, 1994 [9] J Han, J Pei and Y Yin, "Mining frequent patterns without candidate generation", In ACM Sigmod Record, vol 29, no 2, pp 1-12, 2000 [10] M J Zaki, S Parthasarathy, M Ogihara and W Li, "New algorithms for fast discovery of association rules", In KDD, vol 97, pp 283-286, 1997 [11] R Agrawal, C Faloutsos and A Swami, "Efficient Similarity Search In Sequence Databases", In International Conference on Foundations of Data Organization and Algorithms, pp 69-84, 1993 [12] J Han, W Wong and Y Yin, "Mining segment-wise periodic patterns in timerelated", In KDD, 68 pp 214-218, 1998 [13] J Han, G Dong and Y Yin, "Efficient Mining of Partial Periodic Patterns in Time", In Data Engineering, 1999 Proceedings., 15th International Conference on IEEE., pp 106-115, 1999 [14] K Yang, T Hong, Y Chen and G Lan, "Projection-based partial periodic pattern mining for event sequences", Expert Systems with Applications, vol 40, no 10, pp 4232-4240, 2013 [15] K J Yang, T P Hong, G C Lan and Y M Chen, "A two-phase approach for mining weighted partial periodic patterns", Engineering Applications of Artificial Intelligence 30, pp 225-234, 2014 [16] A U Tansel and S P Imberman, "Discovery of Association Rules in Temporal Databases", In Information Technology, ITNG'07 Fourth International Conference on IEEE., pp 371-376, 2007 [17] S LAXMAN and P S SASTRY, "A survey of temporal data mining", Sadhana, vol 31, no 2, pp 173-198, 2006 [18] R U Kiran, H Shang, M Toyoda and M Kitsuregawa, "Discovering Recurring Patterns in Time Series", In EDBT, pp 97-108, 2015 ... mẫu có tính chu kỳ 45 Phương pháp khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian đề xuất 46 3.2 Khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời. .. thác mẫu có tính chu kỳ 35 2.4.Kết luận chương 41 CHƯƠNG 3: THUẬT TỐN KHAI THÁC MẪU CĨ TÍNH CHU KỲ XÉT ĐẾN TRỌNG SỐ TỪ DỮ LIỆU HƯỚNG THỜI GIAN 43 3.1 Mẫu có tính chu kỳ xét. .. Hình 3.1 Mơ tả chu kỳ .45 Hình 3.2 Mơ tả item mẫu khai thác mẫu có tính chu kỳ 45 Hình 3.3 Quy trình khai thác mẫu có tính chu kỳ xét đến trọng số từ liệu hướng thời gian