1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

26 129 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1,41 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN HOÀNG NHẬT KHAI PHÁ TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG TRONG LĨNH VỰC MUA BÁN HÀNG Chun ngành: HỆ THỐNG THƠNG TIN Mã số: 61.49.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng – Năm 2017 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH Phản biện 1: TS Hoàng Thị Thanh Hà Phản biện 2: TS Trần ThiênThành Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp Trường Đại học Sư phạm – ĐHĐN vào ngày 30 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng - Trung tâm thông tin học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Khai thác liệu khái niệm đời vào năm cuối thập kỷ 80, q trình tìm kiếm, khám phá nhiều góc độ khác nhằm phát mối liên hệ, quan hệ liệu, đối tượng bên CSDL, kết việc khai thác xác định mẫu hay mơ hình tồn bên chúng nằm ẩn CSDL Về chất giai đoạn rút trích tìm mẫu, mơ hình hay thơng tin mới, tri thức tiềm ẩn có CSDL chủ yếu phục vụ cho mơ tả dự đốn Đây giai đoạn quan trọng trình phát tri thức từ CSDL, tri thức hỗ trợ việc định, điều hành khoa học kinh doanh Trong năm gần nhiều kỹ thuật khai thác liệu phát triển Các hướng tiếp cận khai thác liệu phân loại dựa vào sở liệu làm việc như: CSDL giao dịch, CSDL tạm thời, CSDL quan hệ, CSDL đa phương tiện v v Có nhiều phương pháp khai thác liệu đề xuất như: luật kết hợp (Apriori), phân lớp, gom nhóm (K-mean, K-medoids, ), khai thác mẫu tuần tự… Khai phá liệu thu hút quan tâm nhiều nhà nghiên cứu, nhờ có nhiều ứng dụng thực tiễn nhiều lĩnh vực y tế, kinh doanh, ngân hàng, Trong đó, nhu cầu thêm giao dịch vào CSDL xóa số giao dịch CSDL ứng dụng giới thực cần thiết Do việc xây dựng chọn lựa nên thuật tốn có hiệu suất xử lý tốt để xử trường hợp CSDL tăng trưởng yêu cầu cấp thiết hướng nghiên cứu phát triển thuật toán khai thác tập phổ biến liệu tăng trưởng hướng nghiên cứu đầu tư phát triển mạnh Đã có nhiều thuật tốn đời, nhiên thuật tốn có ưu, khuyết điểm khác nhau, việc nghiên cứu chọn thuật tốn phù hợp có hiệu suất xử lý cao để xử lý CSDL trường hợp phát sinh giao dịch cần thiết Đó lý chọn đề tài : “Nghiên cứu số phương pháp khai phá tập phổ biến sở liệu tăng trưởng lĩnh vực mua bán hàng” để làm đề tài luận văn thạc sĩ Mục tiêu nghiên cứu - Tìm hiểu phương pháp khai phá sở liệu - Tìm hiểu kỹ thuật khai phá liệu dựa khai thác luật kết hợp CSDL giao dịch: o Nghiên cứu, phân tích, đánh giá số phương pháp khai phá tập phổ biến sở liệu tĩnh: Apriori, FP- Tree o Nghiên cứu, phân tích, đánh giá phương pháp khai phá tập phổ biến sở liệu tăng trưởng: Thuật toán FUP, Pre – large– Itemset, Pre- FUFP - So sánh hiệu thuật toán Pre- FUT thuật toán Pre – large – Itemset Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu - Thuật toán Apriori - Thuật toán FP- Tree - Thuật toán FUP - Thuật toán Pre – large – Itemset - Thuật toán Pre-FUFP - Thuật toán Pre-FUT - Các CSDL phát sinh thêm giao dịch, cụ thể giao dịch thực toán mua hàng Phạm vi nghiên cứu - Tập phổ biến phát sinh giao dịch - Kỹ thuật khai phá tập phổ biến dựa khai thác luật kết hợp CSDL phát sinh giao dịch Phương pháp nghiên cứu 4.1 Nghiên cứu lý thuyết - Nghiên cứu tài liệu, ngơn ngữ cơng nghệ có liên quan - Kỹ thuật khai phá liệu dựa khai thác luật kết hợp CSDL giao dịch - Kỹ thuật khai phá tập phổ biến sở liệu tĩnh - Kỹ thuật khai phá tập phổ biến sở liệu tăng trưởng 4.2 Nghiên cứu thực nghiệm - Tiến hành thu thập tổng hợp tài liệu có liên quan đến kỹ thuật khai phá liệu sử dụng luật kết hợp, thuật toán khai phá liệu CSDL tĩnh CSDL động - So sánh hiệu xuất xử lý CSDL động thuật toán PreFUT Pre- large- Itemset CSDL giao dịch mua hàng siêu thị Dự kiến kết 5.1 Kết lý thuyết - Hiểu thêm phương pháp khai phá liệu o Kỹ thuật khai phá tập phổ biến dựa khai thác luật kết hợp CSDL giao dịch o Các phương pháp khai phá tập phổ biến sở liệu tĩnh: Apriori, FP- Tree o Các phương pháp khai phá tập phổ biến sở liệu tăng trưởng: Thuật toán FUP, Pre- FUFP - Cải tiến hiệu suất thuật toán FUP nhanh thuật toán Pre-FUT 5.2 Kết thực tiễn Chọn thuật toán phù hợp để cải tiến hiệu suất kỹ thuật khai phá tập phổ biến dựa luật kết hợp trường hợp CSDL tăng trưởng ,phát sinh thêm giao dịch mới, giúp quản lý luật khai phá hiệu hơn, từ tiến hành tiếp trình sinh luật kết hợp hiệu Có thể áp dụng thuật tốn để xử lý CSDL tăng trưởng nhiều lĩnh vực khác Ý nghĩa khoa học thực tiễn Áp dụng lý thuyết khai thác luật kết hợp CSDL giao dịch để nghiên cứu thuật toán khai phá tập phổ biến CSDL tăng trưởng Về mặt thực tiễn, việc nghiên cứu giúp chọn thuật toán phù hợp giúp cải thiện thời gian xử lý CSDL giao dịch tăng trưởng, giúp quản lý, cập nhật luật kỹ thuật khai thác liệu dựa khai thác luật kết hợp CSDL tốt Bố cục luận văn Chương 1: Tổng quan khai thác tập phổ biến sở liệu tăng trưởng Trong chương này, chúng tơi trình bày sở lý thuyết làm tảng để nghiên cứu, bao gồm: Tổng quan khai phá liệu, kỹ thuật khai phá liệu Tìm hiểu số phương pháp, thuật toán khai phá liệu sở liệu tĩnh : Apriori, FP Tree, Apriori-Tid, Apriori Hybrid Chương 2: Một số phương pháp khai thác tập phổ biến sở liệu tăng trưởng Trong chương này, chúng tơi trình bày kiến thức lý thuyết, thuật tốn, ví dụ minh họa thuật tốn khai phá tập phổ biến sở liệu tăng trường như: FUP, Pre – large – Itemset, Pre- FUFP, Pre – FUT Chương 3: Thực nghiệm Trong chương này, chúng tơi xây dựng ứng thuật tốn khai phá tập phổ biến CSDL tăng trưởng đánh giá cao Pre-FUT thuật toán Pre – Large – Itemset sử dụng ngôn ngữ C Tiến hành so sánh hiệu suất, thời gian xử lý thuật tốn để tìm thuật tốn hiệu CSDL sử dụng giao dịch tốn mua hàng cơng ty mua bán sản phẩm trực tuyến từ năm 2010 đến 2011 Cuối đánh giá, kết luận hướng phát triển đề tài CHƯƠNG TỔNG QUAN VỀ KHAI THÁC TẬP PHỔ BIẾN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Mở đầu Khai thác liệu khái niệm đời vào năm cuối thập kỷ 80, q trình tìm kiếm, khám phá nhiều góc độ khác nhằm phát mối liên hệ, quan hệ liệu, đối tượng bên CSDL, kết việc khai thác xác định mẫu hay mô hình tồn bên chúng nằm ẩn CSDL Trong năm gần nhiều kỹ thuật khai thác liệu phát triển Các hướng tiếp cận khai thác liệu phân loại dựa vào sở liệu làm việc như: CSDL giao dịch, CSDL tạm thời, CSDL quan hệ, CSDL đa phương tiện v v Có nhiều phương pháp khai thác liệu đề xuất như: luật kết hợp (Apriori), phân lớp, gom nhóm (K-mean, K-medoids, ), khai thác mẫu tuần tự… Khai phá liệu áp dụng nhiều lĩnh vực: Hình 1.1 Một số lĩnh vực liên quan đến khai phá liệu 1.1.2 Kiến trúc hệ thống khai phá liệu Hình 1 Khám phá tri thức sở liệu điển hình 1.1.3 Các giai đoạn trình khai phá liệu Hình Các bước quy trình khai phá liệu Quá trình xử lý khai phá liệu bắt đầu việc xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Tiếp theo thu thập liệu có liên quan xử lý chúng thành dạng cho thuật toán khai phá liệu hiểu 1.1.4 Một số kỹ thuật khai phá liệu a Phân lớp liệu b Phân nhóm liệu c Hồi qui (Regression) d Tổng hợp (summarization) e Mơ hình hóa phụ thuộc (dependency modeling) f Phát thay đổi độ lệch (change and deviation dectection): 1.1.5 Các sở liệu phục vụ cho khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác nhau: - Cơ sở liệu quan hệ - Cơ sở liệu giao tác - Cơ sở liệu khơng gian - Cơ sở liệu có yếu tố thời gian - Cơ sở liệu đa phương tiện 1.1.6 Các phương pháp khai phá liệu g Phân lớp dự đoán (Classification & Prediction) h Phân cụm phân đoạn (Clusterring and Segmentation) i Khai phá chuỗi theo thời gian (Sequential temporal patterns) j Mô tả khái niệm tổng hợp hóa (Summarization) k Luật kết hợp (Association rules) 1.2 MỘT SỐ PHƯƠNG PHÁP KHAI THÁC TẬP PHỔ BIẾN TRÊN CSDL TĨNH 1.2.1 Mở đầu Hiện có nhiều phương pháp khai thác tập phổ biến CSDL tăng trưởng Trong số khai thác luật kết hợp CSDL giao dịch kỹ thuật phổ biến khai thác liệu, chia làm hướng chính: Phương pháp khai thác tập phổ biến mà cần phải phát sinh tập ứng viên 10 tập ứng viên từ tập phổ biến bước trước, sử dụng kĩ thuật “tỉa” để bỏ tập ứng viên không thỏa mãn ngưỡng hỗ trợ cho trước Các ký hiệu sử dụng thuật toán: Lk = {l1, l2,…, li, …} tập k-itemset phổ biến Ck = {c1, c2,…, ci, …} tập k-itemset ứng viên, ci có trường itemset count dùng để chứa tập thuộc tính độ phổ biến tập thuộc tính sở liệu Thuật tốn: INPUT: Tập giao dịch D, ngưỡng hỗ trợ minsup OUTPUT: Tập Answer bao gồm tập phổ biến D Phương pháp: L1 = {large 1-itemset}; for (k = 2; Lk-1 ≠ ∅; k++) begin Ck = apriori_gen(Lk-1); // sinh tập ứng viên Ck; forall giao dịch t ∈ D begin Ct = subset(Ck, t); // tập ứng viên chứa t; forall tập mục ứng cử c ∈ Ct c.count ++ ; end; Lk = {c ∈ Ck | c.count ≥ minsup} end; Answer = k Lk ; 1.2.4 Phương pháp FP-Tree Thuật toán xây dựng FP Function createFPtree() INPUT: CSDL D chứa giao dịch, ngưỡng minsup OUTPUT: Cây FP-tree 11 Bước 1: Duyệt D tính độ phổ biến item Sắp xếp item theo thứ tự giảm dần độ phổ biến, ta tập kết L Bước 2: Tạo nút gốc cho T, ký hiệu root Duyệt D lần thứ Ứng với giao tác D thực cơng việc sau: • Chọn xếp item phổ biến theo thứ tự f_list • Giao dịch xét lý hiệu sau [p|r_list] gồm phần, p phần tử item P item lại giao dịch (không bao gồm item không thỏa ngưỡng phổ biến) Gọi hàm insert_tree( [p|r_list], root ) 1.2.5 Một số thuật toán khai thác tập phổ biến khác 1.2.6 Một số cấu trúc liệu giúp cải thiện thuật toán Apriori a Hash-tree b Trie 1.3 KẾT CHƯƠNG Khai phá liệu ngày đóng vai trò quan trọng việc tìm tri thức thực có ích, hiệu tiềm ẩn khối liệu thông tin khổng lồ hàng ngày thu thập, lưu trữ để giúp cá nhân tổ chức đưa định xác nhanh chóng Chương giới thiệu kiến thức chung lĩnh vực khai phá liêu, có nhiều giải pháp phương pháp ứng dụng khai phá liệu, thực tế q trình gặp khơng khó khăn thách thức như: - Kích thước liệu ngày lớn, lên đến gigabytes, terabytes chí lớn - Số lượng luật rút từ việc khai thác liệu lớn - Các luật rút từ việc khai thác liệu phản ánh tình 12 trạng liệu thời điểm định Để rút luật kết hợp có độ tin cậy cao ổn định cần phải thu thập liệu thời gian đáng kể - Vì vậy, có vấn đề đặt việc khai thác liệu là: - Thiết kế thuật toán hiệu cho việc khai thác luật mẫu phổ biến - Thiết kế thuật toán hiệu để cập nhật quản lý luật khai thác Vấn đề thứ nghiên cứu từ lâu, có nhiều thuật toán hiệu đề xuất : Apriori, FP-Tree, Apriori- Tid, Apriori – Hybird Vấn đề thứ hai nghiên cứu phát triển thành nhiều thuật toán với hiệu sử dụng khác nhau, tìm hiểu số thuật tốn tiêu biểu để giải vấn để chương CHƯƠNG MỘT SỐ PHƯƠNG PHÁP KHAI THÁC TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG 2.1 THUẬT TỐN FUP Thuật tốn FUP (Fast-UPdate algorithm) Cheung et al đề xuất năm 1996 [6] Thuật toán xử lý trường hợp thêm giao dịch vào CSDL 2.1.1 Một số ký hiệu Một tập X tập phổ biến CSDL DBdb X.support ≥ s×(D+d) 13 Hình 2.1 trường hợp xảy thêm giao dịch vào CSDL [6] Như có trường hợp xảy thêm giao dịch vào CSDL Trường hợp 1: Một itemset phổ biến (large) CSDL ban đầu giao dịch thêm vào Trường hợp 2: Một itemset phổ biến (large) CSDL ban đầu không phổ biến (small) giao dịch thêm vào Trường hợp 3: Một itemset không phổ biến (small) CSDL ban đầu phổ biến (large) giao dịch thêm vào Trường hợp 4: Một itemset không phổ biến (small) CSDL ban đầu giao dịch thêm vào Nhận xét: Trường hợp itemset phổ biến CSDL sau cập nhật, trường hợp itemset không phổ biến CSDL sau cập nhật, trường hợp không ảnh hưởng đến kết tập phổ biến khai thác Trường hợp loại bỏ số itemset tồn tập phổ biến CSDL gốc, trường hợp bổ xung thêm số itemset vào tập phổ biến khai thác Một thuật toán quản lý tốt tập phổ biến khai thác trường hợp giao dịch thêm vào phải làm số công việc sau 14 - Đánh giá xem các itemset thuộc tập phổ biến (large itemset) CSDL ban đầu có phổ biến (large) CSDL sau cập nhật hay khơng - Tìm itemset thuộc tập khơng phổ biến (small itemset) CSDL ban đầu trở thành phổ biến (large) CSDL sau cập nhật Tìm itemset xuất giao dịch thêm vào xác định xem chúng có phổ biến (large) CSDL sau cập nhật không 2.1.2 Chi tiết thuật toán FUP Bước 1: Tại lần lặp, độ hỗ trợ itemset tập large k-itemset L cập nhật dựa vào db để lọc itemset không phổ biến (losers gọi small itemset hay tập khơng tập phổ biến DBdb) Ta cần quét db để tiến hành cập nhật độ hỗ trợ Bước 2: Trong quét db tập hợp ứng viên Ck trích xuất từ db với độ độ hỗ trợ Độ hỗ trợ phần tử Ck cập nhật dựa vào DB để tìm tập tập phổ biến Bước 3: Tập Ck cắt tỉa dựa vào db trước dựa vào DB Bước 4: Kích thướt CSDL sau cập nhật lần lặp giảm xuống phép cắt tỉa dựa vào item db Bước 1: Bổ đề 1: Một 1-itemset X  L1 không phổ biến (  L1 ) CSDL sau cập nhật DBdb X.supportUD < s × (D+d) CM: Dựa vào định nghĩa độ hỗ trợ tối thiểu định nghĩa large 15 1-itemset Bổ đề 2: Một 1-itemset X  L1 trở thành phổ biến (winner hay large itemset  L1 ) CSDL sau cập nhật DBdb X.supportd ≥ s×d CM: Vì X  L1 nên X.support < s×D Nếu X.support < s×d X.supportUD = X.supportD + X.supportd < s×(D+d) nên X  L1 Vì để X  L1 X.supportd ≥ s×d Hình 2.2 Tiến trình thực bước thụât tốn FUP [6] Mơ tả chi tiết bước 1: - Quét db, ∀X ∈ L1, cập nhật X.supportUD, sau quét xong db ∀X ∈ L1 kiểm tra X.supportUD < s × (D+d) X thỏa X loser loại X khỏi L1 - Trong qt db có tập C1 dùng để lưu itemset X  T với Tdb X  L1, sau dựa vào bổ đề X C1 X thỏa X.supportd < s×d loại X khỏi C1 - Quét DB để cập nhật X.supportUD ∀X ∈ C1, cách kiểm tra độ hỗ trợ tập phổ biến C1 tìm thấy Ta kết hợp tập phổ biến vừa tìm thấy C1 với tập L1 ta tập L1 2.1.3 Ví dụ 16 2.2 KHÁI NIỆM PRE-LARGE-ITEMSET 2.3 THUẬT TỐN PRE-LARGE-ITEMSET 2.3.1 Các ký hiệu lý thuyết liên quan 2.3.2 Thuật tốn 2.3.3 Ví dụ minh họa 2.4 THUẬT TỐN PRE-FUFP 2.3.4 Các ký hiệu 2.3.5 Thuật tốn 2.3.6 Ví dụ minh hoạ 2.5 THUẬT TOAN PRE-FUT Thuật tốn Pre-FUT sử dụng cấu trúc trie kết hợp với khái niệm pre-large itemset để giải cho trường hợp thêm giao dịch vào CSDL Trie [5] cấu trúc cài đặt hiệu thuật toán Apriori [1, 2] Với cấu trúc Trie việc phát sinh tập ứng viên việc xác định độ hỗ trợ tập ứng viên dễ dàng so với cài đặt thuật toán Apriori cấu trúc băm [2] Cấu trúc Trie lưu trữ hết tất tập phổ biến khai thác Ta cần duyệt qua cấu trúc Trie theo chiều sâu (DFS) theo chiều rộng (BFS) ta có tập tất tập phổ biến 2.3.7 Các ký hiệu 2.3.8 Thuật tốn Pre-FUT 2.3.9 Ví dụ thuật tốn Pre-FUT 2.6 KẾT CHƯƠNG Chương trình bày cho số thuật toán tiêu biểu để khai phá tập phổ biến CSDL tĩnh: Apriori, FP-Tree, Apriori-Tid, Apriori- Hybrid Các thuật toán khai phá tập phổ biến CSDL tĩnh : FUP, Pre-large- Itemset, Pre-FUP, Pre-FUT Mỗi thuật tốn có 17 ưu điểm hạn chế riêng, bật thuật tốn Pre-FUT đời sau khắc phục khuyết điểm thuật toán trước, cải thiện hiệu suất xử lý CSDL lớn phát sinh thêm giao dịch Chúng ta thực nghiệm điểu chương sau CHƯƠNG THỰC NGHIỆM VỚI DỮ LIỆU THỰC TẾ 3.1 MÔ TẢ DỮ LIỆU Trong đồ án sử dụng liệu từ tất giao dịch mua hàng xảy từ ngày 01/12/2010 đến ngày 09/12/2011 công ty bán lẻ đồ lưu niệm trực tuyến Anh Số lượng giao dịch : 540909 Số lượng sản phẩm : 3958 Dữ liệu cung cấp website https://archive.ics.uci.edu/ml/datasets/Online+Retail# Hình Các giao dịch đưa vào thuật tốn 18 Hình Các giao dịch chuyển đổi sang file DAT 3.2 MƠ TẢ CHƯƠNG TRÌNH Luận văn so sánh hiệu thuật toán Pre-FUT thuật toán pre-large-itemset nêu mục 2.3 chương Thuật toán pre-large-itemset cài đặt với cấu trúc băm Thuật toán Pre-FUT cài đặt sở thuật toán Apriori túy, sử dụng cấu truc Trie, sử dụng khải niệm Pre Large Itemset để xử lý CSDL động phát sinh giao dịch Kết chạy thành cơng thuật tốn cấu trúc câu Trie lưu trữ tập pre-large large toàn CSDL, đồng thời lưu trữ tập rescan itemset để phục vụ cho lần thêm giao dịch Hình 3.3 Các file sinh sau thực thành cơng thuật tốn 19 Hình 3.4 File kết tập large sinh thực thành cơng thuật tốn Hình 3.5 File kết tập pre large sinh thực thành công thuật tốn 20 Hình 3.6 File report tổng hợp thời gian xử lý tập phổ biến phát sinh giao dịch Trong phần thực nghiệm thuật tốn Pre-FUT thuật toán pre-large-itemset cài đặt C++ máy tính PC với CPU Intel Core i5, 2.3Ghz, RAM 4GB, Windows 10 CSDL thực nghiệm lấy từ nguồn Chương trình thực hiện: Code Block: 21 Bảng 3.1 CSDL thực nghiệm Databases Online retail #Trans #Items 531909 3958 3.3 ĐÁNH GIÁ Thí nghiệm thứ so sánh hiệu thuật toán hai ngưỡng Sl Su biến thiên Các thông số thể Bảng 3.7 Kết thực nghiệm thể hình 3.7 Số lượng tập prelarge large itemset thể Bảng 3.3 Bảng Bảng giá trị thông số CSDL thực nghiệm Databases D T Sl Su f Độ biến thiên minsup Onlie 53190 3958 0.03 0.08 13727 0.002 retail 60 50 40 30 20 10 0.08 0.082 0.084 Pre- large- itemset 0.086 0.088 0.01 Pre-FUT Hình 3: Kết so sánh CSDL Online retail thí nghiệm thứ 22 Bảng 3 Số lượng tập pre-large large itemset CSDL Sl 0.03 0.032 0.034 0.036 0.038 0.04 Su 0.08 0.082 0.084 0.086 0.088 0.01 439 406 375 351 332 315 52905 19271 7909 4384 2792 1972 Large Prelarge Thí nghiệm thứ hai so sánh hiệu thuật toán thêm liên tiếp hàng loạt giao dịch Các thông số thể Bảng 3.4 Kết thực nghiệm lần thứ hai thể hình 3.8 Bảng Các thông số thứ nghiệm thứ hai Databases Sl Su D T f Số lần thêm Online retail 0.04 0.09 53190 3958 13727 140 120 100 80 60 40 20 Pre- large- itemset Pre-FUT Hình Kết so sánh CSDL Online retail thí nghiệm hai 10 23 Nhận xét: Trong thí nghiệm thứ với CSDL Online retail, ứng với ngưỡng Sl = 0.04 Su = 0.09 f = 13727 lần thí nghiệm thêm vào CSDL gốc 1000 giao dịch Như đến lần thêm thứ tổng số giao dịch thêm vào kể từ lần thêm > f nên bắt buộc thuật tốn phải xử lý lại tồn CSDL để xử lý itemset tập rescan itemset, xác định itemset thuộc tập pre-large large itemset để cập nhật lại trie phục vụ cho lần thêm giao dịch Trên Hình 3.8 có điểm đồ thị thay đổi đột ngột, điểm mà thuật tốn phải xử lý lại tồn CSDL Do thời gian có chênh lệch lớn so với xử lý giao dịch cần thêm vào 3.4 KẾT CHƯƠNG Dựa vào kết thực nghiệm, thấy thời gian thực thi thuật toán Pre-FUT (sử dụng khái niệm pre-large itemset kết hợp với cấu trúc Trie) nhanh gấp nhiều lần so với thuật toán FUP (sử dụng khái niệm pre-large itemset kết hợp với cấu trúc băm [2]) trường hợp thuật toán phải quét xử lý lại toàn CSDL gốc KẾT LUẬN KẾT QUẢ ĐẠT ĐƯỢC Như trình bày chương trước, mục tiêu luận văn đề nghiên cứu thuật toán khai phá tập phổ biến CSDL tăng trưởng có thẻ chọn thuật tốn tối ưu để xử lý CSDL tăng trưởng hiệu nhất, giảm thời gian phải xử lý CSDL có phát sinh thêm giao dịch, để từ phát triển luật khai phá kết hợp cách hiệu Thuật toán Pre- FUT phát triển từ thuật toán khai phá 24 tập phổ biến CSDL tăng trưởng có trước đó, với tiền đề thuật tốn khai phá CSDL tĩnh Apriori, FP-Trie, sử dụng cấu trúc CSDL Trie tận dụng ưu điểm khắc phục nhược điểm thuật toán xây dựng trước Giảm thời gian xử lý CSDL phát sinh giao dịch tăng hiệu trình khai phá liệu HẠN CHẾ Hiện hướng tiếp cận khai thác tập phổ biến CSDL tăng trưởng dựa vào khái niệm pre-large itemset [10] hướng tiếp cận hiệu Tuy nhiên, thuật toán xử lý trường hợp thêm giao dịch vào CSDL Đối với trường hợp xóa, sửa giao dịch CSDL, thuật toán chưa xử lý HƯỚNG PHÁT TRIỂN Hướng phát triển luận văn tương lai kết hợp khái niệm pre-large itemset với cấu trúc IT-tree (Itemset-Tidset tree) [22, 23] để giải cho trường hợp thêm, xóa, sửa giao dịch CSDL ITtree cấu trúc dùng cho khai thác tập phổ biến dựa vào kỹ thuật chia để trị Cũng giống cấu trúc Trie [5] cải tiến tồn tập phổ biến lưu trữ tiền tố, cấu trúc IT-tree có ưu điểm không cần phát sinh hết tập ứng viên thuật toán Apriori mà ứng với ứng viên sinh dùng Tidset để tính nhanh độ hỗ trợ, giải vấn đề bùng nổ tập ứng viên cần phải lưu trữ để tính độ hỗ trợ Với ưu điểm so với cách tiếp cận dựa cấu trúc Trie cách tiếp cận dựa FP-tree rõ ràng thấy cách tiếp cận dựa cấu trúc IT-tree khai thác tập phổ biến liệu tăng trưởng hứa hẹn cách tiếp cận hiệu tương lai ... pháp khai phá liệu o Kỹ thuật khai phá tập phổ biến dựa khai thác luật kết hợp CSDL giao dịch o Các phương pháp khai phá tập phổ biến sở liệu tĩnh: Apriori, FP- Tree o Các phương pháp khai phá tập. .. Các sở liệu phục vụ cho khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác nhau: - Cơ sở liệu quan hệ - Cơ sở liệu giao tác - Cơ sở liệu không gian - Cơ sở liệu. .. số phương pháp khai thác tập phổ biến sở liệu tăng trưởng Trong chương này, chúng tơi trình bày kiến thức lý thuyết, thuật tốn, ví dụ minh họa thuật toán khai phá tập phổ biến sở liệu tăng trường

Ngày đăng: 25/05/2019, 13:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w