Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số

64 0 0
Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn ThS: Khai thác Top - rank k cho tập đánh trọng trên cơ sở dữ liệu có trọng số tài liệu, giáo án, bài giảng , lu...

B GIÁO DỤC VÀ ĐÀO TẠO BỘ TRƯỜNG NG ĐẠI Đ HỌC CÔNG NGHỆ TP.HCM MAI NGỌC THU KHAI THÁC TOP-RANK TOP K CHO TẬP P ĐÁNH TR TRỌNG TRÊN CƠ SỞ S DỮ LIỆU CÓ TRỌNG SỐ Ố LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60480201 TP HỒ H CHÍ MINH, tháng 01 năm 2015 .Tài liệu Há»— trợ ôn tập com Luận văn Luận án BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM - MAI NGỌC THU KHAI THÁC TOP-RANK K CHO TẬP ĐÁNH TRỌNG TRÊN CƠ SỞ DỮ LIỆU CÓ TRỌNG SỐ LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng 01 năm 2015 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM Cán hướng dẫn khoa học: TS Võ Đình Bảy (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày tháng 02 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS TS Lê Hoàng Thái Chủ tịch PGS TS Vũ Hải Quân Phản biện TS Tô Hoài Việt Phản biện TS Vũ Thanh Hiền Ủy viên TS Lê Mạnh Hải Ủy viên Xác nhận Chủ tịch Hội đồng đánh giá luận văn sau luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá luận văn Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA Xà HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 07 tháng 01 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Mai Ngọc Thu Giới tính: Nữ Ngày, tháng, năm sinh: 24/10/1979 Nơi sinh: Bình Dương Chuyên ngành: Công nghệ thông tin MSHV: 1241860021 I- Tên đề tài: KHAI THÁC TOP-RANK K CHO TẬP ĐÁNH TRỌNG TRÊN CƠ SỞ DỮ LIỆU CÓ TRỌNG SỐ II- Nhiệm vụ nội dung: Đề tài nghiên cứu đơn giản tập trung vào nghiên cứu thuật toán khai thác tập đánh trọng số dựa thuật toán khai thác tập phổ biến sở liệu giao dịch nhị phân Đề xuất thuật toán khai thác Top-rank-k tập đánh trọng số dựa sở liệu giao dịch có trọng số III- Ngày giao nhiệm vụ: 01/10/2014 IV- Ngày hoàn thành nhiệm vụ: 20/01/2015 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TS VÕ ĐÌNH BẢY Tài liệu Há»— trợ ôn tập com KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án i LỜI CAM ĐOAN Cơng trình nghiên cứu đề tài luận văn tơi thực hiện, tơi cam đoan không chép liệu từ cơng trình nghiên cứu khác Tất tham khảo từ nghiên cứu có liên quan nêu rõ nguồn gốc sử dụng, danh mục tài liệu tham khảo có nêu rõ luận văn Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tác phẩm, tạp chí trang web theo danh mục tài liệu luận văn Tác giả luận văn Mai Ngọc Thu Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án ii Lời Cảm Ơn Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến Thầy, TS Võ Đình Bảy nhờ động viên, bảo tận tình, truyền đạt kiến thức tạo điều kiện tốt để em hồn thành luận văn Em xin gửi lời cảm ơn đến quý Thầy Cô khoa Công nghệ Thông tin trường Đại học Công Nghệ Tp HCM động viên hỗ trợ em nhiều kiến thức quý báu giúp em hoàn thành tốt luận văn Em xin cảm ơn quý Thầy Cơ, Anh chị làm việc Phịng Sau đại học hỗ trợ em nhiều thủ tục văn bản, giấy tờ liên quan đến luận văn Xin cảm ơn gia đình, đồng nghiệp, bạn bè động viên em suốt thời gian thực luận văn Tp Hồ Chí Minh, ngày 20 tháng 01 năm 2015 Học viên Mai Ngọc Thu Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án iii TĨM TẮT Đề tài nghiên cứu tốn khai thác tập phổ biến sở liệu số lượng, nghiên cứu toán khai thác Top-rank-k tập phổ biến, nhằm phát triển thuật toán khai thác Top-rank-k tập phổ biến sở liệu đánh trọng số Các nghiên cứu trình bày cho thấy việc khai thác mẫu phổ biến chủ yếu dựa vào sở liệu nhị phân, cho thấy người mua có mua sản phẩm hay không, chưa hỗ trợ việc khai thác trọng số sản phẩm Vì việc khai thác mẫu phổ biến Top-rank-k đánh trọng có giá trị hiệu cao khai thác liệu Thông tin từ sở liệu nhị phân cho biết khách hàng có mua sản phẩm hay khơng, không khai thác thông tin khác tần suất sản phẩm hay giá thành Tương tự hạng mục giao dịch có trọng số khác tùy theo loại sở liệu cụ thể Vì khai thác tập phổ biến đánh trọng số sở liệu trọng số hướng cho kết nghiên cứu mang tính thực tiễn cao Luận văn nghiên cứu thuật toán khai thác tập đánh trọng, áp dụng Diffset, thuật toán WIT-FWI-DIFF, đề nghị thuật toán khai khác Top-rank-k sử dụng Diffset nhằm giảm thời gian khai thác tiết kiệm nhớ lưu trữ .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án iv ABSTRACT Thesis researches topics of itemset mining problem on the quantitative databases, researches exploiting Top-rank-k itemset, to develop algorithms to exploit Top-rank-k itemset in the database that data is weighted The researches presented above show that the exploitation of the common template based primarily on the basis of binary data, indicating buyers to purchase any product or not, but does not support the exploitation of the weight of each product yet So exploiting the popular Top-sample rank-k-value is considered significant efficiency in data mining Information from the quantitative database only provides if customers buy the product or not, does not mining other information such as the frequency of product or price Similarly each item in the transaction have different weights depending on the specific type of database that occur subsequently exploiting the common practice is weighted on the basis of weighted data is a new direction research results for practical The thesis applies Diffset, the algorithm WIT-FWI-DIFF, and propose an algorithm mining Top-rank-k by used Diffset to reduce extraction time and save memory storage .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv DANH MỤC HÌNH vii DANH MỤC BẢNG viii DANH MỤC TỪ VIẾT TẮT ix CHƯƠNG 1: MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài 1.3 Giới hạn đề tài 1.4 Bố cục đề tài CHƯƠNG 2: TỔNG QUAN CÁC LĨNH VỰC NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT 2.1 Các khái niệm, định nghĩa 2.1.1 Tổng quan khai thác luật kết hợp 2.1.2 Phương pháp Apriori 2.1.3 Phương pháp IT-tree 10 2.1.4 Phương pháp FP-tree 14 2.2 Tổng quan khai thác luật kết hợp CSDL đánh trọng số 19 2.2.1 Định nghĩa tính chất tập đánh trọng số 19 2.2.2 Thuật toán khai thác dựa WIT-tree[9] 20 2.3 Phương pháp khai thác Top-rank-k mẫu phổ biến Node-list 25 2.3.1 Cấu trúc PPC-tree 25 2.4 Tổng kết chương 33 CHƯƠNG 3: THUẬT TOÁN KHAI THÁC TOP-RANK-K TẬP ĐÁNH TRỌNG PHỔ BIẾN 34 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án vi 3.1 Top-rank-k tập phổ biến đánh trọng phổ biến 34 3.1.1 Định nghĩa Top-rank-k tập đánh trọng phổ biến 34 3.1.2 Nghiên cứu liên quan 35 3.2 Top-rank-k đánh trọng số sử dụng Diffset 35 3.2.1 Giới thiệu Diffset 35 3.2.2 Thuật toán dựa Diffset 36 3.2.2.1 Thuật toán WIT-FWI-DIFFdựa Diffset 36 3.2.2.2 Thuật toán Top-rank-k dựa Diffset 39 3.3 Tổng kết chương 44 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 45 4.1 Môi trường thực nghiệm 45 4.2 Đặc điểm sở liệu thực nghiệm 45 4.3 Kết thực nghiệm 46 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 5.1 Kết luận 49 5.2 Nhận xét ưu điểm hạn chế 49 5.3 Hướng phát triển 50 TÀI LIỆU THAM KHẢO 51 Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 37 Sắp nút L r tăng dần theo ws Khởi tạo tập FWI = ∅ Gọi hàm FWI-EXTEND-DIFF với tham số L r FWI-EXTEND-DIFF(L r) 5.Cho nút li L r Thêm (li.itemset, li.ws) vào FWI Tạo tập L i cách nối livới tất lj theo sau L r: Thiết lập tập X = li.itemset ∪ lj.itemset Nếu L rlà mức Y = t(li)\t(lj) // theo công thức 3.1 10 Ngược lại Y= d(lj)\d(li) // theo cơng thức 3.2 11 Nếu Y= ∅ ws(X)= ws(li) // theo định lý 3.3 12 Ngược lại ws(X) = COMPUTE-WS-DIFF(Y) // theo 13 Nếu ws(X) thỏa minws 14 Thêm nút 〈 , , ( ) 〉 vào L i 15 Nếu số lượng nút L i≥ 16 Gọi đệ qui hàm FWI-EXTEND-DIFF với biến L i } Bảng 5: Thuật toán WIT-FWI-DIFF cho khai thác tâp phổ biến đước đánh trọng Sử dụng liệu ví dụ trình bày bảng sở liệu giao dịch D 2.1 bảng trọng số item CSDL D 2.2như sau: Bảng 3.1 Trọng số giao dịch giao dịch bảng 2.1 Transations Sum Tài liệu Há»— trợ ôn tập com Tw 0.45 0.2 0.45 0.3 0.42 0.43 2.25 Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 38 Bảng 3.2: Bảng trọng số hỗ hợ cho tập phổ biến phần tử X A B C D E Weighted support (ws) 0.72 0.6 0.78 0.81 Ta minh họa thuật toán WIT-FWI-DIFF với minws = 0.4 sau Mức WIT-cây có nút chứa mặt mặt hàng Chúng xếp thứ tự tăng dần |tidset| Mục đích việc để tính tốn Diffset nhanh Ví dụ: - Xét nút B D, họ không xếp, phải tính tốn - Xét A nối với C d(AC) = t(A) \ t(C) = 1345 \ 2456 = 13  ws(AC) = ws(A) = 0.72 - ∑∈ ( ∑∈ ( ) ) ( ) =0.32 minsup - - Xét A nối với E: d(AE) = t(A) \ t(E) = 1345\12345 = ∅ => ws(AD) = ws(A) = 0.72 Xét A nối với B: d(AB) = t(A) \ t(B) = 1345 \ 123456 = ∅ => Tài liệu Há»— trợ ôn tập com ( )= ( ) = 0.72 Luận văn Luận án ( ) ( ) = 0.72 – .Tài liệu Há»— trợ ôn tập com Luận văn Luận án 39 Hình 3.1: Kết thuật toán WIT-FWI-DIFF từ sở liệu bảng 2.1 2.2 với trọng số hỗ trợ tối thiểu minsup=0.4 3.2.2.2 Thuật toán Top-rank-k dựa Diffset Đầu vào: sở liệu D, ngưỡng k Đầu ra: Tabk, với mục cố định, mục chứa item cấp Mã giả: WIT-FWI-DIFF-TOP-K() { 1.Iorder = tất tập có kích thước với trọng số hỗ trợ 2.Sắp xếp nút Iorder theo thứ tự giảm dần ws 3.Tabk = {I thuộc Iorder cho R I k} gọi tập tập Lr Gọi hàm WIT-FWI-DIFF-TOP-K-EXTEND với tham số Lr WIT-FWI-DIFF-TOP-K-EXTEND (Lr) 5.Cho node li Lr Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 40 Tạo tập L i cách nối li với tất lj theo sau L r cách Tập X = li.itemset ∪ lj.itemset Nếu L rlà nút gốc Y = t(li)\t(lj) // theo công thức 3.1 Ngược lại Y= d(lj)\d(li) // theo công thức 3.2 10 Nếu Y= ∅ ws(X)= ws(li) // theo định lý 3.3 11 Ngược lại ws(X) = COMPUTE-WS-DIFF(Y) // theo định lý 3.3 12 Nếu ws(X)≥ trọng số tối thiểu kth Tab k 13 Chèn node 〈 , ( ), 14 L isẽ chèn vào Tab k 〉 vào L i 15 Nếu số lượng node L i≥ 16 Gọi đệ qui hàm WIT-FWI-DIFF-TOP-K-EXTEND với biến L i } Giải thích bước thuật toán: - Đầu tiên cho tập Iorder chứa tất các tập đánh trọng có kích thước với trọng số hỗ trợ chúng (dòng 1) - Các nút chứa tập Iorder xếp theo thứ tự giảm dần trọng số hỗ trợ (dòng 2) - Khởi tạo Tab k chèn tất tập mà Rank thỏa điều kiện ngưỡng k cho trước (dịng 3) gọi tập L r - Khởi tạo hàm WIT-FWI-DIFF-TOP-K-EXTEND với biến tập L r để khai thác tập dựa tập cha có Tab k Cho nút licó Lr với nút phía sau để tạo tập nút gọi Li (dòng 6) - Để tạo L i: đầu tiên, cho X = li.itemset ∪ lj.itemset (dịng 7) - Tính tốn Y o Nếu Lr nút gốc Y tính theo cơng thức Y= t(li) \ t(lj) (dòng 8) o Ngược lại Y tính Diffset sau Y = d(lj) \ d(li) (dòng 9) .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 41 - Nếu Y= ∅ trọng số hỗ trợws(X) ws(l i) ngược lại ws(X) tính tốn dựa hàm COMPUTE-WS-DIFF(Y) (định lý 3.3) (dòng 10, 11) - Nếu ws(X) lớn trọng số hỗ trợ kth (mức k thấp Tab k) (dịng 12) thì: o (l i.itemset,l i.ws) chèn vào L i (dòng 13) o L i chèn tiếp vào Tabk (dòng 13) - Nếu số lượng nút L i lớn (dịng 15), tiếp tục gọi đệ qui hàm WIT-FWI-DIFF-TOP-K-EXTEND với biến L i để sinh ứng viên khác (dòng 16) Nếu tập sinh mà trọng số nhỏ trọng số tập cha không thỏa điều kiện ngưỡng k, tồn nút bị xóa bỏ, khơng tiến hành khởi tạo hàm WITFWI-DIFF-TOP-K-EXTEND để sinh ứng viên Ta tiến hành sử dụng Bảng 2.1, 2.2, 3.1, 3.2, để tiến hành tìm kiếm Top-rank-k tập đánh trọng với ngưỡng k = Bước 1: Ta tiến hành tính tốn trọng số hỗ trợ tập có kích thước khởi tạo tập Iorder Ta có ws(A) = 0.72, ws(B) = 1, ws(C) = 0.6, ws(D) = 0.78, ws(E) = 0.81 Ta có tập: Iorder= {〈 , 1345,0.72〉, 〈 , 123456,1〉, 〈 , 2456,0.6〉, 〈 , 1356,0.78〉, 〈 , 12345,0.81〉 } Bước 2: Sau ta tiến hành xếp Iorder theo thứ tự giảm dần trọng số hỗ trợ, có: Iorder = {〈 , 123456,1〉〈 , 12345,0.81〉〈 , 1356,0.78〉〈 , 1345,0.72〉〈 , 2456,0.6〉} Bước 3: Khởi tạo Tab k, chèn tất tập thỏa điều kiện ngưỡng k = (tập L r) vào Tabk Ta có tập sau: Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 42 Bảng 3.3 Tabk sau chèn tập có kích thước thỏa k = Rank FWI {B} {E} {D} {A} ws 0.81 0.78 0.72 Bước 4: Tiến hành khởi tạo lớp tương đương {}, với tập có kích thước chứa tập Lr Hình 3.2 WIT-tree với tập có kích thước Tabk Bước 5: Tiến hành khởi tạo lớp tương đương dựa lớp tương đương cũ Ví dụ: - Xét B nối với E, ta có BE với t(BE) = 12345: o d(BE) = t(B) \ t(E) = 123456 \12345 =  ws(BE) = ws(B) = – 0.19 = 0.81>minsup o ws(BE) lớn trọng số tối thiểu bậc k thứ 4, nên ta thêm BE vào tập LB - Ta tiếp tục tiến hành ghép BA, với t(BA) = 1345 ws(BA) = 0.72 thỏa điều kiện ta chèn tiếp vào tập LB Tiếp tục ghép tập với = Tài liệu Há»— trợ ôn tập com ta có Luận văn Luận án tập LB .Tài liệu Há»— trợ ôn tập com Luận văn Luận án 43 Hình 3.3 Tập LB khởi tạo Bước 6: Tiến hành chèn LB vào Tabk, mục có trọng số xếp với Bảng 3.4Tabk sau chèn tập có LB thỏa minws Rank FWI {B} {E}{BE} {D}{BD} {A}{BA} ws 0.81 0.78 0.72 Bước 7: Sau tạo tập LB, số lượng nút LB nhiều 1, nên ta tiến hành gọi đệ qui hàm TOP-K-EXTEND để tiến hành tạo nút tập LB Ta ghép BE với BA ta có t(BEA) = 1345 , ws(BEA) = 0.72, ta thêm tập BEA vào tập LBE = ws(BEA) khơng nhỏ bậc k thứ Tabk Ghép BE với BD ta có t(BED) = 135 , ws(BEA) = 0.53, ta xóa bỏ tập ws(BEA) nhỏ bậc k thấp Tab k Bước 8: ta tiếp tục thực trình để tìm tập phổ biến đánh trọng số thỏa điều kiện ngưỡng k = Giải thuật dừng lại tạo tập phổ biến Ta có Tabk với ngưỡng k = (Bảng 3.5) .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 44 Hình 3.4 Cây WIT-tree hồn chỉnh mức k = Bảng 3.5 Tabk với mức k = Rank FWI {B} {E}{BE} {D}{BD} {A}{BA}{EA}{BEA} WS 0.81 0.78 0.72 3.3 Tổng kết chương Trong chương này, luận văn giới thiệu nghiên cứu liên quan khai thác tập phổ biến CSDL có trọng số thuật toán WIT-FWI-DIFF sử dụng Diffset để tính trọng số hỗ trợ tập phổ biến, khai thác tập phổ biến CSDL có trọng số Từ trình bày giải thuật WIT-FWI-DIFF-TOP-K dựa cấu trúc WIT-tree để tiến hành khai thác Top-rank-k tập đánh trọng số dựa sở giao dịch đánh trọng .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 45 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm Các thuật toán sử dụng thử nghiệm mã hóa vào máy tính cá nhân có cài phần mềm Visual Studio 2012, Windows 8, với cấu hình máy Intel® Core ™ i5-2520M CPU @2.50 GHz 2.50 GHz, MBs nhớ RAM 4.2 Đặc điểm sở liệu thực nghiệm Các kết thực nghiệm thử nghiệm CSDL liệu lấy từ trang web Frequent Itemset Mining Dataset Repository: http://fimi.cs.helsinki.fi/data/ Các liệu sửa đổi cách tạo bảng để lưu trữ giá trị trọng số item (giá trị khoảng từ đến 100) cho sở liệu Kết thực nghiệm tiến hành khai thác sở liệu chuẩn Bảng 4.1 Bảng 4.2 trình bày số lượng tập đánh trọng số tìm thấy ứng với ngưỡng k, ngưỡng k cao số lượng tập tìm thấy cao khơng tn theo tỉ lệ số lượng tập có ws sở liệu khác Bảng 4.1 Cơ sở liệu thực nghiệm có chỉnh sửa CSDL #Trans #Item Tình trạng BMS-POS 515597 1656 Đã sửa đổi Connect 67557 130 Đã sửa đổi Chess 3196 76 Đã sửa đổi Mushroom 8124 120 Đã sửa đổi Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 46 4.3 Kết thực nghiệm Thời gian thực thi để tìm kiếm tập đánh trọng số thay đổi tùy theo ngưỡng k, mức k cao thời gian thực thi lâu Cài đặt thực nghiệm cho toán Top-rank-k tập phổ biến sử dụng Tidset Diffset, ta nhận kết thực nghiệm với kết tập phổ biến đánh trọng, khác thời gian thực thi Từ kết thử nghiệm trên, ta thấy thời gian xử lý WIT-TOP-K (sử dụng Tidset) [13] tốn nhiều thời gian xử lý sở liệu có số sản phẩm lớn mức ngưỡng k lớn Tuy nhiên với thuật toán cải tiến WIT-FWIDIFF-TOP-K (sử dụng Diffset), hệ thống xử lý nhanh ổn sở liệu có kích thước khơng q lớn, vừa nhỏ mức ngưỡng thích hợp với sở liệu MUSHROOM WIT-TOP-K WIT-FWI-DIFF-TOP-K 400 THỜI GIAN THỰC THI (GIÂY) 350 300 250 200 150 100 50 10 20 30 50 50 NGƯỠNG K Hình 4.1 Biểu đồ thời gian khai thác Top-rank-k sở liệu Mushroom .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 47 Chess Thời gian thực thi (giây) 35 30 25 20 15 10 10 20 30 50 Ngưỡng k WIT-TOP-K WIT-FWI-DIFF-TOP-K Hình 4.2 Biểu đồ thời gian khai thác Top-rank-k sở liệu Chess Connect 100 Thời gian thực thi (giây) 90 80 70 60 50 40 30 20 10 10 20 30 50 Ngưỡng k WIT-TOP-K WIT-FWI-DIFF-Top-k Hình 4.3 Biểu đồ thời gian khai thác Top-rank-k CSDLConnect Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 48 BMS-POS Thời gian thực thi (giây) 10 20 30 50 Ngưỡng k WIT-TOP-K WIT-FWI-DIFF-Top-k Hình 4.4: Biểu đồ thời gian khai thác Top-rank-k CSDL BMS-POS Thuật tốn tìm Top-rank-k cho tập phổ biến đánh trọng sử dụng Diffset để tính trọng số hỗ trợ cho kết khích lệ so sánh với thuật tốn có cách tiếp cận giải pháp, khác sử dụng Diffset thay Tidset để trọng số hỗ trợ Thời gian đáp ứng nhanh, thử nghiệm với nhiều ngưỡng k, tập sở liệu giao dịch dày đặc kết thực thi WIT-FWI-DIFF-TOP-K nhanh chóng so với thuật tốn đề nghị trước WIT-TOP-K, trọng số hỗ trợ tính nhanh chóng Với CSDL thưa, mật độ trùng lắp item giao dịch thấp WIT-FWI-DIFF-TOP-K cho kết tương đương .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 49 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Đề tài tập trung vào nghiên cứu thuật toán khai thác tập phổ biến đánh trọng số dựa thuật toán khai thác tập phổ biến sở liệu giao dịch nhị phân Thơng qua q trình thực đề tài thực mục tiêu: - Nghiên cứu sở lý thuyết kỹ thuật khai thác tập phổ biến phương pháp Apriori, FP-tree, IT-tree - Tìm hiểu sở liệu giao dịch có trọng số, trọng số hỗ trợ định nghĩa lý thuyết liên quan - Tìm hiểu độ khác hai tập tương đương Diffset - Nghiên cứu thuật toán khai thác tập phổ biến sở liệu giao dịch có trọng số WIT-FWI, WIT-FWI-DIF - Cài đặt thực nghiệm để khảo sát kết thuật toán đề xuất: tiến hành khai thác Top-rank-k sở liệu chuẩn BMSPOS, Chess, Connect, Mushroom Từ đề xuất thuật toán khai thác Top-rank-k tập đánh trọng số dựa sở liệu giao dịch có trọng số áp dụng Diffset để tiến hành tính nhanh trọng số hỗ trợ Dựa vào để khai thác nhanh tập đánh trọng số giúp cho việc khai thác Top-rank-k xử lý nhanh Nhờ áp dụng Diffset, chúng tơi tính tốn trọng số hỗ trợ dựa khác tập Tidset, nhằm tối ưu thời gian xử lý cho khai thác Top-rank-k, giảm chi phí cho khơng gian lưu trữ khai thác tập sở liệu lớn Với cải tiến này, thuật tốn đề xuất có hiệu suất tốt so với thuật tốn trước với tất kết Từ ứng dụng thuật tốn vào thực tiễn 5.2 Nhận xét ưu điểm hạn chế  Ưu điểm: Trong sở liệu dày đặc, kích thước Diffset nhỏ so với Tidset Vì vậy, sử dụng Diffset tiêu tốn dung lượng nhớ, không gian Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án 50 lưu trữ giảm đáng kể cho phép máy tính nhanh trọng số hỗ trợ itemset Thuật toán phù hợp với tất loại CSDL, đặc biệt hiệu khai thác với CSDL mà mật độ trùng lắp giao dịch lớn vừa Chess, Connect-4 thu thập từ thông tin trạng thái người chơi game (chứa nước người chơi), Mushroom chứa ghi mô tả đặc điểm loài nấm khác  Hạn chế: Thuật toán đạt hiệu với sở liệu dày đặc, mật độ trùng lắp giao dịch lớn, với sở liệu nhỏ thời gian thực thi khơng có khác biệt so với sử dụng Tidset Với CSDL thưa CSDL chứa giao dịch mua hàng siêu thị lớn BMS-POS, thuật tốn cho hiệu tương đương so với thuật toán đề nghị trước 5.3 Hướng phát triển - Tiếp tục nghiên cứu cách thức khai thác Top-rank-k tập đánh trọng phổ biến hiệu - Tiến đến việc khai thác Top-rank-k tập đóng đánh trọng phổ biến Top-rank-k tập đánh trọng tối đại phổ biến - Nghiên cứu cách thức cập nhật tập kết CSDL thay đổi .Tài liệu Há»— trợ ôn tập com Luận văn Luận án Tài liệu Há»— trợ ôn tập com Luận văn Luận án .Tài liệu Há»— trợ ôn tập com Luận văn Luận án

Ngày đăng: 04/07/2023, 10:29

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan