1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Thuật toán hiệu quả trong việc khai thác những luật kết hợp thời gian ITARM

20 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

GVHD: PGS.TS Lê Hoài Bắc Học viên: Vũ Hoàng Hải Sơn - 1211061 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội Dung Giới Thiệu Mô tả thuật toán Đánh giá kết thuật toán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu  Có nhiều thuật tốn đề xuất tìm kiếm luật kết hợp (association rules) trường liệu như:  Apriori  TreeProjection  FP-growth  Mining of generalized and multi-level rules  Mining of quantitative rules  … LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu  Dữ liệu thời gian tồn rộng rãi kinh tế, tài chính, truyền thông, lĩnh vực khác dự báo thời tiết  Temporal Association Rules(TAR) thể luật kết hợp việc kết hợp với thời gian  Đặc trưng liệu thời gian cập nhật liên tục giải thuật đề xuất để giải vấn đề xử lý chỗi thời gian:  Progressive Partition Miner(PPM)  Segmented Progressive Filter (SPF)  Two end AssocIation miNer (Twain)  Incremental Temporal Association Rules Mining (ITARM) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu • Incremental Temporal Association Rules Mining (ITARM)   Dựa thuật tốn Sliding-Window Filtering Duy trì tập tập phổ biến sau liệu cập nhật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mô tả thuật tốn Mơ tả liệu Giải thuật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mô tả liệu  Dữ liệu thời gian phân vùng theo mốc thời gian theo tháng, quý, năm  Các ký hiệu sử dụng:  Dbs,e :1 phần liệu Ps đến Pe Ys,e : đối tượng có Ps phân vùng bắt đầu Pe kết thúc  MCP (Y): thời gian thể tối đa đối tượng Y  LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mô tả liệu  Các ký hiệu sử dụng(tt):  Supp(xMCP(x)) relative support tập x  Conf(XY)MCP(XY) độ tin cậy LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mô tả liệu MCP(DE) = (2,3) MCP(D) = (1,3) MCP(E) = (2,3) Supp(DE) = 2/8 = 25% Conf(DE) = 2/3 = 66,66% min_sup=30% min_conf = 75% LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giải thuật 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thuật toán ITARM  Input: DB, db, C2DB , min_sup  Output: L’, C2DB+db  B1: tìm tất ứng cử viên(UCV) db (C2db) C2 Start Count P1+P2 BC CE 2 DE 2 p3 AD BC BD BE BF 3 CE CF DF EF LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 Thuật toán ITARM  B2 :  Cập nhật support UCV X C2DB: x.suppDB+db = x.suppDB + x.suppdb Cập nhật X vào C2DB+db  Cập nhật UCV lại C2DB C2db vào C2DB+db  C2 Start Count RS AD x 30% = BC 12 x 30% = DB x 30% = BE x 30% = BF 3 x 30% = CE x 30% = CF x 30% = DE 2 x 30% = DF x 30% = EF x 30% = 12 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thuật toán ITARM  B3: Lọc UCV có supp > min_supp  Trong thuật tốn này, supp tính số trường database có X min_supp tính theo cơng thức:  Các UCV lọc lại BC, BF, CE 13 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thuật tốn ITARM  B4:  Tìm UCV gồm có k+1 đối tượng từ tập UCV thứ k phép kết Apriori (bắt đầu k=2) Cập nhật vào tập UCV CDB+db  Dừng trình tìm kiếm tập CkDB+db = Ø  14 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thuật toán ITARM  B5:  Tìm tập thời gian(TI) từ tập UCV CDB+db  Tìm tập thời gian con(SI) từ tập TI TI’s SI’s BC1,3 B1,3 C1,3 BF 3,3 B3,3 F3,3 CE2,3 C2,3 E2,3 15 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thuật tốn ITARM  B6:  Tính tốn lại support count lọc lại UCV Candidate itemset Count SI’s TI’s Relative support Frequent itemsets L1 B1,3 12 x 30% = C1,3 12 x 30% = C1,3 B3,3 x 30% = B3,3 F3,3 x 30% = F3,3 C2,3 x 30% = C2,3 E2,3 x 30% = E2,3 BC 1,3 12 x 30% = BF 3,3 x 30% = BF 3,3 CE2,3 x 30% = CE2,3 L2 B1,3 BC1,3 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 16 Thuật toán Update C2  Input: C2DB ,Pn ,min_sup  Output: C2DB  Với UCV X thuộc C2DB , tồn X n transaction T thuộc Pn: X.supportDB = X.supportDB - n  VD:  Trong trường hợp P3 không nằm tháng mà phần thêm tháng 2, tức P2 = P2 + P3, P2 xem db C2DB count BC C2DB count CE BC DE 17 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đánh giá kết thuật toán  So sánh với hai thuật toán SPF Twain, tất chạy máy Win Xp, code C#, 1.8 GHz Intel Core Duo, 1GB ram  Tx: x chiều dài trung bình transaction DB  Ly: y chiều dài trung bình lớn có tập phổ biến  Dz: z số transaction DB ban đầu (tính theo hàng nghìn)  dr: r số transaction DB cập nhật (tính theo hàng nghìn)  Nm: m số lượng item (tính theo hàng nghìn)  Ln: n số lượng tập phổ biến có (tính theo hàng nghìn)  Po: o số phân vùng 18 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đánh giá kết thuật toán 19 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CÁM ƠN THẦY VÀ CÁC BẠN 20 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... luanvanchat@agmail.com Giới thiệu  Dữ liệu thời gian tồn rộng rãi kinh tế, tài chính, truyền thơng, lĩnh vực khác dự báo thời tiết  Temporal Association Rules(TAR) thể luật kết hợp việc kết hợp với thời gian  Đặc...Nội Dung Giới Thiệu Mơ tả thuật tốn Đánh giá kết thuật toán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu  Có nhiều thuật tốn đề xuất tìm kiếm luật kết hợp (association... Mơ tả thuật tốn Mô tả liệu Giải thuật LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mô tả liệu  Dữ liệu thời gian phân vùng theo mốc thời gian theo tháng, quý, năm  Các ký hiệu sử

Ngày đăng: 01/11/2022, 20:10

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w