1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá luật kết hợp trong khai phá dữ liệu

51 554 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 1,52 MB

Nội dung

Khai phá luật kết hợp trong khai phá dữ liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN II Báo cáo tốt nghiệp đại học Khai thác luật kết hợp khai phá liệu GVHD ThS Lưu Nguyễn Kỳ Thư Lớp Đ07THPM Nội dung Tổng quan khai phá liệu Luật kết hợp Giới thiệu Giá trị support confident Thuật toán Apriori Thuật toán AprioriTID Thuật toán FP Growth Cải tiến tốc độ kỹ thuật mảng Ứng dụng toán CK Kết luận Tổng quan khai phá liệu Là trình trích xuất thông tin, khám phá tri thức có mối tương quan định từ kho liệu khổng lồ nhằm mục đích dự đoán xu thế, hành vi tương lai, tìm kiếm tập thông tin hữu ích mà bình thường nhận diện Giải vần đề thực tế: Siêu thị wallmart có 2triệu giao dịch/ngày Google, Youtube, Tổng quan khai phá liệu Các giai đoạn của trình khai phá: Data cleaning Data integration Data seletion Data Transformation Data mining Pattern Evaluation Knowledge Presentation Luật kết hợp (Agrawal) I = {i1,i2, … ,in} tập n thuộc tính nhị phân D = {t1,t2, … ,tn} tập giao tác gọi sở liệu, ti có ID chứa tập mục I Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = ∅ X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng Luật kết hợp Độ phổ biến: Supp(X) = |X|/|D| Supp(X⇒Y)=|{T⊆D:X∪Y⊆T}|/|D| Độ tin cậy: Ví dụ: |D|=10;|X∪Y|=5; |X|=7;|Y|=6 Supp(X⇒Y) = 5/10 = 0,5 Conf(X⇒Y) = 5/7 ≈ 0,71 Dữ liệu mẫu Từ bảng lịch sử giá Trích mã CP theo nhu cầu nhà đầu tư Biến động giảm ngày Biến động tăng ngày Dữ liệu mẫu Dữ liệu thô Danh sách mã CP có biến động tăng ngày Dữ liệu mẫu Dữ liệu nhị phân Mã biến động giá giảm ngày Mã có giá biến động tăng ngày Biến động giá CP ngày Tìm tập cácmã item xuất lần minSup = 0,4 Bài toán tìm mã CP tăng đồng thời với tần suất ≥ minSup Input: Cơ sở liệu giao dịch Giá trị minSup Output: Tất tập chứa mã CP có đồng thời biến động tăng ngày với tần suất xuất tập ≥ minSup Thuật toán FP-Growth Xây dựng FP NULL Quét lần hai Item TCR DRC VSH NAG Sup link DRC:1 TCR:9 DRC:7 VSH:1 VSH:6 NAG:1 NAG:3 Thuật toán FP-Growth Khai phá FP Nhận xét ∀ nút m∈Lj (với Lj: tập phổ biến có chứa ai) ⇔ m nằm nhánh với ∀ aik (nút cấp độ k,k∈[0,K),1≤K≤N),aik có ⇔ không tồn ajl(l∈[K,N])ajl.name=aik.name Thuật toán FP-Growth Khai phá FP Ý tưởng cho việc khai phá Chia FP làm phần P: Chứa chuỗi nút liên tục từ gốc có (1 nhánh đơn từ gốc đến k) gọi nhánh tiền tố đơn Q: phần chứa nút thuộc phần nhiều nhánh Tìm tất tập phổ biến có chứa nút ai∈Q Kết tập thuộc P ∪ Q ∪ (P × Q) Thuật toán FP-Growth Khai phá FP Input Cây FP Giá trị minSup Output Tập mẫu phổ biến Thuật toán FP-Growth Giải thuật khai phá FP PROCEDURE FP-growth(Tree, α){ if(Tree chứa đường dẫn prefix đơn) { P = phần chứa nhánh prefix đơn Tree Q = phần chứa nhiều nhánh Tree, Q.root= NULL; foreach tổ hợp node thuộc P(kí hiệu β) Sinh mẫu β∪α với support=support nhỏ β Gán freq_pattern_set(P) tập mẫu sinh }else gán Q Tree; foreach (item thuộc Q) do{ Sinh mẫu β=ai∪α với support=ai.support Xây dựng sở mẫu ước định β ước định Treeβ Thuật toán FP-Growth Ví dụ: Thuật toán FP-Growth Ví dụ cách xây dựng FPβ={NAG} Item TCR DRC VSH NAG Sup Item TCR DRC VSH Sup 4 Cải tiến tốc độ FP-growth kỹ thuật mảng Nhận xét FP-Growth 80% thời gian duyệt node FP Công việc cho bước khai phá Xây dựng FPβ={ai} chưa hoàn chỉnh từ FP cha Đếm count node FP Xóa node không đủ điều kiện Cấu trúc lại node theo thứ tự Giải pháp tối ưu hơn? Cải tiến tốc độ FP-growth kỹ thuật mảng Ý tưởng: Khi xây dựng FP Dựa thứ tự support giảm dần bảng header Đối với item x, ta có item yi ∉ FPβ={x} ⇒ yi.support[...]... 6{DRC,TCR,VSH},{NAG,TCR,VSH} 7{DRC,TCR,VSH},{NAG,TCR,VSH} 9{DRC,TCR,VSH} 10{DRC,TCR,VSH} Xuất kết quả tìm được Thuật toán FP-Growth Giới thiệu Khuyết điểm của các thuật toán trước đây: Tốn kém do việc sinh ra và kiểm tra các ứng viên FP-Growth: (Frequent Pattern Growth) Không cần sinh và kiểm tra ứng viên Xây dựng cấu trúc Cây FP để lưu trữ toàn bộ CSDL Khai phá cây FP để tìm các mẫu phổ biến Thuật toán FP-Growth Cây FP Mục...Bài toán tìm các tập phổ biến Largek • Mỗi phần tử thuộc tập có Cơ sở dữ liệu giao dịch dạng Giá trị minSup • ai là một item • sup: Tần suất xuất hiện cùng Output: nhau của các item Tất cả tập Largek • sup ≥ minSup (với 1 ≤ k ≤ số lượng item thuộc CSDL... • Trỏ đến các node cùng tên } else { Flist= F.Sort(item.support desc); trên cây FP tạo nút N mới; Cây T = nút gốc là null; N.parent=T; for tất cả giao tác t trong DB do{ getFP(t,Flist) • Đọc các item phổ tlist = getFP(t,Flist) N.count=1; biến trong giao tác t } insert_tree(tlist.first(), tlist.removefirst() ,T) theo thứ tự Flist if(List∅) } insert_tree(List.first(),List.removefirst(),N return Cây... 6 4 Sup 6 4 Thuật toán Apriori Ví dụ k=4 Item3 Sup {DRC,TCR,VSH} Item2 {NAG,TCR,VSH} 6 Sup 4 {DRC,TCR} {DRC,VSH} {TCR,VSH} {NAG,TCR} Item1 {NAG,VSH} {DRC} {NAG} {TCR} {VSH} 7 6 7 4 Sup 4 8 4 9 7 Xuất kết quả tìm được Danh sách ứng viên 3 item ∅ Thuật toán AprioriTID Nhận xét về thuật toán Apriori: Tại mỗi bước, quét toàn bộ CSDL, so sánh tập ứng viên gây lãng phí thời gian Ý tưởng AprioriTID: Chỉ quét ... 0,71 Dữ liệu mẫu Từ bảng lịch sử giá Trích mã CP theo nhu cầu nhà đầu tư Biến động giảm ngày Biến động tăng ngày Dữ liệu mẫu Dữ liệu thô Danh sách mã CP có biến động tăng ngày Dữ liệu mẫu Dữ liệu. .. Tổng quan khai phá liệu Các giai đoạn của trình khai phá: Data cleaning Data integration Data seletion Data Transformation Data mining Pattern Evaluation Knowledge Presentation Luật kết hợp (Agrawal)... Kết luận Luật kết hợp có khả ứng dụng vào nhiều lĩnh vực khác thực tế Ưu điểm: Áp dụng giải thuật tốt giúp cải thiện tốc độ khai phá Ứng dụng sử dụng liệu thực tế Khuyết điểm: Hướng lưu trữ hợp

Ngày đăng: 24/02/2016, 16:40

TỪ KHÓA LIÊN QUAN

w