1. Trang chủ
  2. » Tất cả

Khai phá luật kết hợp với thuật toán Apriori và ứng dụng với phần mềm Weka

21 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 0,96 MB

Nội dung

TRƯỜNG ĐẠI HỌC QUẢNG KHOA CÔNG NGHỆ THÔNG TIN -Tiểu luận: HỌC PHẦN KHAI PHÁ DỮ LIỆU Tên đề tài: Khai phá luật kết hợp với thuật toán Apriori ứng dụng với phần mềm weka Giảng viên: Lê Thị Nguyên An Sinh viên thực hiện: Lê Đức Nam Lớp: DT17CTT01 Quảng Nam, tháng 12 năm 2020 LÊ ĐỨC NAM Phần MỞ ĐẦU Lý chọn đề tài Cùng với phát khơng ngừng xã hội nhu cầu người ngày tăng, đặc biệt nhu cầu công nghệ để phục vụ sống ngày cá nhân Chính vậy, mà cơng nghệ thông tin trở nên thiếu hầu hết lĩnh vực, phát triển thay đổi ngành có tác động lớn đến sống Mặc dù dự đốn xác xu hướng cơng nghệ, có số xu hướng mà mong đợi tiếp tục thập kỷ Với phát triển cơng nghệ thơng tin khối lượng liệu lưu trữ ngày lớn lượng liệu khổng lồ lại ẩn chứa số thơng tin coi chìa khóa dẫn đến thành công lĩnh vực từ hoạt động sản xuất đến kinh doanh Việc khai thác, chiết lọc thông tin ứng dụng vào sống người không dừng lại kĩ thuật đơn thuần, địi hỏi đời ngành khoa học mới: khoa học phát tri thức khai phá liệu Khai phá liệu ngành khoa học ngày quan tâm nghiên cứu phát triển ứng dụng thiết thực mà mang lại Khai phá liệu phần cốt lõi phát tri thức, khai phá liệu phát luật nội dung phổ biến Các phương pháp phát luật nhằm tìm phụ thuộc tính chất đối tượng hay thuộc tính sở liệu Trên sở em chọn đề tài “Khai phá luật kết hợp với thuật toán Apriori ứng dụng với phần mềm Weka” làm đề tài nghiên cứu Mục tiêu đề tài Hiểu thuật toán Apriori luật kết hợp ứng dụng thuật toán Apriori weka Phạm vi nghiên cứu Đối tượng: Khai phá liệu, thuật toán Apriori luật kết hợp, phần mềm weka Phạm vi nghiên cứu: Các tài liệu để nghiên cứu thuật toán Apriori, cách sử dụng phần mềm weka LÊ ĐỨC NAM Phương pháp nghiên cứu: Tìm kiếm thu thập tài liệu Nghiên cứu tài liệu thu thập Phương pháp phân tích tổng kết kinh nghiệm LÊ ĐỨC NAM Phần NỘI DUNG NGHIÊN CỨU CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ VỀ TRI THỨC TRONG CƠ SỞ DỮ LIỆU 1.1 Khái niệm khai phá liệu Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 kỷ XX Nó bao gồm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mối liên hệ lẫn liệu Việc khai phá liệu sở liệu, để tồn q trình phát liệu có ích từ tập liệu lớn, sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu Khai phá liệu (data mining) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể q trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp 1.2 Các kĩ thuật khai phá liệu 1.2.1 Các kỹ thuật tiếp cận khai phá liệu Khai phá liệu có kỹ thuật áp dụng sau: Phân lớp dự đoán: xếp đối tượng vào lớp biết trước Ví dụ: phân lớp bệnh nhân liệu hồ sơ bệnh án Hướng tiếp cận thường sử dụng số kỹ thuật học máy định, mạng nơ ron nhân tạo Luật kết hợp: Phương pháp nhằm phát luật kết hợp thành phần liệu sở liệu Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Có thể lấy ví dụ đơn giản luật kết hợp sau: 60% nữ giới vào siêu thị mua phấn có tới 80% số học mua thêm son Phân tích chuỗi theo thời gian: Tượng tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao LÊ ĐỨC NAM Phân cụm: xếp đối tượng theo cụm liệu tự nhiên 1.2.2 Dạng liệu khai phá Do khai phá liệu ứng dụng rộng rãi nên làm việc với nhiều kiểu liệu khác Sau số dạng liệu điển hình: sở liệu quan hệ, sở liệu đa chiều, sở liệu dạng giao dịch, sở liệu quan hệ hướng đối tượng, liệu không gian thời gian, Dữ liệu chuỗi thời gian, sở liệu đa phương tiện, liệu Text Web 1.2.3 Ứng dụng khai phá liệu Khai phá liệu lĩnh vực quan tâm ứng dụng rộng rãi Một số ứng dụng điển hình khai phá liệu liệt kê: 1) Phân tích liệu hỗ trợ đưa định 2) Điều trị y học 3) Phát văn 4) Tin sinh học 5) Tài thị trường chứng khốn 6) Bảo hiểm 1.2.4 Khai phá luật kết hợp ứng dụng Luật kết hợp biểu thức có dạng: X = Y, X Y tập trường gọi item Ý nghĩa luật kết hợp dễ nhận thấy: Cho trước sở đữ liệu có D tập giao tác - giao tác tập item, X — Y diễn đạt ý nghĩa giao tác T có chứa X chắn T có chứa Y Độ tin cậy luật hiểu xác suất điều kiện p Ý tưởng việc khai thác luật kết hợp có nguồn gốc từ việc phân tích liệu mua hàng khách nhận “Một khách hàng mua mặt hàng X mua mặt hàng Y với xác suất c%” Ứng dụng trực tiếp luật toán kinh doanh làm cho luật kết hợp trở thành phương pháp khai thác phổ biến Hơn nữa, luật kết hợp khơng bị giới hạn phân tích phụ thuộc lẫn phạm vi ứng dụng bán lẻ mà chúng áp dụng thành cơng nhiều tốn kinh doanh Như vậy, khai phá luật kết hợp phương pháp xử lý thơng tin quan trọng phơ biến, nhằm khám phá mối liên hệ mẫu liệu LÊ ĐỨC NAM 1.3Quá trình khám phá tri thức sở liệu Quá trình khám phá tri thức sở liệu lĩnh vực liên quan đến ngành như: thống kê, học máy, sở liệu, thuật toán, trực quan hoá liệu, tính tốn song song hiệu suất cao, Mục đích q trình khám phá tri thức rút tri thức từ liệu sở liệu lớn Quá trình khám phá tri thức trình gồm nhiều giai đoạn lặp lại, mà lặp lại xuất bước Q trình mơ tả theo hình sau: Hình 1.1 Q trình khám phá tri thức Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do LÊ ĐỨC NAM liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường, toán khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tùy theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp Bước thứ tư: Phân tích kiểm định kết Là sau khai phá liệu ta có kết quả, thơng thường số mơ hình, ta cần kiểm định lại kết xem kết có tương thích với liệu sử dụng để phân tích hay không Bước thứ năm: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình khám phá tri thức đưa ứng dụng lĩnh vực khác Do kết dự đốn mơ tả nên chúng đưa vào hệ thống hỗ trợ định nhằm tự động hố q trình Như vậy: trình khám phá tri thức trình kết xuất tri thức từ kho liệu mà khai phá liệu cơng đoạn quan trọng LÊ ĐỨC NAM CHƯƠNG II: THUẬT TOÁN APRIORI TRONG KHAI PHÁ LUẬT KẾT HỢP 2.1 Ý tưởng thuật toán Apriori: Apriori thuật toán đề xuất lần đầu vào năm 1993 Thuật tốn tìm giao dịch t có độ hỗ trợ độ tin cậy thoả mãn lớn giá trị ngưỡng Thuật tốn Apriori tính tất tập ứng cử tập k lần duyệt sở liệu Apriori dựa vào cấu trúc băm Tìm kiếm xuống ta chạm lá, ta tìm tập ứng cử viên có tiền tố chung bao gồm giao dịch Sau tập ứng cử tìm giao dịch ánh xạ trước Trong trường hợp tìm thấy biến đếm tăng lên Ký hiệu: Giả sử mục giao dịch lưu giữ theo trật tự từ điển Gọi số mục tập mục kích thước gọi tập mục có kích thước k tập k-mục (tập k mục) Các mục tập mục giữ trật tự từ điển Ta sử dụng ký hiệu sau: : Tập tập k-mục phổ biến (với độ hỗ trợ cực tiểu minsup đó) : Tập tập k-mục ứng cử (các tập mục phổ biến tiềm năng) Thuật toán Apriori: Input: sở liệu D, minsup Output: Tập tập mục phổ biến = (Các i - itemset phổ biến): K=2 While(! =Ø) { = apriori_gen(, minsup):// ứng cử theo chương trình for( ⍱ giao dịch t € D) { =Subset (): ⁄⁄ứng cử viên chứa t for (⍱ ứng cử c € ) C.Count ++; 10 } 11 ={c € | c.count > minsup} LÊ ĐỨC NAM 12 k++; 13 } 14 Return L= ; Void apriori_gen(;, minsup ) { ƒor (itemset € ƒor(itemset ) € ) if((1)==&&(2)==&& && (k-2)==&& (K-1)== ) { c= kết nồi ; iƒ(has_inrequent_subset(c, )) delete c; else add c to ; } refurn } Boolean has_infrequent subset(c,) { ƒor ((k-1)-subset s € c) if(s €)) return TRUE; else return FALSE ; } Giải thích: Lần duyệt đầu tiên, tính số lần xuất mục để xác định itemset phổ biến Lần duyệt thứ k (k 2) bao gồm giai đoạn: - Tập phố biến tìm thấy lần duyệt thứ k-1 sử dụng để sinh tập ứng cử viên , việc sử dụng hàm Apriori_ gen - Dựa vào sở liệu, tính độ hỗ trợ ứng viên Các ứng cử viên mà chứa giao dịch t xác định cách hiệu băng việc sử dụng băm mô tả sau: Trong giai đoạn (giai đoạn sửa, tỉa): xoá bỏ tập c € , cho vài (k-l) tập c không nằm Thủ tục đầy đủ bắt kì tập với độ hỗ trợ tối thiểu tập kích cỡ (k-1) có độ hỗ trợ tối thiểu, ta mở rộng tập với tất tập mục sau xoá tất LÊ ĐỨC NAM tập mà (k-l) — tập khơng năm , ta nhận tập tập Việc kết nối tương đương với việc mở rộng với mục nằm sở liệu sau xố bỏ tập mà (k-1) —itemset nhận việc xố mục thứ (k-1) không nằm Ở giai đoạn thuộc Với lập luận vậy, giai đoạn tỉa giai đoạn người ta xoá khỏi tất tập mà (k-l) tập khơng nằm , khơng xố tập nằm Hàm Subset: Các tập ứng cử viên lưu trữ băm Một nút chứa danh sách tập (nút 1á) bảng băm ( nút trong) Trong nút trong, cụm bảng băm đến nút khác Gốc băm xem độ sâu Một nút độ sâu d dẫn đến nút độ sâu d+1 Các tập lưu trữ Khi ta bỗ sung thêm tập c, ta bắt từ nút gốc xuống ta chạm vào Tại nút độ sâu d, ta định theo cành việc áp dụng hàm băm mục thứ d tập theo trỏ cụm tương ứng Tất nút ban đầu tạo nút Khi số tập nút vượt ngưỡng chọn, nút chuyền thành nút Bắt đầu từ nút gốc, hàm, Subset tìm tất ứng cử viên chứa giao dịch t sau: Nếu ta bắt đầu lá, ta tìm tập nút chứa giao dịch t bồ sung mối quan hệ với chúng tập kết mong muốn Nếu ta nút ta đến việc băm mục i, ta băm mục sau i t áp dụng cách đệ quy thủ tục đơi với nút cụm tương ứng Đối với nút gốc, ta băm theo mục t Để thấy hàm Subset trả lại tập tham khảo mong muốn để ý đến xảy nút gốc Đối với tập c chứa giao dịch t, mục cần phải có t Tại nút gốc, việc băm mục t đảm bảo ta tập mà bắt đầu với mục khơng nằm t Những lí luận tương tự áp dụng cho mức sâu Vì mục bất LÊ ĐỨC NAM kì tập thứ tự, ta đến nút việc băm mục i, ta cần quan tâm đến mục t xuất sau i Bước tỉa: Xoá bớt tất tập mục C thuộc mà (k-l) tập c for (tập mục c € ) for ( (k-l) — tập s c) If(s không thuộc ) delete c khỏi ; Nhận xét: Thuật toán Apriori với n độ dài lớn tập sinh Vậy thuật tốn thực duyệt tồn giao tác n+1 lần Như vậy, bỏ qua thời gian so sánh tìm xuất mẫu giao tác độ phức tạp thuật tốn Apriori O(A) > O(n*L) L kích thước sở liệu cịn n độ dài cần đạt mẫu Ngoài ra, độ hỗ trợ tối thiểu minsup bị thay đổi thuật tốn phải thực lại từ đầu, điều thời gian Thuật toán Apriori xây dựng nhằm phát luật kết hợp đối tượng với độ hỗ trợ độ tin cậy tối thiểu 2.3 Minh họa thuật toán apriori: Minh họa 1: Giả sử tập item I = {M1, M2, M3, M4, M5} sở liệu: D1= {….} Với Min Support = 22%, Min Confidence = 50% D1 TID (Item) {M1, M2, M5} { M2, M4 } { M2, M3 } { M1, M2, M4 } { M1, M3 } { M2, M3 } { M1, M3 } {M1, M2, M3, M5} LÊ ĐỨC NAM 1 {M1, M2, M3} Áp dụng thuật toán Apriori ta có sơ đồ sau: C1 TID Count-support {M1} – 66,6% {M2} – 77,7% {M3} – 66,6% {M4} – 22,2% {M5} – 22,2% Xoá bỏ mục có support < minsup TTID L Count-support {M1} {M2} {M3} {M4} {M5} – 66,6% – 77,7% – 66,6% – 22,2% – 22,2% Ở bước kết từ L1 ta có tập C2 gồm cặp 2-item: C2 TID {M1,M2 } {M1,M3 } {M1,M4 } {M1,M5 } {M2,M3 } {M2,M4 } {M2,M5 } {M3,M4 } {M3,M5 } {M4,M5 } L2 Countsupport Xố bỏ mục có support < minsup 4–4 – 44,4 – 11,1 – 22,2 – 44,4% – 22,2 TTID {M1,M2 } {M1,M3 } {M1,M5 } {M2,M3 } {M2,M4 } {M2,M5 } – 22,2 0– – 11,1 0– Ở bước kết từ L2 ta có tập C3 gồm cặp 3-item: C3 L3 Xố bỏ mục có support < minsup LÊ ĐỨC NAM TID {M1,M2,M3} {M1,M2,M5} Countsupport 2– - 22,2% TID {M1,M2,M3} {M1,M2,M5} Như vậy, ta có L3 = {{M1,M2,M3} {M1,M2,M5}}, với Min Confidence = 50% Đối với L3 = {M1,M2,M3} luật là: Association Rule {M1,M2} => {M3} {M1,M3} => {M2} {M2,M3} => {M1} {M1} => {M2,M3} {M2} => {M1,M3} {M3} => {M1,M2} Min-conf = 50% Confidence 2/4 = 50% 2/4 = 50% 2/4 = 50% 2/6 = 33% 2/7 = 29% 2/6 = 33% Đối với L3 = {M1,M2,M5} luật là: Association Rule {M1,M2} => {M5} {M1,M5} => {M2} {M2,M5} => {M1} {M1} => {M2,M5} {M2} => {M1,M5} {M5} => {M1,M2} Min-conf = 50% Confidence 2/4 = 50% 2/2 = 100% 2/2 = 100% 2/6 = 33% 2/7 = 29% 2/2 = 100% Tương tự với tập phổ biến thuộc L2: {{M1,M2},{M1,M3},{M1,M5}, {M2,M3},{M2,M4},{M2,M5}} Các luật có thể: Association Rule {M1} => {M5} {M2} => {M1} {M1} => {M3} {M3} => {M1} {M1} => {M5} {M5} => {M1} Association Rule {M2} => {M3} {M3} => {M2} {M2} => {M4} {M4} => {M2} {M2} => {M5} {M5} => {M2} Vậy luật thỏa mãn minsupp = 22% mincof = 50% 16 luật sau: LÊ ĐỨC NAM {M1,M2} => {M3} {M1,M5} => {M2} {M1,M3} => {M2} {M2,M5} => {M1} {M2,M3} => {M1} {M5} => {M1,M2} {M1,M2} => {M5} {M1} => {M5} {M2} => {M1} {M1} => {M3} {M3} => {M1} {M5} => {M1} {M2} => {M3} {M3} => {M2} {M4} => {M2} {M5} => {M2} Minh họa 2: Giả sử tập item I = {A ,B, C, D, E} sở liệu: D D = { …} Với minsup = 40% , minConf = 45% TID Các mục A, C, D B,C,E A,B,C,E B,E Khi thực thuật tốn Apriori ta có sơ đồ sau: F1 C1 TID Count-support {A} -50% {B} -75% {C} -75% {D} -25% {E} C2 -75% TID Count-support {A,B} - 25% {A,C} - 50% {A,E} - 25% {B,C} - 50% {B,E} - 75% {C,E} - 50% TID {B,C,E} Countsupport - 50% Xoá bỏ mục co support {B} Min-conf = 45% Confidence 67% 67% 67% 100% 67% 100% Association Rule {B} => {C,E} {C} => {B,E} {E} => {B,C} {B,C} => {E} {B,E} => {C} {C,E} => {B} Vậy có 14 luật mạnh là: {A} => {C} {C} => {A} {B} => {C} {C} => {B} {B} => {E} {E} => {B} {C} => {E} {E} => {C} {B} => {CE} {C} => {BE} {E} => {CB} {BC} => {E} {CE} => {B} {BE} => {C} LÊ ĐỨC NAM CHƯƠNG III: ỨNG DỤNG THUẬT TOÁN APRIORI VÀO PHẦN MỀM WEKA Ứng dụng thuật toán Apriori tìm luật kết hợp weka Minh họa: Giả sử tập item I = {M1, M2, M3, M4, M5} sở liệu: D1= {….} Với Min Support = 22%, Min Confidence = 50% D1 TID (Item) {M1, M2, M5} { M2, M4 } { M2, M3 } { M1, M2, M4 } { M1, M3 } { M2, M3 } { M1, M3 } {M1, M2, M3, M5} {M1, M2, M3} + Cơ sở liệu D1AX ánh xạ từ sở liệu D1 ban đầu là: Hình 2.1 Chuyển hoá sở liệu D1AX LÊ ĐỨC NAM + Giao diện chạy phần mềm weka Hình 2.2 Giao diện phần mềm Weka + Bước kích đúp chuột vào Explorer => giao diện Weka Explorer xuất Bước việc import file sở liệu D1AX LÊ ĐỨC NAM Hình 2.3 Giao diện import file sỡ liệu + Giao diện sau import thành cơng Hình 2.4 Giao diện sau import thành công + Giao diện cài đặt Min Support = 22%, Min Confidence = 50% LÊ ĐỨC NAM Hình 2.5 Giao diện cài đặt Min Support = 22%, Min Confidence = 50% + Giao diện kết luật mạnh thu Hình 2.6 Giao diện kết luật mạnh thu LÊ ĐỨC NAM Phần KẾT LUẬN Tiểu luận trình bày tổng quan nét đặt trưng lĩnh vực khai phá liệu bao gồm vấn đề cần khám phá tri thức, hướng tiếp cận khám phá tiêu biểu, phát luật kết hợp có khả ứng dụng vào nhiều lĩnh vực khác thực tế Về thuật toán khai phá tri thức tiểu luận trình bày thuật tốn tiêu biểu : Apriori , minh hoạ số toán để áp dụng ứng dụng thuật toán weka Tuy nhiên thời gian trình độ có hạn nên q trình thực tiểu luận khơng tránh khỏi hạn chế thiếu xót LÊ ĐỨC NAM TÀI LIỆU THAM KHẢO [1] Giáo trình khai phá liệu – Lê Thị Nguyên An LÊ ĐỨC NAM ... đề tài ? ?Khai phá luật kết hợp với thuật toán Apriori ứng dụng với phần mềm Weka? ?? làm đề tài nghiên cứu Mục tiêu đề tài Hiểu thuật toán Apriori luật kết hợp ứng dụng thuật toán Apriori weka Phạm... tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp 1.2 Các kĩ thuật khai phá liệu 1.2.1 Các kỹ thuật tiếp cận khai phá liệu Khai phá liệu... xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng LÊ ĐỨC NAM CHƯƠNG II: THUẬT TOÁN APRIORI TRONG KHAI PHÁ LUẬT KẾT HỢP 2.1 Ý tưởng thuật toán Apriori: Apriori thuật toán đề xuất

Ngày đăng: 08/12/2021, 21:24

w