1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng Orange trong khai phá luật kết hợp

16 54 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 785,49 KB

Nội dung

Bài viết Ứng dụng Orange trong khai phá luật kết hợp đề cập đến vấn đề khai phá luật kết hợp (Association rules), một phương pháp phân tích nền tảng trong kiến thức khai phá dữ liệu cũng như nổi tiếng vì là công cụ hỗ trợ các hoạt động sales và marketing trong lĩnh vực bán lẻ, thương mại điện tử – E-commerce từ trước đến nay. Mời các bạn cùng tham khảo!

ỨNG DỤNG ORANGE TRONG KHAI PHÁ LUẬT KẾT HỢP ThS Nguyễn Huy Khang Trường Đại học Tài – Marketing Tóm tắt: Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác khắp nơi giới, Việt Nam kỹ thuật vào ứng dụng nhiều Bước quan trọng trình khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu nguồn liệu lớn khác Hiện có nhiều phần mềm hỗ trợ cho việc khai phá liệu Orange cơng cụ lập trình Python với giao diện trực quan tương tác dễ dàng Phần mềm Orange biết đến việc tích hợp công cụ khai phá liệu học máy thông minh chẳng hạn Apache Spark, giải pháp địi hỏi phải có xử lý Big data, cho phép xây dựng mơ hình dự đốn nhanh chóng với việc tính tốn thực nhóm máy tính, có tính tốn lúc tồn tập liệu mà khơng cần phải trích xuất mẫu tính tốn thử nghiệm Từ khóa: Association Rules – Luật kết hợp, Big Data – Dữ liệu lớn, Data Mining – Khai phá liệu, Machine Learning – Máy học Giới thiệu Khai phá liệu (Data mining) trình liên quan đến phương pháp học máy (machine learning) khám phá mẫu tập liệu lớn (Big Data) Mục tiêu tổng thể khai phá liệu trích xuất thơng tin từ tập liệu biến thành cấu trúc dễ hiểu cho mục đích sử dụng cụ thể Thuật ngữ áp dụng cho mơ hình xử lý liệu quy mơ lớn hay hệ thống máy tính hỗ trợ đưa định Trong phạm vi hẹp đề tài đề cập đến vấn đề khai phá luật kết hợp (Association rules), phương pháp phân tích tảng kiến thức khai phá liệu tiếng cơng cụ hỗ trợ hoạt động sales marketing lĩnh vực bán lẻ, thương mại điện tử – E-commerce từ trước đến Association rules phương pháp khai phá quy luật kết hợp hay liên kết tiềm ẩn, khả chung với đối tượng liệu, từ đưa kết luận “Nếu… Thì… ” Và kết luận phải kiểm chứng xác suất xảy ra, độ tin cậy chẳng hạn như: “Nếu khách hàng nữ mua dầu gội đầu, 85% mua dầu xả, độ tin cậy 90%”, “Nếu khách hàng nam mua máy ảnh kỹ thuật số có 80% mua thêm thẻ nhớ, độ tin cậy 90%” - 257 Nghiên cứu tổng quan 2.1 Các bước trình phát tri thức Có thể xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu, phát hiện, học Mục đích phát tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị che khuất nhiều liệu khác Quá trình phát tri thức mơ tả tóm tắt qua hình sau: Hình 1.1 Các bước khai phá tri thức Quá trình thực qua bước sau: – Thu thập tập liệu phù hợp (Databases) – Tiền xử lý liệu (Data Cleaning): Loại liệu nhiễu liệu khơng thích hợp – Rút gọn liệu, chuyển đổi liệu (Task-relevant Data): Xác định thuộc tính quan trọng, giảm số thuộc tính; Chuyển liệu dạng phù hợp cho việc khai phá – Lựa chọn chức khai phá liệu (Data mining): Phân loại, gom cụm, dự báo, sinh luật kết hợp – Đánh giá mẫu (Pattern Evaluation): Đánh giá mẫu tri thức thu qua lựa chọn lại phát triển giải thuật khai phá liệu phù hợp – Biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa 258 - – Sử dụng tri thức khai phá Q trình khai phá tri thức khơng trình từ bước đến bước cuối mà trình lặp quay trở lại bước qua cần thiết Theo cách tổng quát chia q trình khai phá tri thức qua giai đoạn sau: • Tiền xử lý liệu (data preprocessing), bao gồm trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) • Khai thác liệu (data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thơ • Đánh giá (evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu • Triển khai (deployment) 2.1.1 Tiền xử lý liệu (Data preprocessing) Quá trình tiền xử lý liệu phải nắm dạng liệu, thuộc tính, mơ tả liệu, sau tiến hành giai đoạn chính: làm sạch, tích hợp, biến đổi, thu giảm liệu 2.1.1.1 Làm liệu (data cleaning) Đối với liệu thu thập được, cần xác định vấn đề ảnh hưởng cho khơng Bởi vì, liệu khơng (có chứa lỗi, nhiễu, khơng đầy đủ, có mâu thuẫn) tri thức khám phá bị ảnh hưởng không đáng tin cậy, dẫn đến định khơng xác Do đó, cần gán giá trị thuộc tính cịn thiếu; sửa chữa liệu nhiễu/lỗi; xác định loại bỏ ngoại lai (outliers); giải mâu thuẫn liệu 2.1.1.1.1 Các vấn đề liệu: Trên thực liệu thu thập chứa nhiễu, lỗi, khơng hồn chỉnh, có mâu thuẫn – Khơng hồn chỉnh (incomplete): Thiếu giá trị thuộc tính thiếu số thuộc tính Ví dụ: giá trị Lương số mẫu tin bị để trống – Nhiễu/lỗi (noise/error): Chứa đựng lỗi mang giá trị bất thường Ví dụ: Lương = “-5000000”, giá trị thuộc tính Lương khơng thể số âm – Mâu thuẫn (inconsistent): Chứa đựng mâu thuẫn (không thống nhất) Ví dụ: lương = “chuỗi”, khơng phù hợp với kiểu liệu số thuộc tính Lương - 259 2.1.1.1.2 Giải pháp thiếu giá trị thuộc tính – Bỏ qua ghi có thuộc tính thiếu giá trị Thường áp dụng toán phân lớp Hoặc tỷ lệ % giá trị thiếu thuộc tính lớn – Gán giá trị tự động máy tính: Gán giá trị mặc định, Gán giá trị trung bình thuộc tính Gán giá trị thường xảy – dựa theo phương pháp xác suất 2.1.1.1.3 Giải pháp liệu chứa nhiễu/lỗi – Phân khoảng (binning): Sắp xếp liệu phân chia thành khoảng (bins) có tần số xuất giá trị Sau đó, khoảng liệu biểu diễn trung bình, trung vị, giới hạn giá trị khoảng – Hồi quy (regression): Gắn liệu với hàm hồi quy 2.1.1.2 Tích hợp liệu (data integration) Tích hợp liệu trình trộn liệu từ nguồn khác vào kho liệu có sẵn cho q trình khai phá liệu Khi tích hợp cần xác định thực thể từ nhiều nguồn liệu để tránh dư thừa liệu Việc dư thừa liệu thường xuyên xảy ra, tích hợp nhiều nguồn Bởi thuộc tính (hay đối tượng) mang tên khác nguồn (cơ sở liệu) khác Hay liệu suy thuộc tính bảng suy từ thuộc tính bảng khác Hay trùng lắp liệu Các thuộc tính dư thừa bị phát phân tích tương quan chúng Yêu cầu chung q trình tích hợp giảm thiểu (tránh tốt nhất) dư thừa mâu thuẫn Giúp cải thiện tốc độ trình khai phá liệu nâng cao chất lượng kết tri thức thu 2.1.1.3 Biến đổi liệu (data transformation) Biến đổi liệu việc chuyển tồn tập giá trị thuộc tính sang tập giá trị thay thế, cho giá trị cũ tương ứng với giá trị Các phương pháp biến đổi liệu: – Làm trơn (smoothing): Loại bỏ nhiễu/lỗi khỏi liệu – Kết hợp (aggregation): Sự tóm tắt liệu, xây dựng khối liệu – Khái quát hóa (generalization): Xây dựng phân cấp khái niệm – Chuẩn hóa (normalization): Đưa giá trị khoảng định 260 - • Chuẩn hóa min-max, giá trị nằm khoảng [new_mini, new_maxi] vnew = vold – mini maxi – mini (new_maxi – new_mini) + new_mini • Chuẩn hóa z-score, với μi , σi : giá trị trung bình độ lệch chuẩn thuộc tính i v new = vold – μi σi • Chuẩn hóa thang chia 10, với j giá trị số nguyên nhỏ cho max({vnew}) < v new vold = 10j – Xây dựng thuộc tính dựa thuộc tính ban đầu 2.1.1.4 Thu giảm liệu (data reduction) Một kho liệu lớn chứa lượng liệu lên đến nhiều terabytes chí petabytes làm cho trình khai phá liệu chạy thời gian, nên thu giảm liệu Việc thu giảm liệu thu biểu diễn thu gọn, mà sinh (hoặc xấp xỉ) kết khai phá tập liệu ban đầu Các chiến lược thu giảm: – Giảm số chiều (dimensionality reduction), loại bỏ bớt thuộc tính khơng quan trọng hay quan trọng – Giảm lượng liệu (data/numberosity reduction) phương pháp: • Kết hợp khối liệu • Nén liệu • Hồi quy • Rời rạc hóa 2.1.2 Một số phương pháp tiêu biểu khai phá liệu (Data mining) 2.1.2.1 Phương pháp Phân loại Phân loại liệu dạng phân tích liệu nhằm rút trích mơ hình mơ tả lớp liệu dự đốn xu hướng liệu - 261 Quá trình gồm hai bước: – Bước học (giai đoạn huấn luyện): xây dựng phân loại (classifier) việc phân tích/học tập huấn luyện – Bước phân loại (classification): phân loại liệu/đối tượng độ xác phân loại đánh giá chấp nhận (acceptable) Các giải thuật phân loại liệu: • Phân loại liệu với định (decision tree) • Phân loại liệu với mạng Bayesian • Phân loại liệu với mạng neural • Phân loại liệu với k phần tử gần (k-nearest neighbor) • Phân loại liệu với suy diễn dựa tình (case-based reasoning) • Phân loại liệu dựa tiến hóa gen (genetic algorithms) • Phân loại liệu với lý thuyết tập thơ (rough sets) • Phân loại liệu với lý thuyết tập mờ (fuzzy sets) 2.1.2.2 Phương pháp Gom cụm Gom cụm liệu: Việc nhóm tập đối tượng có đặc điểm giống hay gần giống vào nhóm Các đối tượng cụm tương tự với so với đối tượng cụm khác Phương pháp gom cụm hỗ trợ giai đoạn tiền xử lý liệu, mô tả phân bố liệu/ đối tượng… Các phương pháp gom cụm tiêu biểu: – Phân hoạch (partitioning): phân hoạch tạo đánh giá theo tiêu chí – Phân cấp (hierarchical): phân rã tập liệu/đối tượng có thứ tự phân cấp theo tiêu chí – Dựa mật độ (density-based): dựa connectivity and density functions – Dựa lưới (grid-based): dựa a multiple-level granularity structure – Dựa mơ hình (model-based): mơ hình giả thuyết đưa cho cụm; sau hiệu chỉnh thơng số để mơ hình phù hợp với cụm liệu/đối tượng 262 - 2.1.2.3 Phương pháp khai phá luật kết hợp 2.1.2.3.1 Định nghĩa luật kết hợp Cho I = {I1, I2, , In} tập hợp n tính chất riêng biệt Giả sử D sở liệu, với ghi chứa tập T tính chất (có thể coi Τ ⊆ Ι), ghi có số riêng Một luật kết hợp mệnh đề kéo theo có dạng X → Y, X, Y ⊆ I, thỏa mãn điều kiện X∩Y = Ø Các tập hợp X Y gọi tập hợp tính chất (itemset) Tập X gọi nguyên nhân, tập Y gọi hệ Có độ đo quan trọng luật kết hợp: Độ hỗ trợ (support) độ tin cậy (confidence) 2.1.2.3.2 Định nghĩa Độ hỗ trợ – Định nghĩa 1: Độ hỗ trợ tập hợp X sở liệu D tỷ số ghi T ⊆ D có chứa tập X tổng số ghi D (hay phần trăm ghi D có chứa tập hợp X), ký hiệu support(X) hay supp(X) (support tự sinh cài thuật toán) S0 = |{T ⊂ D:Y ⊂ X}| |D| Ta có: ≤ supp(X) ≤ với tập hợp X – Định nghĩa 2: Độ hỗ trợ luật kết hợp X → Y tỷ lệ số lượng ghi chứa tập hợp X ∪ Y, so với tổng số ghi D – Ký hiệu supp(X → Y) Supp(X → Y) = |{T ⊂ D:T ⊆ X ∪ Y}| |D| Khi nói độ hỗ trợ luật 50%, có nghĩa có 50% tổng số ghi chứa X ∪ Y Như vậy, độ hỗ trợ mang ý nghĩa thống kê luật 2.1.2.3.3 Định nghĩa Độ tin cậy – Định nghĩa 1: Độ tin cậy luật kết hợp X → Y tỷ lệ số lượng ghi D chứa X ∪ Y với số ghi D có chứa tập hợp X Ký hiệu độ tin cậy luật conf(r) Ta có ≤ conf(r) ≤ Nhận xét: Độ hỗ trợ độ tin cậy có xác suất sau: Supp(X → Y) = P(X ∪ Y) Conf (X → Y) = P(Y/X) = supp(X ∪ Y)/supp(X) - 263 – Định nghĩa 2: Độ tin cậy luật kết hợp X → Y tỷ lệ số lượng ghi tập hợp chứa X ∪ Y, so với tổng số ghi chứa X Chúng ta nhận thấy tri thức đem lại luật kết hợp dạng có khác biệt nhiều so với thông tin thu từ câu lệnh truy vấn liệu thông thường SQL Đó tri thức, mối liên hệ chưa biết trước mang tính dự báo tiềm ẩn liệu Những tri thức khơng đơn giản kết phép nhóm, tính tổng hay xếp mà trình tính tốn phức tạp 2.1.2.3.4 Định nghĩa: Tập hợp thường xuyên – Định nghĩa 1: Tập hợp X gọi tập hợp thường xuyên (Frenquent itemset) có supp(X) ≥ minsup, với minsup ngưỡng độ hỗ trợ cho trước Kí hiệu tập FI • Tính chất 1: Giả sử A, B ⊆ I hai tập hợp với A ⊆ B supp(A) ≥ supp(B) Như vậy, ghi chứa tập hợp B chứa tập hợp A • Tính chất 2: Giả sử A, B hai tập hợp, A, B ⊆ I, B tập hợp thường xuyên A ⊆ B A tập hợp thường xuyên Thật vậy, B tập hợp thường xuyên supp(B) ≥ minsup, tập hợp A tập hợp B tập hợp thường xuyên sở liệu D supp(A) ≥ supp(B) (Theo tính chất1) • Tính chất 3: Giả sử A, B hai tập hợp, A ⊆ B A tập hợp khơng thường xun B tập hợp không thường xuyên – Định nghĩa 2: Một tập mục X gọi đóng (closed) khơng có tập cha X có độ hỗ trợ với nó, tức khơng tồn tập mục X’ mà X’ ⊂ X t(X) = t(X’) (với t(X) t(X’) tương ứng tập giao chứa tập mục X X’) Ký hiệu tập phổ biến đóng FCI – Định nghĩa 3: Nếu X phổ biến không tập cha X phổ biến, ta nói X tập phổ biến lớn (maximally frequent itemset) Ký hiệu tập tất tập phổ biến lớn MFI Dễ thấy MFI ⊆ FCI ⊆ FI Khai phá luật kết hợp công việc phát luật kết hợp thỏa mãn ngưỡng độ hỗ trợ (δ) ngưỡng độ tin cậy (α) cho trước Bài toán khai phá luật kết hợp chia thành hai tốn nhỏ: • Bài tốn 1: Tìm tất tập phổ biến (tìm FI) Database T • Bài tốn 2: Sử dụng tập FI tìm toán để sinh luật tin cậy (interesting rules) Ý tưởng chung gọi ABCD AB tập mục phổ biến, xác định luật AB → CD với tỷ lệ độ tin cậy: 264 - conf = supp(ABCD) supp(AB) Nếu conf ≥ minconf luật giữ lại (và thỏa mãn độ hỗ trợ tối thiểu ABCD phổ biến) Khi mẫu phổ biến (frequent patterm) dài có từ 15 đến 20 items) tập FI, chí tập FCI trở nên lớn hầu hết phương pháp truyền thống phải đếm nhiều tập mục thực Các thuật toán dựa thuật toán Apriori – đếm tất 2k tập k itemsets mà chúng qt qua, khơng thích hợp với itemsets dài Các phương pháp khác sử dụng “lookaheads” để giảm số lượng tập mục đếm Tuy nhiên, hầu hết thuật tốn sử dụng tìm kiếm theo chiều rộng Cách làm hạn chế hiệu lookaheads, mẫu phổ biến dài mà hữu ích chưa tìm 2.1.2.3.5 Một số thuật toán: – Thuật toán bản: Input: I, D, σ, α Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ σ, ngưỡng độ tin cậy α Algorithm: 1) Tìm tất tập hợp tính chất có độ hỗ trợ ≥ α 2) Từ tập hợp tìm ra, tạo luật kết hợp có độ tin cậy ≥ α – Thuật tốn Tìm luật kết hợp biết tập hợp thường xuyên: Input: I, D, σ, α, S Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ σ, ngưỡng độ tin cậy α Algorithm: 1) Lấy tập xuất σ– thường xuyên S ϵ S, tập X ⊆ S 2) Xét luật kết hợp có dạng X → (S ∪ X), đánh giá độ tin cậy xem có nhỏ α hay không Thực chất, tập hợp S mà ta xét đóng vai trị tập hợp giao S = X ∪ Y, X ∩(S – X) = Ø, nên coi Y = S – X Các thuật toán xoay quanh khai phá luật kết hợp chủ yếu nêu giải pháp để đẩy nhanh việc thực tìm tất tập hợp tính chất có độ hỗ trợ ≥ α thuật tốn – Thuật toán Apriori Thuật toán dựa nhận xét đơn giản tập hợp tập xuất σ thường xuyên tập xuất σ– thường xuyên Do đó, trình tìm - 265 tập ứng cử viên, cần dùng đến tập ứng cử viên vừa xuất bước trước đó, không cần dùng đến tất tập ứng cử viên (cho đến thời điểm đó) Nhờ vậy, nhớ giải phóng đáng kể • Bước 1: cho trước ngưỡng độ hỗ trợ ≤ σ ≤ Tìm tất mặt hàng xuất σ– thường xun • Bước 2: Ta tiến hành ghép đơi phần tử L1 (không cần để ý đến thứ tự), tập C2, gọi tập ứng cử viên có phần tử Sở dĩ gọi “ứng cử viên”, chưa chúng σ– thường xuyên Sau kiểm tra (dùng định nghĩa), ta lọc tập hợp σ– thường xuyên có phần tử Ký hiệu tập hợp L2 • Bước 3: Với chủ ý nêu (về tính chất tăng dần tập hợp σ– thường xuyên), ta tiến hành tìm ứng cử viên có phần tử (lấy từ L1) Gọi tập C3 Lưu ý {A, B, C} muốn “ứng cử viên” tập phần tử {A, B},{B,C},{C, A } phải σ – thường xuyên, tức chúng phần tử tập L2 Ta “kiểm tra tư cách đại biểu” tập C3 lọc tập tập hợp σ– thường xuyên có phần tử Tập hợp ký hiệu L3 • Bước 4: Ta tiến hành tìm ứng cử viên có n phần tử Gọi tập chúng tập Cn từ đây, lọc Ln tập tập tập hợp σ– thường xuyên có n phẩn tử Cốt lõi thuật tốn Apriori hàm apriori_gen() Agrawal đề nghị năm 1994 Hàm hoạt động theo bước, bước 1– tập hợp Lk-1 tự kết nối (join) với để tạo tập ứng cử viên Ck Sau hàm apriori_gen() loại bỏ tập hợp có hợp (k-1) phần tử khơng nằm Lk-1 (vì chúng khơng thể tập hợp xuất σ– thường xuyên, theo nhận xét ban đầu) Minh họa khai phá luật kết hợp với phần mềm Orange 3.1 Giả sử liệu thu thập dataset số khách hàng sau 266 - Đưa liệu vào Orange: Dữ liệu có 8.4% bị thiếu liệu, ta tiến hành tiền xử lý liệu - 267 3.2 Tiền xử lý liệu (Data Cleaning) Có nhiều giải pháp để xử lý vấn đề thiếu 8.4% liệu, ta chọn giải pháp dùng giá trị trung bình để điền vào liệu bị thiếu, sau lưu lại liệu qua tiền xử lý (dữ liệu lưu định dạng mặc định Orange tab) nạp lại liệu cho Orange Khơng cịn bị thiếu giá trị 268 - 3.3 Rút gọn liệu Dữ liệu lớn tốn nhiều thời gian trình khai phá liệu Ta rút gọn liệu cho thu kết phân tích tương đương Ta dùng phương pháp giảm số chiều liệu thuật tốn định Giả sử thuộc tính target “Kế hoạch trả nợ” (sau đổi tên thuộc tính KH_trả_nợ để kết thể gọn hơn) Tiến hành loại bỏ thuộc tính khơng xuất Sau rút gọn lại 10 thuộc tính - 269 3.4 Chọn phương pháp khai phá liệu với luật kết hợp 3.4,1 Rời rạc hóa liệu (Discretize) Trong Data Mining, kỹ thuật khai phá luật kết hợp (association rules mining) thực liệu phân loại (categorical/ nominal data) Điều yêu cầu phải thực việc rời rạc hóa thuộc tính có kiểu dữ liệu liên tục (như kiểu numeric chẳn hạn) muốn áp dụng kỹ thuật Trong liệu hiện có thuộc tính kiểu số, là “số con”, “tuổi”, và “thu nhập” Đối với thuộc tính “số con”, vì phạm vi giá 0,1,2 ta giữ lại giá trị thuộc tính (qua tính khai báo manual).  Kiểu liệu giá trị thuộc tính “tuổi” “thu nhập” chuyển sang Nominal với khoảng (bin, interval) Kiểm tra thuộc tính “tuổi” ta thấy có độ tuổi < 35, từ 35 đến cận 50 từ 50 trở lên Tiến hành khai phá luật kết hợp liệu rời rạc hóa Với supp = 10% conf = 90% ta có luật sau: 270 - Với supp = 9% conf = 90% ta có luật sau: Kết luận Khai phá liệu lĩnh vực quan trọng, bao gồm nhiều lĩnh vực nhiều kỹ thuật khác nhau; Phân tích liệu khía cạnh quan trọng thúc đẩy nhiều công ty nay, đường phía trước có cách tiếp cận theo hướng liệu rõ ràng khai thác sức mạnh liệu lớn cách sử dụng kỹ thuật phân tích liệu Bài viết đề cập đến nội dung khai phá luật kết hợp để phát tri thức liên quan liệu khách hàng số ngân hàng thông qua phần mềm Orange, từ ứng dụng phần mềm khai phá luật kết hợp hay nhiều kỹ thuật khác phân cụm, sử - 271 dụng định hay áp dụng mơ hình máy học phân lớp liệu, ứng dụng Neural Network gồm hyper-parameter để xây dựng nhanh Deep learning… đặc biệt đơn giản với người khơng biết lập trình Tài liệu tham khảo Agrawal, R., & Srikant, R (1994) Fast algorithms for mining association rules In VLDB, 487499 Agrawal, R., Imielinski, T., & Swami, A (1993) Mining Association Rules between Sets of Items in Large Databases ACM SIGMOD International Conference on Management of Data, 207-216 AJDA (2016) Association Rules in Orange Retrieved 07/02/2021, from https://orangedatamining com/blog/2016/04/25/association-rules-in-orange Berzal, F., Blanco, I., Sánchez, D., & Vila, M.A (2002) Measuring the Accuracy and Importance of Association Rules: A New Framework Intelligent Data Analysis, 221-235 Deshpande, D S (2011) Association Rule Mining Based on Image Content International Journal of Information Technology and Knowledge Management, 144-146.  Han, J., Pei, J., & Yin, Y (2000) Mining frequent patternswithout candidate generation In MOD 2000, 1-12 Hipp, J., Guntzer, U., & Nakhaeizadeh, G (2000) Algorithms for association rule mining – A general survey and comparison ACM SGKDD explorations newsletter, 2(1), 58-64 Lee, W J., & Lee, S J (2004) Discovery of fuzzytemporal association rules IEEE transactions on Systems, 2330-2342 272 - ... MFI Dễ thấy MFI ⊆ FCI ⊆ FI Khai phá luật kết hợp công việc phát luật kết hợp thỏa mãn ngưỡng độ hỗ trợ (δ) ngưỡng độ tin cậy (α) cho trước Bài toán khai phá luật kết hợp chia thành hai tốn nhỏ:... hàng thơng qua phần mềm Orange, từ ứng dụng phần mềm khai phá luật kết hợp hay nhiều kỹ thuật khác phân cụm, sử - 271 dụng định hay áp dụng mơ hình máy học phân lớp liệu, ứng dụng Neural Network... chỉnh thơng số để mơ hình phù hợp với cụm liệu/đối tượng 262 - 2.1.2.3 Phương pháp khai phá luật kết hợp 2.1.2.3.1 Định nghĩa luật kết hợp Cho I = {I1, I2, , In} tập hợp n tính chất riêng biệt Giả

Ngày đăng: 31/12/2022, 12:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN