Chuyên đề thực tập nghiên cứu về thuật toán apriori

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	25
Dung lượng	604,55 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ  BÀI TẬP LỚN MÔN TRI THỨC KINH DOANH ĐỀ TÀI NGHIÊN CỨU VỀ THUẬT TOÁN APRIORI Người thực hiện NHÓM 2 G[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ - - BÀI TẬP LỚN MÔN: TRI THỨC KINH DOANH ĐỀ TÀI: NGHIÊN CỨU VỀ THUẬT TỐN APRIORI Người thực hiện: NHĨM Giảng viên hướng dẫn: ThS Trịnh Phú Cường Lớp: Tri thức kinh doanh (119)_1 Hà nội, tháng năm 2019 THÀNH VIÊN NHÓM 2: Nguyễn Văn Bắc Nguyễn Thị Duyên Nguyễn Đình Nam Nguyễn Quang Huy Nguyễn Vũ Lâm Tùng Nguyễn Mạnh Hùng Phạm Vũ Quang Đức Lã Phạm Thảo Nguyên Trần Hoài Phương 10 Nguyễn Huy Thịnh 11 Đinh Thị Như Ngọc 12 Vũ Thanh Hoa 13 Trần Tuấn Hùng 14 Đỗ Thành Long 15 Tạ Đức Chính 16 Nguyễn Thị Thanh Huyền 17 Lý Thị Kim Ngân MỤC LỤC DANH MỤC VIẾT TẮT .1 DANH MỤC SƠ ĐỒ, HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ THUẬT TOÁN APRIORI .3 1.1 Giới thiệu chung luật kết hợp khai phá liệu .3 1.1.1 Định nghĩa 1.1.2 Mục đích 1.1.3 Một số thuật tốn phát luật kết hợp điển hình 1.2 Giới thiệu chung thuật toán Apriori CHƯƠNG 2: TÌM HIỂU THUẬT TỐN APRIORI .10 2.1 Các khái niệm 10 2.2 Quy trình thuật tốn 11 2.3 Nội dung thuật toán Apriori 12 2.3.1 Mô tả thuật toán .12 2.3.2 Minh họa bước thuật toán Apriori 13 2.4 Sơ đồ giải thuật thuật toán Apriori 13 2.5 Minh họa thuật toán .15 CHƯƠNG 3: ỨNG DỤNG CỦA THUẬT TOÁN APRIORI 18 3.1 Một số thuật toán xuất phát từ Apriori 18 3.1.1 Thuật toán AprioriTID .18 3.1.2 Thuật toán Apriori-Hybrid .21 3.2 Một số ứng dụng thực tế thuật toán Apriori .21 3.3 Ưu điểm khuyết điểm thuật toán Apriori .21 DANH MỤC VIẾT TẮT BẢNG VIẾT TẮT TIẾNG VIỆT STT Từ viết tắt CSDL Diễn giải Cơ sở liệu BẢNG VIẾT TẮT TIẾNG ANH STT Từ viết tắt KDD DIC OCD MPI Diễn giải Knowledge Discovery and Datamining Dynamic Itemset Counting Offline Candidate Detreteermination Message Passing Interface DANH MỤC SƠ ĐỒ, HÌNH VẼ Hình 1.1.3: Thuật tốn FP-Growth Hình 2.3.2: Minh họa bước thuật tốn Apriori Hình 2.4: Sơ đồ giải thuật thuật tốn Apriori Hình 3.1.1: Minh họa thuật tốn AprioriTID LỜI NĨI ĐẦU  Thuật tốn khái niệm quan trọng tin học Thuật toán xuất phát từ nhà khoa học Ả rập Chúng ta xem thuật tốn cơng cụ dùng để giải toán xác định trước Việc nghiên cứu thuật tốn có vai trị quan trọng khoa học máy tính máy tính giải vấn đề có hướng dẫn giải rõ ràng đắn Nếu hướng dẫn giải sai khơng rõ ràng máy tính khơng thể giải toán Trong khoa học máy tính thuật tốn định nghĩa dãy hữu hạn thao tác xếp theo trình tự định cho sau thực dãy thao tác , từ input toán ta nhận output cần tìm Ở Việt Nam mơn Tin học đưa vào giảng dạy thức trường phổ thông từ năm học 2006 – 2007 nhiên thực tế môn Tin học đưa vào tham gia thi học sinh giỏi cấp tỉnh , cấp quốc gia từ lâu : Hội thi Tin học trẻ khơng chun tồn quốc tổ chức lần đầu vào năm 1995 , kỳ thi học sinh giỏi Tin học quốc gia tổ chức vào năm 1995 đặc biệt kỳ thi Olympic Tin học quốc tế (IOI) tổ chức lần đầu vào năm 1989.Từ đến kỳ thi ngày nhiều đòi hỏi kiến thức cao Thuật tốn Apriori cơng bố R Agrawal R Srikant vào năm 1994 để tìm tập phổ biến liệu lớn Tên thuật tốn Apriori sử dụng kiến thức có từ trước (prior) thuộc tính, vật phẩm thường xuyên xuất sở liệu Để cải thiện hiệu việc lọc mục thường xuyên theo cấp độ, thuộc tính quan trọng sử dụng gọi thuộc tính Apriori giúp giảm phạm vi tìm kiếm thuật tốn CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ THUẬT TOÁN APRIORI 1.1 Giới thiệu chung luật kết hợp khai phá liệu 1.1.1 Định nghĩa Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 kỷ XX Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Näm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm khám phá tri thức sở liệu, để chi tồn q trình phát tri thức có ích từ tập liệu lớn; dó khai phá liệu bước đặc biệt tồn q trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình liệu Ở mức độ trừu tượng định định nghĩa khai phá liệu: Data Mining trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn Khám phá tri thức (KDD) mục tiêu khai phá liệu, hai khái niệm xem hai lĩnh vực tương đương Nhưng, phân chia cách tách bạch khai phá liệu bước q trình KDD 1.1.2 Mục đích Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm 1.1.3 Một số thuật toán phát luật kết hợp điển hình  Thuật tốn FP-Growth FP –tree FP-Growth sử dụng cấu trúc FP-tree để xác định trực tiếp tập mục thường xuyên Biểu diễn FP-tree: - Với giao dịch, FP-tree xây dựng đường (path) - Hai giao dịch có chứa số mục, đường chúng có phần (đoạn) chung Càng nhiều đường có phần chung, việc biểu diễn FP-tree gọn - Nếu kích thước FP-tree đủ nhỏ lưu trữ nhớ làm việc, giải thuật FP-Growth xác định tập thường xuyên trực tiếp từ FP-tree lưu nhớ Xây dựng FP-tree: - Ban đầu, FP-tree chứa nút gốc (được biểu diễn ký hiệu null) - Cơ sở liệu giao dịch duyệt lần thứ 1, để xác định (tính) độ hỗ trợ mục - Các mục không thường xuyên bị loại bỏ - Các mục thường xuyên xếp theo thứ tự giảm dần độ hỗ trợ - Cơ sở liệu giao dịch duyệt lần thứ 2, để xậy dựng FP-tree Ví dụ: Xây dựng FP-tree Hình 1.1.3: Thuật toán FP-Growth Sinh tập mục thường xuyên: - FP-Growth sinh tập mục thường xuyên trực tiếp từ FP-tree từ mức đến mức gốc (bottom-up) - Vì giao dịch biểu diễn đường FP -tree, xác định tập mục FPtree, xác định tập mục thường xuyên kết thúc mục (ví dụ: E), cách duyệt đường chứa mục (E)  Thuật tốn DIC Thuật tốn DIC (Dynamic Itemset Counting) biến thể khác giải thuật Apriori Giải thuật DIC làm giảm việc đếm việc phát sinh ứng viên Bất kỳ ứng viên tới ngưỡng minsup, giải thuật DIC bắt đầu phát sinh thêm ứng viên dựa vào Để thực điều giải thuật DIC dùng prefix-tree (cây tiền tố) Ngược với băm (hashtree), nút (nút nút trong) prefixtree (cây tiền tố) gán ứng viên xác định tập phổ biến Cách sử dụng ngược với băm, tới nút ta khẳng định tập item kết hợp với nút giao tác Hơn nữa, việc xác định độ hỗ trợ phát sinh ứng viên khớp làm giảm số lần duyệt sở liệu  Thuật toán OCD Thuật toán OCD (Offline Candidate Detreteermination) giới thiệu Manila vào năm 1994 Thuật toán dùng kết phép phân tích tổ hợp thơng tin thu giai đoạn trước để loại bỏ tập mục ứng viên không cần thiết Nếu tập YI tập khơng phổ biến cần qt (1-s) giao dịch sở liệu, s ngưỡng hỗ trợ Do đó, ngưỡng hỗ trợ nhỏ tồn giao dịch phải qt Ngồi thuật tốn khai phá luật kết hợp thuật toán Apriori thuật toán thuộc họ Apriori cịn có thuật tốn khác Partition, Sampling, CARMA (Continuous Association Rule Mining Algorithm), AIS, SETM, FP-Growth, Eclat (Equivalence CLAss Transformation),…  Thuật toán Count Distribution Thuật tốn Count Distribution [Agrawal 1996] sử dụng kiến trúc khơng chia sẻ, xử lý có nhớ nhớ phụ riêng Các xử lý kết nối với mạng truyền thơng truyền tin cho phương pháp truyền thơng điệp Dựa vào mơ hình song song liệu, liệu phân hoạch cho xử lý, xử lý thực thi công việc giống thuật tốn Apriori thơng tin số đếm hỗ trợ tập mục không đầy đủ Các số đếm hỗ trợ cục tính xử lý phân hoạch liệu Số đếm hỗ trợ tổng thiết lập thơng qua mơ hình truyền thơng MPI Thuật toán Count Distribution thực sau: Cơ sở liệu D phân hoạch thành {D1 ,D2 ,Dp} phân bố cho xử lý Pi (l  i  p) Thuật toán thực gồm bước: - Bước 1: Mỗi xử lý Pi quét phân hoạch sở liệu cục Di để tính số đếm hỗ trợ cục cho tập mục ứng viên Ck - - Bước 2: Mỗi xử lý Pi trao đổi số đếm hỗ trợ cục tập mục ứng viên để tính số đếm hỗ trợ tổng thể tất tập mục ứng viên sở liệu D cách sử dụng mơ hình truyền thơng điệp MPI Bước 3: Các tập mục phổ biến tổng thể Lk xác định dựa vào ngưỡng hỗ trợ minsup tập mục ứng viên Ck+1 sinh từ Lk cách áp dụng thuật toán Apriori_gen() xử lý cách độc lập Thuật toán lặp lại bước  lúc khơng cịn tập mục ứng viên sinh  Thuật toán Data Distribution Trong thuật toán Data Distribution, sở liệu D phân hoạch thành {D1, D2, , Dp} nên xử lý làm việc với tập liệu không đầy đủ, việc trao đổi liệu xử lý cần thiết Ngoài ra, tập mục ứng viên phân hoạch phân bố cho tất xử lý, xử lý làm việc với tập mục ứng viên Ci khác Thuật toán Data Distribution thực sau: Cơ sở liệu D phân hoạch { D1∪ D2∪ ∪Dp} phân bố cho xử lý Pi (l  i  p) Thuật toán có bước sau: - Bước 1: Mỗi xử lý quét phân hoạch sở liệu cục để tính số đếm hỗ trợ cục tập mục ứng viên phân bố cho - Bước 2: Mỗi xử lý truyền phân hoạch sở liệu đến xử lý khác nhận phân hoạch sở liệu từ xử lý khác truyền đến Tiếp theo, quét phân hoạch sở liệu nhận để tính số đếm hỗ trợ tổng thể tập mục ứng viên sở liệu D - Bước 3: Mỗi xử lý xác định tập mục phổ biến từ phân hoạch tập mục ứng viên trao đổi với xử lý khác để nhận tất tập mục phổ biến Lk, sau sinh tập mục ứng viên Ck + từ Lk, phân hoạch Ck + phân bố phân hoạch ứng viên cho tất xử lý Thuật toán lặp lại bước  lúc khơng cịn tập mục ứng viên sinh Phương pháp phân bố liệu cục thuật tốn: Thuật tốn thơng báo đến (p – l) hàm nhận không đồng MPI để nhận liệu từ xử lý Nếu liệu tập mục nhận từ xử lý khác, trước hết xử lý xử lý liệu nhận trước xử lý liệu cục Cơng việc tránh tắc nghẽn đường truyền đệm Nếu khơng có liệu nhận, xử lý đọc tập mục từ liệu cục cập nhật số đếm hỗ trợ cho tập mục ứng viên Nếu tất liệu cập nhật tập mục ứng viên cục bộ, cơng việc tìm tập mục ứng viên cho xử lý  Thuật toán song song Eclat Thuật toán song song Eclat dùng phương pháp nhóm tập mục phổ biến có liên quan với cách sử dụng lược đồ phần chia lớp tương đương, với lớp tương đương chứa tập tập mục ứng viên quan hệ tương đương với Phương pháp sử dụng kỹ thuật tổ chức sở liệu theo chiều dọc để nhóm giao dịch liên quan với nhau: - Phân lớp tương tương: Gọi Lk tập itemset phổ biến, giả sử Lk xếp theo thứ tự từ điển Có thể phân hoạch tập mục Lk thành lớp tương đương: Nếu phần tử Lk có k-1 thành viên giống chúng thuộc lớp Ký hiệu lớp tương đương chứa a Sa = [a] Trong phạm vi lớp, ta sinh k-itemset ứng viên cách kết nối tất cặp tiền tố định danh lớp Trong |Si | số phần tử lớp có định danh i Các k-itemset ứng viên sinh từ lớp khác độc lập với 1.2 Giới thiệu chung thuật toán Apriori Apriori thuật toán khả sinh đề xuất R Agrawal R Srikant vào năm 1993 để khai thác tập item luật kết hợp kiểu bool Tên thuật toán dựa việc thuật tốn sử dụng tri thức trước (prior knowledge) thuộc tính tập item phổ biến Bài tốn phát biểu: Tìm t có độ hỗ trợ s thỏa mãn s  s0 độ tin cậy c  c0 (s0, c0 hai ngưỡng người dùng xác định s0=min_sup, c0 =min_conf) Ký hiệu Lk tập tập k - mục phổ biến, Ck tập tập k-mục ứng viên Bài tốn đặt là: 1) Tìm tất tập mục phổ biến với minsupp 2) Sử dụng tập mục phổ biến để sinh luật kết hợp với độ tin cậy minconf Apriori dùng cách tiếp cận lặp biết đến tìm kiếm level-wise, với tập k item dùng để thăm dò tập (k+1) item Đầu tiên, tập tập item phổ biến tìm thấy cách quét sở liệu để đếm số lượng item, thu thập item thỏa mãn độ hỗ trợ tối thiểu Tập kết đặt là L1 Tiếp theo, L1được dùng để tìm L2, tập tập item phổ biến, dùng để tìm L3, tiếp tục, tập k item phổ biến khơng thể tìm thấy Việc tìm kiếm cho mỗi Lk địi hỏi lần qt tồn sở liệu Có độ đo quan trọng luật kết hợp: Độ hỗ trợ (support) độ tin cậy (confidence)  Support – Độ hỗ trợ luật đo với giúp đỡ ngưỡng hỗ trợ Support giúp đo giao tác có tập phổ biến mà phù hợp với ý nghĩa hai phía cạnh luật kết hợp Xem xét hai item A B Để tính tốn support A→B theo công thức sau:  Confidence – Độ tin cậy chắn luật Thông số cho phép đếm mức độ thường xuyên giao tác tập phổ biến phù hợp với ý nghĩa phía cạnh bên trái với phía cạnh bên phải tập phổ biến không đáp ứng điều kiện loại bỏ Xem xét hai item A B Để tính tốn confidence A→B theo công thức sau: Chú ý: Conf(A→B) khơng conf(B→A) Để tăng hiệu việc phát sinh level-wise tập item phổ biến, tính chất quan trọng gọi là tính chất Apriori (Apriori property), giới thiệu đây, dùng để giảm khơng gian tìm kiếm Chúng ta mơ tả tính chất trước, xem ví dụ minh họa cách sử dụng Tính chất Apriori : Tất tập khơng rỗng tập item phổ biến phải biến Tính chất Apriori dựa theo nhận xét sau: Theo định nghĩa, tập item I không thỏa ngưỡng độ hỗ trợ tối thiểu, min_sup, thì I khơng phổ biến, đó, P(I)< min_sup Nếu item A được thêm vào tập item I, tập item tạo thành (ví dụ, I ∪ A) khơng thể xuất thường xun hơn I Do đó, I ∪ A cũng khơng phổ biến; đó, P(I∪ A) < min_sup Tính chất thuộc loại đặc biệt thuộc tính gọi là chống đơn điệu (antimonotone) nghĩa rằng nếu tập qua kiểm tra, tất tập cha (superset) thất bại với kiểm tra tương tự Đó gọi là chống đơn điệu là thuộc tính đơn điệu (monotonic) ngữ cảnh việc thất bại kiểm tra  Mục đích thuật tốn Apriori: Thuật tốn Apriori giúp tìm mối quan hệ đối tượng khối lượng lớn liệu Việc thuật tốn Apriori làm nhìn vào khứ khẳng định việc xảy có tỉ lệ phần trăm việc xảy Nó giống nhìn vào q khứ để dự đốn tương lại vậy, việc có ích cho nhà kinh doanh  Ý tưởng thuật toán Apriori: - Tạo tập mục phổ biến có phần tử, tiếp đến phần tử, phần tử tạo tập mục phổ biến kích cỡ - Mỗi tập mục tạo phải tính tốn độ hỗ trợ - Tập mục phổ biến k phần tử tạo từ tập phổ biến k-1 phần tử Bằng cách, nối đôi tập mục phổ biến k-1 phần tử có để tạo tập ứng viên k phần tử Sau đó, tập ứng viên có chứa tập phổ biến bị loại bỏ  Hạn chế thuật toán Apriori: - Số lượng lớn tập phổ biến tạo làm gia tăng phức tạp không gian - Quá nhiều lần duyệt sở liệu yêu cầu số lượng lớn tập phổ biến tạo - Khi số lần duyệt sở liệu nhiều làm gia tăng phức tạp thời gian sở liệu gia tăng CHƯƠNG 2: TÌM HIỂU THUẬT TỐN APRIORI 2.1 - Các khái niệm Item (phần tử):  Các phần tử, mẫu, đối tượng quan tâm  J= {I1,I2,…,Im}: tập hợp tất m phần tử có tập liệu - Itemset (tập phần tử)  Tập hợp items  Một itemset có k items gọi k-itemset - Transaction (giao dịch)  Transaction ký hiệu T  Lần thực tương tác với hệ thống (Ví dụ: giao dịch “khách hàng mua hàng”)  Liên hệ với tập T gồm phần tử giao dịch - - Candidate itemset (ứng viên tập phổ biến) : item xem xét xử lý Ứng viên tập phổ biến tất kết hợp có tập phổ biến Nó thường ký hiệu Ci I i-itemset Association (sự kết hợp) association rule (luật kết hợp)  Sự kết hợp: phần tử xuất với hay nhiều giao dịch Thể mối liên hệ giữ phần tử/ tập phần tử  Luật kết hợp: qui tắc kết hợp có điều kiện tập phần tử Thể mối liên hệ (có điều kiện) tập phần tử  Cho A B tập phần tử, luật kết hợp A B A→B B xuất điều kiện A xuất - Support (độ hỗ trợ)  Độ đo đo tần số xuất phần tử/ tập phần tử  Minimum support threshold ( ngưỡng hỗ trợ tối thiểu) Kí hiệu: min_sup Giá trị confidence nhỏ định người dùng 10 - Confidence (độ tin cậy)  Độ đo đo tần số xuất tập phần tử điều kiện xuất tập phần tử khác  Minimum confidence threshold (ngưỡng tin cậy tối thiểu) Kí hiệu: min_conf - Giá trị confidence nhỏ định người dùng Frequent item (mẫu phổ biến): mẫu liệu thường xuyên xuất tập liệu Frequent itemset (tập phần tử phổ biến):  Tập phần tử có support thỏa minimum support threshold  Cho A itemset, A frenquent itemset if support(A) ≥ minimum support threshold - Strong association rule (luật kết hợp mạnh):  Luật kết hợp có support confidence thỏa minimim support threshold minimim confidence threshold  Cho luật kết hợp A → B A B, A B itemsets A → B strong association rule if support (A → B) ≥ minimim support threshold and confidence (A → B) ≥ minimim confidence threshold 2.2 - Quy trình thuật tốn Giai đoạn 1: Tìm tất frequent itemsets (các tập phổ biến): Sử dụng k-itemset (itemsets gồm k items) dùng để tìm (k+1)- itemset  Bước 1: Duyệt toàn transaction database (CSDL giao dịch) để có support S 1-itemset, so sánh S với minsupp (ngưỡng hỗ trợ tối thiểu), để có 1-itemset (kí hiệu L1)  Bước 2: Sử dụng Lk-1 nối (join) Lk-1 để sinh k-itemset (L1 được dùng để tìm L2 (2itemsets) L2 được dùng để tìm L3 (3-itemset) tiếp tục khơng có kitemset tìm thấy) Loại bỏ itemsets frequent itemsets thu k-itemset  Bước 3: Duyệt transaction database để có support candidate kitemset, so sánh S với min_sup để thu frequent k-itemset (Lk)  Bước 4: Lặp lại từ bước khơng tìm thấy frequent itemsets (Candidate set (C) trống) 11 Các bước thực ta tìm tập k-itemset, mà (k + 1)itemset tập rỗng, tập k-itemset tập phổ biến ta cần tìm - Giai đoạn 2: Từ frequent itemsets sinh luật kết hợp mạnh (các luật kết hợp thỏa mãn tham số min_sup min_conf)  Bước 1: Với frequent itemset I, sinh tất tập s không rỗng I  Bước 2: Với tập s không rỗng I, sinh luật s => (I-s) nếu độ tin cậy (Confidence) ≥ min_conf (ngưỡng tin cậy tối thiểu) 2.3 Nội dung thuật tốn Apriori 2.3.1 Mơ tả thuật tốn Bước 1: k: =1, tạo C1 = tập tất itemsets có phần tử từ tất giao tác Đọc sở liệu để tính độ hỗ trợ thỏa mãn (support ≥ min_sup) C1 từ rút tập L1 Bước 2: For (k = 2; Lk-1 ≠ Ø; k++) { Tạo tập Ck, tập itemsets ứng viên có (k-1) phần tử, tạo từ tập Lk-1 Duyệt qua tất giao tác để tính số lần xuất itemsets Ck Tìm Lk, Lk tập Ck có chứa k phần tử với số đếm ≥ minsup } Bước : Tạo tập LargeItemSet = L1 v L2 v v Lk Bước : Tạo luật hợp từ tập LargeItemSet : for each itemset l LargeItemSet for each s (tập khác rỗng) l if confidence=count(l)/count(s) ≥ minconf then 12 xuất kết : s → (l-s) 2.3.2 Minh họa bước thuật toán Apriori Với min_sup = 2, min_conf = 50% - Giải thích ký hiệu:  ID: số định danh giao tác itemset  items: tập mặt hàng  itemset: tập mặt hàng ứng viên  sup: độ hỗ trợ tối thiểu  Ck tập ứng viên với kích cỡ k tạo cách kết hợp L k-1 với  Lk: tập phổ biến với kích cỡ k Hình 2.3.2: Minh họa bước thuật toán Apriori 2.4 Sơ đồ giải thuật thuật toán Apriori 13 14 Hình 2.4: Sơ đồ giải thuật thuật toán Apriori 2.5 Minh họa thuật toán Để minh họa cho khái niệm, ta lấy ví dụ CSDL với giao dịch sau | TID (mã giao dịch) | Itemset (tập hạng mục) |: | I1, I2, I5 | I2, I4 | I2, I3 | I1, I2, I4 | I1, I3 | I2, I3 | I1, I3 | I1, I2, I3, I5 | I1, I2, C Min_sup 2, min_conf 60% Bước 1: K = (I) Tạo bảng chứa số support mục có tập liệu - Được gọi C1 (tập ứng cử viên) 15 (II) so sánh số support tập ứng cử viên với số lượng hỗ trợ tối thiểu (ở min_sup = support_count tập ứng cử viên nhỏ min_sup xóa tập đó) Điều cung cấp cho mục L1 Bước 2: K = Tạo tập ứng viên C L1 (đây gọi bước kết hợp) Điều kiện để kết hợp Lk-1 với Lk-1 hai tập cha phải có K-2 (trong trường hợp 0) yếu tố chung Duyệt qua tập cha C 2, tập cha khơng đạt chuẩn thường xun tập bị xóa (Ví dụ tập hợp {I1, I2} {I1}, {I2} để kiểm tra độ thường xuyên thường xuyên Kiểm tra cho mục) Bây tính độ thường xuyên tập tạo Tiếp tục kiểm tra độ thường xuyên tập C 2, tập khơng thỏa mãn min_sup xóa Ta nhận kết tập L2 16 Bước 3: K = Lặp lại quy trình bước ta hai tập C3: L3: Cứ tiếp tục lặp lại đến tập Cn không cịn phần tử Từ đó, phát tất tập vật phẩm thường xuyên Bây tính mạnh mẽ, bền chặt tập vật phẩm ý tới Cho cần tính tốn tự tin tập Sự tự tin - Độ tin cậy 60% có nghĩa 60% khách hàng mà mua sữa bánh mì mua bơ Confidence(A→B)=Support_count(A∪B)/Support_count(A) Ở lấy ví dụ với tập thường xun ta tìm [I1Î2]=>[I3] //confidence = sup(I1Î2Î3)/sup(I1Î2) = 2/4*100=50% [I1Î3]=>[I2] //confidence = sup(I1Î2Î3)/sup(I1Î3) = 2/4*100=50% [I2Î3]=>[I1] //confidence = sup(I1Î2Î3)/sup(I2Î3) = 2/4*100=50% [I1]=>[I2Î3] //confidence = sup(I1Î2Î3)/sup(I1) = 2/6*100=33% [I2]=>[I1Î3] //confidence = sup(I1Î2Î3)/sup(I2) = 2/7*100=28% [I3]=>[I1Î2] //confidence = sup(I1Î2Î3)/sup(I3) = 2/6*100=33% Với kết trên, độ tin cậy tối thiểu 50%, quy tắc coi quy tắc kết hợp mạnh mẽ 17

Ngày đăng: 02/04/2023, 10:43