Bài thu hoạch môn cơ sở tri thức và ứng dụng
Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm PHỤ LỤC LỜI LỜI MỞ ĐẦU Với phát triển công nghệ thông tin khối lượng liệu lưu trữ ngày lớn, lượng liệu khổng lồ lại ẩn chứa số thông tin coi chìa khóa dẫn đến thành công lĩnh vực từ hoạt động sản xuất đến kinh doanh Việc khai thác, lọc thông tin ứng dụng vào sống người không dừng lại kĩ thuật đơn thuần, đòi hỏi đời ngành khoa học mới: khoa học phát tri thức khai phá liệu (Knowledge Discovery and Data Mining KDD) Khai phá liệu ngành khoa học ngày quan tâm nghiên cứu phát triển ứng dụng thiết thực mà mang lại Khai phá liệu phần cốt lõi phát tri thức, khai phá liệu phát luật nội dung phổ biến Các phương pháp phát luật nhằm tìm phụ thuộc tính chất đối tượng hay thuộc tính sở liệu Trên sở thu hoạch tập trung tìm hiểu hướng tiếp cận khai phá liệu thông qua thuật toán Apriori số thuật toán xuất phát từ Apriori Em xin cảm ơn kiến thức quý báo GS TSKH Hoàng Kiếm truyền đạt cho em, để em có sở nghiên cứu tìm hiểu nhiều hơn, sâu Do trình nghiên cứu kiến thức tài liệu nhiều hạn chế nên viết nhiều thiếu sót, chưa đầy đủ Em mong nhận góp ý Thầy để viết thực hoàn chỉnh Trang Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm PHẦN 1: PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU I PHÁT HIỆN TRI THỨC (KNOWLEDGE DISCOVERY) Phát tri thức Chúng ta xem tri thức thông tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu phát học Nói cách khác tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu quy trình nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích hiểu Còn khai thác liệu bước quy trình phát tri thức: gồm thuật toán khai thác liệu chuyên dùng số quy định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu Nói cách khác mục đích phát tri thức khai phá liệu tìm mẫu mô hình tồn sở liệu bị che khuất hàng núi liệu Quá trình phát tri thức a Làm liệu (Data cleaning): Là trình loại bỏ nhiễu - liệu không bình thường, không tuân theo quy luật, nguyên tắc hay mô hình liệu (còn gọi phần tử cuộc), liệu không quán b Tích hợp liệu (Data intergation): Dữ liệu thu thập từ nhiều nguồn khác nhau, thu thập liệu nhiều lần Dữ liệu cuối trình có kết việc tổ hợp lại lần thực thu thập liệu c Lựa chọn liệu (Data selection): Trang Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm Kết đạt trình liệu thích hợp với nhiệm vụ phân tích trích rút từ sở liệu d Chuyển đổi liệu (Data transformation): Dữ liệu chuyển đổi hay hợp dạng thích hợp cho việc khai phá e Khai phá liệu (Data mining): Đây tiến trình cốt yếu phương pháp thông minh áp dụng nhằm trích mẫu liệu f Đánh giá mẫu (Pattern evaluation): Dựa số độ đo xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức g Biểu diễn tri thức (Knowledge presentation): Ở giai đoạn này, kĩ thuật biểu diễn hiển thị sử dụng để đưa tri thức lấy cho người dùng Trang Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm II KHAI PHÁ DỮ LIỆU (DATA MINING): Khai phá liệu Ở mức độ trừu tượng định định nghĩa khai phá liệu (Data Mining) trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn Mục đích việc khai phá liệu • Khai phá liệu cung cấp thông tin giúp hỗ trợ định • Cung cấp thông tin giúp dự báo: Ví dụ dự báo dân số giới vào số liệu dân số giới năm trước • Có thể giúp khái quát liệu Các ứng dụng khai phá liệu Khai phá liệu (KPDL) áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Các công ty phần mềm lớn giới quan tâm trọng tới việc nghiên cứu phát triển kĩ thuật khai phá liệu: Oracle tích hợp công cụ khai phá liệu vào Oracle9i, IBM tiên phong việc phát triển ứng dụng khai phá liệu với ứng dụng Intelligence Miner Trang Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm PHẦN 2: THUẬT TOÁN APRIORI VÀ CÁC THUẬT TOÁN XUẤT PHÁT TỪ APRIORI I THUẬT TOÁN APRIORI: Apriori thuật toán Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề xuất lần đầu vào năm 1993 Bài toán phát biểu: Tìm t có độ hỗ trợ s thỏa mãn s ≥ s0 độ tin cậy c ≥ c0 (s0, c0 hai ngưỡng người dùng xác định s0=minsupp, c0 =minconf) Ký hiệu Lk tập tập k - mục phổ biến, Ck tập tập k-mục ứng viên Bài toán đặt là: 1) Tìm tất tập mục phổ biến với minsupp 2) Sử dụng tập mục phổ biến để sinh luật kết hợp với độ tin cậy minconf NGUYÊN TẮC APRIORI – Đếm số lượng Item, tìm Item xuất nhiều – Tìm cặp ứng viên: Đếm cặp => cặp item xuất nhiều – Tìm ba ứng viên: Đếm ba => ba item xuất nhiều Và tiếp tục với 4, 5, … – Nguyên tắc chủ yếu: Mọi tập tập phổ biến phải tập phổ biến MÔ TẢ THUẬT TOÁN APRIORI – Bước 1: Đếm số support cho tập gồm phần tử xem chúng Large itemset Support chúng minsup – Bước 2: Với tập Large item bổ sung item vào tạo Large itemset mới, tập gọi tập ứng viên (Candidate itemset - C) Đếm số support cho tập C sở liệu, từ định tập C Large Item thực sự, ta dùng làm hạt giống cho bước – Bước 3: Lặp lại bước không tìm thấy thêm, tập Large itemset NỘI DUNG THUẬT TOÁN APRIORI: Trang Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm Input: Tập giao dịch D, ngưỡng support tối thiểu minsup Output: L- tập mục phổ biến D Method: L1=Large_1_ItemSets() for (k=2; Lk-1 ≠ ∅; k++) begin Ck=apriori-gen(Lk-1); for (mỗi giao dịch T D) begin CT = subset(Ck, T); for (mỗi ứng cử viên c – c.count++; 10 end; 11 Lk = {c ∈ Ck| c.count ≥ minsup} 12 end; 13 return ∪kLk Hàm Large_1_ItemSets() trả Item có số support lớn hay minsup for all transaction t ∈ D for all item i ∈ t – CT) i.count ++; L1={i | i.count ≥ minsup}; Hàm Apriori_Gen (Lk-1) thực việc kết cặp (k-1) ItemSet để phát sinh tập k_ItemSet Tham số hàm Lk-1 – tập tất (k-1)-ItemSet kết trả hàm tập k-ItemSet Join Lk-1 with Lk-1; Insert into Ck Trang Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm select p.item1,p.item2, p.itemk-1, q.itemk-1 from Lk-1 as p, Lk-1 as q; where (p.item1= q.item1)∧ ∧(p.itemk-2 = q.item k-2)∧(p.item k-1=minSup D C1 L1 Kết Nối Quyét CSDL L2 C3 C2 Kết nối L3 Chọn Items có support >=minSup C4 = Phát sinh luật : AC W có độ Confidence 4/4=100% AW C có độ Confidence 4/4=100% CW A có độ Confidence 4/5=80% Trang 10 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm II THUẬT TOÁN APRIORITID: Giải thuật AprioriTID phần mở rộng theo hướng tiếp cận giải thuật Apriori Thay dựa vào sở liệu thô giải thuật AprioriTID biểu diễn bên giao tác ứng viên hành THUẬT TOÁN APRIORITID: – Thuật toán AprioriTID sử dụng hàm Apriori_Gen để tạo tập ItemSet ứng viên Thuật toán không dùng sở liệu D để đếm support kể từ bước thứ hai, thay vào sử dụng tập Ck cho mục đích Mỗi thành viên tập Ck có dạng với Xk tập k-ItemSet thể phần giao tác t có mã TID, hay ta viết – Nếu giao tác không chứa tập k-ItemSet ứng viên nào, giao tác không đưa vào Do đó, số lượng ứng viên đưa vào nhỏ số lượng giao tác sở liệu MÔ PHỎNG THUẬT TOÁN APRIORI-TID – Bước 1: Quét tất giao dịch để tìm tất item có độ Support lớn Min Support đưa tập Large 1-Item vào F1 – Bước 2: Đưa toàn Tid giao dịch Items vào C’1 dạng – Bước 3: Xây dựng cặp 2-items từ F1 đưa vào tập ứng viên C2 Quét tất giao dịch C’1 để tìm tất tập Large 2-Item từ C2 đưa vào C’2 dạng , đồng thời đưa tập Large 2-Item ứng viên vào F2 – Bước 4: Phát sinh Luật Xây dựng cặp k items từ Fk-1 đưa vào tập ứng viên Ck Quét tất giao dịch C’k-1 để tìm tất tập Large k-Item từ Ck đưa vào C’k dạng , đồng thời đưa tập Large k-Item vào Fk Lặp lại Bước hết ứng viên Trang 11 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm NỘI DUNG TỐI ƯU THUẬT TOÁN APRIORI-TID L1 = Large_1_ItemSets (); = Database D; for (k=2; Lk-1 ≠ ∅ ; k++) begin Ck = Apriori_Gen(Lk-1); = ∅; for all t∈ begin Ct = {c ∈ Ck | (c-c[k]) ∈ t.Set_of_ItemSets ^ (c-c[k-1] ∈ t.Set_of_ItemSets}; for all candidate c ∈ Ct 10 c.count ++; 11 if (Ct≠∅) then 12 End 13 Lk = {c ∈ 14 End 15 Answer = ∪kLk; += < t.TID, Ct >; | c.count ≥ minsup} CẤU TRÚC LƯU TRỮ: – Mỗi tập ItemSet ứng viên gán cho mã số nhất, gọi ID Mỗi tập ItemSet Ck lưu mảng Một thành viên , – có dạng lưu cấu trúc Hàm Apriori_Gen phát sinh tập k-ItemSet ứng viên Ck cách kết hai tập Large (k-1)-ItemSets Mỗi ItemSet ứng viên ta thêm hai trường: (i) generators (ii) extensions Trang 12 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng – GVHD: GS TSKH Hoàng Kiếm Trường generators tập ItemSet ck lưu ID hai tập Large (k-1)-ItemSet kết với để phát sinh ck – Trường extensions tập ItemSet ck lưu ID tập Large (k+1)ItemSet kết với để phát sinh ck – Khi ItemSet ck ứng viên phát sinh cách kết 1k-1 12k-1, ID 11k-1 vaø 12k-1 lưu vào trường generators ck, đồng thời ID ck lưu vào trường extension 11k-1 – Với cấu trúc lưu trữ câu lệnh Ct = {c ∈ Ck | (c-c[k]) ∈ t.Set_of_ItemSets ∧(c-c[k-1] ∈ t.Set_of_ItemSets}; thực sau: trường t.Set-of-ItemSets ghi t thuộc lưu ID tập ứng viên (k-1)-ItemSet chứa giao tác t.TID Với c k-1, trường extensions chứa tập Tk tập ID tất tập k-ItemSet ứng viên mở rộng từ ck-1 Mỗi ck Tk, trường generators chứa ID hai tập ItemSet dùng để phát sinh ck Nếu tập itemSet nằm danh sách tập ItemSet ghi t, kết luận c k thuộc giao tác t.TID, c k thêm vào tập Ct MINH HỌA THUẬT TOÁN APRIORI-TID: Cho ví dụ tập giao dịch Tid với Items sau: Tid Items 100 {1, 3, 4} 200 {2, 3, 5} 300 {1, 2, 3, 5} 400 {2, 5} Cho Min Support = 50%, Min Confidence = 60% Tính tập Large 1-item, ta có F1: Trang 13 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm Tập 1-item Số lần xuất {1} {2} {3} {5} Lấy toàn bộ đưa vào C’1 Tid Tập 1-Item 100 {{1 }, {3}, {4}} 200 {{2}, {3}, {5}} 300 {{1}, {2}, {3}, {5}} 400 {{2}, {5}} Ở bước kết Từ F1 ta có tập C2 gồm cặp 2-item: {{1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5}} Xác định ứng viên từ C2 duyệt Tid C’1 đưa vào C’2 Tid Tập 2-Item 100 {{1,3}} 200 {{2,3}, {2,5}, {3,5}} 300 {{1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5}} 400 {{2,5}} Ở bước kết Từ F1 ta có tập C2 gồm cặp 2-item: {{1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5}} Tính tập Large 2-Item, ta có F2 Trang 14 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm Tập 2-Item Số lần xuất {1,3} {2,3} {2,5} {3,5} Ở bước kết Từ F2 ta có tập C3 gồm cặp 3-item {{2,3,5}} Xác định ứng viên từ C3 duyệt Tid C’2 đưa vào C’3 Tid Tâp 3-Itims 200 {{2, 3, 5}} 300 {{2, 3, 5}} Tính tập Large 3-Item, ta có F3: Tập 3- Item Số lần xuất {{2, 3, 5}} Phát sinh luật: 2,3 có độ Confidence 2/2 = 100% 2,5 3 có độ Confidence 2/3 = 66,66% 3,5 có độ Confidence 2/2 = 100% Ở bước kết Từ F3 ta có tập C4 gồm cặp 4-item {∅} Thuật toán kết thúc Trang 15 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng III GVHD: GS TSKH Hoàng Kiếm SO SÁNH THUẬT TOÁN APRIORI VÀ APRIORI-TID Khuyết điểm apriori: Để xác định độ Support tập ứng viên, thuật toán luôn phải quét lại toàn giao tác CSDL Do tiêu tốn nhiều thời gian số kitems tăng (số lần xét duyệt giao tác tăng) Khuyết điểm apriori-Tid: Trong trình xét duyệt khởi tạo, kích thước C’k lớn hầu hết tương đương với kích thước CSDL gốc Do thời gian tiêu tốn với thuật toán apriori, thuật toán apriori-Tid phải gánh chịu thêm chi phí phát sinh C’k vượt nhớ mà phải sử dụng kèm nhớ Trang 16 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng IV GVHD: GS TSKH Hoàng Kiếm THUẬT TOÁN APRIORI-HYBRID Thuật toán Apriori-Hybrid coi kết hợp Thuật toán Apriori thuật toán Apriori-TID Trong thuật toán Apriori-Hybrid, sử dụng tổ chức lặp chuyển sang Apriori-TID chắn tập C k vào nhớ Thuật toán AprioriHybrid coi tốt so với Apriori AprioriTID Nhờ có nhận xét tinh tế thuật toán Apriori chạy nhanh nhữngbước đầu tiên, thuật toán AprioriTID chạy nhanh bước sau (chạy chậm bước đầu tiên), Agrawal đề nghị phương án lai ghép: không thiết phải chạy tất bước thuật toán giống Những bước đầu tiên, ông cho chạy thuật toán Apriori, sau tập ứng cử viên lớn, chứa đầy nhớ tính toán, dùng thuật toán Apriori-TID Srikant đưa thêm nhận xét: thời gian chuyển từ thuật toán Apriori sang thuật toán Apriori-TID tương đối tốn Và thuật tóab lai ghép Apriori-Hybrid tỏ hiệu chuyển mạch diễn gần cuối trình tìm kiếm tập xuất σ thường xuyên Trang 17 Bài Thu Hoạch Môn: Cơ Sở Tri Thức Ứng Dụng GVHD: GS TSKH Hoàng Kiếm TÀI LIỆU THAM KHẢO [1] GS.TSKH Hoàng Kiếm Bài giảng cao học môn học sở tri thức ứng dụng ĐHKHTN-TPHCM [2]GS.TSKH Hoàng Kiếm, TS Đỗ Văn Nhơn, Th.sĩ Đỗ Phúc Giáo trình Các hệ sở tri thức Đại Học Quốc Gia TPHCM – 2002 [3] GS.TSKH Hoàng Kiếm, Th.sĩ Đinh Nguyễn Anh Dũng Giáo trình Trí tuệ nhân tạo Đại Học Quốc Gia TPHCM – 2002 [4] Giáo trình khai thác liệu, PGS.TS Đỗ Phúc, Trường ĐH CNTT, ĐHQG TP.HCM, Nhà xuất ĐHQG TP.HCM, 2006 Trang 18 [...].. .Bài Thu Hoạch Môn: Cơ Sở Tri Thức và Ứng Dụng GVHD: GS TSKH Hoàng Kiếm II THU T TOÁN APRIORITID: Giải thu t AprioriTID là phần mở rộng theo hướng tiếp cận cơ bản của giải thu t Apriori Thay vì dựa vào cơ sở dữ liệu thô giải thu t AprioriTID biểu diễn bên trong mỗi giao tác bởi các ứng viên hiện hành 1 THU T TOÁN APRIORITID: – Thu t toán AprioriTID sử dụng hàm Apriori_Gen để tạo các tập ItemSet ứng. .. ra ở gần cuối quá trình tìm kiếm tập xuất hiện σ thường xuyên Trang 17 Bài Thu Hoạch Môn: Cơ Sở Tri Thức và Ứng Dụng GVHD: GS TSKH Hoàng Kiếm TÀI LIỆU THAM KHẢO [1] GS.TSKH Hoàng Kiếm Bài giảng cao học môn học cơ sở tri thức và ứng dụng ĐHKHTN-TPHCM [2]GS.TSKH Hoàng Kiếm, TS Đỗ Văn Nhơn, Th.sĩ Đỗ Phúc Giáo trình Các hệ cơ sở tri thức Đại Học Quốc Gia TPHCM – 2002 [3] GS.TSKH Hoàng Kiếm, Th.sĩ Đinh... của C’k là rất lớn và hầu hết là tương đương với kích thước của CSDL gốc Do đó thời gian tiêu tốn cũng sẽ bằng với thu t toán apriori, ngoài ra thu t toán apriori-Tid còn phải gánh chịu thêm chi phí phát sinh nếu C’k vượt quá bộ nhớ trong mà phải sử dụng kèm bộ nhớ ngoài Trang 16 Bài Thu Hoạch Môn: Cơ Sở Tri Thức và Ứng Dụng IV GVHD: GS TSKH Hoàng Kiếm THU T TOÁN APRIORI-HYBRID Thu t toán Apriori-Hybrid... có độ Confidence 2/2 = 100% Ở bước kết Từ F3 ta có tập C4 gồm các cặp 4-item là {∅} Thu ̣t toán kết thu c Trang 15 Bài Thu Hoạch Môn: Cơ Sở Tri Thức và Ứng Dụng III GVHD: GS TSKH Hoàng Kiếm SO SÁNH THU T TOÁN APRIORI VÀ APRIORI-TID 1 Khuyết điểm của apriori: Để xác định độ Support của các tập ứng viên, thu t toán luôn luôn phải quét lại toàn bộ các giao tác trong CSDL Do vậy sẽ tiêu tốn rất... vào C’2 dưới dạng , đồng thời đưa các tập Large 2-Item ứng viên vào F2 – Bước 4: Phát sinh Luật Xây dựng các cặp k items từ Fk-1 đưa vào tập ứng viên Ck Quét tất cả các giao dịch trong C’k-1 để tìm tất cả các tập Large k-Item từ Ck và đưa vào C’k dưới dạng , đồng thời đưa các tập Large k-Item vào Fk Lặp lại Bước 4 cho đến khi hết ứng viên mới Trang 11 Bài Thu Hoạch Môn: Cơ Sở Tri. .. ghi t, thì có thể kết luận c k thu c giao tác t.TID, và c k được thêm vào tập Ct 5 MINH HỌA THU T TOÁN APRIORI-TID: Cho một ví dụ tập các giao dịch Tid với các Items như sau: Tid Items 100 {1, 3, 4} 200 {2, 3, 5} 300 {1, 2, 3, 5} 400 {2, 5} Cho Min Support = 50%, Min Confidence = 60% Tính tập Large 1-item, ta có F1: Trang 13 Bài Thu Hoạch Môn: Cơ Sở Tri Thức và Ứng Dụng GVHD: GS TSKH Hoàng Kiếm Tập... {1,3}, {1,5}, {2,3}, {2,5}, {3,5}} Tính tập Large 2-Item, ta có F2 Trang 14 Bài Thu Hoạch Môn: Cơ Sở Tri Thức và Ứng Dụng GVHD: GS TSKH Hoàng Kiếm Tập 2-Item Số lần xuất hiện {1,3} 2 {2,3} 2 {2,5} 3 {3,5} 2 Ở bước kết Từ F2 ta có tập C3 gồm cặp 3-item {{2,3,5}} Xác định ứng viên từ C3 khi duyệt Tid trong C’2 và đưa vào C’3 Tid Tâp 3-Itims 200 {{2, 3, 5}} 300 {{2, 3, 5}} Tính tập Large 3-Item,... Apriori-Hybrid được coi như kết hợp giữa Thu t toán Apriori và thu t toán Apriori-TID Trong thu t toán Apriori-Hybrid, được sử dụng khi tổ chức lặp và chuyển sang Apriori-TID khi đã chắc chắn rằng tập C k đã vào bộ nhớ chính Thu t toán AprioriHybrid được coi là tốt hơn so với Apriori và AprioriTID Nhờ có nhận xét tinh tế là thu t toán Apriori chạy khá nhanh ở nhữngbước đầu tiên, còn thu t toán AprioriTID chạy nhanh... ứng viên sẽ được gán cho một mã số duy nhất, gọi là ID Mỗi tập ItemSet Ck được lưu trong một mảng Một thành viên của , mỗi – bây giờ có dạng được lưu trong một cấu trúc tuần tự Hàm Apriori_Gen phát sinh một tập các k-ItemSet ứng viên Ck bằng cách kết hai tập Large (k-1)-ItemSets Mỗi ItemSet ứng viên ta thêm hai trường: (i) generators (ii) extensions Trang 12 Bài Thu Hoạch Môn: Cơ Sở Tri Thức. .. đó, số lượng ứng viên được đưa vào có thể nhỏ hơn số lượng các giao tác trong cơ sở dữ liệu 2 MÔ PHỎNG THU T TOÁN APRIORI-TID – Bước 1: Quét tất cả các giao dịch để tìm tất cả các item có độ Support lớn hơn Min Support và đưa tập Large 1-Item vào F1 – Bước 2: Đưa toàn bộ các Tid của giao dịch cùng các Items vào C’1 dưới dạng – Bước 3: Xây dựng các cặp 2-items từ F1 đưa vào tập ứng viên C2