Khai thác dữ liệu với mẫu kích thước lớn Khai thác dữ liệu với mẫu kích thước lớn Khai thác dữ liệu với mẫu kích thước lớn luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO LÊ ĐÌNH THÂM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LUẬN VĂN THẠC SĨ LÊ ĐÌNH THÂM KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN KHĨA 2013-2015 LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ ĐÌNH THÂM KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ ĐÌNH THÂM KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS BÙI ĐỨC MINH TP HỒ CHÍ MINH, tháng năm 2016 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS BÙI ĐỨC MINH (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 20 tháng năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng GS.TSKH Hoàng Văn Kiếm Chủ tịch PGS.TS Võ Đình Bảy Phản biện TS Lê Tuấn Anh Phản biện PSG.TS Quản Thành Thơ Ủy viên TS.Nguyễn Thị Thúy Loan Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa Chủ tịch Hội đồng đánh giá Luận văn TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ ĐÌNH THÂM Giới tính: Nam Ngày, tháng, năm sinh: 29/5/1977 Nơi sinh: Bình Định Chuyên ngành: CÔNG NGHỆ THÔNG TIN MSHV: 1341860019 I- Tên đề tài: KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN II- Nhiệm vụ nội dung: - Biểu diễn tập liệu ma trận bit - Khai thác liệu theo cấu trúc tìm kiến - Khai thác liệu với mẫu kích thước lớn - Xây dựng chương trình thực nghiệm III- Ngày giao nhiệm vụ: 20/8/2015 IV- Ngày hoàn thành nhiệm vụ: 15/01/2016 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS BÙI ĐỨC MINH CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TS Bùi Đức Minh KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Lê Đình Thâm ii LỜI CẢM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình TS Bùi Đức Minh Cảm ơn q thầy/cơ Khoa Công nghệ thông tin Trường Đại học Công nghệ TP HCM giúp đỡ cung cấp cho kiến thức quí báu suốt thời gian học tập nghiên cứu thực luận văn Cho phép tơi gửi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hồn thành luận văn Luận văn khơng thể tránh khỏi sai sót, mong nhận ý kiến đóng góp q thầy/cơ, bạn bè, đồng nghiệp tơi cho luận văn hồn thiện Tơi xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 20 tháng năm 2016 Lê Đình Thâm iii TĨM TẮT Khai phá tri thức tiềm ẩn sở liệu mục tiêu chung ngành khoa học khai thác liệu nhiều nhà nghiên cứu quan tâm Với bùng nổ liệu nay, thách thức cho ngành khoa học ngày phát triển mạnh chiều rộng chiều sâu Khai thác tập phổ biến kỹ thuật quan trọng khai thác liệu nghiên cứu rộng rãi suốt nhiều thập kỷ qua Nhiều thuật toán xây dựng để hỗ trợ q trình khai thác tập phở biến sở liệu thương mại truyền thống Với sở liệu dạng thường bao gồm nhiều giao tác giao tác lại gồm phần tử Trong thực tế có sở liệu đặc biệt như: số item lớn, giao tác không nhiều dẫn đến việc khai thác theo phương pháp truyền thống thường gặp phải hạn chế về không gian lưu trữ hiệu tính tốn số lượng ứng viên xuất trình khai thác tăng theo cấp độ hàm mũ,.v.v Các giải pháp đưa như: khai thác tập phở biến đóng, khai thác tập phổ biến tối đại Tuy nhiên số vấn đề tồn nhiều thời gian dung lượng nhớ thực khai thác sở liệu đặc biệt nêu trên, liệu xuất dư thừa khơng có đủ thông tin phù hợp để khai thác,.v.v Nghiên cứu luận văn tập trung vào xây dựng chiến lược khai thác liệu với mẫu kích thước lớn hiệu cách sử dụng phương pháp khai thác từ lên duyệt theo giao tác thao tác bit; sử dụng ma trận bit để nén tập liệu làm cho tập liệu dễ sử dụng Ngoài ra, quy tắc cắt tỉa để nâng cao hiệu trình khai thác sử dụng; cài đặt thuật toán nhận xét, đánh giá thuật toán iv ABSTRACT Nowadays, potential knowledge mining of the database which is the overall goal of the data mining science is very much interested by researchers With the explosion of data today, the challenge for science is increasingly in both width and depth Frequent itemset mining is considered as an important data mining which has been studied extensively in the past decades Many algorithms have been built to support the process of mining frequent patterns in traditional trade database These often include a lot of transaction, but each transaction is to include very few items In fact, there are special databases such as very large items number, transactions not much lead to the mining of the traditional method is not feasible, such as high costs, or the more the length of the transactions increases, the longer the implementation period of traditional algorithms is and will increase exponentially, etc The solutions are given such as closed frequent pattern mining, maximal frequent pattern mining However, some problems still exist, such as waste of time and space consuming for high dimensional datasets, data is output to excessively but not have enough relevant information to exploit , etc The research in this thesis focused on developing colossal patterns mining more efficiently by using the bottom-up vertical colossal pattern mining on bit (bitwise) Bit matrix is used to compress data set and make it easier to use In addition, we also use the rules trimming to improve the efficiency of the exploitation process, install algorithm and comments, evaluation algorithms v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa Khai thác mẫu kích thước lớn duyệt theo giao tác từ BVBUC lên CSDL Cơ sở liệu Item Mục liệu Itemset Các mục liệu KPTT Khám phá tri thức Minsup Ngưỡng người dùng xác định Row-id Mã định danh dòng Rowset Tập dòng Supp Độ hỗ trợ TID Nhận dạng giao dịch - Transaction IDentifier 40 Hình 3.11 Mức tìm kiếm lược bỏ với minsup =50% (Sử dụng ma trận bit hình 3.3a) Hình 3.12 Nút nút 12 1 0 13 126 0 0 0 0 0 0 1 0 0 0 1 0 1 egh 0 0 bg 134 0 135 ace 0 0 136 123 0 a 124 0 eh 125 1 0 1 beg eh Hình 3.13 Nút 12 nút Hình 3.14 Nút 13 nút 14 1 15 1 1 0 0 145 1 0 abg 0 0 156 146 1 0 0 0 g eg Hình 3.15 Nút 14 nút Hình 3.16 Nút 15 nút Trong hình 3.13, nút rowset {1,2} đều chứa row-id với minsup = 50% mức cuối nhánh {1,2} Ta thực phép tốn AND rowset {1,2} với dịng {3}, {4}, {5},{6} xây dựng vectơ bit tương ứng cho itemset, kiểm tra itemset để xác định xem chúng có phải itemset có kích thước lớn hay khơng, đạt thêm vào tệp liệu xuất 41 Tương tự, rowset {1,3} gồm nút tạo itemset: egh, bg, beg; rowset {1,4} gồm nút tạo itemset: eg, abg; rowset {1,5} có nút tạo item g; nút rowset {1,6} khơng có nút Nhận xét: Nếu biết nút {1,6} khơng có nút nhánh khơng đạt đến mức minsup khai triển nút {1} ta khơng tạo Việc bỏ nút {1,6} nút tương tự làm giảm kích thước cây, giảm thời gian xây dựng cây, đặc biệt minsup có giá trị lớn Phương pháp BVBUC lược bỏ tất nhánh có mức khơng đạt đến ngưỡng minsup Các bước thực cụ thể sau: +Tính mức lớn mà nhánh đạt đến bắt đầu xây dựng nhánh ở mức + Xây dựng nút cách chèn row-id dòng liền sau xây dựng rowset tương ứng nút + Thực lược bỏ nút cách: Trong tập liệu có m dịng, nút có chứa row-id m khơng có nút Nếu nút ở mức chứa m minsup lớn nút không xây dựng Nếu minsup lớn nút ở mức chứa m nút ở mức chứa m-1 m không xây dựng Nếu minsup lớn nút sau không xây dựng: Các nút ở mức chứa m, nút ở mức chứa m-1 m nút ở mức chứa m, m-1 m-2 Tóm lại; với minsup, ta khai triển m - minsup + nút ở mức cây, nút nằm nhánh có mức nút thỏa p + m - ap >= minsup xây dựng (với p mức nút, m số dòng tập liệu ap row-id) Phương pháp tính mức cây: Gọi q nút có mức p Ta nhận thấy nút ở mức p có p row-id Gọi rowset tương ứng với nút q a1a2 ap, với row-id thứ i 42 (1 ≤ i ≤p) với i < j, ai< aj Tất nút q tạo cách chèn row-id có thứ tự từ ap + đến m vào rowset tương ứng với q (các nút tương ứng với rowset tạo a1a2 apap+1, a1a2 apap+2, , …, a1a2 apm) Nhận xét: Cây q (cây có gốc q) có m - ap mức Nhánh lớn tìm kiếm chứa nút q có p nút liền trước q m - ap nút liền sau q có p+m – ap mức Tóm lại; với nút q tìm kiếm từ lên duyệt theo giao tác, nhánh lớn chứa nút q có p+m - ap mức Trong p mức q, m số lượng dòng tập liệu, ap row-id lớn có q Ví dụ: Theo hình 3.7 ta có nhánh lớn chứa nút 13 (nút tương ứng với rowset {1,3} có năm mức (p + m- ap = + - = 5, kiểm chứng lại điều hình 3.7) 43 1 1 1 0 0 0 25 0 256 0 0 24 1 1 0 0 246 0 0 e 245 0 1 0 adf 23 0 0 1 0 0 236 0 eh 235 0 0 0 f 234 0 1 0 ef Hình 3.17 Nhánh nút Kết hình 3.17 – Khi xây dựng nút {2} đến mức minsup, có nút {2,6} khơng xây dựng p + m - ap = + – = nhỏ minsup (minsup = 50%) 44 {} 1 1 1 0 1 0 45 1 456 0 0 g 0 1 1 0 35 1 356 0 0 0 g 34 0 1 0 1 346 0 eg 345 0 0 1 bfg Hình 3.18 Các nhánh nút Hình 3.18 cho thấy nút tương ứng với rowset {6}, {5} ở mức nút tương ứng với rowset {3,6}, {4,6}, {5,6}) ở mức lược bỏ 3.3 Thuật toán BVBUC Procedure BVBUC Input m: integer; // Mã định danh dòng Max:integer; // Tổng số dòng tập liệu l: integer; // Mức (bằng số lượng row-id nút) S: string; // rowset nhập vào minsup: integer; //Ngưỡng tối thiểu người dùng quy định var i:integer; 45 Begin If (l=minsup) then Begin If (Pattern(S) is colossal) then If (Patterm(S) is not in file) Then Output(File, (Patterm(S), support(S))); End Else Begin S:= S + IntTostr(m)+ ‘ ‘; If (Pattern(S) is colossal) Then Begin For i:=m+1 to max Begin If((l+max-i)>=minsup) Then Begin BVBUC(i, max, l+1, S, minsup); End; End; End; End; End Các tham số đầu vào thuật tốn gồm có: m: Row-id rowset nút cha, max: Số dòng ma trận bit, I: Mức tìm kiếm, S: Rowset đầu vào thuật toán, minsup: Ngưỡng người dùng xác định Đây thuật toán đệ quy xây dựng từ hai phần Phần 1: Phần khối lệnh If thứ thuật tốn: Kiểm tra mức I có minsup khơng, khơng chuyển sang phần thuật tốn, ngược lại thì: Nếu kết hàm Pattern(S) trả về mẫu có kích thước lớn (kích thước người dùng quy định) S chưa có tệp liệu xuất thêm mẫu với độ hỗ trợ vào tệp liệu xuất, kết thúc trình khai thác nhánh Hàm Pattern(S) dùng tính tốn mẫu tương ứng rowset S phép toán AND vectơ bit row-id có rowset S lựa chọn phần tử có giá trị vectơ kết Số lượng row-id rowset S độ hỗ trợ Pattern(S) trả về bởi hàm Support (S) 46 Phần 2: Trong khối lệnh Else: Row-id m chèn vào rowset S Nếu Pattern(S) trả về itemset khơng có kích thước lớn thuật tốn dừng khai triển nhánh Quá trình khai thác tiếp tục Pattern(S) trả về itemset có kích thước lớn Trong trường hợp này, với row-id chạy từ m+1 đến max, thuật toán kiểm tra xem nhánh tương ứng đạt đến mức minsup hay khơng Nếu đạt phương pháp BVBUC gọi đệ quy để xây dựng itemset tương ứng với nút rowset cách khai triển nút xây dựng nút Điều kiện if vịng lặp thuật tốn tương đương với điều kiện p + m - ap ≥ minsup mà trình bày mục 3.2 3.4 Ví dụ minh họa thuật toán BVBUC Cho CSDL giao dịch: TID Giao tác 100 f, a, c, d, g, i, m, p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Hình 3.19 Ví dụ CSDL giao dịch Xác định tập phổ biến minsup = 60% colossal ≥1 Từ CSDL ta có ma trận bit tương ứng: a b c d e f g h i j k l m n o p s RowSum 1 1 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 1 1 1 0 0 1 1 3 1 1 1 3 ColSum Hình 3.20 Biểu diễn ma trận bit cho CSDL giao dịch 47 a b c f m p RowSum 1 1 1 1 1 0 1 0 1 1 3 4 3 ColSum Hình 3.21 Ma trận bit sau lược bỏ cột không thỏa minsup Xây dựng tìm kiếm từ lên, việc xây dựng dừng lại ở mức minsup điều kiện colossal, lược bỏ nút không thỏa điều kiện 12 123 124 125 13 134 135 14 145 23 234 235 24 245 {} 345 34 Hình 3.22 Cây tìm kiếm theo giao tác từ lên lược bỏ nhánh không thỏa minsup colossal Áp dụng Vectơ bit ta có kết quả: Nút 123 kết thực phép toán AND dòng 1, dòng dòng tương ứng ma trận bit 48 1 1 1 1 1 0 1 0 0 0 AND AND =>Kết quả: => tập phổ biến: f Tương tự ta tập phổ biến: c, acfm, cp, b thỏa colossal Kết luận chương Khai thác liệu với mẫu kích thước lớn tập trung vào nội dung trọng tâm: Phương pháp biểu diễn tập liệu ma trận bit, kỹ thuật xây dựng khai thác liệu dựa cấu trúc tìm kiếm duyệt theo giao tác, đồng hành với kỹ thuật thuật toán để triển khai thực Vấn đề đặt cần thực nghiệm để kiểm tra tính hiệu thuật tốn, nội dung trình bày chương 49 Chương IV: THỰC NGHIỆM – ĐÁNH GIÁ THUẬT TOÁN Trong chương này, luận văn mô tả sở liệu sử dụng cho chương trình, mơ tả giao diện chức chương trình thực nghiệm, ghi nhận kết quả, từ đưa nhận xét hướng phát triển Để đo tính hiệu thuật tốn BVBUC, chương trình thực CSDL: CSDL từ ví dụ mẫu (data.txt) xuyên suốt chương để kiểm chứng độ xác chương trình CSDL Mushroom điều chỉnh Cấu hình máy tính: Lenovo 2.40 GHz xử lý Core i7 4GB nhớ chính, chạy hệ điều hành Windows - 64bit Mã nguồn thuật toán viết ngôn ngữ C# 2015 Mô tả liệu CSDL Mushroom download từ nguồn http://fimi.ua.ac.be/data/ điều chỉnh, với cấu trúc CSDL mô tả bảng 4.1 Bảng 4.1 Bảng mô tả CSDL Data Mushroom Data KB Số lượng giao dịch (transaction) Mushroom1 KB 30 52 Mushroom2 31KB 30 265 Mushroom3 64KB 30 536 Mushroom4 2KB 27 52 Mushroom5 28KB 27 265 Mushroom6 58KB 27 536 STT Tên CSDL Kích thước (size) Số lượng mục liệu (item) 11 Khi chọn CSDL thực nghiệm, quan tâm đến số lượng giao tác số lượng item để từ ghi nhận kết thời gian chương trình xử lý Chương trình thực nghiệm Chương trình viết ngơn ngữ C#, giao diện hình sau: 50 Hình 4.1a Giao diện hình chương trình ở Step - Textbox File Path: Cho phép chọn file liệu cần thực thi dạng file *.txt - Textbox Minsup: Dùng nhập ngưỡng hỗ trợ tối thiểu (ngưỡng người dùng xác định) để khai thác tập phổ biến - DataGridView: Hiển thị kết ma trận bit 51 Hình 4.1b Giao diện hình chương trình ở Step - RichTextBox: Chứa nút lược bỏ nút không đạt đến cấp độ minsup - DataGridView: Chứa ma trận bit lược bỏ cột khơng thỏa minsup Hình 4.1c Giao diện hình chương trình ở Step - RichTextBox: Chứa giá trị thỏa mẫu kích thước lớn (Colossal người dùng xác định) Với CSDL Mushroom, để đảm bảo kết khách quan, ta chạy chương trình lần ứng với CSDL giá trị minsup (minsup = 20%, colossal =15), ghi nhận kết lần chạy lấy giá trị trung bình thời gian chạy chúng Bảng kết thực nghiệm ghi bảng 4.2 52 Bảng 4.2 Bảng kết thực nghiệm với minsup = 20% STT Tên CSDL Mushroom1 Mushroom2 Mushroom3 Mushroom4 Mushroom5 Mushroom6 Số lượng giao Số lượng mục Thời gian dịch (transaction) liệu (item) (sec) 30 52 30 265 28 30 536 52 27 52 0.6 27 265 27 536 Như qua kết thực nghiệm trên, ta thấy số lượng item số lượng giao tác giảm thời gian chạy chương trình giảm đáng kể, đặc biệt số item lớn khác biệt nới rộng Kết luận chương Chương trình cho kết xác theo mơ tả thuật tốn, nhiên chưa thực tốt CSDL có số lượng giao tác lớn dừng lại ở CSDL mẫu chưa có khâu xử lý CSDL để thích hợp cho liệu phức tạp hướng phát triển đề tài thời gian tới 53 KẾT LUẬN Cùng với tìm hiểu tởng quan về khai thác liệu, khai thác tập phổ biến, trọng tâm luận văn thực kết sau: - Biểu diễn tập liệu ma trận bit làm cho dễ sử dụng trình khai thác - Xây dựng cấu trúc tìm kiếm duyệt theo giao tác, kết hợp lược bỏ nút có mức khơng đạt đến cấp độ minsup nhằm rút ngắn thời gian khai thác - Khai thác liệu với mẫu kích thước lớn dựa cấu trúc xây dựng - Xây dựng chương trình thực nghiệm đánh giá kết đạt Luận văn dừng lại nghiên cứu lý thuyết về khai thác liệu với mẫu kích thước lớn với đích cuối chương trình thực nghiệm ứng dụng thuật tốn BVBUC để kiểm chứng CSDL mẫu, chưa xây dựng chương trình ứng dụng vào thực tiễn sống Ngày nay, lượng thông tin chia sẻ trang mạng xã hội vô lớn đa dạng về thể loại bao gồm: Các cảm nghĩ, tin nhắn, video, hình ảnh, bình luận, liên quan đến tất vấn đề diễn đời sống thực như: giáo dục, trùn thơng, kinh tế, trị, y tế, Chúng ta tở chức khai thác thơng tin phục vụ cho cơng việc tuyển sinh, tuyển dụng, bán hàng, Hướng phát triển đề tài tiếp tục ứng dụng phương pháp khai thác với mẫu kích thức lớn kết hợp với kỹ thuật xử lý văn tiếng Việt để xây dựng ứng dụng bán hàng dựa vào việc khai thác phân tích liệu tiếng Việt thu thập từ Facebook; xem xét số đó, liệu liên quan tới nhóm mặt hàng máy tính, điện tử, mà nhiều người tiêu dùng quan tâm trích lọc tiếp tục xử lý để xác định nhu cầu mua hay bán khách hàng./ 54 TÀI LIỆU THAM KHẢO [1] Đỗ Phúc (2008) Giáo trình khai thác liệu, NXB Đại học Quốc gia TP.HCM [2] Lê Hoài Bắc (2013) Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM) [3] Nguyễn Hoàng Dũng (2015) Khai thác luật kết hợp không dư thừa, luận văn thạc sỹ, Đại học Cơng nghệ TP.Hồ Chí Minh [4] https://vi.wikipedia.org/wiki/Heuristic, truy cập ngày 23/11/2015 [5] Nguyễn Hoàng Tú Anh Bài giảng khai thác liệu ứng dụng, Đại học KHTN (Đại học Quốc gia Tp.HCM) [6] Philippe Fournier-Viger and Vincent S Tseng (2012) Mining Top-K NonRedundant Association Rules Foundations of Intelligent Systems Lecture Notes in Computer Science, Volume 7661, pp 31-40 [7] Mohammad Karim Sohrabi, Ahmad Abdollahzadeh Barforoush (2012) Efficient colossal pattern mining in high dimensional datasets KnowledgeBased Systems, Volume 33, pp 41–52 [8] https://vi.wikipedia.org/wiki/Tin_sinh_h%E1%BB%8Dc, truy cập ngày 31/7/2015 ... Tên đề tài: KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN II- Nhiệm vụ nội dung: - Biểu diễn tập liệu ma trận bit - Khai thác liệu theo cấu trúc tìm kiến - Khai thác liệu với mẫu kích thước lớn - Xây... khai thác liệu với mẫu kích thước lớn Mục tiêu phạm vi nghiên cứu: Nội dung luận văn tập trung xây dựng chiến lược khai thác liệu với mẫu kích thước lớn đánh giá hiệu kỹ thuật xây dựng khai thác. .. lược tìm kiếm từ xuống 36 Khai thác liệu với mẫu kích thước lớn 36 3.1 Xác định phân lớp tập phổ biến 36 3.2 Khai thác với mẫu kích thước lớn 37 3.3 Thuật toán BVBUC