Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,8 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ ĐÌNH THÂM KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ ĐÌNH THÂM KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS BÙI ĐỨC MINH TP HỒ CHÍ MINH, tháng năm 2016 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS BÙI ĐỨC MINH (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 20 tháng năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng GS.TSKH Hoàng Văn Kiếm Chủ tịch PGS.TS Võ Đình Bảy Phản biện TS Lê Tuấn Anh Phản biện PSG.TS Quản Thành Thơ Ủy viên TS.Nguyễn Thị Thúy Loan Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa Chủ tịch Hội đồng đánh giá Luận văn TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ ĐÌNH THÂM Giới tính: Nam Ngày, tháng, năm sinh: 29/5/1977 Nơi sinh: Bình Định Chuyên ngành: CÔNG NGHỆ THÔNG TIN MSHV: 1341860019 I- Tên đề tài: KHAI THÁC DỮ LIỆU VỚI MẪU KÍCH THƯỚC LỚN II- Nhiệm vụ nội dung: - Biểu diễn tập liệu ma trận bit - Khai thác liệu theo cấu trúc tìm kiến - Khai thác liệu với mẫu kích thước lớn - Xây dựng chương trình thực nghiệm III- Ngày giao nhiệm vụ: 20/8/2015 IV- Ngày hoàn thành nhiệm vụ: 15/01/2016 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) TS BÙI ĐỨC MINH CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TS Bùi Đức Minh KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Lê Đình Thâm ii LỜI CẢM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình TS Bùi Đức Minh Cảm ơn quí thầy/cô Khoa Công nghệ thông tin Trường Đại học Công nghệ TP HCM giúp đỡ cung cấp cho kiến thức quí báu suốt thời gian học tập nghiên cứu thực luận văn Cho phép gửi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận ý kiến đóng góp quí thầy/cô, bạn bè, đồng nghiệp cho luận văn hoàn thiện Tôi xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 20 tháng năm 2016 Lê Đình Thâm iii TÓM TẮT Khai phá tri thức tiềm ẩn sở liệu mục tiêu chung ngành khoa học khai thác liệu nhiều nhà nghiên cứu quan tâm Với bùng nổ liệu nay, thách thức cho ngành khoa học ngày phát triển mạnh chiều rộng chiều sâu Khai thác tập phổ biến kỹ thuật quan trọng khai thác liệu nghiên cứu rộng rãi suốt nhiều thập kỷ qua Nhiều thuật toán xây dựng để hỗ trợ trình khai thác tập phổ biến sở liệu thương mại truyền thống Với sở liệu dạng thường bao gồm nhiều giao tác giao tác lại gồm phần tử Trong thực tế có sở liệu đặc biệt như: số item lớn, giao tác không nhiều dẫn đến việc khai thác theo phương pháp truyền thống thường gặp phải hạn chế về không gian lưu trữ hiệu tính toán số lượng ứng viên xuất trình khai thác tăng theo cấp độ hàm mũ,.v.v Các giải pháp đưa như: khai thác tập phổ biến đóng, khai thác tập phổ biến tối đại Tuy nhiên số vấn đề tồn nhiều thời gian dung lượng nhớ thực khai thác sở liệu đặc biệt nêu trên, liệu xuất dư thừa đủ thông tin phù hợp để khai thác,.v.v Nghiên cứu luận văn tập trung vào xây dựng chiến lược khai thác liệu với mẫu kích thước lớn hiệu cách sử dụng phương pháp khai thác từ lên duyệt theo giao tác thao tác bit; sử dụng ma trận bit để nén tập liệu làm cho tập liệu dễ sử dụng Ngoài ra, quy tắc cắt tỉa để nâng cao hiệu trình khai thác sử dụng; cài đặt thuật toán nhận xét, đánh giá thuật toán iv ABSTRACT Nowadays, potential knowledge mining of the database which is the overall goal of the data mining science is very much interested by researchers With the explosion of data today, the challenge for science is increasingly in both width and depth Frequent itemset mining is considered as an important data mining which has been studied extensively in the past decades Many algorithms have been built to support the process of mining frequent patterns in traditional trade database These often include a lot of transaction, but each transaction is to include very few items In fact, there are special databases such as very large items number, transactions not much lead to the mining of the traditional method is not feasible, such as high costs, or the more the length of the transactions increases, the longer the implementation period of traditional algorithms is and will increase exponentially, etc The solutions are given such as closed frequent pattern mining, maximal frequent pattern mining However, some problems still exist, such as waste of time and space consuming for high dimensional datasets, data is output to excessively but not have enough relevant information to exploit , etc The research in this thesis focused on developing colossal patterns mining more efficiently by using the bottom-up vertical colossal pattern mining on bit (bitwise) Bit matrix is used to compress data set and make it easier to use In addition, we also use the rules trimming to improve the efficiency of the exploitation process, install algorithm and comments, evaluation algorithms v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa Khai thác mẫu kích thước lớn duyệt theo giao tác từ BVBUC lên CSDL Cơ sở liệu Item Mục liệu Itemset Các mục liệu KPTT Khám phá tri thức Minsup Ngưỡng người dùng xác định Row-id Mã định danh dòng Rowset Tập dòng Supp Độ hỗ trợ TID Nhận dạng giao dịch - Transaction IDentifier vi DANH MỤC CÁC BẢNG Bảng 2.1 Ví dụ sở liệu giao dịch 14 Bảng 2.2 Ví dụ sở liệu bán hàng dùng làm liệu xây dựng FP 21 Bảng 2.3 Minh họa item phổ biến giao dịch 22 Bảng 2.4 Bảng kết FP điều kiện từ sở mẫu điều kiện 27 Bảng 4.1 Bảng mô tả CSDL Data Mushroom 49 Bảng 4.2 Bảng kết thực nghiệm với minsup = 20% 52 40 Hình 3.11 Mức tìm kiếm lược bỏ với minsup =50% (Sử dụng ma trận bit hình 3.3a) Hình 3.12 Nút nút 12 1 0 13 126 0 0 0 0 0 0 1 0 0 0 1 0 1 egh 0 0 bg 134 0 135 ace 0 0 136 123 0 a 124 0 eh 125 1 0 1 beg eh Hình 3.13 Nút 12 nút Hình 3.14 Nút 13 nút 14 1 15 1 1 0 0 145 1 0 abg 0 0 156 146 1 0 0 0 g eg Hình 3.15 Nút 14 nút Hình 3.16 Nút 15 nút Trong hình 3.13, nút rowset {1,2} đều chứa row-id với minsup = 50% mức cuối nhánh {1,2} Ta thực phép toán AND rowset {1,2} với dòng {3}, {4}, {5},{6} xây dựng vectơ bit tương ứng cho itemset, kiểm tra itemset để xác định xem chúng có phải itemset có kích thước lớn hay không, đạt thêm vào tệp liệu xuất 41 Tương tự, rowset {1,3} gồm nút tạo itemset: egh, bg, beg; rowset {1,4} gồm nút tạo itemset: eg, abg; rowset {1,5} có nút tạo item g; nút rowset {1,6} nút Nhận xét: Nếu biết nút {1,6} nút nhánh không đạt đến mức minsup khai triển nút {1} ta không tạo Việc bỏ nút {1,6} nút tương tự làm giảm kích thước cây, giảm thời gian xây dựng cây, đặc biệt minsup có giá trị lớn Phương pháp BVBUC lược bỏ tất nhánh có mức không đạt đến ngưỡng minsup Các bước thực cụ thể sau: +Tính mức lớn mà nhánh đạt đến bắt đầu xây dựng nhánh ở mức + Xây dựng nút cách chèn row-id dòng liền sau xây dựng rowset tương ứng nút + Thực lược bỏ nút cách: Trong tập liệu có m dòng, nút có chứa row-id m nút Nếu nút ở mức chứa m minsup lớn nút không xây dựng Nếu minsup lớn nút ở mức chứa m nút ở mức chứa m-1 m không xây dựng Nếu minsup lớn nút sau không xây dựng: Các nút ở mức chứa m, nút ở mức chứa m-1 m nút ở mức chứa m, m-1 m-2 Tóm lại; với minsup, ta khai triển m - minsup + nút ở mức cây, nút nằm nhánh có mức nút thỏa p + m - ap >= minsup xây dựng (với p mức nút, m số dòng tập liệu ap row-id) Phương pháp tính mức cây: Gọi q nút có mức p Ta nhận thấy nút ở mức p có p row-id Gọi rowset tương ứng với nút q a1a2 ap, với row-id thứ i 42 (1 ≤ i ≤p) với i < j, ai< aj Tất nút q tạo cách chèn row-id có thứ tự từ ap + đến m vào rowset tương ứng với q (các nút tương ứng với rowset tạo a1a2 apap+1, a1a2 apap+2, , …, a1a2 apm) Nhận xét: Cây q (cây có gốc q) có m - ap mức Nhánh lớn tìm kiếm chứa nút q có p nút liền trước q m - ap nút liền sau q có p+m – ap mức Tóm lại; với nút q tìm kiếm từ lên duyệt theo giao tác, nhánh lớn chứa nút q có p+m - ap mức Trong p mức q, m số lượng dòng tập liệu, ap row-id lớn có q Ví dụ: Theo hình 3.7 ta có nhánh lớn chứa nút 13 (nút tương ứng với rowset {1,3} có năm mức (p + m- ap = + - = 5, kiểm chứng lại điều hình 3.7) 43 1 1 1 0 0 0 25 0 256 0 0 24 1 1 0 0 246 0 0 e 245 0 1 0 adf 23 0 0 1 0 0 236 0 eh 235 0 0 0 f 234 0 1 0 ef Hình 3.17 Nhánh nút Kết hình 3.17 – Khi xây dựng nút {2} đến mức minsup, có nút {2,6} không xây dựng p + m - ap = + – = nhỏ minsup (minsup = 50%) 44 {} 1 1 1 0 1 0 45 1 456 0 0 g 0 1 1 0 35 1 356 0 0 0 g 34 0 1 0 1 346 0 eg 345 0 0 1 bfg Hình 3.18 Các nhánh nút Hình 3.18 cho thấy nút tương ứng với rowset {6}, {5} ở mức nút tương ứng với rowset {3,6}, {4,6}, {5,6}) ở mức lược bỏ 3.3 Thuật toán BVBUC Procedure BVBUC Input m: integer; // Mã định danh dòng Max:integer; // Tổng số dòng tập liệu l: integer; // Mức (bằng số lượng row-id nút) S: string; // rowset nhập vào minsup: integer; //Ngưỡng tối thiểu người dùng quy định var i:integer; 45 Begin If (l=minsup) then Begin If (Pattern(S) is colossal) then If (Patterm(S) is not in file) Then Output(File, (Patterm(S), support(S))); End Else Begin S:= S + IntTostr(m)+ ‘ ‘; If (Pattern(S) is colossal) Then Begin For i:=m+1 to max Begin If((l+max-i)>=minsup) Then Begin BVBUC(i, max, l+1, S, minsup); End; End; End; End; End Các tham số đầu vào thuật toán gồm có: m: Row-id rowset nút cha, max: Số dòng ma trận bit, I: Mức tìm kiếm, S: Rowset đầu vào thuật toán, minsup: Ngưỡng người dùng xác định Đây thuật toán đệ quy xây dựng từ hai phần Phần 1: Phần khối lệnh If thứ thuật toán: Kiểm tra mức I có minsup không, không chuyển sang phần thuật toán, ngược lại thì: Nếu kết hàm Pattern(S) trả về mẫu có kích thước lớn (kích thước người dùng quy định) S chưa có tệp liệu xuất thêm mẫu với độ hỗ trợ vào tệp liệu xuất, kết thúc trình khai thác nhánh Hàm Pattern(S) dùng tính toán mẫu tương ứng rowset S phép toán AND vectơ bit row-id có rowset S lựa chọn phần tử có giá trị vectơ kết Số lượng row-id rowset S độ hỗ trợ Pattern(S) trả về bởi hàm Support (S) 46 Phần 2: Trong khối lệnh Else: Row-id m chèn vào rowset S Nếu Pattern(S) trả về itemset kích thước lớn thuật toán dừng khai triển nhánh Quá trình khai thác tiếp tục Pattern(S) trả về itemset có kích thước lớn Trong trường hợp này, với row-id chạy từ m+1 đến max, thuật toán kiểm tra xem nhánh tương ứng đạt đến mức minsup hay không Nếu đạt phương pháp BVBUC gọi đệ quy để xây dựng itemset tương ứng với nút rowset cách khai triển nút xây dựng nút Điều kiện if vòng lặp thuật toán tương đương với điều kiện p + m - ap ≥ minsup mà trình bày mục 3.2 3.4 Ví dụ minh họa thuật toán BVBUC Cho CSDL giao dịch: TID Giao tác 100 f, a, c, d, g, i, m, p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Hình 3.19 Ví dụ CSDL giao dịch Xác định tập phổ biến minsup = 60% colossal ≥1 Từ CSDL ta có ma trận bit tương ứng: a b c d e f g h i j k l m n o p s RowSum 1 1 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 1 1 1 0 0 1 1 3 1 1 1 3 ColSum Hình 3.20 Biểu diễn ma trận bit cho CSDL giao dịch 47 a b c f m p RowSum 1 1 1 1 1 0 1 0 1 1 3 4 3 ColSum Hình 3.21 Ma trận bit sau lược bỏ cột không thỏa minsup Xây dựng tìm kiếm từ lên, việc xây dựng dừng lại ở mức minsup điều kiện colossal, lược bỏ nút không thỏa điều kiện 12 123 124 125 13 134 135 14 145 23 234 235 24 245 {} 345 34 Hình 3.22 Cây tìm kiếm theo giao tác từ lên lược bỏ nhánh không thỏa minsup colossal Áp dụng Vectơ bit ta có kết quả: Nút 123 kết thực phép toán AND dòng 1, dòng dòng tương ứng ma trận bit 48 1 1 1 1 1 0 1 0 0 0 AND AND =>Kết quả: => tập phổ biến: f Tương tự ta tập phổ biến: c, acfm, cp, b thỏa colossal Kết luận chương Khai thác liệu với mẫu kích thước lớn tập trung vào nội dung trọng tâm: Phương pháp biểu diễn tập liệu ma trận bit, kỹ thuật xây dựng khai thác liệu dựa cấu trúc tìm kiếm duyệt theo giao tác, đồng hành với kỹ thuật thuật toán để triển khai thực Vấn đề đặt cần thực nghiệm để kiểm tra tính hiệu thuật toán, nội dung trình bày chương 49 Chương IV: THỰC NGHIỆM – ĐÁNH GIÁ THUẬT TOÁN Trong chương này, luận văn mô tả sở liệu sử dụng cho chương trình, mô tả giao diện chức chương trình thực nghiệm, ghi nhận kết quả, từ đưa nhận xét hướng phát triển Để đo tính hiệu thuật toán BVBUC, chương trình thực CSDL: CSDL từ ví dụ mẫu (data.txt) xuyên suốt chương để kiểm chứng độ xác chương trình CSDL Mushroom điều chỉnh Cấu hình máy tính: Lenovo 2.40 GHz xử lý Core i7 4GB nhớ chính, chạy hệ điều hành Windows - 64bit Mã nguồn thuật toán viết ngôn ngữ C# 2015 Mô tả liệu CSDL Mushroom download từ nguồn http://fimi.ua.ac.be/data/ điều chỉnh, với cấu trúc CSDL mô tả bảng 4.1 Bảng 4.1 Bảng mô tả CSDL Data Mushroom Data KB Số lượng giao dịch (transaction) Mushroom1 KB 30 52 Mushroom2 31KB 30 265 Mushroom3 64KB 30 536 Mushroom4 2KB 27 52 Mushroom5 28KB 27 265 Mushroom6 58KB 27 536 STT Tên CSDL Kích thước (size) Số lượng mục liệu (item) 11 Khi chọn CSDL thực nghiệm, quan tâm đến số lượng giao tác số lượng item để từ ghi nhận kết thời gian chương trình xử lý Chương trình thực nghiệm Chương trình viết ngôn ngữ C#, giao diện hình sau: 50 Hình 4.1a Giao diện hình chương trình ở Step - Textbox File Path: Cho phép chọn file liệu cần thực thi dạng file *.txt - Textbox Minsup: Dùng nhập ngưỡng hỗ trợ tối thiểu (ngưỡng người dùng xác định) để khai thác tập phổ biến - DataGridView: Hiển thị kết ma trận bit 51 Hình 4.1b Giao diện hình chương trình ở Step - RichTextBox: Chứa nút lược bỏ nút không đạt đến cấp độ minsup - DataGridView: Chứa ma trận bit lược bỏ cột không thỏa minsup Hình 4.1c Giao diện hình chương trình ở Step - RichTextBox: Chứa giá trị thỏa mẫu kích thước lớn (Colossal người dùng xác định) Với CSDL Mushroom, để đảm bảo kết khách quan, ta chạy chương trình lần ứng với CSDL giá trị minsup (minsup = 20%, colossal =15), ghi nhận kết lần chạy lấy giá trị trung bình thời gian chạy chúng Bảng kết thực nghiệm ghi bảng 4.2 52 Bảng 4.2 Bảng kết thực nghiệm với minsup = 20% STT Tên CSDL Mushroom1 Mushroom2 Mushroom3 Mushroom4 Mushroom5 Mushroom6 Số lượng giao Số lượng mục Thời gian dịch (transaction) liệu (item) (sec) 30 52 30 265 28 30 536 52 27 52 0.6 27 265 27 536 Như qua kết thực nghiệm trên, ta thấy số lượng item số lượng giao tác giảm thời gian chạy chương trình giảm đáng kể, đặc biệt số item lớn khác biệt nới rộng Kết luận chương Chương trình cho kết xác theo mô tả thuật toán, nhiên chưa thực tốt CSDL có số lượng giao tác lớn dừng lại ở CSDL mẫu chưa có khâu xử lý CSDL để thích hợp cho liệu phức tạp hướng phát triển đề tài thời gian tới 53 KẾT LUẬN Cùng với tìm hiểu tổng quan về khai thác liệu, khai thác tập phổ biến, trọng tâm luận văn thực kết sau: - Biểu diễn tập liệu ma trận bit làm cho dễ sử dụng trình khai thác - Xây dựng cấu trúc tìm kiếm duyệt theo giao tác, kết hợp lược bỏ nút có mức không đạt đến cấp độ minsup nhằm rút ngắn thời gian khai thác - Khai thác liệu với mẫu kích thước lớn dựa cấu trúc xây dựng - Xây dựng chương trình thực nghiệm đánh giá kết đạt Luận văn dừng lại nghiên cứu lý thuyết về khai thác liệu với mẫu kích thước lớn với đích cuối chương trình thực nghiệm ứng dụng thuật toán BVBUC để kiểm chứng CSDL mẫu, chưa xây dựng chương trình ứng dụng vào thực tiễn sống Ngày nay, lượng thông tin chia sẻ trang mạng xã hội vô lớn đa dạng về thể loại bao gồm: Các cảm nghĩ, tin nhắn, video, hình ảnh, bình luận, liên quan đến tất vấn đề diễn đời sống thực như: giáo dục, truyền thông, kinh tế, trị, y tế, Chúng ta tổ chức khai thác thông tin phục vụ cho công việc tuyển sinh, tuyển dụng, bán hàng, Hướng phát triển đề tài tiếp tục ứng dụng phương pháp khai thác với mẫu kích thức lớn kết hợp với kỹ thuật xử lý văn tiếng Việt để xây dựng ứng dụng bán hàng dựa vào việc khai thác phân tích liệu tiếng Việt thu thập từ Facebook; xem xét số đó, liệu liên quan tới nhóm mặt hàng máy tính, điện tử, mà nhiều người tiêu dùng quan tâm trích lọc tiếp tục xử lý để xác định nhu cầu mua hay bán khách hàng./ 54 TÀI LIỆU THAM KHẢO [1] Đỗ Phúc (2008) Giáo trình khai thác liệu, NXB Đại học Quốc gia TP.HCM [2] Lê Hoài Bắc (2013) Bài giảng môn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM) [3] Nguyễn Hoàng Dũng (2015) Khai thác luật kết hợp không dư thừa, luận văn thạc sỹ, Đại học Công nghệ TP.Hồ Chí Minh [4] https://vi.wikipedia.org/wiki/Heuristic, truy cập ngày 23/11/2015 [5] Nguyễn Hoàng Tú Anh Bài giảng khai thác liệu ứng dụng, Đại học KHTN (Đại học Quốc gia Tp.HCM) [6] Philippe Fournier-Viger and Vincent S Tseng (2012) Mining Top-K NonRedundant Association Rules Foundations of Intelligent Systems Lecture Notes in Computer Science, Volume 7661, pp 31-40 [7] Mohammad Karim Sohrabi, Ahmad Abdollahzadeh Barforoush (2012) Efficient colossal pattern mining in high dimensional datasets KnowledgeBased Systems, Volume 33, pp 41–52 [8] https://vi.wikipedia.org/wiki/Tin_sinh_h%E1%BB%8Dc, truy cập ngày 31/7/2015 [...]... I: TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU .3 1 Một số khái niệm 3 1.1 Tri thức .3 1.2 Khám phá tri thức .3 1.3 Khai thác dữ liệu .4 2 Ứng dụng của khai thác dữ liệu 4 2.1 Sự cần thiết phải khai thác dữ liệu: 4 2.2 Ứng dụng của khai thác dữ liệu 5 3 Quá trình khám phá tri thức 5 4 Quá trình khai thác dữ liệu .7... mũ, dữ liệu được xuất ra dư thừa nhưng không có đủ thông tin phù hợp để khai thác, .v.v Để giải quyết những vấn đề còn tồn tại như đã nêu ở trên, trong nội dung nghiên cứu của luận văn này sẽ tập trung vào việc nghiên cứu, tìm hiểu về khai thác dữ liệu với mẫu kích thước lớn Mục tiêu và phạm vi nghiên cứu: Nội dung của luận văn là tập trung xây dựng chiến lược khai thác dữ liệu với mẫu kích thước lớn. .. văn là các thuật toán về khai thác dữ liệu, khai thác tập phổ biến, khai thác dữ liệu với mẫu kích thước lớn duyệt theo giao tác từ dưới lên (BVBUC) và xây dựng chương trình thực nghiệm để đánh giá kết quả Phương pháp nghiên cứu: 2 Nghiên cứu tổng quan về khai thác dữ liệu, tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài Tìm hiểu các thuật toán khai thác tập phổ biến để tìm... khám phá tri thức và khai thác dữ liệu Khám phá tri thức là nói đến quá trình tổng thể phát hiện tri thức hữu ích từ dữ liệu Còn khai thác dữ liệu chỉ là một bước trong quá trình khám phá tri thức, các công việc chủ yếu là xác định được bài toán khai thác, tiến hành lựa chọn phương pháp khai thác phù hợp với dữ liệu có được và tách ra các tri thức cần thiết 4 Quá trình khai thác dữ liệu KTDL là một giai... toán khai thác dữ liệu: Lựa chọn thuật toán khai thác và thực hiện việc khai thác dữ liệu để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định,… tương ứng với ý nghĩa của nó 5 Giới thiệu một số thuật toán khai thác dữ liệu Hiện nay có rất nhiều thuật toán khai thác dữ liệu, tại hội nghị quốc tế về khai thác dữ liệu (IEEE International Conference on Data... 30 2 Khai thác dữ liệu theo cấu trúc cây tìm kiếm .33 2.1 Cây tìm kiếm duyệt theo item 33 2.2 Cây tìm kiếm duyệt theo giao tác 35 2.2.1 Chiến lược tìm kiếm từ dưới lên 35 2.2.2.Chiến lược tìm kiếm từ trên xuống 36 3 Khai thác dữ liệu với mẫu kích thước lớn 36 3.1 Xác định và phân lớp tập phổ biến 36 3.2 Khai thác với mẫu kích thước lớn ... khai thác dữ liệu cũng như ứng dụng của nó trong thực tế cuộc sống hiện nay, đồng thời trình bày khái quát một số thuật toán khai thác dữ liệu nổi tiếng 13 Trong khai thác dữ liệu, kỹ thuật khai tác tập phổ biến là một trong những lĩnh vực đang được quan tâm và nghiên cứu mạnh mẽ 14 Chương 2: KHAI THÁC TẬP PHỔ BIẾN Khai thác tập phổ biến là một trong các vấn đề cốt lõi khi khai thác dữ liệu. .. tiền xử lý Dữ liệu Tập hợp dữ liệu Đánh giá kết quả Trích lọc dữ liệu Internet Hình 1.1 Quá trình khám phá tri thức [3] Trong đó, cụ thể của các bước là: Tập hợp dữ liệu: Là bước đầu tiên trong quá trình KTDL Đây là bước tìm kiếm, gom nhặt dữ liệu trong một CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng web Trích lọc dữ liệu: Ở giai đoạn này lựa chọn những dữ liệu phù hợp với nhiệm... thuyết của thuật toán khai thác dữ liệu với mẫu kích thước lớn Chương 4: Là phần thực nghiệm và đánh giá thuật toán 3 Chương I: TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU Công nghệ thông tin, Internet, Intranet, kho dữ liệu, cùng với công nghệ lưu trữ tiên tiến hiện nay đã tạo điều kiện cho các doanh nghiệp, các tổ chức, cá nhân thu thập và sở hữu được khối lượng thông tin khổng lồ Để khai thác hiệu quả nguồn... dữ liệu để đưa ra các dự báo nhằm phân tích tập dữ liệu huấn luyện và tạo ra một mô hình cho phép dự đoán các mẫu, mô hình mới chưa biết Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được 8 Hình 1.2 Quá trình khai thác dữ liệu [3] Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết Xác định các dữ liệu