Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
2,3 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NÔNG THỊ NINH Đề tài: KHAI PHÁ TẬP MỤC CỔ PHẦN THEO GIAO TÁC CAO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, tháng năm 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Luận văn hoàn thành với hướng dẫn tận tình TS Lê Văn Phùng – Viên Công nghệ thông tin - Viện Hàn Lâm Khoa học Việt Nam Trước tiên xin chân thành bày tỏ lòng biết ơn sâu sắc tới TS Lê Văn Phùng người tận tình hướng dẫn, động viên giúp đỡ suốt thời gian thực luận văn Tôi xin chân thành cảm ơn thầy cô trường Công Nghệ thông tin Truyền thông – Đại học Thái Nguyên, tạo điều kiện thuận lợi cho tơi hồn thành tốt khóa học Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học CHK11g động viên, giúp đỡ nhiệt tình chia sẻ với tơi kinh nghiệm học tập, cơng tác suốt khố học Cuối cùng, xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè động viên, khuyến khích hỗ trợ cần thiết để tơi hoàn thành luận văn Mặc dù cố gắng, song luận văn tránh khỏi thiếu sót, kính mong dẫn q thầy cô bạn Thái Nguyên, ngày tháng năm 2014 Người viết Nơng Thị Ninh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN n luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc Thái Nguyên, ngày tháng năm 2014 Người cam đoan Nơng Thị Ninh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ BẢNG KÝ HIỆU CHỮ VIẾT TẮT TT Ký hiệu viết tắt Giải thích ABBM: Algorithm Based on Boolean Matrix Thuật toán dựa ma trận Boolean CSDL Cơ sở liệu DBMS Hệ quản trị sở liệu IR (Information Retrieval) Truy xuất thông tin KPDL Khai phá liệu OODBMS Object Oriented Database Hệ quản trị sở liệu hướng đối Management System tượng RDBMS Ralational Database Management System Hệ quản trị sở liệu quan hệ I Tập n mục liệu DB i1 , i2 in T1 ,T2 , ,Tm Cơ sở liệu có m giao tác Cơ sở liệu giao tác DB, db db DB ip Mục liệu thứ p Tq Giao tác thứ q Số mục liệu sở liệu giao tác n Số giao tác sở liệu giao m tác A,B,C… Tên mục liệu sở liệu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ giao tác minsup Ngưỡng độ hỗ trợ minshare Ngưỡng cổ phần tối thiểu minconf Ngưỡng độ tin cậy tối thiểu │X│ Số phần tử tập hợp X Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC BẢNG Bảng Biểu diễn sở liệu giao tác ngang 13 Bảng Biểu diễn sở liệu giao tác dọc 13 Bảng Biểu diễn sở liệu giao tác ma trận 14 Bảng Cơ sở liệu minh họa thực thuật toán COFI-tree 26 Bảng Các mục liệu độ hỗ trợ 27 Bảng Các mục liệu độ hỗ trợ 27 Bảng Các mục liệu giao tác xếp giảm dần theo độ hỗ trợ 27 Bảng Cơ sở liệu ví dụ 34 Bảng Giá trị lmv cổ phần mục liệu CSDL bảng 35 Bảng 10: Các tập mục cổ phần cao CSDL bảng 36 Bảng 11: CSDL minh họa ngữ nghĩa tập mục cổ phần cao 37 Bảng 12: Các giá trị lmv hàm tới hạn với k=1 44 Bảng 13 Các giá trị lmv hàm tới hạn với k=2 45 Bảng 14 Các giá trị lmv hàm tới hạn với k=3 46 Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn 51 Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn 51 Bảng 17: Giá trị hai hàm tới hạn k=1 52 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH Hình 1.1 Kiến trúc điển hình hệ thống khai phá liệu 10 Hình 1.2 Hình FP-Growth 28 Hình 1.3 Cây COFI-tree mục D 29 Hình 1.4 Các bước khai phá D-COFI-tree .22 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Đặt vấn đề Chúng ta sống thời đại bùng nổ liệu máy tính giữ vai trò ngày trở nên quan trọng việc lưu trữ xử lý thơng tin Bên cạnh đó, thiết bị thu thập liệu tự động phát triển mạnh góp phần tạo kho liệu khổng lồ Mặc dù môi trường tràn ngập liệu người thiếu thông tin Theo thống kê tổ chức uy tín có 2% - 3% lượng liệu chuyển thành thông tin có ích Khi xã hội phát triển, lượng thơng tin cần nhiều cơng việc tổ chức, khai phá liệu ngày khó khăn Như vậy, q trình sử dụng khai thác thơng tin người ta nhận thấy có nhiều tri thức tiềm ẩn liệu Vấn đề đặt làm để khai thác thông tin khai thác cách có hiệu Trong trình khai phá liệu, có nhiều kỹ thuật nghiên cứu Đặc biệt toán khai phá luật kết hợp Năm 1997, Hilderman đề xuất toán khai phá tập mục cổ phần cao Cổ phần hay đóng góp tập mục số đo tỷ lệ đóng góp tập mục sở liệu Khai phá tập mục cổ phần cao khám phá tất tập mục có cổ phần khơng nhỏ ngưỡng quy định Loại toán quan tâm đặc biệt nghiên cứu đời sống xã hội đáp ứng to lớn chúng nhu cầu thực tiễn Chính vậy, chúng tơi chọn đề tài khai phá tập mục cổ phần cao làm luận văn thạc sỹ Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu sở liệu giao tác -Phạm vi nghiên cứu khuôn khổ tập mục cổ phần cao với phương pháp, thuật toán khai phá, đặc biệt tập trung thuật toán khai phá tập mục cổ phần theo giao tác cao giá trị theo giao tác tập mục cần lớn giá trị cổ phần tối thiểu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hướng nghiên cứu đề tài- Nghiên cứu khai phá liệu, tập trung vào khai phá tập mục thường xuyên, tập mục cổ phần cao, đặc biệt tập mục cổ phần cao theo giao tác cao - Cài đặt thực nghiệm tìm tập mục cổ phần cao theo giao tác cao từ liệu bán hàng siêu thị cụ thể Thái Nguyên Những nội dung nghiên cứu Ngồi phần mở đầu luận văn gồm chương sau: Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN Chương KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO Phương pháp nghiên cứu - Kết hợp lý thuyết với đánh giá thực nghiệm - Sưu tâp tổng hợp kết nghiên cứu tập mục thường xuyên, Khái phá tập mục cổ phần cao tập mục cổ phần cao theo giao tác cao từ nguồn sách báo khoa học, hội thảo chuyên ngành nước nước - Phân tích tốn ứng dụng chọn lọc thuật tốn thử nghiệm thích hợp Ý nghĩa khoa học đề tài Nghiên cứu tập mục cổ phần cao theo giao tác cao nhiệm vụ khai phá liệu quan trọng nhằm phát tri thức có ý nghĩa lớn, bảo đảm sở khoa học chuyên ngành khoa học máy tính Trong lĩnh vực kinh doanh việc tìm tập mục cổ phần cao theo giao tác cao thật cần thiết nhằm tăng hiệu suất lợi nhuận hoạt động kinh tế doanh nghiệp Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 1.1 Tổng quan khai phá liệu 1.1.1 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống (KPDL) điển hình có thành phần hình 1.1 Hình 1.1 Kiến trúc điển hình hệ thống khai phá liệu - Cơ sở liệu (CSDL), kho liệu lưu trữ thông tin khác (Databases, Data warehouse, …): Đây hay tập CSDL, kho liệu, trang tính hay dạng lưu trữ thông tin khác Các kỹ thuật làm liệu tích hợp liệu thể liệu - Máy chủ CSDL hay máy chủ kho liệu (Database or warehouse server): Máy chủ có trách nhiệm lấy liệu thích hợp dựa yêu cầu khai phá người dùng Hình 3.1: Khơng gian tìm kiếm tập mục cổ phần cao theo thuật toán AFSM 2.2.2.2 Cơ sở lý thuyết thuật toán AFSM Như phần trình bày, ràng buộc cổ phần khơng có tính chất phản đơn điệu tập mục thường xuyên, trở ngại tốn khai phá tập mục cổ phần cao Để khắc phục điều này, luận án đề xuất khái niệm “giá trị theo giao tác tập mục”, “tập mục cổ phần theo giao tác cao” chứng minh tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone), sử dụng để tỉa tập mục ứng viên Định nghĩa2.6: Cho tập mục X, dbX tập giao tác chứa X Giá trị theo giao tác (transaction measure value) tập mục X, ký hiệu tmv(X), tổng giá trị tất giao tác chứa tập mục X , tức tmv( X ) Tmv(dbX ) tmv(Tq ) Tq dbX Ví tmv A dụ: tmv(T 01) Xét tmv(T 08) sở liệu bảng 3.1, 13 Định nghĩa 2.7: Tập mục X gọi tập mục cổ phần theo giao tác cao tmv X _ lmv Trường hợp ngược lại, X gọi tập mục cổ phần theo giao tác thấp Ví dụ, xét sở liệu bảng 3.1 với minShare=30%, min_lmv=16,8, tmv A 13, tmv E 22, 1-tập mục A tập mục cổ phần theo giao tác thấp E tập mục cổ phần theo giao tác cao Định lý 3.1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone) Chứng minh: X , ta chứng minh Y tập mục cổ Xét hai tập mục X, Y cho Y phần theo giao tác thấp X tập mục cổ phần theo giao tác thấp Số hóa Trung tâm Học liệu 47 http://www.lrc-tnu.edu.vn/ Ta tmv(Y ) có Y Tmv(dbY ) X Tmv(dbX ) nên dbY dbX , tmv( X ) Nếu Y tập mục cổ phần theo giao tác thấp, tức tmv Y tmv X tmv Y _ lmv _ lmv , X tập mục cổ phần theo giao tác thấp Định lý 3.1 cho biết tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu tính chất tập mục thường xun, sử dụng tính chất để tỉa ứng viên khai phá Định lý 3.2: Nếu tập mục X tập mục cổ phần cao X tập mục cổ phần theo giao tác cao Chứng minh: Ký hiệu dbX tập giao tác chứa tập mục X, ta có: lmv( X ) Tq db X imv( X ,Tq ) mv(i p ,Tq ) Tq dbX i p X mv(i p ,Tq ) tmv( X ) Tq dbX i p Tq Do đó, X tập mục cổ phần cao, tức lmx X tập mục cổ phần theo giao tác cao tmv( X ) lmx X _ lmv , X _ lmv Nhận xét 3.1: Từ định lý 3.2 suy tập tập mục cổ phần cao chứa tập tập mục cổ phần theo giao tác cao Theo định lý 3.1, tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu tập mục thường xuyên, ta áp dụng số thuật toán khai phá tập mục thường xun có (như thuật tốn kiểu Apriori, thuật tốn tìm kiếm theo chiều sâu FP-growth ), thay số lần xuất tập mục giá trị theo giao tác tập mục nhận kết khai phá tập mục cổ phần theo giao tác cao Khi ta cần duyệt lại sở liệu để tính giá trị đóng góp thực tập mục cổ phần theo giao tác cao để nhận tập mục cổ phần cao Định lý 3.2 cho ta điều kiện cần để X tập mục cổ phần cao, X phải tập mục cổ phần theo giao tác cao Áp dụng định lý 3.1 định lý 3.2, luận văn trình bày cách tỉa tập ứng viên thuật toán AFSM sau: Ở bước lặp thứ k, X tập mục cổ phần theo giao tác thấp X tập mục cổ phần thấp tập cha X tập mục cổ phần theo giao tác thấp Do ta loại bỏ tập ứng viên X, từ bước (k+1) trở không cần sinh tập cha X Như vậy, điều kiện để tỉa ứng viên cho thuật toán AFSM tmv( X ) _ v Để tiện trình bày so sánh với thuật toán FSM, ta gọi lm giá trị tmv(X) hàm tới hạn tập mục X Ký hiệu CFFSM ( X CFAFSM ( X ) ) tương ứng hàm tới hạn dùng cho thuật toán FSM thuật toán AFSM: lmv( X ) CFFSM ( X ) lmv( X ) MV (ML k ), CFAFSM ( X ) tmv( X ) k Định lý 2.3 sau so sánh giá trị hai hàm tới hạn Định lý 3.3: Cho sở liệu DB k-tập mục X Khi đó: 1) CFAFSM ( X ) CFFSM ( X ) 2) Giá trị hai hàm tới hạn sở liệu DB bảng nhị phân với độ dài giao tác Chứng minh: 1) CFAFSM ( X ) CFFSM ( X ) : : CFAFSM ( X ) = tmv( X ) Tmv(dbX ) tmv(Tq ) db T X q mv(i p [ mv(i p , Tq ) mv (i p , Tq )] Tq dbX i p X = i p Tq \ X mv(i p ,Tq ) dbX i p X Tq ,Tq ) Tq dbX i p Tq mv(i p , Tq ) Tq dbX i p Tq \ X = lmv( X ) mv(i p ,Tq ) Tq dbX i p Tq \ X Vì mv(i p ,Tq) Tq \ X MV ML k (a) nên: CFAFSM ( X ) lmv( X ) Tq dbX MV (ML k ) lmv( X ) dbX MV (ML k ) Mặt khác, mv(i p ,Tq ) với i p lmv( X ) (b) k : dbX Tq Do đó: CFAFSM ( X ) lmv( X ) dbX MV ( ML k ) lmv( X ) lmv( X ) MV ( ML k ) k ) Vậy: CFAFSM ( X ) CFFSM ( X ) CF (X (c) 2) Xét điều kiện để CFAFSM ( X ) CFFSM ( X ) : Từ chứng minh phần 1) ta thấy, CFAFSM ( X ) CFFSM ( X ) xảy đồng thời hai dấu “=” bất đẳng thức (c), tức xảy dấu “=” bất đẳng thức (a) dấu “=” bất đẳng thức (b) mv(i p ,Tq ) + Xảy dấu “=” bất đẳng thức (a) khi: Tq \ X MV , i p ML k , Tq Tq \ X dbX + Xét xảy dấu “=” bất đẳng thức (b) : khơng tính tổng qt, giả sử k-tập mục X nằm dbX giao tác bảng sở liệu sau: dbX dòng X Do đó, dbX lmv( X ) k mv(ip ,Tq ) với ip X, X Tq dbX Vậy CFAFSM ( X ) CFFSM ( X ) khi: mv(i p ,Tq ) (#) Tq ML, MV , Tq mv(i p ,Tq ) 1, ip Tq \ X dbX ip X, X Tq dbX Từ hệ điều kiện (#) ta thấy sau: - Thỏa mãn hệ điều kiện (#) khó khăn Với k-tập mục X, giá trị hai hàm tới hạn điều kiện hệ điều kiện (#) thỏa mãn, lại trường hợp khác CFAFSM ( X ) CFFSM ( X ) - Trường hợp xấu nhất, giá trị hai hàm tới hạn xảy hệ điều kiện (#) thỏa mãn với k-tập mục X có k tăng dần từ 1, điều xảy sở liệu DB bảng nhị phân (0/1) có độ dài giao tác Ví dụ: Trong CSDL bảng 3.5a, độ dài giao tác dài ML=3, giá trị lớn mục liệu CSDL MV=3, có trường hợp hai hàm tới hạn nhau, với 2-tập mục X A, B CFAFSM ( AB) tmv( AB) Tmv(db A B, ) tmv(T 01) tmv(T 02) 5 10 lmv( AB) CFFSM ( AB) lmv( AB) MV (ML k ) 3.(3 2) 10 k Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn TID A B C D E tmv T01 1 0 T02 1 0 T03 0 0 0 T04 1 T05 0 imv 4 15 Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn TID A B C D E tmv T01 1 T02 1 0 T03 0 0 0 T04 1 T05 1 0 imv 3 12 CSDL bảng 3.5b minh họa cho trường hợp hai hàm tới hạn Ở đây, độ dài giao tác 3, tức độ dài giao tác dài ML=3, giá trị lớn mục liệu CSDL MV=1 Xét k=1, mục A có lmv(A)=3, db A CFAFSM ( A) tmv( A) CFFSM ( A) lmv( A) Tmv(db A ) T 01,T 2,T 05 lmv( A) MV (ML k ) k 3 1.(3 1) Bảng 3.6 giá trị hai hàm tới hạn với k=1 Bảng 17: Giá trị hai hàm tới hạn k=1 A B C D E lmv 3 CFAFSM 9 CFFSM 9 Nhận xét 3.2: Định lý 3.3 cho thấy hai hàm tới hạn trường hợp đặc biệt liệu, trường hợp này, hàm tới hạn nhỏ hàm tới hạn cũ, điều đảm bảo cho thuật toán AFSM thực hiệu thuật toán FSM Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO 3.1 Xây dựng chương trình khai phá luật kết hợp sở liệu giao dịch siêu thị bán lẻ 3.2.1 Dữ liệu đầu vào Dữ liệu toán khai phá luật kết hợp sở liệu giao dịch bán lẻ siêu thị giao dịch mua bán khách hàng với siêu thị để tìm luật có ý nghĩa thể thói quen mua hàng phổ biến đông đảo người tiêu dùng Để thuận tiện cho người sử dụng chương trình, liệu đầu vào chương trình xây dựng theo ba dạng chuẩn sau đây: Dữ liệu dạng bảng: o Dữ liệu hỗ trợ kiểu lưu trữ dạng bảng giao tác o Tên bảng chứa liệu: Table1 o Định dạng liệu: bố cục liệu dạng bảng n dòng, m cột o Mỗi cột đại diện cho item (mặt hàng) o Mỗi dòng giao dịch (transaction) o Mỗi giao dòng cột chứa giá trị số tự nhiên Item không bán giao dịch chứa giá trị 0, ngược lại ô ghi giá trị số lượng item bán giao dịch 3.2.2 Giao diện chương trình Giao diện chương trình xây dựng đơn giản trực quan để sử dụng cách dễ dàng Chương trình có form: form giao diện rm kết quả: a Form Giao diện Form main chương trình chia làm vùng chính: Vùng chứa nút Nhập liệu gồm: - Nút “Chọn liệu bảng”: để chọn CSDL dạng bảng - Nút “Chọn liệu CSDL”: để chọn CSDL dạng đầy đủ - Nút “Chọn liệu dạng Text” để chọn CSDL dạng file *.txt Vùng giũa hiển thị bảng giao tác: dù chọn CSDL dạng sau phần mềm đưa hiển thị thông tin thành bảng giao tác Vùng chứa nút điều khiển lựa chọn khai phá như: - Chọn kiểu khai phá “Cổ phần cao”, “Nhị phân” để tiến hành khai phá bảng liệu theo kiểu có quan tâm đến số lượng hàng hóa giao tác (cổ phần) hay quan tâm đến xuất hàng hòa giao tác (nhị phân) - Nút “Tính”: thực tính tốn để tìm tập mục thỏa mãn sinh luật kết hợp - Hai ô Textbox nhập ngưỡng cổ phần tối thiểu (ngưỡng hỗ trợ tối thiểu kiểu khai phá nhị phân) ngưỡng độ tin cậy tối thiểu luật kết hợp - Giao diện chương trình có vùng hiển thị thời gian thực thuật toán, thời điểm bắt đầu kết thúc thuật toán Để sử dụng chương trình, người sử dụng chọn liệu chuẩn bị theo định dạng nêu Dữ liệu tải hiển thị vào vùng (datagridview) cửa sổ chương trình Sau đó, người sử dụng chọn kiểu khai phá, nhập thông số ngưỡng cổ phần (hay ngưỡng độ hỗ trợ) ngưỡng tin vào hai ô textbox phần form Nếu không nhập đủ thông số, chương trình khơng hoạt động có thơng báo cần nhập đủ thông tin chỗ bị thiếu Nhấn nút “Tính” để thuật tốn hoạt động Kết gồm tập mục cổ phần cao (hoặc tập mục phổ biến) tập luật mạnh tương ứng hiển thị form kết Kết luận chương Chương giới thiệu toán khai phá tập mục cổ phần cao đặc biệt trọng khai thác thuật toán FSM, thuật tốn AFSM phân tích ưu nhược điểm thuật tốn, luận văn sâu phân tích tìm hiểu thuật tốn AFSM FORM GIAO DIỆN CHÍNH Số hóa Trung tâm Học liệu 55 http://www.lrc-tnu.edu.vn/ FORM KẾT QUẢ Số hóa Trung tâm Học liệu 56 http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu 57 http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu 58 http://www.lrc-tnu.edu.vn/ PHẦN KẾT LUẬN Sự bùng nổ thông tin, liệu với phát triển ứng dụng ngày rộng rãi công nghệ thông tin lĩnh vực đời sống xã hội khiến cho nhu cầu xử lý liệu để kết xuất thông tin hữu ích cho người sử dụng cách nhanh chóng trở thành yếu tố quan trọng quan, tổ chức Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: Marketing, Ngân hàng, Tài chính, Rất nhiều tổ chức cơng ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động kinh doanh thu lợi ích to lớn Phương pháp quan trọng kỹ thuật khai phá liệu mà đề tài sâu tìm hiểu khai phá luật kết hợp khai phá tập mục cổ phần cao Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm Trong thời gian nghiên cứu thực luận văn, tác giả đạt số kết sau: - Nghiên cứu số kỹ thuật khai phá tri thức sở liệu Nghiên cứu phương pháp luật kết hợp khai phá liệu Khai phá tập mục cổ phần cao sở liệu Thiết kế chương trình khai phá tập mục cổ phần cao theo thuật toán AFSM (Advance Fast Share Measure) Một số đề xuất Trong thời gian tới luận văn mở rộng nghiên cứu tiếp tục hoàn thiện, áp dụng vào thực tế lĩnh vực kinh doanh, tài chính, ngân hàng Số hóa Trung tâm Học liệu 59 http://www.lrc-tnu.edu.vn/ TÀI LIỆU THAM KHẢO I Tiếng Việt: [1] Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao lợi ích cao sở liệu”, Luận án tiến sỹ toán học, Mã số: 62.46.35.01, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học công nghệ Việt Nam [2] TS Lê Văn Phùng – Ths Quách Xuân Trưởng (2012), “Khai phá liệu” Nhà xuất Thông tin truyền thơng [3] Hồng Minh Quang (2010), “Các tập mục thường xuyên khai phá liệu ứng dụng”, Luận văn Thạc sỹ Trường Đại học Công nghệ Đại học Quốc gia Hà Nội [4] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Khai phá tập mục thường xuyên cổ phần cao sở liệu lớn”, Tạp chí tin học điều khiển học, 24(2), tr 168-178 [5] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toán hiệu khai phá tập mục thường xuyên cổ phần cao”, Kỷ yếu hội thảo Một số vấn đề chọn lọc CNTT TT, Huế, 12/2008, tr 431-444 II Tiếng Anh [1] Daniel T Larose (2006) Data mining method and models Wiley-interscience A john wiley & sons, inc publication [2] Han J and M Kamber (2006) Data Mining-Concepts and Techniques (Second Edition) Morgan Kaufmann Publishers [3] Liu Y., W Liao K., and Choudhary A (2005), “A fast high utility itemsets st mining algorithm”, in Proc Intl conf on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA [4] El-Haj M and Zaiane Osmar R (2003), “ COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf on Data Mining and knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA Số hóa Trung tâm Học liệu 60 http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu 61 http://www.lrc-tnu.edu.vn/ ... cứu khai phá liệu, tập trung vào khai phá tập mục thường xuyên, tập mục cổ phần cao, đặc biệt tập mục cổ phần cao theo giao tác cao - Cài đặt thực nghiệm tìm tập mục cổ phần cao theo giao tác cao. .. cao với phương pháp, thuật toán khai phá, đặc biệt tập trung thuật toán khai phá tập mục cổ phần theo giao tác cao giá trị theo giao tác tập mục cần lớn giá trị cổ phần tối thiểu Số hóa Trung tâm... phần mở đầu luận văn gồm chương sau: Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN Chương KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO