1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp khai phá các luật kết hợp từ cơ sở dữ liệu dựa trên SQL

77 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 2,03 MB

Nội dung

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN LƯU ANH TUẤN NGHIÊN CỨU PHƯƠNG PHÁP KHAI PHÁ CÁC LUẬT KẾT HỢP TỪ CƠ SỞ DỮ LIỆU DỰA TRÊN SQL LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Nghệ An, 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN LƯU ANH TUẤN NGHIÊN CỨU PHƯƠNG PHÁP KHAI PHÁ CÁC LUẬT KẾT HỢP TỪ CƠ SỞ DỮ LIỆU DỰA TRÊN SQL LUẬN VĂN THẠC SỸ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60.48.02.01 Người hướng dẫn: TS PHAN ANH PHONG Nghệ An, 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ thân nghiên cứu thực hướng dẫn TS Phan Anh Phong Tôi cam đoan luận văn thực cách nghiêm túc trung thực Trong trình thực luận văn này, tham khảo tài liệu liệt kê phần Tài liệu tham khảo Tơi cam đoan khơng chép tồn văn cơng trình luận văn tốt nghiệp người khác Tp.HCM, tháng 03 năm 2017 Học viên Nguyễn Lưu Anh Tuấn LỜI CẢM ƠN Trước hế t, xin gửi lời tri ân trân tro ̣ng đế n TS.Phan Anh Phong, người Thầ y đã hướng dẫn thực luận văn Tha ̣c sỹ với đề tài “Nghiên cứu phương pháp khai phá luật kết hợp từ sở liệu dựa SQL” mô ̣t cách khoa ho ̣c, tâ ̣n tâm, giúp hoàn thành tố t đề tài Tôi xin gửi lời cảm ơn sâu sắ c đế n thầy giáo, cô giáo trường Đại học Vinh, đă ̣c biê ̣t là các giảng viên Khoa Công nghệ Thông tin đã truyề n đa ̣t những kiế n thức hữu ích suố t khóa ho ̣c, xin cảm ơn các ba ̣n bè cùng lớp đã hỗ trơ ̣, giúp đỡ ho ̣c tâ ̣p Tôi xin gửi lời cảm ơn sâu sắ c đế n thầy giáo, cô giáo trường Đại học Kinh tế Công Nghiệp Long An, Thầy cô Khoa Liên kết Đào tạo tạo điều kiền giúp đỡ q trình học tập Khóa 23 Cơng nghệ Thơng tin thời gian qua Tôi xin gửi lời cảm ơn đế n các nhà khoa ho ̣c, các giảng viên và ngoài nước về những bài báo, những công trình khoa ho ̣c vi ̃ đa ̣i mà đã có dip̣ đo ̣c, nghiên cứu và vâ ̣n du ̣ng vào đề tài nghiên cứu của mình Tôi xin gửi lời cảm ơn đế n gia điǹ h, đồ ng nghiê ̣p, ba ̣n bè đã hỗ trơ ̣, đô ̣ng viên, khích lê ̣ hoàn thành tố t luâ ̣n văn này Trân tro ̣ng MỤC LỤC Chương TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 14 1.1 Phát tri thức khai phá liệu 14 1.2 Các kỹ thuật khai phá liệu 17 1.3 Một số phương pháp khai phá liệu 18 1.4 Ứng dụng khai phá liệu 19 1.5 Mục tiêu luận văn 19 Chương KHAI PHÁ LUẬT KẾT HỢP VÀ CÁC NGHIÊN CỨU LIÊN QUAN 20 2.1 Khai phá luật kết hợp 20 2.2 Thuật toán Apriori 24 2.3 Các nghiên cứu liên quan khai phá luật kết hợp 37 2.4 Những thách thức khai phá luật kết hợp 39 Chương SQL PHÁT HIỆN LUẬT KẾT HỢP TỪ CƠ SỞ DỮ LIỆU QUAN HỆ DỰA TRÊN 40 3.1 Đặt vấn đề 40 3.2 Tạo tập thường xuyên dựa SQL 41 3.3 Sinh luật 45 3.4 Ví dụ 49 Chương KẾT QUẢ THỬ NGHIỆM 57 4.1 Mơ tả tốn sở liệu thử nghiệm 57 4.2 Xác định tập mục thường xuyên 60 4.3 So sánh hai phương pháp K-way join và Group by 67 4.4 Giai đoa ̣n sinh luâ ̣t Error! Bookmark not defined DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Diễn giải Ý nghĩa CSDL Cơ sở liệu DB Database Cơ sở liệu Conf Confidence Độ tin cậy Minconf Minimum Confidence Độ tin cậy tối thiểu Minsup Minimum Support Độ hỗ trợ tối thiểu Supp Support Độ hỗ trợ TDI Transaction Indentification Định danh giao tác KPDL Khai phá liệu DANH MỤC CÁC BẢNG Bảng 2-1 Bảng giao dịch minh họa cho độ hỗ trợ 22 Bảng 2-2 Bảng giao dịch minh họa cho độ tin cậy 23 Bảng 2-3 Bảng giao dịch minh họa cho thuật toán Apriori 28 Bảng 2-4 Bảng tính độ hỗ trợ để minh họa cho thuật tốn Apriori 29 Bảng 2-5 Bảng tính độ tin cậy luật phát sinh từ tập mục có độ dài 33 Bảng 2-6 Bảng tính độ tin cậy luật phát sinh từ tập mục có độ dài 33 Bảng 2-7 Bảng tính độ tin cậy luật phát sinh từ tập mục có độ dài 34 Bảng 3-1 Bảng RULES 49 Bảng 3-2 Bảng giao dịch minh họa 49 Bảng 3-3 Bảng liệu đầu vào 50 Bảng 3-4 Bảng mô tả liệu 50 Bảng 3-5 Bảng TID_ITEM 51 Bảng 3-6 Bảng C1 51 Bảng 3-7 Bảng F1 51 Bảng 3-8 Bảng C2 52 Bảng 3-9 Bảng F2 52 Bảng 3-10 Bảng C3 52 Bảng 3-10 Bảng F3 53 Bảng 3-12 Bảng tập thường xuyên "FISETS" 53 Bảng 3-13 Bảng Subset 54 Bảng 3-14 Bảng minh họa luật từ dòng bảng Subset 54 Bảng 3-15 Bảng minh họa luật từ dòng bảng Subset 54 Bảng 3-16 Bảng Rules 55 Bảng 3-17 Bảng luật hoàn thiện Rules 56 Bảng 4-1 Bảng cấu trúc sở liệu thử nghiệm 58 Bảng 4-2 Dữ liệu bảng bank 59 Bảng 4-3 Dữ liệu bảng Transaction 60 Bảng 4-4 Tập mục thường xuyên F1 Error! Bookmark not defined Bảng 4-5 Tập mục ứng cử viên C2 Error! Bookmark not defined Bảng 4-6 Tập mục thường xuyên F2 Error! Bookmark not defined Bảng 4-7 Tập ứng cử viên C3 Error! Bookmark not defined Bảng 4-8 Tập mục thường xuyên F3 Error! Bookmark not defined Bảng 4-9 Bảng FrequentSet Error! Bookmark not defined DANH MỤC CÁC HÌNH Hình Hình Hình Hình Hình Hình Hình Hình Hình 1-1 Quá trình phát tri thức từ sở liệu 15 3-1 Tính độ hỗ trợ theo kỹ thuật K-Way 42 3-2 Mơ hình tính độ hỗ trợ kỹ thuật K-way 43 3-3 Tính độ hỗ trợ theo sử dụng truy vấn lồng 44 3-4 Mơ hình tính độ hỗ trợ kỹ thuật truy vấn lồng 44 3-5 Tính độ hỗ trợ theo kỹ thuật Group By 45 3-6 Kết hợp tập mục phổ biến độ dài từ đến k 46 3-7 Liệt kê tổ hợp chập k n phần tử 47 3-8 Sinh tập luật kết hợp từ tập mục phổ biến 48 10 MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Phát tri thức khai phá liệu có ý nghĩa quan trọng thực tiễn, q trình tìm tri thức hữu ích tiềm ẩn bên khối liệu Hiện có nhiều giải pháp đưa ứng dụng khai phá liệu, nhiên thực tế cho thấy q trình cịn gặp nhiều khó khăn thách thức như: liệu đa dạng với kích thước ngày tăng, thời gian thi hành thuật tốn lớn nên tốn kém, tính riêng tư toàn vẹn liệu chưa đảm bảo,… Các kỹ thuật khai thác liệu chia thành nhóm chính:  Nhóm mơ tả liệu: có nhiệm vụ mơ tả tính chất đặc tính chung liệu sở liệu có gồm kỹ thuật: phân cụm (clustering), luật kết hợp (Association rules), tóm tắt (Sumerization), trực quan hóa (Visualization),  Nhóm dự đốn: đưa dự đoán dựa vào suy diễn liệu thời, gồm có kỹ thuật: phân lớp (Classification), hồi quy (Regession) Trong số kỹ thuật nêu trên, có ba kỹ thuật thơng dụng sử dụng để khai thác liệu là: phân cụm liệu, phân lớp luật kết hợp Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu đề xuất vào năm 1993 phát triển mạnh mẽ năm gần Những nghiên cứu khai phá luật kết hợp tập trung xây dựng thuật toán khai phá luật kết hợp mới, hiệu cải tiến, phát triển thuật toán hiệu từ thuật tốn có Bản chất khai phá luật kết hợp nhằm phát luật kết hợp thành phần liệu sở liệu giao dịch Mục đích 63  Sử dụng kỹ thuật K-Way INSERT INTO F2 SELECT c2.item1, c2.item2, COUNT(*) FROM C2, Transactions t1, Transactions t2 WHERE t1.Item = c2.item1 and t2.Item = c2.item2 and t1.Item = c2.item1 and t2.Item= c2.item2 and t1.Tid = t2.Tid GROUP BY item1, item2 HAVING COUNT(*)>=@sup ;  Sử dụng kỹ thuật Group By INSERT INTO F2 SELECT h.item1, h.item2, COUNT(*) as sup FROM ( Select C2.item1, C2.item2, COUNT(*) as sup From Transactions D , C2 Where D.Item = c2.item1 or D.Item = c2.item2 group by C2.item1, C2.item2, D.Tid having COUNT(*) = ) As h Group by item1, item2 Having COUNT(*) >=@sup ORDER BY sup desc 64 Bảng 4-6 Tập mục thường xuyên F2 4.2.3 Bước 3: Tìm C3 F3 Để tạo C3 tập ứng cử viên có ba item ta kết nối F2 với F2 lưu vào bảng với ba cột (tương ứng ba item) thực thi câu lệnh SQL sau: INSERT INTO C3 SELECT i1.item1,i1.item2,i2.item2 FROM F2 i1, F2 i2 WHERE i1.item1 = i2.item1 and i1.item2=@sup ;  Sử dụng kỹ thuật Group By INSERT INTO F3 SELECT h.item1, h.item2,h.item3, COUNT(*) as sup FROM ( Select C3.item1, C3.item2,c3.item3, COUNT(*) as sup From Transactions D , C3 Where D.Item = c3.item1 or D.Item = c3.item2 or D.Item = c3.item3 group by C3.item1, C3.item2,C3.item3, D.Tid having COUNT(*) = ) As h Group by item1, item2, item3 Having COUNT(*) >=@sup ORDER BY sup desc Bảng 4-8 Tập mục thường xuyên F3 4.2.4 Bước 4: Tìm C4 F4 Tại đây, sau thực phép nối F3 với F3 ta thu tập ứng cử viên C4=Ø Nên trình tìm tập mục thường xuyên hoàn tất kết thu sau: 67 Bảng 4-9 Bảng FrequentSet 4.3 So sánh hai phương pháp K-way join và Group by Khi ứng dụng kỹ thuật khai phá liệu vào thực tế, người sử dụng thường quan tâm đến tính hiệu kỹ thuật, chẳng hạn như: độ phức tạp thuật toán, thời gian chạy thuật toán, khả đáp ứng sở liệu ngày lớn Trong phạm vi luận văn, tiến hành cài đặt thử nghiệm hai phương pháp cụ thể K-way join và Group by 68 4.3.1 Cơ sở liệu Cơ sở liệu trình bày theo quy ước tập tin văn bản, cụ thể định dạng txt, với quy ước dòng giao dịch, giá trị ngăn cách dấu phẩy (,) Chúng lưu tên tập tin Data1000.txt, tập tin có 1000 giao dịch 4.3.2 Tạo sở liệu phần mềm Trong phần thử nghiệm này, cài đặt sở liệu phần mềm SQL Server sau: DataTD1k với table Transaction1k (Tid, Item, STT): sở liệu gồm 1000 giao dịch DataTD3k với table Transaction3k (Tid, Item, STT): sở liệu gồm 3000 giao dịch DataTD5k với table Transaction5k (Tid, Item, STT): sở liệu gồm 5000 giao dịch 69 4.3.3 Thuật tốn tìm kiếm K-Way Join GroupBy Trong sở liệu tạo 4.3.2, tạo procedure thuật toán tìm tập mục thường xuyên sử dụng Kỹ thuật K-Way Join GroupBy Chi tiết thuật tốn trình bày 4.2 70 Chúng tiến hành cài đặt công cụ Search Frequent by SQL ( Tìm tập mục thường xuyên đo tốc độ xử lý kỹ thuật ) - Tìm kiếm sử dụng kỹ thuật K-Way Join - Tìm kiếm sử dụng kỹ thuật GroupBy 71 4.3.4 So sánh thời gian thực Kỹ thuật K-Way Join GroupBy Theo chương trình cài đặt, kế t quả thử nghiệm hai phương pháp với sở liệu 1000 giao dịch sau Tập tin kết lưu vào ổ cứng máy tính với định dạng txt 72 Nhâ ̣n xét: Kỹ thuật K-Way join tìm tập mục thường xuyên nhanh nhiều so với kỹ thuật GroupBy Với số lượng giao dịch lớn tốc độ xử lý nhanh, từ cho thấy khác biệt nhiều 4.4 Giai đoa ̣n sinh luâ ̣t 4.4.1 Ý nghĩa Trong toán khai phá liệu, luật sinh từ sở liệu giúp người dùng đánh giá mức độ quan hệ ràng buộc item, tri thức mà người dùng trông đợi Trong phần thử nghiệm, thiết kế giao diện đồ họa, dễ dàng sử dụng Người dùng cần chọn sở liệu, khai báo Min Support Min Confidence Và nhấn nút Find association có luật kết 73 Ví dụ, với Min confidence = 60%, sở dữ liêụ Bank 1000 dòng giao dịch cho kế t quả tâ ̣p mu ̣c thường xuyên sau 4.4.2 Các luật đạt 74 Từ kết thử nghiệm với sở liệu 1000 dòng giao dịch, đạt 04 luật sau: 1.{mortgage=NO}=>{current act=YES}, với độ hỗ trợ 50.1667%, độ tin cậy 76.9821% Ý nghĩa: Khách hàng khơng khả chấp khơng có tài khoản {current act =YES} => {mortgage =NO}, với độ hỗ trợ 50.1667%, độ tin cậy 66.1538% Ý nghĩa: Khách hàng có tài khoản khơng khả chấp {save act=YES} =>{current act=YES}, với độ hỗ trợ 53.1667%, độ tin cậy 77.0531% Ý nghĩa: Khách hàng có tài khoản tiết kiệm có tài khoản {current act=YES}=>{save act=YES}, với độ hỗ trợ 53.1667%, độ tin cậy 70.1099% Ý nghĩa: Khách hàng có tài khoản có tài khoản tiết kiệm 75 KẾT LUẬN Luận văn trình bày mơ ̣t cách tổng quan về lĩnh vực khai phá liệu Trong đó khai phá luật kết hợp phương pháp đươ ̣c quan tâm bởi các nhà nghiên cứu và ngoài nước Vì vâ ̣y, đề tài tâ ̣p trung đế n viê ̣c triǹ h bày chă ̣t chẽ từ lý thuyế t, đế n ví du ̣ minh ho ̣a cho phương pháp này Khai phá luâ ̣t có nhiề u hướng tiế p câ ̣n, nhiên hướng tiế p câ ̣n dựa ngôn ngữ truy vấ n SQL chiế m ưu thế về đô ̣ đơn giản thuâ ̣t toán và thời gian thực thi Đó chính là lý chúng lựa cho ̣n khai phá luâ ̣t kế t hơ ̣p dựa SQL làm tiêu chí quan tro ̣ng luâ ̣n văn Về thuật toán khai phá dữ liê ̣u, luận văn trình bày thuật tốn Apriori minh hoạ thuật toán Apriori khai phá luật kết hợp SQL, sử dụng phương pháp tính tốn hỗ trợ kỹ thuật khác thực phát luật có giá trị CSDL quan hệ Về triển khai thực hiện, luận văn cài đặt thử nghiệm sở liệu ngân hàng với 600 giao dịch Luâ ̣n văn đã mô tả chi tiết trình thực thi nhâ ̣n xét điể m ma ̣nh và ̣n chế kỹ thuật tính tốn độ hỗ trợ tập mục phổ biến 76 TÀI LIỆU THAM KHẢO [1] Han, J., et al DMQL: A data mining query language for relational database in ACM SIGMOD workshop on research issues on data mining and knowledge discovery 1996 Montreal [2] Meo, R., G Psaila, and S Ceri A New SQL-like Operator for Mining Association Rules in Proceedings of the 22nd VLDB Conference 1996 Mumbai, India [3] Agrawal, R and K Shim, Developing tightly-coupled Data Mining Applications on a Relational Database System 1995, IBM Almaden Research Center: San Jose, California [4] Sarawagi, S., S Thomas, and R Agrawal Integrating Association Rule Mining with Rekational Database System: Alternatives and Implications in ACM SIGMOD Int'l Conference on Management of Data 1998 Seattle, Washington [5] Thomas, S., Architectures and optimizations for integrating Data Mining algorithms with Database Systems, in CSE 1998, University of Florida: Gainesville [6] Mirela Danubianu, Stefan Gheorghe Pentiuc, Iolanda Tobolcea, Mining Association Rules Inside a Relational Database – A Case Study, in The Sixth International Multi-Conference on Computing in the Global Information Technology 2011, Iaria, 2011 [7] Jingyang Wang, Huiyong Wang, Dongwen Zhang, Wanzhen Zhou, Pengpeng Zhang, Research on Frequent Itemsets Mining Algorithm based on Relational Database, in Journal of Software, Vol 8, Vo 2013, Academy Publisher [8] Pratiyush Guleria1, Manu Sood, Usage of association rule mining in course selection for industrial trainings, in International Journal of Advance Research In Science And Engineering http://www.ijarse.com IJARSE, Vol No.4, Special Issue (01), March 2015 [9] Nguyễn Kim Anh (2006), Nguyên lý hệ Cơ sở liệu, Nhà xuất Đại học quốc gia Hà Nội 77 [10] Győrödi, C and Győrödi, R(2002), “Mining association rules in large databases”, Proc of Oradea EMES’02: 45-50, Oradea, Romania Győrödi, R and Győrödi, C, (2002), “Architectures of data mining systems”, Proc of Oradea EMES’02: 141-146, Oradea, Romania ... - Nghiên cứu phương pháp khai phá luật kết hợp từ sở liệu quan hệ dựa SQL - Triển khai thử nghiệm Đối tượng phạm vi nghiên cứu 13 - Các toán khai phá liệu - Khai phá luật kết hợp từ cở sở liệu. .. Xuất phát từ lý trên, chọn đề tài ? ?Nghiên cứu phương pháp khai phá luật kết hợp từ sở liệu dựa SQL? ?? làm hướng phát triển luận văn tốt nghiệp Bên cạnh việc nghiên cứu phương pháp khai phá luật kết. .. xuyên dựa SQL Nội dung nghiên cứu - Cơ sở liệu quan hệ ngơn ngữ SQL - Thuật tốn Apriori khai phá luật kết hợp - Khai phá luật kết hợp từ sở liệu quan hệ dựa SQL - Lập trình C# với sở liệu Phương pháp

Ngày đăng: 10/02/2021, 21:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Han, J., et al. DMQL: A data mining query language for relational database. in ACM SIGMOD workshop on research issues on data mining and knowledge discovery.1996. Montreal Sách, tạp chí
Tiêu đề: DMQL: A data mining query language for relational database". in "ACM SIGMOD workshop on research issues on data mining and knowledge discovery
[2] Meo, R., G. Psaila, and S. Ceri. A New SQL-like Operator for Mining Association Rules. in Proceedings of the 22nd VLDB Conference. 1996. Mumbai, India Sách, tạp chí
Tiêu đề: A New SQL-like Operator for Mining Association "Rules". in "Proceedings of the 22nd VLDB Conference
[3] Agrawal, R. and K. Shim, Developing tightly-coupled Data Mining Applications on a Relational Database System. 1995, IBM Almaden Research Center: San Jose, California Sách, tạp chí
Tiêu đề: Developing tightly-coupled Data Mining Applications "on a Relational Database System
[4] Sarawagi, S., S. Thomas, and R. Agrawal. Integrating Association Rule Mining with Rekational Database System: Alternatives and Implications. in ACM SIGMOD Int'l Conference on Management of Data. 1998. Seattle, Washington Sách, tạp chí
Tiêu đề: Integrating Association Rule Mining "with Rekational Database System: Alternatives and Implications". in "ACM SIGMOD Int'l "Conference on Management of Data
[5] Thomas, S., Architectures and optimizations for integrating Data Mining algorithms with Database Systems, in CSE. 1998, University of Florida: Gainesville Sách, tạp chí
Tiêu đề: Architectures and optimizations for integrating Data Mining "algorithms with Database Systems", in "CSE
[6] Mirela Danubianu, Stefan Gheorghe Pentiuc, Iolanda Tobolcea, Mining Association Rules Inside a Relational Database – A Case Study, in The Sixth International Multi-Conference on Computing in the Global Information Technology. 2011, Iaria, 2011 Sách, tạp chí
Tiêu đề: Mining "Association Rules Inside a Relational Database – A Case Study
[7] Jingyang Wang, Huiyong Wang, Dongwen Zhang, Wanzhen Zhou, Pengpeng Zhang, Research on Frequent Itemsets Mining Algorithm based on Relational Database, in Journal of Software, Vol. 8, Vo. 8. 2013, Academy Publisher Sách, tạp chí
Tiêu đề: Research on Frequent Itemsets Mining Algorithm based on Relational Database
[8] Pratiyush Guleria1, Manu Sood, Usage of association rule mining in course selection for industrial trainings, in International Journal of Advance Research In Science And Engineering http://www.ijarse.com IJARSE, Vol. No.4, Special Issue (01), March 2015 Sách, tạp chí
Tiêu đề: Usage of association rule mining in course "selection for industrial trainings
[9] Nguyễn Kim Anh (2006), Nguyên lý của các hệ Cơ sở dữ liệu, Nhà xuất bản Đại học quốc gia Hà Nội Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w