Khai phá tập mục cổ phần theo giao tác cao

LỜI CẢM ƠN Luận văn này được hoàn thành với sự hướng dẫn tận tình của TS Lê Văn Phùng – Viên Công nghệ thông tin - Viện Hàn Lâm Khoa học Việt Nam. Trước tiên tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới TS. Lê Văn Phùng người đã tận tình hướng dẫn, động viên giúp đỡ tôi trong suốt thời gian thực hiện luận văn. Tôi cũng xin chân thành cảm ơn các thầy cô trong trường Công Nghệ thông tin và Truyền thông – Đại học Thái Nguyên, tạo điều kiện thuận lợi cho tôi hoàn thành tốt khóa học. Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học CHK11g đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học. Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè đã động viên, khuyến khích và hỗ trợ cần thiết để tôi hoàn thành luận văn này. Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót, kính mong được sự chỉ dẫn của các quý thầy cô và các bạn. Thái Nguyên, ngày tháng năm 2014 Người viết Nông Thị Ninh LỜI CAM ĐOAN Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc Thái Nguyên, ngày tháng năm 2014 Người cam đoan Nông Thị Ninh BẢNG KÝ HIỆU CHỮ VIẾT TẮT S TT Ký hiệu viết tắt Giải thích ABBM: Algorithm Based on 1Boolean Matrix Thuật toán dựa trên ma trận Boolean CSDL Cơ sở dữ liệu DBMS Hệ quản trị cơ sở dữ liệu IR (Information Retrieval) Truy xuất thông tin KPDL Khai phá dữ liệu OODBMS Object Oriented Database Hệ quản trị cơ sở dữ liệu hướng đối 6Management System tượng RDBMS Ralational Database 7Management System Hệ quản trị cơ sở dữ liệu quan hệ I  i1 , i2 , , in  Tập n mục dữ liệu DB  T1 , T2 , , Tm  Cơ sở dữ liệu có m giao tác Cơ sở dữ liệu giao tác con của DB, db  db 0 DB ip 1 Mục dữ liệu thứ p Tq 2 Giao tác thứ q Số mục dữ liệu một cơ sở dữ liệu giao n 3 tác 4 Số giao tác của một cơ sở dữ liệu giao m tác 1A,B,C… Tên các mục dữ liệu trong cơ sở dữ liệu 5 giao tác minsup 6 Ngưỡng độ hỗ trợ minshare 7 Ngưỡng cổ phần tối thiểu minconf 8 Ngưỡng độ tin cậy tối thiểu 9 │X│ Số phần tử của tập hợp X DANH MỤC CÁC BẢNG Bảng 1. Biểu diễn cơ sở dữ liệu giao tác ngang 13 Bảng 2. Biểu diễn cơ sở dữ liệu giao tác dọc . 13 Bảng 3. Biểu diễn cơ sở dữ liệu giao tác ma trận 14 Bảng 4. Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree 26 Bảng 5. Các mục dữ liệu và độ hỗ trợ 27 Bảng 6. Các mục dữ liệu và độ hỗ trợ 27 Bảng 7. Các mục dữ liệu trong giao tác sắp xếp giảm dần theo độ hỗ trợ . 27 Bảng 8. Cơ sở dữ liệu ví dụ 34 Bảng 9. Giá trị lmv và cổ phần của các mục dữ liệu trong CSDL bảng 8 . 35 Bảng 10: Các tập mục cổ phần cao của CSDL bảng 8 36 Bảng 11: CSDL minh họa ngữ nghĩa của tập mục cổ phần cao 37 Bảng 12: Các giá trị lmv và hàm tới hạn với k=1. 44 Bảng 13. Các giá trị lmv và hàm tới hạn với k=2. 45 Bảng 14. Các giá trị lmv và hàm tới hạn với k=3. . 46 Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn bằng nhau. 51 Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn luôn bằng nhau 51 Bảng 17: Giá trị hai hàm tới hạn khi k=1. 52 DANH MỤC CÁC HÌNH Hình 1.1. Kiến trúc điển hình của hệ thống khai phá dữ liệu 10 Hình 1.2. Hình cây FP-Growth 28 Hình 1.3. Cây COFI-tree của mục D 29 Hình 1.4 Các bước khai phá cây D-COFI-tree .22 MỞ ĐẦU Đặt vấn đề Chúng ta đang sống trong thời đại bùng nổ về dữ liệu và máy tính đang giữ vai trò ngày càng trở nên quan trọng trong việc lưu trữ và xử lý thông tin. Bên cạnh đó, những thiết bị thu thập dữ liệu tự động cũng phát triển mạnh góp phần tạo ra những kho dữ liệu khổng lồ. Mặc dù trong môi trường tràn ngập dữ liệu như vậy nhưng con người vẫn thiếu thông tin. Theo thống kê của một tổ chức uy tín thì chỉ có 2% - 3% lượng dữ liệu được chuyển thành thông tin có ích. Khi xã hội càng phát triển, lượng thông tin cần càng nhiều thì công việc tổ chức, khai phá dữ liệu ngày càng khó khăn. Như vậy, trong quá trình sử dụng và khai thác thông tin người ta nhận thấy rằng có rất nhiều tri thức còn tiềm ẩn trong dữ liệu. Vấn đề đặt ra là làm thế nào để khai thác được thông tin và khai thác một cách có hiệu quả. Trong quá trình khai phá dữ liệu, có rất nhiều kỹ thuật đã và đang được nghiên cứu. Đặc biệt là các bài toán về khai phá luật kết hợp. Năm 1997, Hilderman đề xuất bài toán khai phá tập mục cổ phần cao. Cổ phần hay đóng góp của một tập mục là số đo tỷ lệ đóng góp của tập mục trong cơ sở dữ liệu. Khai phá tập mục cổ phần cao là khám phá tất cả các tập mục có cổ phần không nhỏ hơn ngưỡng quy định. Loại bài toán này đang được sự quan tâm đặc biệt trong nghiên cứu và đời sống xã hội vì sự đáp ứng to lớn của chúng đối với nhu cầu của thực tiễn. Chính vì vậy, chúng tôi đã chọn đề tài về khai phá tập mục cổ phần cao làm luận văn thạc sỹ của mình. 2. Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu là cơ sở dữ liệu giao tác -Phạm vi nghiên cứu trong khuôn khổ tập mục cổ phần cao cùng với các phương pháp, thuật toán khai phá, đặc biệt là tập trung thuật toán khai phá tập mục cổ phần theo giao tác cao là các giá trị theo giao tác của tập mục cần lớn hơn giá trị cổ phần tối thiểu. Hướng nghiên cứu đề tài- Nghiên cứu về khai phá dữ liệu, tập trung vào khai phá tập mục thường xuyên, tập mục cổ phần cao, đặc biệt là tập mục cổ phần cao theo giao tác cao. - Cài đặt thực nghiệm tìm tập mục cổ phần cao theo giao tác cao từ dữ liệu bán hàng của một siêu thị cụ thể ở Thái Nguyên. Những nội dung nghiên cứu Ngoài phần mở đầu thì luận văn gồm 3 chương sau: Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN Chương KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO Phương pháp nghiên cứu - Kết hợp lý thuyết với đánh giá thực nghiệm - Sưu tâp và tổng hợp các kết quả nghiên cứu về tập mục thường xuyên, Khái phá tập mục cổ phần cao và tập mục cổ phần cao theo giao tác cao từ nguồn sách và các bài báo khoa học, hội thảo chuyên ngành trong nước và ngoài nước. - Phân tích bài toán ứng dụng và chọn lọc thuật toán thử nghiệm thích hợp. Ý nghĩa khoa học đề tài Nghiên cứu tập mục cổ phần cao theo giao tác cao là một nhiệm vụ khai phá dữ liệu quan trọng nhằm phát hiện những tri thức có ý nghĩa lớn, bảo đảm cơ sở khoa học trong chuyên ngành khoa học máy tính. Trong lĩnh vực kinh doanh việc tìm ra những tập mục cổ phần cao theo giao tác cao là thật sự cần thiết nhằm tăng hiệu suất và lợi nhuận hoạt động kinh tế của các doanh nghiệp. Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 1.1 Tổng quan khai phá liệu 1.1.1 Kiến trúc hệ thống khai phá liệu Kiến trúc của một hệ thống (KPDL) điển hình có thể có các thành phần như hình 1.1. Hình 1.1 Kiến trúc điển hình hệ thống khai phá liệu - Cơ sở dữ liệu (CSDL), kho dữ liệu hoặc các lưu trữ thông tin khác (Databases, Data warehouse, …): Đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lưu trữ thông tin khác. Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thể hiện trên những dữ liệu này. - Máy chủ CSDL hay máy chủ kho dữ liệu (Database or warehouse server): Máy chủ này có trách nhiệm lấy những dữ liệu thích hợp dựa trên các yêu cầu khai phá của người dùng. 10 Hình 3.1: Không gian tìm kiếm tập mục cổ phần cao theo thuật toán AFSM. 2.2.2.2 Cơ sở lý thuyết thuật toán AFSM Như phần trên đã trình bày, ràng buộc cổ phần không có tính chất phản đơn điệu như tập mục thường xuyên, đây chính là trở ngại của bài toán khai phá tập mục cổ phần cao. Để khắc phục điều này, luận án đề xuất khái niệm “giá trị theo giao tác của tập mục”, “tập mục cổ phần theo giao tác cao” và chứng minh tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone), do đó có thể sử dụng để tỉa các tập mục ứng viên. Định nghĩa2.6: Cho tập mục X, dbX là tập các giao tác chứa X. Giá trị theo giao tác (transaction measure value) của tập mục X, ký hiệu tmv(X), tổng giá trị của tất cả các giao tác chứa tập mục X , tức là tmv( X )  Tmv ( dbX )   tmv (Tq ) TqdbX Ví dụ: Xét cơ sở dữ liệu ở bảng 3.1, tmv  A  tmv (T 01)  tmv (T 08)    13 Định nghĩa 2.7: Tập mục X được gọi là tập mục cổ phần theo giao tác cao nếu tmv  X   min _ lmv Trường hợp ngược lại, X được gọi là tập mục cổ phần theo giao tác thấp. Ví dụ, xét cơ sở dữ liệu ở bảng 3.1 với minShare=30%, min_lmv=16,8, tmv  A   13, tmv  E   22 , 1-tập mục A tập mục cổ phần theo giao tác thấp còn E là tập mục cổ phần theo giao tác cao. Định lý 3.1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone). Chứng minh: Xét hai tập mục X, Y sao cho Y  X , ta chứng minh nếu Y là tập mục cổ phần theo giao tác thấp thì X cũng là tập mục cổ phần theo giao tác thấp. 47 Ta có YX dbY  dbX , nên do đó tmv(Y )  Tmv (dbY )  Tmv( dbX )  tmv( X ) Nếu Y là tập mục cổ phần theo giao tác thấp, tức là tmv Y   _ lmv thì tmv  X   tmv Y   _ lmv , X cũng là tập mục cổ phần theo giao tác thấp. Định lý 3.1 cho biết các tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu như tính chất của tập mục thường xuyên, do đó có thể sử dụng tính chất này để tỉa các ứng viên khi khai phá. Định lý 3.2: Nếu tập mục X là tập mục cổ phần cao thì X cũng là tập mục cổ phần theo giao tác cao. Chứng minh: Ký hiệu dbX là tập các giao tác chứa tập mục X, ta có: lmv ( X )   imv( X , T )    mv(i q TqdbX TqdbX i pX p , Tq )    mv(i p , Tq )  tmv ( X ) TqdbX i pTq Do đó, nếu X là tập mục cổ phần cao, tức lmx  X   min _ lmv , thì X cũng là tập mục cổ phần theo giao tác cao vì tmv ( X )  lmx  X   min _ lmv Nhận xét 3.1: Từ định lý 3.2 có thể suy ra tập các tập mục cổ phần cao chứa trong tập các tập mục cổ phần theo giao tác cao. Theo định lý 3.1, các tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu như tập mục thường xuyên, do đó ta có thể áp dụng một số thuật toán khai phá tập mục thường xuyên đã có (như các thuật toán kiểu Apriori, thuật toán tìm kiếm theo chiều sâu FP-growth ), thay số lần xuất hiện của tập mục bởi giá trị theo giao tác của tập mục thì sẽ nhận được kết quả khai phá là các tập mục cổ phần theo giao tác cao. Khi đó ta chỉ cần duyệt lại cơ sở dữ liệu để tính giá trị đóng góp thực sự của các tập mục cổ phần theo giao tác cao để nhận được các tập mục cổ phần cao. Định lý 3.2 cũng cho ta một điều kiện cần để X là tập mục cổ phần cao, đó là X phải tập mục cổ phần theo giao tác cao. Áp dụng định lý 3.1 và định lý 3.2, luận văn trình bày cách tỉa các tập ứng viên trong thuật toán mới AFSM như sau: 48 Ở bước lặp thứ k, nếu X là tập mục cổ phần theo giao tác thấp thì X là tập mục cổ phần thấp và mọi tập cha của X cũng là tập mục cổ phần theo giao tác thấp. Do đó ta có thể loại bỏ tập ứng viên X, từ bước (k+1) trở đi không cần sinh ra các tập cha của X nữa. Như vậy, điều kiện để tỉa các ứng viên cho thuật toán mới AFSM là tmv ( X )  _ lmv Để tiện trình bày khi so sánh với thuật toán FSM, ta cũng gọi giá trị tmv(X) là hàm tới hạn của tập mục X Ký hiệu CFFSM ( X ) và CFAFSM ( X ) tương ứng là hàm tới hạn dùng cho thuật toán FSM và thuật toán mới AFSM: CFFSM ( X )  lmv ( X )  lmv ( X ) MV ( ML  k ) , CF A F SM ( X )  tm v ( X ) k Định lý 2.3 sau so sánh giá trị hai hàm tới hạn này. Định lý 3.3: Cho cơ sở dữ liệu DB và k-tập mục X. Khi đó: 1) CFAFSM ( X )  CFFSM ( X ) 2) Giá trị hai hàm tới hạn luôn bằng nhau khi cơ sở dữ liệu DB là bảng nhị phân với độ dài các giao tác bằng nhau. Chứng minh: 1) CFAFSM ( X )  CFFSM ( X ) : Ta có: CFAFSM ( X )  tmv( X )  Tmv( dbX )   tmv(Tq )  Tq dbX =  [  mv(i , T )   p q Tq dbX i p X = p q mv(i p , Tq )] i p Tq \ X   mv(i , T )    p q Tq dbX i p X = lmv( X )    mv(i , T ) Tq dbX i p Tq mv(i p , Tq ) Tq dbX i p Tq \ X   mv(i p , Tq ) Tq dbX i p Tq \ X  mv(i p , Tq )  MV Vì  (a)  Tq \ X  ML  k nên: CFAFSM ( X )  lmv( X )   MV ( ML  k )  lmv( X )  dbX MV ( ML  k ) Tq dbX 49 Mặt khác, mv(i p , Tq )  với i p  Tq nên ta có: dbX  lmv ( X ) (b) k Do đó: CFAFSM ( X )  lmv ( X )  dbX MV ( ML  k )  lmv ( X )  (c) lmv ( X ) MV ( ML  k )  CFFSM ( X ). k Vậy: CFAFSM ( X )  CFFSM ( X ) 2) Xét điều kiện để CFAFSM ( X )  CFFSM ( X ) : Từ chứng minh ở phần 1) trên ta thấy, CFAFSM ( X )  CFFSM ( X ) khi xảy ra đồng thời hai dấu “=” trong bất đẳng thức (c), tức là khi xảy ra dấu “=” của bất đẳng thức (a) và dấu “=” của bất đẳng thức (b). mv (i p , Tq )  MV , i p  Tq \ X + Xảy ra dấu “=” của bất đẳng thức (a) khi:  T \ X  ML  k ,  T  db q q X  + Xét xảy ra dấu “=” của bất đẳng thức (b) : không mất tính tổng quát, có thể giả sử k-tập mục X nằm trong dbX giao tác của bảng cơ sở dữ liệu như sau:    dbX dòng   X k cột Do đó, dbX  lmv ( X )  mv (i p , Tq )  với i p  X , X  Tq  dbX k Vậy CFAFSM ( X )  CFFSM ( X ) khi:  mv (i p , Tq )  MV , i p  Tq \ X  (#)  Tq  ML, Tq  dbX   mv (i p , Tq )  1, i p  X , X  Tq  dbX Từ hệ điều kiện (#) trên ta thấy như sau: - Thỏa mãn hệ điều kiện (#) là khó khăn. Với k-tập mục X, giá trị hai hàm tới hạn chỉ bằng nhau nếu cả 3 điều kiện của hệ điều kiện (#) được thỏa mãn, còn 50 lại các trường hợp khác thì CFAFSM ( X )  CFFSM ( X ) - Trường hợp xấu nhất, giá trị hai hàm tới hạn luôn bằng nhau xảy ra khi hệ điều kiện (#) được thỏa mãn với mọi k-tập mục X có k tăng dần từ 1, điều đó xảy ra khi cơ sở dữ liệu DB là bảng nhị phân (0/1) có độ dài các giao tác bằng nhau. Ví dụ: Trong CSDL bảng 3.5a, độ dài giao tác dài nhất ML=3, giá trị lớn nhất của các mục dữ liệu trong CSDL là MV=3, chỉ có một trường hợp hai hàm tới hạn bằng nhau, đó là với 2-tập mục X   A, B. CFAFSM ( AB)  tmv( AB )  Tmv( dbA,B )  tmv(T 01)  tmv(T 02)    10 CFFSM ( AB )  lmv( AB )  lmv( AB ) MV ( ML  k )   3.(3  2)  10 k Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn TID A B C D E tmv T01 1 1 3 0 0 5 T02 1 1 0 0 3 5 T03 0 0 0 0 0 0 T04 0 1 1 1 0 3 T05 0 1 0 0 1 2 imv 2 4 4 1 4 15 Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn TID A B C D E tmv T01 1 0 1 0 1 3 T02 1 1 1 0 0 3 51 T03 0 0 0 0 0 0 T04 0 1 1 1 0 3 T05 1 1 0 0 1 3 imv 3 3 3 1 2 12 CSDL ở bảng 3.5b minh họa cho trường hợp hai hàm tới hạn luôn bằng nhau. Ở đây, độ dài các giao tác là 3, tức độ dài giao tác dài nhất ML=3, giá trị lớn nhất của các mục dữ liệu trong CSDL là MV=1. Xét k=1, mục A có lmv(A)=3, dbA  T 01, T 02, T 05 CFAFSM ( A)  tmv( A)  Tmv( dbA )  CFFSM ( A)  lmv ( A)  lmv ( A) MV ( ML  k )   1.(3  1)  k Bảng 3.6 là giá trị của hai hàm tới hạn với k=1. Bảng 17: Giá trị hai hàm tới hạn k=1 A B C D E lmv 3 3 3 1 2 CFAFSM 9 9 9 3 6 CFFSM 9 9 9 3 6 Nhận xét 3.2: Định lý 3.3 cho thấy hai hàm tới hạn chỉ luôn bằng nhau trong trường hợp rất đặc biệt của dữ liệu, ngoài trường hợp này, hàm tới hạn mới nhỏ hơn hàm tới hạn cũ, điều này đảm bảo cho thuật toán AFSM thực hiện hiệu quả hơn thuật toán FSM. 52 Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO 3.1 Xây dựng chương trình khai phá luật kết hợp sở liệu giao dịch siêu thị bán lẻ 3.2.1 Dữ liệu đầu vào Dữ liệu của bài toán khai phá luật kết hợp trong cơ sở dữ liệu giao dịch bán lẻ của siêu thị chính là các giao dịch mua bán của khách hàng với siêu thị để tìm ra những luật có ý nghĩa thể hiện thói quen mua hàng phổ biến của đông đảo người tiêu dùng tại đây. Để thuận tiện cho người sử dụng chương trình, dữ liệu đầu vào của chương trình được xây dựng theo ba dạng chuẩn sau đây: Dữ liệu dạng bảng: o Dữ liệu hỗ trợ kiểu lưu trữ dạng bảng giao tác o Tên bảng chứa dữ liệu: Table1 o Định dạng dữ liệu: bố cục dữ liệu dạng bảng n dòng, m cột o Mỗi cột đại diện cho 1 item (mặt hàng) o Mỗi dòng là một giao dịch (transaction) o Mỗi ô giao giữa dòng và cột chứa một giá trị là số tự nhiên. Item không được bán trong giao dịch đó thì ô chứa giá trị 0, ngược lại ô ghi giá trị là số lượng item được bán trong giao dịch 3.2.2 Giao diện chương trình Giao diện chương trình được xây dựng đơn giản và trực quan để có thể sử dụng một cách dễ dàng. Chương trình chỉ có 2 form: form giao diện chính và rm kết quả: a. Form Giao diện chính Form main chương trình chia làm 3 vùng chính: Vùng trên cùng chứa các nút Nhập dữ liệu gồm: - Nút “Chọn dữ liệu bảng”: để chọn CSDL dạng bảng 53 - Nút “Chọn dữ liệu CSDL”: để chọn CSDL dạng đầy đủ - Nút “Chọn dữ liệu dạng Text” để chọn CSDL dạng file *.txt Vùng giũa hiển thị bảng giao tác: dù chọn CSDL dạng nào thì sau đó phần mềm cũng sẽ đưa về hiển thị thông tin thành bảng các giao tác. Vùng dưới cùng chứa nút điều khiển và các lựa chọn khai phá như: - Chọn kiểu khai phá “Cổ phần cao”, “Nhị phân” để tiến hành khai phá bảng dữ liệu theo kiểu có quan tâm đến số lượng hàng hóa trong giao tác (cổ phần) hay chỉ quan tâm đến sự xuất hiện của hàng hòa trong giao tác (nhị phân). - Nút “Tính”: thực hiện tính toán để tìm ra tập mục thỏa mãn và sinh luật kết hợp. - Hai ô Textbox nhập ngưỡng cổ phần tối thiểu (ngưỡng hỗ trợ tối thiểu nếu ở kiểu khai phá nhị phân) và ngưỡng độ tin cậy tối thiểu của luật kết hợp. - Giao diện chương trình còn có vùng hiển thị thời gian thực hiện thuật toán, thời điểm bắt đầu và kết thúc thuật toán. Để sử dụng chương trình, đầu tiên người sử dụng chọn dữ liệu được chuẩn bị theo đúng định dạng đã nêu ở trên. Dữ liệu được tải và hiển thị vào vùng giữa (datagridview) của cửa sổ chương trình. Sau đó, người sử dụng chọn kiểu khai phá, nhập các thông số về ngưỡng cổ phần (hay ngưỡng độ hỗ trợ) và ngưỡng tin cây vào hai ô textbox ở phần dưới của form. Nếu không nhập đủ thông số, chương trình sẽ không hoạt động và có thông báo cần nhập đủ thông tin ở chỗ bị thiếu. Nhấn nút “Tính” để thuật toán hoạt động. Kết quả gồm tập mục cổ phần cao (hoặc tập mục phổ biến) và tập luật mạnh tương ứng được hiển thị tại form kết quả. Kết luận chương Chương 3 đã giới thiệu về bài toán khai phá tập mục cổ phần cao và đặc biệt chú trọng khai thác thuật toán FSM, thuật toán AFSM và phân tích các ưu nhược điểm của các thuật toán, trong đó luận văn đi sâu phân tích và tìm hiểu thuật toán AFSM. 54 FORM GIAO DIỆN CHÍNH 55 FORM KẾT QUẢ 56 57 58 PHẦN KẾT LUẬN Sự bùng nổ thông tin, dữ liệu cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trên mọi lĩnh vực đời sống xã hội đã khiến cho nhu cầu xử lý dữ liệu để kết xuất thông tin hữu ích cho người sử dụng một cách nhanh chóng trở thành một yếu tố quan trọng trong các cơ quan, tổ chức. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: Marketing, Ngân hàng, Tài chính, Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào hoạt động kinh doanh của mình và thu được những lợi ích to lớn. Phương pháp quan trọng của kỹ thuật khai phá dữ liệu mà đề tài đi sâu tìm hiểu là khai phá luật kết hợp và khai phá tập mục cổ phần cao. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết hợp tìm được. Trong thời gian nghiên cứu và thực hiện luận văn, tác giả đã đạt được một số kết quả sau: - Nghiên cứu một số kỹ thuật khai phá tri thức trong cơ sở dữ liệu. Nghiên cứu phương pháp luật kết hợp trong khai phá dữ liệu Khai phá tập mục cổ phần cao trong cơ sở dữ liệu Thiết kế chương trình khai phá tập mục cổ phần cao theo thuật toán AFSM (Advance Fast Share Measure) Một số đề xuất Trong thời gian tới luận văn sẽ mở rộng nghiên cứu và tiếp tục hoàn thiện, áp dụng vào thực tế trong các lĩnh vực kinh doanh, tài chính, ngân hàng. 59 TÀI LIỆU THAM KHẢO I Tiếng Việt: [1]. Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao và lợi ích cao trong cơ sở dữ liệu”, Luận án tiến sỹ toán học, Mã số: 62.46.35.01, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và công nghệ Việt Nam. [2] TS. Lê Văn Phùng – Ths. Quách Xuân Trưởng (2012), “Khai phá liệu”. Nhà xuất bản Thông tin và truyền thông. [3]. Hoàng Minh Quang (2010), “Các tập mục thường xuyên trong khai phá dữ liệu và ứng dụng”, Luận văn Thạc sỹ. Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội [4]. Vũ Đức Thi, Nguyễn Huy Đức (2008), “Khai phá tập mục thường xuyên cổ phần cao trong cơ sở dữ liệu lớn”, Tạp chí tin học điều khiển học, 24(2), tr 168-178 [5]. Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toán hiệu quả khai phá tập mục thường xuyên cổ phần cao”, Kỷ yếu hội thảo Một số vấn đề chọn lọc CNTT TT, Huế, 12/2008, tr 431-444. II Tiếng Anh [1]. Daniel T. Larose (2006). Data mining method and models. Wiley-interscience. A john wiley & sons, inc publication. [2]. Han J. and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition). Morgan Kaufmann Publishers. [3]. Liu Y., W. Liao K., and Choudhary A. (2005), “A fast high utility itemsets mining algorithm”, in Proc 1st Intl conf on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA. [4]. El-Haj M. and Zaiane Osmar R. (2003), “ COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf on Data Mining and knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA. 60 61 [...]... = 0,482 > 30% Tmv 56 Do đó, X  BCD là tập mục cổ phần cao. 35 Bảng 10: Các tập mục cổ phần cao của CSDL bảng 8 Tập mục BC BD BCD lmv(X) 21 22 27 Sh(X) 37,5% 39,3% 48,2% cổ phần cao Định nghĩa 2.5: Cho CSDL giao tác DB và ràng buộc cổ phần minShare, khai phá tập mục cổ phần cao là tìm tập HS (High Share), chứa tất cả các tập mục cổ phần cao, tức là tập HS   X | X  I , Sh( X... - Dữ liệu cho khai phá tập mục thường xuyên là trường hợp đặc biệt của dữ liệu cho khai phá cổ phần cao khi tất cả các mục dữ liệu trong các giao tác có giá trị là 0 hoặc 1. - Tập mục cổ phần cao mang ý nghĩa khác với tập mục thường xuyên. Tập mục thường xuyên chỉ quan tâm đến số lần xuất hiện của tập mục trong các giao tác, trong khi đó tập mục cổ phần cao quan tâm đến tổng giá trị các mục dữ liệu của ... toán nhanh, cho phép khám phá tất cả các tập mục cổ phần cao trong cơ sở dữ liệu giao tác cho trước. 32 Chương này trình bày 5 phần. Sau phần giới thiệu, phần hai trình bày các khái niệm cơ bản về tập mục cổ phần cao và phát biểu bài toán khai phá nó. Phần ba tóm tắt nội dung và phân tích ưu nhược điểm của thuật toán FSM, một thuật toán nhanh cho phép khám phá tất cả các tập mục cổ phần cao. Phần bốn đề xuất khái ... mục cổ phần cao nếu cổ phần Sh(X) của nó vượt ngưỡng minShare. Kể cả khi khai phá trên tập dữ liệu có giá trị nhị phân ( 0 hoặc 1) thì khai phá tập mục cổ phần cao cũng cho kết quả khác với khai phá tập mục thường xuyên. Chẳng hạn, với CSDL cho trong bảng 3.4, tập mục X  ABCDGH chỉ xuất hiện trong giao tác T01, có cổ phần Sh( X )  6 1  50% và độ hỗ trợ sup(X )   20% Nếu ngưỡng cổ phần 12 5 minShare=30% thì X là tập mục cổ phần cao, ... Trong mô hình này, giá trị của mục dữ liệu trong giao tác là một số, số đó có thể là số nguyên (như số lượng đã bán của mặt hàng). Cổ phần (hay đóng góp) của một tập mục là số đo tỷ lệ đóng góp của tập mục trong cơ sở dữ liệu. Khai phá tập mục cổ phần cao là khám phá tất cả các tập mục có cổ phần không nhỏ hơn ngưỡng quy định bởi người sử dụng. Trong bài toán cơ bản, các thuật toán khám phá được xây dựng theo phương pháp tìm kiếm từng bước. Cơ sở của các thuật toán là tính chất Apriori của tập mục ... này sẽ trình bày khái quát các kỹ thuật chính để khai phá tập mục thường xuyên. Bài toán khai phá tập mục thường xuyên: tìm các tập mục ứng viên và tìm các tập mục thường xuyên. Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xuyên, phải tính độ hỗ trợ của nó để kiểm tra. Tập mục thường xuyên là tập mục có độ hỗ trợ lớn hơn hoặc bằng ngưỡng tối thiểu cho trước. Đã có rất nhiều thuật toán tìm tập mục thường xuyên được công bố, ta có thể phân chúng theo ... Bài toán khai phá tập mục cổ phần cao và thuật toán FSM Trước hết ta nêu định nghĩa của một số thuật ngữ: Cho tập các mục (item) I  i1 , i2 , , in  Một giao tác (transaction) T là một tập con của I, TI. Cơ sở dữ liệu là một tập các giao tác DB  T1 , T2 , , Tm . Mỗi giao tác được gán một định danh TID. Một tập mục con X  I , gồm k mục phân biệt được gọi là một k -tập mục. Giao tác T gọi là chứa tập mục X nếu ... tập mục (item) I={I1,I2,…,Im}. Một giao tác (transaction) T là một tập con của I, T I. Cơ sở dữ liệu giao tác là tập các giao tác DB={T1,T2, …, Tm}. Mỗi giao tác được gán một định danh Tid. Một tập mục con X  I, gồm k mục phân biệt được gọi là k -tập mục. Giao tác T gọi là chứa tập mục X nếu X  T. Biểu diễn cơ sở dữ liệu giao tác: Cơ sở dữ liệu giao tác thường được biểu diễn ở dạng biểu diễn ngang, biểu diễn dọc và biểu diễn bởi ma trận giao tác. ... pháp tìm kiếm từng bước. Cơ sở của các thuật toán là tính chất Apriori của tập mục thường xuyên (hay còn gọi là tính chất phản đơn điệu – Anti monotone). Trong mô hình khai phá tập mục cổ phần cao, tính chất này không còn đúng nữa. Vì vậy việc rút gọn không gian tìm kiếm không thể thực hiện được như đối với khai phá tập mục thường xuyên. Một số tác giả đã đề nghị một số thuật toán khai phá tập mục cổ phần cao như các thuật toán ZP, ZSP, SIP, FSM,... tác, trong khi đó tập mục cổ phần cao quan tâm đến tổng giá trị các mục dữ liệu của tập mục trong các giao tác. Tập mục thường xuyên quan tâm xem nhóm hàng X (tập mục) có bán được hay không mà bỏ qua các tham số rất quan trọng là tổng số lượng hàng bán được hoặc tổng lợi nhuận mang lại,…Với ngưỡng minShare cho trước, một tập mục X có thể chỉ chứa trong một số ít giao tác của CSDL nhưng lại là tập mục cổ phần cao nếu cổ phần Sh(X) của nó vượt ngưỡng minShare. Kể cả khi khai ... điệu như tập mục thường xuyên, đây chính là trở ngại của bài toán khai phá tập mục cổ phần cao. Để khắc phục điều này, luận án đề xuất khái niệm “giá trị theo giao tác của tập mục , tập mục cổ phần theo giao tác cao và chứng minh tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone), do đó có thể sử dụng ... Chương KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN Chương KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chương ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO Phương pháp nghiên cứu...   13, tmv  E   22 , 1 -tập mục A tập mục cổ phần theo giao tác thấp còn E là tập mục cổ phần theo giao tác cao. Định lý 3.1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu

Định dạng
Số trang	61
Dung lượng	783,84 KB