Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

58 2 0
Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỤC LỤC LỜI CAM ĐOAN    i  LỜI CẢM ƠN    ii  MỤC LỤC    iii  DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT    iv  DANH MỤC CÁC BẢNG BIỂU    v  DANH MỤC CÁC HÌNH VẼ   . vi  MỞ ĐẦU   1 CHƯƠNG 1   3 KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP   3 1.1. Khai phá dữ liệu   3 1.1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu   3 1.1.2. Kiến trúc của hệ thống khai phá dữ liệu   Error! Bookmark not defined 1.1.3. Quá trình khai phá dữ liệu   5 1.1.4. Nhiệm vụ của khai phá dữ liệu.  . Error! Bookmark not defined 1.1.5. Các ứng dụng của khai phá dữ liệu  . 6 1.2. Khai phá luật kết hợp trong cơ sở dữ liệu   7 1.2.1. Bài toán mở đầu   Error! Bookmark not defined 1.2.2. Các khái niệm cơ sở   7 1.2.2.1. Cơ sở dữ liệu giao tác   7 1.2.2.2. Tập mục phổ biến   7 1.2.2.3. Luật kết hợp   8 1.2.3. Khai phá luật kết hợp   9 1.2.4. Các cách tiếp cận khai phá tập mục phổ biến   Error! Bookmark not defined 1.2.5. Các thuật tốn điển hình khai phá tập mục phổ biến   10 1.2.5.1 Thuật toán Apriori  . 10 1.2.5.2.Thuật toán FP_growth   12 1.2.6. Thuật toán sinh luật kết hợp:  . 14 1.2.7. Một số mở rộng khai phá luật kết hợp   17 Kết luận chương 1   18 Chương 2: LUẬT KẾT HỢP HIẾM   19 2.1. Giới thiệu chung về luật kết hợp hiếm.   19 2.2. Một số hướng nghiên cứu chính phát hiện luật kết hợp hiếm  . 19 2.2.1. Sử dụng ràng buộc phần hệ quả của luật  . 20 2.2.2. Thiết lập đường biên phân chia các tập phổ biến và không phổ biến   21 2.2.3. Phát hiện luật kết hợp hiếm từ các CSDL định lượng   22 2.3. Khuynh hướng nghiên cứu về luật hiếm   22 2.4. Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác   24 2.4.1. Khái niệm về luật hiếm Sporadic   24 2.4.2.Thuật toán Apriori-Inverse   26 2.4.3. Thuật tốn tìm tập Sporadic tuyệt đối hai ngưỡng đóng   31 2.4.3.1. Tập Sporadic tuyệt đối hai ngưỡng  . 32 2.4.3.2. Thuật tốn MCPSI tìm tập Sporadic tuyệt đối hai ngưỡng đóng   34 Kết luận chương 2   37 Chương 3  . 38 THỰC NGHIỆM TÌM LUẬT HIẾM SPORADIC TUYỆT ĐỐI   38 3.1. Giới thiệu bài tốn  . 38 3.2. Dữ liệu thực nghiệm   39 3.3. Xây dựng chương trình  . 41 3.4. Thực nghiệm khai phá  . 42 3.5. Kết quả thực nghiệm   46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN   47 TÀI LIỆU THAM KHẢO   49                 LỜI CAM ĐOAN  Tôi  xin  cam  đoan  Luận  văn  “KHAI  PHÁ  LUẬT  KẾT  HỢP  HIẾM  TRÊN  CƠ  SỞ  DỮ  LIỆU  VÀ  ỨNG  DỤNG” là  công  trình  nghiên  cứu  của  riêng  tơi  dưới  sự  hướng  dẫn  của  TS.  Nguyễn  Huy  Đức.  Kết  quả  đạt  được  trong  luận  văn  là  sản  phẩm  của  riêng  cá  nhân  tôi,  khơng  sao  chép  lại  của  người  khác.  Trong  tồn  bộ  luận  văn,  những  điều  được  trình  bày  trong  luận  văn là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các  tài liệu tham khảo đều có xuất xứ rõ ràng và được trính dẫn hợp pháp.    Tơi xin chịu hồn tồn trách nhiệm và chịu mọi hình thức kỷ luật theo  quy định cho lời cam đoan của mình.    Thái Ngun, ngày tháng năm 2015 Người cam đoan       Nguyễn Thị Hải Lý   LỜI CẢM ƠN   Lời  đầu tiên  tôi xin  gửi lời  cảm  ơn  chân  thành và biết  ơn sâu  sắc  tới   TS. Nguyễn Huy Đức  - Trường Cao đẳng Sư phạm Trung ương, Thầy đã chỉ  bảo và hướng dẫn tận tình cho tơi trong suốt q trình nghiên cứu khoa học và  thực hiện luận văn này.    Tôi  xin  chân  thành  cám  ơn  sự  dạy  bảo,  giúp  đỡ,  tạo  điều  kiện  và  khuyến khích tơi trong q trình học tập và nghiên cứu của các thầy cơ giáo  của  Viện  Công  nghệ  thông  tin,  Trường  Đại  học  Công  nghệ  thông  tin  và  Truyền thơng - Đại học Thái Ngun.    Và cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè,  những  người  ln  ở  bên  tơi  những  lúc  khó  khăn  nhất,  ln  động  viên  tơi  khuyết khích tơi trong cuộc sống và trong cơng việc.    Tơi xin chân thành cảm ơn!    Thái Ngun, ngày tháng Tác giả     Nguyễn Thị Hải Lý năm 2015 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu             Diễn giải KPDL  Khai phá dữ liệu  CSDL  Cơ sở dữ liệu  DB  Cơ sở dữ liệu giao tác TID  Định danh của giao tác I  Tập các mục dữ liệu T  Giao tác (transaction) Ck  Tập các ứng viên là tập mục có k mục dữ liệu Lk  Tập các tập mục phổ biến có k mục dữ liệu k-itemset  Tập mục gồm k mục BFS  Breadth First Search (Duyệt theo chiều rộng)  DFS  Depth First Search (Duyệt theo chiều sâu)  FP-growth  Frequent-Pattern Growth  FP-tree   Frequent pattern tree  Sup  Độ hỗ trợ (support) Conf  Độ tin cậy (Confiden)  Minsup  Ngưỡng hỗ trợ tối thiểu  Minconf  Ngưỡng tin cậy tối thiểu  DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Danh mục các tập mục trong CSDLError! Bookmark not defined Bảng 1.2: Biểu diễn ngang của CSDL giao tác.Error! Bookmark not defined Bảng 1.3: Biểu diễn dọc của CSDL giao tác. . Error! Bookmark not defined Bảng 1.4: Ma trận giao tác của CSDL bảng 1.2Error! Bookmark not defined Bảng 1.5: Cơ sở dữ liệu DB   Error! Bookmark not defined Bảng 1.6 : Độ hỗ trợ của các mục   Error! Bookmark not defined Bảng 1.7: Độ hỗ trợ của các tập mục   Error! Bookmark not defined Bảng 1.8: Độ tin cậy của các luật   Error! Bookmark not defined Bảng 1.10 : Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree.Error! Bookmark not de Bảng 1.11 : Các mục dữ liệu và độ hỗ trợ.   Error! Bookmark not defined Bảng 1.12 : Các mục dữ liệu phổ biến đã sắp thứ tự.Error! Bookmark not defined Bảng 1.13 : Các mục dữ liệu trong giao tác giảm dần theo độ hỗ trợ.Error! Bookmark not d Bảng 2.1 : Ví dụ CSDL giao tác D cho thuật tốn Apriori-Inverse  . 28 Bảng 2.2 : Biểu diễn dọc của CSDL D trong bảng 2.1  . 29 Bảng 2.3 : Độ hỗ trợ của từng mục dữ liệu của CSDL D   29 Bảng 2.4 : Các mục sporadic và độ hỗ trợ   29 Bảng 2.5 : Các 2- tập mục ứng viên   30 Bảng 2.6 : Các tập mục sporadic tuyệt đối   30 Bảng 2.7 : Các luật sporadic tuyệt đối   31 Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI   36 Bảng 3.1: Dữ liệu đã trích chọn để khai phá   39 Bảng 3.2: Mã hóa các mặt hàng   39               DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Q trình khám phá tri thức   4 Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệuError! Bookmark not defined Hình 1.3: Quá trình khai phá dữ liệu   6 Hình 1.4 : Phân loại các thuật tốn khai phá tập mục phổ biến.Error! Bookmark not defined Hình 1.5: Cây FP-tree của CSDL bảng 1.10.   Error! Bookmark not defined Hình 1.6: Cây COFI-tree của mục D.   Error! Bookmark not defined Hình 1.7: Các bước khai phá cây D-COFI-tree.Error! Bookmark not defined Hình 2.1: Minh họa tìm các tập Sporadic tuyệt đối hai ngưỡng đóng.   37 Hình 3.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá   41 Hình 3.2: Giao diện chương trình  . 42 Hình 3.3: Giao diện chương trình tìm tập Sporadic tuyệt đối   43 Hình 3.4: Kết quả tìm tập Sporadic tuyệt đối   44 Hình 3.5: Giao diện chương trình tìm luật Sporadic tuyệt đối  . 45 Hình 3.6: Kết quả tìm luật Sporadic tuyệt đối  . 45 MỞ ĐẦU Đặt vấn đề   Trong  lĩnh  vực  khai  phá  dữ  liệu  (data  mining),  luật  kết  hợp   (association rule) được  dùng  để chỉ mối quan hệ kiểu “điều  kiệnhệ  quả”   giữa  các  phần tử dữ  liệu (chẳng hạn, sự  xuất  hiện của tập mặt  hàng  này   “kéo    theo”  sự  xuất    hiện  của  tập  mặt  hàng    khác)  trong  một  tập  bao  gồm   nhiều đối tượng dữ liệu (chẳng hạn, các giao dịch mua  hàng) ….  Phát  hiện  luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ   liệu đã cho.  Bài tốn phát hiện luật kết hợp được Rakesh Agrawal và cộng sự   giới thiệu lần đầu tiên vào năm  1993 [4]  và nhanh chóng trở thành một trong  những  hướng  nghiên  cứu  quan  trọng  của  khai  phá  dữ  liệu,  đặc  biệt  trong  những năm gần  đây.   Phát  hiện  luật  kết  hợp  [5,  10]  đã  được  ứng  dụng    thành  công  trong  nhiều lĩnh vực kinh tế-xã hội khác nhau như: thương mại, y tế, sinh học, tài  chính - ngân  hàng,…Hiện tại, nhiều khuynh hướng nghiên cứu và ứng dụng  liên quan đến phát hiện luật kết hợp đã và đang tiếp tục được hình thành.   Một  trong    những  vấn    đề  về  phát  hiện  luật  kết  hợp  hiện  đang  nhận   được nhiều quan  tâm của các nhà nghiên cứu là phát hiện luật kết hợp hiếm.    Luật  kết  hợp  hiếm  là  những luật kết hợp ít  xảy    ra.  Mặc  dù  tần suất  xảy  ra  thấp, nhưng trong nhiều trường hợp, các luật này lại rất có giá trị.  Từ những yêu cầu, thực tế trên, em đã chọn đề tài “Khai phá luật kết hợp sở liệu ứng dụng”.  Đối tượng phạm vi nghiên cứu   Nghiên cứu các phương pháp, thuật toán khai phá luật kết hợp, đi sâu  vào bài toán phát hiện luật kết hợp hiếm thuộc lĩnh vực phát hiện tri thức từ   dữ liệu và ứng dụng.    Luận văn  tìm hiểu  luật  kết hợp hiếm Sporadic,  trong hai loại của luật  hiếm  Sporadic  là luật  hiếm  Sporadic  tuyệt  đối  và luật  hiếm  Sporadic  khơng  tuyệt đối, luận văn đi sâu tìm hiểu luật hiếm Sporadic tuyệt đối trên cơ sở dữ  liệu giao tác.  Hướng nghiên cứu đề tài - Nghiên cứu các kỹ thuật, phương pháp khai phá luật kết hợp.  - Tìm hiểu sâu về khai phá luật hiếm Sporadic tuyệt đối trên cơ sở dữ  liệu giao tác.  - Cài đặt, thực nghiệm phát hiện luật kết hợp hiếm trên CSDL.  Những nội dung nghiên cứu Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây  dựng gồm phần mở đầu, 3 chương nội dung và phần kết luận, cụ thể như sau:  Chương 1: Khai phá dữ liệu và bài tốn khai phá luật kết hợp  Chương 2: Luật kết hợp hiếm.  Chương 3: Thực nghiệm tìm luật hiếm Sporadic tuyệt đối  Phương pháp nghiên cứu Phương  pháp  nghiên  cứu  chính  là  nghiên  cứu  lý  thuyết  kết  hợp  với  đánh giá thực nghiệm. Cụ thể là: tổng hợp các kết quả nghiên cứu về khai phá  luật kết hợp và luật kết hợp hiếm  đã cơng bố trên các bài báo khoa học, hội  thảo chun ngành trong và ngồi nước, từ đó trình bày làm  rõ vấn đề phát  triển khai phá luật kết hợp hiếm và xây dựng chương trình thực nghiệm đánh  giá ứng dụng.  Ý nghĩa khoa học đề tài Phần  lớn  các  thuật  toán  phát  hiện  luật  kết  hợp  hiện  nay  thường  thực  hiện tìm các luật  có độ hỗ  trợ  và độ  tin cậy cao. Việc ứng dụng các thuật  tốn này để  tìm các luật kết hợp hiếm (có độ hỗ trợ thấp, độ tin cậy cao) là  khơng hiệu  quả do phải đặt ngưỡng độ hỗ trợ cực tiểu rất nhỏ, nên số lượng  các tập phổ biến tìm được sẽ khá lớn (trong khi chỉ có một phần trong các tập  tìm được có độ hỗ trợ nhỏ hơn ngưỡng độ hỗ trợ cực  tiểu  minSup)  và  như  vậy  chi  phí  cho  việc  tìm  kiếm sẽ tăng  lên. Nhằm khắc phục những khó  khăn  này,  cần  có  những  nghiên  cứu  các  phương  pháp,  thuật  toán  riêng  cho  phát hiện luật kết hợp hiếm.  CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá liệu 1.1.1 Quá trình phát tri thức từ sở liệu Trong  thời  đại  hiện  đại  của thế kỷ  21,  với  sự  phát  triển  vượt  bậc  của  cơng nghệ thơng tin, các hệ thống thơng tin có thể lưu trữ một khối lượng lớn  dữ liệu về hoạt động hàng ngày của chúng. Lượng dữ liệu được lưu trữ dẫn  đến một địi hỏi cấp bách phải có những kỹ thuật mới, những cơng cụ tự động  mới trợ giúp con người một cách thơng minh trong việc chuyển đổi một lượng  lớn dữ liệu thành thơng tin hữu ích.   Một số nhà khoa học xem khai phá dữ liệu như là  một cách gọi khác  của một thuật ngữ cũng rất thơng dụng là khám phá tri thức trong cơ sở dữ  liệu  (Knowledge  Discovery  in  Databases  –  KDD)[5],  vì  cho  rằng  mục  đích  của  q  trình  khám  phá  tri  thức  là  thông  tin  và  tri  thức  có  ích,  nhưng  đối  tượng mà chúng ta phải xử lý rất nhiều trong suốt q trình khám phá tri thức  lại chính là dữ liệu. Một số nhà khoa học khác thì xem khai phá dữ liệu như là  một bước chính trong q trình khám phá tri thức.  Hiểu q trình khám phá, phát hiện tri thức ở đây là gì? Thơng thường  chúng ta coi dữ liệu như là một dãy các bit, các số và các ký hiệu, hoặc các  “đối tượng” được gửi cho một chương trình dưới một định dạng nhất định nào  đó. Chúng ta sử dụng các bit để đo lường thơng tin, khi sử dụng xem nó như  là dữ liệu đã được lọc bỏ dư thừa, được rút gọn tới mức tối thiểu. Bít được  dùng làm đơn vị đặc trưng cho dữ liệu. Chúng ta có thể xem tri thức như là  các thơng tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng.  Các mối quan hệ này có thể được học, được hiểu, được phát hiện ra. Nói cách  khác, tri thức có thể coi là dữ liệu có độ trừu tượng và tổ chức cao.  Thuật ngữ KPDL ra đời vào những năm cuối của thập kỷ 1980. Khai  phá  dữ  liệu  bao  gồm  nhiều  hướng  tiếp  cận,  là  sự  kết  hợp  của  nhiều  ngành  như: Cơ sở dữ liệu; Học máy; Trí tuệ nhân tạo; Lý thuyết thơng tin; Xác suất  thống kê; Tính tốn hiệu năng cao và các phương pháp tính tốn mềm v. v….  Có rất nhiều định nghĩa khác nhau về "KPDL" đã được đưa ra, ta có thể hiểu  khai phá dữ liệu là q trình tìm kiếm những thơng tin (tri thức) có ích, tiềm  ẩn và mang tính dự đốn trong các khối cơ sở dữ liệu lớn.  37 nhỏ hơn minSup nên bị loại. Khi kết hợp với F được tập BCF cũng có độ hỗ  trợ nhỏ hơn minSup nên cũng bị loại. Kết hợp với H, g(BC) ⊂g(H) nên thay  BC bằng BCH (X = BCH), tập này có độ hỗ trợ khơng nhỏ hơn minSup. Kết  thúc trên nhánh B chỉ tìm được tập BCH. Tập mục dữ liệu BCH có sup(BCH)  =  0,25  thỏa  mãn    điều  kiện  minSup  ≤sup(BCH) 

Ngày đăng: 15/03/2023, 14:16

Tài liệu cùng người dùng

Tài liệu liên quan