1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP. ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE TRONG KHAI PHÁ DỮ LIỆU

49 2,3K 12

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 3 MB

Nội dung

Nhiệm vụ của KDD là từ dữ liệusẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiệncũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên

Trang 1

Báo cáo môn học KHAI PHÁ DỮ LIỆU

Đề tài :

KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP.

ỨNG DỤNG SQL SERVER BUSINESS

HVTH : Nguyễn Bảo Minh – CH1101104 GVHD : PGS.TS Đỗ Phúc

Lớp : Cao Học-K6

Thành Phố Hồ Chí Minh 11/2012

Trang 2

Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 2

1.1 Tổng quan 2

1.2 Khai phá dữ liệu và phát hiện tri thức 2

1.3 Quá trình phát hiện tri thức từ cơ sở dữ liệu 2

1.3.1 Xác định bài toán 3

1.3.2 Thu thập và tiền xử lý 3

1.3.3 Khai phá dữ liệu 6

1.3.4 Phát biểu và đánh giá kết quả 7

1.3.5 Sử dụng tri thức đã phát hiện 7

1.4 Khai phá dữ liệu có những lợi ích gì 7

1.5 Các kỹ thuật khai phá dữ liệu 8

1.5.1 Kỹ thuật khai phá dữ liệu mô tả 8

1.5.2 Kỹ thuật khai phá dữ liệu dự đoán 8

1.6 Nhiệm vụ chính của khai phá dữ liệu 8

1.6.1 Phân lớp (Classification) 9

1.6.2 Hồi quy (Regression) 9

1.6.3 Gom nhóm (Clustering) 9

1.6.4 Tổng hợp (Summarization) 9

1.6.5 Mô hình ràng buộc (Dependency modeling) 10

1.6.6 Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) 10

1.7 Các phương pháp khai phá dữ liệu 10

1.7.1 Các thành phần của giải thuật khai phá dữ liệu 10

1.7.2 Một số phương pháp khai thác dữ liệu phổ biến 11

Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 15

2.1 Mở đầu 15

2.2 Các khái niệm cơ bản 15

2.2.1 Ngữ cảnh khai phá dữ liệu 15

2.2.2 Các kết nối Galois 15

2.2.3 Độ hỗ trợ (Support) 15

2.2.4 Độ tin cậy ( Confidence) 16

2.2.5 Tập mặt hàng phổ biến 17

2.2.6 Luật kết hợp 17

2.3 Tìm tập phổ biến 18

2.3.1 Một số khái niệm 18

2.3.2 Thuật toán Apriori 19

Trang 3

2.4.2 Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 26

2.5 Quy trình khai thác luật kết hợp 28

CHƯƠNG III :ỨNG DỤNG SQL SERVER BUSINESS INTELLIGENCE DEVELOPMENT STUDIO TRONG KHAI PHÁ DỮ LIỆU 29

3.1 Giới thiệu 29

3.2 Luật kết hợp với Microsoft Association Rule trong BIDS 29

3.2.1 Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS như sau : 29

3.2.2 Khai phá dữ liệu bằng luật kết hợp trong BIDS 30

3.3 Sự kết hợp để phân tích dữ liệu sử dụng nhiều mô hình khai phá dữ liệu 38

3.3.1 Tab Attribute Discrimination 39

3.3.2 Tab Mining Accuracy Chart 40

Chương IV: MINH HỌA THUẬT TOÁN APRIORI TRÊN C# 44

3.1 Phát biểu bài toán 44

3.3 Kết quả phân tích 44

KẾT LUẬN 46

TÀI LIỆU THAM KHẢO 47

Trang 4

LỜI MỞ ĐẦU

Trong kỷ nguyên toàn cầu hóa ngày nay các lĩnh vực khoa học kỹ thuật đangngày một phát triển mạnh mẽ Đặc biệt là nghành khoa học máy tính rất phát triểnngoài việc được áp dụng rộng rãi trong công nghệ thông tin nó ứng dụng rất nhiềutrong các lĩnh vực khác nhau của cuộc sống như: Khoa học, Giáo dục, Y tế, kinh doanhv.v Nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày củacon người

Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đãđược phát triển từ những năm 60 Đặc biệt trong thập kỷ gần đây vai trò của máy tínhtrong việc lưu trữ và xử lý thông tin ngày càng trở lên quan trọng Với sự phát triểnmạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độcao cùng với các hệ thống mạng viễn thông phát triển vượt bậc đã góp phần tạo nênnhững dữ liệu khổng lồ như cơ sở dữ liệu thông tin khách hàng, dữ liệu lịch sử cácgiao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử dụng vốn cũng như vô sốcác thông tin được cập nhật thông qua internet mỗi ngày

Vấn đề đặt ra là làm thế nào để xử lý khối lượng thông tin cực lớn như vậy mộtcách nhanh chóng, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin cógiá trị Để làm được điều đó người ta đã sử dụng quá trình Phát hiện tri thức trong cơ

sở dữ liệu( Knowledge Discovery in Database-KDD) Nhiệm vụ của KDD là từ dữ liệusẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiệncũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng Các

kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹthuật Khai phá dữ liệu( Data Mining)

Có rất nhiều kỹ thuật khai phá dữ liệu khác nhau cũng như các phần mềm khácnhau để thực hiện data mining, trong phạm vi đề tài này tập trung nghiên cứu về việc

luật kết hợp trong khai phá dữ liệu và sử dụng công cụ SQL Server Business

Intelligence Development Studio trong data mining cũng như viết chương trình minh

họa thuật toán luật kết hợp

Trang 5

Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Tổng quan

Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt lọc haykhai phá tri thức từ một lượng lớn dữ liệu Một ví dụ hay được sử dụng là là việc khaithác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong mộttập hợp lớn các dữ liệu cho trước Thuật ngữ Data mining ám chỉ việc tìm kiếm mộttập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiệnđược dùng cũng có nghĩa tương tự với từ Data mining như Knowledge Mining (khaiphá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích dữliệu/mẫu), data archaeoloogy (khảo cổdữ liệu), data dredging(nạo vét dữ liệu),

Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹthuật được sử dụng để tự động

khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.

1.2 Khai phá dữ liệu và phát hiện tri thức

Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sửdụng thông tin có hiệu quả Điều đó có nghĩa là từ các dữ liệu có sẵn phải tìm ra nhữngthông tin tiềm ẩn mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển

và những yếu tố tác động lên chúng Thực hiện công việc đó chính là quá trình pháthiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy được các tri thứcchính ra từ kỹ thuật khai phá dữ liệu

Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu thìquá trình phát hiện tri thức chỉ toàn bộ quá trình triết xuất tri thức từ cơ sở dữ liệu,trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vấn đề, thuthập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã phát hiện

và đưa kết quả vào thực tế

Khai phá dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với pháthiện tri thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai phá dữ liệu là chỉ một giaiđoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri thứctrong cơ sở dữ liệu Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là giai đoạnchính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu

1.3 Quá trình phát hiện tri thức từ cơ sở dữ liệu

Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phươngpháp và công cụ tin học nhưng vẫn là một quá trình mà trong đó con người làm trung

Trang 6

tâm Do đó nó không phải là một hệ thống phân tích tự động mà là một hệ thống baogồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ liệu, tấtnhiên là với sự hỗ trợ của các công cụ tin học

Sử dụng tri thức và phát hiện được triết xuất tri thức

Hình 1.1 Quá trình phát hiện tri thức từ cơ sở dữ liệu

Quá trình phát hiện tri thức từ cơ sở dữ liệu là 1 quá trình tương tác và lặp đilặp lại theo kiểu xoắn chôn ốc, trong đó lần lặp sau hoàn chỉnh hơn lần lặp trước.Ngoài ra giai đoạn sau lại dựa trên kết quả thu được của giai đoạn trước theo kiểu thácnước Đây là một quá trình biện trứng mang tính chất học của quá trình phát hiện tríthức và là phương pháp luận trong viện phát hiện tri thức Các giai đoạn đó sẽ đượctrình bày cụ thể như sau:

1.3.1 Xác định bài toán

Đây là một quá trình mang tính định hình với mục đích xác định được lĩnh vựcyêu cầu phát hiện tri thức và xây dựng bài toán tổng kết Trong thực tế các cơ sở dữliệu được chuyên môn hoá và phân chia theo các lĩnh vực khác nhau như: Sản phẩm,kinh doanh, tài chính, v.v.Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnhvực này nhưng lại không mang nhiều ý nghĩa với một lĩnh vực khác Vì vậy việc xácđịnh lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập

và tiền xử lý dữ liệu

1.3.2 Thu thập và tiền xử lý

Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại khôngđầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt Vì vậy giai đoạn thu thập

Trang 7

và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở

dữ liệu Có thể nói giai đoạn này chiếm từ 70%-80% giá thành trong toàn bộ bài toán

Người ta chia giai đoạn và tiền xử lý dữ liệu như: Gom dữ liệu, chọn dữ liệu,làm sạch, mã hoá dữ liệu, làm giàu, đánh giá và trình diễn dữ liệu Các công đoạn nàyđược thực hiện theo trình tự nhất định cụ thể như sau:

Knowledge

Pattern Discovery

Transforme

d Data

Cleansed Preprocessed Preparated Data

Target Data

Gom DL

Mã hoá DL

Chọn lọc DL

Làm giàu DL Làm sạch DL

Đánh giá & trình diễn

1.3.2.2 Chọn lọc dữ liệu

Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩnnào đó Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết tứ cơ sở dữ liệu tácnghiệp vào một cơ sở dữ liệu riêng Chúng ta chọn ra những dữ liệu cần thiết cho cácgiai đoạn sau Tuy nhiên công việc thu gom dữ liệu vào một cơ sở dữ liệu thường rấtkhó khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức cùng một loại thôngtin, nhưng được tạo lập theo các dạng hình thức khác nhau Ví dụ nơi này dùng kiểu

Trang 8

chuỗi, nơi kia lại dùng kiểu số để khai báo một thuộc tính nào đó của khách hàng.Đồng thời chất lượng dữ liệu của các nơi cũng không giống nhau Vì vậy chúng ta cầnchọn lọc dữ liệu thật tốt để chuyển sang giai đoạn tiếp theo

1.3.2.3 Làm sạch

Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bướcrất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khigom dữ liệu là tính không đủ chặt chẽ, logic Vì vậy, dữ liệu thường chứa các giá trị vônghĩa và không có khả năng kết nối dữ liệu Giai đoạn này sẽ tiến hành xử lý nhữngdạng dữ liệu không chặt chẽ nói trên Những dữ liệu dạng này được xem như thông tin

dư thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu nàynếu không được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quảsai lệch nghiệm trọng

Giai đoạn này thực hiện một số chức năng sau:

- Điều hoà dữ liệu: Công việc này nhằm giảm bớt tính không nhất quán dữ liệulấy từ nhiều nguồn khác nhau Phương pháp thông thường là khử các trường hợp trùnglặp dữ liệu và thống nhất các ký hiệu Ví dụ một khách hàng có thể có nhiều bản ghi doviệc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá nhân gây ra và tạo ra

sự nhầm lẫn là có nhiều khách hàng

- Xử lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thế gây ra hiệntượng dữ liệu chứa các giá trị khuyết Đây là hiện tượng khá phổ biến Người ta sửdụng nhiều phương pháp khác nhau để xứ lý các giá trị khuyết như: Bỏ qua các bộ

có giá trị khuyết, điểm bổ sung bằng tay, dùng một hằng chung để bổ sung vào giátrị khuyết, dùng giá trị trung bình của mọi bản ghi trên thuộc tinh khuyết, dùng giátrị trung bình của mọi bản ghi cùng lớp hoặc dùng các giá trị mà tần suất xuất hiệnlớn nhất

- Xử lý nhiễu và các ngoại lệ: Thông thường nhiễu dữ liệu có thể là nhiễungẫu nhiên hoặc các giá trị bất bình thường Để làm sạch nhiễu, người ta có thể sửdụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại lệ

để xử lý

1.3.2.4 Làm giàu dữ liệu

Mục đích của giai đoạn này là bổ sung thêm nhiều loại thông tin có liên quanvào cơ sở dữ liệu gốc Để làm được điêu này, chúng ta phải có các cơ sở dữ liệu

Trang 9

khác ở bên ngoài có liên quan tới cơ sở dữ liệu gốc ban đầu Ta tiến hành bổ sungnhững thông tin cần thiết, làm tăng khả năng khám phá tri thức.

Đây là bước mang tính tư duy trong khai phá dữ liệu.Ở giai đoạn này nhiềuthuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toánthường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệutuần tự, v v

Quá trình làm giàu bao gồm việc tích hợp và chuyển đổi dữ liệu Các dữ liệu

từ nhiều nguồn khác nhau được tích hợp thành một kho thông nhất Các khuôn dạngkhác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về một kiểu thốngnhất, tiện cho quá trình phân tích

1.3.2.5 Mã hoá dữ liệu

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điềukhiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đíchkhai thác Mục đích của giai đoạn này là chuyển đổi kiểu dữ liệu về những dạng thuậttiện để tiến hành các thuật toán khám phá dữ liệu Có nhiều cách mã hoá dữ liệu như:

- Phân vùng: Dữ liệu là giá trị chuỗi, nằm trong các tập các chuỗi cố đinh

- Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với nămhiện hành

- Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn

- Chuyển đổi Yes-No thành 0-1

1.3.2.6 Đánh giá và trình diễn

Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.Ở giai đoạn này, các mẫu

dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữliệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên nhữngtiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra

Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu

1.3.3 Khai phá dữ liệu

Giai đoạn khai thác dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập vàtiến hành xử lý Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khaiphá dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu có được

và tách ta các tri thức cần thiết

Trang 10

Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng

để trích xuất ra các mẩu dữ liệu

1.3.4 Phát biểu và đánh giá kết quả

Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáophục vụ cho các mục đích hỗ trợ các quyết định khác nhau

Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độtốt, xấu khác nhau Việc đánh giá các kết quả thu được là cần thiêt, Các tri thức phát hiện

từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗtrợ các quyết định khác nhau

Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độtốt, xấu khác nhau Việc đánh giá các kết quả thu được là cần thiêt, giúp tạo cơ sở chonhững quyết định chiến lược Thông thường, chúng được tổng hợp, so sánh bằng các biểu

đồ và được kiểm nghiệm, tin hoc

1.3.5 Sử dụng tri thức đã phát hiện

Củng cố, tinh chế các tri thức đã được phát hiện Kết hợp các tri thức thành hệthống Giải quyết các xung đột tiềm tàng trong tri thức khai thác được Sau đó tri thứcđược chuẩn bị sẵn sàng cho ứng dụng

Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trongnhững lĩnh vực khác nhau Do các kết quả có thể là các dự báo hoặc các mô tả nênchúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quátrình này

1.4 Khai phá dữ liệu có những lợi ích gì

- Cung cấp tri thức hỗ trợ ra quyết định

- Dự báo

- Khái quát dữ liệu

Hình 1.3 Là một mô hình thể hiện lợi ích của KPDL trong việc phân tích và raquyết định cho việc ra tiếp thị của một loại sản phẩm nào đó

Trang 11

Hình 1.3: Mô hình lợi ích của khai phá dữ liệu

1.5 Các kỹ thuật khai phá dữ liệu

Kỹ thuật khai phá dữ liệu thường được chia làm 2 nhóm chính: dự đoán(Predictive) và mô tả (Descriptive)

1.5.1 Kỹ thuật khai phá dữ liệu mô tả

Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trongCSDL hiện có Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt(summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch(Evolution and deviation analyst), phân tích luật kết hợp (association rules).v.v

1.5.2 Kỹ thuật khai phá dữ liệu dự đoán

Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời.Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regression, DeviationDetection: Phát hiện độ lệch

1.6 Nhiệm vụ chính của khai phá dữ liệu

Rõ ràng rằng mục đích của khai phá dữ liệu là các tri thức chiết xuất được sẽđược sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứukhoa học

Do đó, ta có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả và dự

đoán Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào mục đích này.

Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ

liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trịtrong tương lai của các biến đáng quan tâm

Trang 12

Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thểhiểu được.

Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu là:

- Phân lớp (Classification)

- Hồi qui (Regression)

- Gom nhóm (Clustering)

- Tổng hợp (Summarization)

- Mô hình ràng buộc (Dependency modeling)

- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)

1.6.2 Hồi quy (Regression)

Hồi quy là việc lọc một hàm ánh xạ từ một mẫu dữ liệu thành một biến dựđoán có giá trị thực Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy, ví

dụ như biết các phép đo vi sóng từ xa, đánh giá khả năng tử vong của bệnh nhân biếtcác kết quả xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằngmột hàm chỉ tiêu quảng cáo, v v

1.6.3 Gom nhóm (Clustering)

Là việc mô tả chung để tìm ra các tập xác định các nhóm hay các loại để mô tả dữliệu Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lên nhau Có nghĩa là một

dữ liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia Các ứng dụng khai phá dữ liệu

có nhiệm vụ gom nhóm như: Phát hiện tập các khách hàng có phản ứng giống nhau trong

cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại

1.6.4 Tổng hợp (Summarization)

Nhiệm vụ tổng hợp là việc sản sinh ra các mô tả đặc trưng cho một lớp Các

mô tả này là một kiểu tổng hợp, tóm tắt mô tả các đặc tính chung của tất cả các bộ dữliệu dạng giỏ mua hàng thuộc một lớp

Các mô tả đặc trưng thể hiện dưới dạng các luật thường có khuôn dạng: “Nếumột bộ dữ liệu thuộc về một lớp đã chỉ ra trong tiền đề, thì bộ dữ liệu đó có tất cả các

Trang 13

thuộc tính đã nêu trong kết luận” Những luật này có những đặc trưng khác biệt so vớicác luật phân lớp Luật phát hiện đặc trưng cho một lớp chỉ được sản sinh khi các bộ

dữ liệu thuộc về lớp đó

1.6.5 Mô hình ràng buộc (Dependency modeling)

Bao gồm việc tìm kiếm một mô hình mô tả sự phụ thuộc đáng kể giữa cácbiến Các mô hình phụ thuộc tồn tại dưới hai mức: Mức cấu trúc của mô hình xác địnhcác biến nào là phụ thuộc cục bộ với nhau, mức định lượng của một mô hình xác định

độ mạnh của sự phụ thuộc theo một thước đo nào đó

1.6.6 Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)

Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các giátrị chuẩn hoặc được đo trước đó

Vì các nhiệm vụ khác nhau này yêu cầu số lượng và các dạng thông tin rấtkhác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn giải thuật khai phá

dữ liệu khác nhau Ví dụ như giải thuật tạo cây quyết định tạo ra được một mô tả phânbiệt được các mẫu giữa các lớp nhưng không có các tính chất và đặc điểm của lớp

1.7 Các phương pháp khai phá dữ liệu

Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuậtkhai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, câyphân lớp, hồi quy, gom nhóm, v v

1.7.1 Các thành phần của giải thuật khai phá dữ liệu

Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn

mô hình, đánh giá mô hình, tìm kiếm mô hình

• Biểu diễn mô hình: Mô hình được biểu diễn bằng một ngôn ngữ L để mô tả

các mẫu có thể khai thác được Tức là người phân tích dữ liệu cần phải hiểu đầy đủ cácgiả thiết mô tả và cần phải diễn tả được các giả thiết mô tả nào được tạo ra bởi giảithuật Mô hình đó sẽ được đánh giá bằng cách đưa các dữ liệu thử vào mô hình và thayđổi lại các tham số cho phù hợp nếu cần

• Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn

của quá trình phát hiện tri thức hay không Việc đánh giá độ chính xác dự đoán dựatrên đánh giá chéo (Cross Validation) Đánh giá chất lượng mô tả liên quan đến độchính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của mô hình Cả haichuẩn thống kê và chuẩn logic đều có thể được sử dụng để đánh giá mô hình

• Phương pháp tìm kiếm: Phương pháp tìm kiếm bao gồm hai thành phần:

tìm kiếm tham số và tìm kiếm mô hình

Trang 14

- Tìm kiếm tham số: Để tối ưu hóa các tiêu chuẩn đánh giá mô hình với các

dữ liệu quan sát được và với một mô tả mô hình đã định

- Tìm kiếm mô hình: Xảy ra giống như một vòng lặp qua phương pháp tìmkiếm tham số: Mô tả mô hình bị thay đổi tạo nên một họ các mô hình

= > Với mỗi một mô tả mô hình, phương pháp tìm kiếm tham số được ápdụng để đánh giá chất lượng mô hình Các phương pháp tìm kiếm mô hình thường sửdụng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có thểthường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản không dễ đạtđược

1.7.2 Một số phương pháp khai thác dữ liệu phổ biến

1.7.2.1 Phương pháp quy nạp (Induction).

Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn

cũng có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việcnày là suy diễn và quy nạp

• Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các

thông tin trong cơ sở dữ liệu Phương pháp suy diễn dựa trên các sự kiện chính xác đểsuy ra các tri thức mới từ các thông tin cũ Mẫu chiết xuất được bằng cách sử dụngphương pháp này thường là các luật suy diễn

• Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh

ra từ cơ sở dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phảibắt đầu với các tri thức đã biết trước Các thông tin mà phương pháp này đem lại là cácthông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu Phươngpháp này liên quan đến việc tìm kiếm các mẫu trong CSDL Trong khai phá dữ liệu, quynạp được sử dụng trong cây quyết định và tạo luật

1.7.2.2 Cây quyết định và luật

• Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm

phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn

là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô

tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, qua cáccạnh tương ứng với các giá trị, thuộc tính của đối tượng tới lá

• Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý

nghĩa về mặt thống kê Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng với mộtphần trong CSDL, Q là mệnh đề dự đoán

Trang 15

Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suydiễn khá dễ hiểu đối với người sử dụng Tuy nhiên, giới hạn của nó là mô tả cây vàluật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chínhxác của mô hình.

1.7.2.3 Phát hiện các luật kết hợp

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữliệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợptìm được Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa haithành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiệncủa B trong cùng bản ghi đó: A = > B

Việc phát triển một thuật toán phải phát hiện luật này trong cơ sở dữ liệu lớn

là không khó Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu này hoặc là tachỉ biết một tập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền đề của luật Ví dụ chỉ

có số ít người mua sách tiếng anh mà mua thêm đĩa CD Số lượng các luật kết hợptrong một số cơ sở dữ liệu lớn gần như vô hạn Do vậy thuật toán sẽ không thể pháthiện hết các luật và không phân biệt được luật nào là thông tin thực sự có giá trị và thúvị

Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng hạn

ta có luật: Âm nhạc, ngoại ngữ, thể thao = > CD, nghĩa là những người mua sách âmnhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD Lúc đó ta quan tâm đến số lượngtrường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ cho luậtnày Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc, ngoại ngữ,thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên

Tuy nhiên giá trị hỗ trợ là không đủ Có thể có trường hợp ta có một nhómtương đối những người đọc cả ba loại sách trên nhưng lại có một nhóm với lượng lớn hơnnhững người thích sách thể thao, âm nhạc, ngoại ngữ mà không thích mua đĩa CD Trongtrường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao Như vậy chúng ta cầnthêm một độ đo thứ hai đó là độ tin cây (Confidence) Độ tin cậy là phần trăm các bản ghi

có đĩa CD trong số các bản ghi có sách âm nhạc, thể thao, ngoại ngữ

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật dạng

X => B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và độ tin cậycủa luật không nhỏ hơn ngưỡng Minconfi cho trước Từ một cơ sở dữ liệu ta có thể tìmđược hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp

Trang 16

1.7.2.4 Mạng Neuron

Mạng Neuron là tiếp cận tính toán mới liên quan tới việc phát triển cấu trúctoán học và khả năng học Các phương pháp là kết quả của việc nghiên cứu mô hìnhhọc của hệ thống thần kinh con người

Mạng Neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc khôngchính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướngquá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiệnđược Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạngNeuron Tuy mạng Neuron có một số hạn chế gây khó khăn trong việc áp dụng và pháttriển nhưng nó cũng có những ưu điểm đáng kể

Mô hình mạng Neuron

Mẫu chiết xuất được

Dữ liệu

Hình 1.4.Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neunon.

Một trong số những ưu điểm phải kể đến của mạng Neuron là khả năng tạo

ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng được cho rất nhiều loại bàitoán khác nhau, đáp ứng được nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, gomnhóm, mô hình hóa, dự báo các sự kiện phụ thuộc vào thời gian, v.v

1.7.2.5 Giải thuật di truyền

Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống tiến hóatrong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các cá thể được hình thành,được ước lựợng và biến đổi như thế nào? Ví dụ như xác định xem làm thế nào để lựachọn các cá thể tạo giống và lựa chọn các cá thể nào sẽ bị loại bỏ Giải thuật cũng môphỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyếtnhiều bài toán thực tế khác nhau

Giải thuật di truyền là một giải thuật tối ưu hóa Nó được sử dụng rất rộngrãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạngNeuron Sự liên hệ của nó với các quá trình khai phá dữ liệu Ví dụ như trong kỹ thuật

Trang 17

cây quyết định, tạo luật Như đã đề cập ở phần trước, các luật mô hình hóa dữ liệuchứa các tham số được xác định bởi các giải thuật phát hiện tri thức.

Giai đoạn tối ưu hóa là cần thiết để xác định xem các giá trị tham số nào tạo

ra các luật tốt nhất Và vì vậy mà giải thuật di truyền đã được sử dụng trong các công

cụ khai phá dữ liệu

Trang 18

Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP

2.1 Mở đầu

Hiện nay các siêu thị,công ty, doanh nghiệp,ngân hàng đang lưu trữ một lượngthông tin lớn về bán hàng,vay vốn Một bản ghi trong cơ sở dữ liệu này chứa các thôngtin về ngày mua bán, số lượng hàng bán, Từ cơ sở dữ liệu bán hàng, vay vốn chúng

ta có thể tìm ra các mối quan hệ giữa các cặp thuộc tính- giá trị thuộc tính Đó là luậtkết hợp tiêu biểu: Ví dụ có 80% khách hàng mua bàn chải đánh răng thì sẽ mua kemđánh răng,khách hàng vay vốn dưới 3 triệu thì tỉ lệ nợ xấu chỉ 0,001% chẳng hạn…

2.2 Các khái niệm cơ bản

Cho NCKPDL (O, I, R), xét hai kết nối Galois ρ và λ được định nghĩa như sau:

ρ : P (I) →P (O) và λ : P (O) →P (I):

Cho S  I, ρ (S) = {ooO |iS, (o, i)  R}

Cho X  O, λ (X) = {oi I | oX, (o, i)  R}

Trong đó P (X) là tập các tập con của X

Cặp hàm (ρ, λ) được gọi là kết nối Galois Giá trị ρ (S) biểu diễn tập các giaotác có chung tất cả các mặt hàng trong S Giá trị λ (X) biểu diễn tập mặt hàng có trongtất cả các giao tác của X

2.2.3 Độ hỗ trợ (Support)

2.2.3.1 Độ hỗ trợ của một tập mục X trong cơ sở dữ liệu D là tỉ số giữa các

giao tác T  D có chứa tập X là tổng số giao tác trong D (hay là phần trăm của cácgiao tác trong D có chứa tập mục X), kí hiệu là Supp (X)

Supp (X)=  

D

T X D

T : 

Ta có 0  Supp (X) với mọi tập X

Hay có thế nói Support chỉ mức độ “thướng xuyên xảy ra” của mẫu

Trang 19

2.2.3.2 Độ hỗ trợ của luật X→Y là tỉ số của số giao tác có chứa XY và sốgiao tác trong cơ sở dữ liệu D, kí hiệu là Supp (X→Y).

Supp (X→Y)=  

D

T D

Giả sử A,B  I là tập các tập mục với A  B thì Supp (A)  Supp (B)

Thật vậy, tính chất này có thể suy ra trực tiếp từ khái niệm tập mục phổ biến, vìtất cả các giao tác hỗ trợ B thì cũng hỗ trợ A Như vậy giao tác nào chứa tập mục B thìcũng chứa tập mục A

Y X Supp

Trang 20

Độ tin cậy của một luật r = X→Y là tỉ số (phần trăm) của số giao tác trong Dchứa XY với số giao tác trong D có chứa tập mục X Kí hiệu độ tin cậy của một luật

là Conf (r) Ta có 0  conf  1

Nhận xét: Độ hỗ trợ và độ tin cậy chính là xác suất sau:

Supp (X→Y) = P (XY)

Conf (X→Y) = P (Y/X) = Supp (XY)/Supp (X)

Ta nói rằng với luật có độ tin cậy 85% thì có nghĩa là 85% các giao tác có chứa

X thì cũng chứa Y Độ tin cậy của một luật là thể hiện mức độ tường quan trong dữliệu giữa hai tập X và Y Độ tin cậy là độ đo mức độ tin cậy của một luật

2.2.5 Tập mặt hàng phổ biến

Cho NCKPDL (O, I, R) và Minsup  (0, 1] là ngưỡng phổ biến tối thiểu Cho S

I, độ phổ biến của S ký hiệu là SP (S) là tỉ số giữa số các giao tác có chứa S và số

lượng giao tác trong O Nói cách khác SP (S)= |ρ (S)| / |O|

Cho S  I, S là một tập các mặt hàng phổ biến theo ngưỡng Minsup nếu và chỉnếu SP (S) ≥ Minsup Trong các phần sau tập mặt hàng phổ biến sẽ được gọi tắt là tậpphổ biến Ký hiệu FS (O, I, R, Minsup) = {oS  P (I) | SP (S) ≥ Minsup)

2.2.6 Luật kết hợp

Cho NCKPDL (O, I, R) và ngưỡng Minsup  (0, 1] Với một S FS (O, I, R,Minsup), gọi X và Y là các tập con khác rỗng của S sao cho S = XY và X Y = Æ.Luật kết hợp X với Y có dạng X→Y phản ánh khả năng khách hàng mua tập mặt hàng

Y khi mua tập mặt hàng X Độ phổ biến của luật kết hợp X→Y với S = X→Y là SP(S)

Độ tin cậy của luật kết hợp X→Y được ký hiệu là CF (X→Y) và được tínhbằng công thức CF (X→Y) = SP (XY)/SP (X)

Nguyên lý Apriori.

• Cho S FS (O, I, R, Minsup), nếu T  S thì T  FS (O, I, R, Minsup)

• Cho T  FS (O, I, R, Minsup), nếu T  S thì S  FS (O, I, R, Minsup)

2.2.6.1 Tính chất 2.2.6.1: Luật kết hợp không có hợp thành.

Nếu X Y và Y Z thoả mãn trên D thì không nhất thiết X  Y Z là đúng

Thật vậy, nếu xét trường hợp X  Y= Æ và các giao dịch trên D hỗ trợ Z khi vàchỉ khi chúng hỗ trợ X hoặc hỗ trợ Y Khi đó Supp (X  Y) = 0 và Conf (X  Y) = 0

Tương tự, trường hợp có X Y và X Z, ta suy ra X Y  Z

Trang 21

2.2.6.2 Tính chất 2.2.6.2: Luật kết hợp không có tính tách.

Nếu X  Y  Z thì X Z và Y Z chưa chắc xảy ra

Chẳng hạn xét trường hợp Z có mặt trong giao tác chỉ khi cả tập X và Y cũng cómặt, tức là Supp (X  Y) = Supp (Z) Nếu độ hỗ trợ X, Y đủ lớn hớn

Supp (X  Y) tức là Supp (X)  Supp (X  Y) và Supp (Y)  Supp (X Y ) thì hailuật riêng biệt sẽ không đủ độ hỗ trợ

Tuy nhiên trương hợp ngựơc lại X Y  Z thì suy ra được X Y và X

Z

2.2.6.3 Tính chất 2.2.6.3: Luật kết hợp không có tính bắc cầu.

Nếu X Y và Y Z thoả mãn trên D thì không thể khẳng định X  Z thoảmãn trên D

Giả sử T (X)  T (Y)  T (Z) và Conf (X  Y) = Conf (Y  Z) = Minconf

Khi đó Conf (X  Z) = Minconf2 < Minconf (vi 0 < Minconf < 1), suy ra luật X 

Z không có Conf tối thiểu, tức là X  Z không thoả mãn trên D

- Tập các hạng mục (Itemset) I = {oi1, i2, …, i m}:

VD : I = {osữa, bánh mì, ngũ cốc, sữa chua}

Tập k hạng mục (k-Itemset)

- Giao dịch t : tập các hạng mục sao cho t  I

VD : t = {obánh mì, sữa chua, ngũ cốc}

- CSDL D = {ot1, t2, …, tn}, ti= {oii1, ii2, …, iik} với iij  I : CSDL giao dịch

Trang 22

- Giao dịch t chứa X nếu X là tập các hạng mục trong I và X  t

VD : X = {obánh mì, sữa chua}

- Độ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỷ lệ giữa số các giao dịch chứa X trên tổng số các giao dịch trong D.

Supp (X) = count (X) / | D | Tập các hạng mục phổ biến S hay tập phổ biến (Frequent Itemset) là tập cáchạng mục có độ phổ biến thỏa mãn độ phổ biến tối thiểu

Nếu Supp (S)  Minsup thì S - tập phổ biến

- Tính chất của tập phổ biến (Apriori)

Tất cả các tập con của tập phổ biến đều là tập phổ biến

2.3.2 Thuật toán Apriori

2.3.2.1 Mô tả thuật toán

Đầu tiên thực hiện duyệt CSDL để tìm các mục riêng biệt trong CSDL và độ hỗtrợ tương ứng của nó Tập thu được là C1 Duyệt tập C1 loại bỏ các mục có độ hỗ trợ <Minsup, các tập mục còn lại của C1 là các tập 1-Itemset (L1) phổ biến Sau đó kết nối L1

với L1 để được tập các tập 2-Itemset C2 Duyệt CSDL xác định độ hỗ trợ của các tập mụctrong C2 Duyệt C2 Loại bỏ các tập mục có độ hỗ trợ < Minsup, các tập mục còn lại của C2

là tập các tập 2-Itemset (L2) phổ biến L2 lại được sử dụng để sinh ra L3 và cứ tiếp tục nhưvậy cho đến khi tìm được tập mục k-Itemset Lk mà Lk = Æ (tức là không có tập mục phổbiến nào được tìm thấy) thì dừng lại

Tập các tập mục phổ biến của CSDL là: k

i-1= L1.

Để tăng hiệu quả của thuật toán trong quá trình sinh các tập mục ứng cử, ta sửdụng tính chất của tập mục phổ biến để làm giảm số lượng tập các tập ứng cử, khôngphải là tập phổ biến được sinh ra Tính chất đó là: Tập các tập con khác rỗng của tậpmục phổ biến đều là tập mục phổ biến

Bước nối:

Input: Tập Lk+1 là tập (k+1)-Itemset phổ biến

Output: Tập Ck là tập các ứng cử viên cho tập mục phổ biến k-Itemset

Tập các ứng cử k-Itemset được sinh ra từ việc kết nối Lk-1 với chính nó Giả sử

l1, l2 là các tập mục của Lk-1 Ta ký hiệu lj[i] là mục thứ Itemset trong tập mục lj,việc kếtnối Lk-1 với Lk+1 được thực hiện như sau: Các tập mục của Lk-1 được kết nối với nhaunếu mục đầu của chúng trùng nhau và l1[k-1]<l2[k-1] Tức là hai tập mục l1 và l2 của Lk-

1 có thể kết nối được với nhau nếu thoả mãn:

Trang 23

Output: Lk – là tập các tập k-Itemset phổ biến

Ta có Ck Lk các thành phần của Ck có thể là phổ biến hoặc không phổ biến, nhưng tất cả các tập k-Itemset đều nằm trong Ck

Bước này chúng ta thực hiện các công việc sau: Quét CSDL D một lần tính độ

hỗ trợ cho mỗi tập mục trong Ck Loại bỏ những tập mục có độ hỗ trợ nhỏ hơn hoặc bằng giá trị Minsup cho trước khỏi Ck Tập Ck thu được chính là Lk

Tuy nhiên tập Ck có thể rất lớn và vì vậy nó làm cho công việc tính toán trở nênphức tập Để giảm kích thước của tập Ck thì ta sử dụng tính chất Apriori: Bất kỳ mộttập (k-1)-Itemset không phổ biến thì nó không thể là tập con của tập k-Itemset phổbiến, Do đó, nếu bất kỳ tập con (k-1)-Itemset của ứng cử k-Itemset không có mặt trongLk-1 thì ứng cử đó không là phổ biến, và do vậy có thể loại bỏ tập mục này khỏi Ck.Việc kiểm tra các tập con (k-1)-Itemset có thể được thực hiện một cách nhanh chóngbằng cách duy trì một cây băm

2.3.2.2 Ví dụ minh hoạ cho thuật toán Apriori

Giả sử ta có có sở dữ liệu giao dịch (Transaction Database -TDB) như sau:

Thuật toán Apriori với với yêu cầu min support>=50% luật kết hợp được mô tả qua các bước sau

Trang 24

Nhận xét :

Trong lần lặp đầu tiên của thuật toán, mỗi mục là một thành viên của tập ứng cử

C1 Thuật toán thực hiện quét tất cả các giao dịch của D theo đó đếm số số lần xuấthiện của mỗi mục

Giả sử độ hỗ trợ cực tiểu đếm số giao dịch là 50% Khi đó tập mục phổ biến Itemset (L1), được xác định như sau: L1 bao gồm tất cả các ứng cử 1-Itemset thoả mãn

1-độ hỗ trợ tối thiểu L1={oA,B,C,D}

Tìm ra các tập mục phổ biến 2-Itemset (L2), thuật toán sử dụng kết nối L1 với L1

để sinh ra tập ứng cử 2-Itemset (C2) C2 bao gồm tổ hợp chập lj[i] của các phần tử cótrong L1 do đó số lượng các phần tử của C2 được tính như sau:

|C2| = C2

| 1

|L = C2

Tiếp theo, quét các giao dịch trong D và tính độ hỗ trợ của các tập ứng cử trong

C2

Tập mục phổ biến 2-Itemset L2 được xác định, bao gồm các tập mục 2-Itemset

là ứng cử trong C2 có độ hỗ trợ lớn hơn hoặc bằng độ hỗ trợ tối thiểu Minsup

Ngày đăng: 10/04/2015, 00:10

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w