1. Trang chủ
  2. » Luận Văn - Báo Cáo

TIỂU LUẬN MÔN KHAI THÁC DỮ LIỆU MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG KHAI THÁC DỮ LIỆU

29 614 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 1,03 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN MÔN KHAI THÁC DỮ LIỆU MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG KHAI THÁC DỮ LIỆU Giảng viên hướng dẫn : PGS.TS Đỗ Phúc Học viên thực hiện : Lương Chấn Viễn MSHV : CH1101155 Lớp : Cao học khóa 6 Tp Hồ Chí Minh, tháng 11 năm 2012 MỤC LỤC Chương 1: KHAI PHÁ LUẬT KẾT HỢP Trong phần này ta xem xét các vấn đề phát hiện ra các luật kết hợp giữa các mặt hàng trong một cơ sở dữ liệu lớn các giao dịch bán hàng và trình bày thuật toán Apiori để giải quyết vấn đề này. Đánh giá thực nghiệm cho thấy thuật toán Apiori tuyến tính với số lượng (kích thước) giao dịch và số lượng của các món hàng trong cơ sở dữ liệu. 1.1 Bài toán thực tế Khi công nghệ mã vạch phát triển cho phép các tổ chức bán lẻ có thể một cách dễ dàng thu thập và lưu trữ số lượng lớn các dữ liệu bán hàng (basket data). Trong đó mỗi một mẫu tin (record) trong dữ liệu như vậy thường bao gồm ngày giao dịch và các mặt hàng đã mua trong giao dịch. Các tổ chức này xem cơ sở dữ liệu như phần quan trọng của cơ sở tiếp thị. Họ quan tâm đến khả năng tiếp thị định hướng trên thông tin trong cơ sở dữ liệu, cho phép các nhà tiếp thị của họ có thế phát triển và thực hiện các chương trình tiếp thị cũng như tùy chỉnh và chiến lược tiếp thị. Một ví dụ về luật kết hợp là 98 trong tổng số khách hàng mua lốp xe và phụ tùng ô tô cũng mua các dịch vụ liên quan. Tìm tất cả các luật như vậy để làm cơ sở cho tiếp thị chéo giữa các mặt hàng. Các ứng dụng khác có thể kể đến như thiết kế catalog, buôn bán phụ tùng, cách bố trí cửa hàng cũng như phân khúc khách hàng trên thói quen mua hàng. Các cơ sở dữ liệu có liên quan đến các ứng dụng này thường là rất lớn. Do đó, các thuật toán liên quan cần phải nhanh (độ phức tạp nhỏ) để có thể sử dụng được. 1.2 Mô hình bài toán Ta gọi là tập các món hàng (items) và là tập các giao dịch (transactions). Trong đó mỗi giao dịch là một tập hợp các món hàng được mua trong giao dịch đó. Ta gọi là tập các giao dịch có mua các mặt hàng trong . 3 Khi đó một luật kết hợp được ký hiệu như sau: Trong đó và . Ta nói luật xảy ra trong với độ tin cậy (confidence) hay xác suất là Và độ ủng hộ (support) hay tần suất xảy ra của luật là Cho trước một tập các giao dịch , khi đó bài toán khai phá luật kết hợp là sinh ra tất cả các luật kết hợp mà có độ ủng hộ và độ tin cậy lớn hơn một ngưỡng mà người dùng cho trước. 1.3 Thuật giải tổng quát Bài toán khám phá tấst cả các luật kết hợp có thể được phân tách thành hai bài toán con: 1. Tìm tất cả các tập các mặt hàng (itemsets) có độ ủng hộ trên hỗ trợ tối thiểu . Các itemsets thõa điều kiện vậy gọi là tập phổ biến. Thuật toán Apriori trình bày ở phần sau là sẽ giải quyết vấn đề này. 2. Sử dụng các tập phổ biến được tìm ra ở trên để sinh luật kết hợp. Thuật toán đơn giản để sinh luật như sau: 4 1.4 Tìm tập phổ biến bằng thuật toán Apriori 1.4.1 Định lý về tính chất của tập phổ biếns Phát bi ểu 1: cho trước một tập phổ biến , với mọi tập con thì là một tập phổ biến Phát bi ểu 2 : cho trước một tập , nếu tồn tại một tập con không phải là tập phổ biến thì cũng không phải là tập phổ biến Ch ứng minh: Do thì theo định nghĩa ta có . Mà nên , từ đó . Nên Ta có nên . Khi đó nên nếu thì . Suy ra phát biểu 1 đúng. Phát biểu 2 là nghịch đảo của phát biểu 1. Từ tính chất trên, các thuật toán tìm các tập phổ biến bằng từ các tập phổ biến nhỏ; đầu tiên là tập phổ biến có 1 phần tử. Từ các tập phổ biến nhỏ đó, ta suy ra các tập lớn hơn gọi là tập ứng cử viên. Và duyệt cơ sở dữ liệu để tìm tập phổ biến dựa trên tập ứng cử viên đó. 1.4.2 Ký hiệu Giả sử ta có một thứ tự sắp xếp các mặt hang ký hiệu là . Khi ta nói một itemset (, tập các mặt hànx+_g hay một giac dịch), ta xem như itemset đã được sắp xếp, tức mặt hàng thứ bé hơn mặt hàng thứ . Nếu ta ký hiệu mặt hàng thứ trong là thì 5 Một -itemset là một itemset có phần tử như sau Bảng 1-1. Bảng ký hiệu 1.4.3 Thuật toán tìm tập phổ biến Thuật toán tìm tập phổ biến dựa trên tính chất của tập phổ biến như sau Algorithm Apriori for while do generate from end 1.4.4 Thuật toán sinh ứng cử viên Apriori-gen Như vậy, bài toán cần giải quyết là sinh tập các -itemset làm ứng cử viên để tìm tập các -itemset phổ biến từ tập các -itemset. Điều kiện của tập ứng cử viên : • Tối tiểu: tức dựa trên thông tin của ta có thể loại các itemset chắc chắn không phổ biến. Nghĩa là: thì Trong đó ký hiệu cho quan hệ tập con có phần tử. • Đầy đủ: . 6 Algorithm Apriori-gen Input: Output: Join step Prune step remove from if . Ví dụ: Bước kết: Ta kết và thành . Ta kết và thành . Bước lượt bớt: Tập con -itemset của là đều thuộc . Ta bỏ tập vì tập con không thuộc . Tính đúng đắn của Apriori-gen • Tính tối tiểu: từ bước lược (prune step) ta bảo đảm tính tối tiểu của . • Tính đầy đủ: với mọi khi đó và đều thuộc nên bước kết là đầy đủ. 1.5 Xây dựng thuật toán sinh luật Apiori bằng cây - Thuật toán được xây dựng một cách có hiệu quả thông qua cấu trúc cây.Cây thể hiện các tập phổ biến được tìm. Quá trình xây dựng cây cũng chính là quá trình tìm kiếm tập phổ biến. - Mỗi node của cây (trừ nút gốc root) tương ứng với một tập phổ biến. Với mỗi node tương ứng với tập thì ta có: o Node cha của tương ứng với tập phổ biến . o Các node con của là các tập phổ biến có phần tử đầu bằng 7 o Các con trỏ đến các node con của được lưu trữ trong một danh sắp được sắp xếp hay một hash. Nhờ đó việc tìm kiếm một node con bất kỳ có độ phức tạp thấp. - Bước kết được thay bằng thao tác trên cây như sau: các node candidate sinh ra trong phép kết được thay bởi việc kết các sibling của với . Ví dụ: 8 - Trong bước lược bỏ, ta cần duyệt qua các tập con của candidate có thuộc hay không. Nếu có chiều dài là thì có tập con cần phải kiểm tra. Việc kiểm tra itemset có thuộc bằng cách tìm kiếm trên cây. Nếu xem thời gian di chuyển từ node cha đến node con là hằng số thì cần tốn thời gian (do duyệt đến chiều sâu thứ của cây). Vậy mỗi ứng cử trong bước lược được kiểm tra với chi phí . - Ví dụ về quá trình tìm phần tử thông qua duyệt cây. Sau khi kết thúc quá trình xây dựng cây, các node trên cây tương ứng là các tập phổ biến. Các node lá của cây là các tập phổ biến tối đại. 9 1.6 Chương trình demo 10 [...]... cần duyệt qua một lần các dữ liệu huấn luyện để tính các tham số cần tìm Đsộ phức tạp về thời gian là với là số lượng các dữ liệu huấn luyện 2.4 Chương trình Demo Phần nhập đề bài Phần nhập lời giải tương ứng 16 17 Chương 3: GOM CỤM – CLUSTERING Bài toán gom cụm: khi cho trước một tập dữ liệu huấn luyện thì mục tiêu của bài toán là gom nhóm các các dữ liệu tương tự nhau vào một tập cụm Mỗi một cụm đại... cụm bằng thuật toán -means Phần nhập đề bài 19 Có 2 cách khởi tạo trong tâm các cụm 20 Phần trình bày quá trình chạy của thuật toán 21 22 Chương 4: LÝ THUYẾT TẬP THÔ - ROUGH SET THEORY Lý thuyết tập thô được phát triển ban đầu bởi Zdzislaw Pawlak vào những năm đầu của thập niên 1980, được sử dụng như một công cụ phân tích các bảng dữ liệu nhằm tổng hợp một cách xấp xỉ các khái niệm từ các dữ liệu này... systems Hệ thống thông tin là một tập dữ liệu dưới dạng bảng Các dòng đại diện cho từng trường hợp, sự kiện hay đơn giản là một đối tượng Mỗi cột biểu diễn cho một thuộc tính của những đối tượng đó Một cách hình thức, ta định nghĩa một hệ thông thông tin là một cặp Trong đó là một tập hữu hạn các đối tượng, gọi là tập vũ trụ là tập hữu hạn các thuộc tính, mỗi thuộc tính là một hàm ánh xạ các đối tượng... cho các phần tử trong cụm đó 3.1 Thuận toán gọm cụm -means -mean clustering algorithm Đầu vào: • • Tập dữ liệu huấn luyện Số lượng các cụm: 1 Khởi tạo các trọng tâm của các cụm 2 Lặp cho đến khi hội tụ: Tính cụm của : Tính lại tọa độ của cụm : Bảng 1-2Thuận toán gọm cụm k-mean Việc khởi tạo các trọng tâm của các cụm một cách ngẫu nhiên bằng cách chọn ngọn nhiên example trong tập dữ liệu (tuy nhiên... đó: Trong đó là miền giá trị của thuộc tính 4.2 Quan hệ bất khả phân biệt Các hệ thống quyết định chứa trong tri thức về mô hình mà hệ thống đó biểu diễn Tuy nhiên, những bảng dữ liệu này thường lớn một cách không cần thiết vì sự dư thừa ở 2 mức độ: cùng một đối tượng hay những đối tượng không phân biệt được với nhau được biểu diễn lặp lại nhiều lần; cũng như một số thuộc tính dư thừa trong bảng... ứng với 2 bước của thuật toán tìm luật tổng quát: Bước 1: Tìm tất cả các tập phổ biến bằng thuật toán Apiori 11 Kết luận về tập phổ biến và tập phổ biến tối đại Bước 2: Sinh luật từ tập phổ biến tìm được ở bước 1 12 13 Chương 2: PHÂN LỚP – CLASSIFICATION 2.1 Classifier Định nghĩa: một classifier (hàm phân lớp) là một hàm ánh xạ một vector đầu vào (input feature vector) đến một lớp Trong đó là không... thành viên thô là ước lượng dựa trên tần suất của xác suất có điều kiện 25 Một số tính chất của hàm thành viên 4.6 Chương trình demo 4.6.1 Phần nhập vào bảng hệ thống thông tin 26 4.6.2 Phần tính toán trong khái niệm cơ bản của tập thô Tính quan hệ bất khả phân biệt và phân hoạch 27 Tính xấp xỉ tập hợp 28 Tính reduct TÀI LIỆU THAM KHẢO Agrawal, Rakesh, and Ramakrishnan Srikant "Fast algorithms for... liệu (tuy nhiên không nhất thiết phải như vậy) Mỗi lần lặp của thuật toán, ta gán lại nhãn cụm cho bằng cách chọn cụm có trọng tâm gần nhất Sau đó, ta di chuyển trọng tâm của cụm đến trọng tâm của các điểm thuộc cụm Thuật toán hội tụ có thể kiểm tra bằng cách (1) nếu trong tâm mới của cụm không thay đổi hoặc thay đổi rất nhỏ thì ta nói thuật toán hội tụ Cách (2) là kiểm tra các nhãn có thay đổi qua mỗi... thế một cách xấp xỉ, bằng 2 tập rõ Cho trước một hệ thống thông tin và một tập con Ta xấp xỉ tập bằng tập thuộc tính bởi 2 tập rõ (crisp set) như sau Khi đó nếu một đối tượng thì ta nói chắc chắn thuộc Nếu thì ta nói có thể thuộc , ngược lại nếu thì chắc chắn không thuộc Các tính chất của , : 4.4 Các rút gọn - reducts Ta có thể loại bỏ một số thuộc tính mà không làm xấu đi việc phân lớp Ta nói là một. .. không 18 Hình trên thể hiện quá trình chạy của thuật toán Các dữ liệu huấn luyện được thể hiện qua các chấm trên đồ thị (hình 1) Các trọng tâm của cum thể hiện qua các dấu x trên đồ thị (hình 2) Trong trường hợp của ví dụ và trong tậm của 2 cụm được khởi tạo như hình 2 Ta gán nhãn các điểm đến cụm có trọng tâm gần nhất như hình 3 Tiếp theo, ta di chuyển trong tâm cụm đến trọng tâm của các điểm thuộc . THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN MÔN KHAI THÁC DỮ LIỆU MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG KHAI THÁC DỮ LIỆU Giảng viên hướng dẫn : PGS.TS Đỗ Phúc Học viên thực. CLUSTERING Bài toán gom cụm: khi cho trước một tập dữ liệu huấn luyện thì mục tiêu của bài toán là gom nhóm các các dữ liệu tương tự nhau vào một tập cụm. Mỗi một cụm đại diện cho các phần tử trong cụm. này. Đánh giá thực nghiệm cho thấy thuật toán Apiori tuyến tính với số lượng (kích thước) giao dịch và số lượng của các món hàng trong cơ sở dữ liệu. 1.1 Bài toán thực tế Khi công nghệ mã vạch

Ngày đăng: 10/04/2015, 00:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w