Cơ sở dữ liệu dạng nhị phân

8. CẤU TRÚC ĐỀ TÀỊ

3.4. Cơ sở dữ liệu dạng nhị phân

Sau khi biến đổi bảng dữ liệu gốc ghi chi tiết tên và số lượng các thiết bị của các phịng trong cơ quan thành bảng dữ liệu dạng nhị phân, ta được bảng dữ liệu nhị phân như sau :

Trang 95

Chương trình được xây dựng với hai Form chính: Form1 và Form3 Form1: Thử nghiệm với thuật tốn Apriori

Form1: Thử nghiệm với thuật tốn FP Tree

Chạy chương trình:

Copy thư mục LUANVAN_LUU vào ổ dĩa D:\, mở thư mục LUANVAN_LUU:

Bước 1 : Chọn Project1

Bước 2 : Chọn Form1 hoặc Form3 cửa sổ xuất hiện

Bước 3 : Ta cĩ thể nhập lại độ hỗ trợ tối thiểu Min Support và độ tin cậy Min Confidence

Bước 4 : Nhấn nút thực hiện, chương chình sẽ chạy và danh sách các luật sẽ được in rạ

Phát hiện tri thức trong tập dữ liệu lớn

1. KẾT LUẬN VÀ ĐÁNH GIÁ KẾT QUẢ

Những vấn đề đã giải quyết trong luận văn nàỵ

Chương một đã trình bày tổng quan về khai thác dữ liệu (Data Mining): các loại tri thức tiềm ẩn trong cơ sở dữ liệu, các kỹ thuật khai thác dữ liệụ

Chương hai đã trình bày tổng quan về khai thác luật kết hợp, nêu ra những khái niệm, định nghĩa, tính chất của tập mục và luật kết hợp, cách xác định đỗ hỗ trợ của tập mục và luật, độ tin cậy của luật.

Đưa ra mơ hình bài tốn khai thác luật kết hợp, đây chính là các bước cơ bản trong việc tìm và khai thác luật kết hợp, nĩ là xương sống để các thuật tốn dựa vào đĩ phát triển và cĩ những đánh giá so sánh giữa các thuật tốn.

Chương hai cũng trình bày về độ phức tạp của thuật tốn, dựa vào đây ta cĩ thể hình dung và tính tương đối khoảng thời gian khi thực hiện khai thác luật kết hợp.

Trình bày về các thuật tốn khai thác luật kết hợp, thuật tốn nổi tiếng là Apriori và họ các thuật tốn Apriori, thuật tốn tìm luật kết hợp khơng phát sinh ứng viên dựa vào cấu trúc cây FP Treẹ.

Chương ba trình bày cài đặt chương trình khai thác luật kết hợp trong cơng việc quản lý trang thiết bị trường Đại học Cơng nghiệp - Hà Nộị Dựa vào kết quả này người quản lý cĩ thể nắm bắt được những nhĩm trang thiết bị liên quan đến nhau phục vụ cho mục đích quản lý, mua bán hay sửa chữạ..

Chương trình được cài đặt bằng thuật tốn Apriori nhị phân và thuật tốn dựa trên cấu trúc cây FP Treẹ

Phát hiện tri thức trong tập dữ liệu lớn

- Hà Nộị

Kết quả khai thác luật kết hợp trên cơ sở dữ liệu thống kê phịng: cĩ 100 giao tác tương ứng với thơng tin 100 phịng và cĩ 43 thuộc tính.

Thời gian thực hiện Độ hỗ trợ tối thiểu Minsupp Độ tin cậy tối thiểu Min Confidence

Apriori Cây FP Tree

Tổng số tập thường xuyên Tổng số luật 60 0,7 5 phút 29 giây 3 giây 63 602 50 0,7 6 phút 12 giây 8 giây 126 1932

Nhận xét: Theo bảng so sánh trên cho thấy nếu độ hỗ trợ tối thiểu càng nhỏ thì thuật tốn dựa trên cây FP Tree càng cải thiện tốt hơn so với thuật tốn Apriorị Khi giảm độ hỗ trợ tối thiểu thì thời gian tìm tập thường xuyên theo thuật tốn Apriori tăng nhiều trong khi thuật tốn dựa vào cây FP Tree khơng tăng đáng kể vì để tìm các tập thường xuyên thuật tốn này chỉ cần duyệt cơ sở dữ liệu cĩ 2 lần trong khi thuật tốn Apriori phải phát sinh nhiều tập ứng viên và duyệt cơ sở dữ liệu nhiều lần.

Phát hiện tri thức trong tập dữ liệu lớn

Một trong những cơng việc quan trọng của khai phá luật kết hợp là tìm tất cả các tập thường xuyên trong cơ sở dữ liệu, nên trong thời gian tới luận văn sẽ mở rộng nghiên cứu theo hướng: ứng dụng thuật tốn song song áp dụng cho bài tốn khai phá luật kết hợp mờ, là luật kết hợp trên các tập thuộc tính mờ.

Thuật tốn song song chia đều cơ sở dữ liệu và tập ứng viên cho các bộ vi xử lý, và các tập ứng viên sau khi chia cho từng bộ xử lý là hồn tồn độc lập với nhau mục đích cải thiện chi phí tìm luật kết hợp mờ và thời gian mờ hố dữ liệụ

Tiếp tục hồn thiện hệ thống quản lý trang thiết bị và cĩ thể ứng dụng thêm các lĩnh vực khác như đào tạo, ngân hàng, siêu thị...

Phát hiện tri thức trong tập dữ liệu lớn

Tiếng Việt

[1] Đỗ Phúc (2002), Nghiên cứu và phát triển một số thuật giải, mơ hình ứng dụng khai thác dữ liệu (data mining). Luận án tiến sĩ tốn học, Đại học quốc gia TP. Hồ Chí Minh

[2] Hồng Kiếm - Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển cơng nghệ thơng tin, Đại học Quốc gia thành phố

Hồ Chí Minh

[3] Đinh Mạnh Tường, Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội, Hà Nội, 2003

Tiếng Anh

[4] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993) “Mining association ruler between sets of items in Large Database”, In proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C.

[5] Rakesh Agrawal, Ramakrishnan Srikant (1996), “Mining Quantitative Association in Large Relation Tables”, In proc of the ACM SIGMOD Conference on Management of Data, Montreal, Canadạ

[6] Usama M.Fayyad, Gregory Piatetsky-Shapiro (1996), Advances in knowledge discovery and data mining, AAAI press / the MIT press.

[7] Daniela Godoy, Analıa Amandi, Modeling user interests by conceptual

clusterin, ISISTAN Research Institute, UNICEN University Campus

Một số ứng dụng KPDL

Những khĩ khăn trong khai phá dữ liệu