KẾT LUẬN CHƢƠNG 2

Chƣơng 2 nghiên cứu mô hình khai phá tập mục lợi ích cao và đề suất ba thuật toán khai phá tập mục lợi ích cao dựa trên ý tƣởng của thuật toán COFI-tree. Các thuật toán đề suất đƣợc xây dựng dựa vào các thuật toán có tính dừng nên chúng đảm bảo tính dừng và thực hiện khai phá hiệu quả. Ba thuật toán đƣợc đề xuất có những ƣu nhƣợc điểm riêng. Phân tích thuật toán và kết quả thực nghiệm cho thấy thuật toán COUI-Mine1 và COUI-Mine2 thực hiện nhanh hơn thuật toán COUI-Mine3. Thuật toán COUI-Mine3 khai phá hiệu quả đƣợc trên những tập dữ liệu rất lớn vì dữ liệu đặt tại bộ nhớ ngoài, có thể khai phá với các ngƣỡng lợi ích khác nhau mà chỉ cần chuyển đổi dữ liệu một lần đầu, khi đó thời gian khai phá các lần sau giảm đi rất nhiều. Thuật toán COUI-Mine1 khai phá đƣợc trên những tập dữ liệu lớn hơn so với thuật toán COUI-Mine2 do sử dụng cấu trúc cây đơn giản hơn. Khi khai phá trên cùng tập dữ liệu không quá lớn, hai thuật toán COUI-Mine1 và COUI-Mine2 thực hiện nhanh gần nhƣ nhau và nhanh hơn, hiệu quả hơn thuật toán Hai pha.

Chƣơng 3 THỰC NGHIỆM THUẬT TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO

Phần này trình bày kết quả thực nghiệm thuật toán khai phá tập mục lợi ích cao. Thuật toán đƣợc cài đặt bằng Microsoft Visual C# chạy trên máy tính Laptop với cấu hình Pentium core 2 dual 2.00 GHz CPU, 4GB bộ nhớ RAM, sử dụng hệ điều hành Windows 7. Thực nghiệm trƣơng trình sử dụng thuật toán Apiori, nhƣng không dùng tính chất Apiori để tỉa mà dùng hàm TWU để tỉa.

Giao diện chính của chƣơng trình gồm 3 mục hiển thị: - Thực đơn: mục này khai phá lợi ích cao của giao tác

- Ngƣỡng lợi ích: tính tỷ lệ phần trăm của lợi ích nhập (bằng số) - Kết quả: hiển thị đƣợc

Ngƣỡng lợi ích tối thiểu minutil:

Số lƣợng tập mục lợi ích cao tìm đƣợc: Thời gian thực hiện bài toán:

Ví dụ ngƣỡng lợi ích tìm là 15%

Chƣơng trình xẽ hiển thị kết quả nhƣ sau: - Ngƣỡng lợi ích tối thiểu minutil = 78,75 - Số lƣợng tập mục lợi ích cao tìm đƣợc:25 - Thời gian thực hiện bài toán: 2044ms

Bảng nhập dữ liệu đƣợc thể hiện trên file Excel gồm 2 tab Tab HUI chứa cơ sở dữ liệu giao tác.

Tab frofit chứa lợi ích của từng mục.

Các mục lợi íc đƣợc tính và kết nạp hiển thị tại file result những giá trị lợi ích lớn hơn ngƣỡng minutil sẽ đƣợc kết nạp và hiển thị trên form chính của trƣơng trình.

PHẦN KẾT LUẬN

1) Những kết quả chính của luận văn :

Luận văn nghiên cứu mô hình mở rộng của khai phá tập mục thƣờng xuyên và đề xuất ba thuật toán khai phá tập mục tập mục lợi ích cao trong cơ sở giao tác dữ liệu.

1. Thuật toán COUI-Mine1 khai phá tập mục lợi ích cao dựa trên ý tƣởng của cây COFI-tree cho khai phá tập mục thƣờng xuyên. Luận văn đề xuất cấu trúc cây tiền tố (prefix) TWUI-tree để lƣu các giao tác và thực hiện khai phá trên cây này. Thuật toán COUI-Mine1 cần tối đa ba lần duyệt cơ sở dữ liệu để tìm ra tập mục lợi ích cao. Khi xây dựng cây TWUI-tree lƣu toàn bộ cơ sở dữ liệu,

thuật toán COUI-Mine1 có thể khai phá với các ngƣỡng lợi ích khác nhau mà không cần xây dựng lại cây TWUI-tree.

2. Thuật toán COUI-Mine2 đƣợc phát triển từ tuật toán COUI-Mine1với đề xuất phƣơng pháp lƣu số lƣợng các mục dữ liệu trong giao tác vào các nút của cây TWUI-tree và gọi cây này là cây UP-tree. Với cải tiến này thuật toán COUI-Mine2 chỉ cần 2 lần duyệt cơ sở dữ liệu để tìm ra các tập mục lợi ích cao. Thuật toán COUI-Mine2 thực hiện nhanh hơn thuật toán COUI-Mine1 do giảm đƣợc một lần duyệt cơ sở dữ liệu.

3. Thuật toán COUI-Mine3 khai phá tập mục lợi ích cao với dữ liệu đƣợc chuyển đổi thành mảng giao tác lƣu ở bộ nhớ ngoài theo ý tƣởng của thuật toán Inverted Matrix. Thuật toán cần duyệt cơ sở dữ liệu hai lần để chuyển đổi dữ liệu sang dạng biểu diễn mới, sau đó khai phá mảng giao tác này dựa vào cấu trúc cây COUI-tree nhƣ trong thuật toán COUI-Mine2. Thuật toán COUI-Mine3 đáp ứng yêu cầu khai phá tƣơng tác, khi dữ liệu đã đƣợc chuyển đổi, thuật toán có thể khai phá với các ngƣỡng lợi ích khác nhau mà không cần chuyển đổi lại. So với hai thuật toán COUI-Mine1 và COUI-Mine2, thuật toán COUI-Mine3 có thể khai phá đƣợc trên những tập dữ liệu lớn hơn.

Các thuật toán COUI-Mine1, COUI-Mine2, COUI-Mine3 đƣợc xây dựng theo phƣơng pháp nên các giao tác lên cấu trúc cây, sau đó khai phá cây bằng cách

phát triển dần các mẫu; nhờ đó tránh đƣợc những hạn chế vốn có của các thuật toán kiểu Apeiori phải duyệt nhiều lần cơ sở dữ liệu và phát sinh khối lƣợng khổng lồ các tập mục ứng viên.

Đóng góp chính của luận văn là đề xuất ba thuật toán mới, hiệu quả khai phá tập mục lợi ích cao trong các cơ sở dữ liệu giao tác cỡ lớn.

2) Hƣớng phát triển của luận văn :

Nghiên cứu các thuật toán khai phá tập mục lợi ích cao đang là hƣớng nghiên cứu đƣợc nhiều nhà nghiên cứu quan tâm vì tính ứng dụng của nó vào nhiều lĩnh vực, đặc biệt trong lĩnh vực kinh doanh. Sau đây là các hƣớng nghiên cứu tiếp theo và ứng dụng của luận văn :

- Phát triển các thuật toán song song khai phá tập mục lợi ích cao.

Cấu trúc cây COFI-tree mà thuật toán sử dụng có thể song song hóa đƣợc, các cây COFI-tree cho từng mục dữ liệu đƣợc xây dựng và khai phá độc lập nhau,do đó ba thuật toán khai phá tập mục lợi ích cao đã đề xuất có thể nghiên cứu phát triển thành các thuật toán song song.

- Khai phá tập mục lợi ích cao có yếu tố thời gian.

Phát triển các thuật toán tìm tập mục lợi ích cao trên các cơ sở dữ liệu gia tăng, đáp ứng nhu cầu ngày càng tăng của nhiều ứng dụng đòi hỏi xử lý trực tuyến.

- Khai phá tập mục lợi ích cao có trọng số.

Các mục dữ liệu có thể đƣợc gán các trọng số khác nhau để phản ánh mức độ quan trọng khác nhau trong cơ sở dữ liệu, khi đó bảng lợi ích sẽ có thêm cột trọng số của các mục dữ liệu. Lợi ích của tập mục lúc đó phải xét thêm trọng số của mục dữ liệu và bài toán đặt ra cần nghiên cứu là khai phá tập mục lợi ích cao có trọng số. - Áp dụng lý thuyết tập thô, lý thuyết xác suất để khai phá tập mục lợi ích cao. Với sự phát triển ngày càng mạnh của CNTT và TT, kích thƣớc cơ sở dữ liệu giao tác ngày càng có xu hƣớng lớn lên, điều đó thách thức cho các nhà nghiên cứu tìm ra các thuật toán phù hợp. Áp dụng lý thuyết tập thô và lý thuyết xác suất để tìm ra các tập mục lợi ích cao xấp xỉ, các luật kết hợp lợi ích cao xấp xỉ là một hƣớng nghiên cứu phù hợp và có nhiều khả năng mang lại kết quả tốt.

DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Vũ Đức Thi (1997), Cơ sở dữ liệu – kiến thức và thực hành, Nhà xuất bản thống kê, Hà Nội.

[2] Vũ Đức Thi, Nguyễn Đức Huy (2008), “Khai phá tập mục thƣờng xuyên cổ phần cao trong cơ sở dữ liệu lớn”, Tạp chí Tin học và Điều khiển học, 24(4), tr. 307-320.

[3] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toán hiệu quả khai phá tập mục thƣờng xuyên lợi ích cao trên cấu trúc dữ liệu cây”, Tạp chí Tin học và Điều khiển học, 24(3), tr. 204-216.

[4] Nguyễn Thanh Tùng (2007), “Khai phá tập mục lợi ích cao trong cơ sở dữ liệu”, Tạp chí Tin học và Điều khiển học, 23(4), tr. 364-373.

[5] Nguyễn Huy Đức (2003), “Khai phá luật kết hợp trong cơ sở dữ liệu lớn”, Kỷ yếu hội thảo khoa học Quốc gia lần thứ nhất về nghiên cứu cơ bản và ứng dụng CNTT, Hà Nội, 10/2003, tr. 128-136.

[6] Một số thông tin trên Website http://tailieu.vn

Tiếng Anh

[1] Agrawal R . And Srikant R. (1994), “Fast algorithm for mining association rules”, in processdings of 20th International Conference on Very large Databases, Santiago, Chile.

[2] Ashafi M., Taniar D., Smith K.(2004), “A new Approach of Eniminating Redundant Associatino Ruler”, Lecture Notes in Computer Science, Vol 3180, pp. 465 – 474.

[3] CUCIS. Center for Ultra-scale Computing and Information Security, Northwestern University

http://cucis.ece.northwestern.edu/projects/DMS/MineBenchDownload.html

[4] Zhao Q.(2003), “Association Rule Mining: A survey”, Technical Report, CAIS, Nanyang Technological University, Singapore, No. 2003116.

[5] Zadrozny B., Weiss G.M., Saar-Tsechansky M. (2006), Proceedings of the second international workshop on utility-based datamining, ACM press, Philadelphia,PA, USA.

BÀI TOÁN KHAI PHÁ TẬPMỤC LỢI ÍCH CAO

Đánh giá thuật toán COUI-Mine1