Giá trị fminsupp(%) 5 10 20 30 40 50 60 70 80 90
Thời gian xử lý (giây) 5.48 4.73 4.58 4.28 3.39 3.33 3.19 3.17 3.02 2.07
Ta nhận thấy khi fminsupp càng bé thì số lượng tập phổ biến tìm được càng lớn. Do đó thời gian thực hiện các hàm join, prune, checking trong thuật toán càng nhiều. Kết quả là thời gian xử lý tăng theo hàm mũ khi giảm dần giá trị ngưỡng độ tin cậy của tập mục fminsupp.
+Thử nghiệm: Đo số lượng tập phổ biến và số lượng luật tin cậy khi biến đổi ngưỡng fminsupp và cố định các thông số khác (kích thước CSDL, fminconf, v.v). Ta nhận thấy số lượng luật tin cậy phụ thuộc hoàn toàn vào sự thay đổi của giá trị ngưỡng fminsupp. Lý do là khi fminsupp giảm số lượng tập mục phổ biến tăng lên, do fminconf cố định nên số lượng luật tin cậy cũng tăng theo và ngược lại. Kết quả này được thể hiện rõ trong đồ thị và bảng dưới đây:
Hình 4.9 Sự phụ thuộc của số lƣợng tập phổ biến và luật tin cậy vào giá trị fminsupp
Giá trị fminsupp 5 10 20 30 40 50 60 70 80 90
Số lƣợng tập phổ biến 34 30 23 15 10 10 10 10 8 4
Số lƣợng luật tin cậy 31 28 22 16 12 12 12 12 5 2
+Thử nghiệm: đo số lượng luật tin cậy khi thay đổi độ tin cậy tối thiểu fminconf của luật trong trường hợp cố định các thông số khác của hệ thống (kích thước CSDL, fminsupp). Ta nhận thấy số lượng luật tin cậy tăng mạnh khi giảm dần fminconf.
Giá trị fminconf(%) 10 20 30 40 50 60 70 80 90
Số lƣợng luật tin cậy 32 32 26 24 22 22 22 22 21
+ Thử nghiệm: thời gian xử lý thay đổi theo kích thước của dữ liệu (số lượng bản ghi giao dịch):
Hình 4. 11 Sự thay đổi kích thƣớc CSDL tác động tới thời gian thực hiện khai phá
Số lƣợng bản ghi 572 1354 4436 6532 11641 15793 9056 56893
Thời gian xử lý (giây) 5 6 9 12 18 20 13 43
+ Thử nghiệm: Số lượng tập phổ biến và luật tin cậy biến đổi theo giá trị ngưỡng gắn với tập mờ ( lưu ý :giá trị tập mờ trong các thử nghiệm ở trên ta chọn là 0.5)
Từ biểu đồ trên ta nhận thấy: số lượng tập phổ biến và số lượng luật kết hợp tin cậy giảm dần khi tăng giá trị ngưỡng gắn với tập mờ. Giá trị ngưỡng do người dùng quyết định, tuỳ theo mục đích khác nhau mà sử dụng giá trị ngưỡng sao cho phù hợp. Chẳng hạn nếu người sử dụng muốn thu được những tập phổ biến và luật hẹp thì phải tăng giá trị ngưỡng.v.v.
KẾT LUẬN
Những vấn đề đã đƣợc giải quyết trong luận văn
Dựa trên những đề xuất đã có trong lĩnh vực nghiên cứu về KPDL, bản luận văn là một sự tổng hợp những nét chính trong trong khai phá dữ liệu nói chung và luật kết hợp nói riêng. Sau đây là những nội dung chính đã được trình bày trong luận văn:
Chương một, luận văn đã trình bày một cách tổng quan về KPDL và phát hiện tri thức(KDD) .Cụ thể là định nghĩa về KPDL và KDD, nhiệm vụ của KPDL là gì, các dạng dữ liệu có thể thực hiện được việc khai phá, rồi tiếp đến là kiến trúc của hệ thống khai phá dữ liệu ra sao, cũng như các hướng tiếp cận trong lĩnh vực này và các ứng dụng thực tiễn của chúng.
Chương hai tập trung đi sâu vào một hướng quan trọng trong KPDL, đó là luật kết hợp. Trong chương này, chúng ta cùng tìm hiểu một số định nghĩa về luật và luật kết hợp, các tính chất và đặc trưng cơ bản của luật kết hợp, những hướng tiếp cận chính đang được sử dụng có thể áp dụng kỹ thuật này. Một trong những yếu tố quan trọng để phát hiện được các tri thức luật kết hợp chính là việc xác định độ hỗ trợ và độ tin cậy của các tập mục sao cho phù hợp, nó đóng vai trò quyết định trong việc có tìm được tri thức hay không.
Với những vấn đề lý thuyết được trình bày ở hai chương đầu, chương ba tập trung trình bày các thuật toán phổ biến thường được áp dụng trong kỹ thuật khai phá dữ liệu bằng luật kết hợp. Chương này đi sâu vào các thuật toán, từ thuật toán đơn giản ban đầu đến các thuật toán cải tiến làm tăng tính hiệu quả của quá trình khai phá. Đây là cơ sở quan trong giúp cho việc cài đặt trên máy tính có thành công hay không.
Dựa trên nội dung của ba chương trước, chương bốn sẽ trình bày một ứng dụng thử nghiệm sử dụng phương pháp khai phá luật kết hợp mờ-với thuật toán Apriori áp dụng trong lĩnh vực ngân hàng, cụ thể là phát hiện các tri thức dưới dạng luật kết hợp dựa trên CSDL giao dịch tiền gửi của BIDV. Bên cạnh đó, chương này cũng đề cập đến các đề xuất để đưa chương trình vào thực tế một cách sao cho có hiệu quả.
Trong quá trình thực hiện luận văn, tôi đã cố gắng tập trung nghiên cứu và tham khảo khá nhiều tài liệu. Tuy nhiên, do thời gian và trình độ có hạn nên không
tránh khỏi những thiếu sót nhất định. Tôi mong muốn nhận được những chỉ bảo của thầy cô giáo và các bạn để tôi có thể hoàn thiện hơn cho hướng nghiên cứu tiếp theo.
Hƣớng nghiên cứu trong tƣơng lai
Khai phá dữ liệu bằng phương pháp luật kết hợp là kỹ thuật được khá nhiều người quan tâm bởi nó được ứng dụng rộng rãi trong nhiều lĩnh vực và chứa đựng nhiều hướng nghiên cứu mở khác nhau. Trong thời gian tôi sẽ mở rộng nghiên cứu của mình sâu hơn ra một số hướng khác nhau như:
- Khai phá luật kết hợp mờ với thuộc tính được đánh trọng số - Khai phá luật kết hợp trừu tượng, đa mức
TÀI LIỆU THAM KHẢO
+ Tài liệu tiếng Việt
[2] Đào Hữu Hồ(2001), Xác suất thống kê, NXB Giáo dục.
[3] Đinh Mạnh Tường(2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội.
[4] Đỗ Trung Tuấn(1999), Hệ chuyên gia, NXB Giáo dục.
[5] Jeffrey D.Ullman(2000), Nguyên lý các hệ Cơ sở dữ liệu và cơ sở trí thức, NXB Thống kê.
[6] Lê Tiến Vương(1996), Nhập môn cơ sở dữ liệu quan hệ, NXB Khoa học kỹ thuật .
[7] Phan Đình Diệu(1999), Lôgic trong các hệ tri thức, NXB Đại học Quốc gia Hà Nội.
[8] Vũ Đức Thi(1997), Cơ sở dữ liệu- Kiến thức và thực hành, NXB Thống kê.
+ Tài liệu tiếng Anh
[9] Alan Rea(1995), Data Mining – An introduction, The Parallel Computer Centre, The Queen‟s University of Belfast.
[10] J.Han and Y.Fu(1999) Discovery of Multiple- Level Association Rules from Large Databases, IEEE Transactions on Knowledge and Data Engineering .
[11] Mayer.D(1983), The theory of Relational Database, Computer Science Press.Inc.
[12] Michael J.Corey and Michael Abbey and Ian Abrasmon and Ben Taub(2000),Oracle Data Warehousing, Oracle Press.
[13]. Tamraparni Dasu and Theodor Johnson. Exploratory Data Mining and Data Clearing. John Wiley & Sons, 2003.
[14]. Daniel T. Larose. An Introduction to Data Mining. John Wiley & Sons, 2005.
[15]. Michael J. A. Berry and Gordon S. Linoff. Data Mining Techniques for Marketing, Sales and Customer Relationship Management. Wiley Publishing, 2004.
[16]. Dorian Pyle. Bussiness Modeling and Data Mining. Morgan Kaufmann Publishers, 2003.
[17]. Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms. John Wiley & Sons, 2003
[18]. Namid R. Nemati and Christopher D. Barko. Organizational Data Mining: Leveraging Enterprise for Optimal Performance. Idea Group Publishing, 2004.
[19]. Jiawei Han and Micheline Kamber. Data Mining, Concepts and Techniques. University of Illinois, Morgan Kaufmann Publishers, 2002 [20] http://www.data-mine.com [21] http://www.mines.edu [22] http://www.cit.gu.edu.au [23] http://wwwcn2.vnuit.edu.vn [24] http://www.resource.vnuit.edu.vn [25] http://www.redbooks.ibm.com [26]http://en.wikipedia.org/wiki/Data_mining ...