Tính ma trận bất khả phân biệt trong tập thô (Roug- 123docz.net

VI. Một số ứng dụng Demo khác được phát triển để minh họa các kỹ thuật Data

3. Tính ma trận bất khả phân biệt trong tập thô (RoughSet Discernibility Matrix)

Matrix)

a. Tóm tắt lý thuyết

Tóm tắt điểm chính quan hệ bất khả phân biệt chính là việc loại bỏ sự dư thừa thông tin, bằng cách có thể tinh giảm do sự tồn tại ít nhật hai khả năng dư thừa thông tin như sau:

- Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại được thể hiện lặp lại nhiều lần

- Một số thuộc tính có thể dư thừa, theo nghĩa khi bỏ đi các thuộc tính này thì thông tin do bảng quyết định sẽ không bị mất mát

Và nguyên tắc lập ma trận này để xác định và loại bỏ sự dư thừa này b. Cấu trúc lập trình chương trình

#1: Menu chương trình

#2: Textbox cho phép nhập số hàng, số cột và nút Build Data Grid để sinh ra tập dữ liệu mô phỏng các giao dịch trong #3 để xử lý

#3: Dữ liệu mô phỏng trong Data Grid View bao gồm các tập thuộc tính và lớp nó thuộc về. Dòng 1 là dòng các header các tập dữ liệu (ví dụ: Độ_Tuổi, Số_Buổi, Thi_Đậu..)

#4: Nút Process chạy chương trình xử lý thông tin các mẫu sẽ co cụm về cluster nào

#5: Ma trận bất khả phân biệt được tính toán #6: Output các log chương trình

- Khi chạy demo chương trình thông qua Data trong menu

Kết Luận

Thông qua việc tìm hiểu môn học này, em có cơ hội hiểu về các khai thác dữ liệu tưởng chừng như hổn độn, không có quy luật thế nhưng người khai thác nó thành những mỏ dữ liệu rất hữu ích.

Bằng cách kỹ thuật với cơ sở lý thuyết vững chắc và phát triển nâng cao, các kỹ thuật như tìm tập phổ biến, luật kết hợp, cách phân hoạch các dữ liệu và cách gom nhóm các dữ liệu đó. Thông qua các kỹ thuật đó, ta có thể phát triển các ứng dụng mà nền tảng như trên như nhận dạng chữ viết, nhận dạng khuông mặt, phân lớp các email, website, tìm và rút trích các dữ liệu để ra quyết định và dự đoán tương lai và phục hồi sự mất thông tin. Ngoài ra còn các áp dụng vào các hệ quản trị cơ sở dữ liệu trong việc hỗ trợ ra quyết định thông minh phục vụ nhiều ngành nghề quan trọng hiện nay.

Thêm vào đó, hơn cả những kiến thức cụ thể trong bài thu hoạch này, là mở ra nhiều hướng tiếp cận và có thể cải tiến nâng cao và áp dụng kiến thức chính quy hơn trong việc phân tích, thiết kế ứng dụng data mining.

Do thời gian giới hạn, có một số hạn chế trong việc tìm hiểu sâu thêm về tối ưu hóa giải thuật , cũng như việc hiện thực hoá chưa trình chưa bắt lỗi

Tài Liệu Tham Khảo

1. Đỗ Phúc, Bài giảng chuyên đề Khai thác dữ liệu, ĐH Khoa học Tự nhiên Tp Hồ Chí Minh, 2003

2. Introduction to Data Mining and Knowledge Discovery - Third Edition, by Two Crows Corporation.

3. Fast Algorithms for Frequent Itemset Mining Using FP-Trees - Grahne, Member, IEEE, and Jianfei Zhu, Student Member, IEEE

4. Data Mining: Concepts and Techniques Jiawei Han, Micheline Kamber

5. Data Mining: A Hands-On Approach for Business Professionals (Data Warehousing Institute Series) Robert Groth

6. Một số tài liệu từ microsoft và internet

-http://msdn.microsoft.com/en-us/library/bb510517%28v=sql.100%29.aspxse -http://www.packtpub.com/article/creating-analysis-services-cube-visual- studio-2008-part1

-http://www.mssqltips.com/sqlservertutorial/2000/sql-server-analysis- services-ssas/

Nhận Xét Của Giáo Viên --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- ---