Giới thiệu về khai phá dữ liệu và các giai đoạn của quy trình khai phá dữ liệu và phát hiện tri thức và các ứng dụng chính của khai phá dữ liệu 1) Nghiên cứu lĩnh vực - Nghiên cứu lĩnh vực cần sử dụng DM để xác định được những tri thức ta cần chắt lọc tránh tốn thời gian cho những tri thức không cần thiết. 2) Tạo tập tin dữ liệu đầu vào - Xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý. 3) Tiền xử lý, làm sạch, mã hóa - Tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý. 4) Rút gọn chiều Một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng dữ liệu khổng lồ giai đoạn giảm đáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức. 5) Chọn tác vụ khai thác dữ liệu Đặc trưng (feature) Phân biệt (discrimination) Kết hợp (association) Phân lớp (classification) Gom cụm (clusterity) Xu thế (trend analysis) Phân tích độ lệch Phân tích hiếm 6) Chọn các thuật giải Khai thác dữ liệu 7) Khai thác dữ liệu: Tìm kiếm tri thức 8) Đánh giá mẫu tìm được Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử đụng được những tri thức nào, những tri thức nào dư thừa, không cần thiết 9) Biểu diễn tri thức Ta biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên và hình thức sao cho người dùng có thể hiểu được những tri thức đó. 10) Sử dụng các tri thức vừa khám phá
Quy trình khai phá dữ liệu và phát hiện tri thức và các ứng dụng chính của khai phá dữ liệu “We are drowning in data but starving for knowledge” Đại học Kinh tế quốc dân Khoa Tin học kinh tế Người trình bày: Trần Thái Hòa Định nghĩa Ferruzza: “KPDL là tập hợp các phương pháp được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu” Parsaye: “KPDL là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn” Fayyad: “Khai phá tri thức là một quá trình không tầm thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”. Các lĩnh vực liên quan Thống kê (Statistics):Kiểm định model và đánh giá tri thức phát hiện được Máy học(Machine Learning): Nghiên cứu xây dựng các giải thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả tương lai thông qua quá trình huấn luyện (học) từ dữ liệu lịch sử. Cơ sở dữ liệu(Databases): Công nghệ quản trị dữ liệu nhất là kho dữ liệu Trực quan hóa(Visualization): Giúp dữ liệu dễ hiểu, dễ sử dụng như chart, map Nhiệm vụ Dự đoán (Predictive) 1. Phân lớp (Classification) - Cây quyết định (Decision tree) - Láng giềng gần nhất (Nearest Neighbor) - Luật qui nạp (Rule Induction) - Mạng Neural (Neural Network) 2. Hồi quy (Regression) 3. Phát hiện độ lệch (Deviation Detection) Mô tả (Descriptive) 1. Phân cụm (Clustering) Thuật toán K-Means (K-Means) Mạng Neural (Neural Network) 2. Phát hiện luật kết hợp (Association Rule Discovery) DM & KDD Khai phá dữ liệu (Data Mining): là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Khám phá tri thức trên csdl, được viết tắt là KDD (Knowledge Dicovery in Database) nó mang nhiều ý nghĩa hơn chỉ là khai phá dữ liệu. Q trình KDD chuyển đổi hay hợp nhất về dạng thích hợp Những dữ liệu thích hợp với nhiệm vụ phân tích. Làm sạch dữ liệu Tích hợp dữ liệu xác đònh lợi ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức. Quy trình khai phá dữ liệu Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực Rút gọn/chiều Rút gọn/chiều Tạo tập dữ liệu đầu vào Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Tiền xử lý/ làm sạch, mã hóa Chọn tác vụ khai thác dữ liệu Chọn tác vụ khai thác dữ liệu 1 2 3 5 4 Quy trình khai phá dữ liệu Chọn các giải thuật KPDL Chọn các giải thuật KPDL Biểu diễn tri thức Biểu diễn tri thức Tìm kiếm tri thức Tìm kiếm tri thức Đánh giá mẫu tìm được Đánh giá mẫu tìm được Sử dụng các tri thức vừa khám phá Sử dụng các tri thức vừa khám phá 6 7 8 10 9 Quy trình khai phá dữ liệu 1) Nghiên cứu lĩnh vực - Nghiên cứu lĩnh vực cần sử dụng DM để xác định được những tri thức ta cần chắt lọc tránh tốn thời gian cho những tri thức không cần thiết. 2) Tạo tập tin dữ liệu đầu vào - Xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý. 3) Tiền xử lý, làm sạch, mã hóa - Tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý. Quy trình khai phá dữ liệu 4) Rút gọn chiều Một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng dữ liệu khổng lồ giai đoạn giảm đáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức. 5) Chọn tác vụ khai thác dữ liệu Đặc trưng (feature) Phân biệt (discrimination) Kết hợp (association) Phân lớp (classification) Gom cụm (clusterity) Xu thế (trend analysis) Phân tích độ lệch Phân tích hiếm [...].. .Quy trình khai phá dữ liệu 6) Chọn các thuật giải Khai thác dữ liệu 7) Khai thác dữ liệu: Tìm kiếm tri thức 8) Đánh giá mẫu tìm được Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử đụng được những tri thức nào, những tri thức nào dư thừa, không cần thiết Quy trình khai phá dữ liệu 9) Biểu diễn tri thức Ta biểu diễn tri thức vừa thu... các tri thức vừa khám phá Ứng dụng tổng quan Cung cấp tri thức, hỗ trợ ra quy t định Dự báo Khái quát dữ liệu Ứng dụng thực tế Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính của một công ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trường chứng khoán để dự đoán được giá cổ phiếu; Phát hiện gian lận,… Thống kê, phân tích dữ liệu và hỗ trợ ra quy t định Y học: dựa... vi người dùng nhằm nâng cao chất lượng dịch vụ Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu người dùng để đưa ra hướng phát triển đúng cho nhà sản xuất… Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác nhau của đời sống giúp đưa ra những giải pháp hiệu quả cho các vấn đề nan giải của đời sống Xin chân thành cảm ơn !!! . quá trình huấn luyện (học) từ dữ liệu lịch sử. Cơ sở dữ liệu( Databases): Công nghệ quản trị dữ liệu nhất là kho dữ liệu Trực quan hóa(Visualization): Giúp dữ liệu dễ hiểu, dễ sử dụng như chart,. nghĩa hơn chỉ là khai phá dữ liệu. Q trình KDD chuyển đổi hay hợp nhất về dạng thích hợp Những dữ liệu thích hợp với nhiệm vụ phân tích. Làm sạch dữ liệu Tích hợp dữ liệu xác đònh lợi. làm sạch, mã hóa Tiền xử lý/ làm sạch, mã hóa Chọn tác vụ khai thác dữ liệu Chọn tác vụ khai thác dữ liệu 1 2 3 5 4 Quy trình khai phá dữ liệu Chọn các giải thuật KPDL Chọn các giải thuật KPDL Biểu