Bài giảng Khai phá dữ liệu: Bài 1 Tổng quan về khai phá dữ liệu cung cấp cho người học những kiến thức như: Giới thiệu chung; Khai phá dữ liệu là gì; Quá trình khai phá tri thức; Các kỹ thuật áp dụng trong khai phá dữ liệu; Ứng dụng khai phá dữ liệu. Mời các bạn cùng tham khảo!
KHAI PHÁ DỮ LIỆU Bài Tổng quan khai phá liệu Giáo viên: TS Trần Mạnh Tuấn Bộ môn: Hệ thống thông tin Khoa: Công nghệ thông tin Email: tmtuan@tlu.edu.vn Điện thoai: 0983.668.841 Nội dung Giới thiệu chung Khai phá liệu Quá trình khai phá tri thức Các kỹ thuật áp dụng KPDL Ứng dụng khai phá liệu GIỚI THIỆU CHUNG Tình GIỚI THIỆU CHUNG Tình GIỚI THIỆU CHUNG Tình GIỚI THIỆU CHUNG Tình GIỚI THIỆU CHUNG ▪ Những năm 60 bắt đầu sử dụng công cụ tin học để tổ chức khai thác CSDL ▪ Khả thu thập, lưu trữ, xử lý, phân tích liệu hệ thống thơng tin không ngừng thay đổi ▪ Lượng thông tin ngày tăng lên ▪ Hướng tiếp cận khai thác thông tin đưa định, tư vấn,… KHAI PHÁ DỮ LIỆU KHAI PHÁ DỮ LIỆU ▪ Khai phá liệu lĩnh vực nhằm tự động khai thác thông tin tri thức tiềm ẩn liệu ▪ Khai phá liệu lĩnh vực phát triển bền vững, mang lại nhiều lợi ích, triển vọng, ưu hẳn so với cơng cụ phân tích liệu truyền thống ▪ Các kỹ thuật áp dụng dựa CSDL, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống kê tính tốn hiệu cao KHAI PHÁ DỮ LIỆU ▪ Có nhiều quan điểm khác Khai phá liệu ▪ Khai phá tri thức CSDL (Knowledge Discovery in Databases - KDD) mục tiêu Khai phá liệu ▪ Khai phá liệu bước khai phá tri thức 10 Các kỹ thuật áp dụng KPDL ¾ 20 Các kỹ thuật áp dụng KPDL 21 Các kỹ thuật áp dụng KPDL 22 Các kỹ thuật áp dụng KPDL ▪ Một trình trích xuất tri thức từ lượng lớn DL ▪ Một q trình khơng dễ trích xuất thơng tin ẩn, hữu ích, chưa biết trước từ liệu ▪ Các thuật ngữ thường dùng tương đương: knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence 23 Các kỹ thuật áp dụng KPDL ▪ ▪ ▪ ▪ ▪ ▪ ▪ 24 Tri thức đạt từ q trình khai phá Mơ tả lớp/khái niệm (đặc trưng hóa phân biệt hóa) Mẫu thường xuyên, mối quan hệ kết hợp/tương quan Mơ hình phân loại dự đốn Mơ hình gom cụm Các phần tử biên Xu hướng hay mức độ thường xuyên đối tượng có hành vi thay đổi theo thời gian Các kỹ thuật áp dụng KPDL Một số dạng liệu: ▪ CSDL quan hệ ▪ CSDL đa chiều (multidimensional structures, data warehouses) ▪ CSDL dạng giao dịch ▪ CSDL quan hệ - hướng đối tượng ▪ Dữ liệu không gian thời gian ▪ Dữ liệu chuỗi thời gian ▪ CSDL đa phương tiện ▪ Dữ liệu Text Web, … 25 Các kỹ thuật áp dụng KPDL Lượng lớn liệu sẵn có để khai phá ▪ Bất kỳ loại liệu lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc ▪ Dữ liệu lưu trữ ▪ Các tập tin truyền thống ▪ Các sở liệu quan hệ hay quan hệ đối tượng ▪ Các sở liệu giao tác hay kho liệu ▪ Các sở liệu hướng ứng dụng: sở liệu không gian, sở liệu thời gian, sở liệu không thời gian, sở liệu chuỗi thời gian, sở liệu văn bản, sở liệu đa phương tiện, … ▪ Các kho thông tin: the World Wide Web, … ▪ Dữ liệu tạm thời: dòng liệu 26 Các kỹ thuật áp dụng KPDL Tri thức đạt từ trình khai phá ▪ Tri thức đạt có tính mơ tả hay dự đốn tùy thuộc vào q trình khai phá cụ thể ▪ Mơ tả (Descriptive): có khả đặc trưng hóa thuộc tính chung DL khai phá ▪ Dự đốn (Predictive): có khả suy luận từ liệu có để dự đốn ▪ Tri thức đạt có cấu trúc, bán cấu trúc, phi cấu trúc ▪ Tri thức đạt được/khơng người dùng quan tâm -> độ đo đánh giá tri thức đạt ▪ Tri thức đạt được dùng việc hỗ trợ định, điều khiển quy trình quản lý thông tin, xử lý truy vấn 27 Các kỹ thuật áp dụng KPDL 28 Các kỹ thuật áp dụng KPDL 29 Các kỹ thuật áp dụng KPDL 30 Ứng dụng KPDL Là lĩnh vực quan tâm ứng dụng rộng rãi: ▪ Phân tích liệu hỗ trợ định ▪ Điều trị y học ▪ Text mining & Web mining ▪ Tin-sinh (bio-informatics) ▪ Tài thị trường chứng khốn ▪ Bảo hiểm (insurance), v.v 31 Ứng dụng KPDL • • • 32 Trong thiên văn Hệ thống SKICAT dùng phân tích ảnh, phân loại xếp nhóm vật thể không gian từ ảnh quan sát vũ trụ Dùng để xử lý terabytes liệu ảnh từ Đài thiên văn Palomar, với khoảng tỉ vật thể khơng gian phát SKICAT làm cơng việc tính tốn cực lớn việc phân loại ảnh vật thể không rõ ràng Ứng dụng KPDL • • • • 33 Trong kinh doanh: UD tiếp thị, tài (đặc biệt đầu tư), phát gian lận, sản xuất, viễn thông Internet agent (tác tử) Tiếp thị: UD hệ thống CSDL tiếp thị, phân tích DL khách hàng để phân loại nhóm khách hàng khác dự báo sở thích họ Đầu tư: LBS Capital Management dùng để quản lý danh mục vốn đầu tư Phát gian lận: • Hệ thống HNC Falcon and Nestor PRISM dùng để theo dõi gian lận thẻ tín dụng • Hệ thống FAIS dùng để thẩm định giao dịch thương mại gồm việc chuyển tiền bất hợp pháp Trao đổi, câu hỏi? 34 ... cao KHAI PHÁ DỮ LIỆU ▪ Có nhiều quan điểm khác Khai phá liệu ▪ Khai phá tri thức CSDL (Knowledge Discovery in Databases - KDD) mục tiêu Khai phá liệu ▪ Khai phá liệu bước khai phá tri thức 10 ... tin đưa định, tư vấn,… KHAI PHÁ DỮ LIỆU KHAI PHÁ DỮ LIỆU ▪ Khai phá liệu lĩnh vực nhằm tự động khai thác thông tin tri thức tiềm ẩn liệu ▪ Khai phá liệu lĩnh vực phát triển bền vững, mang lại... đồng 12 Quá trình khám phá tri thức Các giai đoạn khai phá tri thức ▪ Biến đổi liệu: bước chuẩn hoá làm mịn liệu để đưa liệu dạng thuận lợi phục vụ cho kỹ thuật khai phá bước sau ▪ Khai phá liệu: