Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
115 KB
Nội dung
KHAI PHÁ DỮ LIỆU (DATA MINING) Bài TỔNG QUAN Chương trình học Bài 1: GIỚI THIỆU TỔNG QUAN VỀ DATA MINING Bài 2: BÀI TỐN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Bài 3: BÀI TOÁN VỀ DÃY PHỔ BIẾN (EPISODE) Bài 4: LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÂN LỚP Bài 5: GOM CỤM BẰNG THUẬT TOÁN Hard C_Means Tài liệu : Giáo trình TS Đỗ Phúc tham khảo lớp Mai Xuân Hùng Đánh giá môn học Sinh viên thi theo hình thức tự luận Cộng thêm điểm cho sinh viên cài đặt thuật toán chương trình mơn datamining Mai Xn Hùng Khai phá liệu ? • Rút trích thơng tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn • Phân tích liệu bán tự động Mai Xuân Hùng Khai phá liệu có ích lợi ? Cung cấp tri thức hỗ trợ quyêt định Dự báo Khái quát liệu Mai Xuân Hùng Tiến trình khai phá liệu(1) Nghiêncứu cứulĩnh lĩnhvực vực Nghiên ạotập tậpdữ dữliệu liệuđầu đầuvào vào TTạo Tiền ềnxử xửlý/ lý/làm làmsạch, sạch,mã mã hóa hóa Ti Rút útgọn gọn//chiều chiều R Chọn ọntác tácvụ vụKhai Khaithác thácdữ dữliệu liệu Ch Mai Xuân Hùng Tiến trình khai phá liệu(2) Chọn các thuật thuật giải giải KTDL KTDL Chọn KTDL: TTìm ìmkiếm kiếmtri trithức thức KTDL: Đánhgiá giámẫu mẫutìm tìmđược Đánh Biểu diễn diễn tri tri thức thức Biểu dụngcác cáctri trithức thứcvừa vừakhám khámphá phá SSửửdụng Mai Xuân Hùng Từ liệu đến định Quyết định • Promote product A in region Z Tri thức • Mail ads to families of profile P • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thơng tin • X lives in Z Dữ liệu • Customer data • S is Y years old • X and S moved • W has money in Z • Store data • Demographical Data • Geographical data Mai Xuân Hùng Giải thích Dữ liệu – thơng tin – tri thức • + Dữ liệu: Là diễn dịch trường • đơn lẽ ví dụ: Nguyễn Thị Hoa Mai, Sinh viên, ngành CNTT, môn CSDL + Thông tin: Là mối liên hệ thành phần liệu, Ví dụ: Nguyễn Thị Hoa Mai sinh viên ngành công nghệ thông tin Ngành cơng nghệ thơng tin có mơn CSDL Mai Xn Hùng Dạng luật kết hợp Tri thức: Là mối liên hệ thành phần thơng tin, có hai cấp độ • Chỉ giới hạn nhóm nhỏ thơng tin Ví dụ: • Nguyễn Thị Hoa Mai sinh viên ngành công nghệ thông tin nên phải học môn CSDL Là thơng tin mang tính quy luật phổ biến Ví dụ: Nếu X sinh viên ngành CNTT X phải học mơn CSDL Mai Xn Hùng 10 ví dụ Dữ liệu khổng lồ từ: Internet, từ nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật …Ví dụ: CSDL dân cư Thành Phố HCM có 50 triệu dân khẩu, CSDL tuyển sinh đại học triệu Từ khối liệu =>rút trích thơng tin hữu ích, chưa biết tiềm ẩn khối liệu hỗ trợ tiến trình định, dự báo, nhà nghiên cứu phát triển phương pháp, kỹ thuật phần mềm hỗ trợ tiến trình khám phá, phân tích tổng hợp thơng tin Mai Xn Hùng 11 Ví dụ Khai thác thơng tin truyền thống : 80 % thơng tin từ CSDL, cịn lại 20% thơng tin chứa đựng thông tin quan trọng Khai thác liệu-Data Mining (KTDL) tiến trình khám phá tri thức tiềm ẩn CSDL Cụ thể hơn, tiến trình trích lọc, sản sinh tri thức mẫu tiềm ẩn, chưa biết hữu ích từ CSDL lớn Mai Xuân Hùng 12 Hình thức KTDL KTDL theo hướng kiểm tra: Đề xuất giả thiết hệ thống kiểm tra tính đắn giả thuyết, KTDL theo hướng kiểm tra gồm: truy vấn, báo cáo, phân tích thống kê KTDL theo hướng khám phá: Tìm kiếm tri thức tiềm ẩn CSDL Mai Xuân Hùng 13 Ứng dụng khai thác liệu Trong ngân hàng: Dự đoán rủi ro tính dụng Trong thương mại điện tử: Web, bán hàng qua mạng Công nghệ sinh học dược phẩm : Phân tích liệu di truyền Nhân sự: Chọn ứng cử viên tuyển dụng Mai Xuân Hùng 14 CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU Tập phổ biến luật kết hợp Khai thác mẫu Tập thô (reduct) Phân lớp liệu Gom cụm (Clustering) Mai Xuân Hùng 15 Tập phổ biến luật kết hợp Tìm thuột tính xuất phổ biến đối tượng liệu Từ tập phổ biến ta tiến hành tạo luật kết hợp nhằm phát khả xuất đồng thời thuộc tính tập đối tượng Nếu mua X mua Y (có 66.6% khách hàng mua Bia mua mực) Mai Xuân Hùng 16 Khai thác mẫu Khai thác mẫu phổ biến phản ánh mối quan hệ biến cố CSDL hướng thời gian X Y xuất biến cố X dẫn đến xuất biến cố Y 80% khách hàng gởi tiền tiết kiệm 80 triệu tháng sau gởi thêm 20 triều Dùng để khám phá xu phát triển đối tượng Mai Xuân Hùng 17 Tập thô (reduct) Dùng để rút gọn chiều táon phân lớp liệu Mai Xuân Hùng 18 Phân lớp liệu Khám phá luật phân loại cho tập liệu Ví dụ: Những bệnh nhân có triệu chứng ho, lạnh, nhức đầu phân lớp vào bệnh sốt rét Mai Xuân Hùng 19 Gom cụm (Clustering) Phân lớp liệu tiến trình phân đối tượng thành cụm đối tượng Sao cho: • Các đối tượng cụm có mực • độ tương đồng cao Các đối tượng khác cụm có mức độ tương đồng thấp Mai Xuân Hùng 20