1. Trang chủ
  2. » Giáo án - Bài giảng

Khai pha du lieu

377 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trường Đại học Phan Thiết Bài giảng KHAI PHÁ DỮ LIỆU NỘI DUNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP PHÂN LỚP, PHÂN CỤM DỮ LIỆU DM DW Chương Tổng quan Khai phá liệu KHAI PHÁ DỮ LIỆU Nội dung Nhu cầu khai phá liệu (KPDL) Khái niệm KDD KPDL Khai phá liệu quản trị CSDL Kiểu liệu KPDL Kiểu mẫu khai phá Cơng nghệ KPDL điển hình Một số ứng dụng điển hình Các vấn đề KPDL DM DW Nhu cầu khai phá liệu  Sự bùng nổ liệu  Lý công nghệ  Lý xã hội  Thể  Ngành kinh tế định hướng liệu  Kinh tế tri thức  Phát tri thức từ liệu DM DW Bùng nổ liệu: Luật Moore  Xuất xứ  Gordon E Moore (1965) Cramming more components onto integrated circuits, Electronics, 38 (8), April 19, 1965 Một quan sát dự báo  “Phương ngôn 2x  Số lượng bán dẫn tích hợp chíp tăng gấp đơi sau khoảng hai năm  Chi phí sản xuất mạch bán dẫn với tính giảm nửa sau haiDW năm DM  Phiên 18 tháng: rút ngắn chu kỳ thời gian Luật Moore & công nghiệp điện tử  Dẫn dắt ngành cơng nghệ bán dẫn  Mơ hình cho ngành công nghiệp mạch bán dẫn  “Định luật Moore tạo khả cho phát triển chúng tơi, cịn hiệu lực tốt Intel… Định luật Moore không mạch bán dẫn Nó cách sử dụng sáng tạo mạch bán dẫn” Paul S Otellini, Chủ tịch Giám đốc điều hành Tập đoàn Intel  “toàn chu trình thiết kế, phát triển, sản xuất, phân phối bán hàng coi có tính bền vững tuân theo định luật Moore… Nếu đánh bại định luật Moore, thị trường hấp thụ hết sản phẩm mới, kỹ sư bị việc làm Nếu bị tụt sau định luật Moore, khơng có để mua, gánh nặng đè lên đôi vai chuỗi nhà phân phối sản phẩm” Daniel Grupp, Giám đốc PT công nghệ tiên tiến, Acorn Technologies, Inc (http://acorntech.com/)  Thúc đẩy công nghệ xử lý, lưu giữ truyền dẫn liệu  Công nghệ bán dẫn tảng công nghiệp điện tử  Định luật Moore với cơng nghiệp phần cứng máy tính: xử lý Intel 40 năm qua (trang tiếp theo)  Bùng nổ lực xử lý tính tốn lưu trữ liệu DW  Tác động tới phát triển công nghệ sở liệu (tổ chức quản lý dữDM liệu) công nghệ mạng (truyền dẫn liệu) Luật Moore: Bộ xử lý Intel “Another decade is probably straightforward There is certainly no end to creativity” Gordon Moore, Intel Chairman Emeritus of the Board Speaking of extending Moore’s Law at the International Solid-State Circuits Conference (ISSCC), February 2003 Moore’s Law: Transistor densities on a single chip double about every two years (Source: Intel Web site Moore’s Law: Made Real by Intel Innovation, www.intel.com/technology/mooreslaw/?iid=s DW earch, accessed January 9, 2008.) DM Hệ thống ước bội đơn vị đo Giá trị, cách đọc bội ước điển hình DM DW Thiết bị thu thập – lưu trữ liệu  Năng lực số hóa  Thiết bị số hóa đa dạng  Mọi lĩnh vực Quản lý, Thương mại, Khoa học…  Một ví dụ điển hình: SDSS  Sloan Digital Sky Survey  http://www.sdss.org/  Đã tạo đồ 3-chiều có chứa 930.000 thiên hà 120.000 quasar  Kính viễn vọng  Làm việc từ 2000  Vài tuần đầu tiên: thu thập liệu thiên văn học = toàn khứ Sau 10 năm: 140 TB  Kính viễn vọng  Large Synoptic Survey Telescope  Bắt đầu hoạt động 2016 Sau ngày có 140 TB DM DW 10 HAC với độ đo khác  Ảnh hưởng độ đo   Trên: Hoạt động thuật toán khác theo độ đo khác nhau: độ tương tự cực tiểu (complete-link) có tính cầu so với cực đại DW DM Dưới: Độ tương tự cực đại (Single-link) tạo cụm chuỗi dòng 364 b Phân cụm phân cấp BIRCH  Balanced Iterative Reducing Clustering Using Hierarchies    Tính khả cỡ: Làm việc với tập liệu lớn Tính bất động: Gán khơng đổi đối tượng –> cụm Khái niệm liên quan  Đặc trưng phân cụm CF: tóm tắt cụm  CF = , n: số phần tử, LS: vector tổng thành phần liêu; SS : vector tổng bình phương thành phần đối tượng Khi ghép cụm khơng tính lại tổng Cây đặc trưng phân cụm CF Tree      Một cân Hai tham số: bề rộng b ngưỡng t Thuật toán xây dựng DM DW 365 BIRCH: Năm độ đo khoảng cách DM DW 366 Cây đặc trưng phân cụm CF Tree    Mỗi nút khơng có nhiều B cành Mỗi nút có nhiều L đặc trưng phân cụm mà đảm bảo ngưỡng T Cỡ nút xác định số chiều không gian liệu tham số P kích thước trang nhớ DM DW 367 Chèn vào CF Tree BIRCH   Cây ban đầu rỗng Chèn “cụm” a vào     Xác định thích hợp: Duyệt từ gốc xuống cách đệ quy để tới nút gần a theo khoảng cách nói Biến đổi lá: Nếu gặp L1 gần a nhất, kiểm tra xem L1 có “hấp thụ“ a khơng (chưa vượt ngưỡng); có đặc trưng CF L1 bổ sung; Nếu không, tạo nút cho a; khơng đủ nhớ cho cần chia cũ Biến đổi đường tới bổ sung phần tử Tinh chỉnh việc trộn: DW Tian Zhang, Raghu Ramakrishnan, Miron Livny (1996) BIRCH: An Efficient DM Data Clustering Method for Very Large Databases, SIGMOD Conference 1996: 368 103-114 Các thuật toán phân cụm khác   Phân cụm phân cấp từ xuống DIANA    RObust Clustering using linKs: xử lý liệu rời rạc, định “gần” theo tập phần tử láng giềng sim (p, q) > >0 Phân cụm dựa mật độ DBSCAN  Density-Based Spatial Clustering of Application with Noise  #-neighborhood: vùng lân cận bán kính # | #-neighborhood| > MinPts gọi đối tượng lõi P đạt trực mật độ từ q q đối tượng lõi p thuộc #neighborhood q Đạt có dãy mà sau đạt trực tiếp từ trước     Đối ngẫu phân cụm phân cấp từ xuống: phần tử khác biệt -> cụm khác biệt S, Thêm vào S phần tử có d > Phân cụm phân cấp ROCK   Nghiên cứu giáo trình Phân cụm phân cấp dựa mơ hình   Làm phù hợp phân bố cụm với mơ hình tốn học Phân cụm cực đại kỳ vọng, phân cụm khái niệm, học máy mạng nơron DM DW 369 Biểu diễn cụm gán nhãn  Các phương pháp biểu diễn điển hình  Theo đại diện cụm       Đại diện cụm làm tâm Tính bán kính độ lệch chuẩn để xác định phạm vi cụm Cụm khơng ellip/cầu hóa: khơng tốt Theo mơ hình phân lớp  Chỉ số cụm nhãn lớp  Chạy thuật tốn phân lớp để tìm biểu diễn cụm Theo mơ hình tần số  Dùng cho liệu phân loại  Tần số xuất giá trị đặc trưng cho cụm Lưu ý   Dữ liệu phân cụm ellip/cầu hóa: đại diện cụm cho biểu diễn DW tốt DM Cụm hình dạng bất thường khó biểu diễn 370 Gán nhãn cụm  Phân biệt cụm (MU)    Hướng “trọng tâm” cụm   Chọn đặc trưng tương quan cụm Nxy (x có đặc trưng t, y liệu thuộc C)  N11 : số liệu chứa t thuộc cụm C  N10 : số liệu chứa t không thuộc cụm C  N01 : số liệu không chứa t thuộc cụm C  N00 : số liệu không chứa t không thuộc cụm C  N: Tổng số liệu Dùng đặc trưng tần số cao trọng tâm cụm Tiêu đề  Chon đặc trưng liệu cụm gần trọng tâm DM DW 371 Ví dụ: Gán nhãn cụm văn  Ví dụ   Ba phương pháp chọn nhãn cụm cụm cụm (622 tài liệu), cụm (1017 tài liệu), cụm 10 (1259 tài liệu) phân cụm 10000 tài liệu Reuters-RCV1 centroid: từ khóa có tần số cao trọng tâm; mutual information (MU): thông tin liên quan phân biệt cụm; title: tiêu đề tài liệu gần trọng tâm DW Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information DM Retrieval, Cambridge University Press 2008 372 Đánh giá phân cụm  Đánh giá chất lượng phân cụm khó khăn   Chưa biết cụm thực Một số phương pháp điển hình    Người dùng kiểm tra  Nghiên cứu trọng tâm miền phủ  Luật từ định  Đọc liệu cụm Đánh giá theo độ đo tương tự/khoảng cách  Độ phân biệt cụm  Phân ly theo trọng tâm Dùng thuật toán phân lớp  Coi cụm lớp  Học phân lớp đa lớp (cụm)  Xây dựng ma trận nhầm lẫn phân lớp DW  Tính độ đo: entropy, tinh khiết, xác, hồi tưởng, độDM 373 đo F đánh giá theo độ đo Đánh giá theo độ đo tương tự  Độ phân biệt cụm     Cực đại hóa tổng độ tương tự nội cụm Cực tiểu hóa tổng độ tương tự cặp cụm khác Lấy độ tương tự cực tiểu (complete link), cực đại (single link) Một số phương pháp điển hình  Phân ly theo trọng tâm DM DW 374 Ví dụ: Chế độ đặc điểm phân cụm web  Hai chế độ    Trực tuyến: phân cụm kết tìm kiếm người dùng Ngoại tuyến: phân cụm tập văn cho trước Đặc điểm   Chế độ trực tuyến: tốc độ phân cụm  Web số lượng lớn, tăng nhanh biến động lớn  Quan tâm tới phương pháp gia tăng Một lớp quan trọng: phân cụm liên quan tới câu hỏi tìm kiếm  Trực tuyến  Ngoại tuyến Carpineto C., Osinski S., Romano G., Weiss D (2009) A survey of web clustering engines, ACM Comput Surv , 41(3), Article 17, 38 pages DW DM 375 Ví dụ DM DW 376 Phân cụm kết tìm kiếm DM DW 377 Trường Đại học Phan Thiết Bài giảng KHAI PHÁ DỮ LIỆU ...NỘI DUNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP PHÂN LỚP, PHÂN CỤM DỮ LIỆU DM DW Chương Tổng quan Khai phá liệu KHAI. .. Tổng quan Khai phá liệu KHAI PHÁ DỮ LIỆU Nội dung Nhu cầu khai phá liệu (KPDL) Khái niệm KDD KPDL Khai phá liệu quản trị CSDL Kiểu liệu KPDL Kiểu mẫu khai phá Cơng nghệ KPDL điển hình Một số ứng... Mỹ /1 GB vào năm 2020  Dung lượng tổng thể tăng  Độ dốc tăng cao  Đạt 35 ZB vào năm 2020 DM DW 14 Nhu cầu nắm bắt liệu  Bùng nổ liệu với tăng trưởng nhận lực CNTT  Dung lượng thông tin tăng

Ngày đăng: 08/11/2022, 15:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w