1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy

59 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 3,34 MB

Nội dung

Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy cung cấp cho người học những kiến thức như: Phân cụm dữ liệu; Phân cụm mờ; Hồi quy tuyến tính; Phân lớp SVM. Mời các bạn cùng tham khảo!

LOGO LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 11 Một số mơ hình học máy Nội dung Phân cụm liệu Phân cụm mờ Hồi quy tuyến tính Phân lớp SVM Phân cụm ◼◼Phân cụm (clustering) Phát cụm liệu, cụm tính chất,… ❑❑ ◼◼Community ◼◼ Phát detection cộng đồng mạng xã hội Tổng quan ❖PCDL lĩnh vực liên ngành phát triển mạnh mẽ Ở mức nhất, đưa định nghĩa PCDL sau [10][11]: "PCDL kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định" Tổng quan ❖Như vậy, PCDL trình phân chia tập DL ban đầu thành cụm DL cho: ▪ Các phần tử cụm "tương tự" (Similar) ▪ Các phần tử cụm khác "phi tương tự" (Dissimilar) ▪ Số cụm xác định trước theo kinh nghiệm tự động Tổng quan Các hướng tiếp cận phân cụm ❖Trong học máy, PCDL xem vấn đề học giám sát ▪ Nó phải giải vấn đề tìm cấu trúc tập hợp DL chưa biết trước thông tin lớp/tập VDHL ❖Nhiều trường hợp, phân lớp(Classification) xem học có giám sát PCDL bước phân lớp DL ▪ Trong PCDL khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm dl Tổng quan Các hướng tiếp cận phân cụm ❖Vấn đề thường gặp PCDL hầu hết DL cần phân cụm có DL "nhiễu" (noise) q trình thu thập thiếu xác, không đầy đủ ❖Cần phải xây dựng chiến lược cho bước tiền xử lý DL để loại bỏ "nhiễu" trước bước vào giai đoạn phân tích PCDL ❖Kỹ thuật xử lý nhiễu phổ biến thay giá trị thuộc tính đối tượng "nhiễu" giá trị thuộc tính tương ứng đối tượng DL gần Tổng quan Các hướng tiếp cận phân cụm ❖Tìm phần tử ngoại lai (Outlier) hướng nghiên cứu quan trọng PCDL Data Mining ❖Xác định nhóm nhỏ đối tượng DL "khác thường" so với DL để tránh ảnh hưởng chúng tới trình kết PCDL ❖Khám phá phần tử ngoại lai phát triển ứng dụng viễn thơng, dị tìm gian lận thương mại làm liệu,… Tổng quan ❖PCDL vấn đề khó, phải giải vấn đề sau: ▪ Xây dụng hàm tính độ tương tự ▪ Xây dựng tiêu chuẩn phân cụm ▪ Xây dụng mơ hình cho cấu trúc cụm liệu ▪ Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo ▪ Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Tổng quan ❖Đến chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc cụm DL ❖Các phương pháp PC cần có cách thức biểu diễn cấu trúc cụm DL, với cách thức biểu diễn tương ứng thuật toán PC phù hợp ❖PCDL vấn đề mở khó, cần giải vấn đề phù hợp với nhiều dạng DL khác nhau, đặc biệt DL hỗn hợp, thách thức lớn lĩnh vực Data Mining 10 Các thuật toán phân cụm ví dụ minh họa Các thuật tốn phân cụm ví dụ minh họa ❖ Bước 4-1: Lặp lại bước – Tính tốn khoảng cách ➢ d(A, c1 ) = < d(A, c2 ) = 3.14 A thuộc cụm ➢ d(B, c1 ) = < d(B, c2 ) = 2.36 B thuộc cụm ➢ d(C, c1 ) = 3.61 > d(C, c2 ) = 0.47 C thuộc cụm ➢ d(D, c1 ) = > d(D, c2 ) = 1.89 D thuộc cụm Các thuật tốn phân cụm ví dụ minh họa ❖ Bước 4-2: Lặp lại bước ➢ d(A, c1 ) = 0.5 < d(A, c2 ) = 4.3 A thuộc cụm ➢ d(B, c1 ) = 0.5 < d(B, c2 ) = 3.54 B thuộc cụm ➢ d(C, c1 ) = 3.2 > d(C, c2 ) = 0.71 C thuộc cụm ➢ d(D, c1 ) = 4.61 > d(D, c2 ) = 0.71 D thuộc cụm => Vì khơng có thay đổi trọng tâm cụm nên thuật toán dừng ➢ Với: cụm gồm: A,B cụm gồm: C,D Các thuật toán phân cụm ThuậttốnK-‐means • Khởi tạo khơng tốt dẫn đến kết phân cụm Phân cụm K-mean ◼◼Phân cụm (clustering) Đầu vào: tập liệu khơng có nhãn (các ví dụ khơng có nhãn lớp giá trị đầu mong muốn) ❑❑ Đầu ra: cụm (nhóm) ví dụ ❑❑ ◼◼Một cụm (cluster) tập ví dụ Tương tự với (theo ý nghĩa, đánh giá đó) ❑❑Khác biệt với ví dụ thuộc cụm khác ❑❑ Sau phân cụm 49 Phân cụm K-mean ◼◼Phân cụm (clustering) Đầu vào: tập liệu khơng có nhãn (các ví dụ khơng có nhãn lớp giá trị đầu mong muốn) ❑❑ Đầu ra: cụm (nhóm) ví dụ ❑❑ ◼◼Một cụm (cluster) tập ví dụ Tương tự với (theo ý nghĩa, đánh giá đó) ❑❑Khác biệt với ví dụ thuộc cụm khác ❑❑ Sau phân cụm 50 Phân cụm K-mean ◼◼Giải thuật phân cụm • Dựa phân hoạch (Partition-based clustering) • Dựa tích tụ phân cấp (Hierarchical clustering) • Bản đồ tự tổ thức (Self-organizing map – SOM) • Các mơ hình hỗn hợp (Mixture models) • … ◼◼Đánh giá chất lượng phân cụm (Clustering quality) • Khoảng cách/sự khác biệt cụm → Cần cực đại hóa • Khoảng cách/sự khác biệt bên cụm → Cần cực tiểu hóa 51 Phân cụm K-mean giới thiệu Lloyd năm 1957 ◼◼Là phương pháp phân cụm phổ biến phương pháp dựa phân hoạch (partition-based clustering) ◼◼K-means ◼◼Biểu diễn liệu: D={x1,x2,…,xr} • xi ví dụ (một vectơ không gian n chiều) ◼◼Giải thuật K-means phân chia tập liệu thành k cụm • Mỗi cụm (cluster) có điểm trung tâm, gọi centroid •k (tổng số cụm thu được) giá trị cho trước (vd: định người thiết kế hệ thống phân cụm) 52 Phân cụm K-mean Đầu vào: tập học D, số lượng cụm k, khoảng cách d(x,y) • Bước Chọn ngẫu nhiên k ví dụ (được gọi hạt nhân – seeds) để sử dụng làm điểm trung tâm ban đầu (initial centroids) k cụm • Bước Lặp liên tục hai bước sau gặp điều kiện hội tụ (convergence criterion): ❑❑ ❑❑ 53 Bước 2.1 Đối với ví dụ, gán vào cụm (trong số k cụm) mà có tâm (centroid) gần ví dụ Bước 2.2 Đối với cụm, tính tốn lại điểm trung tâm (centroid) dựa tất ví dụ thuộc vào cụm Phân cụm K-mean 54 Phân cụm K-mean 55 Phân cụm K-mean ◼◼Mặc dù có nhược điểm trên, k-means giải thuật phổ biến dùng để giải tốn phân cụm – tính đơn giản hiệu • Các giải thuật phân cụm khác có nhược điểm riêng ◼◼Về tổng qt, khơng có lý thuyết chứng minh giải thuật phân cụm khác hiệu k-means • Một số giải thuật phân cụm phù hợp số giải thuật khác số kiểu tập liệu định, số toán ứng dụng định ◼◼So sánh hiệu giải thuật phân cụm nhiệm vụ khó khăn (thách thức) • Làm để biết cụm kết thu xác? 56 Phân cụm FCM Phương pháp phân cụm ❖ Phân cụm rõ: liệu chia vào cụm, điểm liệu thuộc vào xác cụm ❖ Phân cụm mờ: điểm liệu thuộc vào nhiều cụm tương ứng với điểm liệu ma trận độ thuộc ❖ Phân cụm mờ bán giám sát: phân cụm mờ kết hợp với thơng tin bổ trợ hình thành lên nhóm thuật tốn gọi phân cụm mờ bán giám sát 57 Phân cụm FCM ❖ Thuật tốn Fuzzy C-means • Hàm mục tiêu N C J =  ukjm X k − V j → k =1 j =1 • Điều kiện ràng buộc C u j =1 kj ukj  0,1; = 1; k = 1, N • Tính tâm cụm C Vj = u k =1 C m kj u k =1 Xk m kj • Tính hàm mức độ thành viên u kj =  X k −Vj    X k − Vi i =1  C 58  m−1    LOGO ... tích cấu trúc liệu nội tại, điều khác với phân lớp 26 Cách tiếp cận phân cụm Phân cụm gì? ➢ Là trình phân chia tập liệu ban đầu thành cụm liệu thỏa mãn: - Các đối tượng cụm “tương tự” - Các đối tượng... phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định" Tổng quan ❖Như vậy, PCDL trình phân chia tập DL ban đầu thành cụm DL cho: ▪ Các phần... hàm tính độ tương tự ▪ Xây dựng tiêu chuẩn phân cụm ▪ Xây dụng mơ hình cho cấu trúc cụm liệu ▪ Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo ▪ Xây dựng thủ tục biểu diễn đánh giá kết

Ngày đăng: 09/08/2021, 18:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN