Học Máy (IT4862)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	24
Dung lượng	688,86 KB

Nội dung

Học Máy (IT4862) Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang nguyennhat@hust edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020 2021[.]

Nhập môn Học máy Khai phá liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ❑ ❑ Bài toán phân lớp Học dựa láng giềng gần (Nearest neighbors learning) ◼ Phân cụm ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Bài toán phân lớp ◼ Phân lớp (classification) thuộc nhóm tốn học có giám sát (supervised learning) ◼ Mục tiêu toán phân lớp dự đoán giá trị rời rạc (kiểu định danh) f: X → Y đó, Y tập hữu hạn giá trị rời rạc (discrete values) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Bài toán phân lớp: Đánh giá hiệu Accuracy = D _ test  Identical(o( x), c( x)); xD _ test (a = b) 1, if Identical(a, b) =  0, if otherwise •x: Một ví dụ tập thử nghiệm D_test •o(x): Phân lớp đưa hệ thống ví dụ x •c(x): Phân lớp thực (đúng) ví dụ x Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Ma trận nhầm lẫn (Confusion matrix) ◼ ◼ Còn gọi Contingency Table Chỉ sử dụng tốn phân lớp ❑ Khơng thể áp dụng cho tốn hồi quy (dự đốn) • TPi: Số lượng ví dụ thuộc lớp ci phân loại xác vào lớp ci • FPi: Số lượng ví dụ không thuộc lớp ci bị phân loại nhầm vào lớp ci • TNi: Số lượng ví dụ khơng thuộc lớp ci phân loại xác Lớp ci Được phân lớp hệ thống Thuộc Phân lớp Thuộc thực (đúng) Ko thuộc Ko thuộc TPi FNi FPi TNi • FNi: Số lượng ví dụ thuộc lớp ci- bị phân loại nhầm (vào lớp khác ci) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Precision and Recall (1) ◼ ◼ Rất hay sử dụng để đánh giá hệ thống phân lớp văn (document classification) Precision lớp ci → Tổng số ví dụ thuộc lớp ci phân lớp xác chia cho tổng số ví dụ phân lớp vào lớp ci ◼ Recall lớp ci → Tổng số ví dụ thuộc lớpci phân lớp xác chia cho tổng số ví dụ thuộc lớp ci Pr ecision(ci ) = TPi TPi + FPi TPi Re call(ci ) = TPi + FN i Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Precision and Recall (2) ◼ Làm để tính tốn giá trị Precision Recall (một cách tổng thể) cho toàn lớp C={ci}? ◼ Trung bình vi mơ (Micro-averaging) C Pr ecision =  TP  TP i i =1 Re call = C  (TP + FP ) i =1 ◼ C i i i =1 i C  (TP + FN ) i i =1 i Trung bình vĩ mô (Macro-averaging) C Pr ecision =  Pr ecision(c ) C i i =1 C Re call = Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining  Re call(c ) i i =1 C F1 ◼ Tiêu chí đánh giá F1 kết hợp tiêu chí đánh giá Precision Recall F1 = ◼ Pr ecision.Re call = Pr ecision + Re call 1 + Pr ecision Re call F1 trung bình điều hịa (harmonic mean) tiêu chí Precision Recall • F1 có xu hướng lấy giá trị gần với giá trị nhỏ giá trị Precision Recall • F1 có giá trị lớn giá trị Precision Recall lớn Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Top-k accuracy ◼ Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Học dựa láng giềng gần ◼ Một số tên gọi khác phương pháp học dựa láng giềng gần (Nearest neighbor learning) • Instance-based learning • Lazy learning • Memory-based learning ◼ Ý tưởng phương pháp học dựa láng giềng gần • Với tập ví dụ học ─ ─ (Đơn giản là) lưu lại ví dụ học Chưa xây dựng mơ hình (mơ tả) rõ ràng tổng quát hàm mục tiêu cần học • Đối với ví dụ cần phân loại/hồi quy ─ Xét quan hệ ví dụ với ví dụ học để gán giá trị hàm mục tiêu (một nhãn lớp, giá trị thực) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 10 Học dựa láng giềng gần ◼ Biểu diễn đầu vào tốn • Mỗi ví dụ x biểu diễn vectơ n chiều không gian vectơ XRn • x = (x1,x2,…,xn), xi (R) số thực ◼ Có thể áp dụng với kiểu tốn học • Bài tốn phân lớp (classification) Hàm mục tiêu có giá trị rời rạc (a discrete-valued target function) ─ Đầu hệ thống số giá trị rời rạc xác định trước (một nhãn lớp) ─ • Bài tốn hồi quy (regression) Hàm mục tiêu có giá trị liên tục (a continuous-valued target function) ─ Đầu hệ thống giá trị số thực ─ Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 11 Ví dụ toán phân lớp ◼ Xét láng giềng gần → Gán z vào lớp c2 ◼ Xét láng giềng gần → Gán z vào lớp c1 ◼ Xét láng giềng gần → Gán z vào lớp c1 Lớp c1 Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Lớp c2 Ví dụ cần phân lớp z 12 Giải thuật phân lớp k-NN ◼ Mỗi ví dụ học x biểu diễn thành phần: • Mơ tả ví dụ: x=(x1,x2,…,xn), xiR • Nhãn lớp : c (C, với C tập nhãn lớp xác định trước) ◼ Giai đoạn học • Đơn giản lưu lại ví dụ học tập học: D = {x} ◼ Giai đoạn phân lớp: Để phân lớp cho ví dụ (mới) z • Với ví dụ học xD, tính khoảng cách x z • Xác định tập NB(z) – láng giềng gần z →Gồm k ví dụ học D gần với z tính theo hàm khoảng cách d • Phân z vào lớp chiếm số đông (the majority class) số lớp ví dụ học NB(z) Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 13 Giải thuật hồi quy k-NN ◼ Mỗi ví dụ học x biểu diễn thành phần: • Mơ tả ví dụ: x=(x1,x2,…,xn), xiR • Giá trị đầu mong muốn: yxR (là số thực) ◼ Giai đoạn học • Đơn giản lưu lại ví dụ học tập học D ◼ Giai đoạn dự đoán: Để dự đoán giá trị đầu cho ví dụ z • Đối với ví dụ học xD, tính khoảng cách x z • Xác định tập NB(z) – láng giềng gần z → Gồm k ví dụ học D gần với z tính theo hàm khoảng cách d • Dự đốn giá trị đầu z: yz = y  xNB ( z ) x k Nhập môn Học máy Khai phá liệu – Machine Learning: Algorithms and Applications Introduction to Machine learning and Data mining 14 Một hay nhiều láng giềng gần nhất? ◼ Việc phân lớp (hay dự đoán) dựa láng giềng gần (là ví dụ học gần với ví dụ cần phân lớp/dự đốn) thường khơng xác • Nếu ví dụ học ví dụ bất thường, khơng điển hình (an outlier) – khác so với ví dụ khác • Nếu ví dụ học có nhãn lớp (giá trị đầu ra) sai – lỗi trình thu thập (xây dựng) tập liệu ◼ Thường xét k (>1) ví dụ học (các láng giềng) gần với ví dụ cần phân lớp/dự đoán ◼ Đối với toán phân lớp có lớp, k thường chọn số lẻ, để tránh cân tỷ lệ ví dụ lớp • Ví dụ: k= 3, 5, 7,… Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 15 Hàm tính khoảng cách (1) ◼ Hàm tính khoảng cách d • Đóng vai trị quan trọng phương pháp học dựa láng giềng gần • Thường xác định trước, không thay đổi suốt q trình học phân loại/dự đốn ◼ Lựa chọn hàm khoảng cách d • Các hàm khoảng cách hình học: Dành cho tốn có thuộc tính đầu vào kiểu số thực (xiR) • Hàm khoảng cách Hamming: Dành cho tốn có thuộc tính đầu vào kiểu nhị phân (xi{0,1}) • Hàm tính độ tương tự Cosine: Dành cho toán phân lớp văn (xi giá trị trọng số TF/IDF từ khóa thứ i) Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 16 Hàm tính khoảng cách (2) ◼ Các hàm tính khoảng cách hình học (Geometry distance functions) • Hàm Minkowski (p-norm): 1/ p  n p d ( x, z ) =   xi − zi   i =1  n • Hàm Manhattan (p=1): d ( x, z ) =  xi − zi i =1 • • Hàm Euclid (p=2): Hàm Chebyshev (p=): d ( x, z ) = n  (x − z ) i =1 i i 1/ p  n p d ( x, z ) = lim   xi − zi  p →  i =1  = max xi − zi i Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 17 Hàm tính khoảng cách (3) ◼ Hàm khoảng cách Hamming • Đối với thuộc tính đầu vào kiểu nhị phân ({0,1}) • Ví dụ: x=(0,1,0,1,1) n d ( x, z ) =  Difference( xi , zi ) i =1 1, if (a  b) Difference(a, b) =  0, if (a = b) n ◼ Hàm tính độ tương tự Cosine • Đối với đầu vào vectơ giá trị trọng số (TF/IDF) từ khóa x.z sim( x, z ) = = x z Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining x z i =1 n  xi i =1 i i n  zi i =1 18 Chuẩn hóa miền giá trị thuộc tính ◼ Hàm tính khoảng cách Euclid: d ( x, z ) = n ( ) x − z  i i i =1 ◼ Giả sử ví dụ biểu diễn thuộc tính: Age, Income (cho tháng), Height (đo theo mét) • x = (Age=20, Income=12000, Height=1.48) • z = (Age=40, Income=13000, Height=1.85) ◼ Khoảng cách x z • d(x,z) = [(20-40)2 + (12000-13000)2 + (1.48-1.85)2]1/2 • Giá trị khoảng cách bị định chủ yếu giá trị khoảng cách (sự khác biệt) ví dụ thuộc tính Income → Vì: Thuộc tính Income có miền giá trị lớn so với thuộc tính khác ◼ Cần phải chuẩn hóa miền giá trị (đưa khoảng giá trị) • Khoảng giá trị [0,1] thường sử dụng • Đối với thuộc tính i: xi = xi/max_val(fi) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 19 Trọng số thuộc tính ◼ Hàm khoảng cách Euclid: d ( x, z ) = n ( ) x − z  i i i =1 • Tất thuộc tính có (như nhau) ảnh hưởng giá trị khoảng cách ◼ ◼ Các thuộc tính khác (nên) có mức độ ảnh hưởng khác giá trị khoảng cách Cần phải tích hợp (đưa vào) giá trị trọng số thuộc tính hàm tính khoảng cách n • wi trọng số thuộc tính i: ◼ d ( x, z ) =  wi (xi − zi ) i =1 Làm để xác định giá trị trọng số thuộc tính? • Dựa tri thức cụ thể toán (vd: định chuyên gia lĩnh vực tốn xét) • Bằng q trình tối ưu hóa giá trị trọng số (vd: sử dụng tập học để học giá trị trọng số tối ưu) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 20 ... Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Top-k accuracy ◼ Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Học dựa láng...Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ❑ ❑ Bài toán phân lớp Học dựa láng giềng gần (Nearest neighbors... tập nhãn lớp xác định trước) ◼ Giai đoạn học • Đơn giản lưu lại ví dụ học tập học: D = {x} ◼ Giai đoạn phân lớp: Để phân lớp cho ví dụ (mới) z • Với ví dụ học xD, tính khoảng cách x z • Xác định

Ngày đăng: 22/11/2022, 22:11