1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Trí tuệ nhân tạo: Bài 12 - Trương Xuân Nam

44 33 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 1,2 MB

Nội dung

Bài giảng Trí tuệ nhân tạo: Bài 12 Học máy và Cây quyết định cung cấp cho người học những kiến thức như: Học máy là gì? Một số khái niệm liên quan; Cây quyết định (decision tree); Giải thuật đâm chồi; Thuật toán ID3; Xây dựng tập luật từ cây quyết định; Bài tập ứng dụng.

TRÍ TUỆ NHÂN TẠO Bài 12: Học máy Cây định Nội dung Học máy gì? Một số khái niệm liên quan Cây định (decision tree) Giải thuật đâm chồi Thuật toán ID3 Xây dựng tập luật từ định Bài tập ứng dụng TRƯƠNG XUÂN NAM Phần Học máy gì? TRƯƠNG XUÂN NAM Học máy gì?  Tiếng Anh: Machine Learning  Khái niệm: Nghiên cứu phương pháp xây dựng khả tự thu thập tri thức máy tính (từ liệu có từ mơi trường)  Chỉ nhiều định nghĩa  Các phương pháp bản: nhiều, không kể hết       Hồi quy Cây định (DC – Decision Tree) Phân loại bayer đơn giản (NBC – Naive Bayes Classifier) Máy vector hỗ trợ (SVM - Support Vector Machine) Mạng thần kinh nhân tạo (ANN – Artificial Neural Network) … TRƯƠNG XUÂN NAM Học máy gì?  Học máy ≠ Học thuộc lịng:  Học thuộc lịng (học vẹt): tri thức có nạp vào máy tính  Học máy = học hiểu: máy tính nhận thức tri thức nạp vào, tổng qt hóa áp dụng vào tình  Học máy  Cung cấp cho máy tính khả định trường hợp không chuẩn bị trước  Học có giám sát (học có thầy):  Học có dẫn (learning by instruction)  Học suy luận (learning by deduction)  Học quy nạp (learning by induction)  Học không giám sát (học không thầy):  Học qua quan sát (learning by observation)  Học qua khám phá (learning by discovery) TRƯƠNG XUÂN NAM Các lớp tốn  Học có giám sát (supervised learning): học cách tiên đoán đầu  Hồi quy (regression): đầu số vector  Phân lớp (classification): đầu xác suất dự báo  Học tăng cường (reinforcement learning): hiệu chỉnh siêu tham số (hyperparameter) để cực đại hóa lợi ích tương lai  “reinforcement learning is difficult” – Geoffrey Hilton  Chìa khóa để tạo “strong AI” – cỗ máy tự học tự hồn thiện  Hiện chưa có nhiều tiến mơ hình  Nhưng có nhiều thành cơng kết hợp với kĩ thuật (AlphaZero chẳng hạn) TRƯƠNG XUÂN NAM Các lớp toán  Học không giám sát (unsupervised learning): tự khai phá đặc trưng nội hợp lý đầu vào  Như “hợp lý”:  Biến đổi liệu đầu vào có số chiều cao thành liệu có số chiều thấp (nhưng khơng thơng tin khơng đáng kể)  Dữ liệu có số chiều cao đặc trưng thành phần có tính “kinh tế” (economical)  Gom cụm liệu đầu vào TRƯƠNG XUÂN NAM Phần Một số khái niệm liên quan TRƯƠNG XUÂN NAM Một số khái niệm liên quan  Tập liệu huấn luyện (training dataset): tập liệu sử dụng để dạy máy tính học  Dữ liệu thật thu thập từ thực tế  Tập liệu cần có tính phổ qt (đa dạng), không tập trung vào trường hợp đặc thù  Chất lượng mẫu đủ tốt để học  Càng nhiều mẫu tốt (?)  Một số phương pháp học máy tự tách tập liệu làm đôi (khi huấn luyện) để kiểm chứng trình học, kỹ thuật gọi k-fold cross-validation (xác thực chéo gấp k) TRƯƠNG XUÂN NAM Một số khái niệm liên quan  Tập liệu kiểm tra (testing dataset): tập liệu sử dụng để kiểm tra kết học máy tính  Dữ liệu thật thu thập từ thực tế, có tính phổ qt  Có mẫu chất lượng khơng thật tốt để kiểm tra trường hợp nhập nhằng  Làm để đánh giá kết học máy?  Cứ kiểm tra thử, máy trả lời nhiều tốt! Vậy kết trả lời dạng số sao?  Có tốn trả lời khơng sao, trả lời sai nghiêm trọng (chẳng hạn chuẩn đoán bệnh), nên đánh giá kết học nào?  Nói chung: nhiều kĩ thuật, tùy thuộc vào toán cụ thể TRƯƠNG XN NAM 10 Ví dụ q trình đâm chồi (2) Độ tuổi Già Trung niên [1] [5] (Nghỉ hưu) [2] [6] (Đi làm) Thanh niên Nghề nghiệp Làm nông Sinh viên [3] (Đi học) TT Độ tuổi Nghề nghiệp Chuyên môn [4] (Đi làm) Hiện trạng Già Bác sĩ Đa khoa Nghỉ hưu Trung niên Giảng viên Toán Đi làm Thanh niên Sinh viên Toán Đi học Thanh niên Làm nông - Đi làm Già Giảng viên Tin học Nghỉ hưu Trung niên Bác sĩ Răng Đi làm TRƯƠNG XUÂN NAM 30 Phần Thuật toán ID3 TRƯƠNG XUÂN NAM 31 Thế định tốt?  Giải thuật đâm chồi sinh nhiều định khác nhau, tùy thuộc vào việc chọn thuộc tính đâm chồi  Vậy tốt?  Một tiêu chuẩn thuật toán học máy “tốt” khả tổng quát hóa cao  Khả tổng qt hóa tốt  nhánh  Đây khả cao mà thôi, chẳng hạn nhánh mà q cân không tốt  Ý tưởng: greedy (tham lam), chọn thuộc tính đem lại cho ta nhiều thơng tin  Vấn đề: Thế “đem lại nhiều thông tin nhất”? TRƯƠNG XUÂN NAM 32 Hàm đo entropy  P tập n loại giá trị khác  Gọi pi xác suất xuất giá trị thứ i tập P  Hàm đo Entropy tập P định nghĩa sau: 𝑛 𝐸 𝑃 =− 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 𝑖=1  Trong trường hợp P gồm loại giá trị:  E(P) = tập P tất thuộc loại  E(P) = mẫu phân bổ (mỗi loại chiếm nửa)  < E(P) < trường hợp cịn lại  Ví dụ: P = {1, 1, 2, 2, 2, 2}  Như p1=1/3, p2=2/3  E(P) = -(1/3 x log2 1/3 + 2/3 x log2 2/3) = 0.918296 TRƯƠNG XUÂN NAM 33 Thuật toán ID3  Thuật toán ID3 mong muốn chọn thuộc tính phân loại tốt với nút theo nghĩa cách chọn thuộc tính đem lại nhiều entropy cho định  ID3 lập luận sau:  Khi chọn thuộc tính AX để phân hoạch: Tập S chia thành tập (S1, S2, …, Sw) ứng với w giá trị thuộc tính AX  E(S) lượng entropy ban đầu S  E(Si) lượng entropy tập Si  Vậy lượng entropy thu qua phân hoạch AX là: 𝑤 𝑆𝑖 𝐸 𝑆, 𝐴𝑋 = 𝐸 𝑆 − 𝐸(𝑆𝑖 ) 𝑆 𝑖=1  ID3 = xét thuộc tính Ai chọn AX có E(S, AX) lớn TRƯƠNG XUÂN NAM 34 Hãy thử thuật toán ID3 với dataset ví dụ TT Độ tuổi Nghề nghiệp Chun mơn Hiện trạng Già Bác sĩ Đa khoa Nghỉ hưu Trung niên Giảng viên Toán Đi làm Thanh niên Sinh viên Toán Đi học Thanh niên Làm nông - Đi làm Già Giảng viên Tin học Nghỉ hưu Trung niên Bác sĩ Răng Đi làm (yêu cầu sinh viên tự thực hiện) TRƯƠNG XUÂN NAM 35 Phần Xây dựng tập luật từ định TRƯƠNG XUÂN NAM 36 Xây dựng tập luật từ định  Từ định, xây dựng tập luật suy dẫn cách hình thành luật lấy vế trái thuộc tính đường từ gốc, vế phải thuộc tính kết luận  Không thể làm ngược lại số trường hợp (chuyển từ tập luật định) TRƯƠNG XUÂN NAM 37 Xây dựng tập luật từ định Độ tuổi Già Trung niên [1] [5] (Nghỉ hưu) [2] [6] (Đi làm) Tập luật thu được: - Thanh niên Nghề nghiệp Làm nông Sinh viên [3] (Đi học) [4] (Đi làm) Nếu “Độ tuổi” “Già” “Nghỉ hưu” Nếu “Độ tuổi” “Trung niên” “Đi làm” Nếu “Độ tuổi” “Thanh niên” “Nghề nghiệp” “Sinh viên” “Đi học” Nếu “Độ tuổi” “Thanh niên” “Nghề nghiệp” “Làm nơng” “Đi làm” Xét khía cạnh tập luật xem quy luật liệu, thân người thường xuyên rút nhận xét quan sát thực tế TRƯƠNG XUÂN NAM 38 Đặc điểm định  Ưu điểm:     Dễ hiểu, đơn giản Khơng cần chuẩn hóa liệu Xử lý liệu số phi số Trong suốt: • Có thể quan sát trình phát triển (khám phá liệu) • Có thể quan sát q trình định (phân loại)  Có thể chuyển đổi thành luật  Nhược điểm:  Không phù hợp với liệu liên tục, phụ thuộc thời gian  Không tốt liệu có nhiều phân lớp (và số lượng mẫu khơng đủ lớn tốt)  Chi phí tính toán tương đối cao TRƯƠNG XUÂN NAM 39 Phần Bài tập ứng dụng TRƯƠNG XUÂN NAM 40 Quản lý sân golf: toán  Một nhà quản lý sân golf thường phải định xem cần bao nhiều người phục vụ sân golf vào ngày hôm nay, số người phục vụ phụ thuộc vào số người đến chơi golf  Nhà quản lý quan sát người chơi golf thông số thời tiết vào ghi chép vào sổ, tham số sau:      Bầu trời (outlook): nắng (sunny) / mây (overcast) / mưa (rain) Nhiệt độ (temperature): Độ F Độ ẩm (humidity): số %, 70% khơ Gió mạnh (windy): có / khơng Tình trạng có đến chơi golf hay không  Dưa vào ghi chép nhà quản lý tìm quy luật chơi golf khách hàng TRƯƠNG XUÂN NAM 41 Quản lý sân golf: liệu TRƯƠNG XUÂN NAM 42 Quản lý sân golf: định TRƯƠNG XUÂN NAM 43 Quản lý sân golf: quy luật ứng dụng  Như tạm rút kết luận (bộ luật):  Trời nhiều mây: Mọi người chơi golf  Trời nắng: Chỉ chơi trời khô (ẩm

Ngày đăng: 09/08/2021, 17:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w