Giới thiệu Ngô Xuân Bách Học viện Công nghệ Bưu chính Viễn thông Khoa Công nghệ thông tin 1 Nhập môn trí tuệ nhân tạo Trí tuệ nhân tạo có thể làm gì? (1/14) http //www ptit edu vn2 Xếp hạng trang web[.]
Học viện Cơng nghệ Bưu Viễn thơng Khoa Cơng nghệ thơng tin Nhập mơn trí tuệ nhân tạo Giới thiệu Ngơ Xn Bách Trí tuệ nhân tạo làm gì? (1/14) Xếp hạng trang web truy xuất thơng tin (Ranking) http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (2/14) Dịch máy (Machine Translation) http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (3/14) Kiểm lỗi tả - Spelling http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (4/14) Nhận dạng tiếng nói – Automatic Speech Recognition (ASR) http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (5/14) Tổng hợp tiếng nói Speech Synthesis - Text to Speech (TTS) https://text-to-speech-demo.mybluemix.net/ http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (6/14) Trả lời câu hỏi tự động (Question Answering) http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (7/14) Chatbot http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (8/14) Nhận dạng mặt người (Face Detection) http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (9/14) Xe tự hành (Driverless Cars) 10 http://www.ptit.edu.vn Training error Test error (2/2) i.i.d assumptions (independent, identically distributed) o o Giả thiết mẫu liệu (cả tập huấn luyện tập kiểm tra) độc lập, tập liệu huấn luyện kiểm tra có phân phối Nếu ta cố định tham số mơ hình lỗi huấn luyện lỗi kiểm tra ▪ Trong trình huấn luyện tham số tối ưu theo lỗi huấn luyện, lỗi kiểm tra thường lớn lỗi huấn luyện Hai yếu tố đánh giá độ tốt thuật toán học máy o o 34 Khả giảm thiểu lỗi huấn luyện Khả giảm thiểu khoảng cách lỗi huấn luyện lỗi kiểm tra http://www.ptit.edu.vn Underfitting Overfitting Underfitting: vừa; Overfitting: vừa Generalization error = test error Capacity: Khả mơ hình 35 http://www.ptit.edu.vn Chống vừa cách tỉa Chia liệu thành hai phần o o Huấn luyện Kiểm tra Tạo đủ lớn liệu huấn luyện Tính độ xác tập kiểm tra Loại bỏ cho kết liệu kiểm tra cải thiện Lặp lại khơng cịn cải thiện kết 36 http://www.ptit.edu.vn Chống vừa liệu cách tỉa luật (C4.5) Biến đổi thành luật Tỉa luật độc lập với luật khác o Bỏ số phần vế trái luật Sắp xếp luật sau tỉa theo mức độ xác luật 37 http://www.ptit.edu.vn Sử dụng thuộc tính có giá trị liên tục Tạo thuộc tính rời rạc Ví dụ, với thuộc tính liên lục 𝐴, tạo thuộc tính rời rạc 𝐴𝑐 sau o o Xác định ngưỡng 𝑐 nào? o 𝐴𝑐 = 𝑡𝑟𝑢𝑒 A > 𝑐 𝐴𝑐 = 𝑓𝑎𝑙𝑠𝑒 A ≤ 𝑐 Thường chọn cho 𝐴𝑐 đem lại độ tăng thông tin lớn Có thể chia thành nhiều khoảng với nhiều ngưỡng 38 http://www.ptit.edu.vn Các độ đo khác Độ đo Information Gain (IG) ưu tiên thuộc tính có nhiều giá trị, ví dụ, thuộc tính ngày có độ tăng thông tin cao Thông tin chia SplitInformation ( S , A) = − c i =1 Si S log Si S Tiêu chuẩn đánh giá thuộc tính InformationGain( S , A) GainRatio = SplitInformation( S , A) 39 http://www.ptit.edu.vn Nội dung Giới thiệu Học định Phân loại Bayes đơn giản (Nạve Bayes classification) Học dựa ví dụ 40 http://www.ptit.edu.vn Phương pháp phân loại Bayes (1/2) Trong giai đoạn huấn luyện ta có tập mẫu, mẫu cho cặp < 𝒙𝑖 , 𝑦𝑖 >, o o 𝒙𝑖 vector đặc trưng (thuộc tính) 𝑦𝑖 nhãn phân loại,𝑦𝑖 ∈ 𝐶 (𝐶 tập nhãn) Sau huấn luyện xong, phân loại cần dự đoán nhãn 𝑦 cho mẫu 𝒙 =< 𝑥1 , 𝑥2 , … , 𝑥𝑛 > 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑗 ∈𝐶 𝑃(𝑐𝑗 |𝑥1 , 𝑥2 , … , 𝑥𝑛 ) Sử dụng quy tắc Bayes 𝑃 𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝑐𝑗 𝑃(𝑐𝑗 ) 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑗 ∈𝐶 𝑃(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑗 ∈𝐶 𝑃 𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝑐𝑗 𝑃(𝑐𝑗 ) 41 http://www.ptit.edu.vn Phương pháp phân loại Bayes (2/2) Tần xuất quan sát thấy nhãn 𝑐𝑗 tập liệu D: 𝑐𝑜𝑢𝑛𝑡(𝑐𝑗 ) |𝐷| 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑗 ∈𝐶 𝑃 𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝑐𝑗 𝑃(𝑐𝑗 ) Sử dụng giả thiết tính độc lập (Đơn giản!!!) 𝑃 𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝑐𝑗 = 𝑃 𝑥1 |𝑐𝑗 𝑃 𝑥2 |𝑐𝑗 … 𝑃 𝑥𝑛 |𝑐𝑗 Số lần xuất 𝑥𝑖 với 𝑐𝑗 chia cho số lần xuất 𝑐𝑗 : 42 𝑐𝑜𝑢𝑛𝑡(𝑥𝑖 ,𝑐𝑗 ) 𝑐𝑜𝑢𝑛𝑡(𝑐𝑗 ) http://www.ptit.edu.vn Ví dụ Xác định nhãn phân loại cho mẫu sau < 𝑇𝑟ờ𝑖 = 𝑛ắ𝑛𝑔, 𝑁ℎ𝑖ệ𝑡 độ = 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, Độ ẩ𝑚 = 𝑐𝑎𝑜, 𝐺𝑖ó = 𝑚ạ𝑛ℎ > 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈ 𝑐ó,𝑘ℎơ𝑛𝑔 𝑃 𝑇𝑟ờ𝑖 = 𝑛ắ𝑛𝑔 𝑐 𝑃 𝑁ℎ𝑖ệ𝑡 độ = 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ 𝑐 𝑃 Độ ẩ𝑚 = 𝑐𝑎𝑜 𝑐 𝑃 𝐺𝑖ó = 𝑚ạ𝑛ℎ 𝑐 𝑃(𝑐) 43 http://www.ptit.edu.vn Nội dung Giới thiệu Học định Phân loại Bayes đơn giản Học dựa ví dụ (Instance based learning) 44 http://www.ptit.edu.vn Nguyên tắc chung Không xây dựng mơ hình Chỉ lưu lại mẫu huấn luyện Xác định nhãn cho mẫu dựa mẫu giống mẫu Gọi học lười (lazy learning) 45 http://www.ptit.edu.vn Thuật tốn 𝑘 hàng xóm gần 𝑘-nearest neighbors (𝑘-NN) Chọn 𝑘 mẫu giống mẫu cần phân loại nhất, gọi 𝑘 hàng xóm Gán nhãn phân loại cho mẫu sử dụng thông tin 𝑘 hàng xóm o Ví dụ lấy theo đa số số 𝑘 hàng xóm Chọn hàng xóm nào? 46 http://www.ptit.edu.vn Tính khoảng cách Giả sử mẫu 𝑥 có giá trị thuộc tính < 𝑎1(𝑥), 𝑎2(𝑥), … , 𝑎𝑛(𝑥) > , thuộc tính số thực Khoảng cách hai mẫu 𝑥𝑖 𝑥𝑗 khoảng cách Euclidean 𝑛 𝑑 𝑥𝑖 , 𝑥𝑗 = 47 𝑙=1 (𝑎𝑙 𝑥𝑖 − 𝑎𝑙 𝑥𝑗 )2 http://www.ptit.edu.vn Thuật toán 𝑘-NN 48 http://www.ptit.edu.vn ... http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (7/14) Chatbot http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (8/14) Nhận dạng mặt người (Face Detection) http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì?... http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (10/14) Hệ tư vấn (Recommender Systems) 11 http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (11/14) Lập lịch bay (Planning) 12 http://www.ptit.edu.vn Trí tuệ nhân tạo. .. CMU) 14 http://www.ptit.edu.vn Trí tuệ nhân tạo làm gì? (14/14) Rất nhiều ứng dụng khác (Liang, 2013) 15 http://www.ptit.edu.vn Trí tuệ nhân tạo gì? Trí tuệ nhân tạo (TTNT) (Artificial Intelligence)