1. Trang chủ
  2. » Giáo án - Bài giảng

Giáo trình AI cơ bản HUET

134 46 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 134
Dung lượng 5,04 MB

Nội dung

ĐẠI HỌC HUẾ KHOA KỸ THUẬT VÀ CÔNG NGHỆ BÀI GIẢNG TRÍ TUỆ NHÂN TẠO CƠ BẢN Người biên soạn: TS.LÊ TRUNG HIẾU Huế, tháng 04 năm 2020 LỜI GIỚI THIỆU Bài giảng Trí tuệ nhân tạo tác giả soạn trình xây dựng triển khai Khố AI cho Chương trình HueAI Đại học Huế tài trợ Bài giảng gồm chương Chương tổng quan Trí tuệ nhân tạo vấn đề ứng dụng liên quan Chương trình bày tảng Toán cho AI gồm: Đại số Tuyến tính, Xác suất lý thuyết thơng tin, Numerical Computation Chương giới thiệu Machine Learning Trình bày khái niệm mơ hình Machine Learning Chương trình bày Deep Learning Giới thiệu mơ hình cách biểu diễn mạng Neural Networks Trình bày kiến thức nguyên tắc hoạt động mạng Convolutional Neural Networks Reccurent Neural Networks Trình bày vấn đề liên quan ứng dụng RNN giới thiệu mơ hình Long ShortTerm Memory Phần lớn nội dung giáo trình xây dựng dựa giảng Machine Learning tác giả Andrew Ng tài liệu Machine Learning tác giả Vũ Hữu Tiệp Ngoài ra, tác giả sử dụng nhiều tài liệu Machine Learning Deep Learning, sử dụng nhiều hình ảnh tài liệu khác Do trình chuẩn bị giáo trình gấp nên tác giả chưa hồn thiện trích dẫn nội dung hình ảnh sử dụng giáo trình Đây phiên giáo trình, khơng tránh khỏi lỗi trình bày diễn đạt nội dung Rất mong nhận phản hồi bạn độc giả quan tâm Chân thành cảm ơn Đại học Huế hỗ trợ, tạo điều kiện để Nhóm dự án HueAI hồn thành Khố đào toạ AI Tạo điều kiện cho tác giả hoàn thành phiên giảng Trí tuệ nhân tạo Chân thành cảm ơn đồng nghiệp, bạn học viên có trao đổi nhiệt huyết, chia sẻ chuyên môn hỗ trợ tác giả q trình hồn thành giảng Trân trọng cảm ơn! TS.Lê Trung Hiếu CHƯƠNG GIỚI THIỆU VỀ AI Lược sử phát triển Artificial Intelligence Câu hỏi Trí tuệ nhân tạo hay trí thơng minh nhân tạo trí tuệ biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo (AI) 70 năm trước, với ý tưởng ngày máy tính suy nghĩ người Ước mơ đầy tham vọng thu hút nguồn tài trợ vô dồi dào, sau vài thập kỉ suy giảm nhiều Tuy nhiên, khoảng 25 năm trở lại đây, với phương pháp tiếp cận AI tiến cơng nghệ, tiến gần tới đích đến thực ước mơ nhà tiên phong 1943 – Chiến tranh Thế giới II mang đến suy nghĩ mẻ Chiến tranh Thế giới II quy tụ nhà khoa học từ nhiều lĩnh vực, bao gồm lĩnh vực khoa học thần kinh máy tính Tại Anh, nhà tốn học Alan Turing nhà thần kinh học Grey Walter hai số óc tinh anh giải thách thức máy móc thơng minh Họ trao đổi ý tưởng với Ratio Club Walter tạo số robot Turing tiếp tục phát minh Turing Test, thiết lập cho cỗ máy thông minh: máy tính đánh lừa cách khiến họ nghĩ nói chuyện với người khác 1950 – Khoa học viễn tưởng đạo đối thoại Năm 1950, I Robot mắt Đây sưu tập truyện ngắn nhà văn khoa học viễn tưởng Isaac Asimov Asimov nhà văn khoa học viễn tưởng theo đuổi chủ đề máy móc thơng minh tương lai tưởng tượng Tác phẩm ơng phổ biến, kích thích tư có tầm nhìn, giúp truyền cảm hứng cho hệ nhà khoa học robot học Ông biết đến nhiều với “3 điều luật dành cho robot” (Three Laws of Robotics), đưa nhằm ngăn chặn sáng tạo quay với Nhưng ông tưởng tượng phát triển có lẽ đầu, chẳng hạn máy tính có khả lưu trữ tất kiến thức người mà đặt câu hỏi cho 1956 – Phương pháp tiếp cận “từ xuống” Thuật ngữ “Trí tuệ nhân tạo” đưa hội nghị hè Đại học Dartmouth, nhà khoa học máy tính trẻ tuổi John McCarthy tổ chức Những nhà khoa học hàng đầu tranh luận cách giải AI Một số người, Marvin Minsky người có ảnh hưởng chuyên môn, chọn phương pháp tiếp cận “từ xuống”: máy tính lập trình trước với quy tắc quản lí hành vi người Một số khác lựa chọn phương pháp tiếp cận “từ lên”, chẳng hạn mạng thần kinh mô tế bào não học hỏi hành vi Theo thời gian, quan điểm Minsky chiếm ưu Cùng McCarthy, ông có nguồn tài trợ đáng kể từ Chính phủ Hoa Kì – người hi vọng AI đưa họ lên thượng phong Chiến tranh Lạnh 1968 – Phim “Chuyến du hành không gian” – tưởng tượng nơi AI dẫn đầu Minsky có sức ảnh hưởng mảng khoa học viễn tưởng Ông tư vấn cho Stanley Kubrick phim “Chuyến du hành không gian” (tên gốc: “2001: A Space Odyssey”) máy tính thơng minh – HAL 9000 Trong cảnh quay, vấn BBC nhiệm vụ mình, HAL nói “quá đơn giản để hiểu mà không mắc sai lầm” Khi nhà khoa học giao nhiệm vụ trả lời vấn, ơng nói ơng tin HAL có cảm xúc chân thực Bộ phim phản ánh số dự đoán đưa nhà nghiên cứu AI thời giờ, kể Minsky, máy móc hướng tới trình độ trí tuệ người sớm Nó rõ ràng chạm đến vài nỗi sợ hãi cơng chúng việc AI trở nên cộc cằn 1969 – Vấn đề khó giải AI tụt lại phía sau dự đốn nói q đưa người ủng hộ Minsky – thứ thể rõ ràng robot Shakey Shakey robot di động có khả đưa định hành động cách lí giải mơi trường xung quanh Nó xây dựng đồ khơng gian thấy trước di chuyển Nhưng chậm, kể khu vực có vài vật cản Mỗi lần tiến phía trước, Shakey phải cập nhật đồ Một vật chuyển động phạm vi tầm nhìn Shakey dễ dàng khiến hoang mang, đơi làm dừng hẳn lại lên kế hoạch cho bước Các nhà nghiên cứu dành năm để phát triển Shakey 1973 – Mùa đông AI Vào đầu năm 1970, câu chuyện AI gặp rắc rối Hàng triệu đô-la chi, số cho kết Đã có lời trích mạnh mẽ từ Quốc hội Hoa Kì Năm 1973, dẫn đầu nhà tốn học Sir James Lighthill cơng bố báo cáo tình trạng sức khỏe AI Anh Ông cho cỗ máy đạt trình độ “nghiệp dư có kinh nghiệm”như qn cờ Những lí luận thơng thường nhiệm vụ cho đơn giản nhận diện khuôn mặt vượt khả chúng Chi phí cho ngành cơng nghiệp sau bị cắt giảm, mở thời kì “Mùa đơng AI” John McCarthy xúc trước báo cáo Lighthill Ông bay tới Anh tranh luận phát với Lighthill truyền hình trực tiếp Đài BBC 1981 – Một giải pháp cho doanh nghiệp lớn Thời điểm mà nhà sử gia xác định kết thúc Mùa đông AI giá trị thương mại AI bắt đầu phát hiện, thu hút hoạt động đầu tư Các hệ thống thương mại so mặt tham vọng xa so với AI ban đầu Thay cố gắng tạo trí tuệ chung, “hệ chuyên gia” tập trung vào nhiệm vụ khoanh vùng nhiều Điều có nghĩa chúng cần lập trình với quy tắc dành cho vấn đề cụ thể Hệ chuyên gia thương mại gọi RI bắt đầu hoạt động Công ty Thiết bị Kĩ thuật số, giúp cấu hình đơn đặt hàng hệ thống máy tính Đến năm 1986, giúp tiết kiệm khoảng 40 triệu đô-la năm cho công ty Ken Olsen – người sáng lập Công ty Thiết bị Kĩ thuật số – nhà lãnh đạo doanh nghiệp nhận lợi ích thương mại AI 1990 – Khởi đầu đơn giản với cảm hứng “từ lên” Hệ chuyên gia giải vấn đề bắt chước sinh học Sau đó, nhà khoa học AI Rodney Brooks xuất báo mới: “Lồi voi khơng chơi cờ” Brooks truyền cảm hứng từ bước tiến khoa học thần kinh, vốn bắt đầu giải thích bí ẩn nhận thức nhân loại Chẳng hạn, tầm nhìn cần mơ-đun khác não làm việc để nhận mẫu, khơng có kiểm sốt trung tâm Brooks lập luận phương pháp “từ xuống” máy tính lập trình trước với quy tắc cho hành vi thơng minh sai Ơng giúp thúc đẩy trở lại phương pháp tiếp cận AI “từ lên”, bao gồm lĩnh vực mạng thần kinh khơng cịn hợp thời Rodney Brooks trở thành Giám đốc Phòng nghiên cứu AI MIT 1997 – Con người với máy móc: Cuộc chiến Thế kỉ 20 Những người ủng hộ phương pháp “từ xuống” giữ vô địch họ: siêu máy tính Deep Blue – năm 1997, Garry Kasparov giành chức vô địch cờ vua giới Chiếc máy tính IBM chế tạo giấy vượt trội so với Kasparov, với khả tính tốn lên tới 200 triệu đơn vị giây Nhưng tư chiến lược? Câu trả lời đầy bất ngờ: Siêu máy tính thắng thi mệnh danh “đại diện cuối não”, với tinh tế mà Kasparov tin hẳn phải có người đứng sau kiểm sốt Một số người ca ngợi khoảnh khắc AI “đến tuổi” Nhưng với người khác, điều đơn giản cho thấy sức mạnh chèn ép công việc chuyên môn cụ thể, với quy tắc rõ ràng 2002 – Robot gia đình Cơng ty phái sinh Rodney Brooks, iRobot, tạo robot thương mại thành cơng cho hộ gia đình – máy hút bụi tự động tên Roomba Làm thảm ước mơ nhà tiên phong AI Nhưng Roomba thành tựu lớn Vài lớp hệ thống tạo hành vi đơn giản nhiều so với thuật tốn robot Shakey, giống robot Grey Walter nửa kỉ trước Mặc dù cảm biến tương đối đơn giản sức mạnh xử lí đạt mức tối thiểu, thiết bị có đầy đủ trí tuệ để làm nhà cách đáng tin cậy hiệu Roomba mở kỉ nguyên robot tự động, tập trung vào nhiệm vụ cụ thể Máy hút bụi Roomba 2005 – Cỗ máy chiến tranh Thấy giấc mơ Chính phủ AI Chiến tranh Lạnh có hi vọng thành thật, quân đội Hoa Kì quay trở lại công tác nghiên cứu phát triển với phương pháp tiếp cận Họ bắt đầu đầu tư vào robot tự động BigDog, Boston Dynamics tạo ra, sản phẩm Được tạo lập để làm việc robot động vật biết di chuyển nơi mà địa hình khó khăn cho phương tiện giao thông truyền thống, chưa có thấy điều iRobot trở thành tên tuổi lớn lĩnh vực PackBot, robot xử lí bom họ, người điều khiển cho dị thuốc nổ khả thơng minh Hơn 2000 PackBots đưa vào sử dụng Iraq Afghanistan Các chân BigDog chứa số cảm biến cho phép chi di chuyển tự động qua địa hình gồ ghề 2008 – Bắt đầu giải vấn đề lớn Tháng 11/2008, tính nhỏ xuất iPhone Apple Đó ứng dụng Google có khả nhận diện giọng nói Tuy trơng đơn giản, bước đột phá lớn Mặc dù việc nhận diện giọng nói mục tiêu AI, song hàng thập kỉ đầu tư chưa nâng độ xác lên 80% Google tiên phong phương pháp mới: hàng nghìn máy tính mạnh, chạy mạng thần kinh song song, học hỏi cách phát mẫu lượng lớn liệu trực tuyến từ nhiều người dùng Google Ban đầu, chưa xác sau nhiều năm học tập cải tiến, Google tuyên bố độ xác lên tới 92% 2009 – Bot khiêu vũ Trong khung thay đổi cách triển khai AI, công nghệ tức máy tính thơng minh gói gọn cú đẩy mạnh Những máy tính cho phép robot hình người robot NAO làm việc mà trước Shakey cho thấy gần khơng thể làm NAO sử dụng nhiều công nghệ tiên phong thập kỉ trước, việc học tập mạng thần kinh Tại buổi Triển lãm Thế giới 2010 10 Mạng VGG 16 VGG16 mạng Convolutional neural network đề xuất K Simonyan A Zisserman thuộc trường Đại học Oxford Mơ hình sau train mạng VGG16 đạt độ xác 92.7% top-5 test liệu ImageNet gồm 14 triệu hình ảnh thuộc 1000 lớp khác Kiến trúc VGG16:  Conv – Convolutional layer, pool – pooling layer, fc – fully connected layer  Convolutional layer: kích thước × 3, 𝑝𝑎𝑑𝑑𝑖𝑛𝑔 = 1, 𝑠𝑡𝑟𝑖𝑑𝑒 = Tại không ghi stride, padding mà xác định được? Mơ hình mặc định 𝑝𝑎𝑑𝑑𝑖𝑛𝑔 = 1, 𝑠𝑡𝑟𝑖𝑑𝑒 = để đảm bảo output width height với input  Pool/2: Max pooling layer với 𝑠𝑖𝑧𝑒 = × 120  × 𝑐𝑜𝑛𝑣, 64: tương ứng 64 kernel áp dụng layer Khi đó, depth output layer 64  Các Convolutional layer Pooling layer sau kích thước width height giảm, depth lại tăng  Sau nhiều Convolutional layer Pooling layer liệu flatten cho vào Fully connected layer 121 Recurrent Neural Network Introduction Deep Learning có mơ hình lớn Convolutional Neural Network (CNN) cho toán với input ảnh Recurrent Neural Network (RNN) cho toán liệu dạng chuỗi (sequence data) Recurrent Neural Network (RNN) dạng mơ hình Neural Network, kết (output) bước trước đầu vào (input) bước Trong mô hình Neural Network truyền thống, input output độc lập với Tuy nhiên thực tế, số ứng dụng, ví dụ tốn dự đốn từ câu, u cầu mơ hình phải lưu xem xét thông tin input output bước trước RNN sử dụng hidden layer để hỗ trợ giải vấn đề Cụ thể RNN sử dụng hidden state để ghi nhớ thông tin dạng chuỗi RNN có “memory” lưu trữ tồn thơng tin tính tốn RNN hoạt động nào? Chúng ta tìm hiểu cách hoạt động RNN qua ví dụ sau Giả sử có deeper network với input layer, hidden layer output layer hình 122 Mơ hình mơ hình Neural Network, hidden layer có trọng số weight bias riêng Hidden layer với trọng số (𝑊1 , 𝑏1 ), hidden layer với trọng số (𝑊2 , 𝑏2 ), hidden layer với trọng số (𝑊3 , 𝑏3 ) Rõ ràng, trọng số độc lập với nhau, khơng ghi nhớ lại kết trước RNN gộp activation độc lập lại thành activation cách dùng chung trọng số (𝑊, 𝑏) cho tất layer Quá trình làm giảm phức tạp số lượng tham số mơ hình RNN thực việc ghi nhớ kết trước hidden state truyền vào input cho hidden layer Như ví dụ trên, thay mơ hình cần hidden layer, RNN gộp lại thành single recurrent layer 123 Recurrent Neural Network Bài toán: Cần phân loại hành động người video  Input: Video 30s  Output: Phân loại hành động: Đứng, ngồi, chạy, đánh nhau,… Khi xử lý video ta gặp khái niệm FPS (frame per second): số lượng frame (ảnh) giây video Ví dụ FPS với video 30s tương ứng giây có 30 ảnh FPS cho video input toán tương ứng 30 ảnh: ảnh thứ nhất, ảnh thứ hai,…, ảnh thứ 30 Output hành động người video input Các ảnh video input có thứ tự Ảnh xảy trước ảnh 2, ảnh xảy trước ảnh 3,… Nếu ta đảo lộn thứ tự ảnh thay đổi nội dung video Ta dùng CNN để phân loại ảnh 30 ảnh Nhưng với việc phân loại ảnh mô tả nội dung video Cần mơ hình giải toán với input sequence Sequence data Dữ liệu có thứ tự ảnh tách từ video toán gọi sequence, time-series data 124 Ví dụ khác trorong tốn dịch tự động với input câu, ví dụ “Tơi u Việt Nam” vị trí từ thứ tự quan trọng đến nghĩa câu Dữ liệu: ["tôi”, “yêu”, “việt”, “nam”] gọi sequence data Trong tốn Xử lý ngơn ngữ tự nhiên (NLP), mơ hình thường khơng xử lý câu, mà thường tách câu thành từ, giống video tách thành frame làm input Phân loại toán RNN One to one Mẫu toán cho Neural Network (NN) Convolutional Neural Network (CNN), input output Ví dụ với CNN input ảnh output ảnh segment One to many Bài tốn có input nhiều output Ví dụ toán caption cho ảnh Input ảnh, output nhiều từ mô tả nội dung ảnh input Many to one Bài tốn có nhiều input có output Ví dụ tốn phân loại hành động video Input nhiều ảnh tách từ video, output hành động người video Many to many Bài tốn có nhiều input nhiều output Ví dụ toán dịch tự động từ câu tiếng Anh sang câu tiếng Việt Input câu gồm nhiều từ tiếng Anh Output câu gồm nhiều từ tiếng Việt Ứng dụng toán RNN Speech to Text Chuyển giọng nói sang text Sentiment Analysis Phân loại hình thái bình luận Machine Translation Bài tốn dịch tự động ngôn ngữ Video Recognition Nhận diện hành động video 125 Heart Attack Dự đoán đột quỵ tim Mơ hình tốn RNN Bài tốn Nhận diện hành động video 30s Đây dạng toán Many To One RNN, nhiều input output Input gồm 30 ảnh giây video Các ảnh xử lý qua model CNN để lấy feature thành vector có kích thước 𝑛 × Vector tương ứng với ảnh thứ 𝑖 𝑥𝑖 Output vector có kích thước 𝑑 × Mơ hình có 30 input output Các input cho vào model với thứ tự ảnh video: 𝑥1 , 𝑥2 , … , 𝑥30 Mỗi hình trịn state State 𝑡 có input 𝑥𝑡 𝑠𝑡−1 (output state trước) Output 𝑠𝑡 = 𝑓(𝑈 × 𝑥𝑡 + 𝑊 × 𝑠𝑡−1 ) 𝑓 activation function, thường hàm ReLU Có thể thấy 𝑠𝑡 mang thông tin từ state trước 𝑠𝑡−1 input state 𝑠𝑡 giống memory nhớ đặc điểm input từ 𝑥1 đến 𝑥𝑡 𝑠0 thêm vào cho chuẩn công thức nên thường gán giá trị ngẫu nhiên Có thể hiểu ban đầu chưa có liệu để học nên memory rỗng Do có output nên state cuối cùng, 𝑠30 học thông tin từ tất input 𝑦̂ = 𝑔(𝑉 × 𝑠30 ) 𝑔 activation function Ta thấy hệ số 𝑊, 𝑈 giống 126 Loss Function Loss function mơ hình tổng loss output Backpropagation Through Time Có tham số ta cần phải tìm 𝑊, 𝑈, 𝑉 Để thực thuật tốn Gradient Descent, ta cần tính: 𝜕𝐿 𝜕𝐿 , , 𝜕𝐿 𝜕𝑈 𝜕𝑉 𝜕𝑊 Tính đạo hàm với 𝑉 đơn giản: 𝜕𝐿 𝜕𝐿 𝜕𝑦̂ = × 𝜕𝑉 𝜕𝑦̂ 𝜕𝑉 Tính đạo hàm với 𝑊, 𝑈 𝜕𝐿 𝜕𝐿 𝜕𝑦̂ 𝜕𝑠30 = × × 𝜕𝑊 𝜕𝑦̂ 𝜕𝑠30 𝜕𝑊 Do 𝑠30 = 𝑓(𝑊 × 𝑠29 + 𝑉 × 𝑥30 ) có 𝑠29 phụ thuộc vào 𝑊 Nên áp dụng cơng thức tính đạo hàm hàm phức: (𝑓(𝑥) × 𝑔(𝑥))′ = 𝑓 ′ (𝑥 ) × 𝑔(𝑥 ) + 𝑓(𝑥) × 𝑔′ (𝑥) Ta có: 𝜕𝑠30 𝜕𝑠 ′ 30 𝜕𝑠30 𝜕𝑠29 = + × 𝜕𝑊 𝜕𝑊 𝜕𝑠29 𝜕𝑊 127 Trong đó, 𝜕𝑠 ′ 30 𝜕𝑊 đạo hàm 𝑠30 với 𝑊 coi 𝑠29 constant với 𝑊 Tương tự biểu thức 𝑠29 có 𝑠28 phụ thuộc vào 𝑊, 𝑠28 có 𝑠27 phụ thuộc vào 𝑊… nên áp dụng công thức chain rule: 30 𝜕𝐿 𝜕𝐿 𝜕𝑦̂ 𝜕𝑠30 𝜕𝑠 ′ 𝑖 =∑ × × × 𝜕𝑊 𝜕𝑦̂ 𝜕𝑠30 𝜕𝑠𝑖 𝜕𝑊 𝑖=0 Trong đó, 29 𝜕𝑠𝑗+1 𝜕𝑠30 =∏ 𝜕𝑠𝑖 𝜕𝑠𝑗 𝑗=𝑖 128 Long Short Term Memory (LSTM) RNN dùng để xử lý thông tin dạng chuỗi (sequence/time-series) RNN mang thơng tin frame từ state trước tới state sau State cuối kết hợp tất frame để đưa kết đốn mơ hình Đạo hàm 𝐿 với 𝑊 state thứ 𝑖: 𝜕𝐿 𝜕𝐿 𝜕𝑦̂ 𝜕𝑠30 𝜕𝑠 ′ 𝑖 = × × × 𝜕𝑊 𝜕𝑦̂ 𝜕𝑠30 𝜕𝑠𝑖 𝜕𝑊 Trong đó, 29 𝜕𝑠𝑗+1 𝜕𝑠30 =∏ 𝜕𝑠𝑖 𝜕𝑠𝑗 𝑗=𝑖 Giả sử activation function, 𝑠𝑡 = tanh(𝑈 × 𝑥𝑡 + 𝑊 × 𝑠𝑡−1 ) 29 𝜕𝑠𝑡 𝜕𝑠30 = (1 − 𝑠𝑡2 ) × 𝑊 ⇒ = 𝑊 30−𝑖 × ∏(1 − 𝑠𝑗2 ) 𝜕𝑠𝑡−1 𝜕𝑠𝑖 𝑗=𝑖 Ta có 𝑠𝑗 < 1, 𝑊 < nên state xa: 𝜕𝑠30 𝜕𝑠𝑖 ≈ hay 𝜕𝐿 𝜕𝑊 ≈ Đó tượng Vanishing Gradient Các state xa phía trước bị Vanishing Gradient, nên hệ số không update với frame xa Hay nói cách khác RNN khơng học từ thơng tin trước xa vấn đề Vanishing Gradient Như lý thuyết RNN mang thơng tin từ layer trước đến layer sau, thực tế thông tin mang qua số lượng state định, sau bị Vanishing Gradient Hay nói cách khác, model học từ state gần nó: Short Term Memory Ví dụ tốn Short Term Memory Bài toán dự đoán từ đoạn văn Ví dụ, input có đoạn văn: “Mặt trời mọc hướng…”, mơ hình cần sử dụng từ trước câu để dự đoán từ dấu “…” từ “đông” Tuy nhiên, với input đoạn văn: “Tôi người Việt Nam Tơi sống nước ngồi Tơi nói trơi chảy tiếng…” 129 rõ ràng sử dụng từ gần với dấu “…” khó để xác định từ Mơ hình cần thơng tin từ xa hơn, cụ thể ví dụ từ “Việt Nam” để đốn từ từ “Việt” Mơ hình cần thơng tin từ state trước xa: Long Term Memory điều mà mơ hình RNN khơng làm Mơ hình Long Short Term Memory (LSTM) đời Mơ hình LSTM Ở state thứ 𝑡 mơ hình LSTM:  Output: 𝑐𝑡 , ℎ𝑡 cell state hidden state  Input: 𝑐𝑡−1 , ℎ𝑡−1 , 𝑥𝑡 , 𝑥𝑡 input state thứ 𝑡 model 𝑐𝑡−1 , ℎ𝑡−1 output layer trước ℎ đóng vai trị giống 𝑠 mơ hình RNN, 𝑐 điểm LSTM Kí hiệu: 𝜎, 𝑡𝑎𝑛ℎ tương ứng sigma function function Phép nhân × phép tốn element-wise multiplication, phép cộng + phép toán cộng ma trận 𝑓𝑡 , 𝑖𝑡 , 𝑜𝑡 tương ứng forget gate, input gate output gate  Forget gate: 𝑓𝑡 = 𝜎(𝑈𝑓 × 𝑥𝑡 + 𝑊𝑓 × ℎ𝑡−1 + 𝑏𝑓 )  Input gate: 𝑖𝑡 = 𝜎(𝑈𝑖 × 𝑥𝑡 + 𝑊𝑖 × ℎ𝑡−1 + 𝑏𝑖 )  Output gate: 𝑜𝑡 = 𝜎(𝑈𝑜 × 𝑥𝑡 + 𝑊𝑜 × ℎ𝑡−1 + 𝑏𝑜 ) 130 Nhận xét: < 𝑓𝑡 , 𝑖𝑡 , 𝑜𝑡 < 𝑏𝑓 , 𝑏𝑖 , 𝑏𝑜 hệ số bias Hệ số 𝑊, 𝑈 giống mô hình RNN 𝑐̃𝑡 = tanh(𝑈𝑐 × 𝑥𝑡 + 𝑊𝑐 × ℎ𝑡−1 + 𝑏𝑐 ) Bước giống xác định 𝑠𝑡 mơ hình RNN 𝑐𝑡 = 𝑓𝑡 × 𝑐𝑡−1 + 𝑖𝑡 × 𝑐̃𝑡 , đó:  forget gate định xem cần lấy thông tin từ cell state trước,  input gate định lấy thông tin từ input state hidden layer layer trước ℎ𝑡 = 𝑜𝑡 × tanh(𝑐𝑡 )  output gate định xem cần lấy thông tin từ cell state để trở thành output hidden state Ngồi ℎ𝑡 dùng để tính output 𝑦𝑡 cho state 𝑡 Nhận xét ℎ𝑡 , 𝑐̃𝑡 giống với RNN, nên model có khả Short Term Memory Trong đó, 𝑐𝑡 giống băng truyền mơ hình RNN vậy, thơng tin quan trọng cần dùng cho state sau đưa lên băng truyền Băng truyền đưa thơng tin đến state xa phía sau: Long Term Memory Vậy mơ hình LSTM vừa có khả Short Term Memory Long Term Memory LSTM chống Vanishing Gradient 131 Áp dụng thuật toan Backpropagation Through Time cho LSTM tương tự RNN Thành phần gây Vanishing Gradient RNN là: 𝜕𝑠𝑡 = (1 − 𝑠𝑡2 ) × 𝑊 𝜕𝑠𝑡−1 Trong đó: 𝑠𝑡 , 𝑊 < Tương tự LSTM, ta quan tâm đến: 𝜕𝑐𝑡 = 𝑓𝑡 , 𝑑𝑜 (𝑐𝑡 = 𝑓𝑡 × 𝑐𝑡−1 + 𝑖𝑡 × 𝑐̃𝑡 ) 𝜕𝑐𝑡−1 Do < 𝑓𝑡 < nên LSTM bị Vanishing Gradient bị so với RNN Hơn nữa, mang thơng tin cell state cần phải quên giá trị cell cũ, nên 𝑓𝑡 ≈ dẫn đến tránh vấn đề Vanishing Gradient Với mơ hình RNN bản, 𝜕𝑠𝑡 𝜕𝑠𝑡−1 sau thời gian train nhận giá trị lớn (Exploding gradient) nhỏ (Vanishing gradient), nằm phạm vi định Với mô hình LSTM, đại lượng 𝜕𝑐𝑡 𝜕𝑐𝑡−1 linh động thay đổi giá trị Nó hội tụ giá trị phân rã Trong trình train, giá trị gradient hội tụ 0, trọng số gate điều chỉnh để 𝜕𝑐𝑡 𝜕𝑐𝑡−1 hội tụ Như vậy, trình train, Network điều chỉnh trọng số để dựa vào giá trị Gradient Vấn đề Exploding Vanishing Gradient 132 𝜕𝑐𝑡 𝜕𝑐𝑡−1 hội tụ hay phân rã Mục tiêu trình train network giảm hàm Loss Function dựa vào tập training set Mơ hình tính giá trị Gradient, mơ hình thay đổi trọng số để hướng đến tối thiểu giá trị hàm Loss Function Trao đổi RNN LSTM Mạng LSTM dạng mở rộng mạng RNN nhằm giải vấn đề Vanishing Gradient Mạng RNN cho phép sử dụng kết trước q trình xử lý input Tuy nhiên việc lưu trữ thông tin kết dừng mức Short Term Memory Một số ứng dụng thực tế lĩnh vực như: Speech Processing, non-Markov control, hay music composition,… cần lưu trữ thông tin xa cho nhiệm vụ xử lý input Vấn đề RNN gặp phải: (i) RNN khơng có khả ghi nhớ thơng tin xa (vấn đề Vanishing Gradient); (ii) RNN khơng có chế để kiểm sốt tốt thơng tin trước cần chuyển tiếp hay thông tin không quan trọng cần “quên” Mạng LSTM đời nhằm giải vấn đề Nó thiết kế để tránh vấn đề Vanishing Gradient, giúp mơ hình có khả ghi nhớ thơng tin khoảng thời gian dài (Long Term Memory) Với LSTM, không cần phải cố định số lượng state mơ hình Hidden Markov (HMM) LSTM hỗ trợ chế tham số như: learning rate, input output bias để mơ hình linh động học Độ phức tạp để update weight LSTM 𝑂(1), tương đương với q trình Backpropagation Through Time Đó điểm mạnh LSTM 133 Tài liệu tham khảo Andrew Ng Machine Learning, , xem 02/2019 Andrew Ng Deep Learning Specialization, https://www.coursera.org/specializations/deep-learning/, xem 05/2019 Vũ Hữu Tiệp Machine Learning bản, , 134 xem 04/2019 ... dựng triển khai Khố AI cho Chương trình HueAI Đại học Huế tài trợ Bài giảng gồm chương Chương tổng quan Trí tuệ nhân tạo vấn đề ứng dụng liên quan Chương trình bày tảng Tốn cho AI gồm: Đại số... thông qua đào tạo (training) trải nghiệm thực tế Is this AI or not? Phép tính tập liệu có sẵn dựa hàm số xác định AI Kết tính tốn xác định cơng thức hàm số, khơng cần hệ thống AI Dự đốn cổ phiếu... xác suất sử dụng với hai nhiệm vụ Thứ nhất, định luật lý thuyết xác suất nói cho cách hệ thống AI suy luận, cách hệ thống AI thiết kế thuật toán để xấp xỉ mệnh đề Thứ hai, sử dụng lý thuyết xác

Ngày đăng: 23/11/2020, 20:07

TỪ KHÓA LIÊN QUAN

w