Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
2,07 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tiêu luận khai phá liệu ĐỀ TÀI: Giới thiệu học sâu chế kiểm soát Giảng viên hướng dẫn: PGS.TS Hà Quang Thụy Mục Lục Chương 7: Các chế kiểm soát học sâu 7.1 Tham số phạt chuẩn .3 7.1.1 Cơ chế kiểm soát L2 7.1.2 Cơ chế kiểm soát L 7.2 Phạt chuẩn góc nhìn tối ưu có ràng buộc 12 7.3 Cơ chế kiểm sốt tốn khơng ràng buộc 14 7.4 Mở rộng liệu 15 7.5 Tính kháng nhiễu 17 7.5.1 Thêm nhiễu vào nhãn đầu .19 7.6 Học bán giám sát 19 7.7 Học đa nhiệm( multitask learning) 20 7.8 Early stopping .21 7.9 Parameter tying parameter shared .28 7.10 Sparse Representations(đại diện thưa thớt) 29 7.11 Bỏ túi phương pháp kết hợp khác 31 7.12 Cơ chế tắt ngẫu nhiên 34 7.13 Huấn luyện đối kháng 47 7.14 Khoảng cách tiếp tuyến, lan truyền tiếp tuyến, phân loại tiếp tuyến đa tạp 49 Chương Giới thiệu xử lí ngơn ngữ tự nhiên học sâu 53 1.1 Giới thiệu học sâu 53 1.2 How Deep is “Deep”? 54 1.3 Mạng noron gì? .55 1.4 Cấu trúc mạng noron .56 1.5 Các loại mạng noron 60 1.5.1 Mạng noron chuyển tiếp .60 1.5.2 Mạng noron liên kết 61 1.5.3 Mạng noron phản hồi 61 1.5.4 Mạng mã hóa – giải mã 63 1.5.5 Mạng noron đệ quy .63 1.6 Multilayer Perceptrons .64 1.7 Stochastic Gradient Descent: Phương pháp xuống dốc ngẫu nhiên 65 1.8 Backpropagation : lan truyền ngược 66 Tài liệu tham khảo 68 Phụ lục 68 Danh mục hình ảnh Hình Hình minh họa ảnh hưởng kiểm soát L2 Hình Minh họa học đa nhiệm 21 Hình Minh họa trình huấn luyện .22 Hình Minh họa trình early stopping .26 Hình Minh họa sparse representation 30 Hình Một mơ tả hình ảnh cách phương pháp bỏ túi hoạt động 32 Hình Cơ chế tắt ngẫu nhiên huấn luyện mơ hình hợp thể tất mạng 35 Hình Quá trình lan truyền thuận qua mạng lan truyền thuận 37 Hình Một ví dụ tạo mẫu đối kháng ứng dụng GoogLeNet 47 Hình 10 Minh họa ý tưởng thuật lan truyền tiếp tuyến .50 Hình 11 So sánh Deep learning Older learning algorithms 53 Hình 12 Mơ hình mạng sâu nơng 54 Hình 13 Các tảng thư viện mã nguồn mở hỗ trợ học sâu .56 Hình 14 Cấu trúc noron .57 Hình 15 Hàm bước 57 Hình 16 Đồ thị hàm sigmoid .58 Hình 17 Đồ thị hàm ReLU 59 Hình 18 Cấu trúc mạng noron .60 Hình 19 Mạng noron đa lớp feedforward 61 Hình 20 Mạng noron phản hồi 62 Hình 21 Mã hóa RNNs 62 Hình 22 Tạo RNNs 63 Hình 23 Mạng RNNs 63 Hình 24 Mạng noron đệ quy .64 Chương 7: Các chế kiểm soát học sâu Một vấn đề trọng tâm học máy tìm cách tạo thuật tốn khơng hoạt động tốt tập huấn luyện, mà phải cho kết tốt đầu vào Nhiều chiến lược học máy thiết kế với mục tiêu rõ ràng giảm thiểu sai số kiểm thử, đổi lại làm tăng sai số huấn luyện Những chiến lược gọi chung chế kiểm sốt (regularization) Có nhiều dạng kiểm sốt khác áp dụng xây dựng mơ hình học sâu Trong thực tế, việc xây dựng chiến lược kiểm soát hiệu hướng nghiên cứu chủ yếu học sâu Chương giới thiệu số khái niệm tổng quát hóa, vị khớp, khớp, độ chệch, phương sai chế kiểm soát Nếu bạn đọc chưa nắm vững khái niệm trên, xem lại chương trước đọc tiếp chương Trong chương sâu vào việc mô tả chi tiết chế kiểm soát, tập trung vào chiến lược kiểm soát dùng mơ hình học sâu mơ hình sử dụng làm tảng để xây dựng mơ hình đa tầng Một số phần chương đề cập tới khái niệm học máy Nếu bạn quen thuộc với khái niệm này, bạn bỏ qua phần liên quan Tuy nhiên hầu hết nội dung chương liên quan đến mở rộng khái niệm trường hợp cụ thể mạng neuron Trong mục 5.2.2, định nghĩa chế kiểm soát “bất điều chỉnh thuật toán học tập nhằm giảm sai số tổng quát hoá khơng phải sai số huấn luyện” Có nhiều chiến lược để kiểm soát Một số chiến lược tạo ràng buộc mơ hình học máy, đơn cử thêm vào số giới hạn cho tham số Một số khác lại cộng thêm hạng tử bổ sung vào hàm mục tiêu, chúng coi ràng buộc mềm giá trị tham số Nếu lựa chọn cẩn thận, ràng buộc hàm phạt thêm vào giúp tăng độ xác mơ hình tập kiểm thử Thông thường, ràng buộc hàm phạt mã hóa dạng kinh nghiệm tiền đề cụ thể mơ hình Một số khác điều chỉnh thuật toán học tập theo hướng ưu tiên lựa chọn mơ hình đơn giản nhằm tăng cường tính tổng quát Một số khác lại cần thiết ta muốn biến tốn vơ định trở thành xác định Ngồi chế kiểm sốt cịn biết đến phương pháp tập thể (esemble method), phương pháp kết hợp lúc nhiều giả thuyết để giải thích liệu huấn luyện Trong ngữ cảnh học sâu, hầu hết chiến lược kiểm soát dựa việc kiểm soát ước lượng Cơ chế kiểm soát ước lượng hoạt động theo cách đánh đổi việc giảm phương sai cách tăng độ chệch Một chế kiểm soát xem hiệu giúp làm giảm phương sai cách đáng kể không tăng độ chệch mơ hình lên q nhiều Khi thảo luận tổng quát hóa khớp chương 5, tập trung vào ba trạng thái huấn luyện họ mơ hình, mà họ mơ hình huấn luyện (1) : bỏ qua trình sinh liệu thực tế – tương ứng với tương vị khớp gây độ chệch, (2) : khớp xác q trình sinh liệu thực tế, (3) : bao gồm khơng q trình sinh liệu thực tế mà bao gồm nhiều chế sinh liệu khác – trạng thái khớp phương sai chi phối sai số mơ hình thay độ chệch Mục tiêu chế kiểm soát đưa mơ hình trạng thái thứ trở trạng thái thứ Trong thực tế, họ mơ hình q phức tạp khơng thiết bao gồm hàm mục tiêu hay hàm sinh thực liệu, hay chí khơng chứa xấp xỉ hàm Trong hầu hết trường hợp, tiếp cận hàm sinh liệu thực sự, ta khơng thể biết họ mơ hình mà dùng để ước lượng có chứa hàm sinh thực hay không Tuy nhiên, hầu hết giải thuật học sâu ứng dụng lĩnh vực mà hàm sinh liệu thực gần nằm ngồi họ mơ hình ta xây dựng Học sâu thường ứng dụng lĩnh vực phức tạp xử lý ảnh, chuỗi âm văn bản, mà hàm sinh liệu thật cần bao gồm mô thứ giới Ở mức độ đó, làm cố lắp miếng gỗ vuông (hàm sinh liệu) vào lỗ trịn (họ mơ hình xây dựng) Điều có nghĩa việc kiểm sốt độ phức tạp mơ hình khơng đơn giản việc tìm mơ hình với kích thước số lượng tham số Thay vào đó, thấy - thực tế ứng dụng học sâu, thấy - mơ hình khớp liệu tốt (theo nghĩa có sai số tổng quát hóa nhỏ nhất) mơ hình lớn kiểm sốt cách hợp lý Bây giờ, ta bắt đầu ôn lại số chiến lược để tạo mơ hình lớn, đa tầng kiểm soát 7.1 Tham số phạt chuẩn Cơ chế kiểm soát sử dụng từ nhiều thập kỷ trước có xuất học sâu Những mơ hình tuyến tính hồi quy tuyến tính hay hồi quy logit cho phép áp dụng chiến lược kiểm soát đơn giản, dễ hiểu hiệu Rất nhiều phương pháp kiểm soát xây dựng cách giới hạn dung lượng mơ mạng neuron, hồi quy tuyến tính, hay hồi quy logit cách thêm vào hàm mục tiêu J tham số phạt chuẩn Ω(θ ) (norm penalty) Ta kí hiệu hàm mục tiêu kiểm sốt J%: Trong �[0,�) siêu tham số xác định mức độ đóng góp hạng tử phạt chuẩn Ω hàm mục tiêu J Giá trị gán đồng nghĩa với việc khơng có kiểm soát với hàm mục tiêu Giá trị lớn mức độ kiểm sốt cao Khi thuật toán huấn luyện cố gắng cực tiểu hóa hàm mục tiêu kiểm sốt J%, lúc giảm sai số hàm mục tiêu gốc J lẫn kích thước tập tham số θ (hoặc tập vector tham số θ ) Cách chọn chuẩn Ω khác dẫn đến giải pháp khác Trong phần này, thảo luận ảnh hưởng nhiều loại chuẩn khác sử dụng làm đại lượng phạt tham số mơ hình Trước thảo luận sâu hành vi kiểm soát chuẩn khác nhau, cần phải ghi nhớ điều mạng neuron, thường chọn tham số phạt chuẩn Ω áp dụng mức phạt lên trọng số phép biến đổi affin tầng ( w ), mà khơng kiểm sốt hệ số tự ( b ) Các hệ số tự thường cần liệu trọng số để khớp cách tối ưu Mỗi trọng số xác định cách tương tác hai biến Để khớp tốt trọng số đòi hỏi ta phải quan sát hai biến nhiều điều kiện khác Mỗi hệ số tự tác động đến biến Điều có nghĩa khơng áp dụng phương pháp kiểm soát lên hệ số tự do, phương sai không tăng nhiều Mặt khác, việc kiểm soát hệ số tự lại thường làm tăng tính vị khớp mơ hình lên đáng kể Do chúng tơi kí hiệu vector w cho toàn trọng số bị tác động đại lượng phạt chuẩn, vector θ dùng làm kí hiệu cho tồn tham số, bao gồm w tham số không bị kiểm sốt Trong ngữ cảnh mạng neuron, đơi ta cần sử dụng hàm phạt riêng biệt với hệ số αα khác cho tầng mạng Bởi chi phí tính tốn để tìm tập giá trị siêu tham số tương ứng lớn, dùng tham số suy giảm trọng số chung cho tất lớp cách hợp lý để giảm khơng gian tìm kiếm 7.1.1 Cơ chế kiểm soát L2 Chúng ta thấy phần 5.2.2, dạng phạt chuẩn đơn giản phổ biến nhất: hàm phạt chuẩn L2, hay gọi suy giảm trọng số (weight decay) Chiến lược kiểm soát hướng trọng số gần gốc tọa Ω(θ ) ‖ w ‖ 22 Trong độ cách thêm vào hàm mục tiêu hạng tử kiểm soát số cộng đồng học thuật khác, kiểm sốt L2 cịn biết đến với tên hồi quy sóng(ridge regression) hay kiểm sốt Tikhonov (Tikhonov regularization) Một cách tổng quát hơn, kiểm sốt để tham số tiến gần tới điểm khơng gian, điều đáng ngạc nhiên là, dù cách làm đạt số hiệu ứng kiểm soát, ta đạt kết tốt ta kiểm soát tham số tiến gần giá trị thực sự, với giá trị mặc định Giá trị mặc định hợp lý, ta khơng biết giá trị xác âm hay dương Bởi người ta hay kiểm sốt tham số mơ hình hướng gốc tọa độ, tập trung mô tả trường hợp đặc biệt Chúng ta sâu vào hành vi chế kiểm sốt suy giảm trọng số thơng qua việc quan sát gradient hàm mục tiêu kiểm sốt Để trình bày đơn giản hơn, không xét hệ số tự do, θ w trường hợp Mơ có hàm mục tiêu: với đạo hàm theo tham số w tương ứng là: Chúng ta thực cập nhật tham số bước nhảy đạo hàm theo công thức sau: Nói cách khác, tham số cập nhật theo Có thể thấy việc thêm vào đại lượng suy giảm trọng số điều chỉnh quy tắc học để thu nhỏ vector trọng số theo cấp số nhân sau bước, trước cập nhật theo gradient thơng thường Điều lý giải điều xảy bước cập nhật Nhưng điều xảy sau tồn q trình huấn luyện? Chúng ta tiếp tục đơn giản hoá trình phân tích cách tạo xấp xỉ bậc hai hàm mục tiêu lân cận tham số, mà hàm chi w arg J ( w ) w phí huấn luyện chưa kiểm sốt có giá trị nhỏ nhất, Nếu hàm mục tiêu thực hàm bậc 2, hàm sai số bình phương trung bình trường hợp hồi quy tuyến tính, xấp xỉ ta xác tuyệt đối Xấp xỉ Jˆ có dạng: Trong H ma trận Hesse J w w Khơng có đại lượng bậc xấp xỉ bậc hai này, w điểm cực tiểu, gradient tiêu biến Tương tự, w điểm cực tiểu J , ta kết luận H nửa xác định dương Cực tiểu Jˆ đạt gradient nó: Bằng Để khảo sát tác động suy giảm trọng số, điều chỉnh phương trình 7.7 cách thêm vào hạng tử suy giảm trọng số gradient Giờ ta tìm điểm cực tiểu phiên kiểm soát Jˆ Ta sử dụng biến w% để biểu diễn vị trí điểm cực tiểu Khi tiến 0, lời giải tối ưu kiểm soát w%tiến w Nhưng điều xảy tăng? Bởi H mang giá trị thực đối xứng, nên ta phân tách thành ma trận đường chéo Λ sở trực chuẩn vector riêng Q , thỏa � mãn H QΛQ Áp dụng phép phân tách vào phương trình 7.10 ta có: Chúng ta thấy tác động của suy giảm trọng số thay đổi tỉ lệ w dọc theo trục xác định vector riêng H Cụ thể, thành phần w i chỉnh dọc theo vector riêng thứ i H nhân với tỉ lệ i (Bạn muốn ơn lại cách thức chỉnh tỉ lệ kiểu hoạt động hình 2.3.) Dọc theo hướng mà trị riêng H tương đối lớn, ví dụ i ? , ảnh hưởng chế kiểm soát tương đối nhỏ Tuy nhiên, thành phần có i = co không Hiện tượng minh họa hình 7.1 Hình Hình minh họa ảnh hưởng kiểm sốt L2 Hình 1: Hình minh họa ảnh hưởng kiểm sốt L (hay gọi suy giảm trọng số) giá trị w tối ưu Những đường eclipse liền thể đường đồng mức giá trị hàm mục tiêu chưa kiểm sốt Các đường trịn đứt qng thể đường đồng mức kiểm soát L Tại điểm w%, hàm mục tiêu cạnh tranh đạt trạng thái cân Ở chiều thứ nhất, trị riêng ma trận Hesse J nhỏ Hàm mục tiêu không tăng nhiều di chuyển theo trục hồnh � phía xa dần w Bởi hàm mục tiêu ưu tiên cao theo theo hướng đó, kiểm sốt có ảnh hưởng lớn trục Bộ kiểm soát kéo w1 gần giá trị không Trong chiều thứ hai, hàm mục tiêu thay đổi nhanh ta � di chuyển xa dần w Trị riêng tương ứng theo chiều lớn, biểu thị độ cong lớn hàm Kết suy giảm trọng số có tác động khơng đáng kể đến w2 Chỉ có hướng mà dọc theo tham số đóng góp đáng kể vào việc làm suy giảm hàm mục tiêu bảo toàn tương đối nguyên vẹn Với hướng khơng đóng góp vào việc làm suy giảm hàm mục tiêu, tức có trị riêng ma trận Hesse nhỏ, cho ta biết việc di chuyển theo hướng không làm tăng gradient đáng kể Các thành phần vector trọng số tương ứng với (dữ liệu pixel), tài liệu (dữ liệu văn bản) tệp (dữ liệu âm thanh, video) Mặc dù mạng lưới nơron nhân tạo mơ hình học sâu có cấu trúc tương tự khơng có nghĩa kết hợp hai mạng nơron nhân tạo thực tương tự mạng nơron sâu đào tạo để sử dụng liệu Điều khác biệt với mạng nơron sâu so với mạng nơron nhân tạo thông thường cách sử dụng backpropagation (sự truyền ngược) Trong mạng nơron nhân tạo thông thường, đào tạo ngược tuyến sau (hoặc kết thúc) lớp mang nhiều hiệu đào tạo lớp ban đầu (hoặc cũ) Vì vậy, quay trở lại mạng, lỗi trở nên nhỏ lan tỏa 1.2 How Deep is “Deep”? Mạng nơron sâu mạng nơ-ron chuyển tiếp với nhiều lớp ẩn Hay nói cách khác có nhiều lớp mạng, nói mạng sâu Câu hỏi đặt mạng có lớp đủ điều kiện gọi mạng nơron sâu? Trước bắt đầu hành trình thực tế việc học sâu khơng gian NLP (Neuro Linguistic Programming), đến số khái niệm liên quan đến cấu trúc mạng nơron: Mạng noron gì? Cấu trúc mạng noron Các loại mạng noron Multilayer Perceptrons Stochastic Gradient Descent Backpropagation 1.3 Mạng noron gì? Mạng lưới thần kinh có lịch sử phát triển lâu dài xem lại tác phẩm Marvin Minsky trí thơng minh nhân tạo (AI) tiếng ông thách thức giải hàm OR (XOR) độc quyền Mạng lưới thần kinh ngày trở nên phổ biến, tiến vượt bậc thực hiện, với khả truy cập vào tập liệu lớn hơn, đời điện toán đám mây GPU cung cấp sức mạnh tính tốn to lớn Điều cho thấy sẵn sàng truy cập vào liệu máy tính tạo độ xác cao mơ hình hóa phân tích Mạng thần kinh mơ hình sinh học lấy cảm hứng từ việc nghiên cứu hoạt 55 động não động vật có vú cho phép máy tính học tài người từ liệu quan sát Họ cung cấp giải pháp với nhiều vấn đề: nhận dạng hình ảnh, nhận dạng chữ viết tay, nhận dạng lời nói, phân tích giọng nói NLP Để giúp phát triển ý nghĩa trực quan, tác vụ khác mà thực ngày phân loại sau: Suy luận đại số tuyến tính (ví dụ: A × B = C một loạt nhiệm vụ, chẳng hạn công thức làm bánh) Nhận thức cơng nhận suy luận phi tuyến (ví dụ: kết hợp tên với ảnh động vật giảm căng thẳng xác nhận tuyên bố dựa phân tích giọng nói) Học nhiệm vụ thơng qua quan sát (ví dụ: điều hướng tơ Google) Nhiệm vụ giải theo thuật tốn, tức mơ tả lập trình để tạo kết từ số thành phần, khơng thể xác định cách tiếp cận thuật toán cho nhiệm vụ sau Các tác vụ sau u cầu mơ hình linh hoạt tự điều chỉnh hành vi nó, dựa ví dụ gắn thẻ Giờ đây, thuật tốn thống kê tối ưu hóa cố gắng cung cấp đầu xác [s] liên quan đến đầu vào [s], chúng yêu cầu đặc tả hàm để mô hình liệu mà chúng tạo tập hợp hệ số tối ưu Ngược lại với kỹ thuật tối ưu hóa, mạng noron hàm linh hoạt tự động điều chỉnh hành vi thỏa mãn nhiều tốt mối quan hệ đầu vào kết mong đợi [s] gọi xấp xỉ phổ quát Với việc sử dụng phổ biến thuật tốn, có thư viện (Hình 3) có sẵn tất tảng phổ biến, chẳng hạn R (knn, gói nnet), Scala (phần mở rộng ML học máy) Python (TensorFlow, MXNet, Keras) 56 Hình 13 Các tảng thư viện mã nguồn mở hỗ trợ học sâu 1.4 Cấu trúc mạng noron Nguyên tắc mạng noron tập hợp nguyên tố nơron nhân tạo perceptron, phát triển lần năm 1950 Frank Rosenblatt Chúng lấy số đầu vào nhị phân, x1, x2,…, xN tạo đầu nhị phân đơn tổng lớn kích hoạt tiềm Các tế bào thần kinh gọi "fire" tiềm kích hoạt vượt q hoạt động hàm bước Các tế bào nơron “fire” dọc theo tín hiệu đến tế bào thần kinh khác kết nối với nhánh chúng, cháy kích hoạt bị vượt qsẽ tạo hiệu ứng xếp tầng (Hình 14) Hình 14 Cấu trúc noron 57 Vì khơng phải tất yếu tố đầu vào có mức độ nhau, trọng số gắn vào đầu vào xi phép mơ hình gán tầm quan trọng cho số đầu vào Do đó, đầu tổng trọng số lớn kích hoạt tiềm bias, tức là: Output = ∑j wj xj + Bias Trong thực tế, hình thức đơn giản lại khó khăn, tính chất đột ngột hàm bước (Hình 15) cho thấy rõ điều Hình 15 Hàm bước Vì vậy, hình thức sửa đổi tạo để thực dự đoán nhiều hơn, có nghĩa thay đổi nhỏ trọng số độ lệch gây nhỏ thay đổi đầu Có hai sửa đổi chính: Các đầu vào nhận giá trị khoảng từ đến 1, thay nhị phân Để làm cho đầu hoạt động trơn tru hơn, đầu vào x1, x2,…, xN trọng số w1, w2,…, wN độ lệch (bias), b, sử dụng hàm sigmoid sau (Hình 16): 1/(1 + exp(-∑j wj xj - b)) Độ mịn hàm mũ σ, có nghĩa điểm nhỏ trọng số độ lệch tạo thay đổi nhỏ đầu từ nơron (sự thay đổi hàm tuyến tính thay đổi trọng số độ lệch) 58 Hình 16 Đồ thị hàm sigmoid Ngồi hàm sigmoid thông thường, hàm phi tuyến khác thường xuyên sử dụng bao gồm hàm sau hàm số có phạm vi đầu tương tự khác sử dụng cho phù hợp ReLU: Đơn vị tuyến tính chỉnh sửa Điều giúp kích hoạt bảo vệ mức khơng Nó tính cách sử dụng hàm sau: Zj = fj(xj) = max(0, xj) Trong đó: xj giá trị đầu vào thứ j Zj giá trị đầu tương ứng sau hàm ReLU f Sau đồ thị (Hình 17) ReLU với giá trị ‘0’ cho tất x 0: Hình 17 Đồ thị hàm ReLU 59 ReLUs thường phải đối mặt với vấn đề mát, đặc biệt tốc độ học tập đặt thành giá trị cao hơn, điều kích hoạt việc cập nhật trọng số khơng cho phép kích hoạt nơ-ron cụ thể, làm cho độ dốc nơ-ron mãi khơng Một rủi ro khác ReLU đưa bùng nổ chức kích hoạt, giá trị đầu vào, xj, đầu Mặc dù ReLU cung cấp lợi ích khác, chẳng hạn giới thiệu độ thưa thớt trường hợp xj 0, dẫn đến biểu diễn thưa thớt độ dốc trở lại trường hợp ReLU khơng đổi, điều dẫn đến việc học nhanh hơn, kèm với khả giảm độ dốc biến LReLUs (Leaky ReLUs): Những điều giảm thiểu vấn đề mát ReLU cách đưa độ dốc giảm nhẹ (~ 0,01) cho giá trị x nhỏ LReLU cung cấp kịch thành công, lúc ELU (Đơn vị tuyến tính số mũ): Chúng cung cấp giá trị âm đẩy kích hoạt đơn vị trung bình gần 0, tăng tốc q trình học tập, cách di chuyển gradient gần sang gradient tự nhiên đơn vị Để giải thích rõ ELU, tham khảo viết gốc Djork Arné Clevert, có sẵn https: // arxiv org / abs / 1511,07289 Softmax: Còn gọi hàm mũ chuẩn hóa, điều biến đổi tập hợp giá trị thực cho phạm vi (0, 1) cho tổng kết hợp Tất hàm dễ dàng phân biệt, cho phép mạng đào tạo dễ dàng với độ dốc giảm dần (được trình bày phần "Các loại mạng thần kinh") Như não động vật có vú, tế bào thần kinh riêng lẻ tổ chức theo lớp, với kết nối lớp tới lớp tiếp theo, tạo ANN, mạng nơron nhân tạo perceptron đa lớp (MLP) Như bạn đốn, phức tạp dựa số lượng yếu tố số hàng xóm kết nối Các lớp đầu vào đầu gọi lớp ẩn mật độ, loại kết nối lớp cấu hình 60 Hình 18 Cấu trúc mạng noron 1.5 Các loại mạng noron Có nhiều loại mạng noron khác nhau, dựa kiến trúc cách sử dụng Để mạng noron học nhanh hiệu hơn, tế bào noron khác đặt mạng theo cách khác để tối đa hóa việc học mạng với vấn đề cho 1.5.1 Mạng noron chuyển tiếp Luồng liệu mạng noron từ lớp đầu vào đến lớp đầu ra, thông qua lớp ẩn tại, hạn chế loại vòng lặp mạng thể (Hình 19) Đầu từ lớp đóng vai trị đầu vào sang lớp tiếp theo, với hạn chế loại vòng lặp mạng kiến trúc 61 Hình 19 Mạng noron đa lớp feedforward 1.5.2 Mạng noron liên kết Các mạng noron liên kết điều chỉnh để nhận dạng hình ảnh nhận dạng chữ viết tay Cấu trúc chúng dựa lấy mẫu cửa sổ phần hình ảnh, phát tính sau sử dụng tính để xây dựng đại diện Điều dẫn đến việc sử dụng số lớp, mơ hình mơ hình học tập sâu 1.5.3 Mạng noron phản hồi Mạng noron phản hồi (RNNs; Hình 20) sử dụng mẫu liệu thay đổi theo thời gian RNN giả định khơng kiểm sốt theo thời gian RNN áp dụng lớp cho đầu vào bước thời gian, sử dụng 62 đầu (tức trạng thái bước thời gian trước làm đầu vào) Hình 20 Mạng noron phản hồi Hình RNNs có vịng phản hồi đầu từ lần gửi trước số thời gian T đầu vào số thời gian T + Có thể có trường hợp đầu noron nạp vào đầu vào Vì chúng phù hợp cho ứng dụng liên quan đến trình tự, chúng sử dụng rộng rãi vấn đề liên quan đến video, chuỗi thời gian hình ảnh cho mục đích dịch thuật Sau loại RNNs khác nhau: Mã hóa mạng noron phản hồi: Tập hợp RNNs cho phép mạng lấy đầu vào dạng chuỗi (Hình 21) Hình 21 Mã hóa RNNs Tạo mạng noron phản hồi: Như mạng xuất dãy số giá trị, giống từ câu (Hình 22) 63 Hình 22 Tạo RNNs Mạng noron phản hồi: Là kết hợp hai loại RNNs trước Các RNNs sử dụng để tạo trình tự sử dụng rộng rãi nhiệm vụ NLG (tạo ngơn ngữ tự nhiên) Hình 23 Mạng RNNs 1.5.4 Mạng mã hóa – giải mã Các mạng mã hóa – giải mã sử dụng mạng để tạo biểu diễn bên đầu vào, để "mã hóa" nó, biểu diễn sử dụng làm đầu vào cho mạng khác để tạo đầu Điều giúp loại bỏ việc phân loại đầu vào Kết cuối phương thức 1.5.5 Mạng noron đệ quy Trong mạng noron đệ qui (Hình 24), tập hợp trọng số cố định đệ quy áp dụng vào cấu trúc mạng chủ yếu sử dụng để khám phá cấu trúc phân cấp cấu trúc liệu Trong RNN chuỗi mạng noron đệ quy có dạng cấu trúc treelike Các mạng có sử dụng lớn lĩnh vực NLP, chẳng hạn để giải mã tình cảm câu Tình cảm câu khơng phụ thuộc vào câu, mà theo thứ tự từ nhóm theo cú pháp câu 64 Hình 24 Mạng noron đệ quy Có thể thấy, có nhiều loại mạng khác số loại áp dụng nhiều ngữ cảnh khác nhau, mạng cụ thể phù hợp với ứng dụng định mặt tốc độ chất lượng 1.6 Multilayer Perceptrons Perceptron đa lớp (MLPs) thuộc loại mạng nơ-ron chuyển tiếp tạo thành từ ba loại lớp: lớp đầu vào, nhiều lớp ẩn, lớp đầu cuối Một MLP bình thường có thuộc tính sau: Hidden layers với neurons Input layers sử dụng hàm tuyến tính Hidden layer(s) sử dụng hàm kích hoạt Một hàm kích hoạt kết nối thiết lập cách lớp đầu vào, hidden layer (s), lớp đầu Gọi Multi-layer Perceptron (perceptron nhiều lớp) tập hợp perceptron chia làm nhiều nhóm, nhóm tương ứng với layer Trong hình ta có ANN với lớp: Input layer (lớp đầu vào), Output layer (lớp đầu ra) Hidden layer (hidden layer) Thông thường giải toán ta quan tâm đến input output model, MLP ngồi lớp Input 65 Output lớp neuron gọi chung Hidden (ẩn khơng phải khơng nhìn thấy mà đơn giản khơng quan tâm đến) MLPs tìm mối quan hệ giá trị đầu vào mục tiêu, cách sử dụng neurons hidden layer, thay đổi weights, cách sử dụng liệu bổ sung để nâng mức độ xác Sau vài tính kiến trúc mạng tác động trực tiếp đến hiệu nó: Hidden layers: đóng góp cho yếu tố quan trọng mạng Thông thường cần layer đủ để cung cấp chức mong muốn, hỗ trợ đủ số lượng neurons cần thiết Hidden neurons: Số lượng neurons có mặt hidden layer lựa chọn dễ dàng Một nguyên tắc chọn đếm từ đến vài đơn vị đầu vào Cách khác sử dụng cross-validation để xác thực sau kiểm tra biểu đồ số lượng neurons hidden layer (s) sai số toàn phương trung bình (MSE) tổ hợp, cuối lựa chọn kết hợp với giá trị MSE tối thiểu Output nodes: Số lượng nút đầu thường với số lượng lớp cần thiết để phân loại giá trị mục tiêu Activation functions: Đây hàm nhận vector đầu vào, sau biến đổi để trả vector đầu Có nhiều hàm activation tanh, sigmoid function, hay ReLUs Activation function cho phép ghi nhận kết dạng linear nonlinear functions Đầu MLP phụ thuộc vào input , MLPs đánh giá thích hợp để giải vấn đề phân loại 1.7 Stochastic Gradient Descent: Phương pháp xuống dốc ngẫu nhiên Cơng cụ hầu hết giải pháp tối ưu hóa vấn đề thuật tốn gradient descent Nó thuật tốn lặp nhằm giảm thiểu hàm sử dụng sau cập nhật thơng số hàm Như thấy hình 1-17, bắt đầu cách nghĩ đến việc xử lí loại phễu Tưởng tượng bóng lăn xuống dốc phễu bóng cuối lăn xuống đáy Có lẽ sử dụng ý tưởng để tìm phương pháp tối ưu Trong thuật toán này, thời điểm, ta tính đạo hàm loss function dựa điểm liệu xi cập nhật thông số dựa đạo hàm Việc thực với điểm toàn liệu, sau lặp lại q trình Thuật tốn đơn giản thực tế lại làm việc hiệu 66 Mỗi lần duyệt lượt qua tất điểm toàn liệu gọi epoch Với Gradient Descent thơng thường epoch ứng với lần cập nhật thông số, với Stochastic Gradient Descent epoch ứng với N lần cập nhật thông số với N số điểm liệu Nhìn vào mặt, việc cập nhật điểm làm giảm tốc độ thực epoch Nhưng nhìn vào mặt khác, SGD yêu cầu lượng epoch nhỏ (thường 10 cho lần đầu tiên, sau có liệu cần chạy epoch có nghiệm tốt) Vì SGD phù hợp với tốn có lượng sở liệu lớn (chủ yếu Deep Learning) tốn u cầu mơ hình thay đổi liên tục, tức online learning Chúng ta biết bóng xuống theo hướng dốc tối đa, trọng lực Khi ta cập nhật weights theo quy tắc sau: J (w) = Chi phí (một hàm weights) w = Các thông số mạng (v1 v2) wi = ban đầu weights(ngẫu nhiên) Trong dJ(w)/dw đạo hàm riêng Jw theo w η = learning rate(thể tốc độ học) 1.8 Backpropagation : lan truyền ngược Backpropagation (Truyền ngược) thuật toán mà ta hay gặp mơ hình mạng học sâu (Deep Learning), tính tốn đạo hàm thành phần phần nút mơ hình (Ví dụ: Convnet, Neural Network) Các đạo hàm thành phần sử dụng suốt trình huấn luyện mạng Trong viết này, xem xét cách thực backpropagation trực quan đơn giản Để thực backpropagation cách đơn giản, ta biểu diễn mơ đồ thị tính tốn Sau đó, ta tính forward propagation (Truyền xi) đạo hàm block (khối) Gradient descent thuật tốn mạnh mẽ, phương pháp chậm weights tăng Trong trường hợp mạng neuron có thông số phạm vi ngàn, đào tạo cân liên quan đến loss function hoặc, hơn, xây dựng mát chức tất trọng lượng trở nên cẩn thận vô phức tạp để sử dụng cho mục đích thực tế 67 Đó thủ tục hiệu tính tốn gradient xác, chi phí tính tốn ln ln độ phức tạp tính tốn mát Các chứng lan truyền ngược nằm ngồi phạm vi sách này; Tuy nhiên, lời giải thích trực quan thuật tốn cung cấp cho bạn nhìn sâu sắc tuyệt vời vào làm việc phức tạp Đối với lan truyền ngược để làm việc, hai giả định thực liên quan đến Thuật tốn truyền ngược chia thành hai giai đoạn: lan truyền, cập nhật trọng số Giai đoạn 1: Lan truyền Mỗi lan truyền bao gồm bước sau đây: Lan truyền thuận input mơ hình thơng qua mạng nơron để tạo output Truyền ngược output thơng qua mạng lưới nơron sử dụng mơ hình để tạo delta (sai lệch giá trị mục tiêu giá trị đầu thực tế) tất đầu với nơron ẩn Giai đoạn 2: cập nhật trọng số Đối với nơron – việc cập nhật trọng số thực theo bước sau: Nhân delta output input để có số gradient trọng số Trừ tỷ lệ từ gradient trọng số Tỷ lệ ảnh hưởng đến tốc độ chất lượng học; gọi tốc độ học Tỷ lệ lớn, tốc độ huấn luyện nơron nhanh; tỷ lệ thấp, việc huấn luyện chậm Dấu gradient trọng số chỗ mà sai số gia tăng, lý trọng số phải cập nhật theo hướng ngược lại Lặp lại giai đoạn đáp ứng mạng nơron chấp nhận Ban đầu, tất trọng số cạnh chọn ngẫu nhiên Đối với đầu vào tập liệu đào tạo, ANN kích hoạt, sản lượng theo dõi Sản lượng so sánh với kết mong muốn biết, lỗi “lan truyền” trở lại với layer trước Lỗi ghi nhận, trọng số “điều chỉnh” cho phù hợp Quá trình lặp lại lỗi đầu ngưỡng xác định trước Chúng ta cố gắng liên tục cập nhật trọng số, cách làm đường chuyền phía trước mạng, sau chúng tơi cập nhật trọng số lớp cuối cùng, sử dụng nhãn đầu lớp cuối cùng, sau sử dụng thông tin đệ quy lớp trước tiến hành lại 68 Tài liệu tham khảo [1] 16_#Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning The MIT Press, 2016 chương [2] 18_Palash Goyal, Sumit Pandey, Karan Jain Deep Learning for Natural Language Processing Creating Neural Networks with Python Apress, 2018 [3] https://machinelearningcoban.com/2017/03/04/overfitting/ Phụ lục Link github code demo ragularization: https://github.com/tieulongnu/Regularization/blob/master/Regularization1.ipy nb 69 ...Mục Lục Chương 7: Các chế kiểm soát học sâu 7.1 Tham số phạt chuẩn .3 7.1.1 Cơ chế kiểm soát L2 7.1.2 Cơ chế kiểm soát L 7.2 Phạt... soát dựa việc kiểm soát ước lượng Cơ chế kiểm soát ước lượng hoạt động theo cách đánh đổi việc giảm phương sai cách tăng độ chệch Một chế kiểm soát xem hiệu giúp làm giảm phương sai cách đáng kể... .64 Chương 7: Các chế kiểm soát học sâu Một vấn đề trọng tâm học máy tìm cách tạo thuật tốn khơng hoạt động tốt tập huấn luyện, mà phải cho kết tốt đầu vào Nhiều chiến lược học máy thiết kế