Phụ lục I TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHỆ CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỀ TÀI MÔN HỌC SÂU Đề tài HUẤN LUYỆN HỌC SÂU GIẢNG VIÊN THÀNH VIÊN NHÓM 5 ThS Lê Anh Nhã Uyên Nguyễn Thành[.]
TRƯỜNG ĐẠI HỌC KỸ THUẬT - CÔNG NGHỆ CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỀ TÀI MÔN: HỌC SÂU Đề tài: HUẤN LUYỆN HỌC SÂU GIẢNG VIÊN THÀNH VIÊN NHÓM 5: ThS Lê Anh Nhã Uyên Ngũn Thành Cơng - 1900716 Hùynh Minh Tồn - 1900460 Huỳnh Thanh Tài - 1900538 Hồ Thị Ngọc Trang - 1900777 Lớp: KHM0119 Cần Thơ, 02/2023 Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên NHẬN XÉT CỦA GIẢNG VIÊN - i Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên MỤC LỤC NHẬN XÉT CỦA GIẢNG VIÊN i Giới thiệu tối ưu hóa (optimization) cho mạng học sâu .1 Các cách khởi tạo biến Khởi tạo trọng số Phương pháp tối ưu Gradient descent Momentum: Một số biến thể tìm kiếm bước giảm (Learning Rate) Giới thiệu quy hóa (regularization) TÀI LIỆU THAM KHẢO .10 ii Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên Giới thiệu tối ưu hóa (optimization) cho mạng học sâu Trong huấn luyện mạng học sâu, tối ưu hóa q trình tìm kiếm giá trị tối ưu hàm mát (loss function) tập liệu huấn luyện Mục đích trình tìm trọng số (weights) siêu tham số (hyperparameters) mà làm cho mạng học sâu hoạt động tốt tập liệu huấn luyện tập liệu khác.Tối ưu hóa huấn luyện mạng học sâu thực nhiều cách khác nhau, bao gồm: Gradient descent biến thể nó: Gradient descent phương pháp tối ưu hóa phổ biến huấn luyện mạng học sâu Nó hoạt động cách tính tốn gradient hàm mát trọng số cập nhật trọng số cách di chuyển theo hướng đối lập với gradient Các biến thể gradient descent bao gồm stochastic gradient descent, mini-batch gradient descent, momentum gradient descent Học sâu bayesian: Học sâu bayesian phương pháp tối ưu hóa phức tạp so với gradient descent, cung cấp giá trị trọng số tối ưu cho mạng học sâu Thay cố định trọng số gradient descent, học sâu bayesian đưa phân phối xác suất cho trọng số Tối ưu hóa siêu tham số: Siêu tham số tham số mà trọng số mạng học sâu, tốc độ học (learning rate), kích thước batch (batch size) số lượng lớp ẩn (hidden layers) Tối ưu hóa siêu tham số trình tìm kiếm giá trị tối ưu siêu tham số Các phương pháp tối ưu hóa siêu tham số bao gồm tìm kiếm ngẫu nhiên, tìm kiếm dựa mơ hình (model-based search) tối ưu hóa đa nhiệm (multi-task optimization).Các thuật tốn học sâu liên quan đến việc tối ưu hóa nhiều ngữ cảnh Ví dụ, thực suy luận mơ PCA liên quan đến việc giải vấn đề tối ưu hóa vấn đề Chúng ta thường sử dụng tối ưu hóa phân tích để viết chứng thuật toán thiết kế Trong tất vấn đề tối ưu hóa liên quan đến học sâu, vấn đề quan trọng khó khăn đào tạo mạng lưới thần kinh Việc đầu tư hàng ngày đến hàng tháng điều phổ biến Thời gian hàng trăm máy để giải dù trường hợp hệ thần kinh toán huấn luyện mạng Bởi vấn đề quan trọng tốn kém, kỹ thuật tối ưu hóa chuyên biệt phát triển để giải Chương trình bày kỹ thuật tối ưu hóa cho đào tạo mạng thần kinh Chúng ta bắt đầu với mô tả cách tối ưu hóa sử dụng thuật tốn đào tạo cho nhiệm vụ học máy khác với tối ưu hóa túy Tiếp theo, trình bày thách thức cụ thể khiến việc tối ưu hóa mạng lưới thần kinh trở nên khó khăn Sau xác định số thuật toán thực tế, bao gồm hai thuật tốn tối ưu hóa thân chiến lược để khởi tạo tham số Các thuật toán Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên nâng cao điều chỉnh tỷ lệ học tập chúng trình đào tạo tận dụng thơng tin có đạo hàm cấp hai hàm chi phí Cuối cùng, kết luận với đánh giá số chiến lược tối ưu hóa hình thành cách kết hợp tối ưu hóa đơn giản thuật toán thành thủ tục cấp cao Các cách khởi tạo biến Khởi tạo trọng số Khởi tạo trọng số việc quan trọng phát triển mơ hình mạng nơ-ron học sâu Các nơ ron mạng nơ-ron bao gồm tham số gọi trọng số sử dụng để tính tổng trọng số đầu vào Các mơ hình mạng nơ ron fit liệu cách sử dụng thuật tốn tối ưu hóa gọi stochastic gradient descent để thay đổi bước trọng số mạng để giảm thiểu hàm loss, hy vọng tạo trọng số cho khả đưa dự đoán hữu ích Khởi tạo trọng số thủ tục để đặt trọng số mạng nơ-ron thành giá trị ngẫu nhiên nhỏ để xác định điểm bắt đầu cho việc tối ưu hóa mơ hình mạng nơron Đào tạo mơ hình deep learning nhiệm vụ khó khăn mà hầu hết thuật tốn bị ảnh hưởng mạnh lựa chọn khởi tạo Điểm ban đầu xác định liệu thuật tốn có hội tụ hay không, với số điểm ban đầu không ổn định đến mức thuật tốn gặp khó khăn thất bại hoàn toàn Mỗi lần, mạng nơ-ron khởi tạo với tập trọng số khác nhau, dẫn đến điểm khởi đầu khác cho trình tối ưu hóa có khả dẫn đến tập hợp trọng số cuối khác hiệu suất mạng khác Khởi tạo trọng số cho Sigmoid Tanh Cách tiếp cận tiêu chuẩn để khởi tạo trọng số lớp mạng nơron nút sử dụng chức kích hoạt Sigmoid Tanh gọi khởi tạo “glorot” “xavier” Khởi tạo Xavier Phương pháp khởi tạo xavier tính số ngẫu nhiên có phân phối xác suất đồng (U) phạm vi −(1/sqrt(n))- (1 / sqrt (n))−(1/sqrt(n)) 1/sqrt(n)1 / sqrt (n)1/sqrt(n) , nnn số lượng đầu vào cho nút 1/sqrt(n)]weight=U[−(1/sqrt(n)),1/sqrt(n)] Khởi tạo Xavier chuẩn hóa Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên Phương pháp khởi tạo xavier chuẩn hóa tính tốn dạng số ngẫu nhiên có phân phối xác suất đồng (U) phạm vi –(sqrt(6)/sqrt(n+m)) sqrt(6)/sqrt(n+m), n số lượng đầu vào m số đầu từ lớp weight = U [-(sqrt(6)/sqrt(n + m)), sqrt(6)/sqrt(n + m)]weight=U[− (sqrt(6)/sqrt(n+m)),sqrt(6)/sqrt(n+m)] Khởi tạo trọng số cho Relu Việc khởi tạo trọng số “xavier” phát có vấn đề sử dụng để khởi tạo mạng sử dụng chức kích hoạt tuyến tính (ReLU) Do đó, phiên sửa đổi cách tiếp cận phát triển đặc biệt cho nút lớp sử dụng kích hoạt ReLU, phổ biến lớp ẩn hầu hết mơ hình mạng nơ ron đa lớp Perceptron nhiều lớp Khởi tạo trọng số He Phương pháp khởi tạo He tính tốn dạng số ngẫu nhiên có phân phối xác suất Gaussian (G) với giá trị trung bình 0,0 độ lệch chuẩn sqrt(2/n)sqrt (2 / n)sqrt(2/n) , nnn số đầu vào cho nút weight=G(0.0,sqrt(2/n))weight = G (0.0, sqrt(2/n))weight=G(0.0,sqrt(2/n)) Phương pháp tối ưu Gradient descent Momentum: a Gradient Descent: Trong tốn tối ưu, thường tìm giá trị nhỏ hàm số đó, mà hàm số đạt giá trị nhỏ đạo hàm Nhưng đâu phải lúc đạo hàm hàm số được, hàm số nhiều biến đạo hàm phức tạp, chí bất khả thi Nên thay vào người ta tìm điểm gần với điểm cực tiểu xem nghiệm toán Gradient Descent dịch tiếng Việt giảm dần độ dốc, nên hướng tiếp cận chọn nghiệm ngẫu nhiên sau vịng lặp (hay epoch) cho tiến dần đến điểm cần tìm Cơng thức : xnew = xold - learningrate.gradient(x) Đặt câu hỏi có cơng thức ? Công thức xây dựng để cập nhật lại nghiệm sau vòng lặp Dấu '-' trừ ám chỉ ngược hướng đạo hàm Đặt tiếp câu hỏi lại ngược hướng đạo hàm ? Ví dụ hàm f(x)= 2x +5sin(x) hình f'(x) =2x + 5cos(x) với x_old =-4 f'(-4) x_new > x_old nên nghiệm di chuyển bên phải tiến gần tới điểm cực tiểu ngược lại với x_old =4 f'(4) >0 => x_new