Báo cáo đề tài môn học sâu đề tài huấn luyện học sâu

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHỆ CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN    BÁO CÁO ĐỀ TÀI MÔN HỌC SÂU Đề tài HUẤN LUYÊN HỌC SÂU GIẢNG VIÊN THÀNH VIÊN NHÓM 5 ThS Lê Anh Nhã Uyên Nguyễn Thành Công 1900[.]

TRƯỜNG ĐẠI HỌC KỸ THUẬT - CÔNG NGHỆ CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO ĐỀ TÀI MÔN: HỌC SÂU Đề tài: HUẤN LUYÊN HỌC SÂU GIẢNG VIÊN THÀNH VIÊN NHÓM 5: ThS Lê Anh Nhã Uyên Ngũn Thành Cơng - 1900716 Hùynh Minh Tồ̀n - 1900460 Huỳnh Thanh Tà̀i - 1900538 Hồ Thị Ngọc Trang - 1900777 Lớp: KHM0119 Cần Thơ, 02/2023 Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên NHẬN XÉT CỦA GIẢNG VIÊN - i Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên MỤC LỤC NHẬN XÉT CỦA GIẢNG VIÊN i Giơi thiệu tối ưu hóa (optimization) cho mạng học sâu Các cách khởi tạ̣o biến Khởi tạ̣o trọ̣ng số́ .1 Phương pháp tố́i ưu Gradient descent và̀ Momentum: Một số́ biến thể tìm kiếm bước giảm (Learning Rate) Giới thiệ̣u quy hó́a (regularization) TÀI LIỆU THAM KHẢO .10 ii Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên Giới thiệu tối ưu hóa (optimization) cho mạng học sâu Trong huấ́n luyệ̣n mạ̣ng họ̣c sâu, tố́i ưu hó́a là̀ q trình tìm kiếm giá trị̣ tố́i ưu hà̀m mấ́t mát (loss function) tập liệ̣u huấ́n luyệ̣n Mục đích trình nà̀y là̀ tìm trọ̣ng số́ (weights) và̀ siêu tham số́ (hyperparameters) mà̀ là̀m cho mạ̣ng họ̣c sâu hoạ̣t động tố́t nhấ́t tập liệ̣u huấ́n luyệ̣n và̀ tập liệ̣u khác.Tố́i ưu hó́a huấ́n luyệ̣n mạ̣ng họ̣c sâu có́ thể thực hiệ̣n nhiều cách khác nhau, bao gồ̀m: Gradient descent và̀ biến thể nó́: Gradient descent là̀ phương pháp tố́i ưu hó́a phổ biến nhấ́t huấ́n luyệ̣n mạ̣ng họ̣c sâu Nó́ hoạ̣t động cách tính toán gradient hà̀m mấ́t mát đố́i với trọ̣ng số́ và̀ cập nhật trọ̣ng số́ cách di chuyển theo hướng đố́i lập với gradient Các biến thể gradient descent bao gồ̀m stochastic gradient descent, mini-batch gradient descent, và̀ momentum gradient descent Họ̣c sâu bayesian: Họ̣c sâu bayesian là̀ phương pháp tố́i ưu hó́a phức tạ̣p so với gradient descent, nó́ có́ thể cung cấ́p giá trị̣ trọ̣ng số́ tố́i ưu cho mạ̣ng họ̣c sâu Thay cố́ đị̣nh trọ̣ng số́ gradient descent, họ̣c sâu bayesian đưa phân phố́i xác suấ́t cho trọ̣ng số́ Tố́i ưu hó́a siêu tham số́: Siêu tham số́ là̀ tham số́ mà̀ là̀ trọ̣ng số́ mạ̣ng họ̣c sâu, tố́c độ họ̣c (learning rate), kích thước batch (batch size) và̀ số́ lượng lớp ẩn (hidden layers) Tố́i ưu hó́a siêu tham số́ là̀ q trình tìm kiếm giá trị̣ tố́i ưu siêu tham số́ nà̀y Các phương pháp tố́i ưu hó́a siêu tham số́ bao gồ̀m tìm kiếm ngẫu nhiên, tìm kiếm dựa mơ hình (model-based search) và̀ tố́i ưu hó́a đa nhiệ̣m (multi-task optimization).Các thuật toán họ̣c sâu liên quan đến việ̣c tố́i ưu hó́a nhiều ngữ cảnh Ví dụ, thực hiệ̣n suy luận mơ PCA liên quan đến việ̣c giải vấ́n đề tố́i ưu hó́a vấ́n đề Chúng ta thường sử dụng tố́i ưu hó́a phân tích để viết chứng thuật toán thiết kế Trong tấ́t vấ́n đề tố́i ưu hó́a liên quan đến họ̣c sâu, vấ́n đề quan trọ̣ng nhấ́t khó́ khăn là̀ đà̀o tạ̣o mạ̣ng lưới thần kinh Việ̣c đầu tư hà̀ng ngà̀y đến hà̀ng tháng là̀ điều phổ biến Thời gian hà̀ng trăm máy để giải dù trường hợp nhấ́t hệ̣ thần kinh bà̀i tốn huấ́n luyệ̣n mạ̣ng Bởi vấ́n đề nà̀y rấ́t quan trọ̣ng và̀ rấ́t tố́n kém, kỹ thuật tố́i ưu hó́a chuyên biệ̣t phát triển để giải nó́ Chương nà̀y trình bà̀y kỹ thuật tố́i ưu hó́a cho đà̀o tạ̣o mạ̣ng thần kinh Chúng ta bắt đầu với mô tả cách tố́i ưu hó́a sử dụng thuật tốn đà̀o tạ̣o cho nhiệ̣m vụ họ̣c máy khác với tố́i ưu hó́a túy Tiếp theo, trình bà̀y thách thức cụ thể khiến việ̣c tố́i ưu hó́a mạ̣ng lưới thần kinh trở nên khó́ khăn Sau đó́ xác đị̣nh số́ thuật toán thực tế, bao gồ̀m hai thuật tốn tố́i ưu hó́a thân và̀ chiến lược để khởi tạ̣o tham số́ Các thuật toán Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên nâng cao điều chỉnh tỷ lệ̣ họ̣c tập chúng trình đà̀o tạ̣o tận dụng thơng tin có́ đạ̣o hà̀m cấ́p hai hà̀m chi phí Cuố́i cùng, kết luận với đánh giá số́ chiến lược tố́i ưu hó́a hình thà̀nh cách kết hợp tố́i ưu hó́a đơn giản thuật toán thà̀nh thủ tục cấ́p cao Các cách khởi tạ̣o biến Khởi tạ̣o trọ̣ng số́ Khởi tạ̣o trọ̣ng số́ là̀ việ̣c quan trọ̣ng phát triển mơ hình mạ̣ng nơ-ron họ̣c sâu Các nơ ron mạ̣ng nơ-ron bao gồ̀m tham số́ gọ̣i là̀ trọ̣ng số́ sử dụng để tính tổng trọ̣ng số́ đầu và̀o Các mơ hình mạ̣ng nơ ron fit liệ̣u cách sử dụng thuật tốn tố́i ưu hó́a gọ̣i là̀ stochastic gradient descent để thay đổi bước trọ̣ng số́ mạ̣ng để giảm thiểu hà̀m loss, hy vọ̣ng tạ̣o trọ̣ng số́ cho khả đưa dự đốn hữu ích Khởi tạ̣o trọ̣ng số́ là̀ thủ tục để đặt trọ̣ng số́ mạ̣ng nơ-ron thà̀nh giá trị̣ ngẫu nhiên nhỏ để xác đị̣nh điểm bắt đầu cho việ̣c tố́i ưu hó́a mơ hình mạ̣ng nơron Đà̀o tạ̣o mơ hình deep learning là̀ nhiệ̣m vụ khó́ khăn mà̀ hầu hết thuật tốn bị̣ ảnh hưởng mạ̣nh lựa chọ̣n khởi tạ̣o Điểm ban đầu có́ thể xác đị̣nh liệ̣u thuật tốn có́ hội tụ hay khơng, với số́ điểm ban đầu khơng ổn đị̣nh đến mức thuật tốn gặp khó́ khăn và̀ thấ́t bạ̣i hoà̀n toà̀n Mỗi lần, mạ̣ng nơ-ron khởi tạ̣o với tập trọ̣ng số́ khác nhau, dẫn đến điểm khởi đầu khác cho trình tố́i ưu hó́a và̀ có́ khả dẫn đến tập hợp trọ̣ng số́ cuố́i khác và̀ hiệ̣u suấ́t mạ̣ng khác Khởi tạ̣o trọ̣ng số́ cho Sigmoid Tanh Cách tiếp cận tiêu chuẩn để khởi tạ̣o trọ̣ng số́ lớp mạ̣ng nơron và̀ nút sử dụng chức kích hoạ̣t Sigmoid Tanh gọ̣i là̀ khởi tạ̣o “glorot” “xavier” Khởi tạ̣o Xavier Phương pháp khởi tạ̣o xavier tính số́ ngẫu nhiên có́ phân phố́i xác suấ́t đồ̀ng nhấ́t (U) phạ̣m vi −(1/sqrt(n))- (1 / sqrt (n))−(1/sqrt(n)) và̀ 1/sqrt(n)1 / sqrt (n)1/sqrt(n) , đó́ nnn là̀ số́ lượng đầu và̀o cho nút 1/sqrt(n)]weight=U[−(1/sqrt(n)),1/sqrt(n)] Khởi tạ̣o Xavier chuẩn hó́a Đề tài: Huấn Luyện Học Sâu GVHD: Lê Anh Nhã Uyên Phương pháp khởi tạ̣o xavier chuẩn hó́a tính tốn dạ̣ng số́ ngẫu nhiên có́ phân phố́i xác suấ́t đồ̀ng nhấ́t (U) phạ̣m vi –(sqrt(6)/sqrt(n+m)) và̀ sqrt(6)/sqrt(n+m), đó́ n là̀ số́ lượng đầu và̀o và̀ m là̀ số́ đầu từ lớp weight = U [-(sqrt(6)/sqrt(n + m)), sqrt(6)/sqrt(n + m)]weight=U[− (sqrt(6)/sqrt(n+m)),sqrt(6)/sqrt(n+m)] Khởi tạ̣o trọ̣ng số́ cho Relu Việ̣c khởi tạ̣o trọ̣ng số́ “xavier” phát hiệ̣n có́ vấ́n đề sử dụng để khởi tạ̣o mạ̣ng sử dụng chức kích hoạ̣t tuyến tính (ReLU) Do đó́, phiên sửa đổi cách tiếp cận phát triển đặc biệ̣t cho nút và̀ lớp sử dụng kích hoạ̣t ReLU, phổ biến lớp ẩn hầu hết mơ hình mạ̣ng nơ ron đa lớp và̀ Perceptron nhiều lớp Khởi tạ̣o trọ̣ng số́ He Phương pháp khởi tạ̣o He tính tốn dạ̣ng số́ ngẫu nhiên có́ phân phố́i xác suấ́t Gaussian (G) với giá trị̣ trung bình là̀ 0,0 và̀ độ lệ̣ch chuẩn là̀ sqrt(2/n)sqrt (2 / n)sqrt(2/n) , đó́ nnn là̀ số́ đầu và̀o cho nút weight=G(0.0,sqrt(2/n))weight = G (0.0, sqrt(2/n))weight=G(0.0,sqrt(2/n)) a Phương pháp tố́i ưu Gradient descent Momentum: Gradient Descent: Trong bà̀i toán tố́i ưu, thường tìm giá trị̣ nhỏ nhấ́t hà̀m số́ nà̀o đó́, mà̀ hà̀m số́ đạ̣t giá trị̣ nhỏ nhấ́t đạ̣o hà̀m Nhưng đâu phải lúc nà̀o đạ̣o hà̀m hà̀m số́ được, đố́i với hà̀m số́ nhiều biến đạ̣o hà̀m rấ́t phức tạ̣p, chí là̀ bấ́t khả thi Nên thay và̀o đó́ người ta tìm điểm gần với điểm cực tiểu nhấ́t và̀ xem đó́ là̀ nghiệ̣m bà̀i tốn Gradient Descent dị̣ch tiếng Việ̣t là̀ giảm dần độ dố́c, nên hướng tiếp cận là̀ chọ̣n nghiệ̣m ngẫu nhiên sau vịng lặp (hay epoch) cho nó́ tiến dần đến điểm cần tìm Cơng thức : xnew = xold - learningrate.gradient(x) Đặt câu hỏi tạ̣i có́ cơng thức đó́ ? Cơng thức xây dựng để cập nhật lạ̣i nghiệ̣m sau vòng lặp Dấ́u '-' trừ ám ngược hướ́ng đạ̣o hàm Đặt tiếp câu hỏi tạ̣i lạ̣i ngược hướng đạ̣o hà̀m ? Ví dụ đố́i với hà̀m f(x)= 2x +5sin(x) hình f'(x) =2x + 5cos(x) với x_old =-4 f'(-4) x_new > x_old nên nghiệ̣m di chuyển bên phải tiến gần tới điểm cực tiểu ngược lạ̣i với x_old =4 f'(4) >0 => x_new

Ngày đăng: 20/02/2023, 14:56

Xem thêm: