Một phương pháp tăng tốc khả năng hội tụ đối với gradient descent

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	443,7 KB

Nội dung

Trong bài viết này, tác giả sử dụng một phương pháp mới để nhanh chóng tìm kiếm tham số học (learning rate) hợp lý dựa trên ý tưởng của nguyên lý điều khiển luồng và chống tắc nghẽn trong mạng viễn thông nhằm tăng tốc khả năng hội tụ của bài toán so với phương pháp gradient descent thông thường.

Cơng nghệ thơng tin & Cơ sở tốn học cho tin học MỘT PHƯƠNG PHÁP TĂNG TỐC KHẢ NĂNG HỘI TỤ ĐỐI VỚI GRADIENT DESCENT Hoa Tất Thắng1*, Trần Văn An1, Đồn Văn Hịa2, Lê Hồng Minh2, Hồng Xn Trung3 Tóm tắt: Bài tốn tối ưu hóa tốn tìm kiếm lời giải tốt lời giải khả thi Tối ưu hóa có nhiều ứng dụng lĩnh vực học sâu có nhiều ứng dụng đời sống thực tế toán phân loại, nhận dạng ảnh, tốn tối đa hóa doanh thu hay giảm chi phí, thời gian sản xuất Phương pháp gradient descent thường sử dụng để nhanh chóng tìm nghiệm tối ưu tốn Trong báo này, tác giả sử dụng phương pháp để nhanh chóng tìm kiếm tham số học (learning rate) hợp lý dựa ý tưởng nguyên lý điều khiển luồng chống tắc nghẽn mạng viễn thông nhằm tăng tốc khả hội tụ toán so với phương pháp gradient descent thơng thường Từ khóa: Gradient descent; Máy học; Tham số học; Điểm khởi tạo; Hàm mát ĐẶT VẤN ĐỀ Ngày nay, nhiều toán khoa học kỹ thuật ứng dụng rộng rãi đời sống xã hội xem toán tối ưu Học máy tối ưu hóa ngày có nhiều ứng dụng rộng rãi [2, 7] Phần lớn vấn đề học máy xem tốn tối ưu hàm số biết đến với tên hàm mát [1] Hơn nữa, tối ưu hóa đóng vai trị quan trọng lĩnh vực học sâu, đặc biệt vấn đề liên quan đến hình ảnh (ví dụ, phân loại hình ảnh [8], nhận dạng ảnh [5] Điều hầu hết trình chủ yếu nhằm cực tiểu hóa cực đại hóa số lượng đó: tối đa hóa doanh thu, độ xác, hiệu suất giảm thiểu sai sót, chi phí, thời gian Hiện nay, có số phương pháp tìm nghiệm Gradient Descent (GD) điển hình như: Batch Gradient Descent, Fast GD, Stochastic GD, Mỗi phương pháp có ưu nhược điểm riêng Điểm chung phương pháp việc tìm nghiệm phụ thuộc điểm khởi tạo tham số học Bài báo đưa phương pháp tiếp cận tìm tham số học tối ưu chọn điểm khởi tạo ban đầu, từ sử dụng phương pháp sau để tìm nghiệm GD Sử dụng learning rate [3] gradient descent tỏ hiệu nhiều trường hợp Tuy nhiên, vấn đề việc lựa chọn learning rate Nếu learning rate chọn lớn, điểm xt loanh quanh điểm x* mà không tiến tới x*, chí số trường hợp ngày xa điểm x* Nếu learning rate chọn nhỏ lâu tiếp cận điểm local minimum Một vấn đề learning rate chọn điểm khởi tạo xa với điểm local minimum cần phải qua nhiều bước tới điểm hội tụ Vấn đề đặt cần cải tiến cách chọn learning rate để tăng cường khả hội tụ thuật toán gradient descent Một số phương pháp nghiên cứu đề xuất số giải thuật tối ưu Gradient Descent Như momentum [10] hỗ trợ tăng tốc nhằm giúp phương pháp Gradient Descent thoát khỏi điểm cực tiểu địa phương Tuy nhiên, phương pháp từ đầu chọn learning rate khơng phù hợp (q lớn) khơng tìm nghiệm Hay Adagrad [6] phương pháp tìm tham số học thích nghi, sử dụng learning rate bé thuộc tính thường xuyên sử dụng tham số học lớn thuộc tính sử dụng Tuy nhiên, việc phân biệt khó thực hiện, thực tế Adagrad thường sử dụng tham số học bé (0.01) Trong “Cyclical Learning Rates for Training Neural Networks.” [9], Leslie N 186 H T Thắng, …, H X Trung, “Một phương pháp tăng tốc … gradient descent.” Nghiên cứu khoa học công nghệ Smith cơng bố [11] đề xuất sử dụng giá trị learning rate thay đổi theo theo chu kì (tam giác, hình sin, parabol, ) Phương pháp hiệu so với phương pháp sử dụng learning rate cố định chỗ số vịng lặp hơn, tốt số tốn tìm cực trị phải nhảy qua điểm yên ngựa Đây giải pháp tốt nhiên cần phải xác định điểm giới hạn giới hạn cho learning rate chiều dài chu kì lặp, nhiều ước lượng Thêm sở toán học việc thay đổi theo chu kì tham số học learning rate chưa chứng minh rõ ràng Từ vấn đề nêu trên, nhóm tác giả đưa đề xuất ý tưởng cài đặt đơn giản để chọn learning rate phù hợp dựa phương thức điều khiển luồng chống tắc nghẽn mạng viễn thơng TCP (transmission control protocol)[3] Thuật tốn tăng giá trị tham số học giá trị tham số học nhỏ giảm giá trị tham số học giá trị lớn đến giá trị phù hợp để áp dụng tăng tốc áp dụng vào Gradient Descent TĂNG KHẢ NĂNG HỘI TỤ DỰA TRÊN TÌM THAM SỐ HỌC PHÙ HỢP 2.1 Bài toán điều khiển luồng chống tắc nghẽn mạng viễn thông TCP Điều khiển luồng mạng viễn thơng phương pháp kiểm sốt thơng tin hai thiết bị đầu cuối cụ thể, biện pháp giúp cho lưu thông lưu lượng thiết bị thu phát Tắc nghẽn tượng mà thông lượng mạng giảm trễ tăng lên lượng thông tin vào mạng tăng Điều khiển luồng cung cấp chế giới hạn lưu lượng thông tin vào mạng nhằm tránh tượng tắc nghẽn, đảm bảo việc truyền thông tin phía phát khơng vượt q khả xử lý phía thu, tránh tràn vùng đệm người nhận Hình Quá trình xảy tắc nghẽn mạng viễn thông Quá tải làm thông lượng suy biến hình Đồ thị biểu mối quan hệ thông lượng với lưu lượng đưa vào Khi lưu lượng đưa vào nhỏ, thông lượng tăng tuyến tính bên trái điểm gãy Thơng lượng lớn lưu lượng đưa vào gần với độ lớn băng thông gây tượng thắt cổ chai thông lượng tăng chậm theo kích thước đệm Khi lưu lượng đưa vào tiếp tục tăng lúc xảy tượng nghẽn thông lượng giảm đột ngột từ điểm vách xuống giá trị nhỏ Phương pháp điều khiển tắc nghẽn TCP vào mơ hình chậm bắt đầu kết nối Trong suốt trình khởi đầu chậm, phía gửi tăng tốc độ theo hàm mũ Khi bắt đầu khởi đầu chậm, cửa sổ tắc nghẽn thiết lập đoạn, phía gửi gửi đoạn chờ nhận xác nhận từ phía nhận Khi bên nhận xác nhận, phía gửi tăng cửa sổ chống tắc nghẽn lên 1, gửi đoạn, đợi xác nhận tương ứng Mỗi xác nhận đến, phía gửi lại gửi gấp đơi lên đoạn, Tạp chí Nghiên cứu KH&CN quân sự, Số 68, - 2020 187 Cơng nghệ thơng tin & Cơ sở tốn học cho tin học đoạn, dẫn đến tăng theo hàm mũ cửa sổ chống tắc nghẽn (hình 2) TCP thoát khỏi khởi đầu chậm đoạn bị Khi đó, phía gửi giảm cửa số tắc nghẽn nửa Hình Cửa sổ tắc nghẽn TCP Lấy ý tưởng từ mơ hình này, nhóm tác giả đưa ý tưởng tìm learning rate phù hợp cho thuật toán GD với nguyên tắc khởi đầu chậm tăng theo hàm mũ 2.2 Gradient descient thuật tốn tìm tham số học Hầu hết vấn đề tối ưu hóa xây dựng giống sau: x*  arg f ( x) (1) Trong đó, x * điểm cực trị (min), f hàm mát Nói chung, việc tìm điểm minimum tồn cục thường gây khó khăn khơng nhỏ tốn tìm nghiệm tối ưu Trong số trường hợp bất khả thi, vậy, người ta cố gắng tìm điểm local minimum, mức độ đó, điểm local minimum coi nghiệm tốn (hình 3) Các điểm local minimum có đặc điểm chung đạo hàm chúng không Và sử dụng gradient descent phương pháp phổ biến để giải tốn tìm nghiệm tối ưu kiểu Thơng thường người ta chọn điểm mà coi gần với nghiệm tốn, sau dùng phép lặp để tiến đến điểm tối ưu cần tìm, gần với điểm tối ưu đạo hàm chúng có giá trị gần Hình Gradient descent không gian hai chiều Trong không gian nhiều chiều, nguyên tắc làm việc gradient descent hình dung hình 188 H T Thắng, …, H X Trung, “Một phương pháp tăng tốc … gradient descent.” Nghiên cứu khoa học cơng nghệ Hình Gradient khơng gian ba chiều (Nguồn: http://dsdeepdive.blogspot.com/2016/03/optimizations-of-gradient-descent.html) Minh họa hình để phân tích gradient descent Tư tưởng chung kỹ thuật sử dụng gradient descent giả sử xt tìm sau vịng lặp thứ t ta cần tìm thuật tốn để đưa xt gần x * tốt Sử dụng Gradient Descent (GD) có nghĩa phải di chuyển ngược dấu với đạo hàm xt 1  xt   (2) Trong đó,  đại lượng ngược dấu với đạo hàm f '( xt ) giá trị xt bên phải x * f '( xt ) lớn ngược lại Đại lượng di chuyển  trực quan nhất, tỉ lệ thuận với - f '( xt ) Từ đó, ta cập nhật cơng thức: xt 1  xt   f '( xt ) (3) Trong đó,  số dương gọi learning rate (tham số học) Dấu trừ thể việc phải ngược với đạo hàm Trước vào cụ thể, ta quan sát lại theo đồ thị hàm có điểm cực tiểu x * điểm thuật toán cần hội tụ Xuất phát từ điểm x0 với hệ số learrning rate  Ta có cơng thức cập nhật x1 theo thuật tốn GD là: x1  x0   f '( x0 ) (4) Hình Đồ thị mơ tả tương quan vị trí biến Tạp chí Nghiên cứu KH&CN quân sự, Số 68, - 2020 189 Công nghệ thơng tin & Cơ sở tốn học cho tin học Quan sát hình ta thấy có trường hợp tổng quát xảy ra: Trường hợp 1: Với  nhỏ không đủ để bước nhảy đưa x1 vượt qua vị trí x * x1 nằm bên với x ' , đạo hàm điểm dấu, suy tích đạo hàm điểm x1 , x0 f '( x1 )  f '( x0 )  Trường hợp 2: Nếu x1 nằm vị trí x '' hay x ''' hình f '( x1 )  f '( x0 )  (Trường hợp f '( x1 )  f '( x0 )  xảy x1  x * , trường hợp xảy ra) Đến đây, với trường hợp điểm x1 , x0 bên tức  nhỏ, để tránh thuật toán q nhiều vịng lặp đến đích ta thực cập nhật giá trị learning rate theo công thức    Sau đó, với  ta thực tính tốn lại vị trí x1 , x1 bên với x0 ta tiếp tục tăng gấp đôi giá trị  , x1 x0 khác bên với learning rate t ta lấy giá trị   t giá trị learning rate sử dụng cho tính tốn theo GD Với trường hợp điểm khác bên giống điều khiển luồng bị tắc nghẽn Ta thực cập nhật  theo công thức   t khi x1 x0 bên Thì giá trị   cần tìm Thuật tốn tìm kiếm tham số học mơ tả sau: Algorithm: Gradient Descent with learning rate finding Input: xinit ,init Output: x * xnew  xinit  init  f '( xinit ) flag  f '( xinit )  f '( xnew ) while( sign( flag )  f '( xinit )  f '( xnew )  ): init  init  2sign( flag ) xnew  xinit  init  f '( xinit ) end while if( sign( flag )  ):  best   init else best   init end if %Tiếp theo thay giá trị xnew cuối best vào GD thông thường% for i  to max_iter x  xnew  best  f '( xnew ) if (( || f '( xnew ||2   )): break; xnew  x end for; x *  x 190 H T Thắng, …, H X Trung, “Một phương pháp tăng tốc … gradient descent.” Nghiên cứu khoa học cơng nghệ Để xác định xem điểm xnew có nằm phía với xinit hay khơng ta sử dụng biến flag  f '( xinit )  f '( xnew ) Nếu giá trị flag dương hai điểm phía Nếu giá trị âm hai điểm nằm khác phía Như vậy, hàm sign(flag) nhận hai giá trị (+1 hai điểm phía -1 hai điểm khác phía) Điều kiện while thể vòng lặp tiếp tục thực tìm thấy giá trị  cuối mà xinit xnew phía Sau tìm giá trị best , ta thay giá trị tìm giá trị xnew vào phương pháp gradient thông thường Ở đây, max_iter số bước lặp tối đa cho phép Nếu chuẩn vector đạo hàm nhỏ giá trị epsilon cho trước thuật tốn dừng tìm giá trị x * giá trị x cuối THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ĐỀ XUẤT Thuật toán thử nghiệm máy tính xách tay với cấu hình CPU Intel Core i7, ram 8Gb, hệ điều hành windows 64 bit, sử dụng ngơn ngữ lập trình Python Thực nghiệm thứ triển khai hàm nhiều biến f ( x, y)  ( x  y  7)2  ( x  y  1)2 Hàm có điểm cực trị (2;3) (-3;-2) áp dụng phương pháp (myGD) có so sánh với phương pháp thông thường Batch Gradient Descent (BGD) chưa áp dụng tìm kiếm learning rate, hai phương pháp phép sử dụng tối đa 1000 vòng lặp Điểm khởi tạo giá trị learning rate ban đầu chọn ngẫu nhiên cột Input Kết thể Bảng Bảng Kết so sánh hàm nhiều biến № xinit Kết Input (1;2.5) (1;2.5) (1;2.5) (1;2.5) (-1.9;-1.9) (-1.9;1.9) init 0.01 0.05 0.057 0.1 0.01 0.04 x* (2;3) (2;3) (2;3) None (-3;-2) (-3.08; -0.32) BGD cost it x* 0.000001 0.000001 0.003421 None 0.000002 7.944861 200 35 999 none 420 999 (2;3) (2;3) (2;3) (2;3) (-3;-2) (-3;-2) myGD cost it 0.000001 0.000001 0.003421 0.000001 0.000002 0.000002 45 35 999 35 211 211 best 0.04 0.05 0.057 0.05 0.02 0.02 Thử nghiệm thực với giá trị tọa độ khởi tạo xinit , tham số học init khác Ta nhận thấy phương pháp áp dụng tìm kiếm tham số học phù hợp tốc độ hội tụ thể qua số vòng lặp (it) nhanh nhiều so với phương pháp BGD (thể phần in đậm) thử nghiệm tham số học có thay đổi (thể phần gạch chân) Với phương pháp sau tìm giá trị learning rate phù hợp best ta bắt đầu tìm nghiệm với giá trị khởi tạo xinit giá trị xnew giá trị cuối tìm best Một điểm ưu việt số tham số khởi tạo mục số phương pháp BGD chí khơng thể tìm nghiệm phương pháp tìm nghiệm tối ưu sau 35 bước lặp Thử nghiệm thứ thể với toán dạng hồi quy tuyến tính Bài tốn sử dụng mảng đầu vào x 1000 số ngẫu nhiên khoảng (0,1) y mảng số cho theo công thức y   3x  noise (giá trị nhiễu bé khoảng từ -0.2 đến 0.2) Cần tìm đường thẳng với giá trị trọng số w1 w2 cho phương trình y  w1  w x mô tả tốt quan hệ x y Tạp chí Nghiên cứu KH&CN quân sự, Số 68, - 2020 191 Cơng nghệ thơng tin & Cơ sở tốn học cho tin học Bảng Kết so sánh hàm hồi quy tuyến tính № Kết Input xinit init (2;1) (2;1) (2;1) (2;1) 0.1 0.4 1.6 2.0 x* BGD cost (4;2.99) 0.018937 (4;2.99) 0.018937 Không hội tụ none None it x* 510 127 1000 none (4;2.99) (4;2.99) (4;2.99) (4;2.99) myGD cost 0.018937 0.018937 0.018937 0.018938 it 127 127 127 101 best 0.4 0.4 0.4 0.5 Thử nghiệm thực hiên với giá trị tọa độ khởi tạo tạo xinit tham số học init khác Ta nhận thấy rằng, phương pháp có áp dụng tìm kiếm tham số học tối ưu số vịng lặp giảm nhanh (thể phần in đậm) số trường hợp tham số khởi tạo phương pháp BGD khơng thể tìm nghiệm (thử nghiệm 3, 4) phương pháp cho nghiệm tối ưu Ở trường hợp giá trị vòng lặp phương pháp đề xuất tốt hai thử nghiệm ta thấy có thay đổi tham số learning rate best so với tham số init ban đầu Điều cho thấy, việc tìm kiếm tham số learning rate có ý nghĩa quan trọng việc tiệm cận nhanh tới nghiệm toán KẾT LUẬN Với phương pháp đề xuất, nhóm tác giả giới thiệu phương pháp tìm kiếm tham số học (learning rate) phù hợp dựa ý tưởng giải thuật chống tắc nghẽn mạng viễn thông TCP Với phương pháp này, trước áp dụng tìm nghiệm theo Gradient Descent ta phải tìm tham số học, nhiên, việc tìm tham số học xảy nhanh tăng giảm theo lũy thừa Thông thường kết thúc vài bước lặp Sau áp dụng tham số học với phương pháp Gradient Descent số bước lặp để tìm thấy nghiệm giảm rõ rệt, chí giải nhiều trường hợp khơng tìm thấy nghiệm phương pháp thơng thường TÀI LIỆU THAM KHẢO [1] Bottou, L “Online learning and stochastic approximations On-line learning in neural networks” (1998) [2] Boyd, S “Global optimization in control system analysis and design Control and Dynamic Systems V53: High Performance Systems Techniques and Applications: Advances in Theory and Applications” (2012) [3] Chiu, Dah-Ming; Raj Jain “Analysis of increase and decrease algorithms for congestion avoidance in computer networks Computer Networks and ISDN systems” (1989) [4] Darken, C., Chang, J., & Moody, J “Learning rate schedules for faster stochastic gradient search” Neural Networks for Signal Processing II Proceedings of the 1992 IEEE Workshop, (September), p 1–11 (1992) [5] Dong, C., Loy, C.C., He, K., and Tang, X (2016) “Image super-resolution using deep convolutional networks” IEEE transactions on pattern analysis and machine intelligence, 38(2), p 295–307 (2016) [6] Duchi, J., Hazan, E., & Singer, Y (2011) “Adaptive Subgradient Methods for Online Learning and Stochastic Optimization” Journal of Machine Learning Research, 12, 2121–2159 Retrieved from http://jmlr.org/papers/v12/duchi11a.html 192 H T Thắng, …, H X Trung, “Một phương pháp tăng tốc … gradient descent.” Nghiên cứu khoa học công nghệ [7] Granichin, O., Volkovich, V., and Toledano-Kitai, D “Randomized Algorithms in Automatic Control and Data Mining” Springer (2015) [8] Hinton, G.E and Salakhutdinov, R.R “Reducing the dimensionality of data with neural networks science”, 313(5786), p 504–507 (2006) [9] Leslie N Smith (2017) “Cyclical Learning Rates for Training Neural Networks” IEEE Winter Conference on Applications of Computer Vision (WACV) [10] Qian, N (1999) “On the momentum term in gradient descent learning algorithms” Neural Networks : The Official Journal of the International Neural Network Society, 12(1), 145–151 [11] Basel Alyafi, Fakrul Islam Tushar, Zafar Toshpulatov (2018) “Cyclical Learning Rates for Training Neural Networks With Unbalanced Data Sets” Jmd in medical image analysis and applications - pattern recognition module 2018 ABSTRACT AN ACCELERATED METHOD OF GRADIENT DESCENT Optimization problem is the problem of finding the best solution in best solutions Optimization has many applications in deep learning real life such as classification problems, image recognition, problems to maximize revenue or reduce costs, production time vv The gradient descent method usually used to find the optimal solution of a problem quickly In this report, the author uses a new method to quickly find reasonable learning rate based on the idea of flow control and anti-congestion principle in telecommunication networks to speed up the ability convergence of the problem compared to the conventional gradient descent method Keywords: Gradient descent; Machine learning; Learning rate; Point initialization; Function loss Nhận ngày 12 tháng năm 2020 Hoàn thiện ngày 20 tháng năm 2020 Chấp nhận đăng ngày 03 tháng năm 2020 Địa chỉ: 1Khoa CNTT, Học viện KTQS; Viện CNTT, Viện KH – CN QS; Đại học Kinh Doanh Cơng nghệ Hà Nội *Email: hoatatthang@gmail.com Tạp chí Nghiên cứu KH&CN quân sự, Số 68, - 2020 193 ... Hình Gradient descent khơng gian hai chiều Trong không gian nhiều chiều, nguyên tắc làm việc gradient descent hình dung hình 188 H T Thắng, …, H X Trung, ? ?Một phương pháp tăng tốc … gradient descent. ”... tăng tốc áp dụng vào Gradient Descent TĂNG KHẢ NĂNG HỘI TỤ DỰA TRÊN TÌM THAM SỐ HỌC PHÙ HỢP 2.1 Bài tốn điều khiển luồng chống tắc nghẽn mạng viễn thông TCP Điều khiển luồng mạng viễn thông phương. .. cực trị (2;3) (-3;-2) áp dụng phương pháp (myGD) có so sánh với phương pháp thơng thường Batch Gradient Descent (BGD) chưa áp dụng tìm kiếm learning rate, hai phương pháp phép sử dụng tối đa 1000

Ngày đăng: 27/09/2020, 14:56