(TIỂU LUẬN) THUẬT TOÁN học TRỰC GIAO SIÊU THAM LAM TRÊN KHÔNG GIAN THƯA CHO MẠNG NEURAL TRUYỀN THẲNG

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BAO CAO MÔN HỌC MAY HOC Đê tai : THUẬT TỐN HỌC TRỰC GIAO SIÊU THAM LAM TRÊN KHƠNG GIAN THƯA CHO MẠNG NEURAL TRUYỀN THẲNG Dựa báo : Orthogonal Super Greedy Learning for Sparse Feedforward Neural Networks (Lin Xu, Shaobo Lin, Jinshan Zeng, Xia Liu and Zongben Xu) GIẢNG VIÊN HƯỚNG DẪN : HỌC VIÊN THỰC HIỆN TS Trân Thai Sơn : Hoàng Minh Thanh – 21C11029 Trần Hữu Nghĩa – 21C12005 Nguyễn Thành Thái – 21C11026 KHĨA : 31 NGÀNH : Khoa học máy tính TP.HCM, 04-2021 Mục Lục Bảng tóm tắt Mục tiêu báo 1.1 Giới thiệu toán 1.2 Mục tiêu tốn 1.3 Bài tốn báo 1.4 Cách tiếp cận toán Feedforward Neural Network 2.1 Tổng quan Feedforward Neural Network 2.2 Các khái niệm lý thuyết thống kê 2.3 The Radial Basis Function network 2.4 The Extreme Learning Machine network Phương pháp đề xuất báo 3.1 Chiến lược tham lam 3.1 Mơ hình OGA 3.2 Mơ hình OSGA Thực nghiệm 4.1 Phương pháp tiến hành thực nghiệm 4.2 Cách thức cài đặt cấu hình mạng neurons 4.3 Dataset 4.4 Kết đánh giá 4.4 Mã nguồn minh họa: Kết luận References Bảng phân công nhiệm vụ Họ tên Trần Hữu Nghĩa Hoàng Minh Thanh Nguyễn Thành Thái Bảng tóm tắt SME RBF ELM RLS OGA OSGA LS Mục tiêu báo 1.1 Giới thiệu toán Mạng nơ-ron phân lớp truyền liệu (Feedforward layered neural networks) áp dụng phổ biến nhiều lĩnh vực học máy, chẳng hạn truy xuất hình ảnh [1], [2], [3] phân loại [4], [5], xác minh chữ ký [6], nhận dạng khuôn mặt [7] , [8], [9] Việc sử dụng Feedforward layered neural networks để xử lý liệu đầu vào phức tạp (ví dụ: tín hiệu, hình ảnh video) xem hoạt động chuyển đổi phức tạp không gian đặc trưng đa chiều giải thích hầu hết công việc lĩnh vực học máy sử dụng neural networks để thực số chức định phi tuyến tính phức tạp để xác định gần chế tạo liệu phức tạp cụ thể Tuy nhiên, nhược điểm khác biệt neural networks chúng có độ không lồi phi tuyến tham số Việc học tập phải dựa kỹ thuật tối ưu hóa phi tuyến thiết kế đặc biệt ước tính tham số bị mắc kẹt mức tối thiểu cục trình học tập sử dụng gradient-based Tệ nữa, thường yêu cầu tính tốn nhiều Các lựa chọn thay khả thi cho tính phi tuyến tính cao feedforward neural networks truyền tải tham số phương pháp tiếp cận phân tích, ví dụ, Radial Basis Function (RBF) network [8], Extreme Learning Machine (ELM) [24], Hamming network [38], Grossberg network [56], Hopfield network [32], v.v Cụ thể, mạng RBF mạng hai lớp cụ thể, phân chia tuyến tính lớp đầu vào cách cố định tất tâm RBF tính phi tuyến lớp ẩn Lớp ẩn RBF thực phép biến đổi phi tuyến tính phân tích cố định (ví dụ: Gaussian Radial Basis Function) mà khơng có parameters học thường ánh xạ khơng gian đầu vào chiều thấp lên không gian ẩn (hoặc đặc trưng) chiều cao Sau đó, lớp đầu thực kết hợp tuyến tính tốc độ ẩn tham số điều chỉnh trọng số kết hợp tuyến tính Do đó, thơng số đầu xác định cách sử dụng regularized least squares (RLS), lợi thiết yếu phương pháp Mạng RBF có nhiều ứng dụng, bao gồm xấp xỉ hàm , học có giám sát ELM (a.k.a., Gamba perceptron) coi loại mạng hai lớp cụ thể khác Không giống phương pháp học tập truyền thống cho mạng truyền thẳng, phương pháp học tập dựa độ dốc thường điều chỉnh tất tham số, tham số ẩn ELM khởi tạo tùy ý trọng số đầu cố định mặt phân tích regularized least squares(RLS) Do đó, ELM cho thấy chi phí thực thấp hiệu suất phù hợp so với phương pháp dựa học tập truyền thống đánh lừa nhiều ý tưởng ứng dụng thực tế 1.2 Mục tiêu toán Các phương pháp phân tích cho feedforward neural network(Mạng lan truyền đa tầng), ví dụ: Radial Basis Function (RBF)(Hàm sở xuyên tâm) Chúng có số nhược điểm Nhược điểm hiệu suất tạo độ phức tạp tính tốn chúng dễ bị ảnh hưởng biến ẩn khơng liên quan Do đó, làm để giảm bớt ảnh hưởng trở thành vấn đề quan trọng feedforward neural network Trong báo này, đề xuất phương pháp học tập Học Trực Giao Siêu Tham Lam (OSGL) để lựa chọn hidden neurons OSGL chọn nhiều hidden neuron từ cấu trúc mạng định chiến lược tham lam mạng thưa thớt thích hợp xây dựng Các phân tích lý thuyết cho thấy đạt learning rate tối ưu Các kết thực nghiệm mở rộng chứng minh tính ưu việt mà phương pháp đề xuất tạo hiệu suất tổng quát hóa tuyệt vời với biểu diễn tính nhỏ gọn thưa thớt feedforward network 1.3 Bài tốn báo Đề xuất phương pháp Orthogonal Super Greedy Learning (OSGL) để xây dựng nhỏ gọn mẫu liệu mạng nơ-ron truyền thẳng OSGL đề xuất thành sơ đồ học tập bốn giai đoạn, là, dictionary collection, greedy principle, iterative formate, and termination control stage 1.4 Cách tiếp cận toán Cách tiếp cận phân tích (ví dụ: RBF ELM) cho mạng nơ-ron truyền thẳng có số đặc điểm hấp dẫn so với cách tiếp cận học tập dựa gradient, ví dụ: đặc tính tốt triển khai số nhanh liệu quy mô nhỏ (ví dụ: Machine Learning Repository UCI) Tuy nhiên, cịn số mặt hạn chế Thứ nhất, thường gặp phải không ổn định số gây RLS Thứ hai, hiệu suất tổng quát hóa bị nhiễu nơ-ron ẩn không liên quan Cuối không phần quan trọng, làm để tìm phương pháp cắt tỉa hiệu có độ phức tạp thấp, dẫn đến cấu trúc thưa thớt thích hợp mà khơng làm giảm hiệu suất tổng quát hóa, quan trọng mạng chuyển tiếp phân tích Thơng thường, / nhiều nút ẩn chọn dẫn đến vấn đề trang bị thấp / trang bị q mức hiệu suất tổng qt hóa Ngồi ra, làm suy yếu lợi tính tốn phương pháp phân tích số lượng hidden neurons lớn Mặc dù nghiên cứu lý thuyết ban đầu, ngụ ý mạng RBF ELM học xác mẫu quan sát riêng biệt với số lượng tế bào thần kinh ẩn số lượng mẫu Chúng thực tế số lượng mẫu tăng lên đáng kể Sơ đồ mạng nơ-ron nguồn cấp liệu thưa thớt lớp ẩn đơn, tham số ẩn wj khởi tạo theo số phương pháp phân tích (ví dụ: RBF ELM) tham số đầu v j xác định thuật tốn điều chỉnh (ví dụ: l2 Least Square Algorithm ,l1 iterative threshold algorithm l0 Greedy Algorithm) Các đường chấm màu xanh lam w j biểu thị tham số ẩn (hoặc trọng số) liên kết với kết nối đơn vị đầu vào đơn vị j lớp ẩn Các đường đứt nét màu đỏ có nghĩa kết nối đơn vị ẩn có liên quan đầu ra, chọn sparse learning algorithm Feedforward Neural Network 2.1 Tổng quan Feedforward Neural Network Mạng lan truyền thuận đa tầng (deep feedforward network), hay gọi mạng neural lan truyền thuận (feedforward neural network), hay perceptron đa tầng (multilayer perceptron (MLP)), dạng mơ hình học sâu điển hình Mục tiêu mạng lan truyền thuận xấp xỉ hàm f* đó, chẳng hạn phận loại (classifier) y = f*(x) ánh xạ điểm liệu đầu vào x tới nhãn y Một mạng lan truyền thuận định nghĩa phép ánh xạ y = f(x;θ) học giá trị tham số θ để thu xấp xỉ tốt ánh xạ thực Những mơ hình gọi lan truyền thuận chúng nhận thơng tin từ đầu vào x lan truyền qua phép toán trung gian mơ hình để tới đầu y Mơ hình khơng tồn kết nối phản hồi (feedback) mà đầu mơ hình đưa trở lại thành phần đầu vào Mạng lan truyền thuận mở rộng tiếp nhận phản hồi gọi Những mơ hình gọi lan truyền thuận chúng nhận thơng tin từ đầu vào x lan truyền qua phép tốn trung gian mơ hình để tới đầu y Mơ hình khơng tồn kết nối phản hồi (feedback) mà đầu mơ hình đưa trở lại thành phần đầu vào Mạng lan truyền thuận mở rộng tiếp nhận phản hồi gọi mạng neuron truy hồi (recurrent neural networks) Mạng lan truyền thuận có vai trị đặc biệt quan trọng với lập trình viên học máy Chúng định hình tảng nhiều ứng dụng thương mại quan trọng Ví dụ, mạng neural tích chập (convolutional network) sử dụng để nhận biết vật thể ảnh dạng đặc biệt mạng lan truyền thuận Mạng lan truyền thuận bước đệm mặt nhận thức để phát triển mạng neuron truy hồi, kiến trúc sử dụng rộng rãi ứng dụng xử lý ngôn ngữ tự nhiên Chúng ta gọi mạng neuron lan truyền thuận mạng chúng thường biểu diễn cách hợp thành từ nhiều hàm khác Chúng thể đồ thị có hướng phi chu trình mơ tả cách hợp thành hàm số Chẳng hạn, ta có ba hàm số f(1), f(2), f(3) liên kết với thành chuỗi để tạo thành hàm f(x) = f(3)(f(2)(f(1)(x))) Cấu trúc chuỗi cấu trúc mạng neuron phổ biến Trong ví dụ xét, f(1) gọi tầng (first layer) mạng neuron, f(2) gọi tầng thứ hai (second layer), Chiều dài toàn chuỗi gọi độ sâu (depth) mạng neuron Cái tên “học sâu” từ mà Tầng cuối mạng lan truyền thuận gọi tầng đầu (output layer) Trong trình huấn luyện mạng neuron, ta học hàm f(x) để khớp với f*(x) Dữ liệu huấn luyện cung cấp giá trị xấp xỉ f*(x) điểm huấn luyện khác Mỗi mẫu liệu x gán nhãn y ≈ f*(x) tương ứng Các mẫu huấn luyện trực tiếp định mục tiêu tầng đầu điểm x; phải trả giá trị gần với y Tuy nhiên, hành vi tầng khác mạng không định trực tiếp liệu huấn luyện Thuật toán học tập phải tự định cách sử dụng tầng để thu đầu mong muốn, để xấp xỉ hàm f* tốt có thể, dù liệu huấn luyện không cho biết tầng riêng lẻ cần phải làm Vì liệu huấn luyện khơng kết cần đạt cho tầng này, nên ta gọi chúng tầng ẩn (hidden layer) Cuối cùng, ta gọi mạng neuron chúng lấy cảm hứng nhiều từ khoa học thần kinh (neuroscience) Mỗi tàng ẩn mạng có đầu vector Số chiều tầng ẩn (cũng số chiều vector) độ rộng (width) mạng Mỗi phần tử ẩn biểu diễn phép ánh xạ “vector-vector” (vector-to-vector), ta xem chúng vector đóng vai trị tương tự neuron hệ thần kinh Thay coi tầng phép ánh xạ “vector-vector” (vector-to-vector), ta xem chúng tập hợp nhiều đơn vị (unit) hoạt động song song, đơn vị biểu diễn phép ánh xạ vector-số vô hướng” (vector-to-scalar) Mỗi đơn vị mơ neuron, theo nghĩa nhận tín hiệu đầu vào từ nhiều đơn vị khác tính tốn giá trị kích hoạt (activation value) riêng Ý tưởng sử dụng nhiều tầng biểu diễn dạng vector có nguồn gốc từ khoa học thần kinh Việc lựa chọn hàm f(i)(x) cho biểu diễn khơi gợi từ quan sát nhà thần kinh học hàm mà neuron sinh học tính tốn Tuy nhiên, nghiên cứu mạng neuron ngày dựa tảng nhiều lĩnh vực tốn học, kỹ thuật khác nhau, mục đích mạng neuron mô cách hoàn hảo não người Ta nên xem mạng lan truyền thuận xấp xỉ hàm, thiết kế để đạt tính khái qt hóa thống kê (statistical generalization), lấy cảm hứng từ hiểu biết não bộ, thay xem chúng mơ hình mơ chức não Để hiểu mạng lan truyền thuận, khởi đầu với mơ hình tuyến tính (linear model) xem xét cách khắc phục hạn chế chúng Các mơ hình tuyến tính, hồi tuyến tính (linear regression) hay hồi quy logit (logistic regression), có nhiều tính chất hấp dẫn học mơ hình cách hiệu đáng tin cậy biểu thức dạng đóng tối ưu lồi (convex optimization) Tuy nhiên, hạn chế dễ thấy mơ hình tuyến tính dung lượng (capacity) chúng bị giới hạn hàm tuyến tính, khiến chúng nắm bắt tương tác biến đầu vào 2.2 Các khái niệm lý thuyết thống kê Trong toán hồi quy với biến đồng biến X biến phản hồi cho mẫu rút từ phân phối khơng xác định ρ Mục đích học máy thống kê tìm hàm f để giảm thiểu lỗi tổng quát hóa tất giá trị có x y là: Bước Khởi tạo: Đầu tiên OSGA khởi tạo biến với thay đổi bước chạy thứ k = kích thước nhảy s Tương tự với ngưỡng kích thước biến chạy cố định K Hàm nội suy ban đầu gán Bước Tập hợp ứng viên: Tập hợp ứng viên bao gồm n lớp neuron ẩn (neuron hidden layers) feedforward network Ta chuẩn hóa lại kích thước Bước Nguyên tắc tham lam: Tương tự thay chọn phần tử tử hay ta chọn tập hợp phần tử ta chọn s phần cho phần tử nhỏ tập gồm s phần tử chọn phải lớn tất phần tử khác Được cụ thể công thức Tương tự vậy, ta tập hợp span với kích thước tập span khơng phải phần tử OGA mà có s phần tử Bước Định dạng lặp: Sau chọn s phần tử tốt nhất, ta lại tính hàm với phép chiếu hàm f lên không gian span U ta tạo từ s phần tử chọn bước 25 Ta tính hàm nội suy cách tính hiệu hàm f kết phép chiếu Cơng thức cụ thể tính sau: Tương tự ta biến đổi để tiến gần vị trí mà tất chiều gần với nhãn ban đầu Bước Điều kiện dừng: Điều kiện dừng OSGA tương tự OGA, khác xét đến s phần tử lúc Chính cơng thức tính lại sau: Điều kiện dừng k tiến đến số vịng lặp K cố định trước độ lớn hàm nội suy m điểm liệu tiến đến ngưỡng tỷ lệ phần trăm hàm f m tập liệu Nhận xét : Mục tiêu thuật toán để xây dựng biểu diễn nhỏ gọn mẫu liệu mạng feedforward network Bằng việc chọn s phần tử thay chọn phần tử nhất, nhóm tác giả cải tiến lại thuật toán OGA với tốc độ tốt mà đảm bảo tốc độ tương tự Thuật toán OSGA (độ phức tạp ) tác giả chứng minh có chi phí tính tốn nhanh so với OGA (độ phức tạp ) Ngoài tác giả chứng minh việc chọn nhiều ứng viên nhanh hơn, tốt nhớ mà đảm bảo kết tương tự 26 Demo cài đặt thuật toán OSGA : https://colab.research.google.com/drive/1oXCYTPfLKBVBw3uzeyho67jtR Gom2MT?usp=sharing Thực nghiệm 4.1 Phương pháp tiến hành thực nghiệm Để tiến hành đánh giá hiệu mơ hình đề xuất, tác giả thực thực nghiệp qua bước đánh giá tập liệu giả lập tập liệu thực toán thực tế ●Bước 1: Đánh giá, xác minh hiệu so với mơ hình baseline Orthogonal Super Greedy Algorithm (OSGA) dựa lên tập liệu giả lập tự phát sinh ●Bước 2: Thực nghiệm mơ hình tập liệu liệu, tính khả thi mơ hình vào thực tế 27 Để chứng minh tính hiệu với việc xử lý liệu input sparse mang lại hiệu tối ưu phương pháp sử dụng, nhóm tác giả thực nghiệm mạng neurons với phương pháp thuật toán đại Regularized Least Square algorithm (RLS) [5], Fast Iterative ShrinkageThresholding Algorithm (FISTA) [6] mơ hình baseline Orthogonal Greedy Algorithm (OGA) [2] thuật toán học phổ biến sử dụng nhiều Bên cạnh tác giả chọn đại diện kernel phổ biến mạng Feedforward Neural Network cho toán với đặc trưng liệu thưa (sparse data) Radial Basic Function Network Extreme Learning Machine Điều giúp đọc giả sở dễ dàng đánh giá đắn mơ hình tác giả đề xuất, tiến hành tái thực nghiệm để kiểm chứng kết tác giả Thông số đánh tác giả dùng: để biểu diễn hiệu (test performance) giải pháp tác giả dùng độ đo Root Mean Squared error (RMSE) đó: giá trị tính tốn học (learned estimator) = ( ) giá trị nhãn liệu (the ground truth labels) RMSE xem độ đo phổ biến mơ hình liệu tuyến tính, thống kê 28 Mơ tả mơ hình hồi quy tuyến tính Trên hình mơ hình hồi quy tuyến tính đề xuất với đường hồi quy tuyến tính (đường màu đỏ) đường mà phân bố gần với hầu hết điểm (đường dự đoán) Xem xét đường mũi tên màu đen độ dài mũi tên theo chiều cao so với trục y (trục đứng) coi phần sai số (dư) giá trị đoán giá trị thực quan sát liệu (các điểm liệu) − RMSD đại diện cho bậc hai khác biệt giá trị dự đoán (learned estimator) giá trị quan sát (labels) hay nói giá trị trung bình văn bậc hai khác biệt RMSE thước đo độ xác, để so sánh lỗi dự báo mơ hình khác cho tập liệu cụ thể, giá trị dần có đủ độ tin cậy, chứng tỏ mơ hình sai số, giúp nhận định độ tin cậy kết mà mơ hình đối chiếu mà tác giả tiến hành thực nghiệm lấy số liệu 29 4.2 Cách thức cài đặt cấu hình mạng neurons a Với Radial Basic Function (RBF) network Sử dụng Gausian basic function: với trọng số { } rút từ phân phối đồng (uniformly distribution) đoạn [− 2, 2] =1 b Với Extreme Learning Machine (ELM) Sử dụng hàm sigmoid activation function: với trọng số { } sinh ngẫu nhiên từ phân phối đồng đoạn [− 1, 1] =1 4.3 Dataset a Cách xây dựng tập dataset simulator Để tạo tập liệu mơ (simulator) theo mơ sau: = ( ) + σ · ε đó: ε standard gaussian noise (độ nhiễu gaussian) không phụ thuộc vào x đầu vào (trong thực nghiệm tác giả đặt độ nhiễu noise level σ = 0.5 cách tác giả xem làm tăng độ phức tạp việc hồi quy regression problem) x đầu vào tập phân phối (uniformly distributed) [− 2, 2] với số chiều ∈ {1, 2, 10}; input x xem mảng ma trận 1, 10 chiều 30 Tác giả tái sử dụng lại đề xuất cơng trình trước [3,4] đưa hàm phát sinh hồi quy tuyến tính xem tương ứng tập data mô m1 m9 để tiến hành thực nghiệm [Bước 1] b Bộ data cho việc thực nghiệm thực tế (real data verify) 31 Để thực bước đánh giá số 2, nhóm tác giả sưu tập tập liệu realdata phù hợp với mơ hình đề xuất OSGA Để chứng minh khả trì hiệu suất với độ phức tạp tính tốn thấp đối phần tử cắt tỉa khơng tính chất tập liệu tổng quát tập liệu simulator mà tồn tập real data Số lượng đặc trưng thuộc tính tập liệu ●Prostate Cancer liệu báo cáo bệnh lý chẩn đoán 97 bệnh nhân phẫu thuật cắt tuyến tuyền liệt Bộ liệu gồm tiếu chí chuẩn đốn lâm sàng biến đầu ●Servo gồm 167 trường hợp đo lường thuộc tính (Motor, Screw, Pgain, Vgain) kết phản hồi ●Body Fat liệu ước tính phần trăm chất béo thể xác định cách cân nước số đo chu vi thể 252 nam giới ● Bupa với 345 mẫu kết bệnh nhân xét nghiệm m áu cho yếu tố tình trạng rối loạn gan phosphatase kiềm,… 32 ●Diabetes chứa thông số chuẩn đoán 442 bệnh nhân tiểu đường 10 đặc trưng ●Boston Housing, tạo từ khảo sát bất động sản Boston Hoa Kỳ Nó chứa 506 mẫu với 13 yếu tố dự đoán đầu vào biến phản hồi ●Pima Indians Diabetes liệu bệnh tiểu đường người Ấn, chứa 768 trường hợp thống kê thuộc tính https://github.com/rrichajalota/Pima-Indians-Diabetes-kaggle 33 ●Concrete Compressive Strength có 1030 mẫu liệu với thuộc tính với đầu thơng số cường độ bê tông “ccMPa” ●Abalone 4177 mẫu thu thập để tính tốn độ tuổi bào ngư từ số phép đo vật lý (rings +1.5 cho biết độ tuổi tính năm) Tất dataset random chia làm phần 70% mẫu dùng để training 30% mẫu giữ lại dùng để test kiểm tra đánh giá cho [Bước 2] 34 4.4 Kết đánh giá Ở kết thực nghiệm tác giả đề cập số thông số hiệu năng, độ thưa sparsity, độ phức tạp thời gian chạy, thuật toán đối sánh (các giá trị in đậm bảng kết xem tốt) ●RMSE biểu diễn độ khái quát hiệu (giá trị nhỏ tốt) ●Nodes thể độ thưa sparsity network, thành phần dấu ngoặc đơn (là độ lệch chuẩn) ●Time (s) độ phức tạp thuật toán bao gồm time train test Ở thực nghiệm với Radial Basic Function network ta thấy OSGA có thơng số RMSE tốt so với OGA khả xấp xỉ độ thưa tốt độ phức tạp time m3 m9 nhỏ rõ rệt Đều cho thấy khả xử lý liệu khơng mà cịn có phần tối ưu so với OGA kết độ phức tạp giả thuật thời gian time giảm rõ rệt so với OGA Mặc khác RLS lại sớm kết thúc trình học chưa tối ưu độ thưa network 35 Ở kết thực nghiệm liệu giả lập với Extreme Learning Marchine ta thấy thông số RMSE OSGA áp đảo với thuật tốn cịn lại, mà cịn thể tốt độ phức tạp tối ưu tập m7 m9 Quá trình thực nghiệm tập liệu thực tối ưu xử lý tổng quát hóa liệu độ phức tạp thể qua thời gian running model RBF ELM Ở bảng kết ta xét chi phí time runing OSGA có phần tối ưu so với OGA, độ hiệu xử lý liệu OSGA có phần xíu so với OGA, vượt trội so với RLS FISTA, mặc khác lại đem lại thơng số RMSE tốt hẳn so thuật tốn 36 Ở bảng kết với ELM ta thấy liệu thực tế OSGA có thơng số độ phức tạp giải thuật time nhỏ hẳn OGA, độ thưa liệu biểu diễn gần tương đồng OGA So tổng quát hiệu giải thuật OSGA có phần vượt trội so với giải thuật đối sánh Ngoài ra, qua việc thực nghiệm tập liệu thực step size lựa chọn phù hợp giá trị trung bình vào khoảng 4.4 Mã nguồn minh họa: Mã nguồn minh họa chương trình trình bày : https://colab.research.google.com/drive/1oXCYTPfLKBVBw3uzeyho67jtR Gom2MT 37 Ngồi paper tài liệu quan công khai github : Kết luận Trong nghiên cứu tác giả đề xuất OSGA giải pháp cải thiện OGA thay chọn atom chọn step size, phương pháp tiếp cận mạng lại tốc độ học tối ưu mà giữ tổng quát hiệu xấp xỉ liệu thưa Ngoài đánh giá qua thực nghiệm, tác giả mở rộng hướng phát triển nghiên cứu: ●Heuristic method for the step-size parameter in OSGA ●OSGA lựa chọn nhiều atoms liên quan đến steepest gradient descent (SGD), nghiên cứu thêm “greedy principle” “termination control” ●tăng cường hiệu giải thuật tăng khả áp dụng giải thuật đưa vào tập liệu có số chiều lớn References [1] J Wang, Y Song, and et al Learning fine-grained image similarity with deep ranking pages 1386–1393, 2014 [2] S Bell and et al Learning visual similarity for product design with convolutional neural networks ACM Transactions on Graphics (TOG), 34(4):98, 2015 [3] O Song and et al Deep metric learning via lifted structured feature embedding In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4004–4012, 2016 [4] K Q Weinberger and et al Distance metric learning for large margin nearest neighbor classification Journal of Machine Learning Research, 10(Feb):207–244, 2009 38 [5] Qi Qian, Rong Jin, Shenghuo Zhu, and Yuanqing Lin Fine-grained visual categorization via multi-stage metric learning In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3716–3724, 2015 [6] S Chopra and et al Learning a similarity metric discriminatively, with application to face verification In Computer Vision and Pattern Recognition, 2005 CVPR 2005 IEEE Computer Society Conference on, volume 1, pages 539–546 IEEE, 2005 [7] F Schroff and et al Facenet: A unified embedding for face recognition and clustering In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 815–823, 2015 S Chen, C F Cowan, and P M Grant Orthogonal least squares learning algorithm for radial basis function networks IEEE Transactions on [8] Neural Networks and Learning Systems, 2(2):302–309, Jan 1991 [9] J Bromley and et al Signature verification using a” siamese” time delay neural network In Advances in Neural Information Processing Systems, pages 737–744, 1994 39 ... OSGA (Thuật toán học trực giao siêu tham lam) thuật toán tác giả, ta cần hiểu định nghĩa chiến lược tham lam từ áp dụng cho tốn học để biểu diễn xấp xỉ thưa 3.1 Chiến lược tham lam Chiến lược tham. .. tập ứng viên Thuật toán tham lam áp dụng nhiều vấn đề khác nhau, nghiên cứu này, chiến lược tham lam áp dụng cho toán xấp xỉ thưa (sparse approximation) Có nhiều chiến lược tham lam (greedy-type)... pháp Mạng RBF có nhiều ứng dụng, bao gồm xấp xỉ hàm , học có giám sát ELM (a.k.a., Gamba perceptron) coi loại mạng hai lớp cụ thể khác Không giống phương pháp học tập truyền thống cho mạng truyền

Định dạng
Số trang	41
Dung lượng	1,76 MB