Học máy cực trị

Một phần của tài liệu Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân (Trang 43 - 51)

CHƯƠNG 2: THUẬT TOÁN HỌC MÁY CỰC TRỊ TIẾN HÓA

2.2 Học máy cực trị

Học máy cực trị là một kiến trúc ba lớp cho bài toán phân loại, gồm: lớp đầu vào, lớp ẩn và lớp đầu ra [20]. Trong kiến trúc này, mỗi nơ-ron của một lớp sẽ được

kết nối tới toàn bộ các nơ-ron ở lớp liền kề, xem Hình 2-1. Ma trận trọng số giữa lớp đầu vào và lớp ẩn và hệ số chặn tại lớp ẩn được thiết lập ngẫu nhiên và bộ trọng số

giữa lớp ẩn và các nơ-ron đầu ra được ước lượng dựa vào trọng số đầu vào (giữa lớp đầu vào và lớp ẩn), hệ số chặn và mẫu dữ liệu.

Bằng việc sử dụng công thức nghiệm để ước lượng các tham số, thuật toán

cho phép tính toán trực tiếp bộ tham số mà không cần thực hiện các vòng lặp như đối với phương pháp học dựa trên đạo hàm. Do đó, thời gian tính toán của thuật toán học máy cực trị ít hơn, và cũng không sử dụng nhiều tài nguyên để lưu các giá trị trung gian qua các vòng lặp tối ưu trong phương pháp dựa trên đạo hàm. Quá trình huấn luyện mô hình học máy cực trị cơ bản gồm hai phần: phần đầu tiên xác định

1

2

n

1

2

N

1

C

Trọng số đầu vào Hệ số Trọng số đầu ra

chặn

Lớp đầu vào Lớp ẩn Lớp đầu ra

Hình 2-1 Kiến trúc mô hình học máy cực trị

44

bộ tham số một cách ngẫu nhiên và phần thứ hai là giải hệ phương trình tuyến tính để thu được bộ tham số đầu ra từ lớp ẩn.

Đối với 𝑁 mẫu dữ liệu ngẫu nhiên (𝒙𝒊, 𝒕𝒊), trong đó 𝑥𝑖 = [𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛]𝑇 ∈ 𝑅𝑛 và 𝑡𝑖 = [𝑡𝑖1, 𝑡𝑖2, … , 𝑡𝑖𝑚]𝑇 ∈ 𝑅𝑚, mạng nơ-ron một lớp ẩn với 𝑁̃ là số nơ-ron ở lớp ẩn và hàm kích hoạt 𝑔(𝑥) được mô hình hóa như sau:

∑ 𝛽𝑖𝑔𝑖(𝑥𝑗)

𝑁̃

𝑖=1

= ∑ 𝛽𝑖𝑔(𝑤𝑖. 𝑥𝑗 + 𝑏𝑖)

𝑁̃

𝑖=1

= 𝑜𝑗, 𝑗 = 1, … , 𝑁. (2.1)

Trong đó, 𝛽𝑖 là các trọng số kết nối nơ-ron lớp ẩn với các nơ-ron lớp đầu ra, 𝑤𝑖 là các trọng số kết nối giữa nơ-ron lớp đầu vào với các nơ-ron lớp ẩn, 𝑜𝑗 là nhãn của dữ liệu.

Có thể viết gọn lại 𝑁 phương trình trên tương ứng cho 𝑁 mẫu dữ liệu như sau:

𝐻𝛽 = 𝑇. (2.2)

Trong đó:

▪ 𝐻(𝑤1, … , 𝑤𝑁̃;⁡𝑏1, … , 𝑏𝑁̃;⁡𝑥1, … , 𝑥𝑁) = [

𝑔(𝑤1. 𝑥1+ 𝑏1) … 𝑔(𝑤𝑁̃. 𝑥1+ 𝑏𝑁̃)

… … …

𝑔(𝑤1. 𝑥𝑁 + 𝑏1) … 𝑔(𝑤𝑁̃. 𝑥𝑁 + 𝑏𝑁̃)

]

𝑁×𝑁̃

;

▪ 𝛽 = [

𝛽1𝑇

… 𝛽𝑁̃𝑇

]

𝑁̃×𝑚

;

45

▪ 𝑇 = [

𝑡1𝑇

… 𝑡𝑁𝑇 ]

𝑁×𝑚

.

Ma trận 𝐻 được gọi là ma trận đầu ra lớp ẩn của mạng nơ-ron; cột thứ 𝑖 của ma trận 𝐻 là kết quả đầu ra của nơ-ron thứ 𝑖 trong lớp ẩn với đầu vào tương ứng

𝑥1, 𝑥2, … , 𝑥𝑁. Véc-tơ 𝛽 là véc-tơ chứa hệ số chặn tại các nơ-ron trong lớp ẩn. Véc- tơ 𝑇 là véc-tơ chứa biến dự báo hoặc nhãn dữ liệu.

Nếu hàm kích hoạt 𝑔 là khả vi vô hạn, ta có thể chứng minh rằng số lượng nơ- ron cần thiết trong lớp ẩn 𝑁̃ ≤ 𝑁, qua định lý sau:

Định lý 2.1 [21]: Cho một mạng nơ-ron một lớp ẩn tiêu chuẩn với 𝑁 nơ-ron

ở lớp ẩn và hàm kích hoạt 𝑔: 𝑅 → 𝑅, là một hàm khả vi vô hạn trên mọi khoảng, với 𝑁 mẫu ngẫu nhiên phân biệt (𝑥𝑖, 𝑡𝑖) sao cho 𝑥𝑖 ∈ 𝑅𝑛, 𝑡𝑖 ∈ 𝑅𝑚, với mọi 𝑤𝑖 và 𝑏𝑖 được lấy ngẫu nhiên lần lượt từ 𝑅𝑛 và 𝑅, tuân theo bất kì phân phối liên tục nào với xác suất bằng 1, ma trận đầu ra lớp ẩn 𝐻 của mạng nơ-ron là khả nghịch và ‖𝐻𝛽 − 𝑇‖ = 0.

Chứng minh: Xét véc-tơ 𝑐(𝑏𝑖) = [𝑔𝑖(𝑥1), … , 𝑔𝑖(𝑥𝑁)]𝑇 = [𝑔(𝑤𝑖. 𝑥1+ 𝑏𝑖), … , 𝑔(𝑤𝑖. 𝑥𝑁 + 𝑏𝑖)]𝑇, là cột thứ 𝑖 của ma trận 𝐻, trong không gian Euclide, sao cho 𝑏𝑖 ∈ (𝑎, 𝑏) và (𝑎, 𝑏) là một khoảng bất kì thuộc 𝑅.

Vì 𝑤𝑖 được ngẫu nhiên sinh ra từ một phân phối xác suất liên tục bất kì, ta có thể giả sử rằng 𝑤𝑖. 𝑥𝑘 ≠ 𝑤𝑖. 𝑥𝑘′ với mọi 𝑘 ≠ 𝑘′. Giả sử 𝑐 thuộc vào không gian con 𝑁 − 1 chiều thì sẽ tồn tại véc-tơ 𝛼 trực giao với không gian con này.

(𝛼, 𝑐(𝑏1) − 𝑐(𝑎)) = 𝛼1. 𝑔(𝑏𝑖 + 𝑑1) + 𝛼2. 𝑔(𝑏𝑖+ 𝑑2) + ⋯ + 𝛼𝑁. 𝑔(𝑏𝑖 + 𝑑𝑁) − 𝑧 = 0

46

Trong đó, 𝑑𝑘 = 𝑤𝑖. 𝑥𝑘, 𝑘 = 1, … , 𝑁 và 𝑧 = 𝛼. 𝑐(𝑎), với mọi 𝑏𝑖 ∈ (𝑎, 𝑏). Giả sử 𝛼𝑁 ≠ 0. Phương trình trên có thể viết lại thành

𝑔(𝑏𝑖 + 𝑑𝑁) = − ∑𝑁−1𝑝=1 𝛾𝑝𝑔(𝑏𝑖 + 𝑑𝑝) + 𝑧/𝛼𝑁.

Trong đó 𝛾𝑝 = 𝛼𝑝

𝛼𝑁, 𝑝 = 1, … , 𝑁 − 1. Do 𝑔(𝑥) khả vi vô hạn trên mọi khoảng, ta có:

𝑔(𝑙)(𝑏𝑖 + 𝑑𝑁) = − ∑ 𝛾𝑝𝑔(𝑙)(𝑏𝑖 + 𝑑𝑝), 𝑙 = 1,2, … , 𝑁, 𝑁 + 1, …

𝑁−1

𝑝=1

Trong đó 𝑔(𝑙) là đạo hàm bậc 𝑙 của hàm số 𝑔 theo 𝑏𝑖. Tuy nhiên, chỉ có (𝑁 − 1) hệ số tự do: 𝛾1, … , 𝛾𝑁−1 để tính đạo hàm cho nhiều hơn (𝑁 − 1) phương trình tuyến tính, điều này là mâu thuẫn. Do đó, véc-tơ c không nằm trong bất cứ không gian con nào có số chiều nhỏ hơn 𝑁.

Do đó, từ khoảng (𝑎, 𝑏) bất kì, có thể chọn ngẫu nhiên 𝑁 giá trị hệ số chặn 𝑏1, … , 𝑏𝑁 cho 𝑁 nơ-ron trong lớp ẩn, tương ứng với các vec-tơ 𝑐(𝑏1), … , 𝑐(𝑏𝑁) là hệ sinh của 𝑅𝑁. Điều này có nghĩa là với mọi vec-tơ trọng số 𝑤𝑖 và giá trị hệ số chặn 𝑏𝑖 được chọn ngẫu nhiên lần lượt từ 𝑅𝑛 và 𝑅, dựa trên phân phối xác suất liên tục bất kì với xác suất tổng bằng 1, ma trận 𝐻 có hạng đầy đủ. ☐

Định lý 2.2 [21]: Cho 𝜀 > 0 và hàm kích hoạt 𝑔: 𝑅 → 𝑅 khả vi vô hạn trên

mọi khoảng, tồn tại 𝑁̃ ≤ 𝑁 để với 𝑁 mẫu phân biệt ngẫu nhiên (𝑥𝑖, 𝑡𝑖) sao cho 𝑥𝑖 ∈ 𝑅𝑛 và 𝑡𝑖 ∈ 𝑅𝑚, với mọi 𝑤𝑖 và 𝑏𝑖 được lấy ngẫu nhiên ngẫu nhiên lần lượt từ 𝑅𝑛 và 𝑅 theo phân phối xác suất liên tục bất kì với xác suất bằng 1, thì

‖𝐻𝑁×𝑁̃𝛽𝑁̃×𝑚 − 𝑇𝑁×𝑚‖ < 𝜀.

47

Chứng minh: Để đơn giản, chọn 𝑁̃ = 𝑁, theo định lý 2.1, ‖𝐻𝑁×𝑁̃𝛽𝑁̃×𝑚− 𝑇𝑁×𝑚‖ = 0 < 𝜀. Điều phải chứng minh. ☐

Hai định lý trên là cơ sở cho một phương pháp đơn giản và hiệu quả hơn để huấn luyện mạng nơ-ron một lớp ẩn, so với phương pháp lan truyền ngược (backpropagation) truyền thống dựa trên tính toán đạo hàm. Các vấn đề mà phương pháp lan truyền ngược gặp phải:

(1) Phải chọn bước nhảy (learning rate) phù hợp vì khi bước nhảy rất nhỏ thì sẽ ảnh hưởng đến tốc độ hội tụ và chi phí tính toán, trong khi bước nhảy rất lớn sẽ làm cho thuật toán không ổn định và phân kì.

(2) Đặc thù của mặt phẳng sai số ảnh hưởng đến hiệu năng của thuật toán lan truyền ngược là sự xuất hiện của các cực tiểu địa phương, có thể khiến thuật toán dừng sớm khi còn ở khá xa so với cực tiểu toàn cục

(3) Mạng nơ-ron có khả năng bị quá khớp trên dữ liệu huấn luyện khi sử dụng thuật toán lan truyền ngược. Do đó điều kiện dừng và kiểm định phù hợp là cần thiết trong quá trình cực tiểu hóa hàm sai số.

(4) Các phương pháp học dựa trên tính toán đạo hàm rất tốn thời gian do chi phí tính toán lớn so với khả năng xử lí của phần cứng hiện tại.

Do đó, phương pháp học dựa trên tìm nghiệm bình phương tối thiểu có chuẩn cực tiểu hóa được đề xuất. Như đã chứng minh trong định lý 2.1 và định lý 2.2, bộ trọng số đầu vào và hệ số chặn tại các nơ-ron trong lớp ẩn có thể được gán một cách ngẫu nhiên khi và chỉ khi hàm kích hoạt khả vi vô hạn. Thay vì phải hiệu chỉnh bộ tham số đầu vào 𝑤𝑖 và hệ số chặn tại các nơ-ron ẩn 𝑏𝑖 như trong các phương pháp học truyền thống, bộ tham số này được tạo ra ngẫu nhiên và giữ nguyên trong trong quá trình học, vì vậy ma trận đầu ra từ lớp ẩn 𝐻 cũng sẽ không thay đổi. Khi đó, mục

48

tiêu của việc huấn luyện là tìm nghiệm bình phương tối thiểu 𝛽̂ của hệ tuyến tính 𝐻𝛽 = 𝑇:

‖𝐻𝛽̂ − 𝑇‖ = min

𝛽 ‖𝐻𝛽 − 𝑇‖ (2.3)

Nếu số lượng nơ-ron ẩn 𝑁̃ bằng với số lượng mẫu huấn luyện 𝑁, 𝑁̃ = 𝑁, ma trận 𝐻 sẽ là ma trận vuông và khả nghịch, mạng nơ-ron một lớp ẩn có khả năng xấp xỉ mẫu huấn luyện không có sai số.

Tuy nhiên, trong thực tế, số lượng nơ-ron tại lớp ẩn nhỏ hơn nhiều so với số dữ liệu mẫu huấn luyện, 𝑁̃ ≪ 𝑁, ma trận 𝐻 không phải ma trận vuông, và có thể không tồn tại 𝑤𝑖, 𝑏𝑖, 𝛽𝑖⁡(𝑖 = 1, … , 𝑁) để 𝐻𝛽 = 𝑇. Khi đó, theo định lý về ma trận nghịch đảo tổng quát Moore-Penrose [22], nghiệm bình phương tối thiểu có chuẩn cực tiểu của hệ tuyến tính 𝐻𝛽 = 𝑇 là:

𝛽̂ = 𝐻†𝑇 (2.4)

Trong đó 𝐻† là ma trận nghịch đảo tổng quát Moore-Penrose của 𝐻.

Lý thuyết về ma trận nghịch đảo tổng quát:

Định nghĩa 2.1 [22]: Ma trận 𝐺 kích thước 𝑛 × 𝑚 là ma trận nghịch đảo tổng

quát Moore-Penrose của ma trận 𝐴 kích thước𝑚 × 𝑛 nếu,

𝐴𝐺𝐴 = 𝐴, 𝐺𝐴𝐺 = 𝐺, (𝐴𝐺)𝑇 = 𝐴𝐺, (𝐺𝐴)𝑇 = 𝐺𝐴 (2.5) Ma trận nghịch đảo tổng quát Moore-Penrose của ma trận A được kí hiệu là 𝐴†.

49

Cho hệ tuyến tính tổng quát 𝐴𝑥 = 𝑦, chúng ta nói rằng 𝑥̂ là nghiệm bình phương tối thiểu nếu

‖𝐴𝑥̂ − 𝑦‖ = min

𝑥 ‖𝐴𝑥 − 𝑦‖

Với ‖. ‖ là chuẩn Euclide (chuẩn 2).

Định nghĩa 2.2 [22]: 𝑥0 ∈ 𝑅𝑛 được gọi là nghiệm bình phương tối thiểu có chuẩn cực tiểu của hệ tuyến tính 𝐴𝑥 = 𝑦 nếu với mọi 𝑦 ∈ 𝑅𝑚

‖𝑥0‖ ≤ ‖𝑥‖, ∀𝑥 ∈ {𝑥: ‖𝐴𝑥 − 𝑦‖ ≤ ‖𝐴𝑧 − 𝑦‖⁡∀𝑧 ∈ 𝑅𝑛}

Tức là 𝑥0 là nghiệm có chuẩn nhỏ nhất trong các nghiệm bình phương tối thiểu của hệ tuyến tính 𝐴𝑥 = 𝑦.

Định lý 2.3 [22]: Giả sử tồn tại ma trận 𝐺 để 𝐺𝑦 là nghiệm bình phương tối thiểu có chuẩn nhỏ nhất của hệ tuyến tính 𝐴𝑥 = 𝑦 thì điều kiện cần và đủ là 𝐺 = 𝐴†, ma trận nghịch đảo tổng quát Moore-Penrose của 𝐴.

Từ định lý trên ta có tính chất của nghiệm bình phương tối thiểu có chuẩn nhỏ nhất𝑥0 = 𝐴†𝑦 như sau:

(1) ⁡𝑥0 là một trong các nghiệm bình phương tối thiểu của hệ tuyến tính 𝐴𝑥 = 𝑦;

(2) 𝑥0 có chuẩn nhỏ nhất trong các nghiệm bình phương tối thiểu của hệ tuyến tính 𝐴𝑥 = 𝑦;

(3) ⁡𝑥0 = 𝐴†𝑦 là nghiệm bình phương tối thiểu có chuẩn nhỏ nhất duy nhất của hệ tuyến tính 𝐴𝑥 = 𝑦.

50

Thuật toán xây dựng mô hình học máy cực trị được tóm gọn lại trong ba bước như sau [23]:

Bước 1: Đầu tiên, chọn ngẫu nhiên bộ trọng số đầu vào 𝑊 giữa lớp đầu vào

và lớp ẩn và bộ hệ số chặn 𝑏 tại lớp ẩn.

𝑊 = [

𝑊11 … 𝑊1𝑁

… … …

𝑊𝑛1 … 𝑊𝑛𝑁

] , 𝛽 = [

𝑏1

… 𝑏𝑁

]

Trong đó, 𝑛 và𝑁 lần lượt là số nơ-ron ở lớp đầu vào và số nơ-ron ở lớp ẩn.

Bước 2: Tính toán ma đầu ra 𝐻 của lớp ẩn.

𝐻 = [

𝑔(𝑊1∗ 𝑋1+ 𝑏1) … 𝑔(𝑊𝑁 ∗ 𝑋1 + 𝑏𝑁)

… … …

𝑔(𝑊1∗ 𝑋𝑀 + 𝑏1) … 𝑔(𝑊𝑁 ∗ 𝑋𝑀 + 𝑏𝑁)

]

𝑀∗𝑁

(2.6)

Trong đó, 𝑀 là số lượng mẫu dữ liệu, 𝑔 là hàm kích hoạt.

Bước 3: Tính toán hệ số đầu ra 𝛽 kết nối giữa lớp ẩn và lớp đầu ra

𝛽 = 𝐻†𝑇 (2.7)

Trong đó, 𝐻†là ma trận nghịch đảo tổng quát Moore-Penrose của 𝐻, theo công thức:

𝐻† = {(𝐻𝑇𝐻)−1𝐻𝑇⁡𝑘ℎ𝑖⁡(𝐻𝑇𝐻)⁡𝑘ℎả⁡𝑛𝑔ℎị𝑐ℎ

𝐻𝑇(𝐻𝐻𝑇)−1⁡𝑘ℎ𝑖⁡𝐻𝐻𝑇⁡𝑘ℎả⁡𝑛𝑔ℎị𝑐ℎ⁡ (2.8)

Lưu ý:

51

▪ Theo định lý 2.1, thuật toán này có thể hoạt động hiệu quả với các hàm kích hoạt khả vi vô hạn 𝑔(𝑥). Theo định lý 2.2, cận trên của số lượng nơ-ron cần thiết trong lớp ẩn chính là số lượng mẫu huấn luyện riêng

biệt, 𝑁̃ ≤ 𝑁.

▪ Mạng nơ-ron một lớp ẩn với số lượng nơ-ron ở lớp ẩn bằng số lượng mẫu dữ liệu huấn luyện có thể học chính xác bộ mẫu quan sát (không sai số), 𝑁̃ = 𝑁.

Một phần của tài liệu Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân (Trang 43 - 51)

Tải bản đầy đủ (PDF)

(83 trang)