Luận văn thạc sĩ Hệ thống thông tin: Nghiên cứu về các phương pháp học biểu diễn dữ liệu

- Triển khai thực nghiệm để đánh giá hiệu năng của một số thuật toán học biểu diễn được sử dụng trong các thuật toán phân lớp: cây quyết định Decision Tree Classifier/Classification and

Trang 1

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYEN MANH THANG

LUẬN VĂN THAC SĨ HE THONG THONG TIN

Hà nội - Năm 2023

Trang 2

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYEN MANH THANG

Ngành: Hệ thống Thông tinChuyên ngành: Hệ thống Thông tin

Mã số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THÓNG THÔNG TIN

NGƯỜI HƯỚNG DAN KHOA HỌC: TIEN SĨ BÙI NGỌC THANG

Hà nội - Năm 2023

Trang 3

LỜI CAM ĐOAN

Luận văn nay là công trình nghiên cứu của ca nhân tôi, được thực hiện dưới

sự hướng dẫn khoa học Tiến sĩ Bùi Ngọc Thăng tai Khoa Công nghệ Thông tin,

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Các số liệu, những kết

luận nghiên cứu được trình bày trong luận van này hoan toàn trung thực Moi sự

giúp đỡ cho việc thực hiện luận văn này đã được cám ơn và các thông tin trích

dẫn trong luận văn đều được ghi rõ nguồn góc.

TÁC GIÁ

NGUYEN MẠNH THANG

Trang 4

LOI CAM ON

Luan văn được thực hiện tai Khoa Công nghệ Thông tin, Trường Dai học

Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của Tiến sĩ Bùi Ngọc

Thăng.

Trước tiên, tôi xin bày tỏ lòng biết ơn chân thành tới Tiến sĩ Bùi Ngọc Thăng.

Dé tôi có thé hoàn thiện luận văn nay, Thay đã giúp tôi từ định hướng nghiên cứu tới hướng dẫn tìm kiếm tài liệu, cũng như dành thời gian để giải thích những van

đề khó trong việc viết luận văn.

Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo trong khoa CNTT

đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu

Ngoài ra, tôi xin gửi lời cảm ơn tới các đồng nghiệp đã tạo điều kiện giúp đỡ

tôi về mặt thời gian cũng như sắp xếp công việc trong quá trình tôi làm luận văn.

Tôi cũng cảm ơn tat cả bạn bè, những người đã giúp đỡ và hỗ trợ trong suốt

quá trình thực hiện.

Cuối cùng, tôi xin gửi lời cảm ơn chân thành tới gia đình, bố mẹ tôi, anh chị

em, đặc biệt là vợ của tôi, những người đã động viên, tạo mọi điều kiện thuận lợi

để tôi có thể hoàn tất luận văn này.

Trang 5

DANH MỤC TU VIET TAT VÀ GIẢI NGHĨA TỪ Vv

DANH MỤC HINH ANB che Vii DAT 2.9062 |

CHƯƠNG 1 CÁC PHƯƠNG PHÁP GIẢM CHIEU DU LIỆU 2

1.1 Lich sử hình thành và phát triÊn ¿5 5+ +5 s*++s>+ev>+s2 2 1.2 Các phương pháp học đặc trưng - 55+ ++<ss++ss++sss+ 3

1.2.1 Học đặc trưng truyền thống 2-2 scs+xe+Ee+resrsee 3

1.2.1.1 Hoc đặc trưng toản CỤC 55c + Ss+sveeeeeeerrsrsrs 4

II Ngài 434 6 1.2.2 HOC Sâu L2 SH 1 vn ng vn 6

1.2.2.1 Mô hình hoc sâu 22-522 22221 **£+22eszeeeeerzss 7 1.2.2.2 Công cụ học sÂu - - «+ + sk*x** Eksrkesrkeererexre 8

1.3 Phép phân tích thành phần chính - 2-52 ©522s2+ss+zs+cs+ẻ 91.4 Phép phân tích biệt thức tuyến tính -2©sz+ss+sscsz 11

1.4.1 Phan tích biệt thức chính quy 55555 s+++s++sxs+sscsss 16

1.4.2 Tính toán LŨA - - 11k HH HH HH re 17

1.4.3 Giảm chiều dữ liệu LDA .-:ccccscccccrrxerrrrersree 171.5 Phương pháp biến đổi chiều dữ liệu - 2-2-5: 22

CHƯƠNG 2 CÁC GIẢI THUẬT HOC MAY PHAN LỚP 25

2.1 Mạng Perceptrons nhiều tầng 2- 2-52 2+xezxe£xzEzEerrees 25

2.1.1 Kiến trúc mạng -¿- 2© ©E+2E2EE2EEEEEEEEtEEEEEEErrrrred 252.1.2 Thuật toán huấn luyện lan truyền ngược - 26

2.2.2 Phi tuyến tính - -©sSs+EE+E2+EEEEEEEEEE2E21711111 11c, 33

2.2.3 GOp lỚp SH ST TH HH HH HH, 33

2.2.4 Lớp được kết nối đầy đủ ¿©-¿+cz+cxerkerkrrrrrrerrred 342.2.5 Kiến trúc CNN phổ biến 2- 2-52 2+E£EeEs+EzEzxerxee 35

2.2.5.1 LeN€t QQnnnnn HH ST ST ng ng ng ng ng ng g2 x22 35

Trang 6

"Y2 na ẦẳỐẳố Ỏ 35

2.3 Mô hình biến ấn tuân theo quá trình ngẫu nhiên Gaussian 35

2.3.1 Lồng ghép biến ân, tối ưu tham sỐ -2©2 22s s2 36

2.3.2 Lồng ghép tham số, tối ưu biến ân -2-2 s+cscs2 362.3.3 Mô hình xử lý biến An Gaussian 2 5¿©5¿+ce+csccsa 37

2.3.3.1 Minh họa GPLVM qua SCG - 5 55+ 5< <+<<++ 38

2.3.3.2 Thuật toán cho GPLVMs Ặ G 2c SSScSsseseeke 39

2.4 Mạng Chống đối Tạo sinh - 2- + 2+ z+E££EeEeEzEzxersees 4I

2.4.1 Các nghiên cứu liên quan - c5 55 S5 ‡ + s+sexseexseeesss 42

2.4.2 Mạng chống đối 2 2+ E2 2121112112111 44

2.4.3 Tối ưu toàn cục của "=”, 45

"xu an 46

2.4.5 Một số nhận xét -.ccc-cctttttrtrirrrtirrrrrrirrrrrirrrrrrre 48 2.4.6 Tổng KẾt - St cctTETE1111111110111111111111 11111 11x 49

CHƯƠNG 3 PHAN TÍCH, ĐÁNH GIÁ THỰC NGHIỆM 50

3.1 Bài toán thử nghiỆm - c5 332113 ESreererrerrererres 50 3.2 Môi trường thử nghiệm - - - + + + + +vevveereeerererees 50

3.2.3.3 Ứng dung thuật toán giảm chiều LDA - 55

3.2.3.4 Ứng dụng thuật toán giảm chiều MDS - 56

3.2.3.5 Sử dung mô hình MILP -. 55+ 55+ + ++eex+eexes2 57

3.2.3.6 Sử dụng mạng CNN -Ă cty 57

3.2.3.7 Ứng dụng mô hình GPLVM 25c s +2 58 KẾT LUẬN ¬— ÔỎ 60

IV.)00/01005729/8.96/.(900a'- 63

PHU LUC - LẬP TRINH TREN PYTHON ¿2 +s+z+zszE+E+zszsz 65

Trang 7

DANH MỤC TU VIET TAT VÀ GIẢI NGHĨA TỪ

Từ viết tắt + CÁ tài nohŸ

Từ/Cụm từ Từ gôc Giải nghĩa

AIS Agency Information Hé thống nhận dạng tự độngSystem

ANN Artificial neural networks | Mang no ron nhan tao

Convolutional - nas R

CAE autoencoder architecture Bộ mã tự động tích chập

CNN Convolutional neural Mạng nơ-ron tích chập

networks

DBN Deep belief network Mạng tin sâu

DNN Deep Neural Network Mang nơ-ron có nhiều tầng an

DGPLVM Discriminative GPLVM GPLVM phan biét

GAN Generative adversarial Mang chéng déi tao sinh

network

Generalized discriminant | Phân tích chính quy hóa biệt

GDA ,

analysis thức

GMRF Gaussian Markov random | Mô hình ngau nhién theo phan

field bo Gaussian Markov

GPGPU General purpose graphics | Lá: vụ lý đồ họaprocessing unit - :

Gaussian process latent Mô hình ngau nhiên ân tuân

GPLRF P theo quá trình ngẫu nhiênrandom field

LDA ,

analysis tinh

LLE Locally linear embedding | Nhung tuyên tính cục bộ

MCMC Markov chain Monte Phuong phap xich Markov

Carlo Monte Carlo

MDS Multidimensional scaling Phuong pháp bien đôi chiêuđữ liệu

MFA Marginal fisher analysis Phan tich Fisher theo bién

MLP Multi-layer perceptron Mang Perceptron nhiéu tang

The mean log-likelihood | Trung bình của các mẫu trên

MNIST ^_ TẢ

of samples on test set tap kiém tra

Trang 8

PCA Principal component Phép phan tich thanh phan

QDA Quadratic discriminant Ham biệt thức bac hai

functions

RBF kernel Radial basis function Ham nhân co sở xuyên tamkernel

ReLU Rectified linear unit Khối sửa tuyến tính

RFC Ranom forest classifier Rừng ngẫu nhiên

RNN Recurrent neural network | Mạng nơ ron hồi quy

SCG Scaled conjugate gradients | Ham dốc quy mô liên hợp

SIFT Seale-invariant feature | én đổi bat biến theo tỷ lệtransform

Stochastic neighbor ro dA x "

SNE embedding Nhung lân can ngau nhiên

SVD Singular value Phan tich gia tri don tri

SVM Support vector machine Máy véc tơ hỗ trợ

TFD Toronto face database Bo dữ liệu nhận dạng khuônmặt của Toronto

VAE Variational autoencoders | Bộ giải mã biến tự động

Trang 9

DANH MUC HiNH ANH

Hình 1.1 Hai vectơ riêng cua ma trận hiệp phương sa1 10

Hình 1.2 Biểu đồ dit liệu huấn luyện nguyên âm +: II

Hình 1.3 Phan bố Gaussian -2-22+22+c++EEeEEeEEerErEerrxrrsrred 13

Hình 1.4 Ranh giới bậc hai của LDA và QDA -s<s<<+>+ 15

Hình I.5 Kiểm tra và huấn luyện lỗi cho dữ liệu nguyên âm 16Hình I.6 Bốn biểu đồ của các cặp ngẫu nhiên kinh điển 19

Hình 1.7 Phương saI 5 S22 E S23 ESEEsekerererrerrrvee 20

Hình 1.8 LDA và giảm chiều trên dữ liệu nguyên âm 21

Hình 1.9 Ranh giới quyết định cho dữ liệu huấn luyện nguyên am 2 Ï Hình 1.10 Tọa độ hai chiều cho dữ liệu nửa hình câu 23

Hình 2.1 Kiến trúc mạng nơ ron truyền tới nhiều tầng 1 25

Hình 2.2 Huấn luyện lan truyền ngược -2- ¿se sz+zz+cxz 26 Hình 2.3 Cac tính năng tự học của mạng nơ ron tích chập 27

Hình 2.4 Ba chiều được biểu diễn bởi mang no ron tích chập 28Hình 2.5 Tích chập như là phần bù làm mang trở nên day đủ 28

Hình 2.6 Hiệu ứng của ma trận hội tụ khác biỆt - 555 5+ 29

Hình 2.7 BO lọc mỗi lớp - 2 5+2 +E+E£EE£EEEEEEEEEEErEerxrkerkred 29

Hình 2.8 Ctra số loc cho mỗi bước nhảy - 2 2s sec+£zEzzerxee 31Hình 2.9 Hiệu quả của bước nhảy ở đầu ra -. -2©-2©5255s+cs+cs2 31

Hình 2.10 — Zero-padding ee eee eeeceesscesececeeeneceseceeeeeeeeceeeeeneeeneesseeesees 32

Hình 2.11 Cac lớp mang nơ ron tích chập sâu ảo - 32

Hình 2.12 Các kiểu thông thường của phi tuyến tính 33

Hình 2.13 Biểu diễn Max-pooling với bộ lọc 2x2, bước nhảy bang 2.34

Hình 2.14 Day đủ kết nối LOp vee ceccsccescessessessessessesseesessesseens 34

Hình 2.15 Mang LeNet theo Yan LeCun «- 5+5 «++<£++x++ 35

Hình 2.16 | Mang AlexNet theo Krizhevsky 2014 +5- 35

Hình 2.17 Hình ảnh của dit liệu dầu 2 s2 s+cs+xz+xerxeẻ 38Hình 2.18 Hinh anh dữ liệu dong chay dầu day đủ 40

Hình 2.19 Hình ảnh chữ số nhìn thấy trong không gian ân 2-D 40 Hình 2.20 Các khuôn mặt tưởng tượng tai mô hình 1-D 4I

Hình 2.21 Mạng chống đối tao sinh -2-5¿©cs+cxe+zzccsce 44Hình 2.22 Hình ảnh của mẫu từ mô hình - : s:+-++cs++¿ 47

Hinh 2.23. Mau lay từ mang tao sinh sau khi huấn luyện 48

Trang 10

ĐẶT VÁN ĐÈ

Sự thành công của các thuật toán học máy thông thường phụ thuộc cách biểu

diễn dữ liệu Học máy đã tạo ra một sự thay đổi lớn trong các hệ thông phân cấp,

phân cụm, hồi quy và nhận dạng khi có một phương pháp biểu dữ liệu hoặc trích

chọn đặc trưng tốt (biéu diễn dữ liệu tốt) Tuy nhiên, các nhà nghiên cứu thường

dựa vào tri thức có sẵn hoặc đóng góp của các chuyên gia (tích lũy từ thực nghiệm

và quá trình nghiên cứu) để thiết kế hoặc tìm kiếm các đặc trưng biéu diễn dữ liệu

Một câu hỏi khoa học đặt ra là “Liệu có thể tự động hóa việc học ra các đặc trưng

hữu ích từ tập dữ liệu thô?”.

Trong quá trình làm việc tại một doanh nghiệp viễn thông lớn nhất Việt Nam,

có nhiều bài toán cần có sự tham gia nghiên cứu chuyên sâu về dữ liệu lớn thông

qua các phương pháp học biểu diễn dé liệu

Cho đến nay, các nhà nghiên cứu đã đề xuất rất nhiều thuật toán học biểu

diễn dit liệu dé giải quyết các bài toán học không giám sát, hoc bán giám sat và

các bai toán giám sát Việc hệ thống lại các thuật toán học biểu diễn là việc cầnthiết giúp cho người nghiên cứu có cách nhìn tổng quan từ các thuật toán học biéu

diễn cơ bản đến các thuật toán học phức tạp Vì vậy, luận văn tập trung trình bày

các nội dung sau:

- _ Trình bay tong quan về các phương pháp giảm chiều dữ liệu dé xử lý các bài

toán phân cụm, phân lớp và hồi quy.

- Trinh bày các giảm chiều đữ liệu trong các bài toán phân lớp, các thuật toán

học đặc trưng an.

- Triển khai thực nghiệm để đánh giá hiệu năng của một số thuật toán học biểu diễn

được sử dụng trong các thuật toán phân lớp: cây quyết định (Decision Tree

Classifier/Classification and Regression Trees — CART), Support Vector Machine

(SVM), Rừng ngẫu nhiên (Random Forest Classifier — RF), Gradient Boosting

Classifier (GBM) vào phan tích, đánh gia trên một tập cơ sở dữ liệu có nguồn tại

kho lưu trữ máy học UCT [https://archive.ics.uci.edu/ml/datasets/adult].

Phan còn lại của luận văn được cấu trúc như sau Chương | nghiên cứu các

phương pháp giảm chiều dữ liệu qua việc tìm hiểu về lịch sử hình thành và phát

triển, các phương pháp học đặc trưng, phép phân tích thành phan chính, phép phân

tích biệt thức tuyến tính, và phương pháp biens đồi chiều dữ liệu Chương 2 xem

xét các giải thuật học máy phân lớp với mạng Perceptron nhiều tang, mạng no ron

tích chập, mô hình biến ấn tuân theo quá trình ngẫu nhiên Gaussian, mạng chống

đối tạo sinh Chương 3 thực hiện phân tích, dánh giá thực nghiệm về hiệu năng

của một số thuật toán học biểu diễn đã nghiên cứu va xem xét tại Chương 1,

Chương 2.

Trang 11

CHUONG1 CAC PHƯƠNG PHÁP GIAM CHIEU DU LIEU

1.1 Lich sử hình thành và phát triển

Trong nhiều lĩnh vực, chăng hạn như trí tuệ nhân tạo, viễn thông và côngnghệ thông tin, sinh hoc, tai chính, hoc biểu diễn dữ liệu là một bước quan trọng

dé phân loại, thu thập và đưa ra kiến nghị tiếp theo Theo đó, các ứng dụng có quy

mô càng lớn, việc học cấu trúc nội tại của dữ liệu và khám phá các thông tin có

giá tri từ dir liệu trở nên ngày một quan trọng và đầy thử thách Từ 100 năm trước,

nhiều phương pháp học biéu diễn di liệu đã được đề xuất [1] Cụ thê:

Năm 1901, K Pearson đề xuất phép phân tích thành phần chính (Principal

component — PCA); năm 1936, R Fisher đề xuất phép phân tích biệt thức tuyếntính (Linear discriminant analysis - LDA) PCA va LDA đều là phương pháptuyến tính Tuy nhiên, PCA là phương pháp không có giám sát, trong khi LDA là

phương pháp có giám sát Dựa trên PCA và LDA, nhiều nghiên cứu cải tiễn đã

được đề xuất như kernel PCA và phân tích chính quy hóa biệt thức (Generalized

discriminant analysis - GDA).

Năm 1943, W McCulloch va W Pitts đã tạo ra tế bào no ron nhân tao dau

tiên, đơn vi ngưỡng tuyến tính, mà còn được gọi là Mô hình M-P trong nghiên cứu cho các mạng nơ ron Sau đó, D Hebb dé xuất một giả thuyết về học dựa trên

cơ chế nơ ron mềm đẻo Bản chất, mô hình M-P và Lý thuyết Hebbian mở đường cho nghiên cứu mạng nơ ron và sự phát triển của sự kết nối trong lĩnh vực trí tuệ

nhân tạo.

Năm 1958, F Rosenblatt tạo ra perceptron, một mạng nơ ron hai tầng déphân loại cho 2 lớp Tuy nhiên, M Minsky và S Papert đã chi ra rang perceptronthậm chí còn không có khả năng giải quyết van đề duy nhất (OR/XOR)

Năm 1974, P Werbos đề xuất thuật toán lan truyền ngược huấn luyện

perceptron nhiéu tang (Mulu- layer perceptrons - MLP), nghiên cứu mạng nơ ron

vẫn chưa có thêm tiến triển mới.

Năm 1986, D Rumelhart, G Hinton và R Williams cho thấy rằng các thuật toán lan truyền ngược có thé học các biểu diễn tốt của dữ liệu (useful internal representations of data) trong tang ân của mạng nơ ron Với thuật toán lan truyền ngược, mặc di có thé huấn luyện nhiều lớp mạng nơ ron trong lý thuyết thì vẫn

còn tồn tại hai vấn đề quan trọng: Hiện tượng mô hình quá khớp và tốc độ thay

đổi theo hướng gradient.

Năm 2000, cộng đồng học máy phát động nghiên cứu về học đa tạp(Manifold learning) đã khám phá ra cấu trúc nội tại của đữ liệu nhiều chiều Không

giống như các phương pháp tiếp cận trước đây như PCA và LDA, phương pháp

học đa tạp được dựa trên tính chất cục bộ như lập bản đồ đặc trưng đăng (Isomap

Trang 12

- Isometric feature mapping) và nhúng tuyến tính cục bộ (Locally linear

embedding - LLE).

Năm 2006, G Hinton va các cộng su áp dụng thành công các mang no ron

sâu dé giam chiều, va đề xuất khái niệm “hoc sâu” Ngày nay, các thuật toán học

sâu đã được sử dụng trong nhiều lĩnh vực ngoài trí tuệ nhân tạo vì khả năng học của nó Mặt khác, các nghiên cứu về mạng nơ ron nhân tạo phải trải qua một quá

trình khó khăn nhưng cũng đạt được nhiều thành công Những vấn đề khó hiểu

của mạng nơ ron đã được giải quyết kéo theo nhiều thuật toán học sâu được đề

xuất và áp dụng thành công trong nhiều lĩnh vực khác nhau Trong đó bộ mã hóa

tự động đại diện cho một loại học sâu khác nhau Mục tiêu không phải là dự đoán

giá trị đầu ra, mà là tìm một đặc trưng từ đữ liệu đầu vào Điều này cũng được gọi

là giảm chiều dữ liệu (dimensionality reduction) của không gian đặc trưng và giảiquyết vấn đề “hoc vet” phổ biến trong học sâu

Năm 2015, dựa trên việc áp dụng phương pháp của G Hinton và các cộng

sự, LeCun, Bengio, & Hinton đã sử dụng các bộ mã hóa tự động dé giam tap hop

các đặc trưng để tao điều kiện huấn luyện, cải thiện tinh khái quát va kha năng

diễn giải, sử dung làm đầu vào cho DNN, mô hình có thể tránh được overfitting,

tổng quát hóa tốt hơn và mang lại nhiều triển vọng cho các mạng nơ-ron có nhiềutang ân (DNN) Đặc biệt, van dé này đã được các nhà nghiên cứu áp dụng cho dự

đoán bệnh dựa trên sinh học phân tử.

Trong 10 năm gan đây, mô hình phổ biến và cải tiến trong học sâu đó là

Mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) CNN được thiết

kế nhằm mục đích sử dụng trong các bài toán nhận dạng các đối tượng trong ảnh Các CNN tập trung vào việc tóm tắt thông tin bằng một hàm toán học, được gọi

là tích chập, làm giảm đáng ké việc tính toán Do CNN mạnh trong việc xử lý

hình ảnh, các nhà nghiên cứu đã phát triển các phương pháp mã hóa các loại thôngtin khác nhau dưới dạng hình ảnh cho nhiều ứng dụng

Đến nay, thành công nôi bật nhất trong học sâu là các mô hình phân biệt liên

quan Cụ thê là bản đô đa chiêu, đâu vào cảm quan phong phú tới một nhãn lớp.

Thành công đáng chú ý là thuật toán lan truyền ngược và bỏ học thuật toán, sử

dụng các khối tuyến tính theo từng phần cá thê theo hàm độ dốc well-behaved.

1.2 Cac phương pháp học đặc trưng

1.2.1 Học đặc trưng truyền thống

Luận văn này sẽ không đề cập đến các phương pháp thủ công, mang tính kỹ

thuật (như mô tả hình ảnh, đặc trưng thống kê, v.v.) mà tập trung vao thuật toán

học đặc trưng truyền thống thuộc về mô hình “học nông” được sử dụng dé biến

đổi dir liệu, cho phép đơn giản hóa việc trích xuất thông tin hữu ích khi xây dựng

phân loại hoặc đưa ra các dự đoán khác.

Trang 13

Từ quan điểm xây dựng, các thuật toán luôn được xem xét ở khía cạnh tuyến tính hoặc phi tuyến, giám sát hoặc không giám sát, phân tích thống kê hoặc giải quyết bài toán tối ưu hóa mục tiêu, toàn cục hay cục bộ Ví dụ, PCA là phương

pháp học biéu diễn tuyến tính, không có giám sát, phân tích thống kê và toàn cục,trong khi LDA là một phương pháp tuyến tính, giám sát, tối ưu hóa mục tiêu và

toàn cục.

Đối với các thuật toán học đặc trưng ở khía cạnh toàn cục hay cục bộ, phươngpháp toàn cục có gắng bảo toàn những thông tin toàn cục của dữ liệu trong khônggian đặc trưng, phương pháp cục bộ tập trung vào việc bảo toàn sự tương đồngtính chất cục bộ giữa các dữ liệu trong quá trình học biểu diễn mới

Van der Maaten, Postma và Van den Herik đã xây dựng các bộ mã cho 34

thuật toán học đặc trưng bằng công cụ MATLAB dé giảm chiều dữ liệu Yan và các cộng sự, giới thiệu một mô hình tổng quát (đồ thị nhúng) dé thống nhất một

nhóm lớn các thuật toán giảm chiều thành một công thức Zhong, Chherawala và

Cheriet so sánh ba loại giám sát phương pháp giảm chiều cho bài toán nhận dạng

chữ viết Zhong và Cheriet trình bày mô hình tông quát từ quan điểm của học học

biểu diễn tensor, trong đó xem xét các đữ liệu đầu vào như tensors và thống nhất

nhiều phương pháp tuyến tính, kernel và chiều tensor

1.2.1.1 Học đặc trưng toàn cục

Như đã đề cập ở trên, PCA là một trong những thuật toán học đặc trưng tuyến

tinh đầu tiên Do sự đơn giản, PCA được sử dụng phân tích thống kê dé giảm

chiều PCA đã sử dụng một biến đổi trực giao dé biến đổi một tập đặc trưng ban

đầu của dữ liệu thành tập đặc trưng mới độc lập, tuyến tính

Phương pháp biến đổi chiều dữ liệu cô điển (Multidimensional scaling

-MDS) cũng tương tự với PCA Ví dụ, cả hai phương pháp tuyến tính được tối ưuhóa bằng cách sử dụng phân tích tập giá trị riêng Sự khác biệt giữa PCA và MDS

là đầu vào của PCA là ma trận đữ liệu, trong khi đó MDS là ma trận khoảng

cach/bat tương đồng giữa các dữ liệu.

Ngoại trừ phân tích tập giá trị riêng, phân tích giá trị đơn trị (Singular value

decomposition - SVD) thường được sử dụng để tôi ưu hóa tốt nhất Phương phápphân tích ngữ nghĩa 4n trong tìm kiếm thông tin được tối ưu hóa bang cách sửdụng SVD, làm giảm số lượng hàng trong khi vẫn bảo toàn cấu trúc tương đồnggiữa các cột (hàng biểu diễn cho các từ và cột biểu diễn cho tài liệu)

Biến thé kernel PCA thực hiện cải tiến PCA dé giảm chiều dữ liệu phi tuyếnbang cách sử dụng ham kernel, trong khi xác suất PCA là một biến thé xác suấtcủa PCA Dựa trên PCA, Lawrence dé xuất mô hình biến ẩn tuân theo quá trìnhngẫu nhiên Gaussian Đây là mô hình xác suất đầy đủ cho biến ân phi tuyến và có

Trang 14

thé học một ánh xa phi tuyến từ không gian quan sát tới không gian ban dau Dé

tích hợp thông tin giám sát vào mô hình GPLVM, Urtasun và Darrell đề xuất

GPLVM phân biệt (Discriminative GPLVM).

Tuy nhiên, do DGPLVM dựa trên tiêu chuẩn của LDA hoặc GDA, số chiều

của không gian biến an trong DGPLVM bị giới hạn tối đa bởi C — 1 (với C là số

lớp) Dé giải quyết van dé nay, Zhong và các cộng sự đề xuất mô hình ngẫu nhiên

an tuân theo qua trình ngẫu nhiên Gaussian (Gaussian process latent random field

- GPLRF), bang việc ràng buộc các biến ngầm trở thành một mô hình ngẫu nhiên

theo phân bố Gaussian Markov (Gaussian Markov random field - GMRF) vớimong muốn xây dựng được đồ thị từ những thông tin giám sát Một số biến thé

khác của PCA như PCA thưa, PCA tăng cường và PCA xác suất có điều kiện.

LDA là một phương pháp học đặc trưng tuyến tính giám sát, trong đó việc

ràng buộc dữ liệu thuộc cùng lớp thì gần nhau, thuộc các phân lớp khác nhau thì

cách xa nhau trong không gian con LDA đã được sử dụng thành công trong nhận dạng khuôn mặt, và các đặc trưng mới được gọi là Fisherfaces.

GDA là một cải tiến của LDA băng cách sử dụng hàm nhân Nói chung, LDA

và GDA được học với sự phân tích tập giá trị riêng được chính quy hóa Tuy

nhiên, Wang và các cộng sự chỉ ra rằng giải pháp phân tích tập giá trị riêng đượcchính quy hóa chỉ xấp xỉ với các tập vector đơn trị đối với công thức của LDA

Do đó, họ đã biến đổi biến đổi bài toán tìm tập vector don trị thành một loạt các

tập vector đơn tri khác nhau roi SỬ dụng một thuật toán lặp dé giai quyét.

Jia va các cộng sự đưa ra phương pháp Newton-Raphson cho vấn đề tỷ lệ gốc và có thé chứng minh được hàm mục tiêu Zhong, Shi và Cheriet đề xuất

phương pháp phân tích Fisher mới sử dụng tính chất quan hệ, dựa trên việc xâydựng tập vector đơn trị và khai thác đầy đủ các thông tin quan hệ của dit liệu

Zhong và Ling đã phân tích thuật toán lặp dựa trên việc theo dõi các tập vector

đơn trị và chứng minh các điều kiện cần và đủ đối với các giải pháp tối ưu tập

vector đơn trị Các biến thé của LDA có thể tạo ra như LDA gia tăng, DGPLVM

va phân tích Fisher theo biên (Marginal Fisher analysis - MFA).

Ngoại trừ các thuật toán hoc đặc trưng nêu trên, có rất nhiều phương pháp

học đặc trưng khác, chăng hạn như phân tích thành phần độc lập, phân tích quan

hệ của các biến phạm trù, học trích chọn đặc trưng dựa trên dựa trên phương pháphọc kết hợp, học đặc trưng đa nhiệm, v.v

Dé xử lý trực tiếp dir liệu tensor, nhiều thuật toán hoc biểu dién tensor đã được đề xuất Ví dụ, Yang và các cộng sự đề xuất thuật toán 2DPCA và phân chia

ưu điểm của nó qua PCA trong bài toán nhận dang khuôn mặt Ye, Janardan và

Li đề xuất thuật toán 2DLDA, mở rộng LDA dé học biểu diễn tensor hai mức

Trang 15

1.2.1.2 Học đa tạp

Phương pháp học đa tạp là phương pháp học đặc trưng dựa trên tính cục bộ.

Hầu hết các thuật toán học đa tạp là các cách tiếp cận giảm chiều phi tuyến hoặc

tuyến tính (vi dụ như ánh xạ bảo toàn tính chất cục bộ va MFA Tuy nhiên, một

số thuật toán giảm chiều phi tuyến không phải là phương pháp học đa tạp, vì chúng

không nhằm mục đích khám phá ra cau trúc nội tại của đữ liệu nhiều chiêu, chănghạn như bản đồ Sammon

Năm 2000, Tạp chi “Science” xuất bản hai bài báo về học đa tạp Bài báo

đầu tiên giới thiệu Isomap kết hợp Thuật toán Floyd-Warshall với MDS cổ điền

Dựa trên lân cận cục bộ của các đối tượng dữ liệu, Isomap tính toán khoảng cach giữa cặp dữ liệu bằng cách sử dụng Thuật toán Floyd-Warshall Sau đó, học không gian đặc trưng mới bằng cách sử dụng MDS cô điên Bài báo thứ hai về LLE, mã hóa các thông tin cục bộ tại mỗi điểm đữ liệu vào việc tái tạo trọng số của các lân

cận.

Sau đó, nhiều thuật toán học đa tạp đã được đề xuất Cụ thé, việc kết hợp các

y tưởng về sự gióng hàng không gian tiếp tuyến cục bộ và Ban đồ riêng Laplacian,

đã tính toán sự tương đồng cục bộ giữa các dữ liệu băng cách sử dụng khoảngcách Euclide trong không gian tiếp tuyến cục bộ và sử dụng Bản đồ riêngLaplacian dé học dữ liệu trong không gian đặc trưng mới

Ngoài các phương pháp nêu trên, một số phương pháp liên quan có thê chú

ý đến như các thuật toán học độ đo, học bán giám sát, học từ điển, và thừa số hóa

ma trận không âm.

1.2.2 Học sâu

Có thê thấy tại lĩnh vực nghiên cứu học sâu đã có rất nhiều nhà khoa học

nghiên cứu như: Bengio đã nghiên cứu về sự trình bầy, nguyên tắc và một số thuậttoán quan trong của học sâu; Bengio, Courville và Vincent, từ quan điểm của họcbiểu diễn, xem xét tiễn trình của học đặc trưng va học sâu; LeCun, Bengio vàHinton giới thiệu sự phat triển của học sâu và một số mô hình học sâu quan trọng

bao gồm mạng nơ ron tích chập và mạng nơ ron hồi quy; Schmidhuber xem xét

sự phát triển của mạng nơ ron nhân tạo và năm học sâu theo từng năm

Ngoài ra, các thuật toán học sâu cũng có thé được tìm thấy ở nguồn tai liệu

trên Internet Nguồn thứ nhất là từ Khóa hoc Coursera giảng dạy bởi Giáo sư

Hinton Khóa học này là về mạng nơ-ron nhân tạo và chúng đang được sử dụngnhư thé nao cho học máy Nguồn thứ hai là từ hướng dẫn về học đặc trưng khônggiám sát và học sâu, được cung cấp bởi một số nhà nghiên cứu trên trang web củaĐại học Stanford Ngoại trừ kiến thức cơ bản về các thuật toán học đặc trưngkhông giám sát và học sâu, hướng dẫn này bao gồm nhiều bài tập Do đó, nó khá

Trang 16

được học sâu và lập trình bằng mô hình), hay trang blog CSDN hoặc trên

Wikipedia, v.v Cuối cùng, cuốn sách học sâu của Giáo sư Goodfellow, Bengio

và Courville, được xuất bản bởi MIT Press Có thể download miễn phí phiên bản

điện tử trên trang web sách học sâu Các khóa học, hướng dẫn, blog, v.v này có

hướng dẫn chỉ tiết về lý thuyết thuật toán học sâu

1.2.2.1 Mô hình học sâu

Học sâu có sự phát triển vượt bậc như ngày hôm nay là dựa ba khía cạnh

chính: Học đặc trưng, khả năng gán nhãn một sé lượng lớn dữ liệu, va phần cứng

(đặc biệt là khối xử lý đồ họa: General purpose graphics processing unit

-GPGPU).

Năm 2006, Hinton và các cộng sự của ông đã đề xuất sử dụng tiền huấn

luyện và điều chỉnh tham số mô hình cho các cặp tang liên liếp (greedy layer-wisepre-training và finetuning) cho các mạng nơ ron sâu và đã đạt được hiệu suất caohơn so với các thuật toán nhận dạng chữ số viết tay và nhiệm vụ thu hồi tài liệu

dựa trên MNIST Dựa trên nghiên cứu này, Bengio va các cộng sự giới thiệu mã

hóa tự động xếp chồng và xác nhận giả thuyết rằng các chiến lược huấn luyện

không có giám sát tang khôn ngoan tham lam chủ yếu giúp tối ưu hóa, bằng cách

khởi tạo trọng sé trong mot khu vuc gan tối thiểu cục bộ tốt, làm phát sinh phân

bố biểu diễn nội mà là trừu tượng cấp cao của đầu vào, và mang lại tổng quát tốt

hơn; Vincent và các cộng sự đề xuất các bộ khử nhiễu tự động xếp chồng, được

huấn luyện cục bộ dé khử nhiễu từ các phiên bản lỗi của đầu vào

Zheng và các cộng sự cho thấy tính hiệu quả của kiến trúc sâu được xây dựng

với các module học đặc trưng xếp chồng, chăng hạn như PCA và nhúng lân cậnngẫu nhiên (Stochastic neighbor embedding - SNE).

Dé nang cao hiéu qua cua cac kiến trúc sâu được xây dựng bởi mô hình học

đặc trưng xếp chồng, Zheng và các cộng sự áp dụng các kỹ thuật kéo dài trên

weight ma trận trọng số giữa các tầng liên tiếp hàng đầu, và chứng minh tính hiệu

quả của phương pháp với nhiệm vụ nhận dạng tài liệu viết tay Ngoài ra, mô hình

an song song Markov sử dung các mạng tin sâu (Deep belief networks - DBNs)

dé áp dung cho nhận dang chữ viết.

Năm 2012, Krizhevsky, Sutskever va Hinton đã tạo ra “AlexNet” va gianh được ImageNet LSVRC (ImageNet Large Scale Visual Recognition

Trang 17

hiện tốt trong ImageNet LSVRC được dựa trên các mạng nơ ron tích chập sâu

(Deep convolutional neural networks - CNNs), như OverFeat, VGGNet,

GoogLeNet va ResNet.

Dựa trên việc khai thác đặc trưng cua AlexNet, các đặc trưng được trích xuất

từ việc kích hoạt mạng nơ ron tích chập sâu được huấn luyện một cách đầy đủ

giám sát một tập hợp lớn, và có thể cố định các nhiệm vụ nhận dạng đối tượng.

Theo đó, đặc trưng này được gọi là đặc trưng kích hoạt tích chập sâu Zhong và

các cộng sự đưa ra hai vấn đề khó khăn liên quan đến hình ảnh tải liệu được chụp

và áp dụng đặc trưng kích hoạt tích chập sâu để tạo ra kết quả ban đầu cho các

vấn đề được đề xuất Cai và các cộng sự đặt vấn đề là liệu đặc trưng kích hoạt tích

chập sâu có đủ tốt dé phân loại hình ảnh chính xác Dựa trên các hành động giảm

và kéo dài, các tác giả đã cải thiện đặc trưng kích hoạt tích chập sâu trong một SỐ

trường hợp phân loại hình ảnh Dựa trên AlexNet và VGGNet, Zhong và các cộng

sự đề xuất thuật toán học băm sâu đã cải thiện đáng kế khả năng phục hồi hình

ảnh.

Gần đây, các mô hình học sâu thu được nhiều sự chú ý là các mạng nơ ron

hồi quy (Recurrent neural networks - RNNs), bộ nhớ dai/ngan hạn, chú ý dựa trên

các mô hình và các mạng thống kê cạnh tranh Các ứng dụng thường được tập trung vào việc phân loại hình ảnh, phát hiện đối tượng, nhận dạng giọng nói, nhận dạng chữ viết, tạo chú thích hình ảnh và dịch máy.

1.2.2.2 Công cụ học sâu

Có nhiều công cụ học sâu được chia sẻ trên Internet Trong mỗi công cụ, bộ

mã lập trình của một số mô hình học sâu, như DBNs, LeNet-5, AlexNet và

VGGNet, thường được cung cấp rộng rãi Các nhà nghiên cứu có thé trực tiếp sử

dụng các mã lập trình này hoặc phát triển mô hình mới tủy thuộc vào sự cho phép

của các đơn vị cung cấp mã lập trình.

Một số công cụ học sâu phô biến trên Internet như: Theano, Caffe,

TensorFlow và MXNet.

Theano là một thư viện Python, được tích hợp với NumPy cho phép người

dùng có thé xác định, tối ưu hóa, và đánh giá biểu thức toán học liên quan đếnmảng đa chiều một cách hiệu quả Hơn nữa, nó có thể thực hiện tính toán đữ liệutrên GPU nhanh hơn 140 lần so với CPU

Trang 18

Công cụ dành cho học sâu Caffe được xây dựng hoàn toàn trên ngôn ngữ

C++/CUDA Tuy nhiên, nó chỉ cung cấp giao diện dòng lệnh, Python và MATLAB Bộ mã Caffe chạy nhanh, và có thể chuyền liền mạch giữa CPU và

GPU.

TensorFlow là một thư viện mã nguồn mở cho tính toán số sử dụng các biểu

đồ luồng dit liệu Các nốt trong đồ thị biểu diễn cho hoạt động toán hoc, trong khi

các cạnh đồ thị biểu dién cho mảng đữ liệu đa chiều (tensors) được trao đôi giữachúng TensorFlow có khả năng phân biệt tự động để tạo điều kiện cho việc tínhtoán các dẫn xuất

MXNet được phát triển bởi nhiều cộng tác viên từ các trường đại học và các

công ty Nó hỗ trợ cả lập trình hướng cấu trúc và hướng đối tượng, với nhiều ngôn

ngữ lập trình như C++, Python, R, Scala, Julia, Matlab và Javascript Tốc độ chạy

của chương trình MXNet tương đương với Caffe, nhưng nhanh hơn nhiều so với

Theano và TensorFlow.

1.3 Phép phân tích thành phan chính

PCA là một phương pháp giảm chiều dữ liệu, sao cho lượng thông tin về dit

liệu, thé hiện ở tổng phương sai, được giữ lại là nhiều nhất

Các đặc trưng không biểu diễn thông tin về ý nghĩa chất lượng bộ phân lớp.

Do đó cần phải kiểm định thống kê dé chọn lựa đặc trưng cần thiết

Trường hợp có quá nhiều đặc trưng, đặc biệt là các đặc trưng có độ tương

quan cao, chúng ta có thé sử dụng phép phân tích thành phan độc lập dé loại bớt

các đặc trưng này Theo đó, phương án khả thi là xác định một ngưỡng 9 ~ 1, nếu

hai đặc trưng xỉ và xi mà hệ số tương quan r;¡ của chúng:

x} Xự„ —1n x

7) C= N Camo) — 1)S¡S/> ) (s; là các phương sai mau tương ứng) (1.1)

lớn hơn 0 thì chỉ cần giữ lại một đặc trưng Đây được xem là các đặc trưng

gốc và thực hiện chọn tập con đặc trưng phù hợp

Có nhiều cách để thực hiện chọn lựa đặc trưng Đề đơn giản và thuận tiện,chúng ta có thé lựa chọn dựa trên một tiêu chuẩn đánh giá nào đó Gia sử F; là tập

t đặc trưng gốc, F là một tập con d đặc trưng của nó, tức là |F| = d và J(F) là hamcủa hàm F đã cho dé đánh giá khi chọn đặc trưng

Tim tập đặc trưng F* sao cho:

Trang 19

Tìm các véc tơ riêng ứng với k giá trị riêng lớn nhất của C làm vectơ đơn vị,

chiếu các đối tượng lên các vectơ này làm đặc trưng tương ứng Tương ứng với

dùng phép biến đổi trực giao y= Ax ứng với ma tran A trên không gian đặc trưng

dé ma trận hiệp phương sai Cy có dang đường chéo sao cho các giá trị riêng A; của

Cy giảm dần Khi đó đặc trưng mới là k thành phần đầu của hệ tọa độ mới Hình

1.1 minh họa hai vectơ riêng của C, nếu lấy một đặc trưng thì phương pháp PCA

sẽ chiếu vectơ đặc trưng gốc lên vectơ vị.

Bản chất của phương pháp PCA là việc tìm các hướng mà đữ liệu phân bố

với biên độ lớn quanh tâm của tập dữ liệu (giá trị riêng lớn) làm vectơ cơ sở cho không gian đặc trưng mới.

Hình 1.1 Hai vectơ riêng cua ma trận hiệp phương sai

Lưu ý khi dùng phương pháp PCA dé giảm đặc trưng:

- _ Các thành phan chính là biến đổi tuyến tinh của đặc trưng gốc nên khi giảm

chiều có thé làm mat thông tin phi tuyến trong dữ liệu

- Các thành phan chính với đóng góp nhỏ trong phương sai toàn phần nhiều khi

vẫn có ý nghĩa

Trang 20

- Rat khó giải thích ngữ nghĩa của thành phần chính trong khi các ý nghĩa rất

rõ ràng khi dùng đặc trưng gốc

- Khong phải việc giữ lại thông tin nhiều nhất sẽ luôn mang lại kết quả tốt nhất.

Tuy có các nhược điểm trên nhưng PCA là công cụ hữu hiệu dé giảm chiều

dữ liệu trong nhiều ứng dụng.

1.4 Phép phân tích biệt thức tuyến tính

Đề xử lý nhược điểm của PCA đối với van đề không phải việc giữ lại thông

tin nhiều nhất sẽ luôn mang lại kết quả tốt nhất, chúng ta có thể sử dụng phươngpháp LDA Theo đó, LDA là một phương pháp giảm chiều dữ liệu cho bài toán

phân lớp.

Như vậy, LDA có thé được xem như là một phương pháp giảm chiều dữ liệu

(dimensionality reduction), và cũng là một phương pháp phân lớp (classification),

và cũng có thé áp dụng đồng thời cả hai phương pháp, tức giảm chiều dữ liệu sao

cho việc phân lớp hiệu quả nhất Số chiều của đữ liệu mới nhỏ hơn ít nhất 1 lớp

so với số chiều của dit liệu gốc

- 7 Toa độ 1 của dữ liệu dao tao _ ;

Hình L2 Biéu do dữ liệu huấn luyện nguyên âm

Hình 1.2 có mười một lớp với X € IR10, đây là cách nhìn tốt nhất của mô

hình LDA Các vòng tròn đậm biểu diễn cho các vector trung bình của mỗi tầng.

Các tầng bị chồng chéo lên nhau

Lý thuyết phân loại cho chúng ta biết xác suất Pr (G|X) đề thực hiện tối ưu.

Giả thiết f(x) là hàm mật độ có điều kiện X trong lớp G = k, Và để cho m có xác

Trang 21

Kỹ thuật Huan luyện Kiểm tra

Hôi quy tuyên tính 0,48 0,67

Phân tích biệt thức tuyên tính 0.32 0,56

Phân tích biệt thức bac hai 0.01 0,53

Hôi quy logistic 0.22 0,51

Ghi chu: Ty lệ huấn luyện và kiểm tra lôi sử dụng một loạt các kỹ thuật tuyến

tính trên các dữ liệu nguyên âm Có mười một tang trong mười chiều, ba trong

số chúng cho 90% giá trị (thông qua phép phân tích thành phan chinh) chung

ta thấy răng hoi quy tuyén tinh bị anh hưởng bởi mặt nạ, làm tăng lỗi thử nghiệm

và huấn luyện hơn 10%.

Ta thay kha năng phân lớp tới f,(x) là gần như tương đương với việc có Pr (G =

k|X =x).

Có nhiều kỹ thuật dựa trên các mô hình cho mật độ lớp:

- Tuyén tính và phan tích biệt thức bac hai sử dụng ham mật độ Gauss.

- Trộn linh hoạt các hàm Gaussian cho phép quyết định ranh giới phi tuyến

- Dự báo mật độ phi tham sé tong cho phép linh hoạt đối với mỗi mật độ lớp.

- M6 hình Naive Bayes là một biến thể của biến trước đó Giả thiết rang mỗi

mật độ lớp là sản phẩm của mật độ biên Chúng gia định đầu vào độc lập trong

mỗi lớp

Giả thiết mô hình của mỗi mật độ lớp như hàm đa biến Gaussian

fe) = — : e~2Œ—Mx)f Lee ma” (1.6)

(2z)?|%„|2

Phép phân tích biệt thức tuyến tính (LDA) phát sinh trong trường hợp đặc

biệt khi chúng ta giả định rằng các lớp có một ma trận hiệp phương sai chung >

x=> Vk Việc so sánh hai lớp k và £ là đảm bảo dé xem xét ty lệ log chúng tathấy răng Công thức 1.7 là một phương trình tuyến tính của x Các ma trận hiệp

phương sai là nguyên nhân dé loại bỏ các yếu tố bình thường, cũng như thành

phần bậc hai trong hàm số mũ Hàm log lẻ tuyến tính ngụ ý rằng ranh giới quyết

định giữa các lớp k và F - được thiết lập bởi Pr (G = k|X = x) = Pr (G = t|X =x)

— là tuyến tinh trong x; trong khi p là các chiều của một siêu phăng Điều này đúng

đối với bất kỳ cặp của các lớp, vì vậy tất cả các ranh giới quyết định là tuyến tính.

Trang 22

= log 2W + He) » (Ux — Hạ) + x » (Ux — He) (1.7)

Hình 1.3 bên trái cho thay một ví du lý tưởng với ba lớp va p = 2 Ở đây, dit

liệu được phát sinh từ ba phân bố Gaussian với một ma trận hiệp phương sai

chung Chúng có mật độ xác suất cao nhất tới 95%, cũng như trọng tâm của lớp.

Đề ý rằng ranh giới quyết định không phải là hai đường vuông góc của các đoạn

nối trọng tâm Đây sẽ là trường hợp nếu các hiệp phương sai 5 là hình cầu o 71,

và các lớp đầu tiên là bằng nhau Từ Công thức 1.7, chúng ta thấy rằng các hàm biệt thức tuyến tính như Công thức 1.8 là một mô tả tương đương với quy luật quyết định, với G(x)=Argmax, 6 ,(x).

-1 1 -1

5x (x) =xrÐ, = 5x"), uk + log Trụ (1.8)

Trên thực tê, do chung ta không biệt các tham sô cua phan bo Gaussian, và

cân phải ước tính chúng đê sử dung cho việc huân luyện dữ liệu với f„ = N,/N,

với N„là sô quan sát của lớp & theo đó fie =3g=%¡/N, và Š=

X=1 3;g,=k(¡ — fi); — ây)”/(N — K)

Nguồn: Trevor Hastie, 2008 Hình 13 Phân bố Gaussian.

Trang 23

Hình 1.3 bên trái cho thấy ba phân bố Gaussian, với cùng hiệp phương sai

và các ý nghĩa khác nhau Bao gồm những đường nét theo mật độ liên tục 95%

của xác suất trong từng trường hợp Ranh giới quyết định Bayes giữa mỗi cặp của

các lớp được biểu thị bằng nét đứt, và ranh giới quyết định Bayes giữa ba lớp được biéu thị bằng nét liền (một tập hợp con của tập ban đầu) Hình 1.3 bên phải

cho thây 30 mẫu rút ra từ mỗi phân phối Gaussian, và phù hợp với ranh giới quyết

định LDA.

Chỉ với hai lớp có một sự tương ứng đơn giản giữa phân tích biệt thức tuyếntính và phân loại bởi bình phương nhỏ nhất tuyến tính Quy tắc LDA phân loạiđến lớp 2 nếu tính toán theo Công thức 1.9 và lớp 1 khác Giả sử chúng ta mã hóa

các mục tiêu trong hai lớp như +1 và -1, tương ứng Nó rat dé dang dé chứng minh rằng các vector hệ số từ hình vuông ít nhất là tỷ lệ thuận với việc đưa ra LDA

trong Công thức 1.9 Trong thực tế, sự tương ứng này xảy ra đối với bat kỳ (riêng

biệt) mã hóa các mục tiêu Tuy nhiên trừ khi Nị = N2 các chặn là khác nhau và do

đó các quy tắc quyết định kết quả là khác nhau

a 1 N N

xTŠ1(f; — âu) > SARE hy — SATE A, + logy - — log W (1.9)2

Trường hop dao hàm của LDA qua phương nhỏ nhất không sử dung gia thiết

Gaussian cho các hàm, ứng dụng của nó vượt ra ngoài lĩnh vực dữ liệu Gaussian.

Tuy nhiên, đạo hàm của các ham chặn hoặc điểm cắt cụ thê như trong Công thức 1.9 yêu cầu phải có dữ liệu Gaussian Như vậy trên thực tế việc chọn điểm cắt đã

làm giảm lỗi huấn luyện cho một tập dit liệu nhất định

Bằng việc nhiều hơn hai lớp, LDA không giống như hồi quy tuyến tính của

ma trận chỉ số lớp, và nó tránh được tiếp cận đến mặt nạ vấn đề Một sự tương

ứng giữa hồi quy và LDA có thể được thiết lập thông qua các khái niệm về điểmtối ưu

Trở lại vấn đề biệt thức chung như Công thức 1.8, nếu ©, không được giả

định là bằng nhau, thì sẽ không xảy ra; đặc biệt là các thành phần bậc hai vẫn còn

trong x Sau đó chúng ta có được hàm biệt thức bậc hai (QDA — Quadratic discriminant functions) như công thức 1.10.

—1

d(x) = — Flog Sel =5 Œ= Ha)” > Œ— He) + logy (1.10)

Ranh giới quyét định giữa môi cap cua các lớp k va £ được mô tả bởi một

phương trình bậc hai {x : 6 x(x) = 6 ¢(x)}.

Hình 1.4 cho thay nơi ba lớp được trộn bởi ham Gaussian và ranh giới quyết

định được xấp xỉ bằng phương trình bậc hai trong x Ở đây chúng ta minh họa hai

cách phô biến việc lắp những ranh giới bậc hai Việc hình bên phải QDA như mô

Trang 24

tả ở đây, trong khi hình bên trái mô tả LDA trong không gian đa thức bậc hai năm

chiều mở rộng Sự khác biệt nói chung là nhỏ; QDA là phương pháp ưu tiên, với

phương pháp LDA thay thế thuận tiện.

Ước tính cho QDA tương tự như cho LDA, ngoại trừ việc riêng biệt ma trận

hiệp phương sai phải được ước tính cho mỗi lớp Khi p là lớn, điều này có thé gia

tăng một lượng đáng ké các tham số Ké từ khi ranh giới quyết định là hàm củacác tham số của mật độ, việc đếm số lượng các tham sé phải được thực hiện mộtcách can thận Đối với LDA, có vẻ như có (K -1) X (p + 1) các tham số, vì chúng

ta chỉ cần sự khác biệt ô x(x) - ô x(x) giữa các hàm biệt thức, nơi K là một số lớp chọn trước (ở đây là lựa chọn cuối cùng), và mỗi sự khác biệt đòi hỏi pTr1 tham

số Như QDA sẽ có (K - 1) X {p(p + 3)/2 + 1} tham số Cả hai LDA và QDA thực hiện tốt một cách ngạc nhiên và đa dạng các nhiệm vụ phân loại.

Nguồn: Trevor Hastie, 2008

Hình l4 Ranh giới bậc hai của LDA và QDA.

Vi dụ, trong các dự án STATLOG (Michie và các cộng sự, 1994) LDA là

một trong ba phân loại hang dau cho 7 trong số 22 bộ dit liệu, QDA đứng thứ ba

trong bốn tập hợp dit liệu, và một trong ba cặp đứng dau của 10 bộ dữ liệu Cả hai

kỹ thuật này đều đang được sử dụng rộng rãi.

Hai công cụ đơn giản này đường như có thể giải quyết được toàn bộ các vẫn

đề Câu hỏi đặt ra tại sao LDA và QDA lại tốt như vậy Lý do di liệu không phải

là xấp xi ham Gaussian, ngoài ra đối voi LDA thì hiệp phương sai xap xi bang

nhau Lý do có nhiều khả năng nhất chính là dữ liệu chỉ có thé hỗ trợ ranh giới

quyết định đơn giản như tuyến tính hoặc bậc hai, và giá trị xấp xy được tinh thông

qua các mô hình Gaussian là ồn định Đây là một sự đánh đôi cho sai lệch chúng

ta có thé đưa ra dự kiến về một ranh giới quyết định tuyến tính bởi nó có thé được

ước tính với phương sai thấp hơn nhiều so với giải pháp thay thế ngoại lai Lập

Trang 25

luận này it đáng tin cậy cho QDA, vi nó có thé có nhiều tham số riêng của mình, mặc dù có lẽ ít hơn các lựa chọn thay thế phi tham sé.

1.4.1 Phân tích biệt thức chính quy

Friedman (1989) đã đề xuất một kết hợp giữa LDA và QDA, cho phép thu

nhỏ hiệp phương sai riêng của QDA hướng tới một hiệp phương sai chung như

trong LDA Những phương pháp này rất giống nhau dé đạt được kết qua Các ma

trận hiệp phương sai chính quy có dạng như Công thức 1.11.

R Yx(@) = ad, +(1— ø)Š ; (1.11)

Trong đó, Š là ma trận hiệp phương sai gộp trong LDA O day a € [0,1]

cho phép một sự liên tục của các mô hình giữa LDA và QDA, và cần phải đượcxác định Trong thực tế a có thé được lựa chọn dựa trên hiệu suất của mô hìnhtrên giá trị dữ liệu, hoặc băng cách xác nhận chéo

Hình 1.5 cho thấy kết quả của RDA áp dụng cho các dữ liệu nguyên âm Cảhai việc huấn luyện và kiêm tra lỗi đều được cải thiện với sự gia tăng a, Mặc dù

kiểm tra lỗi tăng mạnh sau œ = 0.9 Sự khác biệt lớn giữa huấn luyện và kiểm tra lỗi một phần là do thực tế rằng có rất nhiều phép đo lặp lại trên một số ít riêng lẻ,

khác nhau trong việc thiết lập huấn luyện và thử nghiệm

aTỷ lệ ph«‹ 02 03 04 05

0.0 0.1

0.0 0.2 0.4 0.6 0.8 1.0

Hình 1.5 Kiểm tra và huấn luyện lỗi cho dữ liệu nguyên âm.

Tương tự những sửa đổi cho phép £ bản thân dé được thu nhỏ về phía hiệp

phương sai vô hướng Cho y € [0,1], ta thay thé ¥ trong Công thức 1.11 bang

Trang 26

Trong phan này, chúng ta đi sâu vào việc tính toán cho LDA và đặc biệt là

QDA Việc tính toán của chúng được đơn giản hóa bằng đường chéo £ hoặc là

Sk Theo đó, giả thiết chúng ta tính toán phân giải dit liệu gốc cho mỗi

Êk=U,D,Uÿ, trong đó Uy là p X p trực giao, và Dy một ma trận đường chéo của

giá tri riêng tích cực dye Sau đó, các thành phần cho 6 ,(x) (1.10) là:

(x = A) Se — ây) = [UE Oe — Bred] Dee [UR — ñ„)] (1.13)

Tiép theo, viéc phan loai LDA co thé duoc thuc hién nhu sau:

- Vung dữ liệu liên quan đến dự toán hiệp phương sai chung

Ê: X*©D'!?UTX, khi Ê= UDUT Ước tính hiệp phương sai chung của X* bây

giờ sẽ được nhận diện.

- Phan loại với trong tâm lớp gần nhất trong không gian biến đổi, modulo ảnh

hưởng của các xác suất lớp ưu tiên x.

1.4.3 Giảm chiều dữ liệu LDA

Chúng ta đã xem xét LDA như một bộ phân loại cho việc hạn chế hàm

Gaussian Mức độ phô biến của nó có được là do sự hạn chế bé sung dé cho phépchúng ta có thê xem dự báo thông tin thấp chiều của dữ liệu

Trọng tâm K trong p chiều đầu vào không gian năm trong không gian con

biến đổi có số chiều < K - 1, và nếu p là lớn hơn nhiều so K, đây sẽ là sự sụt giảm

đáng kế trong số chiều Hơn nữa, trong việc định vi trọng tam gần nhất, chúng ta

có thé bỏ qua khoảng cách trực giao với không gian con nay, vì chúng sẽ đóng góp như nhau đối với mỗi lớp Cũng như vậy chúng ta có thể chiếu X* vào không

gian con trọng tâm-kéo dai này Hx.¡, và so sánh khoảng cách này Đó là sự giảm

chiều căn bản trong LDA, cụ thể là, chúng ta chỉ cần xem xét các dữ liệu trong

một không gian con K - 1.

Vi dụ, nếu K = 3, chúng ta để xem các anh dữ liệu trong không gian haichiều, mã hóa màu các lớp Làm như vậy chúng ta sẽ không từ bỏ bất cứ thôngtin cần thiết cho việc phân loại LDA

Điều gì xây ra nếu K > 3? chúng ta có thé xem xét một L < K-1 không giancon chiều Hy © Hx.) tối ưu cho LDA trong một nghĩa nào đó Fisher được tôi ưu

dé các trọng tâm dự kiến được trải ra càng nhiều càng tốt đối với phương sai Tổng

Trang 27

này được hình thành chính bởi các trọng tâm của chính mình 0 hiển thị một không

gian con hai chiều tối ưu cho các dit liệu nguyên âm Ở đây có mười một lớp, mỗi lớp là một nguyên âm khác nhau, trong một không gian đầu vào mười chiều Các trọng tâm trong trường hợp này, yêu cầu một không gian day đủ, vì K - 1 =p,

nhưng chúng ta đã chỉ ra một không gian con hai chiều tối ưu Các chiều được sắp

xếp, vì vậy chúng ta có thé tính toán chiều bổ sung trong chuỗi Hình 1.6 cho thay

bốn cặp tọa độ ngẫu nhiên kinh điển, hay còn gọi là biến canonical hoặcdiscriminant Khi cấp bậc của các biến ngẫu nhiên kinh điền tăng, các trong tâm

it bị trải rộng Trong biểu đồ bên dưới, bên phải chúng xuất hiện chồng lên nhau,

và khó phân biệt lớp Tóm lại, việc tìm kiếm các trình tự của các không gian contối ưu cho LDA bao gồm các bước sau:

- Tinh ma trận K X p của M lớp các trọng tâm và ma trận hiệp phương sai

chung W (đối với trong lớp hiệp phương sai)

- Tinh M*= MW!“” sử dụng phân tích riêng của W.

- Tinh B*, Ma trận hiệp phương sai của M* (B cho lớp giữa của hiệp phương

sal), và phân tích riêng của nó B* = V*DpV*T Các cột vp của V* theo thứ tự

từ đầu đến cuối xác định tọa độ các không gian con tối ưu.

Kết hợp tất cả các hoạt động biến biệt thức thứ t được cho bởi Z¡ = 1¿X VỚI

Ma wl? Vp.

Fisher đưa ra việc phân tích này qua một con đường khác, mà không dé cậpđến phân bố Gaussian ở tat cả Ông đặt ra van dé:

Tìm sự kết hợp tuyến tính Z = aTX như là biến lớp giữa được quan hệ tối da

toi phương sai trong lop.

Một lần nữa, giữa lớp phương sai là phương sai của lớp Z, và trong lớp

phương sai là phương sai gộp Hình 1.7 cho thấy lý do tại sao tiêu chí này có ý

nghĩa Mặc dù theo hướng kết hợp các trọng tâm riêng càng nhiều càng tốt (ví dụ,

tối đa phương sai giữa lớp), có sự chồng chéo giữa các lớp dự kiến do ban chất

của hiệp phương sai Cách lấy hiệp phương sai vào tài khoản là một hướng đi tốt

tối thiểu sự chồng chéo

Phương sai giữa lớp của Z là a Ba và phương sai trong lớp aWa Tại đây W

được định nghĩa trước đó, và B là ma trận hiệp phương sai của lớp ma trận trọng

tâm M Lưu ý răng B + W =TT, với T là ma trận hiệp phương sai tong của X, Bỏ

qua thông tin lớp.

Vấn đề của Fisher theo đó tối đa hóa Rayleigh quotient,

aTBa

a a’Wa ( )

Trang 28

°

Hình 1.6 Bốn biểu đồ của các cặp ngẫu nhiên kinh điển

Hoặc tương đương

max a’ Ba phụ thuộc vào a Wa = 1 (1.16)

Đây là vấn đề về trị số đặc trưng tổng quát được đưa ra bởi trị số đặc trưng

lớn nhất của WB Chi đơn giản là tối ưu a; đồng nhất với vị như định nghĩa ở

trên Tương tự như vậy chúng ta có thé tìm ra hướng tiếp theo ap, trực giao trong

W tới ai, như vậy a3 Ba,/aSWa, được tôi đa; giải pháp là a; = vạ, v.v Theo đó

ar được gọi là biệt thức tọa độ (không nên nhằm lẫn với các chức năng biệt thức) Chúng cũng được gọi là các biến ngẫu nhiên kinh điển Nguồn gốc thay thế của những kết quả này là thông qua phân tích tương quan của ma trận chỉ thị Y trên

ma trận dự đoán X Tóm lại:

Trang 29

- _ Chỉ băng việc đếm khoảng cách liên quan tới các trọng tâm, chúng ta có thé

giới hạn dữ liệu vào không gian con kéo dài bởi các trọng tâm trong không

gian cầu.

- _ Không gian con này có thé được tiếp tục phân tách ra thành các không gian

con nhỏ hơn qua việc tách trọng tâm Sự phân tách này giống hệt với Fisher.Việc giảm không gian con được xem như giảm dit liệu bang công cụ Chúng

cũng có thể được sử dụng đề phân loại băng cách hạn chế khoảng cách tới trọng

tâm tính toán dé chọn không gian con chúng ta có thể xem đây là một quy tắc

phân loại Gaussian với những hạn chế bổ sung mà các trọng tâm của Gaussian

năm trong một không gian con L chiều của IR?.

Phân loại Gaussian gọi là Hệ số hiệu chỉnh log 7x trong việc tính toán chiều

Lý do cho điều chỉnh nay có thé thay trong Hình 1.7 Tỷ lệ phân loại sai được tính

toán dựa trên diện tích chồng chéo giữa hai mật độ Nếu z đều bằng nhau (ngầmtrong hình đó), sau đó cắt điểm tối ưu là nằm giữa các hình chiếu trung bình Nếu

z không bằng nhau, di chuyên cắt điểm cắt về phía lớp nhỏ hơn sẽ cải thiện ty

lệ lỗi Như đã đề cập cho hai lớp trước đó, chúng ta có thể lấy được các quy tắc

tuyến tính sử dung LDA (hoặc bat kỳ phương pháp nao khác), sau đó chọn điểmcat dé giảm thiểu lỗi phân loại sai so với dit liệu huấn luyện

Trang 30

=

`8.

2 :

E | —— Dữ liệu kiêm tra |

5 | Dữ liệu đào tạo |

Trang 31

Ví dụ về lợi ích của việc hạn chế giảm thứ hạng là các dữ liệu nguyên âm.

Có I1 lớp và 10 biến, theo đó có thể phân ra 10 chiều chúng ta có thể tính toán huấn luyện và kiểm tra lỗi trong mỗi bậc không gian con; Hình 1.8 cho thấy kết quả Hình 1.9 cho thấy ranh giới quyết định của phân loại dựa trên giải pháp LDA

hai chiều Lưu ý rằng trong bat kỳ không gian con có nhiều chiều hơn, ranh giới

quyết định là các vùng affine chiều cao hơn, và không thé biểu diễn được dưới dạng đường thăng như Hình 1.9.

Đây là một liên kết chặt chẽ giữa phân tích biệt thức giảm thứ hạng củaFisher và suy giảm của một ma trận đáp ứng chỉ thị Nó chỉ ra rằng số lượng LDAhồi quy tiếp theo là một sự tự phân hủy của PTY Trong trường hợp hai lớp, có

một biến biệt thức duy nhất dé nhận dạng qua một phép nhân vô hướng tới một trong các cột của Ÿ Thực tế là néu một biến đôi du đoán gốc X đến Y, thì sử dụng

Ÿ dé nhận dang LDA không gian gốc.

1.5 Phương pháp biến đổi chiều dữ liệu

Cả hai ánh xạ tự tô chức, các đường cong gốc và các điểm đữ liệu ánh xạ bề

mặt trong IR? tới một đa tạp thấp chiều Phương pháp biến đổi chiều dữ liệu (Multidimensional Scaling - MDS) có một mục tiêu tương tự, nhưng cách tiếp cận theo một cách khởi đầu khác, dug sử dụng dé giảm chiều dữ liệu hay nén dữ liệu,

kỹ thuật này chuyền dữ liệu từ không gian nhiều chiều về không gian thấp chiều

hon dé xử ly.

Ta bat đầu với các quan sát xị, Xa, , Xn € IR”, Và dj là khoảng cách giữa

các quan sát i và J Thường thì chúng ta chọn khoảng cách Euclide dị = ||xi - xị||,

hoặc có thể chọn loại khoảng cách khác Hơn nữa, trong một số ứng dụng chúng

ta có thé thậm chí không có sẵn các điểm dit liệu x;, nhưng chỉ có một vai dụ đo lường không giống nhau Ví dụ, trong một thí nghiệm nếm rượu vang, dụ có thể

là sự khác biệt của các loại rượu vang khác nhau i và J, nó tao ra các cặp rượu

vang i, j MDS chỉ đòi hỏi các dị không giống nhau, trái ngược với ánh xa tự tổ

chức, các đường cong gốc và các bề mặt cần các điểm dữ liệu x;

Phương pháp biến đổi chiều đữ liệu tìm giá trị z¡, Zo, , zn € IR‘ dé giảm

thiểu hàm nhân như Công thức 1.17

Sw(Z1,Za, ZN) = > di — |ÌZ¡ — zi lI)? (1.17)

isi!

Đây chính là bình phương nhỏ nhất hoặc là biến đổi Kruskal-Shephard Y

tưởng là dé tìm một đại diện thấp chiều của dit liệu dé giữ khoảng cách có thé của

cặp dữ liệu Chú ý rằng x4p xỉ là về khoảng cách hơn là khoảng cách bình phương

(kết quả của slightly messier algebra) Theo đó, Thuật toán giảm độ dốc được sử

dụng dé giảm thiểu Sy

Trang 32

Một tính toán dự trên biến đổi bình phương (gọi là Ánh xạ Sammon):

SŠsm (Z1,Z2, Zu) = » ae = Wa ze" (1.18)

isi’ ii!

Tầm quan trọng của nó là đưa vào bao vệ các khoảng cách cặp nhỏ hơn.

Trong biến đôi cổ điển, chúng ta thay vì bắt đầu với s¡: Thông thường chúng

ta sử dụng hàm nội trọng tâm s¿¡; = (x; — X, x," — X) Van dé sau đó là dé tối thiểu hóa Công thức 1.19 qua z1, Z, , Zn € IR“ Đây là một giải pháp rõ ràng về vector

riêng Nếu chúng ta có khoảng cách chứ không phải hàm nội, chúng ta có thể

chuyền đổi chúng sang hàm nội trung tâm nếu các khoảng cách là Euclide Nếu

những điểm tương đồng trên thực tế là hàm nội trung tâm, biến đổi cô điển làtương đương chính xác với thành phan chủ yếu, là một kỹ thuật giảm chiều tuyếntính Biến đổi cổ điển không phải là tương đương với biến đổi bình phương nhỏ

nhất; các hàm bị mat là khác nhau, và các ánh xạ có thé là không tuyến tính.

Se(u,Z2,« Z8) = À (Sut — (ei — 5,2, = 2)? (1.19)

ii!

K h = `

' e m kì ry

Toa độ MDS thứ hai

Toa d6 MDS dau tién

Hình 1.10 Tọa độ hai chiều cho dữ liệu nửa hình cẩu.

Bình phương nhỏ nhất và biến đổi cô điển được xem như là phương phápbiến đổi hệ mét, mang lại ý nghĩa rang ban chất của tương đồng hay bất tươngđồng chính là xấp xi Biến đổi phi hệ mét Shephard-Kruskal chỉ được dùng dé sắpxếp, phân loại Biến đổi phi hệ mét được sử dụng dé tim cách hạn chế tối đa hàmnhân tại Công thức 1.20 qua z và một hàm tăng tùy ý 9 Với 9 cố định, chúng ta

Trang 33

hạn chế tối đa trên z¡ bởi giảm độ dốc Với z¡ cố định, phương pháp hồi quy đăng trương được sử dụng dé tìm ra xấp xi đơn điệu nhất 0(d) đến ||z; - z;|| Các bước này được lặp cho đến khi tìm ra giải pháp ổn định.

Desi |l2i — Z¿l|— 0? (1.20)

Lisi’ 112i — Zi" ||?

Sum (24) Z2, wy Zu) =

Tương tự ánh xa tự tổ chức và các dữ liệu gốc, phương pháp biến đổi chiều

dữ liệu đại diện đại diện cho mối quan hệ của đữ liệu Các đữ liệu gốc và ánh xạ

tự tô chức còn có thé tạo ra một tập dữ liệu xấp xỉ đữ liệu gốc của một đa tạp thấpchiều, được tham số hóa trong hệ thống tọa độ thấp chiều; các điểm gần nhautrong không gian đặc trưng ban đầu sẽ ánh xạ gần nhau trên đa tạp, nhưng điểmcách xa nhau trong không gian đặc trưng cũng có thé được ánh xạ với nhau, dam

bảo giữ gìn tất cả các cặp khoảng cách.

Hình 1.10 cho thay hai MDS đầu tiên từ biến đổi cô điển cho ví dụ nửa hình

cầu Có tách biệt rõ ràng của các cụm, tính chất chặt chẽ của cụm đỏ là rõ ràng.

Trang 34

CHƯƠNG2 CÁC GIẢI THUẬT HỌC MÁY PHÂN LỚP

2.1 Mạng Perceptrons nhiều tang

Perceptrons nhiều tầng thường gọi là mạng MLP (MultiLayer Perceptrons)

Đây là loại mạng thông dụng nhất dé hồi quy hàm nhiều biến.

2.1.1 Kiến trúc mạng

MLP là mạng truyền tới nhiều tầng có các nốt nhận tín hiệu đầu vào băng SỐ,

có hai hoặc nhiều tầng noron với hàm tổng hợp trong các noron như Công thức

2.1.

k

s=n=) w,wx, + 0 (2.1)

i=1

Các ham chuyền có thé có dạng khác nhau Một mang có d tín hiệu vào và

M tang noron thứ i có sỉ noron chúng ta nói mạng có kiến trúc d — S! — S2 SM,Trường hợp nay chúng ta gọi là mạng (M+1) tang hoặc nói rõ mạng M tang noron.Trong đó, tầng nhận tín hiệu đầu vào là tang vào, tang noron cuối cùng là tang ra,còn các tang noron ở giữa đều gdp chung gọi là tang ân Hình 2.1 mô tả mang

nơron có kiến trúc 6-3-2 tức là có sáu nốt vào, hai tang noron với ba noron tang

ân và hai noron tầng ra

Mạng MLP được dùng dé xp xi/hồi quy hàm nhiều biến và phân lớp mẫu.Khi dung mạng MLP dé xap xỉ hàm thì hàm kích hoạt thường là hàm log_sig hoặc

tanghyperbolic.

Tang vao Tang an Tang ra

Hình 2.1 Kién trúc mang nơ ron truyén tới nhiễu táng.

Trang 35

Lưu ý:

- Tang vào: Nếu hàm đang xét có n biến thì tang này có n+1 nốt trong đó nốt

đầu ứng với giá trị x0 = -1 và trọng số là ngưỡng = 0, mỗi nốt còn lại ứng với

một biến

- Tang ân: Mạng MLP ba tang có thé xem như là một hàm liên tục với sai số bé

tùy ý khi có đủ đữ liệu huấn luyện và số nơron tầng ân phù hơp Tuy nhiên,

việc chọn cấu trúc tầng ân thích hợp nhất đến nay vẫn là bài toán mở Ngoài

ra, nếu số trọng số kết nói quá ít so với dữ liệu quan sát thì sai số lớn, còn néuquá nhiều thì dẫn tới phù hợp trội

- Tang ra: Mỗi noron ở tang ra tương ứng với một hàm Nếu hàm cần xấp xi có

giá trị đầu ra là véc tơ M chiều thì có M noron ở tang ra.

2.1.2 Thuật toán huấn luyện lan truyền ngược

Phương pháp lan truyền ngược (Hình 2.2 ) được sử dụng để xác định cáctrọng số kết nối cho mạng MLP nhờ thuật toán Gradient cực tiểu hoá sai số trung

Ta dùng thuật toán tương tự của Widrow-Hoff, dùng thuật toán gradient cực

tiêu tổng bình phương sai số hay kỳ vọng mau F(x) của biến ngẫu nhiên x:

F(x) = E(eTe) = E((t — a)T(t— a)) (2.4)

nếu $M = 1 thì F(x) = E[Œ — a)?] (2.5)

Trong lần lặp thứ k, kỳ vọng này được xấp xi bởi F(x):

Trang 36

F(x) = (t() — aŒ))”Œ(Œ) — a(k)) = Ye (k) — aj(k))? = e”(k)e() — (26)

trong đó t(k), a(k) và e(k) duoc tinh nhờ vecto tin hiệu vào p(k) lấy ngẫu nhiêu

hoặc tuần tự từ tập mẫu D Các trọng số kết nối ở mỗi tầng nơron m được điều

chỉnh theo công thức:

OF wii (k +1)= wii (k) aum (2.7)

UJ

và b*(k + 1) = bTM(k) — tạm (2.8)

trong đó ơ là tốc độ học

Vòng lặp dừng lại khi sai lệch giữa các trọng số và giá trị ngưỡng nhỏ hơn

một giá trị e đủ bé cho trước Các trọng số ban đầu và giá trị ngưỡng được khởi

tạo tùy ý.

Nhược điểm quan trọng của phương pháp lan truyền ngược là thường chỉ cho

lời giải gần đúng của cực trị địa phương va mất nhiều thời gian huấn luyện Dé

khắc phục nhược điểm, chúng ta có thê khởi tạo ngẫu nhiên nhiều bộ giá trị ban

đầu cho các trọng số và giá trị khuynh hướng, sau khi huấn luyện thì chọn lời giải sao cho sai số trung bình phương nhỏ nhất.

2.2 Mạng nơ-ron tích chap

Mạng nơ ron tích chập đã được nghiên cứu và phát triển trong thập kỷ thông qua một loạt các lĩnh vực liên quan đến nhận dạng mâu; từ xử lý hình ảnh đến nhận dạng giọng nói Các khía cạnh có lợi nhất của CNN là giảm số lượng các

tham sô trong ANN Thành tựu này đã khiến các nhà nghiên cứu và các nhà phát

triển tiếp cận mô hình lớn hơn để giải quyết các nhiệm vụ phức tạp, không thể

giải với các ANN cô điền.

Hình 2.3 Các tính năng tự học của mạng nơ ron tích chập

Trang 37

Gia định quan trọng nhất về vấn đề được giải quyết bằng CNN không có các

tính năng không gian phụ thuộc Nói cách khác, ví dụ, trong một ứng dụng nhận diện khuôn mặt, chúng ta không cần phải chú ý ý đến nơi khuôn mặt đang năm trong hình ảnh Quan trọng nhất là phát hiện ra vị trí của chúng trong hình ảnh Một

khía cạnh quan trọng khác của CNN là có được các tính năng trừu tượng lan truyền

tới các lớp sâu hơn Ví dụ, trong phân loại hình ảnh, mép có thể được phát hiệntrong các lớp đầu tiên, và sau đó các hình dạng đơn giản hơn trong các lớp thứ

hai, và sau đó là các tính năng cấp cao hơn chăng hạn như khuôn mặt trong các

lớp tiếp theo như trong Hình 2.3

2.2.1 Các thành phan của Mang nơ ron tích chập

Dé có thé hiểu được về CNN, chúng ta bắt đầu với các thành phan cơ bản của nó.

2.2.1.1 Tích chập

Giả thiết đầu vào của mạng no ron có hình dang như trong Hình 2.4 Nó có thé

là một hình ảnh (ví dụ màu sac hình ảnh của một tập dữ liệu CIFAR-10 có chiều

rộng và chiều cao của 32x32 pIxel, độ sâu ba trong kênh RGB ) hoặc một đoạn video (video màu xám quy mô có chiều cao và chiều rộng là độ phân giải, và độ

sâu là khung) hoặc thậm chí một video thử nghiệm, trong đó có chiều rộng và chiều cao của (x L) giá trị cảm biến L, và chiều sâu có liên quan với nhau khung thời gian.

Tại sao lại là tích chập? Giả thiết mạng nhận pixel thô ở đầu vào Theo đó,

dé kết nối các lớp đầu vào tới chỉ một no ron (vi dụ như lớp ân trong Da lớp

Perceptron), cần có kết nối trọng số 32x32x3 cho tập dit liệu CIFAR-10

Hình 2.5 Tich chập như là phan bù lam mạng trở nên day đủ

Trang 38

Nếu chúng ta thêm một nơ ron vào lớp â an, chúng ta sẽ cần một kết nối trọng

số 32x32x3, tổng số là 32x32x3x2 Đệ rõ ràng hơn, hơn 6000 tham số trọng số

được sử dụng dé kết nối đầu vào chỉ cần có hai nốt Có thể nghĩ rằng hai no ron

không đủ cho bắt kỳ xử lý hữu ích đối với ứng dụng phân loại hình ảnh Đề hiệu quả hơn, chúng ta có thê kết nối các hình ảnh đầu vào tới các nơ ron trong lớp tiếp

theo với các giá trị tương tự cho chiều cao và chiều rộng Có thé giả định mang

này được áp dụng cho các loại xử lý mép ảnh Tuy nhiên, mạng cần ma trận

32x32x3 / 32x32 kết nối trọng số (băng 3.145.728)

Do đó, tìm kiếm một phương pháp hiệu quả hơn, thay vì một kết nối đầy đủ,

chúng ta chỉ cần tìm kiếm khu vực địa phương trong hình thay vì trong toàn bộ

hình ảnh Hình 2.5, cho thấy một kết nối trong khu vực cho các lớp tiếp theo Nói

cách khác, các nơ ron ân trong lớp tiếp theo chỉ nhận được đầu vào từ các phần

tương ứng của lớp trước Ví dụ, nó chỉ có thê được kết nối với nơ ron 5x5 Do

vậy, nêu chúng ta muốn có 32x32 nơron trong lớp tiếp theo, sau đó chúng ta sẽ có

ma trận 5x5x3 / 32x32 kết nối tương đương với 76.800 kết nối (so với 3.145.728

cho kết nối đầy đủ).

Box blur 1

(normatizecy °

* a 2

Gaussian bDiur 1 = (approximation) 16 = =

Hình 26 Hiệu ứng của ma trận hội tụ khác biệt

Hình 2.7 Bộ lọc moi lop

Trang 39

Mặc dù kích thước của kết nỗi giảm đáng kể, no van dé lai rất nhiều tham số

để giải quyết Đơn giản là để giữ cho trọngsô kết nối cục bộ cô định cho toàn bộ

nơ ron của lớp tiếp theo Điều này sẽ kết nối các nơ ron hàng xóm trong lớp tiếp theo với chính xác cùng một trọng lượng đến khu vực cục bộ của lớp trước Do

đó, một lần nữa bỏ đi nhiều tham số phụ, và làm giảm sé lượng trong sô chỉ 5x5x3

= 75 dé kết nối 32x32x3 no ron và 32x32 trong lớp tiếp theo.

Có rất nhiều lợi ích cho các giả định đơn giản Đầu tiên, số lượng kết nỗi

giảm từ khoảng 3 triệu xuống chỉ còn 75 kết nối như trong ví dụ đã trình bày Thứ

hai, và một khái niệm thú vị hơn, đó là sửa chữa các trọng số cho các kết nối cục

bộ cũng tương tự như trượt một cửa số 5x5x3 trong nơ ron đầu vào và ánh xạ đầu

ra đến nơi tương ứng Nó cung cấp một cơ hội dé phát hiện và nhận ra tính năng không phụ thuộc vi trí cua chúng trong hình ảnh Đây là ly do tại sao chúng được

gọi là tích chập.

Dé hién thị các hiệu ứng của ma trận tích chập, Hình 2.6, mô tả những gì sẽ xảy

ra nếu chúng ta tự chọn trọng số kết nối trong một cửa số 3x3 Ma trận có thể

được thiết lập dé phát hiện các cạnh trong hình ảnh Các ma trận này cũng được

gọi là một bộ lọc vì chúng hoạt động giống như các bộ lọc cổ điển trong xử lý

ảnh Tuy nhiên, trong mạng nơ ron tích chập các bộ lọc này được khởi tạo, tiếp theo được huấn luyện lọc, đảm bảo phù hợp cho các nhiệm vụ nhất định.

Dé thực hiện phương pháp này có lợi hơn, chúng ta có thé bổ sung thêm các

lớp sau lớp đầu vào Mỗi lớp có thê được liên kết với các bộ lọc khác nhau Do

đó, chúng ta có thể trích xuất các tính năng khác với hình ảnh nhất định Hình 2.7, cho thấy cách thức chúng được kết nối với các lớp khác nhau Mỗi lớp có bộ lọc

riêng của minh và do đó chiết tính năng khác nhau từ đầu vào Các nơ ron trongHình 2.7 sử dụng một bộ lọc khác nhau, nhưng nhìn vào cùng một phần của hình

ảnh đầu vào.

2.2.1.2 Bước nhảy

Trong thực tế, CNN có, nhiều lựa chọn để giảm càng nhiều các tham số, và

đồng thời làm giảm một số ảnh hưởng phụ Một trong những lựa chọn là Bước

nhảy Trong ví dụ nêu trên, nó chỉ đơn giản là cho răng nốt các lớp tiếp theo của

có nhiều chồng chéo với láng giéng cua no bang cach nhin vao khu vuc chung ta

có thé thao tác các chồng chéo bằng cách kiểm soát Bước nhảy.

Hình 2.8, cho thấy một hình ảnh 7x7 Nếu chúng ta di chuyên các bộ lọc một

nốt mọi thời gian, chúng ta có thể chỉ có một đầu ra 5x5 Lưu ý răng đầu ra của

ba ma trận trai trong Hình 2.8, có một cái bị chồng chéo (và ba cái giữa và ba cái

bên phải cũng vậy) Tuy nhiên, nếu chúng ta di chuyên và làm cho mỗi Bước nhảy băng 2, sau đó đầu ra sẽ được 3x3 Một cách đơn giản, không chỉ chồng chéo, kích thước của đầu ra sẽ được giảm.

Trang 40

Hình 2.8 Cửa sổ lọc cho mỗi bước nháy.

Phương trình (2.9), chính thức hóa, cho ảnh NxN kích thước và kích thước bộ lọc của FxF, sản lượng kích thước O như Hình 2.9.

với N = 7 và F= 3 và bước nhảy = 1, đầu ra sẽ còn 5x 5 (co lại từ một đầu vào

7x7).

Tuy nhiên, bang cách thêm một zero-padding, dau ra sẽ là 7x 7, bang đầu

vào gốc (Sử dụng Công thức (2.9): N trở thành 9; Công thức (2.10): Bao gồm

zero-padding).

N+2P-F

Trong do, P la số lượng các lớp của zero-padding (vi du P = 1 trong Hình 2.10).

Y tưởng vùng đệm nay giúp chúng ta ngăn ngừa kích thước đầu ra bị thu hẹp với

chiều sâu Do đó, nó có thê có bất kỳ số lượng mạng nơ ron tích chập sâu.

Định dạng
Số trang	80
Dung lượng	22,44 MB