- Triển khai thực nghiệm để đánh giá hiệu năng của một số thuật toán học biểu diễn được sử dụng trong các thuật toán phân lớp: cây quyết định Decision Tree Classifier/Classification and
Trang 1TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYEN MANH THANG
LUẬN VĂN THAC SĨ HE THONG THONG TIN
Hà nội - Năm 2023
Trang 2TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYEN MANH THANG
Ngành: Hệ thống Thông tinChuyên ngành: Hệ thống Thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ HỆ THÓNG THÔNG TIN
NGƯỜI HƯỚNG DAN KHOA HỌC: TIEN SĨ BÙI NGỌC THANG
Hà nội - Năm 2023
Trang 3LỜI CAM ĐOAN
Luận văn nay là công trình nghiên cứu của ca nhân tôi, được thực hiện dưới
sự hướng dẫn khoa học Tiến sĩ Bùi Ngọc Thăng tai Khoa Công nghệ Thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Các số liệu, những kết
luận nghiên cứu được trình bày trong luận van này hoan toàn trung thực Moi sự
giúp đỡ cho việc thực hiện luận văn này đã được cám ơn và các thông tin trích
dẫn trong luận văn đều được ghi rõ nguồn góc.
TÁC GIÁ
NGUYEN MẠNH THANG
Trang 4LOI CAM ON
Luan văn được thực hiện tai Khoa Công nghệ Thông tin, Trường Dai học
Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của Tiến sĩ Bùi Ngọc
Thăng.
Trước tiên, tôi xin bày tỏ lòng biết ơn chân thành tới Tiến sĩ Bùi Ngọc Thăng.
Dé tôi có thé hoàn thiện luận văn nay, Thay đã giúp tôi từ định hướng nghiên cứu tới hướng dẫn tìm kiếm tài liệu, cũng như dành thời gian để giải thích những van
đề khó trong việc viết luận văn.
Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo trong khoa CNTT
đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu
Ngoài ra, tôi xin gửi lời cảm ơn tới các đồng nghiệp đã tạo điều kiện giúp đỡ
tôi về mặt thời gian cũng như sắp xếp công việc trong quá trình tôi làm luận văn.
Tôi cũng cảm ơn tat cả bạn bè, những người đã giúp đỡ và hỗ trợ trong suốt
quá trình thực hiện.
Cuối cùng, tôi xin gửi lời cảm ơn chân thành tới gia đình, bố mẹ tôi, anh chị
em, đặc biệt là vợ của tôi, những người đã động viên, tạo mọi điều kiện thuận lợi
để tôi có thể hoàn tất luận văn này.
Trang 5DANH MỤC TU VIET TAT VÀ GIẢI NGHĨA TỪ Vv
DANH MỤC HINH ANB che Vii DAT 2.9062 |
CHƯƠNG 1 CÁC PHƯƠNG PHÁP GIẢM CHIEU DU LIỆU 2
1.1 Lich sử hình thành và phát triÊn ¿5 5+ +5 s*++s>+ev>+s2 2 1.2 Các phương pháp học đặc trưng - 55+ ++<ss++ss++sss+ 3
1.2.1 Học đặc trưng truyền thống 2-2 scs+xe+Ee+resrsee 3
1.2.1.1 Hoc đặc trưng toản CỤC 55c + Ss+sveeeeeeerrsrsrs 4
II Ngài 434 6 1.2.2 HOC Sâu L2 SH 1 vn ng vn 6
1.2.2.1 Mô hình hoc sâu 22-522 22221 **£+22eszeeeeerzss 7 1.2.2.2 Công cụ học sÂu - - «+ + sk*x** Eksrkesrkeererexre 8
1.3 Phép phân tích thành phần chính - 2-52 ©522s2+ss+zs+cs+ẻ 91.4 Phép phân tích biệt thức tuyến tính -2©sz+ss+sscsz 11
1.4.1 Phan tích biệt thức chính quy 55555 s+++s++sxs+sscsss 16
1.4.2 Tính toán LŨA - - 11k HH HH HH re 17
1.4.3 Giảm chiều dữ liệu LDA .-:ccccscccccrrxerrrrersree 171.5 Phương pháp biến đổi chiều dữ liệu - 2-2-5: 22
CHƯƠNG 2 CÁC GIẢI THUẬT HOC MAY PHAN LỚP 25
2.1 Mạng Perceptrons nhiều tầng 2- 2-52 2+xezxe£xzEzEerrees 25
2.1.1 Kiến trúc mạng -¿- 2© ©E+2E2EE2EEEEEEEEtEEEEEEErrrrred 252.1.2 Thuật toán huấn luyện lan truyền ngược - 26
2.2.2 Phi tuyến tính - -©sSs+EE+E2+EEEEEEEEEE2E21711111 11c, 33
2.2.3 GOp lỚp SH ST TH HH HH HH, 33
2.2.4 Lớp được kết nối đầy đủ ¿©-¿+cz+cxerkerkrrrrrrerrred 342.2.5 Kiến trúc CNN phổ biến 2- 2-52 2+E£EeEs+EzEzxerxee 35
2.2.5.1 LeN€t QQnnnnn HH ST ST ng ng ng ng ng ng g2 x22 35
Trang 6"Y2 na ẦẳỐẳố Ỏ 35
2.3 Mô hình biến ấn tuân theo quá trình ngẫu nhiên Gaussian 35
2.3.1 Lồng ghép biến ân, tối ưu tham sỐ -2©2 22s s2 36
2.3.2 Lồng ghép tham số, tối ưu biến ân -2-2 s+cscs2 362.3.3 Mô hình xử lý biến An Gaussian 2 5¿©5¿+ce+csccsa 37
2.3.3.1 Minh họa GPLVM qua SCG - 5 55+ 5< <+<<++ 38
2.3.3.2 Thuật toán cho GPLVMs Ặ G 2c SSScSsseseeke 39
2.4 Mạng Chống đối Tạo sinh - 2- + 2+ z+E££EeEeEzEzxersees 4I
2.4.1 Các nghiên cứu liên quan - c5 55 S5 ‡ + s+sexseexseeesss 42
2.4.2 Mạng chống đối 2 2+ E2 2121112112111 44
2.4.3 Tối ưu toàn cục của "=”, 45
"xu an 46
2.4.5 Một số nhận xét -.ccc-cctttttrtrirrrtirrrrrrirrrrrirrrrrrre 48 2.4.6 Tổng KẾt - St cctTETE1111111110111111111111 11111 11x 49
CHƯƠNG 3 PHAN TÍCH, ĐÁNH GIÁ THỰC NGHIỆM 50
3.1 Bài toán thử nghiỆm - c5 332113 ESreererrerrererres 50 3.2 Môi trường thử nghiệm - - - + + + + +vevveereeerererees 50
3.2.3.3 Ứng dung thuật toán giảm chiều LDA - 55
3.2.3.4 Ứng dụng thuật toán giảm chiều MDS - 56
3.2.3.5 Sử dung mô hình MILP -. 55+ 55+ + ++eex+eexes2 57
3.2.3.6 Sử dụng mạng CNN -Ă cty 57
3.2.3.7 Ứng dụng mô hình GPLVM 25c s +2 58 KẾT LUẬN ¬— ÔỎ 60
IV.)00/01005729/8.96/.(900a'- 63
PHU LUC - LẬP TRINH TREN PYTHON ¿2 +s+z+zszE+E+zszsz 65
Trang 7DANH MỤC TU VIET TAT VÀ GIẢI NGHĨA TỪ
Từ viết tắt + CÁ tài nohŸ
Từ/Cụm từ Từ gôc Giải nghĩa
AIS Agency Information Hé thống nhận dạng tự độngSystem
ANN Artificial neural networks | Mang no ron nhan tao
Convolutional - nas R
CAE autoencoder architecture Bộ mã tự động tích chập
CNN Convolutional neural Mạng nơ-ron tích chập
networks
DBN Deep belief network Mạng tin sâu
DNN Deep Neural Network Mang nơ-ron có nhiều tầng an
DGPLVM Discriminative GPLVM GPLVM phan biét
GAN Generative adversarial Mang chéng déi tao sinh
network
Generalized discriminant | Phân tích chính quy hóa biệt
GDA ,
analysis thức
GMRF Gaussian Markov random | Mô hình ngau nhién theo phan
field bo Gaussian Markov
GPGPU General purpose graphics | Lá: vụ lý đồ họaprocessing unit - :
Gaussian process latent Mô hình ngau nhiên ân tuân
GPLRF P theo quá trình ngẫu nhiênrandom field
LDA ,
analysis tinh
LLE Locally linear embedding | Nhung tuyên tính cục bộ
MCMC Markov chain Monte Phuong phap xich Markov
Carlo Monte Carlo
MDS Multidimensional scaling Phuong pháp bien đôi chiêuđữ liệu
MFA Marginal fisher analysis Phan tich Fisher theo bién
MLP Multi-layer perceptron Mang Perceptron nhiéu tang
The mean log-likelihood | Trung bình của các mẫu trên
MNIST ^_ TẢ
of samples on test set tap kiém tra
Trang 8PCA Principal component Phép phan tich thanh phan
QDA Quadratic discriminant Ham biệt thức bac hai
functions
RBF kernel Radial basis function Ham nhân co sở xuyên tamkernel
ReLU Rectified linear unit Khối sửa tuyến tính
RFC Ranom forest classifier Rừng ngẫu nhiên
RNN Recurrent neural network | Mạng nơ ron hồi quy
SCG Scaled conjugate gradients | Ham dốc quy mô liên hợp
SIFT Seale-invariant feature | én đổi bat biến theo tỷ lệtransform
Stochastic neighbor ro dA x "
SNE embedding Nhung lân can ngau nhiên
SVD Singular value Phan tich gia tri don tri
SVM Support vector machine Máy véc tơ hỗ trợ
TFD Toronto face database Bo dữ liệu nhận dạng khuônmặt của Toronto
VAE Variational autoencoders | Bộ giải mã biến tự động
Trang 9DANH MUC HiNH ANH
Hình 1.1 Hai vectơ riêng cua ma trận hiệp phương sa1 10
Hình 1.2 Biểu đồ dit liệu huấn luyện nguyên âm +: II
Hình 1.3 Phan bố Gaussian -2-22+22+c++EEeEEeEEerErEerrxrrsrred 13
Hình 1.4 Ranh giới bậc hai của LDA và QDA -s<s<<+>+ 15
Hình I.5 Kiểm tra và huấn luyện lỗi cho dữ liệu nguyên âm 16Hình I.6 Bốn biểu đồ của các cặp ngẫu nhiên kinh điển 19
Hình 1.7 Phương saI 5 S22 E S23 ESEEsekerererrerrrvee 20
Hình 1.8 LDA và giảm chiều trên dữ liệu nguyên âm 21
Hình 1.9 Ranh giới quyết định cho dữ liệu huấn luyện nguyên am 2 Ï Hình 1.10 Tọa độ hai chiều cho dữ liệu nửa hình câu 23
Hình 2.1 Kiến trúc mạng nơ ron truyền tới nhiều tầng 1 25
Hình 2.2 Huấn luyện lan truyền ngược -2- ¿se sz+zz+cxz 26 Hình 2.3 Cac tính năng tự học của mạng nơ ron tích chập 27
Hình 2.4 Ba chiều được biểu diễn bởi mang no ron tích chập 28Hình 2.5 Tích chập như là phần bù làm mang trở nên day đủ 28
Hình 2.6 Hiệu ứng của ma trận hội tụ khác biỆt - 555 5+ 29
Hình 2.7 BO lọc mỗi lớp - 2 5+2 +E+E£EE£EEEEEEEEEEErEerxrkerkred 29
Hình 2.8 Ctra số loc cho mỗi bước nhảy - 2 2s sec+£zEzzerxee 31Hình 2.9 Hiệu quả của bước nhảy ở đầu ra -. -2©-2©5255s+cs+cs2 31
Hình 2.10 — Zero-padding ee eee eeeceesscesececeeeneceseceeeeeeeeceeeeeneeeneesseeesees 32
Hình 2.11 Cac lớp mang nơ ron tích chập sâu ảo - 32
Hình 2.12 Các kiểu thông thường của phi tuyến tính 33
Hình 2.13 Biểu diễn Max-pooling với bộ lọc 2x2, bước nhảy bang 2.34
Hình 2.14 Day đủ kết nối LOp vee ceccsccescessessessessessesseesessesseens 34
Hình 2.15 Mang LeNet theo Yan LeCun «- 5+5 «++<£++x++ 35
Hình 2.16 | Mang AlexNet theo Krizhevsky 2014 +5- 35
Hình 2.17 Hình ảnh của dit liệu dầu 2 s2 s+cs+xz+xerxeẻ 38Hình 2.18 Hinh anh dữ liệu dong chay dầu day đủ 40
Hình 2.19 Hình ảnh chữ số nhìn thấy trong không gian ân 2-D 40 Hình 2.20 Các khuôn mặt tưởng tượng tai mô hình 1-D 4I
Hình 2.21 Mạng chống đối tao sinh -2-5¿©cs+cxe+zzccsce 44Hình 2.22 Hình ảnh của mẫu từ mô hình - : s:+-++cs++¿ 47
Hinh 2.23. Mau lay từ mang tao sinh sau khi huấn luyện 48
Trang 10ĐẶT VÁN ĐÈ
Sự thành công của các thuật toán học máy thông thường phụ thuộc cách biểu
diễn dữ liệu Học máy đã tạo ra một sự thay đổi lớn trong các hệ thông phân cấp,
phân cụm, hồi quy và nhận dạng khi có một phương pháp biểu dữ liệu hoặc trích
chọn đặc trưng tốt (biéu diễn dữ liệu tốt) Tuy nhiên, các nhà nghiên cứu thường
dựa vào tri thức có sẵn hoặc đóng góp của các chuyên gia (tích lũy từ thực nghiệm
và quá trình nghiên cứu) để thiết kế hoặc tìm kiếm các đặc trưng biéu diễn dữ liệu
Một câu hỏi khoa học đặt ra là “Liệu có thể tự động hóa việc học ra các đặc trưng
hữu ích từ tập dữ liệu thô?”.
Trong quá trình làm việc tại một doanh nghiệp viễn thông lớn nhất Việt Nam,
có nhiều bài toán cần có sự tham gia nghiên cứu chuyên sâu về dữ liệu lớn thông
qua các phương pháp học biểu diễn dé liệu
Cho đến nay, các nhà nghiên cứu đã đề xuất rất nhiều thuật toán học biểu
diễn dit liệu dé giải quyết các bài toán học không giám sát, hoc bán giám sat và
các bai toán giám sát Việc hệ thống lại các thuật toán học biểu diễn là việc cầnthiết giúp cho người nghiên cứu có cách nhìn tổng quan từ các thuật toán học biéu
diễn cơ bản đến các thuật toán học phức tạp Vì vậy, luận văn tập trung trình bày
các nội dung sau:
- _ Trình bay tong quan về các phương pháp giảm chiều dữ liệu dé xử lý các bài
toán phân cụm, phân lớp và hồi quy.
- Trinh bày các giảm chiều đữ liệu trong các bài toán phân lớp, các thuật toán
học đặc trưng an.
- Triển khai thực nghiệm để đánh giá hiệu năng của một số thuật toán học biểu diễn
được sử dụng trong các thuật toán phân lớp: cây quyết định (Decision Tree
Classifier/Classification and Regression Trees — CART), Support Vector Machine
(SVM), Rừng ngẫu nhiên (Random Forest Classifier — RF), Gradient Boosting
Classifier (GBM) vào phan tích, đánh gia trên một tập cơ sở dữ liệu có nguồn tại
kho lưu trữ máy học UCT [https://archive.ics.uci.edu/ml/datasets/adult].
Phan còn lại của luận văn được cấu trúc như sau Chương | nghiên cứu các
phương pháp giảm chiều dữ liệu qua việc tìm hiểu về lịch sử hình thành và phát
triển, các phương pháp học đặc trưng, phép phân tích thành phan chính, phép phân
tích biệt thức tuyến tính, và phương pháp biens đồi chiều dữ liệu Chương 2 xem
xét các giải thuật học máy phân lớp với mạng Perceptron nhiều tang, mạng no ron
tích chập, mô hình biến ấn tuân theo quá trình ngẫu nhiên Gaussian, mạng chống
đối tạo sinh Chương 3 thực hiện phân tích, dánh giá thực nghiệm về hiệu năng
của một số thuật toán học biểu diễn đã nghiên cứu va xem xét tại Chương 1,
Chương 2.
Trang 11CHUONG1 CAC PHƯƠNG PHÁP GIAM CHIEU DU LIEU
1.1 Lich sử hình thành và phát triển
Trong nhiều lĩnh vực, chăng hạn như trí tuệ nhân tạo, viễn thông và côngnghệ thông tin, sinh hoc, tai chính, hoc biểu diễn dữ liệu là một bước quan trọng
dé phân loại, thu thập và đưa ra kiến nghị tiếp theo Theo đó, các ứng dụng có quy
mô càng lớn, việc học cấu trúc nội tại của dữ liệu và khám phá các thông tin có
giá tri từ dir liệu trở nên ngày một quan trọng và đầy thử thách Từ 100 năm trước,
nhiều phương pháp học biéu diễn di liệu đã được đề xuất [1] Cụ thê:
Năm 1901, K Pearson đề xuất phép phân tích thành phần chính (Principal
component — PCA); năm 1936, R Fisher đề xuất phép phân tích biệt thức tuyếntính (Linear discriminant analysis - LDA) PCA va LDA đều là phương pháptuyến tính Tuy nhiên, PCA là phương pháp không có giám sát, trong khi LDA là
phương pháp có giám sát Dựa trên PCA và LDA, nhiều nghiên cứu cải tiễn đã
được đề xuất như kernel PCA và phân tích chính quy hóa biệt thức (Generalized
discriminant analysis - GDA).
Năm 1943, W McCulloch va W Pitts đã tạo ra tế bào no ron nhân tao dau
tiên, đơn vi ngưỡng tuyến tính, mà còn được gọi là Mô hình M-P trong nghiên cứu cho các mạng nơ ron Sau đó, D Hebb dé xuất một giả thuyết về học dựa trên
cơ chế nơ ron mềm đẻo Bản chất, mô hình M-P và Lý thuyết Hebbian mở đường cho nghiên cứu mạng nơ ron và sự phát triển của sự kết nối trong lĩnh vực trí tuệ
nhân tạo.
Năm 1958, F Rosenblatt tạo ra perceptron, một mạng nơ ron hai tầng déphân loại cho 2 lớp Tuy nhiên, M Minsky và S Papert đã chi ra rang perceptronthậm chí còn không có khả năng giải quyết van đề duy nhất (OR/XOR)
Năm 1974, P Werbos đề xuất thuật toán lan truyền ngược huấn luyện
perceptron nhiéu tang (Mulu- layer perceptrons - MLP), nghiên cứu mạng nơ ron
vẫn chưa có thêm tiến triển mới.
Năm 1986, D Rumelhart, G Hinton và R Williams cho thấy rằng các thuật toán lan truyền ngược có thé học các biểu diễn tốt của dữ liệu (useful internal representations of data) trong tang ân của mạng nơ ron Với thuật toán lan truyền ngược, mặc di có thé huấn luyện nhiều lớp mạng nơ ron trong lý thuyết thì vẫn
còn tồn tại hai vấn đề quan trọng: Hiện tượng mô hình quá khớp và tốc độ thay
đổi theo hướng gradient.
Năm 2000, cộng đồng học máy phát động nghiên cứu về học đa tạp(Manifold learning) đã khám phá ra cấu trúc nội tại của đữ liệu nhiều chiều Không
giống như các phương pháp tiếp cận trước đây như PCA và LDA, phương pháp
học đa tạp được dựa trên tính chất cục bộ như lập bản đồ đặc trưng đăng (Isomap
Trang 12- Isometric feature mapping) và nhúng tuyến tính cục bộ (Locally linear
embedding - LLE).
Năm 2006, G Hinton va các cộng su áp dụng thành công các mang no ron
sâu dé giam chiều, va đề xuất khái niệm “hoc sâu” Ngày nay, các thuật toán học
sâu đã được sử dụng trong nhiều lĩnh vực ngoài trí tuệ nhân tạo vì khả năng học của nó Mặt khác, các nghiên cứu về mạng nơ ron nhân tạo phải trải qua một quá
trình khó khăn nhưng cũng đạt được nhiều thành công Những vấn đề khó hiểu
của mạng nơ ron đã được giải quyết kéo theo nhiều thuật toán học sâu được đề
xuất và áp dụng thành công trong nhiều lĩnh vực khác nhau Trong đó bộ mã hóa
tự động đại diện cho một loại học sâu khác nhau Mục tiêu không phải là dự đoán
giá trị đầu ra, mà là tìm một đặc trưng từ đữ liệu đầu vào Điều này cũng được gọi
là giảm chiều dữ liệu (dimensionality reduction) của không gian đặc trưng và giảiquyết vấn đề “hoc vet” phổ biến trong học sâu
Năm 2015, dựa trên việc áp dụng phương pháp của G Hinton và các cộng
sự, LeCun, Bengio, & Hinton đã sử dụng các bộ mã hóa tự động dé giam tap hop
các đặc trưng để tao điều kiện huấn luyện, cải thiện tinh khái quát va kha năng
diễn giải, sử dung làm đầu vào cho DNN, mô hình có thể tránh được overfitting,
tổng quát hóa tốt hơn và mang lại nhiều triển vọng cho các mạng nơ-ron có nhiềutang ân (DNN) Đặc biệt, van dé này đã được các nhà nghiên cứu áp dụng cho dự
đoán bệnh dựa trên sinh học phân tử.
Trong 10 năm gan đây, mô hình phổ biến và cải tiến trong học sâu đó là
Mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) CNN được thiết
kế nhằm mục đích sử dụng trong các bài toán nhận dạng các đối tượng trong ảnh Các CNN tập trung vào việc tóm tắt thông tin bằng một hàm toán học, được gọi
là tích chập, làm giảm đáng ké việc tính toán Do CNN mạnh trong việc xử lý
hình ảnh, các nhà nghiên cứu đã phát triển các phương pháp mã hóa các loại thôngtin khác nhau dưới dạng hình ảnh cho nhiều ứng dụng
Đến nay, thành công nôi bật nhất trong học sâu là các mô hình phân biệt liên
quan Cụ thê là bản đô đa chiêu, đâu vào cảm quan phong phú tới một nhãn lớp.
Thành công đáng chú ý là thuật toán lan truyền ngược và bỏ học thuật toán, sử
dụng các khối tuyến tính theo từng phần cá thê theo hàm độ dốc well-behaved.
1.2 Cac phương pháp học đặc trưng
1.2.1 Học đặc trưng truyền thống
Luận văn này sẽ không đề cập đến các phương pháp thủ công, mang tính kỹ
thuật (như mô tả hình ảnh, đặc trưng thống kê, v.v.) mà tập trung vao thuật toán
học đặc trưng truyền thống thuộc về mô hình “học nông” được sử dụng dé biến
đổi dir liệu, cho phép đơn giản hóa việc trích xuất thông tin hữu ích khi xây dựng
phân loại hoặc đưa ra các dự đoán khác.
Trang 13Từ quan điểm xây dựng, các thuật toán luôn được xem xét ở khía cạnh tuyến tính hoặc phi tuyến, giám sát hoặc không giám sát, phân tích thống kê hoặc giải quyết bài toán tối ưu hóa mục tiêu, toàn cục hay cục bộ Ví dụ, PCA là phương
pháp học biéu diễn tuyến tính, không có giám sát, phân tích thống kê và toàn cục,trong khi LDA là một phương pháp tuyến tính, giám sát, tối ưu hóa mục tiêu và
toàn cục.
Đối với các thuật toán học đặc trưng ở khía cạnh toàn cục hay cục bộ, phươngpháp toàn cục có gắng bảo toàn những thông tin toàn cục của dữ liệu trong khônggian đặc trưng, phương pháp cục bộ tập trung vào việc bảo toàn sự tương đồngtính chất cục bộ giữa các dữ liệu trong quá trình học biểu diễn mới
Van der Maaten, Postma và Van den Herik đã xây dựng các bộ mã cho 34
thuật toán học đặc trưng bằng công cụ MATLAB dé giảm chiều dữ liệu Yan và các cộng sự, giới thiệu một mô hình tổng quát (đồ thị nhúng) dé thống nhất một
nhóm lớn các thuật toán giảm chiều thành một công thức Zhong, Chherawala và
Cheriet so sánh ba loại giám sát phương pháp giảm chiều cho bài toán nhận dạng
chữ viết Zhong và Cheriet trình bày mô hình tông quát từ quan điểm của học học
biểu diễn tensor, trong đó xem xét các đữ liệu đầu vào như tensors và thống nhất
nhiều phương pháp tuyến tính, kernel và chiều tensor
1.2.1.1 Học đặc trưng toàn cục
Như đã đề cập ở trên, PCA là một trong những thuật toán học đặc trưng tuyến
tinh đầu tiên Do sự đơn giản, PCA được sử dụng phân tích thống kê dé giảm
chiều PCA đã sử dụng một biến đổi trực giao dé biến đổi một tập đặc trưng ban
đầu của dữ liệu thành tập đặc trưng mới độc lập, tuyến tính
Phương pháp biến đổi chiều dữ liệu cô điển (Multidimensional scaling
-MDS) cũng tương tự với PCA Ví dụ, cả hai phương pháp tuyến tính được tối ưuhóa bằng cách sử dụng phân tích tập giá trị riêng Sự khác biệt giữa PCA và MDS
là đầu vào của PCA là ma trận đữ liệu, trong khi đó MDS là ma trận khoảng
cach/bat tương đồng giữa các dữ liệu.
Ngoại trừ phân tích tập giá trị riêng, phân tích giá trị đơn trị (Singular value
decomposition - SVD) thường được sử dụng để tôi ưu hóa tốt nhất Phương phápphân tích ngữ nghĩa 4n trong tìm kiếm thông tin được tối ưu hóa bang cách sửdụng SVD, làm giảm số lượng hàng trong khi vẫn bảo toàn cấu trúc tương đồnggiữa các cột (hàng biểu diễn cho các từ và cột biểu diễn cho tài liệu)
Biến thé kernel PCA thực hiện cải tiến PCA dé giảm chiều dữ liệu phi tuyếnbang cách sử dụng ham kernel, trong khi xác suất PCA là một biến thé xác suấtcủa PCA Dựa trên PCA, Lawrence dé xuất mô hình biến ẩn tuân theo quá trìnhngẫu nhiên Gaussian Đây là mô hình xác suất đầy đủ cho biến ân phi tuyến và có
Trang 14thé học một ánh xa phi tuyến từ không gian quan sát tới không gian ban dau Dé
tích hợp thông tin giám sát vào mô hình GPLVM, Urtasun và Darrell đề xuất
GPLVM phân biệt (Discriminative GPLVM).
Tuy nhiên, do DGPLVM dựa trên tiêu chuẩn của LDA hoặc GDA, số chiều
của không gian biến an trong DGPLVM bị giới hạn tối đa bởi C — 1 (với C là số
lớp) Dé giải quyết van dé nay, Zhong và các cộng sự đề xuất mô hình ngẫu nhiên
an tuân theo qua trình ngẫu nhiên Gaussian (Gaussian process latent random field
- GPLRF), bang việc ràng buộc các biến ngầm trở thành một mô hình ngẫu nhiên
theo phân bố Gaussian Markov (Gaussian Markov random field - GMRF) vớimong muốn xây dựng được đồ thị từ những thông tin giám sát Một số biến thé
khác của PCA như PCA thưa, PCA tăng cường và PCA xác suất có điều kiện.
LDA là một phương pháp học đặc trưng tuyến tính giám sát, trong đó việc
ràng buộc dữ liệu thuộc cùng lớp thì gần nhau, thuộc các phân lớp khác nhau thì
cách xa nhau trong không gian con LDA đã được sử dụng thành công trong nhận dạng khuôn mặt, và các đặc trưng mới được gọi là Fisherfaces.
GDA là một cải tiến của LDA băng cách sử dụng hàm nhân Nói chung, LDA
và GDA được học với sự phân tích tập giá trị riêng được chính quy hóa Tuy
nhiên, Wang và các cộng sự chỉ ra rằng giải pháp phân tích tập giá trị riêng đượcchính quy hóa chỉ xấp xỉ với các tập vector đơn trị đối với công thức của LDA
Do đó, họ đã biến đổi biến đổi bài toán tìm tập vector don trị thành một loạt các
tập vector đơn tri khác nhau roi SỬ dụng một thuật toán lặp dé giai quyét.
Jia va các cộng sự đưa ra phương pháp Newton-Raphson cho vấn đề tỷ lệ gốc và có thé chứng minh được hàm mục tiêu Zhong, Shi và Cheriet đề xuất
phương pháp phân tích Fisher mới sử dụng tính chất quan hệ, dựa trên việc xâydựng tập vector đơn trị và khai thác đầy đủ các thông tin quan hệ của dit liệu
Zhong và Ling đã phân tích thuật toán lặp dựa trên việc theo dõi các tập vector
đơn trị và chứng minh các điều kiện cần và đủ đối với các giải pháp tối ưu tập
vector đơn trị Các biến thé của LDA có thể tạo ra như LDA gia tăng, DGPLVM
va phân tích Fisher theo biên (Marginal Fisher analysis - MFA).
Ngoại trừ các thuật toán hoc đặc trưng nêu trên, có rất nhiều phương pháp
học đặc trưng khác, chăng hạn như phân tích thành phần độc lập, phân tích quan
hệ của các biến phạm trù, học trích chọn đặc trưng dựa trên dựa trên phương pháphọc kết hợp, học đặc trưng đa nhiệm, v.v
Dé xử lý trực tiếp dir liệu tensor, nhiều thuật toán hoc biểu dién tensor đã được đề xuất Ví dụ, Yang và các cộng sự đề xuất thuật toán 2DPCA và phân chia
ưu điểm của nó qua PCA trong bài toán nhận dang khuôn mặt Ye, Janardan và
Li đề xuất thuật toán 2DLDA, mở rộng LDA dé học biểu diễn tensor hai mức
Trang 151.2.1.2 Học đa tạp
Phương pháp học đa tạp là phương pháp học đặc trưng dựa trên tính cục bộ.
Hầu hết các thuật toán học đa tạp là các cách tiếp cận giảm chiều phi tuyến hoặc
tuyến tính (vi dụ như ánh xạ bảo toàn tính chất cục bộ va MFA Tuy nhiên, một
số thuật toán giảm chiều phi tuyến không phải là phương pháp học đa tạp, vì chúng
không nhằm mục đích khám phá ra cau trúc nội tại của đữ liệu nhiều chiêu, chănghạn như bản đồ Sammon
Năm 2000, Tạp chi “Science” xuất bản hai bài báo về học đa tạp Bài báo
đầu tiên giới thiệu Isomap kết hợp Thuật toán Floyd-Warshall với MDS cổ điền
Dựa trên lân cận cục bộ của các đối tượng dữ liệu, Isomap tính toán khoảng cach giữa cặp dữ liệu bằng cách sử dụng Thuật toán Floyd-Warshall Sau đó, học không gian đặc trưng mới bằng cách sử dụng MDS cô điên Bài báo thứ hai về LLE, mã hóa các thông tin cục bộ tại mỗi điểm đữ liệu vào việc tái tạo trọng số của các lân
cận.
Sau đó, nhiều thuật toán học đa tạp đã được đề xuất Cụ thé, việc kết hợp các
y tưởng về sự gióng hàng không gian tiếp tuyến cục bộ và Ban đồ riêng Laplacian,
đã tính toán sự tương đồng cục bộ giữa các dữ liệu băng cách sử dụng khoảngcách Euclide trong không gian tiếp tuyến cục bộ và sử dụng Bản đồ riêngLaplacian dé học dữ liệu trong không gian đặc trưng mới
Ngoài các phương pháp nêu trên, một số phương pháp liên quan có thê chú
ý đến như các thuật toán học độ đo, học bán giám sát, học từ điển, và thừa số hóa
ma trận không âm.
1.2.2 Học sâu
Có thê thấy tại lĩnh vực nghiên cứu học sâu đã có rất nhiều nhà khoa học
nghiên cứu như: Bengio đã nghiên cứu về sự trình bầy, nguyên tắc và một số thuậttoán quan trong của học sâu; Bengio, Courville và Vincent, từ quan điểm của họcbiểu diễn, xem xét tiễn trình của học đặc trưng va học sâu; LeCun, Bengio vàHinton giới thiệu sự phat triển của học sâu và một số mô hình học sâu quan trọng
bao gồm mạng nơ ron tích chập và mạng nơ ron hồi quy; Schmidhuber xem xét
sự phát triển của mạng nơ ron nhân tạo và năm học sâu theo từng năm
Ngoài ra, các thuật toán học sâu cũng có thé được tìm thấy ở nguồn tai liệu
trên Internet Nguồn thứ nhất là từ Khóa hoc Coursera giảng dạy bởi Giáo sư
Hinton Khóa học này là về mạng nơ-ron nhân tạo và chúng đang được sử dụngnhư thé nao cho học máy Nguồn thứ hai là từ hướng dẫn về học đặc trưng khônggiám sát và học sâu, được cung cấp bởi một số nhà nghiên cứu trên trang web củaĐại học Stanford Ngoại trừ kiến thức cơ bản về các thuật toán học đặc trưngkhông giám sát và học sâu, hướng dẫn này bao gồm nhiều bài tập Do đó, nó khá
Trang 16được học sâu và lập trình bằng mô hình), hay trang blog CSDN hoặc trên
Wikipedia, v.v Cuối cùng, cuốn sách học sâu của Giáo sư Goodfellow, Bengio
và Courville, được xuất bản bởi MIT Press Có thể download miễn phí phiên bản
điện tử trên trang web sách học sâu Các khóa học, hướng dẫn, blog, v.v này có
hướng dẫn chỉ tiết về lý thuyết thuật toán học sâu
1.2.2.1 Mô hình học sâu
Học sâu có sự phát triển vượt bậc như ngày hôm nay là dựa ba khía cạnh
chính: Học đặc trưng, khả năng gán nhãn một sé lượng lớn dữ liệu, va phần cứng
(đặc biệt là khối xử lý đồ họa: General purpose graphics processing unit
-GPGPU).
Năm 2006, Hinton và các cộng sự của ông đã đề xuất sử dụng tiền huấn
luyện và điều chỉnh tham số mô hình cho các cặp tang liên liếp (greedy layer-wisepre-training và finetuning) cho các mạng nơ ron sâu và đã đạt được hiệu suất caohơn so với các thuật toán nhận dạng chữ số viết tay và nhiệm vụ thu hồi tài liệu
dựa trên MNIST Dựa trên nghiên cứu này, Bengio va các cộng sự giới thiệu mã
hóa tự động xếp chồng và xác nhận giả thuyết rằng các chiến lược huấn luyện
không có giám sát tang khôn ngoan tham lam chủ yếu giúp tối ưu hóa, bằng cách
khởi tạo trọng sé trong mot khu vuc gan tối thiểu cục bộ tốt, làm phát sinh phân
bố biểu diễn nội mà là trừu tượng cấp cao của đầu vào, và mang lại tổng quát tốt
hơn; Vincent và các cộng sự đề xuất các bộ khử nhiễu tự động xếp chồng, được
huấn luyện cục bộ dé khử nhiễu từ các phiên bản lỗi của đầu vào
Zheng và các cộng sự cho thấy tính hiệu quả của kiến trúc sâu được xây dựng
với các module học đặc trưng xếp chồng, chăng hạn như PCA và nhúng lân cậnngẫu nhiên (Stochastic neighbor embedding - SNE).
Dé nang cao hiéu qua cua cac kiến trúc sâu được xây dựng bởi mô hình học
đặc trưng xếp chồng, Zheng và các cộng sự áp dụng các kỹ thuật kéo dài trên
weight ma trận trọng số giữa các tầng liên tiếp hàng đầu, và chứng minh tính hiệu
quả của phương pháp với nhiệm vụ nhận dạng tài liệu viết tay Ngoài ra, mô hình
an song song Markov sử dung các mạng tin sâu (Deep belief networks - DBNs)
dé áp dung cho nhận dang chữ viết.
Năm 2012, Krizhevsky, Sutskever va Hinton đã tạo ra “AlexNet” va gianh được ImageNet LSVRC (ImageNet Large Scale Visual Recognition
Trang 17hiện tốt trong ImageNet LSVRC được dựa trên các mạng nơ ron tích chập sâu
(Deep convolutional neural networks - CNNs), như OverFeat, VGGNet,
GoogLeNet va ResNet.
Dựa trên việc khai thác đặc trưng cua AlexNet, các đặc trưng được trích xuất
từ việc kích hoạt mạng nơ ron tích chập sâu được huấn luyện một cách đầy đủ
giám sát một tập hợp lớn, và có thể cố định các nhiệm vụ nhận dạng đối tượng.
Theo đó, đặc trưng này được gọi là đặc trưng kích hoạt tích chập sâu Zhong và
các cộng sự đưa ra hai vấn đề khó khăn liên quan đến hình ảnh tải liệu được chụp
và áp dụng đặc trưng kích hoạt tích chập sâu để tạo ra kết quả ban đầu cho các
vấn đề được đề xuất Cai và các cộng sự đặt vấn đề là liệu đặc trưng kích hoạt tích
chập sâu có đủ tốt dé phân loại hình ảnh chính xác Dựa trên các hành động giảm
và kéo dài, các tác giả đã cải thiện đặc trưng kích hoạt tích chập sâu trong một SỐ
trường hợp phân loại hình ảnh Dựa trên AlexNet và VGGNet, Zhong và các cộng
sự đề xuất thuật toán học băm sâu đã cải thiện đáng kế khả năng phục hồi hình
ảnh.
Gần đây, các mô hình học sâu thu được nhiều sự chú ý là các mạng nơ ron
hồi quy (Recurrent neural networks - RNNs), bộ nhớ dai/ngan hạn, chú ý dựa trên
các mô hình và các mạng thống kê cạnh tranh Các ứng dụng thường được tập trung vào việc phân loại hình ảnh, phát hiện đối tượng, nhận dạng giọng nói, nhận dạng chữ viết, tạo chú thích hình ảnh và dịch máy.
1.2.2.2 Công cụ học sâu
Có nhiều công cụ học sâu được chia sẻ trên Internet Trong mỗi công cụ, bộ
mã lập trình của một số mô hình học sâu, như DBNs, LeNet-5, AlexNet và
VGGNet, thường được cung cấp rộng rãi Các nhà nghiên cứu có thé trực tiếp sử
dụng các mã lập trình này hoặc phát triển mô hình mới tủy thuộc vào sự cho phép
của các đơn vị cung cấp mã lập trình.
Một số công cụ học sâu phô biến trên Internet như: Theano, Caffe,
TensorFlow và MXNet.
Theano là một thư viện Python, được tích hợp với NumPy cho phép người
dùng có thé xác định, tối ưu hóa, và đánh giá biểu thức toán học liên quan đếnmảng đa chiều một cách hiệu quả Hơn nữa, nó có thể thực hiện tính toán đữ liệutrên GPU nhanh hơn 140 lần so với CPU
Trang 18Công cụ dành cho học sâu Caffe được xây dựng hoàn toàn trên ngôn ngữ
C++/CUDA Tuy nhiên, nó chỉ cung cấp giao diện dòng lệnh, Python và MATLAB Bộ mã Caffe chạy nhanh, và có thể chuyền liền mạch giữa CPU và
GPU.
TensorFlow là một thư viện mã nguồn mở cho tính toán số sử dụng các biểu
đồ luồng dit liệu Các nốt trong đồ thị biểu diễn cho hoạt động toán hoc, trong khi
các cạnh đồ thị biểu dién cho mảng đữ liệu đa chiều (tensors) được trao đôi giữachúng TensorFlow có khả năng phân biệt tự động để tạo điều kiện cho việc tínhtoán các dẫn xuất
MXNet được phát triển bởi nhiều cộng tác viên từ các trường đại học và các
công ty Nó hỗ trợ cả lập trình hướng cấu trúc và hướng đối tượng, với nhiều ngôn
ngữ lập trình như C++, Python, R, Scala, Julia, Matlab và Javascript Tốc độ chạy
của chương trình MXNet tương đương với Caffe, nhưng nhanh hơn nhiều so với
Theano và TensorFlow.
1.3 Phép phân tích thành phan chính
PCA là một phương pháp giảm chiều dữ liệu, sao cho lượng thông tin về dit
liệu, thé hiện ở tổng phương sai, được giữ lại là nhiều nhất
Các đặc trưng không biểu diễn thông tin về ý nghĩa chất lượng bộ phân lớp.
Do đó cần phải kiểm định thống kê dé chọn lựa đặc trưng cần thiết
Trường hợp có quá nhiều đặc trưng, đặc biệt là các đặc trưng có độ tương
quan cao, chúng ta có thé sử dụng phép phân tích thành phan độc lập dé loại bớt
các đặc trưng này Theo đó, phương án khả thi là xác định một ngưỡng 9 ~ 1, nếu
hai đặc trưng xỉ và xi mà hệ số tương quan r;¡ của chúng:
x} Xự„ —1n x
7) C= N Camo) — 1)S¡S/> ) (s; là các phương sai mau tương ứng) (1.1)
lớn hơn 0 thì chỉ cần giữ lại một đặc trưng Đây được xem là các đặc trưng
gốc và thực hiện chọn tập con đặc trưng phù hợp
Có nhiều cách để thực hiện chọn lựa đặc trưng Đề đơn giản và thuận tiện,chúng ta có thé lựa chọn dựa trên một tiêu chuẩn đánh giá nào đó Gia sử F; là tập
t đặc trưng gốc, F là một tập con d đặc trưng của nó, tức là |F| = d và J(F) là hamcủa hàm F đã cho dé đánh giá khi chọn đặc trưng
Tim tập đặc trưng F* sao cho:
Trang 19Tìm các véc tơ riêng ứng với k giá trị riêng lớn nhất của C làm vectơ đơn vị,
chiếu các đối tượng lên các vectơ này làm đặc trưng tương ứng Tương ứng với
dùng phép biến đổi trực giao y= Ax ứng với ma tran A trên không gian đặc trưng
dé ma trận hiệp phương sai Cy có dang đường chéo sao cho các giá trị riêng A; của
Cy giảm dần Khi đó đặc trưng mới là k thành phần đầu của hệ tọa độ mới Hình
1.1 minh họa hai vectơ riêng của C, nếu lấy một đặc trưng thì phương pháp PCA
sẽ chiếu vectơ đặc trưng gốc lên vectơ vị.
Bản chất của phương pháp PCA là việc tìm các hướng mà đữ liệu phân bố
với biên độ lớn quanh tâm của tập dữ liệu (giá trị riêng lớn) làm vectơ cơ sở cho không gian đặc trưng mới.
Hình 1.1 Hai vectơ riêng cua ma trận hiệp phương sai
Lưu ý khi dùng phương pháp PCA dé giảm đặc trưng:
- _ Các thành phan chính là biến đổi tuyến tinh của đặc trưng gốc nên khi giảm
chiều có thé làm mat thông tin phi tuyến trong dữ liệu
- Các thành phan chính với đóng góp nhỏ trong phương sai toàn phần nhiều khi
vẫn có ý nghĩa
Trang 20- Rat khó giải thích ngữ nghĩa của thành phần chính trong khi các ý nghĩa rất
rõ ràng khi dùng đặc trưng gốc
- Khong phải việc giữ lại thông tin nhiều nhất sẽ luôn mang lại kết quả tốt nhất.
Tuy có các nhược điểm trên nhưng PCA là công cụ hữu hiệu dé giảm chiều
dữ liệu trong nhiều ứng dụng.
1.4 Phép phân tích biệt thức tuyến tính
Đề xử lý nhược điểm của PCA đối với van đề không phải việc giữ lại thông
tin nhiều nhất sẽ luôn mang lại kết quả tốt nhất, chúng ta có thể sử dụng phươngpháp LDA Theo đó, LDA là một phương pháp giảm chiều dữ liệu cho bài toán
phân lớp.
Như vậy, LDA có thé được xem như là một phương pháp giảm chiều dữ liệu
(dimensionality reduction), và cũng là một phương pháp phân lớp (classification),
và cũng có thé áp dụng đồng thời cả hai phương pháp, tức giảm chiều dữ liệu sao
cho việc phân lớp hiệu quả nhất Số chiều của đữ liệu mới nhỏ hơn ít nhất 1 lớp
so với số chiều của dit liệu gốc
- 7 Toa độ 1 của dữ liệu dao tao _ ;
Hình L2 Biéu do dữ liệu huấn luyện nguyên âm
Hình 1.2 có mười một lớp với X € IR10, đây là cách nhìn tốt nhất của mô
hình LDA Các vòng tròn đậm biểu diễn cho các vector trung bình của mỗi tầng.
Các tầng bị chồng chéo lên nhau
Lý thuyết phân loại cho chúng ta biết xác suất Pr (G|X) đề thực hiện tối ưu.
Giả thiết f(x) là hàm mật độ có điều kiện X trong lớp G = k, Và để cho m có xác
Trang 21Kỹ thuật Huan luyện Kiểm tra
Hôi quy tuyên tính 0,48 0,67
Phân tích biệt thức tuyên tính 0.32 0,56
Phân tích biệt thức bac hai 0.01 0,53
Hôi quy logistic 0.22 0,51
Ghi chu: Ty lệ huấn luyện và kiểm tra lôi sử dụng một loạt các kỹ thuật tuyến
tính trên các dữ liệu nguyên âm Có mười một tang trong mười chiều, ba trong
số chúng cho 90% giá trị (thông qua phép phân tích thành phan chinh) chung
ta thấy răng hoi quy tuyén tinh bị anh hưởng bởi mặt nạ, làm tăng lỗi thử nghiệm
và huấn luyện hơn 10%.
Ta thay kha năng phân lớp tới f,(x) là gần như tương đương với việc có Pr (G =
k|X =x).
Có nhiều kỹ thuật dựa trên các mô hình cho mật độ lớp:
- Tuyén tính và phan tích biệt thức bac hai sử dụng ham mật độ Gauss.
- Trộn linh hoạt các hàm Gaussian cho phép quyết định ranh giới phi tuyến
- Dự báo mật độ phi tham sé tong cho phép linh hoạt đối với mỗi mật độ lớp.
- M6 hình Naive Bayes là một biến thể của biến trước đó Giả thiết rang mỗi
mật độ lớp là sản phẩm của mật độ biên Chúng gia định đầu vào độc lập trong
mỗi lớp
Giả thiết mô hình của mỗi mật độ lớp như hàm đa biến Gaussian
fe) = — : e~2Œ—Mx)f Lee ma” (1.6)
(2z)?|%„|2
Phép phân tích biệt thức tuyến tính (LDA) phát sinh trong trường hợp đặc
biệt khi chúng ta giả định rằng các lớp có một ma trận hiệp phương sai chung >
x=> Vk Việc so sánh hai lớp k và £ là đảm bảo dé xem xét ty lệ log chúng tathấy răng Công thức 1.7 là một phương trình tuyến tính của x Các ma trận hiệp
phương sai là nguyên nhân dé loại bỏ các yếu tố bình thường, cũng như thành
phần bậc hai trong hàm số mũ Hàm log lẻ tuyến tính ngụ ý rằng ranh giới quyết
định giữa các lớp k và F - được thiết lập bởi Pr (G = k|X = x) = Pr (G = t|X =x)
— là tuyến tinh trong x; trong khi p là các chiều của một siêu phăng Điều này đúng
đối với bất kỳ cặp của các lớp, vì vậy tất cả các ranh giới quyết định là tuyến tính.
Trang 22= log 2W + He) » (Ux — Hạ) + x » (Ux — He) (1.7)
Hình 1.3 bên trái cho thay một ví du lý tưởng với ba lớp va p = 2 Ở đây, dit
liệu được phát sinh từ ba phân bố Gaussian với một ma trận hiệp phương sai
chung Chúng có mật độ xác suất cao nhất tới 95%, cũng như trọng tâm của lớp.
Đề ý rằng ranh giới quyết định không phải là hai đường vuông góc của các đoạn
nối trọng tâm Đây sẽ là trường hợp nếu các hiệp phương sai 5 là hình cầu o 71,
và các lớp đầu tiên là bằng nhau Từ Công thức 1.7, chúng ta thấy rằng các hàm biệt thức tuyến tính như Công thức 1.8 là một mô tả tương đương với quy luật quyết định, với G(x)=Argmax, 6 ,(x).
-1 1 -1
5x (x) =xrÐ, = 5x"), uk + log Trụ (1.8)
Trên thực tê, do chung ta không biệt các tham sô cua phan bo Gaussian, và
cân phải ước tính chúng đê sử dung cho việc huân luyện dữ liệu với f„ = N,/N,
với N„là sô quan sát của lớp & theo đó fie =3g=%¡/N, và Š=
X=1 3;g,=k(¡ — fi); — ây)”/(N — K)
Nguồn: Trevor Hastie, 2008 Hình 13 Phân bố Gaussian.
Trang 23Hình 1.3 bên trái cho thấy ba phân bố Gaussian, với cùng hiệp phương sai
và các ý nghĩa khác nhau Bao gồm những đường nét theo mật độ liên tục 95%
của xác suất trong từng trường hợp Ranh giới quyết định Bayes giữa mỗi cặp của
các lớp được biểu thị bằng nét đứt, và ranh giới quyết định Bayes giữa ba lớp được biéu thị bằng nét liền (một tập hợp con của tập ban đầu) Hình 1.3 bên phải
cho thây 30 mẫu rút ra từ mỗi phân phối Gaussian, và phù hợp với ranh giới quyết
định LDA.
Chỉ với hai lớp có một sự tương ứng đơn giản giữa phân tích biệt thức tuyếntính và phân loại bởi bình phương nhỏ nhất tuyến tính Quy tắc LDA phân loạiđến lớp 2 nếu tính toán theo Công thức 1.9 và lớp 1 khác Giả sử chúng ta mã hóa
các mục tiêu trong hai lớp như +1 và -1, tương ứng Nó rat dé dang dé chứng minh rằng các vector hệ số từ hình vuông ít nhất là tỷ lệ thuận với việc đưa ra LDA
trong Công thức 1.9 Trong thực tế, sự tương ứng này xảy ra đối với bat kỳ (riêng
biệt) mã hóa các mục tiêu Tuy nhiên trừ khi Nị = N2 các chặn là khác nhau và do
đó các quy tắc quyết định kết quả là khác nhau
a 1 N N
xTŠ1(f; — âu) > SARE hy — SATE A, + logy - — log W (1.9)2
Trường hop dao hàm của LDA qua phương nhỏ nhất không sử dung gia thiết
Gaussian cho các hàm, ứng dụng của nó vượt ra ngoài lĩnh vực dữ liệu Gaussian.
Tuy nhiên, đạo hàm của các ham chặn hoặc điểm cắt cụ thê như trong Công thức 1.9 yêu cầu phải có dữ liệu Gaussian Như vậy trên thực tế việc chọn điểm cắt đã
làm giảm lỗi huấn luyện cho một tập dit liệu nhất định
Bằng việc nhiều hơn hai lớp, LDA không giống như hồi quy tuyến tính của
ma trận chỉ số lớp, và nó tránh được tiếp cận đến mặt nạ vấn đề Một sự tương
ứng giữa hồi quy và LDA có thể được thiết lập thông qua các khái niệm về điểmtối ưu
Trở lại vấn đề biệt thức chung như Công thức 1.8, nếu ©, không được giả
định là bằng nhau, thì sẽ không xảy ra; đặc biệt là các thành phần bậc hai vẫn còn
trong x Sau đó chúng ta có được hàm biệt thức bậc hai (QDA — Quadratic discriminant functions) như công thức 1.10.
—1
d(x) = — Flog Sel =5 Œ= Ha)” > Œ— He) + logy (1.10)
Ranh giới quyét định giữa môi cap cua các lớp k va £ được mô tả bởi một
phương trình bậc hai {x : 6 x(x) = 6 ¢(x)}.
Hình 1.4 cho thay nơi ba lớp được trộn bởi ham Gaussian và ranh giới quyết
định được xấp xỉ bằng phương trình bậc hai trong x Ở đây chúng ta minh họa hai
cách phô biến việc lắp những ranh giới bậc hai Việc hình bên phải QDA như mô
Trang 24tả ở đây, trong khi hình bên trái mô tả LDA trong không gian đa thức bậc hai năm
chiều mở rộng Sự khác biệt nói chung là nhỏ; QDA là phương pháp ưu tiên, với
phương pháp LDA thay thế thuận tiện.
Ước tính cho QDA tương tự như cho LDA, ngoại trừ việc riêng biệt ma trận
hiệp phương sai phải được ước tính cho mỗi lớp Khi p là lớn, điều này có thé gia
tăng một lượng đáng ké các tham số Ké từ khi ranh giới quyết định là hàm củacác tham số của mật độ, việc đếm số lượng các tham sé phải được thực hiện mộtcách can thận Đối với LDA, có vẻ như có (K -1) X (p + 1) các tham số, vì chúng
ta chỉ cần sự khác biệt ô x(x) - ô x(x) giữa các hàm biệt thức, nơi K là một số lớp chọn trước (ở đây là lựa chọn cuối cùng), và mỗi sự khác biệt đòi hỏi pTr1 tham
số Như QDA sẽ có (K - 1) X {p(p + 3)/2 + 1} tham số Cả hai LDA và QDA thực hiện tốt một cách ngạc nhiên và đa dạng các nhiệm vụ phân loại.
Nguồn: Trevor Hastie, 2008
Hình l4 Ranh giới bậc hai của LDA và QDA.
Vi dụ, trong các dự án STATLOG (Michie và các cộng sự, 1994) LDA là
một trong ba phân loại hang dau cho 7 trong số 22 bộ dit liệu, QDA đứng thứ ba
trong bốn tập hợp dit liệu, và một trong ba cặp đứng dau của 10 bộ dữ liệu Cả hai
kỹ thuật này đều đang được sử dụng rộng rãi.
Hai công cụ đơn giản này đường như có thể giải quyết được toàn bộ các vẫn
đề Câu hỏi đặt ra tại sao LDA và QDA lại tốt như vậy Lý do di liệu không phải
là xấp xi ham Gaussian, ngoài ra đối voi LDA thì hiệp phương sai xap xi bang
nhau Lý do có nhiều khả năng nhất chính là dữ liệu chỉ có thé hỗ trợ ranh giới
quyết định đơn giản như tuyến tính hoặc bậc hai, và giá trị xấp xy được tinh thông
qua các mô hình Gaussian là ồn định Đây là một sự đánh đôi cho sai lệch chúng
ta có thé đưa ra dự kiến về một ranh giới quyết định tuyến tính bởi nó có thé được
ước tính với phương sai thấp hơn nhiều so với giải pháp thay thế ngoại lai Lập
Trang 25luận này it đáng tin cậy cho QDA, vi nó có thé có nhiều tham số riêng của mình, mặc dù có lẽ ít hơn các lựa chọn thay thế phi tham sé.
1.4.1 Phân tích biệt thức chính quy
Friedman (1989) đã đề xuất một kết hợp giữa LDA và QDA, cho phép thu
nhỏ hiệp phương sai riêng của QDA hướng tới một hiệp phương sai chung như
trong LDA Những phương pháp này rất giống nhau dé đạt được kết qua Các ma
trận hiệp phương sai chính quy có dạng như Công thức 1.11.
R Yx(@) = ad, +(1— ø)Š ; (1.11)
Trong đó, Š là ma trận hiệp phương sai gộp trong LDA O day a € [0,1]
cho phép một sự liên tục của các mô hình giữa LDA và QDA, và cần phải đượcxác định Trong thực tế a có thé được lựa chọn dựa trên hiệu suất của mô hìnhtrên giá trị dữ liệu, hoặc băng cách xác nhận chéo
Hình 1.5 cho thấy kết quả của RDA áp dụng cho các dữ liệu nguyên âm Cảhai việc huấn luyện và kiêm tra lỗi đều được cải thiện với sự gia tăng a, Mặc dù
kiểm tra lỗi tăng mạnh sau œ = 0.9 Sự khác biệt lớn giữa huấn luyện và kiểm tra lỗi một phần là do thực tế rằng có rất nhiều phép đo lặp lại trên một số ít riêng lẻ,
khác nhau trong việc thiết lập huấn luyện và thử nghiệm
aTỷ lệ ph«‹ 02 03 04 05
0.0 0.1
0.0 0.2 0.4 0.6 0.8 1.0
Hình 1.5 Kiểm tra và huấn luyện lỗi cho dữ liệu nguyên âm.
Tương tự những sửa đổi cho phép £ bản thân dé được thu nhỏ về phía hiệp
phương sai vô hướng Cho y € [0,1], ta thay thé ¥ trong Công thức 1.11 bang
Trang 26Trong phan này, chúng ta đi sâu vào việc tính toán cho LDA và đặc biệt là
QDA Việc tính toán của chúng được đơn giản hóa bằng đường chéo £ hoặc là
Sk Theo đó, giả thiết chúng ta tính toán phân giải dit liệu gốc cho mỗi
Êk=U,D,Uÿ, trong đó Uy là p X p trực giao, và Dy một ma trận đường chéo của
giá tri riêng tích cực dye Sau đó, các thành phần cho 6 ,(x) (1.10) là:
(x = A) Se — ây) = [UE Oe — Bred] Dee [UR — ñ„)] (1.13)
Tiép theo, viéc phan loai LDA co thé duoc thuc hién nhu sau:
- Vung dữ liệu liên quan đến dự toán hiệp phương sai chung
Ê: X*©D'!?UTX, khi Ê= UDUT Ước tính hiệp phương sai chung của X* bây
giờ sẽ được nhận diện.
- Phan loại với trong tâm lớp gần nhất trong không gian biến đổi, modulo ảnh
hưởng của các xác suất lớp ưu tiên x.
1.4.3 Giảm chiều dữ liệu LDA
Chúng ta đã xem xét LDA như một bộ phân loại cho việc hạn chế hàm
Gaussian Mức độ phô biến của nó có được là do sự hạn chế bé sung dé cho phépchúng ta có thê xem dự báo thông tin thấp chiều của dữ liệu
Trọng tâm K trong p chiều đầu vào không gian năm trong không gian con
biến đổi có số chiều < K - 1, và nếu p là lớn hơn nhiều so K, đây sẽ là sự sụt giảm
đáng kế trong số chiều Hơn nữa, trong việc định vi trọng tam gần nhất, chúng ta
có thé bỏ qua khoảng cách trực giao với không gian con nay, vì chúng sẽ đóng góp như nhau đối với mỗi lớp Cũng như vậy chúng ta có thể chiếu X* vào không
gian con trọng tâm-kéo dai này Hx.¡, và so sánh khoảng cách này Đó là sự giảm
chiều căn bản trong LDA, cụ thể là, chúng ta chỉ cần xem xét các dữ liệu trong
một không gian con K - 1.
Vi dụ, nếu K = 3, chúng ta để xem các anh dữ liệu trong không gian haichiều, mã hóa màu các lớp Làm như vậy chúng ta sẽ không từ bỏ bất cứ thôngtin cần thiết cho việc phân loại LDA
Điều gì xây ra nếu K > 3? chúng ta có thé xem xét một L < K-1 không giancon chiều Hy © Hx.) tối ưu cho LDA trong một nghĩa nào đó Fisher được tôi ưu
dé các trọng tâm dự kiến được trải ra càng nhiều càng tốt đối với phương sai Tổng
Trang 27này được hình thành chính bởi các trọng tâm của chính mình 0 hiển thị một không
gian con hai chiều tối ưu cho các dit liệu nguyên âm Ở đây có mười một lớp, mỗi lớp là một nguyên âm khác nhau, trong một không gian đầu vào mười chiều Các trọng tâm trong trường hợp này, yêu cầu một không gian day đủ, vì K - 1 =p,
nhưng chúng ta đã chỉ ra một không gian con hai chiều tối ưu Các chiều được sắp
xếp, vì vậy chúng ta có thé tính toán chiều bổ sung trong chuỗi Hình 1.6 cho thay
bốn cặp tọa độ ngẫu nhiên kinh điển, hay còn gọi là biến canonical hoặcdiscriminant Khi cấp bậc của các biến ngẫu nhiên kinh điền tăng, các trong tâm
it bị trải rộng Trong biểu đồ bên dưới, bên phải chúng xuất hiện chồng lên nhau,
và khó phân biệt lớp Tóm lại, việc tìm kiếm các trình tự của các không gian contối ưu cho LDA bao gồm các bước sau:
- Tinh ma trận K X p của M lớp các trọng tâm và ma trận hiệp phương sai
chung W (đối với trong lớp hiệp phương sai)
- Tinh M*= MW!“” sử dụng phân tích riêng của W.
- Tinh B*, Ma trận hiệp phương sai của M* (B cho lớp giữa của hiệp phương
sal), và phân tích riêng của nó B* = V*DpV*T Các cột vp của V* theo thứ tự
từ đầu đến cuối xác định tọa độ các không gian con tối ưu.
Kết hợp tất cả các hoạt động biến biệt thức thứ t được cho bởi Z¡ = 1¿X VỚI
Ma wl? Vp.
Fisher đưa ra việc phân tích này qua một con đường khác, mà không dé cậpđến phân bố Gaussian ở tat cả Ông đặt ra van dé:
Tìm sự kết hợp tuyến tính Z = aTX như là biến lớp giữa được quan hệ tối da
toi phương sai trong lop.
Một lần nữa, giữa lớp phương sai là phương sai của lớp Z, và trong lớp
phương sai là phương sai gộp Hình 1.7 cho thấy lý do tại sao tiêu chí này có ý
nghĩa Mặc dù theo hướng kết hợp các trọng tâm riêng càng nhiều càng tốt (ví dụ,
tối đa phương sai giữa lớp), có sự chồng chéo giữa các lớp dự kiến do ban chất
của hiệp phương sai Cách lấy hiệp phương sai vào tài khoản là một hướng đi tốt
tối thiểu sự chồng chéo
Phương sai giữa lớp của Z là a Ba và phương sai trong lớp aWa Tại đây W
được định nghĩa trước đó, và B là ma trận hiệp phương sai của lớp ma trận trọng
tâm M Lưu ý răng B + W =TT, với T là ma trận hiệp phương sai tong của X, Bỏ
qua thông tin lớp.
Vấn đề của Fisher theo đó tối đa hóa Rayleigh quotient,
aTBa
a a’Wa ( )
Trang 28°
°
Hình 1.6 Bốn biểu đồ của các cặp ngẫu nhiên kinh điển
Hoặc tương đương
max a’ Ba phụ thuộc vào a Wa = 1 (1.16)
Đây là vấn đề về trị số đặc trưng tổng quát được đưa ra bởi trị số đặc trưng
lớn nhất của WB Chi đơn giản là tối ưu a; đồng nhất với vị như định nghĩa ở
trên Tương tự như vậy chúng ta có thé tìm ra hướng tiếp theo ap, trực giao trong
W tới ai, như vậy a3 Ba,/aSWa, được tôi đa; giải pháp là a; = vạ, v.v Theo đó
ar được gọi là biệt thức tọa độ (không nên nhằm lẫn với các chức năng biệt thức) Chúng cũng được gọi là các biến ngẫu nhiên kinh điển Nguồn gốc thay thế của những kết quả này là thông qua phân tích tương quan của ma trận chỉ thị Y trên
ma trận dự đoán X Tóm lại:
Trang 29- _ Chỉ băng việc đếm khoảng cách liên quan tới các trọng tâm, chúng ta có thé
giới hạn dữ liệu vào không gian con kéo dài bởi các trọng tâm trong không
gian cầu.
- _ Không gian con này có thé được tiếp tục phân tách ra thành các không gian
con nhỏ hơn qua việc tách trọng tâm Sự phân tách này giống hệt với Fisher.Việc giảm không gian con được xem như giảm dit liệu bang công cụ Chúng
cũng có thể được sử dụng đề phân loại băng cách hạn chế khoảng cách tới trọng
tâm tính toán dé chọn không gian con chúng ta có thể xem đây là một quy tắc
phân loại Gaussian với những hạn chế bổ sung mà các trọng tâm của Gaussian
năm trong một không gian con L chiều của IR?.
Phân loại Gaussian gọi là Hệ số hiệu chỉnh log 7x trong việc tính toán chiều
Lý do cho điều chỉnh nay có thé thay trong Hình 1.7 Tỷ lệ phân loại sai được tính
toán dựa trên diện tích chồng chéo giữa hai mật độ Nếu z đều bằng nhau (ngầmtrong hình đó), sau đó cắt điểm tối ưu là nằm giữa các hình chiếu trung bình Nếu
z không bằng nhau, di chuyên cắt điểm cắt về phía lớp nhỏ hơn sẽ cải thiện ty
lệ lỗi Như đã đề cập cho hai lớp trước đó, chúng ta có thể lấy được các quy tắc
tuyến tính sử dung LDA (hoặc bat kỳ phương pháp nao khác), sau đó chọn điểmcat dé giảm thiểu lỗi phân loại sai so với dit liệu huấn luyện
Trang 30=
`8.
2 :
E | —— Dữ liệu kiêm tra |
5 | Dữ liệu đào tạo |
Trang 31Ví dụ về lợi ích của việc hạn chế giảm thứ hạng là các dữ liệu nguyên âm.
Có I1 lớp và 10 biến, theo đó có thể phân ra 10 chiều chúng ta có thể tính toán huấn luyện và kiểm tra lỗi trong mỗi bậc không gian con; Hình 1.8 cho thấy kết quả Hình 1.9 cho thấy ranh giới quyết định của phân loại dựa trên giải pháp LDA
hai chiều Lưu ý rằng trong bat kỳ không gian con có nhiều chiều hơn, ranh giới
quyết định là các vùng affine chiều cao hơn, và không thé biểu diễn được dưới dạng đường thăng như Hình 1.9.
Đây là một liên kết chặt chẽ giữa phân tích biệt thức giảm thứ hạng củaFisher và suy giảm của một ma trận đáp ứng chỉ thị Nó chỉ ra rằng số lượng LDAhồi quy tiếp theo là một sự tự phân hủy của PTY Trong trường hợp hai lớp, có
một biến biệt thức duy nhất dé nhận dạng qua một phép nhân vô hướng tới một trong các cột của Ÿ Thực tế là néu một biến đôi du đoán gốc X đến Y, thì sử dụng
Ÿ dé nhận dang LDA không gian gốc.
1.5 Phương pháp biến đổi chiều dữ liệu
Cả hai ánh xạ tự tô chức, các đường cong gốc và các điểm đữ liệu ánh xạ bề
mặt trong IR? tới một đa tạp thấp chiều Phương pháp biến đổi chiều dữ liệu (Multidimensional Scaling - MDS) có một mục tiêu tương tự, nhưng cách tiếp cận theo một cách khởi đầu khác, dug sử dụng dé giảm chiều dữ liệu hay nén dữ liệu,
kỹ thuật này chuyền dữ liệu từ không gian nhiều chiều về không gian thấp chiều
hon dé xử ly.
Ta bat đầu với các quan sát xị, Xa, , Xn € IR”, Và dj là khoảng cách giữa
các quan sát i và J Thường thì chúng ta chọn khoảng cách Euclide dị = ||xi - xị||,
hoặc có thể chọn loại khoảng cách khác Hơn nữa, trong một số ứng dụng chúng
ta có thé thậm chí không có sẵn các điểm dit liệu x;, nhưng chỉ có một vai dụ đo lường không giống nhau Ví dụ, trong một thí nghiệm nếm rượu vang, dụ có thể
là sự khác biệt của các loại rượu vang khác nhau i và J, nó tao ra các cặp rượu
vang i, j MDS chỉ đòi hỏi các dị không giống nhau, trái ngược với ánh xa tự tổ
chức, các đường cong gốc và các bề mặt cần các điểm dữ liệu x;
Phương pháp biến đổi chiều đữ liệu tìm giá trị z¡, Zo, , zn € IR‘ dé giảm
thiểu hàm nhân như Công thức 1.17
Sw(Z1,Za, ZN) = > di — |ÌZ¡ — zi lI)? (1.17)
isi!
Đây chính là bình phương nhỏ nhất hoặc là biến đổi Kruskal-Shephard Y
tưởng là dé tìm một đại diện thấp chiều của dit liệu dé giữ khoảng cách có thé của
cặp dữ liệu Chú ý rằng x4p xỉ là về khoảng cách hơn là khoảng cách bình phương
(kết quả của slightly messier algebra) Theo đó, Thuật toán giảm độ dốc được sử
dụng dé giảm thiểu Sy
Trang 32Một tính toán dự trên biến đổi bình phương (gọi là Ánh xạ Sammon):
SŠsm (Z1,Z2, Zu) = » ae = Wa ze" (1.18)
isi’ ii!
Tầm quan trọng của nó là đưa vào bao vệ các khoảng cách cặp nhỏ hơn.
Trong biến đôi cổ điển, chúng ta thay vì bắt đầu với s¡: Thông thường chúng
ta sử dụng hàm nội trọng tâm s¿¡; = (x; — X, x," — X) Van dé sau đó là dé tối thiểu hóa Công thức 1.19 qua z1, Z, , Zn € IR“ Đây là một giải pháp rõ ràng về vector
riêng Nếu chúng ta có khoảng cách chứ không phải hàm nội, chúng ta có thể
chuyền đổi chúng sang hàm nội trung tâm nếu các khoảng cách là Euclide Nếu
những điểm tương đồng trên thực tế là hàm nội trung tâm, biến đổi cô điển làtương đương chính xác với thành phan chủ yếu, là một kỹ thuật giảm chiều tuyếntính Biến đổi cổ điển không phải là tương đương với biến đổi bình phương nhỏ
nhất; các hàm bị mat là khác nhau, và các ánh xạ có thé là không tuyến tính.
Se(u,Z2,« Z8) = À (Sut — (ei — 5,2, = 2)? (1.19)
ii!
K h = `
' e m kì ry
Toa độ MDS thứ hai
Toa d6 MDS dau tién
Hình 1.10 Tọa độ hai chiều cho dữ liệu nửa hình cẩu.
Bình phương nhỏ nhất và biến đổi cô điển được xem như là phương phápbiến đổi hệ mét, mang lại ý nghĩa rang ban chất của tương đồng hay bất tươngđồng chính là xấp xi Biến đổi phi hệ mét Shephard-Kruskal chỉ được dùng dé sắpxếp, phân loại Biến đổi phi hệ mét được sử dụng dé tim cách hạn chế tối đa hàmnhân tại Công thức 1.20 qua z và một hàm tăng tùy ý 9 Với 9 cố định, chúng ta
Trang 33hạn chế tối đa trên z¡ bởi giảm độ dốc Với z¡ cố định, phương pháp hồi quy đăng trương được sử dụng dé tìm ra xấp xi đơn điệu nhất 0(d) đến ||z; - z;|| Các bước này được lặp cho đến khi tìm ra giải pháp ổn định.
Desi |l2i — Z¿l|— 0? (1.20)
Lisi’ 112i — Zi" ||?
Sum (24) Z2, wy Zu) =
Tương tự ánh xa tự tổ chức và các dữ liệu gốc, phương pháp biến đổi chiều
dữ liệu đại diện đại diện cho mối quan hệ của đữ liệu Các đữ liệu gốc và ánh xạ
tự tô chức còn có thé tạo ra một tập dữ liệu xấp xỉ đữ liệu gốc của một đa tạp thấpchiều, được tham số hóa trong hệ thống tọa độ thấp chiều; các điểm gần nhautrong không gian đặc trưng ban đầu sẽ ánh xạ gần nhau trên đa tạp, nhưng điểmcách xa nhau trong không gian đặc trưng cũng có thé được ánh xạ với nhau, dam
bảo giữ gìn tất cả các cặp khoảng cách.
Hình 1.10 cho thay hai MDS đầu tiên từ biến đổi cô điển cho ví dụ nửa hình
cầu Có tách biệt rõ ràng của các cụm, tính chất chặt chẽ của cụm đỏ là rõ ràng.
Trang 34CHƯƠNG2 CÁC GIẢI THUẬT HỌC MÁY PHÂN LỚP
2.1 Mạng Perceptrons nhiều tang
Perceptrons nhiều tầng thường gọi là mạng MLP (MultiLayer Perceptrons)
Đây là loại mạng thông dụng nhất dé hồi quy hàm nhiều biến.
2.1.1 Kiến trúc mạng
MLP là mạng truyền tới nhiều tầng có các nốt nhận tín hiệu đầu vào băng SỐ,
có hai hoặc nhiều tầng noron với hàm tổng hợp trong các noron như Công thức
2.1.
k
s=n=) w,wx, + 0 (2.1)
i=1
Các ham chuyền có thé có dạng khác nhau Một mang có d tín hiệu vào và
M tang noron thứ i có sỉ noron chúng ta nói mạng có kiến trúc d — S! — S2 SM,Trường hợp nay chúng ta gọi là mạng (M+1) tang hoặc nói rõ mạng M tang noron.Trong đó, tầng nhận tín hiệu đầu vào là tang vào, tang noron cuối cùng là tang ra,còn các tang noron ở giữa đều gdp chung gọi là tang ân Hình 2.1 mô tả mang
nơron có kiến trúc 6-3-2 tức là có sáu nốt vào, hai tang noron với ba noron tang
ân và hai noron tầng ra
Mạng MLP được dùng dé xp xi/hồi quy hàm nhiều biến và phân lớp mẫu.Khi dung mạng MLP dé xap xỉ hàm thì hàm kích hoạt thường là hàm log_sig hoặc
tanghyperbolic.
Tang vao Tang an Tang ra
Hình 2.1 Kién trúc mang nơ ron truyén tới nhiễu táng.
Trang 35Lưu ý:
- Tang vào: Nếu hàm đang xét có n biến thì tang này có n+1 nốt trong đó nốt
đầu ứng với giá trị x0 = -1 và trọng số là ngưỡng = 0, mỗi nốt còn lại ứng với
một biến
- Tang ân: Mạng MLP ba tang có thé xem như là một hàm liên tục với sai số bé
tùy ý khi có đủ đữ liệu huấn luyện và số nơron tầng ân phù hơp Tuy nhiên,
việc chọn cấu trúc tầng ân thích hợp nhất đến nay vẫn là bài toán mở Ngoài
ra, nếu số trọng số kết nói quá ít so với dữ liệu quan sát thì sai số lớn, còn néuquá nhiều thì dẫn tới phù hợp trội
- Tang ra: Mỗi noron ở tang ra tương ứng với một hàm Nếu hàm cần xấp xi có
giá trị đầu ra là véc tơ M chiều thì có M noron ở tang ra.
2.1.2 Thuật toán huấn luyện lan truyền ngược
Phương pháp lan truyền ngược (Hình 2.2 ) được sử dụng để xác định cáctrọng số kết nối cho mạng MLP nhờ thuật toán Gradient cực tiểu hoá sai số trung
Ta dùng thuật toán tương tự của Widrow-Hoff, dùng thuật toán gradient cực
tiêu tổng bình phương sai số hay kỳ vọng mau F(x) của biến ngẫu nhiên x:
F(x) = E(eTe) = E((t — a)T(t— a)) (2.4)
nếu $M = 1 thì F(x) = E[Œ — a)?] (2.5)
Trong lần lặp thứ k, kỳ vọng này được xấp xi bởi F(x):
Trang 36F(x) = (t() — aŒ))”Œ(Œ) — a(k)) = Ye (k) — aj(k))? = e”(k)e() — (26)
trong đó t(k), a(k) và e(k) duoc tinh nhờ vecto tin hiệu vào p(k) lấy ngẫu nhiêu
hoặc tuần tự từ tập mẫu D Các trọng số kết nối ở mỗi tầng nơron m được điều
chỉnh theo công thức:
OF wii (k +1)= wii (k) aum (2.7)
UJ
và b*(k + 1) = bTM(k) — tạm (2.8)
trong đó ơ là tốc độ học
Vòng lặp dừng lại khi sai lệch giữa các trọng số và giá trị ngưỡng nhỏ hơn
một giá trị e đủ bé cho trước Các trọng số ban đầu và giá trị ngưỡng được khởi
tạo tùy ý.
Nhược điểm quan trọng của phương pháp lan truyền ngược là thường chỉ cho
lời giải gần đúng của cực trị địa phương va mất nhiều thời gian huấn luyện Dé
khắc phục nhược điểm, chúng ta có thê khởi tạo ngẫu nhiên nhiều bộ giá trị ban
đầu cho các trọng số và giá trị khuynh hướng, sau khi huấn luyện thì chọn lời giải sao cho sai số trung bình phương nhỏ nhất.
2.2 Mạng nơ-ron tích chap
Mạng nơ ron tích chập đã được nghiên cứu và phát triển trong thập kỷ thông qua một loạt các lĩnh vực liên quan đến nhận dạng mâu; từ xử lý hình ảnh đến nhận dạng giọng nói Các khía cạnh có lợi nhất của CNN là giảm số lượng các
tham sô trong ANN Thành tựu này đã khiến các nhà nghiên cứu và các nhà phát
triển tiếp cận mô hình lớn hơn để giải quyết các nhiệm vụ phức tạp, không thể
giải với các ANN cô điền.
Hình 2.3 Các tính năng tự học của mạng nơ ron tích chập
Trang 37Gia định quan trọng nhất về vấn đề được giải quyết bằng CNN không có các
tính năng không gian phụ thuộc Nói cách khác, ví dụ, trong một ứng dụng nhận diện khuôn mặt, chúng ta không cần phải chú ý ý đến nơi khuôn mặt đang năm trong hình ảnh Quan trọng nhất là phát hiện ra vị trí của chúng trong hình ảnh Một
khía cạnh quan trọng khác của CNN là có được các tính năng trừu tượng lan truyền
tới các lớp sâu hơn Ví dụ, trong phân loại hình ảnh, mép có thể được phát hiệntrong các lớp đầu tiên, và sau đó các hình dạng đơn giản hơn trong các lớp thứ
hai, và sau đó là các tính năng cấp cao hơn chăng hạn như khuôn mặt trong các
lớp tiếp theo như trong Hình 2.3
2.2.1 Các thành phan của Mang nơ ron tích chập
Dé có thé hiểu được về CNN, chúng ta bắt đầu với các thành phan cơ bản của nó.
2.2.1.1 Tích chập
Giả thiết đầu vào của mạng no ron có hình dang như trong Hình 2.4 Nó có thé
là một hình ảnh (ví dụ màu sac hình ảnh của một tập dữ liệu CIFAR-10 có chiều
rộng và chiều cao của 32x32 pIxel, độ sâu ba trong kênh RGB ) hoặc một đoạn video (video màu xám quy mô có chiều cao và chiều rộng là độ phân giải, và độ
sâu là khung) hoặc thậm chí một video thử nghiệm, trong đó có chiều rộng và chiều cao của (x L) giá trị cảm biến L, và chiều sâu có liên quan với nhau khung thời gian.
Tại sao lại là tích chập? Giả thiết mạng nhận pixel thô ở đầu vào Theo đó,
dé kết nối các lớp đầu vào tới chỉ một no ron (vi dụ như lớp ân trong Da lớp
Perceptron), cần có kết nối trọng số 32x32x3 cho tập dit liệu CIFAR-10
Hình 2.5 Tich chập như là phan bù lam mạng trở nên day đủ
Trang 38Nếu chúng ta thêm một nơ ron vào lớp â an, chúng ta sẽ cần một kết nối trọng
số 32x32x3, tổng số là 32x32x3x2 Đệ rõ ràng hơn, hơn 6000 tham số trọng số
được sử dụng dé kết nối đầu vào chỉ cần có hai nốt Có thể nghĩ rằng hai no ron
không đủ cho bắt kỳ xử lý hữu ích đối với ứng dụng phân loại hình ảnh Đề hiệu quả hơn, chúng ta có thê kết nối các hình ảnh đầu vào tới các nơ ron trong lớp tiếp
theo với các giá trị tương tự cho chiều cao và chiều rộng Có thé giả định mang
này được áp dụng cho các loại xử lý mép ảnh Tuy nhiên, mạng cần ma trận
32x32x3 / 32x32 kết nối trọng số (băng 3.145.728)
Do đó, tìm kiếm một phương pháp hiệu quả hơn, thay vì một kết nối đầy đủ,
chúng ta chỉ cần tìm kiếm khu vực địa phương trong hình thay vì trong toàn bộ
hình ảnh Hình 2.5, cho thấy một kết nối trong khu vực cho các lớp tiếp theo Nói
cách khác, các nơ ron ân trong lớp tiếp theo chỉ nhận được đầu vào từ các phần
tương ứng của lớp trước Ví dụ, nó chỉ có thê được kết nối với nơ ron 5x5 Do
vậy, nêu chúng ta muốn có 32x32 nơron trong lớp tiếp theo, sau đó chúng ta sẽ có
ma trận 5x5x3 / 32x32 kết nối tương đương với 76.800 kết nối (so với 3.145.728
cho kết nối đầy đủ).
Box blur 1
(normatizecy °
* a 2
Gaussian bDiur 1 = (approximation) 16 = =
Hình 26 Hiệu ứng của ma trận hội tụ khác biệt
Hình 2.7 Bộ lọc moi lop
Trang 39Mặc dù kích thước của kết nỗi giảm đáng kể, no van dé lai rất nhiều tham số
để giải quyết Đơn giản là để giữ cho trọngsô kết nối cục bộ cô định cho toàn bộ
nơ ron của lớp tiếp theo Điều này sẽ kết nối các nơ ron hàng xóm trong lớp tiếp theo với chính xác cùng một trọng lượng đến khu vực cục bộ của lớp trước Do
đó, một lần nữa bỏ đi nhiều tham số phụ, và làm giảm sé lượng trong sô chỉ 5x5x3
= 75 dé kết nối 32x32x3 no ron và 32x32 trong lớp tiếp theo.
Có rất nhiều lợi ích cho các giả định đơn giản Đầu tiên, số lượng kết nỗi
giảm từ khoảng 3 triệu xuống chỉ còn 75 kết nối như trong ví dụ đã trình bày Thứ
hai, và một khái niệm thú vị hơn, đó là sửa chữa các trọng số cho các kết nối cục
bộ cũng tương tự như trượt một cửa số 5x5x3 trong nơ ron đầu vào và ánh xạ đầu
ra đến nơi tương ứng Nó cung cấp một cơ hội dé phát hiện và nhận ra tính năng không phụ thuộc vi trí cua chúng trong hình ảnh Đây là ly do tại sao chúng được
gọi là tích chập.
Dé hién thị các hiệu ứng của ma trận tích chập, Hình 2.6, mô tả những gì sẽ xảy
ra nếu chúng ta tự chọn trọng số kết nối trong một cửa số 3x3 Ma trận có thể
được thiết lập dé phát hiện các cạnh trong hình ảnh Các ma trận này cũng được
gọi là một bộ lọc vì chúng hoạt động giống như các bộ lọc cổ điển trong xử lý
ảnh Tuy nhiên, trong mạng nơ ron tích chập các bộ lọc này được khởi tạo, tiếp theo được huấn luyện lọc, đảm bảo phù hợp cho các nhiệm vụ nhất định.
Dé thực hiện phương pháp này có lợi hơn, chúng ta có thé bổ sung thêm các
lớp sau lớp đầu vào Mỗi lớp có thê được liên kết với các bộ lọc khác nhau Do
đó, chúng ta có thể trích xuất các tính năng khác với hình ảnh nhất định Hình 2.7, cho thấy cách thức chúng được kết nối với các lớp khác nhau Mỗi lớp có bộ lọc
riêng của minh và do đó chiết tính năng khác nhau từ đầu vào Các nơ ron trongHình 2.7 sử dụng một bộ lọc khác nhau, nhưng nhìn vào cùng một phần của hình
ảnh đầu vào.
2.2.1.2 Bước nhảy
Trong thực tế, CNN có, nhiều lựa chọn để giảm càng nhiều các tham số, và
đồng thời làm giảm một số ảnh hưởng phụ Một trong những lựa chọn là Bước
nhảy Trong ví dụ nêu trên, nó chỉ đơn giản là cho răng nốt các lớp tiếp theo của
có nhiều chồng chéo với láng giéng cua no bang cach nhin vao khu vuc chung ta
có thé thao tác các chồng chéo bằng cách kiểm soát Bước nhảy.
Hình 2.8, cho thấy một hình ảnh 7x7 Nếu chúng ta di chuyên các bộ lọc một
nốt mọi thời gian, chúng ta có thể chỉ có một đầu ra 5x5 Lưu ý răng đầu ra của
ba ma trận trai trong Hình 2.8, có một cái bị chồng chéo (và ba cái giữa và ba cái
bên phải cũng vậy) Tuy nhiên, nếu chúng ta di chuyên và làm cho mỗi Bước nhảy băng 2, sau đó đầu ra sẽ được 3x3 Một cách đơn giản, không chỉ chồng chéo, kích thước của đầu ra sẽ được giảm.
Trang 40Hình 2.8 Cửa sổ lọc cho mỗi bước nháy.
Phương trình (2.9), chính thức hóa, cho ảnh NxN kích thước và kích thước bộ lọc của FxF, sản lượng kích thước O như Hình 2.9.
với N = 7 và F= 3 và bước nhảy = 1, đầu ra sẽ còn 5x 5 (co lại từ một đầu vào
7x7).
Tuy nhiên, bang cách thêm một zero-padding, dau ra sẽ là 7x 7, bang đầu
vào gốc (Sử dụng Công thức (2.9): N trở thành 9; Công thức (2.10): Bao gồm
zero-padding).
N+2P-F
Trong do, P la số lượng các lớp của zero-padding (vi du P = 1 trong Hình 2.10).
Y tưởng vùng đệm nay giúp chúng ta ngăn ngừa kích thước đầu ra bị thu hẹp với
chiều sâu Do đó, nó có thê có bất kỳ số lượng mạng nơ ron tích chập sâu.