Các ứng dụng xử lý dữ liệu đa phương tiện yêu cầu các mô hình học máyđược xử lý và huấn luyện với một lượng dữ liệu mẫu lớn hơn, với độ chính xáccao.. Muc tiêu nghiên cứu: Luận án nghiên
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Quốc Thắng
LUAN AN TIEN SI CONG NGHE THONG TIN
Ha Noi — 2022
Trang 2DAI HỌC QUOC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Quốc Thắng
Chuyên ngành: Khoa học máy tính
Mã số: 9.48.01.01.01
LUẬN ÁN TIEN SĨ CÔNG NGHỆ THONG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 GS.TS Nguyễn Thanh Thủy
2 PGS.TS Nguyễn Đức Dũng
Hà Nội — 2022
Trang 3LỜI CAM ĐOAN
Toi xin cam đoan các kết quả trình bày trong luận án là công trình nghiêncứu của tôi dưới sự hướng dẫn của các cán bộ hướng dẫn Các số liệu, các kếtquả trình bày trong luận án hoàn toàn trung thực và chưa được công bố trongcác công trình trước đây Các dữ liệu tham khảo được trích dẫn day đủ
Hà Nội, ngàu tháng năm 2022
Phạm Quốc Thắng
Trang 4LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành luận án, nghiên cứu sinh đã nhận
được sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời độngviên của các nhà khoa học, các thầy cô giáo, đồng nghiệp và gia đình
Trước tiên, nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy GS.TS
Nguyễn Thanh Thủy, PGS.TS Nguyễn Đức Dũng đã tận tình hướng dẫn, động
viên và giúp đỡ trong quá trình nghiên cứu.
Cho phép nghiên cứu sinh chân thành cảm ơn các thầy cô giáo, các nhà khoahọc của Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã có các góp ý
quý báu cho nghiên cứu sinh trong quá trình thực hiện luận án này.
Nghiên cứu sinh chân thành cảm ơn Ban Giám hiệu, Khoa Khoa học Tự nhiên
- Công nghệ, Trường Đại học Tây Bắc đã tạo điều kiện thuận lợi để nghiên cứu
sinh hoàn thành nhiệm vụ nghiên cứu.
Cuối cùng, nghiên cứu sinh bày tỏ lời cảm ơn tới các đồng nghiệp, gia đình,
bạn bè đã luôn động viên, chia sẻ, ủng hộ và giúp đỡ nghiên cứu sinh vượt qua
khó khăn để đạt được những kết quả nghiên cứu trong luận án này.
NCS Phạm Quốc Thắng
1
Trang 5MỤC LUC
MỤC LỤC ee iii
DANH MỤC CAC KY HIỆU, CÁC CHU VIET TAT vi
DANH MỤC CAC HINH VE vi
DANH MỤC CAC BANG BIEU ix
MỞ DAU eee 1 CHƯƠNG 1 MO HINH RBF RUT GON TRONG BÀI TOÁN PHAN LỚP 7 1.1 Giới thiệu mô hình RBE 7
1.2 SVM: mô hình phân lớp RBF dựa trên lề cực dai 8
121 SVM tuyến tính Ặ 9 1.22 SVM phi tuyến sử dụng hàm nhân RBF 16
1.3 RVM: mô hình phân lớp RBF dựa trên suy luận Bayes 19
1.3.1 Mô hình Bayes rút gọn 19
1.3.2 Phân lớp với mô hình Bayes rút gọn 21
1.4 Độ phức tap tính toán của các thuật toán 23
1.41 Độ phức tạp tính toán củaSVM 23
1.4.2 Độ phức tạp tính toán của RVM 24
1.5 Mô hình lai học sâu và RBF 24
1.5.1 Mô hình học sâu trong phân lốp 24
1.5.2 Mô hình lai CNN-SVM 26
1.5.3 Dé xuất mô hình lai CNN-RBF tổng quat 28
16 Kết chuong 0.0.0.0 000000000 cee 29
11
Trang 6CHƯƠNG 2 CAC THUẬT TOÁN HUAN LUYỆN NHANH
2.1
2.2
2.3
2.4
2.9
MÔ HÌNH RBF RUT GON 30
Các phương pháp huấn luyện mô hình RBF rút gon 30
2.1.1 Các kỹ thuật tang tốeSVM 30
2.1.2 Các kỹ thuật tăng tốeRVM 34
Dữ liệu thực nghiệm và đánh giá hiệu nang phân lớp 35
2.2.1 Dữ liệu thực nghiệm 35
2.2.2 Đánh giá hiệu năng phân lớp 37
Thuật toán SimpSVM ngẫu nhiên 38
2.3.1 Thuật toán SimpSVM-GD 39
2.3.2 Đề xuất thuật toán SimpSVM-SVD 43
2.3.3 Thực nghiệm co 46 Thuật toán FastRVM 51
2.41 Thuật toán RVM2 00.000 ol 24.2 Đề xuất thuật toán FastRVM 55
2.4.3 Thực nghiệm Q Q 0.0.00 0 ee 57 Kết chương 61
CHƯƠNG 3 UNG DUNG MÔ HÌNH RBF RUT GON TRONG 3.1 3.2 PHAN LỚP DOI TUGNG 62 Phân lớp nhận dạng ngôn ngữ ký hiệu 62
3.1.1 Mô tả tập dữ liệu 65
3.1.2 Trích chọn đặc trung 0 00.0004 65 3.13 Lựa chọn tham số 000000004 66 3.1.4 Phân lớp ký hiệu 66
Phân lớp nhận dạng cử chỉ người 71
3.2.1 Tập dữ liệu vo 72 3.2.2 Trích chọn đặc trưng co 73
3.2.3 Luachonthams6 0 0 0000 00000 bee 74
1V
Trang 7Tap dữ liệu 2 ee Trích chọn đặc trung - 004.
Lựa chọn tham s6 0.0.0000 00000 eee
Phân lớp anh hoa co.
3.4 Kết chuong 0.0.0.0.0.0.00 0000000002 eee
KET LUAN
DANH MUC CONG TRINH KHOA HOC
TAI LIEU THAM KHAO
89
92 93
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
CNN Convolutional Neural Network
DBN_ Deep Belief Network
DCA_ Discriminant Canonical Analysis
DDT Deep Decision Tree
Trang 9DANH MỤC CÁC HÌNH VE
Hình 1.1 Siêu phẳng phân tách tập mẫu trong không gian R# 9
Hình 1.2 Siêu phẳng phân chia hai tập mẫu 10
Hình 1.3 Tập mẫu không thể phân hoạch bằng một siêu phẳng 13
Hình 1.4 Một mặt phân chia phi tuyến trở thành một siêu phẳng trong không gian lớn hơn 000,4 16 Hình 1.5 Mô hình CNN phân lớp ảnh - 25
Hình 1.6 Mô hình lai CNN-SVM nhận dạng chữ viết tay [52] 27
Hình 1.7 Mô hình lai CNN-RBF tổng quát 29
Hình 2.1 So sánh thời gian huấn luyện giữa các SimpSVM 50
Hình 2.2 Tốc độ rút gọn va độ chính xác giữa các SVM rit gọn 51
Hình 2.3 Dồ thị của /(a;) đối với a; (trên thang do log) [77] 53
Hình 2.4 Thời gian huấn luyện giữa RVM2 và RVM [7ð] 58
Hình 2.5 Lỗi phân lớp và độ rút gọn của mô hình RVM2 và RVM [75] 58 Hình 3.1 Cách diễn đạt từ "thanks" trong ngôn ngữ Auslan [25] 64
Hình 3.2 Găng tay dụng cụ cùng các cảm biến ghi lại dit liệu cử chỉ biểu thị ký hiệu trong ngôn ngữ Auslan (nguồn: Internet) 64
Hình 3.3 Tìm kiếm trên ô lưới để tìm các giá trị tham số Ở,+ 67
Hình 3.4 Kiểm tra chéo 5-fold cho các mô hình thực nghiệm 67
Hinh 3.5 D6 chính xác và độ đo 1 của các thuật toán SVM, SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trên 3 kiểu đặc trưng 68 Hình 3.6 Số vectơ cơ sở của các thuật toán SVM, SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trên 3 kiểu đặc trưng 69
vii
Trang 10Hình 3.7 Thời gian huấn luyện của SimpSVM-GD, SimpSVM-SVD,
RVM2 và FastRVM với 3 loại đặc trưng 70
Hình 3.8 Cảm biến Kinect của Microsoft (nguồn: Internet) 72 Hình 3.9 Cảm biến Kinect ghi lại dữ liệu về khung xương (nguồn:
Internet) cu go 73
Hình 3.10 Minh họa các ví dụ về 12 cử chỉ trong MSRC-12 (nguồn:
Internet) ee 73
Hình 3.11 Độ chính xác va độ do F'1 của các mô hình SVM,
SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trong phân lóp cử chỉ
0150000 76
Hình 3.12 Số hàm cơ sở của các mô hình học được bởi SVM,
SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trong phân lớp cử chỉ
05190 77
Hình 3.13 Thời gian huấn luyện của các mô hình học được bởi
SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trong phân lớp cử chỉ
HPƯỜI LH nu ng g g v k kg k v k k va 78
Hình 3.14 Minh họa ví dụ về ảnh các loài hoa trong 2 tập dữ liệu
Oxford 17-Flowers và Oxford 102-Flowers [5l] 81
Hình 3.15 Mo hình sử dung CNN để trích chon đặc trưng tự động của
Hình 3.16 Độ chính xác và độ đo F1 của các mô hình CNN, CNN-SVM,
CNN-SimpSVM-GD, SimpSVM-SVD, CNN-RVM2 và CNN-FastRVM trong phân lớp ảnh hoa 0.00002 eae 85
Hình 3.17 Số hàm cơ sở của các mô hình học được bởi CNN,
CNN-SVM, CNN-SimpSVM-GD, CNN-SimpSVM-SVD, CNN-RVM2
và CNN-FastRVM trong phân lớp ảnh hoa 86
vill
Trang 11Hình 3.18 Thời gian huấn luyện của các mô hình học được bởi CNN,
CNN-SVM, CNN-SimpSVM-GD, CNN-SimpSVM-SVD, CNN-RVM2
và CNN-FastRVM trong phân lớp ảnh hoa
1X
86
Trang 12DANH MỤC CAC BANG BIEU
Bảng 2.1 Các tap dữ liệu và tham số thiết lap sử dung trong thực
nghiệm so sánh hiệu năng các SimpSVM 35
Bang 2.2 Các tham số thiết lap sử dung trong thực nghiệm so sánh
hiệu năng SimpSVM-GD với SVM gốc 46Bảng 2.3 Độ chính xác dự đoán của SimpSVM-GD với tốc độ tăng
tốc pha kiểm thử khác nhau trên các tập dữ liệu 47
Bang 2.4 Độ chính xác dự đoán của các SimpSVM với tốc độ tăng
tốc pha kiểm thử khác nhau trên các tập dữ liệu 49
Bảng 2.5 Thời gian huấn luyện của các SimpSVM trên các tập dữ liệu 49
Bảng 2.6 Các tham số trong thực nghiệm so sánh hiệu năng FastRVM
với RVM2 Q Q Q 2000 000 g g ee 57
Bang 2.7 Độ chính xác và thời gian huấn luyện của các thuật toán
RVM2 và FastRVM_ vo 61
Bảng 3.1 Danh sách các kênh thông tin của tập dữ liệu Auslan 63
Bảng 3.2_ Kết quả phân lớp nhận dạng ngôn ngữ ký hiệu 69
Bảng 3.3 So sánh kết quả của các phương pháp học máy dùng để
phân lớp ngôn ngữ ký hiệu Auslan 71
Bang 3.4 Kết quả phân lớp nhận dạng cử chingudi 76
Bảng 3.5 Tốc độ pha kiểm thử của các phương pháp trong nhận dang
Trang 13Bảng 3.8 Kết quả phân lớp nhận dang ảnh hoa 85
Bảng 3.9 So sánh kết quả của các phương pháp phân lớp ảnh hoa 88
xi
Trang 14MỞ ĐẦU
Tính cấp thiết của đề tai nghiên cứu:
Ngày nay, sự bùng nổ như vũ bão của CNTT và kỹ thuật số dẫn đến dữ liệu
trong thực tế gia tăng nhanh chóng cả về dung lượng lẫn chủng loại Học máy
và khai phá dữ liệu trở thành công cụ hiệu quả giúp con người giải quyết vấn
đề xử lý, phân tích thông tin, dữ liệu một cách tự động Phân lớp đối tượng làmột trong những chủ đề chính trong học máy và khai phá dữ liệu, đã và đangđược cộng đồng nghiên cứu và doanh nghiệp quan tâm do sự cần thiết và khả
năng ứng dụng thực tiễn trong nhiều lĩnh vực của cuộc sống.
Phân lớp (classfication) là tiến trình xử lý nhằm xếp dữ liệu hay đối tượng
được xem xét vào một trong các lớp được định nghĩa trước Các mẫu dữ liệu
chính là các đối tượng được phân lớp, được chuyên gia đo đạc, quan sát trựctiếp trên thực tế Khi đó, giá trị thuộc tính của các đối tượng mẫu có vai tròquan trọng, theo nghĩa do các đối tượng mẫu đã được xếp vào các lớp tươngứng, mỗi lớp sẽ được đặc trưng bởi tập các giá trị thuộc tính của các đối tượng
mẫu chứa trong lớp đó.
Phân lớp đối tượng là nhiệm vụ dễ dàng đối với con người, nhưng lại là một
bài toán phức tạp đối với máy móc Quá trình phân lớp thường bao gồm các
bước chính Bước đầu tiên, thu thập dữ liệu, tiền xử lý và trích chọn đặc trưng.Bước thứ hai, gọi là pha huấn luyện, phân tích di liệu và xây dựng mô hình
phân lớp phù hợp dựa trên dữ liệu huấn luyện Bước thứ ba, gọi là pha kiểm thử, đánh giá hiệu năng của mô hình phân lớp trên dữ liệu kiểm thử Cuối cùng,
nếu hiệu năng của mô hình phân lớp được khẳng định thì mô hình phân lớp đó
được sử dụng để phân lớp cho đối tượng dữ liệu mới về sau.
Phân lớp đối tượng được sử dụng rộng rãi trong nhiều miền ứng dụng khác
1
Trang 15nhau như: nhận dạng ngôn ngữ ký hiệu, cử chỉ, hành động, nhận dạng ảnh y
sinh, sinh trắc học, ảnh giám sát bằng video, điều hướng xe, giám sát trực quan
công nghiệp, điều hướng robot, viễn thám Thực tiễn luôn đặt ra yêu cầu kết
quả nhận dạng chính xác cao đi cùng với thời gian thực hiện nhanh, đây là một
thách thức rất lớn
Hàm cơ sở bán kính (Radial Basis Function - RBF) được giới thiệu bởi M.J.D.
Powell (1987) là hàm chỉ phụ thuộc vào khoảng cách từ đối số đến một điểm (gọi
là tâm) cho trước Mô hình hàm cơ sở bán kính (mô hình RBF) có cấu trúc đơn
giản, dưới dang tổ hợp tuyến tính của các hàm cơ sở bán kính Mô hình RBF là
một trong các mô hình cơ sở mạnh, được sử dụng rộng rãi trong phân lớp, xấp
xỉ hàm, dự đoán dit liệu theo thời gian Trong thực tế, mô hình RBF đạt được
hiệu năng phân lớp cao trong nhận dạng hình ảnh [42], nhận dạng giọng nói [3]
và nhận dạng cử chỉ của con người [40]
Tuy nhiên, độ phức tạp tính toán của mô hình RBE liên quan trực tiếp đến
số lượng các hàm cơ sở bán kính Mô hình đòi hỏi lượng tính toán lớn nếu sửdụng nhiều hàm cơ sở bán kính Điều này hạn chế khả năng ứng dụng của môhình này khi làm việc với các ứng dụng có dữ liệu lớn, phức tạp về yêu cầu thời
gian thực hiện Việc nghiên cứu khả năng xấp xỉ mô hình RBE bằng các mô
hình RBF rút gọn có tiềm năng tăng hiệu năng của mô hình về mặt thời gianthực hiện trong khi vẫn đảm bảo hiệu năng về độ chính xác dự đoán Mục tiêuchung của những nghiên cứu về mô hình RBE trong thời gian gần đây là tìmkiếm các mô hình RBF rút gọn với số ít hàm cơ sở cho phép tính toán nhanh
hơn Mô hình RBF rút gọn có ý nghĩa thực tế, đặc biệt trong các ứng dụng yêu
cầu xử lý thông tin nhanh như xử lý dữ liệu truyền từ các cảm biến theo thời
gian thực, xử lý tín hiệu video, hình ảnh, an toàn và bảo mật thông tin.
Việc nghiên cứu, đánh giá sự phù hợp của các mô hình RBF rút gọn đối vớicác loại dữ liệu khác nhau trong các lĩnh vực thực tế khác nhau là cần thiết
Cùng với sự bùng no của thông tin và các ứng dụng, dữ liệu ngày càng trở nên
Trang 16đa dạng và phức tạp hơn Các sự vật, hiện tượng được mô tả liên kết bởi cácloại dit liệu số, phi số khác nhau dưới dạng các véctơ giá trị liên tục, rời rac.
Mối liên hệ giữa các sự vật, hiện tượng là đa chiều Những kết quả nghiên cứu
cho phép đóng góp trực tiếp vào các ứng dụng có tính thời sự hiện nay, như xử
lý dữ liệu đa phương tiện, phân tích mạng xã hội, an toàn bảo mật thông tin.
Các ứng dụng xử lý dữ liệu đa phương tiện yêu cầu các mô hình học máyđược xử lý và huấn luyện với một lượng dữ liệu mẫu lớn hơn, với độ chính xáccao Diều này đòi hỏi nghiên cứu những phương pháp học máy có khả năng huấn
luyện hiệu quả trên các tập dữ liệu mẫu lớn hơn.
Muc tiêu nghiên cứu:
Luận án nghiên cứu và phát triển mô hình RBF với số lượng hàm cơ sở được rut gon có thể huấn luyện trên các tập dữ liệu theo hai cách tiếp cận khác nhau:
hàm quyết định với lề cực đại (maximum-margin) và học xác suất Bayes rútgon (sparse Bayes learning) Với cách tiếp cận thứ nhất, luận án tập trung vàocác phương pháp rút gọn số lượng hàm cơ sở nhưng vẫn đảm bảo độ chính xác
của các phương pháp học máy Với cách tiếp cận thứ hai, luận án phát triển các
phương pháp đảm bao mô hình RBF có kha năng huấn luyện hiệu quả trên các
tập dit liệu mẫu lớn hơn.
Mục tiêu chính của luận án bao gồm:
e Nghiên cứu tổng quan, đánh giá so sánh các phương pháp huấn luyện mô
hình RBF rút gọn với số ít hàm cơ sở Nghiên cứu sẽ phân tích, gợi ý sửdụng các phương pháp huấn luyện đối với các bài toán thực tế khác nhau
e Phát triển các phương pháp rút gọn số lượng ham cơ sở trong mô hình RBF
thỏa mãn hai tiêu chí độ chính xác và tốc độ thực hiện
e Phát triển các phương pháp cải thiện mô hình RBF rút gọn cho phép huấn
luyện hiệu quả trên các tập dữ liệu lớn hơn.
Đối tượng va phạm vi nghiên cứu:
3
Trang 17Để đạt được những mục tiêu trên, luận án thực hiện những nội dung nghiên
4 2
cứu cụ thể sau:
e Nghiên cứu tổng quan, đánh giá, so sánh phương pháp huấn luyện mô hình
RBF rút gọn dựa trên cách tiếp cận hàm quyết định với lề cực đại (SVM
sử dụng hàm nhân - RBE kernel support vector machines).
e Nghiên cứu tổng quan, đánh giá, so sánh phương pháp huấn luyện mô hình
RBF rút gon dựa trên học suy luận xác suất Bayes rút gon (sparse Bayes
learning).
e Phát triển các phương pháp rút gọn số lượng hàm cơ sở trong các mô hình
RBF rút gọn khi huấn luyện theo các thuật toán khác nhau
e Phát triển các phương pháp mới cải thiện mô hình RBF rút gọn dựa trên
cơ chế học xác suất Bayes nhằm nâng cao hiệu suất của các phương pháp
đã khảo sát, tăng cường khả năng làm việc của các phương pháp này đối
với các tập dữ liệu lớn hơn.
e Phân tích, đánh giá hiệu quả của các phương pháp huấn luyện mô hình
RBF rút gọn trong các ứng dụng phân lớp đối tượng
Phương phap nghién cứu:
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết, đề xuất mô
hình, thuật toán phân lớp cũng như nghiên cứu thực nghiệm để kiểm chứng,
đánh giá các đề xuất của luận án
Về nghiên cứu lý thuyết:
- Cơ sở lý thuyết của cách tiếp cận hàm quyết định với lề cực đại, chang han
như SVM, đặc biệt chú trọng đến ảnh hưởng của việc rút gọn số lượng véc-tơ
hỗ trợ trong hàm quyết định
- Cơ sở lý thuyết của các phương pháp huấn luyện mô hình RBF rút gọn dựa
Trang 18trên cơ chế học xác suất Bayes Phân tích sự điều chỉnh của cách tiếp cận nàyđối với các loại dữ liệu khác nhau gặp trong các ứng dụng thực tế.
- Nghiên cứu các phương pháp giải quyết hiệu quả bài toán tối ưu có trongcác vấn đề nghiên cứu trên, trong đó các bài toán tối wu được thực hiện trêncác dữ liệu véc-tơ nhiều chiều và ma trận kích thước lớn Hai hướng nghiên cứuquan trọng cần được quan tâm đặc biệt là sử dụng hiệu quả không gian bộ nhớ
và các phương pháp tìm kiếm nhanh trong không gian nhiều chiều
Về nghiên cứu thực nghiệm:
- Cài đặt các thuật toán huấn luyện mô hình RBF rút gọn bằng các công cụ
lập trình C/C++, Matlab.
- Thử nghiệm, đánh giá, phân tích các thuật toán được cài đặt trên các tập
dữ liệu phổ biến (benchmark datasets) khác nhau.
- Cải tiến cài đặt nhằm nâng cao tốc độ tính toán và hiệu quả sử dụng bộ
nhớ trong các thuật toán khác nhau.
Các đóng góp của luận án:
e Dé xuất thuật toán SimpSVM-SVD cho phép tăng tốc pha kiểm thử SVM
thông qua rút gọn nghiệm SVM, giảm số vectơ hỗ trợ (SV), đảm bảo độ
chính xác phân lớp không thay đổi nhiều Kết quả nghiên cứu này đã được
công bố trong các công trình [CT4, CT5]
e Dé xuất thuật toán FastRVM cho phép tăng tốc pha huấn luyện RVM, đảm
bảo giữ nguyên độ chính xác phân lớp.
Ngoài ra:
e Kết quả phân tích, so sánh và đánh giá các phương pháp huấn luyện mô
hình RBF rút gọn đối với phân lớp đối tượng và yêu cầu tính toán khácnhau Những kết luận về sự phù hợp của các phương pháp này trong những
điều kiện hoàn cảnh cụ thể [CT1, CT2].
Trang 19e Kết quả nghiên cứu cho phép tăng cường kha năng làm việc của phương
pháp RVM hiện tại trên các tập dữ liệu lớn hơn.
e Nghiên cứu ứng dụng các mô hình RBF rút gọn trong nhận dạng đối tượng,
cụ thể là phân lớp đối tượng trong các bài toán thực tế như nhận dạng ngôn
ngữ ký hiệu, nhận dạng cử chỉ, hành động, phân lớp ảnh hoa |CT1, CT2,
CT3]
Bồ cục của luận ám:
Ngoài phần mở đầu và phần kết luận, Luận án được chia thành 3 chương với
bố cục như sau:
Chương 1: MO HÌNH RBF RUT GON TRONG BÀI TOÁN PHAN LỚP.
Chương 1 giới thiệu khái quát về mô hình RBE rút gọn nói chung và đi vào
chỉ tiết về hai mô hình RBF cụ thể: mô hình RBF dựa trên lề cực đại (được thể hiện tiêu biểu trong SVM) và mô hình RBF dựa trên suy luận xác suất Bayes (được thể hiện tiêu biểu trong RVM) cùng với những đặc điểm của chúng.
Chương 2: CÁC THUẬT TOÁN HUAN LUYỆN NHANH MÔ HÌNH RBF RUT
GỌN.
Chương này đề cập đến các thuật toán huấn luyện mô hình RBE rút gọncùng với hai thuật toán cải tiến SimpSVM-SVD và FastRVM, trong đó thuật
toán SimpSVM-SVD nhằm mục đích tăng tốc pha kiểm thử, còn thuật toán
FastRVM nhằm mục đích tăng tốc pha huấn luyện Các thực nghiệm và đánhgiá hai thuật toán cải tiến SimpSVM-SVD và FastRVM cũng được thực hiện
trong chương này.
Chương 3: ỨNG DUNG MÔ HÌNH RBF RUT GON TRONG PHAN LỚP ĐỐI
Trang 20CHƯƠNG 1 MÔ HINH RBF RUT GON TRONG BÀI
TOÁN PHAN LỚP
Chương 1 của luận án giới thiệu tổng quan về mô hình RBF trong bài toán
phân lớp Phần đầu tập trung vào giới thiệu mô hình RBF Các phan sau của
chương trình bày hai mô hình RBF: mô hình RBF dựa trên cách tiếp cận hàm
quyết định với lề cực đại (tiêu biểu là Support Vector Machine - SVM) và mô hình RBF dựa trên suy luận xác suất Bayes (tiêu biểu là Relevance Vector
Machine - RVM) Phần cuối phân tích về độ phức tạp tính toán của các thuật
toán SVM và RVM.
1.1 Giới thiệu mô hình RBF
Mô hình ham cơ sở bán kính (mô hình RBF) là mô hình cơ ban đã được sử
dụng trong giải quyết nhiều vấn đề khác nhau và đang tiếp tục được ứng dụng
rộng rãi trong nhiều ứng dụng thực tế khác nhau như phân lớp, xấp xỉ hàm, dự
đoán dữ liệu theo thời gian [4, 69] Mô hình RBF có cấu trúc đơn giản, dưới
dạng tổ hợp tuyến tính của các hàm cơ sở:
M
Ji) = À ` widi(x) +0 (1.1)
i=l
O đây, thường dùng hàm cơ sở bán kính (Radial Basis Function - RBF) ø¿(z) =
exp(—y||2 — «||?),¡ = 1, ,M chỉ phụ thuộc vào khoảng cách từ đối số z đến một
điểm cho trước c; (gọi là tâm) với độ rộng + và M là số hàm cơ sở bán kính ¢; của mô hình sử dụng để tính hàm ƒ.
Về mặt lý thuyết, hàm quyết định dạng (1.1) có nhiều lợi thế Thứ nhất, khả
Trang 21năng khái quát hóa của mô hình RBF cao Có thể điều chỉnh không giới hạn
số chiều VC (Vapnik-Chervonenkis) trong phân lớp Do đó, có kha năng phântách bất kỳ một tập dữ liệu mẫu nào cũng như xấp xỉ các hàm biến số thựcvới độ chính xác tùy ý [7, 55] Thứ hai, cấu trúc tính toán của mô hình RBFkhông phức tạp bằng cấu trúc tính toán của mạng nơ-ron Trong thực tế, môhình RBF đạt hiệu quả phân lớp tốt trong các ứng dụng nhận dạng hình anh
[42], nhận dạng giọng nói [3] và nhận dạng cử chỉ của con người [40]
Mục tiêu chung của những nghiên cứu về mô hình RBF trong thời gian gan
day [71] là tìm kiếm các mô hình RBF có cấu trúc đơn giản, với số ít hàm cơ sở
@¡(#),¡ = 1, , M để giảm khối lượng tính toán trong (1.1), giúp tăng tốc độ tính
toán hàm ƒ Rút gọn mô hình RBF có ý nghĩa thực tế quan trong trong các ứng
dụng đòi hỏi đáp ứng yêu cầu xử lý thông tin nhanh như xử lý dữ liệu truyền
từ các cảm biến, xử lý tín hiện video, hình ảnh, an toàn và bảo mật thông tin
Để tìm được hàm quyết định dạng (1.1), có nhiều cách tiếp cận thể hiện qua
các hàm mục tiêu khác nhau, trong mỗi cách tiếp cận có nhiều cách giải khácnhau Các phần tiếp theo sẽ trình bày hai cách tiếp cận xây dựng và sử dụng
mô hình RBF trong bài toán phân lớp là SVM và RVM.
1.2 SVM: mô hình phân lớp RBF dựa trên lề cực dai
Máy vectơ hỗ trợ (Support Vector Machine - SVM) do Cortes, Vapnik đưa ra
[11] là phương pháp học máy cho phép giải quyết hiệu quả bài toán phân lớp vàbài toán hồi quy Thuật toán này dựa trên nền tảng toán học chặt chẽ của lý
thuyết tối ưu Ý tưởng chính của SVM là chuyển tập mẫu từ không gian biểu
diễn ban đầu R” sang một không gian mở rộng R“ có số chiều lớn hơn Điểm khác biệt là trong không gian R¢ có thể tìm một siêu phẳng tối ưu phân tách tập mẫu, nghĩa là tìm được miền phân bố của các lớp trong không gian biểu
diễn R” và xác định được lớp của đối tượng đầu vào
Trang 22ø siêu phẳng
phân tách mặt phân tách
Hình 1.1: Siêu phẳng phan tách tập mẫu trong không gian R¢
Cũng như mạng nơ-ron, phương pháp SVM có tính tổng quát cao, có thể áp
dụng cho nhiều bài toán phân lớp khác nhau Phương pháp SVM gồm hai pha
cơ bản: pha huấn luyện và pha kiểm thử.
Có hai trường hợp đối với tập mẫu: thứ nhất, tập mẫu có thể phân tách tuyến
tính được và thứ hai, tập mẫu không thể phân tách tuyến tính được Ứng với
hai trường hợp tập mẫu, ta có hai loại SVM.
1.2.1 SVM tuyén tính
Khi tập mẫu có thể phân tách tuyến tính được, có hai trường hợp cần xem
xét: tập mẫu không có nhiễu, tập mẫu có nhiễu.
1.2.1.1 SVM với tập mẫu phân tách tuyến tính không có nhiễu
Dây là trường hợp đơn giản nhất Trong trường hợp này, tập mẫu được phân
tách tuyến tính bằng một siêu phẳng nào đó, không có nhiễu theo nghĩa tất cả các điểm được gán nhãn 1 thuộc về phía dương của siêu phẳng và tất cả các điểm được gán nhãn -1 thuộc về phía âm của siêu phẳng Giai đoạn huấn luyện
trong phương pháp SVM sẽ tìm siêu phẳng này.
Giai đoạn huấn luyện SVM
Trang 23Hình 1.2: Siêu phẳng phân chia hai tập mẫu
sao cho khoảng cách Euclid giữa hai lớp là lớn nhất (Hình 1.2) Ta gọi các vecto
thuộc tập mẫu gần siêu phẳng nhất là vectơ hỗ trợ (Support Vector - SV).
Giả sử phương trình siêu phẳng cần tìm là wx + b = 0, trong đó œ là vecto pháp tuyến của siêu phẳng, w € #“ Ta có hai bất phương trình sau:
waj +b < —1 với Va; € R“,ị = —1
(1.3)
+0; + b > +1 với Vr; € R",y, = +]
Kết hợp hai bất phương trình trên, ta có:
yi(wa; + b)-1>0 (1.4)
Khi đó, các vectơ hỗ trợ x; thỏa mãn phương trình wa; + b = —1 thì nằm trên
siêu phẳng Hj, còn các vectơ hỗ trợ x; thỏa mãn phương trình wa; + b = 1 thì
10
Trang 24nằm trên siêu phẳng Hy.
Khoảng cách (có dấu) d; từ gốc tọa độ đến Hy là: đị = (1 — ð)/||e||
Khoảng cách (có dấu) dz từ gốc toa độ đến Hp là: dạ = (—1 — ð)/||e||
Khoảng cách phân tách d giữa Hy và Hạ là: d = |di — dạ| = 2/||w|
Do đó, để có đ lớn nhất thì ||w|| phải nhỏ nhất hay tương đương tim cách cực tiểu 4||w||? (được biến đổi một chút để dé tìm sau này).
Phuong an cực tiểu 3||u||
Bài toán: Tìm cực tiểu của $||w||? theo w và b với ràng buộc (+; + b) — 1 > 0
VỚI ¡ = 1,2, ,N.
Đây là một bài toán tối ưu có ràng buộc, trong đó hàm mục tiêu là một hàmlồi và miền ràng buộc cũng là một tập lồi
Do có tính lồi nên để giải bài toán trên, có thể chuyển qua giải bài toán đối
ngẫu tương ứng Bài toán đối ngẫu [11] là:
Tìm cực đại của 6(u) với u € RN, u > 0, trong đó:
N
0 (u) = inf {i — d [ys (w.2; + b) —1J:w € R",b 2] (1.5)
Để giải bài toán đối ngẫu, trước tiên ta cần tìm cực tiểu của
Vì L là ham hai biến +», b bac hai không ràng buộc nên theo điều kiện Fermat,
cực tiểu của L xảy ra tại w và b [11] sao cho:
Trang 25Lúc đó giá trị cực tiểu của L là:
Giải bài toán nay ta tìm được u va từ đó tính được w theo công thức (1.7).
Để tính b, van dụng điều kiện Karush-Kuhn-Tucker cho bài toán gốc, ta có
được:
Do đó, đối với mỗi i thì có hai trường hợp:
+ u; = 0: trong trường hợp này y;(w.2; +b) — 1 > 0 => 2; không nằm trên siêu
phẳng biên ¡ hay Ho Vì wu = 0 nên 2; không cần thiết và có thể được bỏ di
mà không ảnh hưởng đến w
+ uj > 0: lúc này (a0 +b) — 1 = 0 = 2; nằm trên siêu phẳng biên Hị hay
Hạ Khi đó x; được gọi là vectơ hỗ trợ và tham gia vào việc tính w.
Thông thường, số lượng vectơ hỗ trợ nhỏ hơn nhiều so với số lượng mẫu Do
Trang 26Hình 1.3: Tap mẫu không thể phân hoạch bằng một siêu phẳng
Vậy ta đã tính được w và b nên xác định được siêu phẳng phân tách.
Giai đoạn phén lớp
Giả sử có một mẫu dữ liệu cần phân lớp z* nào đó, hàm phân lớp y* của z*
(-1 hay 1) được xác định thông qua công thức:
N
y* = ƒ (+) = sign (wa* +b) = sign (> tia” + ) (1.13)
i=1
1.2.1.2 SVM uới tập mau phân tách tuyến tính có nhiễu
Tập mẫu có thể phân tách tuyến tính nhưng có nhiễu (lỗi) được biểu diễn trong Hình 1.3 Trong trường hợp này, hầu hết các điểm trong tập dữ liệu được phân chia bởi siêu phẳng tuyến tính Tuy nhiên, có một số ít điểm nhiễu, nghĩa
là điểm có nhãn dương nhưng lại thuộc về phía âm của siêu phẳng hoặc điểm
có nhãn âm lại thuộc về phía dương của siêu phẳng Van đề đặt ra làm thé nào
có thể tận dụng siêu phẳng phân tách tập mẫu này?
Để có thể áp dụng phương pháp trong phần trước, ta gán cho mỗi mẫu z; một sai số £¡ để “xem như có thể phân tách tuyến tính” [11].
+0ø¿ + b > +] — É¡ VỚI = +1
t0; + b < —1+ễ¡ VỚI y; = —] (1.14)
& > 0;i=1,2, ,N
13
Trang 27Cũng tương tự như phần trước, ta phải đi tìm cực tiểu của biểu thức sau:
Bài toán đối ngẫu của bài toán trên sẽ là:
Cực đại: 0(u,u) với uc RN, ve RŸ,u>0,u>0, 6 day:
i=l i=l i=l
xay ra tai w, b, € sao cho:
Trang 28Lúc đó, giá trị cực tiểu của 7 là:
Bài toán này giống bài toán (1.9), chi có thêm điều kiện u; < C Giải bai toán
này ta tìm được u và từ đó tính được w theo công thức (1.19) tức w = > UiYiLis
trong đó 2; là các vectơ hỗ trợ va các vectơ lỗi (ứng với 0 < uj; < C) và Ai, là số
lượng vectơ hỗ trợ và vectơ lỗi Dé tìm b, sử dụng điều kiện Karush-Kuhn-Tucker
cho bài toán gốc ta có:
0[U;(t00.® + b) — 1 + &] = 0 (1.23)
UiE; =0 (1.24)
Chọn một u; sao cho 0 < uj < C Theo (1.23), khi đó y;(w.2; +b) -1+& =0 Do
C—u;—v; = 0 đã xác định v; > 0 nên có thêm €; = 0 để điều kiện (1.24) xảy
ra Từ đó có thể tính được b = y, — z; Vậy ta vẫn có thể tìm được siêu phẳng phân tách tập dữ liệu mẫu có nhiễu Siêu phẳng như vậy được gọi là siêu phẳng
khoảng cách phân tách mềm (soft-margin hyperplane)
15
Trang 29Hình 1.4: Một mặt phân chia phi tuyến trở thành một siêu phẳng trong không
1.2.2 SVM phi tuyến sử dung ham nhân RBF
Không phải tap dữ liệu mẫu nào cũng có thể phân tách tuyến tinh được Trong trường hợp tổng quát, mặt phân tách có thể là phi tuyến (Hình 1.4) Xét
các mau z; trong không gian R” được gọi là không gian đầu vào (input space)
[64] Để tìm mặt phi tuyến trong không gian này, ta áp dụng kỹ thuật ánh xạ
các vectơ mẫu 2; từ #“ vào một không gian # có số chiều lớn hơn (d > n, d
có thể rất lớn) [64] sao cho trong không gian d-chiéu này, tập dữ liệu có thể
phan tách tuyến tính được ## được gọi là không gian đặc trưng (feature space)
[64] Với không gian đặc trưng, áp dụng phương pháp SVM trong trường hợp
tuyến tính để xác định siêu phẳng phân tách trong không gian đặc trưng R? Siêu phẳng này tương ứng với mặt phi tuyến trong không gian R”.
Ánh xạ từ không gian R” vào không gian R¢ được ký hiệu là ở:
Trang 30gian R@ cho các mẫu #(z;), siêu phẳng này sẽ có dạng:
N
À wii < o(xi), O(x) > +b =0 (1.27)
i=l
Khi đó, ham phân tach trong không gian R” chính là ham hợp 1®, trong đó f
là hàm phân lớp trong không gian ## Rõ rang đây là một hàm phi tuyến trongkhông gian R”.
Cách tiếp cận này gặp khó khăn là ham ø(z) có thể có số chiều rất lớn (do
không gian ## có kích thước đ lớn) Do đó, tiêu tốn thời gian tính toán Tuy
nhiên, có thể nhận xét rằng tính toán ø(z) chỉ xuất hiện dưới dạng tích vô hướng
tức là dang < (x), ¢(y) >, không xuất hiện đơn lẻ Day là một nhận xét quantrọng cho phép tìm ra quy tắc sau:
Thay vì sử dụng dạng tường minh của ø(z), chi cần sử dụng hàm biểu diễn
giá trị vô hướng < ø(z),ø() > Đặt K(a,y) =< o(x), o(y) >, K(z,w) được gọi là
hàm nhân (kernel function).
Như vậy, chỉ cần biết dạng của hàm nhân #{(z,ø), không cần biết cụ thể ánh
này đã được Mercer [11] đề xuất
Phương pháp SVM trong trường hợp phi tuyến dẫn đến bài toán tìm hàm
nhân K(z,ø), trong đó hàm nhân là hàm cơ sở bán kính (RBF) thường được sử
dụng nhiều nhất trong thực tế Sau đó, giải bài toán siêu phẳng phân tách mềm với việc thay (1,72) bằng K(z¡,za) để tìm ra u và b.
Không mất tính nhất quán, ta sử dụng cùng ký hiệu hàm phân lớp đối với
17
Trang 31trong đó a; = wy; là trọng số của vectơ hỗ trợ 2;, z là vectơ đầu vào cần phân
lớp, K(x, 2:) =< ¢(x), o(a;) > là một hàm nhân tích vô hướng của hai vectơ ó(z)
và ¢(2;) trong không gian đặc trưng, là độ lệch va Ng là số vectơ hỗ trợ Nhiệm
vụ của quá trình huấn luyện SVM là xác định tất cả các tham số 2;,0;,b, Ns,với kết quả {2;,i = 1, , Ng} là một tập con các vectơ hỗ trợ của tập huấn luyện
Vì SVM được thiết kế chủ yếu để phân hai lớp nên sẽ phải dùng nhiều SVM
để phân nhiều lớp cho các ứng dụng phân lớp đa lớp Cách hay làm nhất là sử dụng 7 bộ phân hai lớp SVM theo nguyên tắc một-chọi-còn lại Cũng có thể
dùng T(T —1)/2 bộ phân lớp SVM một-chọi-một, trong đó 7 là số lớp Nói cách
của con người [40] Kết hợp với sử dụng ham nhân là ham cơ sở bán kính, kha
năng khái quát hóa cao của SVM gắn với đặc tính của siêu phẳng tối ưu, cực
đại hóa khoảng cách tới các mẫu huấn luyện trong không gian đặc trưng với sốchiều cao [11]
18
Trang 321.3 RVM: mô hình phân lớp RBF dựa trên suy luận
Bayes
Một cách tiếp cận khác trong việc xây dựng hàm quyết định (1.1) là dựa trên
suy luận Bayes, một kiểu suy luận thống kê mà trong đó các quan sát hay bằng chứng được dùng để cập nhật hoặc suy luận ra xác suất cho việc một giả thuyết
có thé là đúng Trong phần này, luận án sẽ trình bày chi tiết một mô hình RBF
dựa trên nền tảng xác suất Bayes, gọi là RVM (Relevance Vector Machine) doTipping đề xuất [75], cho phép xác định hàm quyết định dạng (1.1) rút gọn, có
khả năng khái quát hóa cao.
RVM là mô hình có dạng giống SVM [75] nhưng RVM huấn luyện dựa trênsuy luận Bayes và dự đoán dựa trên phân phối xác suất, còn SVM dựa trên ước
lượng điểm RVM có khả năng khái quát tương đương với SVM, nhưng sử dụng
ít hàm nhân hơn một cách đáng kể [75]
Tiếp theo, luận án giới thiệu mô hình Bayes [76] cho bài toán hồi quy, sau đó
mở rộng cho bài toán phân lớp.
1.3.1 Mô hành Bayes rút gon
Cho trước một tập dit liệu mẫu D = {(z;,¡),#¡ € R",y; € R,¡ = I, , N}, cần
xây dựng mô hình phụ thuộc của y vào x Giả định các mẫu của mô hình có nhiễu «¿ Khi đó, công thức xác định giá trị như sau:
y = ƒ(,)+c (1.32)
trong đó ¢ là nhiễu có phân phối Gaussian với trung bình là 0 và phương sai
là o? Ham f(z,w) xác định theo (1.1) và ¢;(x) = K(z,z¡) như đối với mô hình
SVM Các hàm j;(z) được gọi là các hàm cơ sở tương ứng với các vect0 cơ SỞ aj.
19
Trang 33Xác suất của y dựa trên tập dữ liệu mẫu:
Nhằm han chế số lượng các thành phan trọng số w; 4 0, Tipping [75] sử dung
thêm các ràng buộc tiên nghiệm (prior) là mỗi trọng số w; có phân bố chuẩn với
giá trị trung bình là 0 và một siêu tham số a; cho phương sai:
N
p(ø|a) = | [2X@n|0,a;) (1.35)
i=l
trong đó a = (a4, a2, ,ay)!
Xác suất hậu nghiệm của trong số +» trên tập mẫu:
trong đó A= diag(ao, 1, + QN), ®¿; = bj (x) va 0 = (®¿j)N x1 được gọi là ma
trận "thiết kế" (design matrix) với mỗi cột là một hàm cơ sé [76].
Xét cực đại ham likelihood lề của tập dữ liệu mẫu đối với siêu tham số a:
p(0|z,a,ø?) = / pyle, w, 02)p(wla)de, (1.38)
20
Trang 34ta lấy cực đại hàm logarit của likelihood:
£(a) = log p(ylx, œ,ø”) = log.M(w|0, C)
‘ (1.39)
= —gIN log 2m + log |C| + y? C7" y]
VỚI
Œ=ø?I+®A 1œ? (1.40)
theo phương pháp cực dai likelihood loại II |6].
1.3.2 Phân lớp véi mô hành Bayes rút gọn
Cho trước một tập dữ liệu được phân hai lớp D = {(#¡,¡),z¡ € Ry €
{0,1},i = 1, , N}, ta có thể mở rộng phương pháp RVM cho bài toán hồi quy
sang áp dụng cho bài toán phân lớp thông qua kết hợp mô hình (1.1) của hàm
cơ sở với ham logistic sigmoid:
N
p(w|z,tø) = | J o( F(a, w))" [1 = ø(ƒ0¡, w))]TM (1.42)
i=l
Theo suy luận Bayes, xác suất hậu nghiệm của trong số w trên tập mau:
p(wly, a) = are sae (1.43)
trong đó xác suất tiên nghiệm p(w|œ) theo công thức (1.35)
21
Trang 35Với các giá trị cố định của a, ta có log xác suất hậu nghiệm trọng số:
log p(wly, œ) = log(p(y|w)p(wl|a)) — log p(w|e)
~ Tự (1.44)
=2 -kilngti+ (L— ys) log(1 — 8)] — Sw" Aw
với t; = o( f(a; w)), A = diag(ao, a1, ,ay) Nhu vậy, để ước lượng likelihood cực
đại (1.42) với các điều kiện ràng buộc (1.35) tương đương với việc tìm cực đại
trong dé B = diag((4, 8a, , 8n) là ma trận đường chéo với 6; = of f(x, w)}[1 —
a(f(xi,w))], ® = (®ij)nxu VỚI ®¿j = (1).
Để tim cực đại, ta cho đạo ham cấp một trong (1.45) bằng 0, thu được kết
Có thể sử dung xấp xi Laplace dé tính và cập nhật siêu tham số a theo phương
pháp của MacKay trong [44].
Trường hợp bài toán phân 7 lớp (T > 2), likelihood của tap dữ liệu mẫu đối
với các trọng số + trong (1.42) được khái quát thành dạng chuẩn:
N T
P(tw) = ][] [c06¡.0;))9 (1.48)
i=1 j=l
22
Trang 36trong đó bộ phân lớp có nhiều đầu ra ƒ;(z,+;) với trọng số w; và siêu tham sốa; kết hợp Tuy không cần phải kết hợp đa bộ phân lớp theo cách heuristic như
trường hợp SVM, nhưng kích cỡ của © tỉ lệ với 7, đó là một nhược điểm về mặttính toán.
1.4 Độ phức tạp tính toán của các thuật toán
1.4.1 Độ phức tạp tính toán của SVM
Nghiệm của SVM được tham số hóa bởi một tập con các mẫu huấn luyện gọi
là các vectơ hỗ trợ và trọng số tương ứng của chúng Sử dụng tập véctơ hỗ trợgiúp giảm độ phức tạp xây dựng mô hình SVM từ độ phức tạp hàm mũ xuống
còn độ phức tap đa thức [11] Trong pha kiểm thử, khi một mẫu kiểm thử mới
x được đưa ra, đối với cả SVM hai lớp và SVM đa lớp, thủ tục tốn kém nhất
là SVM so sánh nó với toàn bộ các SV thông qua các tính toán hàm nhân K.
Tính toán này tỉ lệ tuyến tính với số SV (ký hiệu bởi Ng) Như vậy, pha kiểm
thử của SVM có độ phức tạp Ó(Ws), ma Ng thường tăng theo số lượng dữ liệuhuấn luyện Trong nhiều trường hợp, số lượng lớn các SV này chính là nguyênnhân làm cho hàm quyết định (1.1) tính toán lâu hơn
Ta thấy SVM là kỹ thuật phân lớp hiệu quả cho phép xử lý trên tập mẫu
kích thước lớn Tốc độ xử lý của SVM sau khi đã được huấn luyện vẫn bị chậm
là một trong những trở ngại cho việc ứng dụng thực tế Trong pha kiểm thử,
SVM chậm hơn đáng kể so với các phương pháp học máy khác với cùng một
hiệu năng khái quát tương tự như: cây quyết định [8], mạng nơron [60]
Để tăng tốc SVM, có hai hướng tiếp cận là rút ngắn thời gian pha huấn luyện
[14, 58] hoặc day nhanh pha kiểm thử [8] Theo cách tiếp cận của luận án, daynhanh pha kiểm thử có ý nghĩa trong thực tiễn, vì sẽ tạo ra máy dự đoán nhanh
Mục tiêu của luận án tập trung làm tăng tốc pha kiểm thử SVM, bằng cách
giảm số lượng các SV, không cần tất cả Ng vectơ hỗ trợ gốc ban đầu, mà chỉ
23
Trang 37cần một số lượng nhỏ hơn Nz (Nz < Ng) các vectơ mới, sao cho mô hình nhận
được vẫn đảm bảo độ chính xác trong quá trình sử dụng.
1.4.2 Độ phức tạp tính toán của RVM
Rất khó có thể định lượng chính xác độ phức tạp tính toán của RVM, do kích
thước của các ma trận trong (1.37) có thể giảm theo quá trình xử lý cập nhật
trong số [89] Phép nghịch đảo ma trận trong (1.37) có độ phức tap O(N?) [75].Day là phần tính toán lớn trong thuật toán Các ma trận ® và Š` đều có hạngday đủ, do đó độ phức tạp không gian là O(N?) [7ð] Việc lấy nghịch đảo của ma
trận kích thước lớn hơn sẽ trở nên khó khăn sau một vài bước tính toán, ngay
cả đối với ma trận xác định dương Các van đề này làm cho huấn luyện RVM bi
chậm, làm giảm tính thực tiễn của phương pháp RVM với các bài toán có kích
thước lớn hơn Mục tiêu của luận án là tăng tốc pha huấn luyện của RVM và
cải thiện để RVM có thể làm việc với những tập dữ liệu lớn hon, dap ứng các
yêu cầu thực tiễn
1.5 Mô hình lai học sâu và RBE
Những năm gần đây, các mô hình học sâu (DL) trở thành xu hướng chủ đạotrong phân tích dữ liệu lớn, đã được áp dụng rộng rãi và thành công trong nhiều
lĩnh vực như: nhận dạng ảnh [24], nhận dạng giọng nói [30], xử lý ngôn ngữ tự
nhiên [54], chan đoán bệnh [70] do có hiệu năng vượt trội so với các mô hình
học máy truyền thống
1.5.1 Mô hành học sâu trong phân lớp
Trong các mô hình học máy trước đây, các đặc trưng được trích xuất một
cách thủ công, đôi lúc được gọi là đặc trưng “nông” (shallow features), được
trích chọn dựa trên tri thức miền cụ thể Việc trích chọn chúng tốn thời gian và
24
Trang 38thường khó áp dung cho một số dạng dữ liệu như hình ảnh thô (raw images)
Các mô hình học sâu có khả năng tự động trích chọn các đặc trưng từ dữ liệu
đầu vào ví dụ như các hình ảnh thô Các đặc trưng này được xem là đặc trưng
mức cao và trừu tượng, thường hiệu quả hơn cho việc phân lớp so với các đặc trưng "nông" Các đặc trưng học mức cao được trích chọn trong các mạng học
sâu tỏ ra rất hiệu quả trong thị giác máy, xử lý tiếng nói
Các kỹ thuật phân lớp ảnh khác nhau ở tầng đầu ra trong các mạng học sâuvới cấu trúc khác nhau Yuan, Sang, Xu [90] sử dung cấu trúc da tầng mạng
tin cậy sâu (DBN) để học đặc trưng trực quan và đặc trưng thẻ trong ảnh Tang, Liu, Lei, Song, Tao, Sun, Dong [74] giải quyết phân lớp biểu đồ nhờ sử
dụng DBN cho các đặc trưng được trích chọn nhờ mang CNN Các đặc trưng được trích chọn trong mô hình học sâu khá hiệu quả khi xử lý tập dữ liệu cỡ
lớn Trong [29], Krizhevsky, Sutskever, Hinton huấn luyện mang CNN cỡ lớn
để phân lớp 1,2 triệu ảnh có độ phân giải cao thành 1000 lớp khác nhau trong
ImageNet LSVRC.
Các ứng dụng phân lớp anh sử dung CNN để trích chọn đặc trưng có hiệu
năng cao Các đặc trưng sâu được trích chọn trong mạng CNN vượt trội so với
các đặc trưng “nông” được trích chọn thủ công (Hình 1.5).
om Pooling Convolution oa Pooling» \ Fully, = Fully Output Predictions\qrectes Cofgected
Mu: cm TH mài Se es ee Been tai
Trích xuất đặc trưng Phân lớp
Hinh 1.5: Mô hình CNN phân lớp anh
Niu, Suen [52] đề xuất CNN có nhiều tang (layer) với kiến trúc sâu hợp thành
của bộ trích chọn đặc trưng tự động và bộ phân lớp Bộ trích chọn đặc trưng
tự động có tầng ánh xạ và tầng trích chọn đặc trưng từ ảnh tương ứng với hai
25
Trang 39phép toán: lọc tích chập (convolutional filters) và giảm mau (pooling) Trọng
số của liên kết nơron với bộ phân lớp và trọng số các liên kết nơron trong bộtrích chọn đặc trưng được xác định qua các bước huấn luyện theo phương pháp
truyền ngược sai số Ưu điểm của bộ phân lớp CNN là trích chọn tự động các
đặc trưng của ảnh đầu vào Các đặc trưng này thường là bất biến với sự dịch
chuyển, biến dạng hình học của các dit liệu đầu vào Trong khi đó, trích chon
đặc trưng "nông" rất mất công, phải 4p dụng nhiều kiểu đặc trưng khác nhau
để có được sự bất biến đối với biến dạng hình học của dữ liệu đầu vào Bộ trích
chọn đặc trưng tự động sử dung CNN [31] cho phép bất biến đối với biến dạngđàn hồi hoặc biến dạng affine, do vậy khá hiệu quả khi nhận dang chữ viết tay
Li, Wang, Cheng, Liu [35] đề xuất mô hình phân loại bệnh tăng nhãn áp bangcách kết hợp nhiều đặc trưng được các CNN khác nhau trích chọn
Thông thường, các ứng dụng phân lớp ảnh sử dụng các đặc trưng của tầng
cuối cùng trong mạng hoc sâu dé phân lớp Tầng cuối cùng khá nhạy cam với các
thông tin ngữ nghĩa, trong khi đó các tầng trung gian ít nhạy cảm với ngữ nghĩa
hơn, nhưng có khả năng bảo toàn chỉ tiết hơn Các tầng thể hiện tính phân cấp
của các đặc trưng [91] Do đó, có thé xem các tầng CNN khác nhau tương ứng
với các mức độ trừu tượng khác nhau Lei, Song, Sun, Song, Li, Chen [34] dé
xuất mô hình cây quyết định sâu (DDT) để phân biệt các đối tượng, tương đồng
với việc sử dụng các đặc trưng được trích chọn từ các tầng khác nhau Đầu tiên,các đặc trưng trong các tầng được trích chọn làm đầu vào trong DDT Trong
pha huấn luyện, các đặc trưng từ các tầng trước được dùng để trích chọn đặc trưng ở tầng sâu hơn Trên thực tế, nhiều DDT được huấn luyện và kết hợp để
đưa ra kết quả phân lớp cuối cùng
1.5.2 Mô hành lai CNN-SVM
Niu, Suen [52] đề xuất mô hình lai CNN-SVM trong nhận dạng chữ viết tay
(Hình 1.6) Mô hình lai CNN-SVM kết hợp sức mạnh tổng hợp của hai mô hình
26
Trang 40phân lớp CNN va SVM Kiến trúc của mô hình lai CNN-SVM được thiết kếbằng cách thay tầng đầu ra cuối cùng của CNN bằng một bộ phân lớp SVM.
Trong mô hình này, CNN hoạt động như bộ trích chọn đặc trưng, còn SVM hoạt động như bộ phân lớp Mô hình lai cho phép tự động trích chọn đặc trưng từ
ảnh thô, pha nhận dạng phân lớp đầu vào nhờ SVM
Full Connection
5 by 5 Covolution Kernel
Full Connection
Input Layer 1°! Feature Map Layer —-2* Feature Map Layer <a owls
sialon mi Saby Se Noi Ss by Ss Units Units
Full Connection [SYM ¥ New
5 by 5 Covolution Kernel | ecision
Hình 1.6: Mô hành lai CNN-SVM nhận dang chữ viét tay [52]
Omara, Xiao, Amrani, Yan, Zuo [53] đưa ra hệ thống nhận dạng, phân lớpsinh trắc học đa phương tiện đối với hình ảnh mặt và tai Tác giả đề xuất cách
khai thác các đặc trưng được trích chọn từ CNN trên các ảnh mặt và tai, đưa
ra các đặc trưng cho phép phân biệt mạnh Đầu tiên, các đặc trưng của ảnhmặt và tai được trích chọn dựa trên mạng VGG-M Tiếp theo, các đặc trưngđược hợp nhất lại bằng cách sử dụng kỹ thuật DCA và cuối cùng, được phân
27