Luận án tiến sĩ Công nghệ thông tin: Nâng cao hiệu năng các mô hình Rbf rút gọn cho bài toán phân lớp

Các ứng dụng xử lý dữ liệu đa phương tiện yêu cầu các mô hình học máyđược xử lý và huấn luyện với một lượng dữ liệu mẫu lớn hơn, với độ chính xáccao.. Muc tiêu nghiên cứu: Luận án nghiên

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Quốc Thắng

LUAN AN TIEN SI CONG NGHE THONG TIN

Ha Noi — 2022

Trang 2

DAI HỌC QUOC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Chuyên ngành: Khoa học máy tính

Mã số: 9.48.01.01.01

LUẬN ÁN TIEN SĨ CÔNG NGHỆ THONG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 GS.TS Nguyễn Thanh Thủy

2 PGS.TS Nguyễn Đức Dũng

Hà Nội — 2022

Trang 3

LỜI CAM ĐOAN

Toi xin cam đoan các kết quả trình bày trong luận án là công trình nghiêncứu của tôi dưới sự hướng dẫn của các cán bộ hướng dẫn Các số liệu, các kếtquả trình bày trong luận án hoàn toàn trung thực và chưa được công bố trongcác công trình trước đây Các dữ liệu tham khảo được trích dẫn day đủ

Hà Nội, ngàu tháng năm 2022

Trang 4

LỜI CẢM ƠN

Trong quá trình nghiên cứu và hoàn thành luận án, nghiên cứu sinh đã nhận

được sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời độngviên của các nhà khoa học, các thầy cô giáo, đồng nghiệp và gia đình

Trước tiên, nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy GS.TS

Nguyễn Thanh Thủy, PGS.TS Nguyễn Đức Dũng đã tận tình hướng dẫn, động

viên và giúp đỡ trong quá trình nghiên cứu.

Cho phép nghiên cứu sinh chân thành cảm ơn các thầy cô giáo, các nhà khoahọc của Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã có các góp ý

quý báu cho nghiên cứu sinh trong quá trình thực hiện luận án này.

Nghiên cứu sinh chân thành cảm ơn Ban Giám hiệu, Khoa Khoa học Tự nhiên

- Công nghệ, Trường Đại học Tây Bắc đã tạo điều kiện thuận lợi để nghiên cứu

sinh hoàn thành nhiệm vụ nghiên cứu.

Cuối cùng, nghiên cứu sinh bày tỏ lời cảm ơn tới các đồng nghiệp, gia đình,

bạn bè đã luôn động viên, chia sẻ, ủng hộ và giúp đỡ nghiên cứu sinh vượt qua

khó khăn để đạt được những kết quả nghiên cứu trong luận án này.

NCS Phạm Quốc Thắng

1

Trang 5

MỤC LUC

MỤC LỤC ee iii

DANH MỤC CAC KY HIỆU, CÁC CHU VIET TAT vi

DANH MỤC CAC HINH VE vi

DANH MỤC CAC BANG BIEU ix

MỞ DAU eee 1 CHƯƠNG 1 MO HINH RBF RUT GON TRONG BÀI TOÁN PHAN LỚP 7 1.1 Giới thiệu mô hình RBE 7

1.2 SVM: mô hình phân lớp RBF dựa trên lề cực dai 8

121 SVM tuyến tính Ặ 9 1.22 SVM phi tuyến sử dụng hàm nhân RBF 16

1.3 RVM: mô hình phân lớp RBF dựa trên suy luận Bayes 19

1.3.1 Mô hình Bayes rút gọn 19

1.3.2 Phân lớp với mô hình Bayes rút gọn 21

1.4 Độ phức tap tính toán của các thuật toán 23

1.41 Độ phức tạp tính toán củaSVM 23

1.4.2 Độ phức tạp tính toán của RVM 24

1.5 Mô hình lai học sâu và RBF 24

1.5.1 Mô hình học sâu trong phân lốp 24

1.5.2 Mô hình lai CNN-SVM 26

1.5.3 Dé xuất mô hình lai CNN-RBF tổng quat 28

16 Kết chuong 0.0.0.0 000000000 cee 29

11

Trang 6

CHƯƠNG 2 CAC THUẬT TOÁN HUAN LUYỆN NHANH

2.1

2.2

2.3

2.4

2.9

MÔ HÌNH RBF RUT GON 30

Các phương pháp huấn luyện mô hình RBF rút gon 30

2.1.1 Các kỹ thuật tang tốeSVM 30

2.1.2 Các kỹ thuật tăng tốeRVM 34

Dữ liệu thực nghiệm và đánh giá hiệu nang phân lớp 35

2.2.1 Dữ liệu thực nghiệm 35

2.2.2 Đánh giá hiệu năng phân lớp 37

Thuật toán SimpSVM ngẫu nhiên 38

2.3.1 Thuật toán SimpSVM-GD 39

2.3.2 Đề xuất thuật toán SimpSVM-SVD 43

2.3.3 Thực nghiệm co 46 Thuật toán FastRVM 51

2.41 Thuật toán RVM2 00.000 ol 24.2 Đề xuất thuật toán FastRVM 55

2.4.3 Thực nghiệm Q Q 0.0.00 0 ee 57 Kết chương 61

CHƯƠNG 3 UNG DUNG MÔ HÌNH RBF RUT GON TRONG 3.1 3.2 PHAN LỚP DOI TUGNG 62 Phân lớp nhận dạng ngôn ngữ ký hiệu 62

3.1.1 Mô tả tập dữ liệu 65

3.1.2 Trích chọn đặc trung 0 00.0004 65 3.13 Lựa chọn tham số 000000004 66 3.1.4 Phân lớp ký hiệu 66

Phân lớp nhận dạng cử chỉ người 71

3.2.1 Tập dữ liệu vo 72 3.2.2 Trích chọn đặc trưng co 73

3.2.3 Luachonthams6 0 0 0000 00000 bee 74

1V

Trang 7

Tap dữ liệu 2 ee Trích chọn đặc trung - 004.

Lựa chọn tham s6 0.0.0000 00000 eee

Phân lớp anh hoa co.

3.4 Kết chuong 0.0.0.0.0.0.00 0000000002 eee

KET LUAN

DANH MUC CONG TRINH KHOA HOC

TAI LIEU THAM KHAO

89

92 93

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CNN Convolutional Neural Network

DBN_ Deep Belief Network

DCA_ Discriminant Canonical Analysis

DDT Deep Decision Tree

Trang 9

DANH MỤC CÁC HÌNH VE

Hình 1.1 Siêu phẳng phân tách tập mẫu trong không gian R# 9

Hình 1.2 Siêu phẳng phân chia hai tập mẫu 10

Hình 1.3 Tập mẫu không thể phân hoạch bằng một siêu phẳng 13

Hình 1.4 Một mặt phân chia phi tuyến trở thành một siêu phẳng trong không gian lớn hơn 000,4 16 Hình 1.5 Mô hình CNN phân lớp ảnh - 25

Hình 1.6 Mô hình lai CNN-SVM nhận dạng chữ viết tay [52] 27

Hình 1.7 Mô hình lai CNN-RBF tổng quát 29

Hình 2.1 So sánh thời gian huấn luyện giữa các SimpSVM 50

Hình 2.2 Tốc độ rút gọn va độ chính xác giữa các SVM rit gọn 51

Hình 2.3 Dồ thị của /(a;) đối với a; (trên thang do log) [77] 53

Hình 2.4 Thời gian huấn luyện giữa RVM2 và RVM [7ð] 58

Hình 2.5 Lỗi phân lớp và độ rút gọn của mô hình RVM2 và RVM [75] 58 Hình 3.1 Cách diễn đạt từ "thanks" trong ngôn ngữ Auslan [25] 64

Hình 3.2 Găng tay dụng cụ cùng các cảm biến ghi lại dit liệu cử chỉ biểu thị ký hiệu trong ngôn ngữ Auslan (nguồn: Internet) 64

Hình 3.3 Tìm kiếm trên ô lưới để tìm các giá trị tham số Ở,+ 67

Hình 3.4 Kiểm tra chéo 5-fold cho các mô hình thực nghiệm 67

Hinh 3.5 D6 chính xác và độ đo 1 của các thuật toán SVM, SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trên 3 kiểu đặc trưng 68 Hình 3.6 Số vectơ cơ sở của các thuật toán SVM, SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trên 3 kiểu đặc trưng 69

vii

Trang 10

Hình 3.7 Thời gian huấn luyện của SimpSVM-GD, SimpSVM-SVD,

RVM2 và FastRVM với 3 loại đặc trưng 70

Hình 3.8 Cảm biến Kinect của Microsoft (nguồn: Internet) 72 Hình 3.9 Cảm biến Kinect ghi lại dữ liệu về khung xương (nguồn:

Internet) cu go 73

Hình 3.10 Minh họa các ví dụ về 12 cử chỉ trong MSRC-12 (nguồn:

Internet) ee 73

Hình 3.11 Độ chính xác va độ do F'1 của các mô hình SVM,

SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trong phân lóp cử chỉ

0150000 76

Hình 3.12 Số hàm cơ sở của các mô hình học được bởi SVM,

SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trong phân lớp cử chỉ

05190 77

Hình 3.13 Thời gian huấn luyện của các mô hình học được bởi

SimpSVM-GD, SimpSVM-SVD, RVM2 và FastRVM trong phân lớp cử chỉ

HPƯỜI LH nu ng g g v k kg k v k k va 78

Hình 3.14 Minh họa ví dụ về ảnh các loài hoa trong 2 tập dữ liệu

Oxford 17-Flowers và Oxford 102-Flowers [5l] 81

Hình 3.15 Mo hình sử dung CNN để trích chon đặc trưng tự động của

Hình 3.16 Độ chính xác và độ đo F1 của các mô hình CNN, CNN-SVM,

CNN-SimpSVM-GD, SimpSVM-SVD, CNN-RVM2 và CNN-FastRVM trong phân lớp ảnh hoa 0.00002 eae 85

Hình 3.17 Số hàm cơ sở của các mô hình học được bởi CNN,

CNN-SVM, CNN-SimpSVM-GD, CNN-SimpSVM-SVD, CNN-RVM2

và CNN-FastRVM trong phân lớp ảnh hoa 86

vill

Trang 11

Hình 3.18 Thời gian huấn luyện của các mô hình học được bởi CNN,

CNN-SVM, CNN-SimpSVM-GD, CNN-SimpSVM-SVD, CNN-RVM2

và CNN-FastRVM trong phân lớp ảnh hoa

1X

86

Trang 12

DANH MỤC CAC BANG BIEU

Bảng 2.1 Các tap dữ liệu và tham số thiết lap sử dung trong thực

nghiệm so sánh hiệu năng các SimpSVM 35

Bang 2.2 Các tham số thiết lap sử dung trong thực nghiệm so sánh

hiệu năng SimpSVM-GD với SVM gốc 46Bảng 2.3 Độ chính xác dự đoán của SimpSVM-GD với tốc độ tăng

tốc pha kiểm thử khác nhau trên các tập dữ liệu 47

Bang 2.4 Độ chính xác dự đoán của các SimpSVM với tốc độ tăng

tốc pha kiểm thử khác nhau trên các tập dữ liệu 49

Bảng 2.5 Thời gian huấn luyện của các SimpSVM trên các tập dữ liệu 49

Bảng 2.6 Các tham số trong thực nghiệm so sánh hiệu năng FastRVM

với RVM2 Q Q Q 2000 000 g g ee 57

Bang 2.7 Độ chính xác và thời gian huấn luyện của các thuật toán

RVM2 và FastRVM_ vo 61

Bảng 3.1 Danh sách các kênh thông tin của tập dữ liệu Auslan 63

Bảng 3.2_ Kết quả phân lớp nhận dạng ngôn ngữ ký hiệu 69

Bảng 3.3 So sánh kết quả của các phương pháp học máy dùng để

phân lớp ngôn ngữ ký hiệu Auslan 71

Bang 3.4 Kết quả phân lớp nhận dạng cử chingudi 76

Bảng 3.5 Tốc độ pha kiểm thử của các phương pháp trong nhận dang

Trang 13

Bảng 3.8 Kết quả phân lớp nhận dang ảnh hoa 85

Bảng 3.9 So sánh kết quả của các phương pháp phân lớp ảnh hoa 88

xi

Trang 14

MỞ ĐẦU

Tính cấp thiết của đề tai nghiên cứu:

Ngày nay, sự bùng nổ như vũ bão của CNTT và kỹ thuật số dẫn đến dữ liệu

trong thực tế gia tăng nhanh chóng cả về dung lượng lẫn chủng loại Học máy

và khai phá dữ liệu trở thành công cụ hiệu quả giúp con người giải quyết vấn

đề xử lý, phân tích thông tin, dữ liệu một cách tự động Phân lớp đối tượng làmột trong những chủ đề chính trong học máy và khai phá dữ liệu, đã và đangđược cộng đồng nghiên cứu và doanh nghiệp quan tâm do sự cần thiết và khả

năng ứng dụng thực tiễn trong nhiều lĩnh vực của cuộc sống.

Phân lớp (classfication) là tiến trình xử lý nhằm xếp dữ liệu hay đối tượng

được xem xét vào một trong các lớp được định nghĩa trước Các mẫu dữ liệu

chính là các đối tượng được phân lớp, được chuyên gia đo đạc, quan sát trựctiếp trên thực tế Khi đó, giá trị thuộc tính của các đối tượng mẫu có vai tròquan trọng, theo nghĩa do các đối tượng mẫu đã được xếp vào các lớp tươngứng, mỗi lớp sẽ được đặc trưng bởi tập các giá trị thuộc tính của các đối tượng

mẫu chứa trong lớp đó.

Phân lớp đối tượng là nhiệm vụ dễ dàng đối với con người, nhưng lại là một

bài toán phức tạp đối với máy móc Quá trình phân lớp thường bao gồm các

bước chính Bước đầu tiên, thu thập dữ liệu, tiền xử lý và trích chọn đặc trưng.Bước thứ hai, gọi là pha huấn luyện, phân tích di liệu và xây dựng mô hình

phân lớp phù hợp dựa trên dữ liệu huấn luyện Bước thứ ba, gọi là pha kiểm thử, đánh giá hiệu năng của mô hình phân lớp trên dữ liệu kiểm thử Cuối cùng,

nếu hiệu năng của mô hình phân lớp được khẳng định thì mô hình phân lớp đó

được sử dụng để phân lớp cho đối tượng dữ liệu mới về sau.

Phân lớp đối tượng được sử dụng rộng rãi trong nhiều miền ứng dụng khác

1

Trang 15

nhau như: nhận dạng ngôn ngữ ký hiệu, cử chỉ, hành động, nhận dạng ảnh y

sinh, sinh trắc học, ảnh giám sát bằng video, điều hướng xe, giám sát trực quan

công nghiệp, điều hướng robot, viễn thám Thực tiễn luôn đặt ra yêu cầu kết

quả nhận dạng chính xác cao đi cùng với thời gian thực hiện nhanh, đây là một

thách thức rất lớn

Hàm cơ sở bán kính (Radial Basis Function - RBF) được giới thiệu bởi M.J.D.

Powell (1987) là hàm chỉ phụ thuộc vào khoảng cách từ đối số đến một điểm (gọi

là tâm) cho trước Mô hình hàm cơ sở bán kính (mô hình RBF) có cấu trúc đơn

giản, dưới dang tổ hợp tuyến tính của các hàm cơ sở bán kính Mô hình RBF là

một trong các mô hình cơ sở mạnh, được sử dụng rộng rãi trong phân lớp, xấp

xỉ hàm, dự đoán dit liệu theo thời gian Trong thực tế, mô hình RBF đạt được

hiệu năng phân lớp cao trong nhận dạng hình ảnh [42], nhận dạng giọng nói [3]

và nhận dạng cử chỉ của con người [40]

Tuy nhiên, độ phức tạp tính toán của mô hình RBE liên quan trực tiếp đến

số lượng các hàm cơ sở bán kính Mô hình đòi hỏi lượng tính toán lớn nếu sửdụng nhiều hàm cơ sở bán kính Điều này hạn chế khả năng ứng dụng của môhình này khi làm việc với các ứng dụng có dữ liệu lớn, phức tạp về yêu cầu thời

gian thực hiện Việc nghiên cứu khả năng xấp xỉ mô hình RBE bằng các mô

hình RBF rút gọn có tiềm năng tăng hiệu năng của mô hình về mặt thời gianthực hiện trong khi vẫn đảm bảo hiệu năng về độ chính xác dự đoán Mục tiêuchung của những nghiên cứu về mô hình RBE trong thời gian gần đây là tìmkiếm các mô hình RBF rút gọn với số ít hàm cơ sở cho phép tính toán nhanh

hơn Mô hình RBF rút gọn có ý nghĩa thực tế, đặc biệt trong các ứng dụng yêu

cầu xử lý thông tin nhanh như xử lý dữ liệu truyền từ các cảm biến theo thời

gian thực, xử lý tín hiệu video, hình ảnh, an toàn và bảo mật thông tin.

Việc nghiên cứu, đánh giá sự phù hợp của các mô hình RBF rút gọn đối vớicác loại dữ liệu khác nhau trong các lĩnh vực thực tế khác nhau là cần thiết

Cùng với sự bùng no của thông tin và các ứng dụng, dữ liệu ngày càng trở nên

Trang 16

đa dạng và phức tạp hơn Các sự vật, hiện tượng được mô tả liên kết bởi cácloại dit liệu số, phi số khác nhau dưới dạng các véctơ giá trị liên tục, rời rac.

Mối liên hệ giữa các sự vật, hiện tượng là đa chiều Những kết quả nghiên cứu

cho phép đóng góp trực tiếp vào các ứng dụng có tính thời sự hiện nay, như xử

lý dữ liệu đa phương tiện, phân tích mạng xã hội, an toàn bảo mật thông tin.

Các ứng dụng xử lý dữ liệu đa phương tiện yêu cầu các mô hình học máyđược xử lý và huấn luyện với một lượng dữ liệu mẫu lớn hơn, với độ chính xáccao Diều này đòi hỏi nghiên cứu những phương pháp học máy có khả năng huấn

luyện hiệu quả trên các tập dữ liệu mẫu lớn hơn.

Muc tiêu nghiên cứu:

Luận án nghiên cứu và phát triển mô hình RBF với số lượng hàm cơ sở được rut gon có thể huấn luyện trên các tập dữ liệu theo hai cách tiếp cận khác nhau:

hàm quyết định với lề cực đại (maximum-margin) và học xác suất Bayes rútgon (sparse Bayes learning) Với cách tiếp cận thứ nhất, luận án tập trung vàocác phương pháp rút gọn số lượng hàm cơ sở nhưng vẫn đảm bảo độ chính xác

của các phương pháp học máy Với cách tiếp cận thứ hai, luận án phát triển các

phương pháp đảm bao mô hình RBF có kha năng huấn luyện hiệu quả trên các

tập dit liệu mẫu lớn hơn.

Mục tiêu chính của luận án bao gồm:

e Nghiên cứu tổng quan, đánh giá so sánh các phương pháp huấn luyện mô

hình RBF rút gọn với số ít hàm cơ sở Nghiên cứu sẽ phân tích, gợi ý sửdụng các phương pháp huấn luyện đối với các bài toán thực tế khác nhau

e Phát triển các phương pháp rút gọn số lượng ham cơ sở trong mô hình RBF

thỏa mãn hai tiêu chí độ chính xác và tốc độ thực hiện

e Phát triển các phương pháp cải thiện mô hình RBF rút gọn cho phép huấn

luyện hiệu quả trên các tập dữ liệu lớn hơn.

Đối tượng va phạm vi nghiên cứu:

3

Trang 17

Để đạt được những mục tiêu trên, luận án thực hiện những nội dung nghiên

4 2

cứu cụ thể sau:

e Nghiên cứu tổng quan, đánh giá, so sánh phương pháp huấn luyện mô hình

RBF rút gọn dựa trên cách tiếp cận hàm quyết định với lề cực đại (SVM

sử dụng hàm nhân - RBE kernel support vector machines).

e Nghiên cứu tổng quan, đánh giá, so sánh phương pháp huấn luyện mô hình

RBF rút gon dựa trên học suy luận xác suất Bayes rút gon (sparse Bayes

learning).

e Phát triển các phương pháp rút gọn số lượng hàm cơ sở trong các mô hình

RBF rút gọn khi huấn luyện theo các thuật toán khác nhau

e Phát triển các phương pháp mới cải thiện mô hình RBF rút gọn dựa trên

cơ chế học xác suất Bayes nhằm nâng cao hiệu suất của các phương pháp

đã khảo sát, tăng cường khả năng làm việc của các phương pháp này đối

với các tập dữ liệu lớn hơn.

e Phân tích, đánh giá hiệu quả của các phương pháp huấn luyện mô hình

RBF rút gọn trong các ứng dụng phân lớp đối tượng

Phương phap nghién cứu:

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết, đề xuất mô

hình, thuật toán phân lớp cũng như nghiên cứu thực nghiệm để kiểm chứng,

đánh giá các đề xuất của luận án

Về nghiên cứu lý thuyết:

- Cơ sở lý thuyết của cách tiếp cận hàm quyết định với lề cực đại, chang han

như SVM, đặc biệt chú trọng đến ảnh hưởng của việc rút gọn số lượng véc-tơ

hỗ trợ trong hàm quyết định

- Cơ sở lý thuyết của các phương pháp huấn luyện mô hình RBF rút gọn dựa

Trang 18

trên cơ chế học xác suất Bayes Phân tích sự điều chỉnh của cách tiếp cận nàyđối với các loại dữ liệu khác nhau gặp trong các ứng dụng thực tế.

- Nghiên cứu các phương pháp giải quyết hiệu quả bài toán tối ưu có trongcác vấn đề nghiên cứu trên, trong đó các bài toán tối wu được thực hiện trêncác dữ liệu véc-tơ nhiều chiều và ma trận kích thước lớn Hai hướng nghiên cứuquan trọng cần được quan tâm đặc biệt là sử dụng hiệu quả không gian bộ nhớ

và các phương pháp tìm kiếm nhanh trong không gian nhiều chiều

Về nghiên cứu thực nghiệm:

- Cài đặt các thuật toán huấn luyện mô hình RBF rút gọn bằng các công cụ

lập trình C/C++, Matlab.

- Thử nghiệm, đánh giá, phân tích các thuật toán được cài đặt trên các tập

dữ liệu phổ biến (benchmark datasets) khác nhau.

- Cải tiến cài đặt nhằm nâng cao tốc độ tính toán và hiệu quả sử dụng bộ

nhớ trong các thuật toán khác nhau.

Các đóng góp của luận án:

e Dé xuất thuật toán SimpSVM-SVD cho phép tăng tốc pha kiểm thử SVM

thông qua rút gọn nghiệm SVM, giảm số vectơ hỗ trợ (SV), đảm bảo độ

chính xác phân lớp không thay đổi nhiều Kết quả nghiên cứu này đã được

công bố trong các công trình [CT4, CT5]

e Dé xuất thuật toán FastRVM cho phép tăng tốc pha huấn luyện RVM, đảm

bảo giữ nguyên độ chính xác phân lớp.

Ngoài ra:

e Kết quả phân tích, so sánh và đánh giá các phương pháp huấn luyện mô

hình RBF rút gọn đối với phân lớp đối tượng và yêu cầu tính toán khácnhau Những kết luận về sự phù hợp của các phương pháp này trong những

điều kiện hoàn cảnh cụ thể [CT1, CT2].

Trang 19

e Kết quả nghiên cứu cho phép tăng cường kha năng làm việc của phương

pháp RVM hiện tại trên các tập dữ liệu lớn hơn.

e Nghiên cứu ứng dụng các mô hình RBF rút gọn trong nhận dạng đối tượng,

cụ thể là phân lớp đối tượng trong các bài toán thực tế như nhận dạng ngôn

ngữ ký hiệu, nhận dạng cử chỉ, hành động, phân lớp ảnh hoa |CT1, CT2,

CT3]

Bồ cục của luận ám:

Ngoài phần mở đầu và phần kết luận, Luận án được chia thành 3 chương với

bố cục như sau:

Chương 1: MO HÌNH RBF RUT GON TRONG BÀI TOÁN PHAN LỚP.

Chương 1 giới thiệu khái quát về mô hình RBE rút gọn nói chung và đi vào

chỉ tiết về hai mô hình RBF cụ thể: mô hình RBF dựa trên lề cực đại (được thể hiện tiêu biểu trong SVM) và mô hình RBF dựa trên suy luận xác suất Bayes (được thể hiện tiêu biểu trong RVM) cùng với những đặc điểm của chúng.

Chương 2: CÁC THUẬT TOÁN HUAN LUYỆN NHANH MÔ HÌNH RBF RUT

GỌN.

Chương này đề cập đến các thuật toán huấn luyện mô hình RBE rút gọncùng với hai thuật toán cải tiến SimpSVM-SVD và FastRVM, trong đó thuật

toán SimpSVM-SVD nhằm mục đích tăng tốc pha kiểm thử, còn thuật toán

FastRVM nhằm mục đích tăng tốc pha huấn luyện Các thực nghiệm và đánhgiá hai thuật toán cải tiến SimpSVM-SVD và FastRVM cũng được thực hiện

trong chương này.

Chương 3: ỨNG DUNG MÔ HÌNH RBF RUT GON TRONG PHAN LỚP ĐỐI

Trang 20

CHƯƠNG 1 MÔ HINH RBF RUT GON TRONG BÀI

TOÁN PHAN LỚP

Chương 1 của luận án giới thiệu tổng quan về mô hình RBF trong bài toán

phân lớp Phần đầu tập trung vào giới thiệu mô hình RBF Các phan sau của

chương trình bày hai mô hình RBF: mô hình RBF dựa trên cách tiếp cận hàm

quyết định với lề cực đại (tiêu biểu là Support Vector Machine - SVM) và mô hình RBF dựa trên suy luận xác suất Bayes (tiêu biểu là Relevance Vector

Machine - RVM) Phần cuối phân tích về độ phức tạp tính toán của các thuật

toán SVM và RVM.

1.1 Giới thiệu mô hình RBF

Mô hình ham cơ sở bán kính (mô hình RBF) là mô hình cơ ban đã được sử

dụng trong giải quyết nhiều vấn đề khác nhau và đang tiếp tục được ứng dụng

rộng rãi trong nhiều ứng dụng thực tế khác nhau như phân lớp, xấp xỉ hàm, dự

đoán dữ liệu theo thời gian [4, 69] Mô hình RBF có cấu trúc đơn giản, dưới

dạng tổ hợp tuyến tính của các hàm cơ sở:

M

Ji) = À ` widi(x) +0 (1.1)

i=l

O đây, thường dùng hàm cơ sở bán kính (Radial Basis Function - RBF) ø¿(z) =

exp(—y||2 — «||?),¡ = 1, ,M chỉ phụ thuộc vào khoảng cách từ đối số z đến một

điểm cho trước c; (gọi là tâm) với độ rộng + và M là số hàm cơ sở bán kính ¢; của mô hình sử dụng để tính hàm ƒ.

Về mặt lý thuyết, hàm quyết định dạng (1.1) có nhiều lợi thế Thứ nhất, khả

Trang 21

năng khái quát hóa của mô hình RBF cao Có thể điều chỉnh không giới hạn

số chiều VC (Vapnik-Chervonenkis) trong phân lớp Do đó, có kha năng phântách bất kỳ một tập dữ liệu mẫu nào cũng như xấp xỉ các hàm biến số thựcvới độ chính xác tùy ý [7, 55] Thứ hai, cấu trúc tính toán của mô hình RBFkhông phức tạp bằng cấu trúc tính toán của mạng nơ-ron Trong thực tế, môhình RBF đạt hiệu quả phân lớp tốt trong các ứng dụng nhận dạng hình anh

[42], nhận dạng giọng nói [3] và nhận dạng cử chỉ của con người [40]

Mục tiêu chung của những nghiên cứu về mô hình RBF trong thời gian gan

day [71] là tìm kiếm các mô hình RBF có cấu trúc đơn giản, với số ít hàm cơ sở

@¡(#),¡ = 1, , M để giảm khối lượng tính toán trong (1.1), giúp tăng tốc độ tính

toán hàm ƒ Rút gọn mô hình RBF có ý nghĩa thực tế quan trong trong các ứng

dụng đòi hỏi đáp ứng yêu cầu xử lý thông tin nhanh như xử lý dữ liệu truyền

từ các cảm biến, xử lý tín hiện video, hình ảnh, an toàn và bảo mật thông tin

Để tìm được hàm quyết định dạng (1.1), có nhiều cách tiếp cận thể hiện qua

các hàm mục tiêu khác nhau, trong mỗi cách tiếp cận có nhiều cách giải khácnhau Các phần tiếp theo sẽ trình bày hai cách tiếp cận xây dựng và sử dụng

mô hình RBF trong bài toán phân lớp là SVM và RVM.

1.2 SVM: mô hình phân lớp RBF dựa trên lề cực dai

Máy vectơ hỗ trợ (Support Vector Machine - SVM) do Cortes, Vapnik đưa ra

[11] là phương pháp học máy cho phép giải quyết hiệu quả bài toán phân lớp vàbài toán hồi quy Thuật toán này dựa trên nền tảng toán học chặt chẽ của lý

thuyết tối ưu Ý tưởng chính của SVM là chuyển tập mẫu từ không gian biểu

diễn ban đầu R” sang một không gian mở rộng R“ có số chiều lớn hơn Điểm khác biệt là trong không gian R¢ có thể tìm một siêu phẳng tối ưu phân tách tập mẫu, nghĩa là tìm được miền phân bố của các lớp trong không gian biểu

diễn R” và xác định được lớp của đối tượng đầu vào

Trang 22

ø siêu phẳng

phân tách mặt phân tách

Hình 1.1: Siêu phẳng phan tách tập mẫu trong không gian R¢

Cũng như mạng nơ-ron, phương pháp SVM có tính tổng quát cao, có thể áp

dụng cho nhiều bài toán phân lớp khác nhau Phương pháp SVM gồm hai pha

cơ bản: pha huấn luyện và pha kiểm thử.

Có hai trường hợp đối với tập mẫu: thứ nhất, tập mẫu có thể phân tách tuyến

tính được và thứ hai, tập mẫu không thể phân tách tuyến tính được Ứng với

hai trường hợp tập mẫu, ta có hai loại SVM.

1.2.1 SVM tuyén tính

Khi tập mẫu có thể phân tách tuyến tính được, có hai trường hợp cần xem

xét: tập mẫu không có nhiễu, tập mẫu có nhiễu.

1.2.1.1 SVM với tập mẫu phân tách tuyến tính không có nhiễu

Dây là trường hợp đơn giản nhất Trong trường hợp này, tập mẫu được phân

tách tuyến tính bằng một siêu phẳng nào đó, không có nhiễu theo nghĩa tất cả các điểm được gán nhãn 1 thuộc về phía dương của siêu phẳng và tất cả các điểm được gán nhãn -1 thuộc về phía âm của siêu phẳng Giai đoạn huấn luyện

trong phương pháp SVM sẽ tìm siêu phẳng này.

Giai đoạn huấn luyện SVM

Trang 23

Hình 1.2: Siêu phẳng phân chia hai tập mẫu

sao cho khoảng cách Euclid giữa hai lớp là lớn nhất (Hình 1.2) Ta gọi các vecto

thuộc tập mẫu gần siêu phẳng nhất là vectơ hỗ trợ (Support Vector - SV).

Giả sử phương trình siêu phẳng cần tìm là wx + b = 0, trong đó œ là vecto pháp tuyến của siêu phẳng, w € #“ Ta có hai bất phương trình sau:

waj +b < —1 với Va; € R“,ị = —1

(1.3)

+0; + b > +1 với Vr; € R",y, = +]

Kết hợp hai bất phương trình trên, ta có:

yi(wa; + b)-1>0 (1.4)

Khi đó, các vectơ hỗ trợ x; thỏa mãn phương trình wa; + b = —1 thì nằm trên

siêu phẳng Hj, còn các vectơ hỗ trợ x; thỏa mãn phương trình wa; + b = 1 thì

10

Trang 24

nằm trên siêu phẳng Hy.

Khoảng cách (có dấu) d; từ gốc tọa độ đến Hy là: đị = (1 — ð)/||e||

Khoảng cách (có dấu) dz từ gốc toa độ đến Hp là: dạ = (—1 — ð)/||e||

Khoảng cách phân tách d giữa Hy và Hạ là: d = |di — dạ| = 2/||w|

Do đó, để có đ lớn nhất thì ||w|| phải nhỏ nhất hay tương đương tim cách cực tiểu 4||w||? (được biến đổi một chút để dé tìm sau này).

Phuong an cực tiểu 3||u||

Bài toán: Tìm cực tiểu của $||w||? theo w và b với ràng buộc (+; + b) — 1 > 0

VỚI ¡ = 1,2, ,N.

Đây là một bài toán tối ưu có ràng buộc, trong đó hàm mục tiêu là một hàmlồi và miền ràng buộc cũng là một tập lồi

Do có tính lồi nên để giải bài toán trên, có thể chuyển qua giải bài toán đối

ngẫu tương ứng Bài toán đối ngẫu [11] là:

Tìm cực đại của 6(u) với u € RN, u > 0, trong đó:

N

0 (u) = inf {i — d [ys (w.2; + b) —1J:w € R",b 2] (1.5)

Để giải bài toán đối ngẫu, trước tiên ta cần tìm cực tiểu của

Vì L là ham hai biến +», b bac hai không ràng buộc nên theo điều kiện Fermat,

cực tiểu của L xảy ra tại w và b [11] sao cho:

Trang 25

Lúc đó giá trị cực tiểu của L là:

Giải bài toán nay ta tìm được u va từ đó tính được w theo công thức (1.7).

Để tính b, van dụng điều kiện Karush-Kuhn-Tucker cho bài toán gốc, ta có

được:

Do đó, đối với mỗi i thì có hai trường hợp:

+ u; = 0: trong trường hợp này y;(w.2; +b) — 1 > 0 => 2; không nằm trên siêu

phẳng biên ¡ hay Ho Vì wu = 0 nên 2; không cần thiết và có thể được bỏ di

mà không ảnh hưởng đến w

+ uj > 0: lúc này (a0 +b) — 1 = 0 = 2; nằm trên siêu phẳng biên Hị hay

Hạ Khi đó x; được gọi là vectơ hỗ trợ và tham gia vào việc tính w.

Thông thường, số lượng vectơ hỗ trợ nhỏ hơn nhiều so với số lượng mẫu Do

Trang 26

Hình 1.3: Tap mẫu không thể phân hoạch bằng một siêu phẳng

Vậy ta đã tính được w và b nên xác định được siêu phẳng phân tách.

Giai đoạn phén lớp

Giả sử có một mẫu dữ liệu cần phân lớp z* nào đó, hàm phân lớp y* của z*

(-1 hay 1) được xác định thông qua công thức:

N

y* = ƒ (+) = sign (wa* +b) = sign (> tia” + ) (1.13)

i=1

1.2.1.2 SVM uới tập mau phân tách tuyến tính có nhiễu

Tập mẫu có thể phân tách tuyến tính nhưng có nhiễu (lỗi) được biểu diễn trong Hình 1.3 Trong trường hợp này, hầu hết các điểm trong tập dữ liệu được phân chia bởi siêu phẳng tuyến tính Tuy nhiên, có một số ít điểm nhiễu, nghĩa

là điểm có nhãn dương nhưng lại thuộc về phía âm của siêu phẳng hoặc điểm

có nhãn âm lại thuộc về phía dương của siêu phẳng Van đề đặt ra làm thé nào

có thể tận dụng siêu phẳng phân tách tập mẫu này?

Để có thể áp dụng phương pháp trong phần trước, ta gán cho mỗi mẫu z; một sai số £¡ để “xem như có thể phân tách tuyến tính” [11].

+0ø¿ + b > +] — É¡ VỚI = +1

t0; + b < —1+ễ¡ VỚI y; = —] (1.14)

& > 0;i=1,2, ,N

13

Trang 27

Cũng tương tự như phần trước, ta phải đi tìm cực tiểu của biểu thức sau:

Bài toán đối ngẫu của bài toán trên sẽ là:

Cực đại: 0(u,u) với uc RN, ve RŸ,u>0,u>0, 6 day:

i=l i=l i=l

xay ra tai w, b, € sao cho:

Trang 28

Lúc đó, giá trị cực tiểu của 7 là:

Bài toán này giống bài toán (1.9), chi có thêm điều kiện u; < C Giải bai toán

này ta tìm được u và từ đó tính được w theo công thức (1.19) tức w = > UiYiLis

trong đó 2; là các vectơ hỗ trợ va các vectơ lỗi (ứng với 0 < uj; < C) và Ai, là số

lượng vectơ hỗ trợ và vectơ lỗi Dé tìm b, sử dụng điều kiện Karush-Kuhn-Tucker

cho bài toán gốc ta có:

0[U;(t00.® + b) — 1 + &] = 0 (1.23)

UiE; =0 (1.24)

Chọn một u; sao cho 0 < uj < C Theo (1.23), khi đó y;(w.2; +b) -1+& =0 Do

C—u;—v; = 0 đã xác định v; > 0 nên có thêm €; = 0 để điều kiện (1.24) xảy

ra Từ đó có thể tính được b = y, — z; Vậy ta vẫn có thể tìm được siêu phẳng phân tách tập dữ liệu mẫu có nhiễu Siêu phẳng như vậy được gọi là siêu phẳng

khoảng cách phân tách mềm (soft-margin hyperplane)

15

Trang 29

Hình 1.4: Một mặt phân chia phi tuyến trở thành một siêu phẳng trong không

1.2.2 SVM phi tuyến sử dung ham nhân RBF

Không phải tap dữ liệu mẫu nào cũng có thể phân tách tuyến tinh được Trong trường hợp tổng quát, mặt phân tách có thể là phi tuyến (Hình 1.4) Xét

các mau z; trong không gian R” được gọi là không gian đầu vào (input space)

[64] Để tìm mặt phi tuyến trong không gian này, ta áp dụng kỹ thuật ánh xạ

các vectơ mẫu 2; từ #“ vào một không gian # có số chiều lớn hơn (d > n, d

có thể rất lớn) [64] sao cho trong không gian d-chiéu này, tập dữ liệu có thể

phan tách tuyến tính được ## được gọi là không gian đặc trưng (feature space)

[64] Với không gian đặc trưng, áp dụng phương pháp SVM trong trường hợp

tuyến tính để xác định siêu phẳng phân tách trong không gian đặc trưng R? Siêu phẳng này tương ứng với mặt phi tuyến trong không gian R”.

Ánh xạ từ không gian R” vào không gian R¢ được ký hiệu là ở:

Trang 30

gian R@ cho các mẫu #(z;), siêu phẳng này sẽ có dạng:

N

À wii < o(xi), O(x) > +b =0 (1.27)

i=l

Khi đó, ham phân tach trong không gian R” chính là ham hợp 1®, trong đó f

là hàm phân lớp trong không gian ## Rõ rang đây là một hàm phi tuyến trongkhông gian R”.

Cách tiếp cận này gặp khó khăn là ham ø(z) có thể có số chiều rất lớn (do

không gian ## có kích thước đ lớn) Do đó, tiêu tốn thời gian tính toán Tuy

nhiên, có thể nhận xét rằng tính toán ø(z) chỉ xuất hiện dưới dạng tích vô hướng

tức là dang < (x), ¢(y) >, không xuất hiện đơn lẻ Day là một nhận xét quantrọng cho phép tìm ra quy tắc sau:

Thay vì sử dụng dạng tường minh của ø(z), chi cần sử dụng hàm biểu diễn

giá trị vô hướng < ø(z),ø() > Đặt K(a,y) =< o(x), o(y) >, K(z,w) được gọi là

hàm nhân (kernel function).

Như vậy, chỉ cần biết dạng của hàm nhân #{(z,ø), không cần biết cụ thể ánh

này đã được Mercer [11] đề xuất

Phương pháp SVM trong trường hợp phi tuyến dẫn đến bài toán tìm hàm

nhân K(z,ø), trong đó hàm nhân là hàm cơ sở bán kính (RBF) thường được sử

dụng nhiều nhất trong thực tế Sau đó, giải bài toán siêu phẳng phân tách mềm với việc thay (1,72) bằng K(z¡,za) để tìm ra u và b.

Không mất tính nhất quán, ta sử dụng cùng ký hiệu hàm phân lớp đối với

17

Trang 31

trong đó a; = wy; là trọng số của vectơ hỗ trợ 2;, z là vectơ đầu vào cần phân

lớp, K(x, 2:) =< ¢(x), o(a;) > là một hàm nhân tích vô hướng của hai vectơ ó(z)

và ¢(2;) trong không gian đặc trưng, là độ lệch va Ng là số vectơ hỗ trợ Nhiệm

vụ của quá trình huấn luyện SVM là xác định tất cả các tham số 2;,0;,b, Ns,với kết quả {2;,i = 1, , Ng} là một tập con các vectơ hỗ trợ của tập huấn luyện

Vì SVM được thiết kế chủ yếu để phân hai lớp nên sẽ phải dùng nhiều SVM

để phân nhiều lớp cho các ứng dụng phân lớp đa lớp Cách hay làm nhất là sử dụng 7 bộ phân hai lớp SVM theo nguyên tắc một-chọi-còn lại Cũng có thể

dùng T(T —1)/2 bộ phân lớp SVM một-chọi-một, trong đó 7 là số lớp Nói cách

của con người [40] Kết hợp với sử dụng ham nhân là ham cơ sở bán kính, kha

năng khái quát hóa cao của SVM gắn với đặc tính của siêu phẳng tối ưu, cực

đại hóa khoảng cách tới các mẫu huấn luyện trong không gian đặc trưng với sốchiều cao [11]

18

Trang 32

1.3 RVM: mô hình phân lớp RBF dựa trên suy luận

Bayes

Một cách tiếp cận khác trong việc xây dựng hàm quyết định (1.1) là dựa trên

suy luận Bayes, một kiểu suy luận thống kê mà trong đó các quan sát hay bằng chứng được dùng để cập nhật hoặc suy luận ra xác suất cho việc một giả thuyết

có thé là đúng Trong phần này, luận án sẽ trình bày chi tiết một mô hình RBF

dựa trên nền tảng xác suất Bayes, gọi là RVM (Relevance Vector Machine) doTipping đề xuất [75], cho phép xác định hàm quyết định dạng (1.1) rút gọn, có

khả năng khái quát hóa cao.

RVM là mô hình có dạng giống SVM [75] nhưng RVM huấn luyện dựa trênsuy luận Bayes và dự đoán dựa trên phân phối xác suất, còn SVM dựa trên ước

lượng điểm RVM có khả năng khái quát tương đương với SVM, nhưng sử dụng

ít hàm nhân hơn một cách đáng kể [75]

Tiếp theo, luận án giới thiệu mô hình Bayes [76] cho bài toán hồi quy, sau đó

mở rộng cho bài toán phân lớp.

1.3.1 Mô hành Bayes rút gon

Cho trước một tập dit liệu mẫu D = {(z;,¡),#¡ € R",y; € R,¡ = I, , N}, cần

xây dựng mô hình phụ thuộc của y vào x Giả định các mẫu của mô hình có nhiễu «¿ Khi đó, công thức xác định giá trị như sau:

y = ƒ(,)+c (1.32)

trong đó ¢ là nhiễu có phân phối Gaussian với trung bình là 0 và phương sai

là o? Ham f(z,w) xác định theo (1.1) và ¢;(x) = K(z,z¡) như đối với mô hình

SVM Các hàm j;(z) được gọi là các hàm cơ sở tương ứng với các vect0 cơ SỞ aj.

19

Trang 33

Xác suất của y dựa trên tập dữ liệu mẫu:

Nhằm han chế số lượng các thành phan trọng số w; 4 0, Tipping [75] sử dung

thêm các ràng buộc tiên nghiệm (prior) là mỗi trọng số w; có phân bố chuẩn với

giá trị trung bình là 0 và một siêu tham số a; cho phương sai:

N

p(ø|a) = | [2X@n|0,a;) (1.35)

i=l

trong đó a = (a4, a2, ,ay)!

Xác suất hậu nghiệm của trong số +» trên tập mẫu:

trong đó A= diag(ao, 1, + QN), ®¿; = bj (x) va 0 = (®¿j)N x1 được gọi là ma

trận "thiết kế" (design matrix) với mỗi cột là một hàm cơ sé [76].

Xét cực đại ham likelihood lề của tập dữ liệu mẫu đối với siêu tham số a:

p(0|z,a,ø?) = / pyle, w, 02)p(wla)de, (1.38)

20

Trang 34

ta lấy cực đại hàm logarit của likelihood:

£(a) = log p(ylx, œ,ø”) = log.M(w|0, C)

‘ (1.39)

= —gIN log 2m + log |C| + y? C7" y]

VỚI

Œ=ø?I+®A 1œ? (1.40)

theo phương pháp cực dai likelihood loại II |6].

1.3.2 Phân lớp véi mô hành Bayes rút gọn

Cho trước một tập dữ liệu được phân hai lớp D = {(#¡,¡),z¡ € Ry €

{0,1},i = 1, , N}, ta có thể mở rộng phương pháp RVM cho bài toán hồi quy

sang áp dụng cho bài toán phân lớp thông qua kết hợp mô hình (1.1) của hàm

cơ sở với ham logistic sigmoid:

N

p(w|z,tø) = | J o( F(a, w))" [1 = ø(ƒ0¡, w))]TM (1.42)

i=l

Theo suy luận Bayes, xác suất hậu nghiệm của trong số w trên tập mau:

p(wly, a) = are sae (1.43)

trong đó xác suất tiên nghiệm p(w|œ) theo công thức (1.35)

21

Trang 35

Với các giá trị cố định của a, ta có log xác suất hậu nghiệm trọng số:

log p(wly, œ) = log(p(y|w)p(wl|a)) — log p(w|e)

~ Tự (1.44)

=2 -kilngti+ (L— ys) log(1 — 8)] — Sw" Aw

với t; = o( f(a; w)), A = diag(ao, a1, ,ay) Nhu vậy, để ước lượng likelihood cực

đại (1.42) với các điều kiện ràng buộc (1.35) tương đương với việc tìm cực đại

trong dé B = diag((4, 8a, , 8n) là ma trận đường chéo với 6; = of f(x, w)}[1 —

a(f(xi,w))], ® = (®ij)nxu VỚI ®¿j = (1).

Để tim cực đại, ta cho đạo ham cấp một trong (1.45) bằng 0, thu được kết

Có thể sử dung xấp xi Laplace dé tính và cập nhật siêu tham số a theo phương

pháp của MacKay trong [44].

Trường hợp bài toán phân 7 lớp (T > 2), likelihood của tap dữ liệu mẫu đối

với các trọng số + trong (1.42) được khái quát thành dạng chuẩn:

N T

P(tw) = ][] [c06¡.0;))9 (1.48)

i=1 j=l

22

Trang 36

trong đó bộ phân lớp có nhiều đầu ra ƒ;(z,+;) với trọng số w; và siêu tham sốa; kết hợp Tuy không cần phải kết hợp đa bộ phân lớp theo cách heuristic như

1.4 Độ phức tạp tính toán của các thuật toán

1.4.1 Độ phức tạp tính toán của SVM

Nghiệm của SVM được tham số hóa bởi một tập con các mẫu huấn luyện gọi

là các vectơ hỗ trợ và trọng số tương ứng của chúng Sử dụng tập véctơ hỗ trợgiúp giảm độ phức tạp xây dựng mô hình SVM từ độ phức tạp hàm mũ xuống

còn độ phức tap đa thức [11] Trong pha kiểm thử, khi một mẫu kiểm thử mới

x được đưa ra, đối với cả SVM hai lớp và SVM đa lớp, thủ tục tốn kém nhất

là SVM so sánh nó với toàn bộ các SV thông qua các tính toán hàm nhân K.

Tính toán này tỉ lệ tuyến tính với số SV (ký hiệu bởi Ng) Như vậy, pha kiểm

thử của SVM có độ phức tạp Ó(Ws), ma Ng thường tăng theo số lượng dữ liệuhuấn luyện Trong nhiều trường hợp, số lượng lớn các SV này chính là nguyênnhân làm cho hàm quyết định (1.1) tính toán lâu hơn

Ta thấy SVM là kỹ thuật phân lớp hiệu quả cho phép xử lý trên tập mẫu

kích thước lớn Tốc độ xử lý của SVM sau khi đã được huấn luyện vẫn bị chậm

là một trong những trở ngại cho việc ứng dụng thực tế Trong pha kiểm thử,

SVM chậm hơn đáng kể so với các phương pháp học máy khác với cùng một

hiệu năng khái quát tương tự như: cây quyết định [8], mạng nơron [60]

Để tăng tốc SVM, có hai hướng tiếp cận là rút ngắn thời gian pha huấn luyện

[14, 58] hoặc day nhanh pha kiểm thử [8] Theo cách tiếp cận của luận án, daynhanh pha kiểm thử có ý nghĩa trong thực tiễn, vì sẽ tạo ra máy dự đoán nhanh

Mục tiêu của luận án tập trung làm tăng tốc pha kiểm thử SVM, bằng cách

giảm số lượng các SV, không cần tất cả Ng vectơ hỗ trợ gốc ban đầu, mà chỉ

23

Trang 37

cần một số lượng nhỏ hơn Nz (Nz < Ng) các vectơ mới, sao cho mô hình nhận

được vẫn đảm bảo độ chính xác trong quá trình sử dụng.

1.4.2 Độ phức tạp tính toán của RVM

Rất khó có thể định lượng chính xác độ phức tạp tính toán của RVM, do kích

thước của các ma trận trong (1.37) có thể giảm theo quá trình xử lý cập nhật

trong số [89] Phép nghịch đảo ma trận trong (1.37) có độ phức tap O(N?) [75].Day là phần tính toán lớn trong thuật toán Các ma trận ® và Š` đều có hạngday đủ, do đó độ phức tạp không gian là O(N?) [7ð] Việc lấy nghịch đảo của ma

trận kích thước lớn hơn sẽ trở nên khó khăn sau một vài bước tính toán, ngay

cả đối với ma trận xác định dương Các van đề này làm cho huấn luyện RVM bi

chậm, làm giảm tính thực tiễn của phương pháp RVM với các bài toán có kích

thước lớn hơn Mục tiêu của luận án là tăng tốc pha huấn luyện của RVM và

cải thiện để RVM có thể làm việc với những tập dữ liệu lớn hon, dap ứng các

yêu cầu thực tiễn

1.5 Mô hình lai học sâu và RBE

Những năm gần đây, các mô hình học sâu (DL) trở thành xu hướng chủ đạotrong phân tích dữ liệu lớn, đã được áp dụng rộng rãi và thành công trong nhiều

lĩnh vực như: nhận dạng ảnh [24], nhận dạng giọng nói [30], xử lý ngôn ngữ tự

nhiên [54], chan đoán bệnh [70] do có hiệu năng vượt trội so với các mô hình

học máy truyền thống

1.5.1 Mô hành học sâu trong phân lớp

Trong các mô hình học máy trước đây, các đặc trưng được trích xuất một

cách thủ công, đôi lúc được gọi là đặc trưng “nông” (shallow features), được

trích chọn dựa trên tri thức miền cụ thể Việc trích chọn chúng tốn thời gian và

24

Trang 38

thường khó áp dung cho một số dạng dữ liệu như hình ảnh thô (raw images)

Các mô hình học sâu có khả năng tự động trích chọn các đặc trưng từ dữ liệu

đầu vào ví dụ như các hình ảnh thô Các đặc trưng này được xem là đặc trưng

mức cao và trừu tượng, thường hiệu quả hơn cho việc phân lớp so với các đặc trưng "nông" Các đặc trưng học mức cao được trích chọn trong các mạng học

sâu tỏ ra rất hiệu quả trong thị giác máy, xử lý tiếng nói

Các kỹ thuật phân lớp ảnh khác nhau ở tầng đầu ra trong các mạng học sâuvới cấu trúc khác nhau Yuan, Sang, Xu [90] sử dung cấu trúc da tầng mạng

tin cậy sâu (DBN) để học đặc trưng trực quan và đặc trưng thẻ trong ảnh Tang, Liu, Lei, Song, Tao, Sun, Dong [74] giải quyết phân lớp biểu đồ nhờ sử

dụng DBN cho các đặc trưng được trích chọn nhờ mang CNN Các đặc trưng được trích chọn trong mô hình học sâu khá hiệu quả khi xử lý tập dữ liệu cỡ

lớn Trong [29], Krizhevsky, Sutskever, Hinton huấn luyện mang CNN cỡ lớn

để phân lớp 1,2 triệu ảnh có độ phân giải cao thành 1000 lớp khác nhau trong

ImageNet LSVRC.

Các ứng dụng phân lớp anh sử dung CNN để trích chọn đặc trưng có hiệu

năng cao Các đặc trưng sâu được trích chọn trong mạng CNN vượt trội so với

các đặc trưng “nông” được trích chọn thủ công (Hình 1.5).

om Pooling Convolution oa Pooling» \ Fully, = Fully Output Predictions\qrectes Cofgected

Mu: cm TH mài Se es ee Been tai

Trích xuất đặc trưng Phân lớp

Hinh 1.5: Mô hình CNN phân lớp anh

Niu, Suen [52] đề xuất CNN có nhiều tang (layer) với kiến trúc sâu hợp thành

của bộ trích chọn đặc trưng tự động và bộ phân lớp Bộ trích chọn đặc trưng

tự động có tầng ánh xạ và tầng trích chọn đặc trưng từ ảnh tương ứng với hai

25

Trang 39

phép toán: lọc tích chập (convolutional filters) và giảm mau (pooling) Trọng

số của liên kết nơron với bộ phân lớp và trọng số các liên kết nơron trong bộtrích chọn đặc trưng được xác định qua các bước huấn luyện theo phương pháp

truyền ngược sai số Ưu điểm của bộ phân lớp CNN là trích chọn tự động các

đặc trưng của ảnh đầu vào Các đặc trưng này thường là bất biến với sự dịch

chuyển, biến dạng hình học của các dit liệu đầu vào Trong khi đó, trích chon

đặc trưng "nông" rất mất công, phải 4p dụng nhiều kiểu đặc trưng khác nhau

để có được sự bất biến đối với biến dạng hình học của dữ liệu đầu vào Bộ trích

chọn đặc trưng tự động sử dung CNN [31] cho phép bất biến đối với biến dạngđàn hồi hoặc biến dạng affine, do vậy khá hiệu quả khi nhận dang chữ viết tay

Li, Wang, Cheng, Liu [35] đề xuất mô hình phân loại bệnh tăng nhãn áp bangcách kết hợp nhiều đặc trưng được các CNN khác nhau trích chọn

Thông thường, các ứng dụng phân lớp ảnh sử dụng các đặc trưng của tầng

cuối cùng trong mạng hoc sâu dé phân lớp Tầng cuối cùng khá nhạy cam với các

thông tin ngữ nghĩa, trong khi đó các tầng trung gian ít nhạy cảm với ngữ nghĩa

hơn, nhưng có khả năng bảo toàn chỉ tiết hơn Các tầng thể hiện tính phân cấp

của các đặc trưng [91] Do đó, có thé xem các tầng CNN khác nhau tương ứng

với các mức độ trừu tượng khác nhau Lei, Song, Sun, Song, Li, Chen [34] dé

xuất mô hình cây quyết định sâu (DDT) để phân biệt các đối tượng, tương đồng

với việc sử dụng các đặc trưng được trích chọn từ các tầng khác nhau Đầu tiên,các đặc trưng trong các tầng được trích chọn làm đầu vào trong DDT Trong

pha huấn luyện, các đặc trưng từ các tầng trước được dùng để trích chọn đặc trưng ở tầng sâu hơn Trên thực tế, nhiều DDT được huấn luyện và kết hợp để

đưa ra kết quả phân lớp cuối cùng

1.5.2 Mô hành lai CNN-SVM

Niu, Suen [52] đề xuất mô hình lai CNN-SVM trong nhận dạng chữ viết tay

(Hình 1.6) Mô hình lai CNN-SVM kết hợp sức mạnh tổng hợp của hai mô hình

26

Trang 40

phân lớp CNN va SVM Kiến trúc của mô hình lai CNN-SVM được thiết kếbằng cách thay tầng đầu ra cuối cùng của CNN bằng một bộ phân lớp SVM.

Trong mô hình này, CNN hoạt động như bộ trích chọn đặc trưng, còn SVM hoạt động như bộ phân lớp Mô hình lai cho phép tự động trích chọn đặc trưng từ

ảnh thô, pha nhận dạng phân lớp đầu vào nhờ SVM

Full Connection

5 by 5 Covolution Kernel

Full Connection

Input Layer 1°! Feature Map Layer —-2* Feature Map Layer <a owls

sialon mi Saby Se Noi Ss by Ss Units Units

Full Connection [SYM ¥ New

5 by 5 Covolution Kernel | ecision

Hình 1.6: Mô hành lai CNN-SVM nhận dang chữ viét tay [52]

Omara, Xiao, Amrani, Yan, Zuo [53] đưa ra hệ thống nhận dạng, phân lớpsinh trắc học đa phương tiện đối với hình ảnh mặt và tai Tác giả đề xuất cách

khai thác các đặc trưng được trích chọn từ CNN trên các ảnh mặt và tai, đưa

ra các đặc trưng cho phép phân biệt mạnh Đầu tiên, các đặc trưng của ảnhmặt và tai được trích chọn dựa trên mạng VGG-M Tiếp theo, các đặc trưngđược hợp nhất lại bằng cách sử dụng kỹ thuật DCA và cuối cùng, được phân

27

Định dạng
Số trang	118
Dung lượng	22,25 MB

Tiêu đề	Nâng cao hiệu năng các mô hình Rbf rút gọn cho bài toán phân lớp
Tác giả	Phạm Quốc Thắng
Người hướng dẫn	GS.TS Nguyễn Thanh Thủy, PGS.TS Nguyễn Đức Dũng
Trường học	Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận án tiến sĩ
Năm xuất bản	2022
Thành phố	Hà Nội