NHIỆM VU VA NỘI DUNG:: woiiccccccccccscscsesscscscscscscecesscssscssssssscseasscscscscavevsnseensSử dụng giải thuật di truyền dé thu gọn vector đặc trưng nhằm nâng cao hiệu suất của các
Trang 1ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
HUỲNH TRUNG TÍN
LỰA CHỌN ĐẶC TRƯNG BẰNG GIẢI THUẬT DI
TRUYEN TRONG BÀI TOÁN NHẬN DẠNG HANH VI
FEATURE SELECTION WITH GENETIC ALGORITHM
IN HUMAN ACTIVITIES RECOGNITION
Nganh: KHOA HOC MAY TINHMã số: 60 48 01 01
LUẬN VÁN THẠC SĨ
TP HỎ CHÍ MINH, tháng 06 năm 2018
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRUONG ĐẠI HỌC BACH KHOA —DHQG -HCM
Cán bộ hướng dẫn khoa học: TS Pham Hoang Anh - 55s +
2 TS Nguyễn Trần Hữu Nguyên
3 TS Nguyễn Minh Sơn
4 PGS.TS Huỳnh Trung Hiếu
5 TS Lê Thanh
Vân -Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyền ngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA KH&KTMT
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆTTRƯỜNG ĐẠI HỌC BÁCH KHOA NAM Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: HUỲNH TRUNG TÍN - -c< sec: MSHV: 1570012 Ngày, tháng, năm sinh: 15/09/1992 5555555552 Noi sinh: Đồng Tháp Ngành: KHOA HỌC MAY TÍNH - 5 cv Mã số : 60 48 01 01
I TÊN DE TÀÀI: - G1119 S311 TT E1 TT 1T T1LỰA CHON ĐẶC TRUNG BẰNG GIẢI THUẬT DI TRUYEN TRONG BÀI
TOÁN NHAN DẠNG HANH V1 ccccsssscsesessesesescesescscescscscscscsescscsescscsesscscsecacsescacseseaeassIl NHIỆM VU VA NỘI DUNG:: woiiccccccccccscscsesscscscscscscecesscssscssssssscseasscscscscavevsnseensSử dụng giải thuật di truyền dé thu gọn vector đặc trưng nhằm nâng cao hiệu suất
của các mô hình phân lớp trong bài toán nhận dạng hành vi - <<<<<<<<<ss2
Ill NGÀY GIAO NHIỆM VU : (Ghi theo trong QD giao dé tài) 10/07/2017 IV NGÀY HOÀN THÀNH NHIEM VỤ: (Ghi theo trong QD giao đề tai)
Ö3//12//2/0 177 G- <S< E3 151521515215112115111111111111 1111111111111 11 1111111111111 111111 11c rk.
V CAN BO HUONG DAN (Ghi rõ học hàm, học vị, họ, tên): - 5 s+cscsssescseTS PHAM HOÀNG ANH 5c - 2221 15 121 1515112111 111111 11111111 11111101 111111111 cke
Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký) (Họ tên và chữ ký)
Trang 4LỜI CÁM ƠNLời đầu tiên tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến TS Phạm HoangAnh, người đã hướng dẫn tôi hết sức tận tâm, nhiệt tình và khoa học để tôi hoànthành luận văn thạc sĩ này Đồng thời, tôi xin chân thành cảm ơn đến các bạn PhạmHữu Tuấn và Nguyễn Ngọc Phi đã hỗ trợ tôi trong quá trình thực nghiệm và thuthập số liệu Tôi xin cảm ơn các thầy cô giáo của trường Đại học Bách Khoa thànhphó Hồ Chí Minh, đặc biệt là các thầy cô trong Khoa sau đại hoc đã giúp tôi trongquá trình thực hiện luận văn Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, đồng
nghiệp và những người đã sát cánh bên cạnh và ủng hộ tôi, là động lực cho tôi hoànthành luận văn này một cách thuận lợi.
Tp Hồ Chi Minh, tháng 06 năm 2018
Huỳnh Trung Tín
Trang 5TÓM TẮTNgày nay, số lượng người dùng thiết bị di động ngày càng nhiều và những chiếcđiện thoại thông minh ấy được trang bị rất nhiều cảm bién Đó là điều kiện thuận lợicho việc triển khai các ứng dụng nhận dạng hành vi trên điện thoại thông minh Tuynhiên điện thoại thông minh vẫn còn những hạn chế về sức mạnh phần cứng khi so
sánh với máy tính Do đó, luận văn được thực hiện với mục tiêu áp dụng giải thuật
di truyền để thu giảm kích thước của vector đặc trưng, tìm kiếm vector đặc trưng tốiưu cho các mô hình học máy khác nhau nhằm nâng cao kết quả phân lớp cũng nhưhiệu suất khi thực thi mô hình phân lớp (bao gồm thời gian thực thi và bộ nhớ đượcsử dụng) Cụ thể luận văn đã tối ưu vector đặc trưng cho mô hình Support Vector
Machine thu được độ chính xác 96.64% và mô hình 2-Stages Continous HiddenMarkovs là 88.36%.
Trang 6SUMMARYNowadays many of people use mobile phones and those phones have many built-insensors That is a good condition for developing activities recognition systems.However, smartphones still have limit of hardware power In this thesis, I usegenetic algorithms for feature selection, try to find optimized feature vector forclassifier algorithms (Support Vector Machine and 2-Stages Continuous HiddenMarkov Model) In result, the accuracy of Support Vector Machine is 96.64% andaccuracy of 2-Stages Continuous Hidden Markov Model is 88.36%.
Trang 7LỜI CAM ĐOANTôi xin cam đoan luận văn LỰA CHỌN ĐẶC TRƯNG BANG GIẢI THUẬT DITRUYEN TRONG BÀI TOÁN NHAN DANG HANH VI là kết quả của quá trình
tự nghiên cứu của riêng tôi Ngoại trừ các nội dung tham khảo từ các công trình
khác như đã nêu rõ trong luận văn, các số liệu diều tra, kết quả nghiên cứu đưa ratrong luận văn là trung thực và chưa được công bố trong bất kỳ công trình nghiên
cứu nào đã có từ trước.
Tp Hồ Chi Minh, tháng 06 năm 2018
Huỳnh Trung Tín
Trang 8MỤC LỤC
) 109060 Á 4 7
DANH MUC HINH 00257 9DANH MỤC BẢNG tt tre 10CHUONG S0 116.00910007 |1.1 _ Lý do chọn dé tài - G1191 9E5 E11 ru |
1.2 Mục tiêu nghiÊn CỨU - << << c c5 11 33333131133199911111 1111111111111 ng ng v2 2
1.3 Đối tượng nghiên €ỨU - - - x31 SE9E9 5 SE cưng 2
1.4 Phạm vi nghiÊn CUU ccccccccccccccccesesssesssssneceeeeecceceeeeeeeeesssaeaasaeaeeeeseeeeeeees 2
1.5 Y nghĩa khoa học và thực ti€n ccccccseseseesscscesessecscscecescsvevscscseseeveseees 31.5.1 Y nghĩa thực tiễn ch ThTh ch T11 E1 E1 cv 31.5.2 — Y nghĩa khoa học «sex EEEEEEExrxrerees 3CHƯƠNG 2 TONG QUAN G1 151 511151515151515111 111111511111 Erk 4
2.1 Các công trình Hen QUa1I (1111111111131 1155 42.1.1 Công trình cua C A Ronao and S Cho [2 | -<<<<++52 5
2.1.2 Cong trình cua Rodrigo Cilla et al [3 | -<<<<<<<<<<<<++++s 5
CHUONG 3 NHỮNG NGHIÊN CUU LY THUYET VÀ THUC NGHIỆM 73.1 Cơ sở lý thuyẾt ThS E111 515 5 111111111 rreg 7
3.1.1 Mo hình Support Vector Machine 55-55 sssssesssssss 73.1.2 Mo hình 2-Stages Continuous Hidden Markov Model (2SCHMM) 13
3.1.3 Giải thuật di truyền (GAS) cceccccccscscesesececsescsececscscscessssssvsveveveeseees 18
3.2 Phương pháp nghiên CỨU - 5 2222222222231 11111111111 11111 882,32 20
3.2.1 Phương pháp nghiên cứu lý thuyt ¿66+ sx+k+k+eeeeeeeseee 20
3.2.2 Phuong pháp nghiên cứu thực nghiệm - 5-5 <++++++++++<ss 20
3.2.3 Phuong pháp đánh giá kết quả nghiên cứu - 5 2 scscs¿ 22
Trang 9CHƯƠNG 4 TRÌNH BAY, ĐÁNH GIA, BAN LUẬN KET QUẢÁ 23
4.1 Quá trình thực nghiỆm - 1111111111111 1111111188555 1 x2 23
4.1.1 _ Quá trình phân lớp dé đánh giá cá thỂ 2-6 s+s+x+k+E+eeesesese 234.1.2 Qua trình thu gon vector đặc trưng bằng giải thuật di truyền 304.1.3 Qua trình đánh giá kết quả - + +EsESEEkEkckckckekekeeeereeree 324.2 Kết quả thực nghiệm «sex EEEEEE5E1 1E Eerxreri 33
4.2.1 — Giải thuật SVM ScCc HT E212 111111111111 te 334.2.2 Giải thuật2SCHHMM 5-52 SE E1 2151121111111 E11 cee, 34
4.2.3 So sánh kết quả G111 SESE5 E1 111 1v ng net 35CHƯƠNG 5 KẾT LUẬN VÀ KIÊN NGHỊ - + 2-2552 cs+E+£zcezesrered 37
5.1 Những công việc đã thực hi6n oo eee ccesssssscccceeeecceeeesssessssssceeeeeeeeees 37
5.2 Những hạn chế hiện tai cccccccccccsssccescesescscescscseesescseescscseescscseescscescacseesees 375.3 Hướng phat triỂn - G331 EE9E9E5 1E E1 ng rreg 37TÀI LIEU THAM KHẢO - - 5-52 SE c2 1E 3 151511111521 11111 111.1111111 xe 39
PHU LỤC - ¿6-52 SE 2 SEEEEEEEEEEEEEEEE11315 111511151115 11151115 1115111111 1e c1 40
Trang 10DANH MỤC HÌNH
Hình 3-1.Hình 3-2.Hình 3-3.Hình 3-4.Hình 3-5.Hình 3-6.Hình 3-7.Hình 3-8.Hình 3-9.Hình 4-1.Hình 4-2.Hình 4-3.Hình 4-4.
Mô hình Support Vector Machine <5 55s S + S332 7
Siêu phăng trong mô hình SVÌM - - + EExExSkSkck+kekeEeEeEeesrsrrerke 8
Margin trong mô hình SVM cccsssssscccccccceeessesesssssceeeeeeeceeeeeseeessseeeaaas 9
Anh hưởng của y đến kết quả phân lớp trong SVM - - - <5¿ 10Ảnh hưởng của C đến kết quả phân lớp trong SVM - «se: 11
Giai đoạn 1 — Phân lớp thô hành vi + ++++<<<<<<sseeeesss 17Giai đoạn 2 — Phân lớp chính xác hành vI << «<< <2 17
Lưu đồ giải thuật của giải thuật di truyễn - <5 cv cxcxeed 19Lưu đồ giải thuật cho thu gon vector đặc trưng bang giải thuật di truyén21Kết quả tìm kiếm chính xác (C.y) bằng lưới tìm kiếm (Don vị: %) 25Biểu đồ đường viền đánh giá thông số trong mô hình HMM 28Các toán tử trong giải thuật di truyễn -¿- - xxx +xeEeEeEeesrerererees 30So sánh các thông số giữa có và không thu gon vector đặc trưng 35
Trang 11Tom tat các công trình nghiên cứu về nhận dạng hành vi 4
Kết quả thực nghiệm của Ronao [2] Accuracy = 91.76% - 5
Kết quả tìm kiếm thô (C.y) bằng lưới tìm kiếm (Don vị: %) 24
Kết quả phân lớp của HMM (CC) << SE #EEEeEeEeEerererees 26Thời gian thực thi của HMM (t, đơn vi g1ây) -ccSSS Sa 27Trọng số lựa chọn thông số cho mô hình HMM -2 2 ss+s+s5sz 28Kết quả phân lớp dùng SVM không thu gọn vector đặc trưng 33
Kết quả phân lớp dùng SVM có thu gọn vector đặc trưng 33
Kết quả phân lớp dùng 2SCHMM không thu gọn vector đặc trưng 34
Kết quả phân lớp dùng 2SCHMM có thu gọn vector đặc trưng 34
Trang 12chuyền qua chăm sóc từ xa.
Trong lĩnh vực y tế, việc theo dõi hoạt động người dùng trong thời gian dàicó thể hữu ích trong việc phát hiện sớm các bệnh hoặc có thé khuyén khích người
dùng cải thiện mức độ hoạt động của họ.
Một trong những phương pháp được sử dụng để giám sát hoạt động của conngười là dựa trên các hệ thống video ghi chuyển động được liên kết với nền cảmnhận áp lực ở dưới Nhưng phương pháp này gây khó chịu, đòi hỏi thiết bị lớn vàchỉ có thể được sử dụng bên trong phòng thí nghiệm đòi hỏi các thiết lập cao, thờigian xử lý cũng như không gian bộ nhớ để ghi lại nó
Phân tích hành vi sử dụng các cảm biến của điện thoại thông minh đã trởthành một lựa chọn phù hợp cho yêu cầu này vì kích thước nhỏ, chỉ phí thấp và khảnăng ghi lại các tín hiệu chuyển động một cách kín đáo Hơn nữa ngay nay hau hếtcác điện thoại thông minh đều được tích hợp các cảm biến phù hợp cho việc phântích hành vi người dùng Cảm biến gia tốc và con quay hồi chuyển được sử dụng dé
nghiên cứu các hoạt động hàng ngày của con người.
Trang 13MO ĐẦU
Phân loại thông tin chuyển động dựa trên dữ liệu được thu thập từ các cảmbiến trong điện thoại thông minh, việc phân lớp thường được thực hiện với kỹ thuậthọc máy, đòi hỏi phải khai thác các thông số dữ liệu chuyển động để huấn luyệnphân lớp trước khi dự đoán dữ liệu hoạt động mới với mô hình huấn luyện
1.2 Muc tiêu nghiên cứu
Mục tiêu của luận văn là áp dụng giải thuật di truyền để thu giảm kích thướccủa vector đặc trưng, tìm được vector đặc trưng tối ưu cho các mô hình học máykhác nhau giúp nâng cao kết quả phân lớp cũng như hiệu suất khi thực thi mô hìnhphân lớp (thời gian thực thi và bộ nhớ sử dụng) Cụ thể luận văn đã thực hiện:
- Tim ra bộ vector đặc trưng tối ưu cho mô hình Support Vector Machine
(SVM).
- Tim ra bộ vector đặc trưng tối ưu cho mô hình 2-Stages Continous
Hidden Markovs (2SCHMM).
1.3 Doi tượng nghiên cứu
Luận van sử dụng tập dữ liệu UCI HAR, là tập dữ liệu dùng cho nhận dạng
hành vi của con người sử dụng dữ liệu cảm biến từ điện thoại thông minh Chi tiếthon, tập dữ liệu được lay tir két qua thử nghiệm trên một nhóm 30 tình nguyện viêncó độ tuổi từ 19-48 Mỗi tình nguyện viên sẽ thực hiện 6 hoạt động trong khi đeo
điện thoại (Samsung Galaxy S II) trên eo Dữ liệu được thu thập là giá tri của gia
tốc kế va con quay hồi chuyên ở tan số 50Hz Tập dữ liệu được chia một cách ngẫunhiên thành tập huẫn luyện (70%) va tập kiểm tra (30%)
Luận văn sử dụng giải thuật di truyên đê cải tiên bộ vector đặc trưng.
Luận văn áp dụng cho hai mô hình học máy là SVM và 2-Stages CHMM dénhận dạng hành vi từ đó đánh giá hiệu quả về kết quả phân lớp và hiệu suất của việc
thu gọn vector đặc trưng.1.4 Pham vi nghiên cứu
Luận văn tìm bộ vector đặc trưng dựa trên 2 ràng buộc:- Vector đặc trưng thu được phải giúp cho giải thuật phân lớp nâng cao
được hiệu suất thực thi
Trang 14MO ĐẦU- _ Kết quả phân lớp của mô hình học máy khi sử dụng bộ vector đặc trưng
đã thu gọn so với kết quả phân lớp khi sử dụng bộ vector day đủ 561 đặctrưng phải trong phạm vi sai số là 5%
1.5 Ý nghĩa khoa hoc và thực tiễn1.5.1 Y nghĩa thực tiễn
Phân tích hoạt động con người đã nhận được sự quan tâm ngày càng nhiềucủa những người chăm sóc người cao tuôi, vận động viên, bác sỹ, chuyên gia dinhdưỡng các nhà vật lý trị liệu và cả những người muôn kiêm tra mức độ hoạt động
hăng ngày
Với tài liệu tham khảo của các nghiên cứu trước đây trong lĩnh vực này, điện
thoại thông minh với cảm biến gia tốc đã được sử dụng để thu thập dữ liệu chuyểnđộng của người dùng vì chúng nhỏ gon, ít vướng viu hơn khi so với các cảm biến
đeo được và đặc biệt là người dùng thường xuyên điện thoại mang theo người Các
dữ liệu thu thập được từ gia tốc kế cung cấp thông tin về gia tốc do chuyển động cơthể của con người và do trọng lực kết hợp với thông tin về hướng của điện thoại từcon quay hồi chuyển Các tín hiệu được trích xuất như cường độ, góc, độ lệch chuâncủa bién đôi FFT cũng có thé được dùng để huấn luyện mô hình hoc máy
1.5.2 Y nghĩa khoa học
Việc thu gọn vector đặc trưng giúp tăng được hiệu suất cho các mô hình họcmáy trong bài toán nhận dạng hành vi, tạo điều kiện dé triển khai các ứng dụng trêncác thiết bị có phần cứng giới hạn như điện thoại hoặc các hệ thống IOT Ngoài rathu gon vector đặc trưng còn giúp giảm thời gian và chi phí phát triển phần mềm dochỉ cần trích xuất những đặc trưng đủ cho mô hình học máy
Trang 152.1 Cac công trình liên quan
TONG QUAN
CHUONG 2 TONG QUAN
Nhận dang hành vi từ dữ liệu quan sát thu được từ cam biến là một bài toán
rât quan trọng, được nghiên cứu rât nhiêu trong nhóm các bài toán nhận dạng Kêtquả của bài toán nay ứng dụng rộng rãi trong nhiêu lĩnh vực của đời sông xã hội.
Sau đây là kết quả khảo sát của báo cáo [1] về các công trình nghiên cứu nhận danghành vi sử dụng thiết bị cảm biến trang bị trên người
Bảng 2-1 Tóm tắt các công trình nghiên cứu về nhận dạng hành vi
Tác giả Nhóm hành vi Cảm biến Đặc trưng MÃ hình Kết quả
phân lớpACC (cô tay,
cổ chân, dui, KNN, C4.5, 3
Bao AMB, DA khuỷu tay, TD, FD NB 84%
hông)Hanal AMB ACC (ngực) HAAR filters | C4.5 93.91%
ACC, ENV,Parkka AMB, DA VS (22 TD, FD DR, KNN 86%
signals)He AMB ACC AR SVM 92.25%
He AMB ACC (tht DCT,PCA | SVM 97.51%
quan)
Zhu AMB,TR — | AC Olay, Tay 3pp | HMM 90%
that lung)ACC, GYR BN, LS,Altun AMB (nguc, canh PCA, SFFS KNN, DTW, 87% - 99%
tay, chan) ANNElectrodes
Cheng UB (cô, ngực, TD LDA 77%
chân, cô tay)
McGlynn DA ACC (đùi, DTW DIW 84.3%
hông, cô tay) ensembleACC (áo Relative 97% (SD),Pham AMB, DA khoát) Energy NB, HMM 95% (SI)
Vinh AMB,pA | ACC (0 tay, | pp SMCRF 88.38%
hông)
ALR, ACC, VS TD, FD, PR, Bagging, 0Centinela AMB (nguc) TF C4.5, NB, 95.7%
BNAR, SMA,
Khan AMB, TR ACC (nguc) TA, ANN 97.9%
LDA
86% (SI),Jatoba AMB ACC, SPI TD/FD CART, KNN 95% (SD)
Chen aw DA, ACC (cổ tay) | TD, FD FBF 93%
Minnen AMB, MIL ACC (6 vị trí) | TD, FD Boosting 90%
Trang 16TONG QUAN
Trong các tài liệu luận văn đã tìm hiểu ở TAI LIEU THAM KHAO thi hai tailiệu sau đây là gần với hướng nghiên cứu của luận văn nhất
2.1.1 Công trình của C A Ronao and S Cho [2]
Bài báo sử dụng giải thuật Random Forest (RF) và mô hình 2-StagesContinuous Hidden Markovs trên bộ dữ liệu UCI HAR Trong đó nhóm tác gia đã
sử dụng giải thuật RF để thu gon số chiều của vector đặc trưng từ 561 đặc trưngxuống còn 119 đặc trưng Bài báo đạt độ chính xác tong thé đo được là 91.76% với2947 mẫu được kiêm tra
Bang 2-2 Kết quả thực nghiệm của Ronao [2] Accuracy = 91.76%
PredictedWA UP DO SI ST LA RecallWA 469 7 20 0 0 0 94.56%
UP 16 443 12 0 0 0 94.06%5 DO 28 27 365 0 0 0 86.90%g SI 0 0 0 435 37 19 88.59%
ST 0 0 0 72 460 0 86.47%LA 0 0 0 0 0 537 100%Precision | 91.42% | 92.87% | 91.94% | 85.80% | 92.56% | 96.58%
2.1.2 Cong trinh cua Rodrigo Cilla et al [3]
Bai báo sử dụng mô hình phân lớn Hidden Markov Model (HMM) dé nhậndạng hành động từ video Trong đó, bài báo kết hợp sử dụng giải thuật Best FirstSearch và giải thuật di truyền để thu gọn vector đặc trưng với mục đích cực đại độ
chính xác của mô hình học máy.
Bài báo nhận dạng 7 hoạt động: đi, đứng, ngồi x6m, trượt té, nam xuống,đứng lên và hành động không thuộc 6 hành động trên.
=" Độ chính xác cho Best First Search và mô hình HMM là 74.42%.
" Độ chính xác cho giải thuật di truyền và mô hình HMM là 75,01%.Chỉ tiết về giải thuật di truyền trong bai báo như sau: Tập dân số gồm 780 cáthé ứng với vector đặc trưng có 780 đặc trưng, mỗi cá thé sẽ có tập ngẫu nhiên cácgen được gán giá trị bằng 0 hoặc 1 (gen được gán băng 1 đồng nghĩa với đặc trưng
5
Trang 17TONG QUAN EMMMWNR
đó được sử dụng trong mô hình học may), tỉ lệ đột biến được sử dụng là 1/780 Saumỗi lượt đánh giá sẽ chọn 3 cá thê tốt nhất cho lần tạo dân số sau Giải thuật đượcdừng lại khi độ chính xác của mô hình học máy cho cá thé tốt nhất không đổi sau 10thế hệ Vì giải thuật di truyền là kỹ thuật tìm kiếm ngẫu nhiên nên nhóm tác giả đãlặp lại 20 lần tìm kiếm với mong muốn tìm được cá thé tốt nhất
Trang 18NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM
CHƯƠNG 3 NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THỰC
NGHIỆM3.1 Cơ sở lý thuyết
3.1.1 Mô hình Support Vector Machine
Đặc trưng 1
(Trọng lượng)
Hình 3-1 Mô hình Support Vector Machine
SVM được sử dụng dé tìm ra một siêu phăng nhằm phân tách tập dữ liệuthành hai phần riêng biệt - tư tưởng của bài toán phân lớp (classification) Ví dụtrong Hình 3-1, chúng ta có một mặt bàn đựng hai loại quả lê và táo Siêu phăngphân tách đống quả này thành hai lớp, bản chất là đi tìm một hàm toán học phụ
thuộc tọa độ của một quả trên mặt bàn Nghĩa là khi thêm một quả mới vào trên mặt
bàn, dựa vào tọa độ của nó ta có thé biết được nó là quả táo hay quả lê nhờ vào việc
nó năm bên phải hay bên trái của siêu phăng.
Anh xa tập dữ liệu vào không gian nhiêu chiêu
Trở lại với ví dụ trên của chúng ta, néu như các quả táo và lê không năm quađan xen nhau thì chúng ta hoàn toàn có thể dùng một cái que (siêu phăng) phân táchchúng Tuy nhiên, thực tế không phải đơn giản như thế, có nghĩa là các quả táo vàquả lê nằm tại các vị trí rất lung tung trên mặt bàn và rất khó có thể tìm được mộtcái que như thé dé phân tách giữa chúng Vậy làm thé nào dé phân tach chúng? Mộtcách giải quyết đó là vận dụng tư tưởng của trò chơi tung hứng Giả sử chúng ta
7
Trang 19NHUNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM WMMWN
trong một cơn tức giận hất tung chiếc bạn đựng táo và lê lên trời, các quả táo và lê
bay lơ lửng trên không trung Lúc này chúng đã ở các vi trí khác nhau và chúng ta
hoàn toàn có thé dùng một mặt cong tưởng tượng dé phân tách giữa chúng Vi dụnhư mặt phăng xanh bên đưới đây
Dữ liệu trong R^2 (Không khả phân tách)
Dữ liệu trong R^3 (Khả phân tách)
0.0 ˆ ‘ v SN °
A
~0.5 ats
a |ote, 0.2 lì
Hình 3-2 Siêu phắng trong mô hình SVM
SVM thực hiện điều này như thế nào?Như chúng ta đã thảo luận ở các phần trên, bản chất của phương pháp SVMlà chuyển không gian dữ liệu ban đầu thành một không gian mới hữu hạn chiều màở đó cho khả năng phân lớp dễ dàng hơn Một qua bất ki nam trên mặt bàn sẽ đượcgan với một tọa độ cu thé Ví du, quả táo nam cách mép trái 2cm và cách mép dưới5em được thé hiện trên trục tọa độ (x, y) tương ứng là (2, 5) Trong đó x và y chínhlà tọa độ trong không gian hai chiều của quả táo Khi đưa lên chiều thứ 3 là z, ta cóthể tính được tọa độ của z trong không gian 3 chiều dựa vào tọa độ x, y ban đầu.Điểm làm SVM hiệu quả hơn các phương pháp khác chính là việc sử dụng KernelMethod giúp cho SVM không còn bị giới hạn bởi việc phân lớp một cách tuyến tínhhay nói cách khác các siêu phăng có thể được hình thành từ các hàm phi tuyến
Trang 20NHUNG NGHIÊN CỨU LÝ THUYET VÀ THỰC NGHIỆM RQ
Maximum.
` ZY margin`
Hình 3-3 Margin trong mô hình SVM
Margin là khoảng cách giữa siêu phăng đến 2 điểm dữ liệu gần nhất tương
ứng với các lớp Trong ví dụ quả táo quả lê đặt trên mặt bàn, margin chính làkhoảng cách giữa cây que với hai quả táo, lê gan nó nhật.
Điều quan trọng ở đây là phương pháp SVM luôn cố gắng cực đại hóamargin này, từ đó thu được một siêu phăng tạo khoảng cách xa nhất so với 2 quả táovà lê Nhờ vậy, SVM có thé giảm thiểu việc phân lớp sai (misclassification) đối vớiđiểm dữ liệu mới đưa vào
Các phương pháp hạt nhan (Kernel Methods)
Các phương pháp hạt nhân là một lớp các thuật toán dé phân tích khuôn mẫu(pattern analysis) hoặc nhận diện (recognition), được biết đến nhiều nhất trong môhình SVM Nhiệm vụ của việc phân tích khuôn mẫu là tìm và nghiên cứu các mỗi
quan hệ chung (như cụm, thứ hạng, sự tương quan, phân lớp) trong các dữ liệu
chung (như dữ liệu tuần tự, tài liệu văn bản, các tập hợp điểm, vector, hình anh, đồthi, ) Tuy nhiên, đặc điểm chính của phương pháp hạt nhân là cách tiếp cận riêngbiệt của chúng đối với van dé này Các phương pháp hạt nhân ánh xạ dữ liệu vaokhông gian nhiều chiều hơn với hi vọng rằng trong không gian mới đó thì các dữliệu sẽ dễ dàng cầu trúc hơn hoặc dễ tách biệt ra hơn Không có bất kì một sự ràngbuộc nao về sự ánh xạ này, thậm chí có thể dẫn đến chiều không gian vô hạn Tuynhiên, những hàm ánh xạ này hầu như không phải tính toán mà nhờ 1 công cụ đượcgọi là thủ thuật hạt nhân (kernel trick) Chúng ta có nhiều loại kernel như "linear",
9
Trang 21NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM"rbf", "poly" Ở đây "rbf" và "poly" đặc biệt hữu dụng với các bai toán siêu phangphi tuyến (non - linear hyper-plane).
Phan lớp sw dụng RBE kernelRadial Basis Function (RBF) là ham kernel thông dung trong support vectorclassifier (SVC)
Kaper (x,x') = elk -2"P, (3.1)trong đó |x — x’|* là khoảng cách giữa 2 điểm dữ liệu x va x’ trong không
gian Euclidean Tuy nhiên trong phạm vi nghiên cứu nhóm không di sâu vào công
thức nay ma tập trung vào 2 đối số quan trọng dé tối ưu RBF là C vay y là đối sốcủa hạt nhân RBF và có thé được coi như "sự lan rộng” (spread) của hạt nhân, tatạm gọi nó là vùng quyết định Khi y thấp "đường cong" của ranh giới quyết địnhrất thấp, do đó vùng quyết định rất rộng Khi y cao, "đường cong" của ranh giớiquyết định cao, tạo ra các "hòn đảo" của ranh giới quyết định xung quanh các điểmdữ liệu Chúng ta sẽ thấy điều này rất rõ dưới đây
y=0.01
y = 10.0 y = 100.0
Hình 3-4 Anh hưởng của y đến kết quả phân lớp trong SVM
10
Trang 22NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆMThông số y
Dé thấy được ảnh hưởng của thông số y, bộ phân loại SVC-RBF được sửdụng với dữ liệu giống nhau và thông số C không thay đôi mà chỉ có các giá trị y sẽđược tăng dan Từ đó ta sẽ dé dàng thấy rõ được sự tác động của y lên vùng quyết
định của việc phân loại như Hình 3-4.
Thông số CC là thông số của bộ học SVC nói chung, thông số này quyết định sự đánhđôi giữa việc huấn luyện sai các ví dụ huấn luyện với mức độ đơn giản của bề mặtquyết định (hay còn gọi là đường ranh giới phân lớp) Khi C nhỏ, bộ phân loại sẽchấp nhận các điểm dữ liệu bị phân loại sai (sai số cao, phương sai thấp) có nghĩa là
đường ranh giới phân loại sẽ "smooth" hơn Khi C lớn, bộ phân loại bi phạt nặng
đối với các dữ liệu bị phân lớp sai, do đó đường ranh giới phân loại sẽ được uốncong về phía sau hơn để tránh bat kỳ điểm dữ liệu sai (sai số thấp, phương sai cao)
như Hình 3-5.
C= 1000 ¬ C = 10000Hình 3-5 Anh hướng của C dén két quả phan lớp trong SVM
lãi
Trang 23NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆMƯu điểm của mô hình SVM
Là một kĩ thuật phân lớp khá phổ biến, SVM thé hiện được nhiều ưu điểm
trong sô đó có việc tính toán hiệu quả trên các tập dữ liệu lớn Có thê kê thêm một
số ưu điểm của phương pháp này như:
Xử lý trên không gian số chiều cao: SVM là một công cụ tính toán hiệuquả trong không gian chiều cao, trong đó đặc biệt áp dụng cho các bàitoán phân loại văn bản và phân tích quan điểm nơi chiều có thể cực kỳ
lớn.
Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được sử dụngtrong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệumới nên chỉ có những điểm cần thiết mới được lưu trữ trong bộ nhớ khira quyết dịnh
Tính linh hoạt - phân lớp thường là phi tuyến tính Khả năng áp dụngKernel mới cho phép linh động giữa các phương pháp tuyến tính và phituyến tính từ đó khiến cho hiệu suất phân loại lớn hơn
Hiệu ứng ghi nhớ - SVM sử dụng một tập con của các điểm huấn luyện
trong hàm quyết định (được gọi là các vector hỗ trợ) vì thế nó có hiệuứng ghi nhớ.
Nhược điểm của mô hình SVMBài toán số chiều cao: Trong trường hợp số lượng thuộc tính (p) của tậpdữ liệu lớn hơn rất nhiều so với số lượng đữ liệu (n) thì SVM cho kết quảkhá tôi
Chưa thé hiện rõ tính xác suất: Việc phân lớp của SVM chỉ là việc cốgăng tách các đối tượng vào hai lớp được phân tách bởi siêu phang SVM.Điều này chưa giải thích được xác suất xuất hiện của một thành viêntrong một nhóm là như thế nào Tuy nhiên hiệu quả của việc phân lớp cóthể được xác định dựa vào khái niệm margin từ điểm dữ liệu mới đến siêuphăng phân lớp mà chúng ta đã bàn luận ở trên
12
Trang 24NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM
3.1.2 Mô hình 2-Stages Continuous Hidden Markov Model (2SCHMM)
HMM là mô hình thống kê phổ biến để mô hình chuỗi dữ liệu biến đổi nhiềutheo thời gian HMM là một công cụ thông kê rất mạnh trong việc mô hình hóa các
chuôi có thê sinh ra, hay nói cách khác là các chuỗi mà có thê đặc trưng bởi các
chuỗi trạng thái sinh ra các chuỗi quan sát khác nhau HMM đã được ứng dụng
trong rât nhiêu lĩnh vực của xử lý tín hiệu.
Và tương ứng với nó là chuồi các quan sat có thê quan sat được
O = (01,02, , Or) (3.6)
A là bảng chuyển đổi, chứa những giá trị xác suất chuyển đổi từ trạngthái i sang trạng thái j và những xác suất chuyên đổi này độc lập với thời
gian
A= [a;;|, ai; = P(a = S51 4-1 = Si) (3.7)
B là bảng xác suất quan sát, chứa những giá tri xác suất của quan sat k từ
trạng thái i, độc lập với thời gian
B = [b;()],b,(K) = PO: = 0y | qy = Si) (3.8)II là bang xác suat dau tiên
II = [mị],m¡; = P(q = 5;) (3.9)
Ta gia sử mô hình Markov ân thỏa mãn 2 điêu kiện sau:
13
Trang 25NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM
Thứ 1: là mô hình Markov first-order, trạng thái hiện tại chỉ phụ thuộc vào
trạng thái liền trước nó, đặc trưng cho tính nhớ của mô hình
Thứ 2: quan sát được ở thời điểm t, chỉ phụ thuộc vào trạng thái hiện tại, độc
lập với các trạng thái và quan sát được trong quá khứ.
Trong HMM có 3 van đề chính:Vấn đề 1 (Đánh giá — Evaluation)Cho một mô hình Markov 4n và một chuỗi quan sat được O, ta có thê tínhđược P(O|A), là xác xuất xuất hiện của chuỗi quan sát đó cho bởi mô hình Makovan Từ đó ta có thé đánh giá chất lượng mô hình khi dự đoán về chuỗi O cho trướcvà chọn được mô hình thích hợp nhất
Xác suất chuỗi quan sát O cho chuỗi trang thái Q được tính bởi:
lúc này là xác suât cua chuỗi O tại mức trạng thái s; tại thời diém t.
a, (i) = P(040; 0¿,q¿ = S¡|Â) (3.13)Sau đó ta điền day đủ các thông số a vào biéu đồ mat cáo Tổng giá trị của
cột cuôi chính là xác suât chuỗi quan sát được.
Vấn đề 2 (Giải mã — Decoding)
14
Trang 26NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM
Mục đích của việc decoding là xác định được chuỗi trạng thái mà có khanăng đưa ra được chuôi quan sát cho trước nhiêu nhât Một giải pháp cho van đênay là sử dụng thuật toán Viterbi.
Thuật toán Viterbi là một dạng khác của thuật toán biéu đồ mat cdo, tuong tunhư thuật toán Forward, ngoại trừ việc chon các gia tri xác suất chuyển đôi lớn nhấttại mỗi bước, thay vì tính tổng của chúng
Vấn dé 3 (Học — Learning)Cho trước một hệ thống các mẫu của một quá trình, chúng ta có thé đánh giácác thông số của mô hình Makov ana = (4,B,7) sao cho chúng thé hiện quá trìnhđó một cách tối ưu Có 2 phương pháp thông thường để thực hiện, tùy thuộc vàodạng của mẫu ví dụ cho trước, đó là huấn luyện có giảm sát và huấn luyện không
giám sát.
Nếu mau ví dụ có cả đầu vào va đầu ra thì ta thực hiện huấn luyện có giámsát, với đầu vào là chuỗi quan sát được còn đầu ra là chuỗi trạng thái Nếu mau vidụ chỉ có đầu vao thì ta chi có thé huan luyện không giám sát bang cách “đoán” cácthông số của mô hình dé đạt được chuỗi quan sát đã cho
Ở đây ta chỉ thảo luận về huấn luyện có giám sát, giải pháp đơn giản nhất déthiết lập mô hình Makov ân có thông số A là sử dụng một loạt mẫu ví dụ Tiêu biéu
cho phương pháp này là giải pháp PoS tagging.Ta mo tả 2 nhóm:
t, ty là nhóm tag, tương đương nhóm trang thái s, S của HMMW, Wy là nhóm word, tương đương nhóm quan sát vị Vụ của HMM
Đề xác định các thông số mô hình trên ta dùng đánh giá khả năng cực đại(MLE — Maximum Likelihood Estimation) từ chuỗi quan sát và chuỗi trang thái