TÓM TATDé duy trì và cải thiện thé lực của một vận động viên nghiệp du trong suốt quá trình tập luyện và đạt thành tích cao nhất trong các sự kiện thể thao, chế độ dinh dưỡng tốt và hoạt
Trang 1ĐẠI HỌC QUOC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BOK CR
NGUYEN PHUC THINH
NGHIEN CUU VA PHAT TRIEN TAM NHIN SAU RONG
VE TAP DA DU LIEU NHAT KY CUOC SONG
THONG QUA MO HÌNH HỌC TẬP THICH UNG
LUẬN VĂN THAC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 8.48.01.01
Trang 2ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
GF
Nguyễn Phúc Thịnh
LUẬN VĂN THẠC SĨ
NGHIÊN CỨU VÀ PHÁT TRIEN TAM NHÌN SÂU RONG
VỀ TẬP ĐA DỮ LIỆU NHẬT KÝ CUỘC SÓNG THÔNG QUA MÔ HÌNH HỌC TẬP THÍCH ỨNG
Adaptive Learning Model for Getting Insights into Multimodal Lifelog Data
NGANH KHOA HOC MAY TÍNH
Mã số: 8.48.01.01
GIẢNG VIÊN HƯỚNG DẪN
TS Đào Minh Sơn
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ này được viết và trình bày bởi chính tôi Đây là
kết quả nghiên cứu của tôi dưới sự hướng dẫn trực tiếp của Thầy TS Đào Minh Sơn Mọi
tham khảo trong luận văn này đều được trích dẫn rõ ràng Đồng thời, tôi xin cam đoan rằng các kết quả thực nghiệm được trình bày trong luận văn này là trung thực Tôi xin chịu hoàn toàn trách nhiệm về mọi sao chép không hợp lệ hoặc các vi phạm về quy chế đào tạo.
TP Hồ Chí Minh, ngày 05 tháng 05 năm 2023
Học Viên Thực Hiện
Le
Nguyễn Phúc Thịnh
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn chân thành đến Thầy Tiến sĩ Đào Minh Sơn Người đã
trực tiếp hướng dẫn, chỉ bảo tôi hoàn thành luận văn Cảm ơn Thầy đã hướng dẫn, cung cấp tài liệu, phương pháp nghiên cứu van đề và giúp tôi đưa ra ý tưởng dé thực hiện luận văn
này Chúc thầy luôn dồi dào sức khỏe, thành công trong sự nghiệp nghiên cứu khoa học,
giảng dạy, công việc và cuộc sống.
Tôi xin chân thành gửi lời cảm ơn đến Quy Thầy Cô Trường Đại Học Công Nghệ Thông Tin TP Hồ Chí Minh đã hết lòng tận tụy, nhiệt huyết truyền tải những kiến thức quý giá
trong suốt thời gian tôi học tại trường.
Cũng xin gửi lời cảm ơn chân thành tới BGH nhà trường, Phòng Đào Tạo Sau Đại Học, Khoa Khoa Học Máy Tính Trường Đại Học Công Nghệ Thông Tin TP Hồ Chí Minh đã tạo
điều kiện thuận lợi cho tôi để hoàn thành luận văn một cách tốt nhất trong suốt quá trình nghiên cứu.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, đặc biệt là ba mẹ, người đã đồng hành, động viên và khuyến khích tôi trong suốt quá trình hoàn thành luận văn của mình.
Trong quá trình thực hiện mặc dù đã cố gắng hoàn thiện, tiếp thu các ý kiến đóng góp của Quý Thầy Cô, tham khảo các tài liệu liên quan nhưng không tránh khỏi những sai sót Rất
mong nhận được sự đóng góp ý kiến của Quy Thay, Cô.
Xin chân thành cảm ơn! `
TP Ho Chí Minh, ngày 05 tháng 05 năm 2023
Học Viên Thực Hiện
Ae
Nguyễn Phúc Thịnh
Trang 5Mục lục
1 GIỚI THIEU 10
1.1 Tính cấp thiết của đề tài -.-:-22222+t222212 2221112221111 ccEErecrrer 10
1.1.1 Giới thiệu để tài -cccccccc2S2CEEEErrrrrrrrrrrkrrrrrrrrrrrrrrrree 10 1.1⁄2 Lý do chọn để tài 2-:-c522222 222222222 rrtEEEEErrrrrrrrrrrrrree 10
1.2 Mục tiêu nghién CỨU + Ek*k SE SE TT re 12 1.3 Đối tượng và phạm vi nghiên cứu -c::¿£5222Vvvvv+rrttrrrvvrrrrrrrrrrrrrrree 13 1.4 Ý nghĩa khoa học và giá trị thực tiễn -22-cc+cccesttEEErkrtrirrrrrrrrrrrrree 14
2 CÁC NGHIÊN CỨU LIÊN QUAN 15
2.1 Các nghiên cứu liên quan - lŠ 2.2 Ưu điểm và hạn chế của các nghiên cứu liên quan l7
3 PHƯƠNG PHÁP NGHIÊN CỨU 18
3.1 Kỹ thuật khai thác các mẫu có tần suất định kỳ -cz+ccz++ 18
3.2 Kỹ thuật khai thác mẫu -¿-2++22+++2EE++922322223112731122212221 221 crrree 20 Ea 21 3.4 Tiền xử lý dữ liệu -2222++t2222EEEE2EtEEE2211111 22211111 c1 re 22 3.5 NhOm oan 24 3.6 Lua chon thu6c tinh 25
3.6.1 Các tính năng của cá nhân oo eee ceeeecseseenesesestsceeaeseseeeeeneee 26 3.6.2 Các tính năng của gia0 lỘ -:- + vn it 26 3.6.3 Các tính năng chung
Trang 64 QUÁ TRÌNH HUAN LUYEN MÔ HÌNH VA KET QUA THỰC NGHIỆM
4.2 Quy trình và cấu hình huấn
luyện -4.2.1 Quy trình huấn luyện
4.2.2 Cấuhìnhhuấnluyện
4.3 Kỹ thuật khai thác các mẫu có tần suất định
kỳ -4.4 Kỹ thuật khai tháémẫu
4.5 So sánh với các nghiên cứu khác
4.5.1 kỹ thuật khai thác các mẫu có tần suất định kỳ
4.5.2 Kỹ thuậtkhaithámẫu
5 KET LUẬN VÀ HƯỚNG PHÁT TRIEN
51 Kết quadatduoc 2 Q Q Q Q Q Q Q Q Q Q o
5.1.2 Mục tiêu luậnvăn ẶẶ.ẶẶẶ 5.13 Cáckếtquảkhác eee 5.2_ Hướng phát triển
TÀI LIỆU THAM KHẢO
29
29
30 30
30
32 34
37
37 38
43
43
43
43
44 44
48
Trang 7Hàm các thành viên của 7(calories) = {low,normal,high} Hình dang của
các hàm thành viên cũng như mức độ chồng chéo của chúng là khá tùy ý 22
Sơ đồ xếp chồng các mô hình -22++++222EE++++rttttEEEELErrrrrtrrrrrrree 27
Ví dụ về các hình ảnh dé ăn và thức uống được chụp từ [7] - 30
Lưu đồ cung cấp dữ liệu - -:+¿222E22S22c++2222EEEEEErrtEEEEEkkrrirrrrrrrrrrrrree 31 Kết quả MAE của các mô hình khi dự đoán tốc độ của các nhóm khi dùng
kỹ thuật khai thác các mẫu có tần suất định kỳ . -¿2zzz+ccx++ 33 Kết quả MAE của các mô hình khi dự đoán cân nặng của các nhóm khi
dùng kỹ thuật khai thác các mẫu có tần suất định kỳ + 33
Kết quả MAE của các mô hình khi dự đoán tốc độ của các nhóm khi dùng
ky thudt Khai thdc MAU G “ 34 Kết qua MAE của các mô hình khi dự đoán cân nặng của các nhóm khi
dùng kỹ thuật khai thác mẫu 2:-©22¿©222+222++22EEEEEESEEErEErrrtrkrrrrrvee 35
Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các nhóm dùng kỹ thuật khai thác các mẫu có tần suất định kỳ khi so sánh mô
hình của chúng tôi với mô hình thích ứng được cá nhân hóa [27] 37
Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các nhóm dùng kỹ thuật khai thác các mẫu có tần suất định kỳ khi so sánh mô hình của chúng tôi với mô hình Vanilla LSTM va GRU [28] 40 Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các
Trang 84.10 Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các
nhóm dùng kỹ thuật khai thác mẫu khi so sánh mô hình của chúng tôi với
mô hình Vanilla LSTM và GRU [28]
Trang 9Một ví dụ về khai thác các mẫu tần suất định kỳ ¿¿zc:x++ 20
Một ví dụ các mẫu trọng lượng liên quan ¿-¿- 5-5 2S ++++x+exererrkexee 21
Một ví dụ các mẫu tốc độ liên quan - 5252 5+2+t+cstrkzkrkersrrrkrkerrrree 21
` €1i0i0u0iio0g)11 TT 24
Các nhóm dữ liỆu - - - 5+ St E101 TH tràn 25
Tổng quan về bộ đữ liệu PMData -©22222222+22222222SEcrrttrrrrrrrrercee 30
Kết quả MAE của các mô hình khi dự đoán tốc độ của các nhóm khi dùng
kỹ thuật khai thác các mẫu có tần suất định kỳ - -c:¿cccz5cs++ 32
Kết quả MAE của các mô hình khi dự đoán cân nặng của các nhóm khi
dùng kỹ thuật khai thác các mẫu có tần suất định kỳ - 32 Kết quả MAE của các mô hình khi dự đoán tốc độ của các nhóm khi dùng
kỹ thuật khai thác mẫu 2¿- 2 222++22E++2EEE+EEEEEEEEEESEEEEEEEEErEEErrrrrrrrrrvee 34
Kết quả MAE của các mô hình khi dy đoán cân nặng của các nhóm khi
dùng kỹ thuật khai thác mẫu -2:¿2222++2222+++22EEEEEt2EEEvvrtrrkrrrrrrrker 35
Kết quả khai thác mẫu tan số định kỳ cho người tham gia P03 36
Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các nhóm dùng kỹ thuật khai thác các mẫu có tần suất định kỳ khi so sánh mô
hình của chúng tôi với mô hình thích ứng được cá nhân hóa [27] 38
Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các nhóm dùng kỹ thuật khai thác các mẫu có tần suất định kỳ khi so sánh mô hình của chúng tôi với mô hình Vanilla LSTM và GRU [28] 39 Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các
Trang 104.10 Kết quả MAE của các mô hình khi dự đoán tốc độ và cân nặng của các
nhóm dùng kỹ thuật khai thác mẫu khi so sánh mô hình của chúng tôi với
mô hình Vanilla LSTM va GRU [28]
Trang 11TÓM TAT
Dé duy trì và cải thiện thé lực của một vận động viên nghiệp du trong suốt quá trình tập
luyện và đạt thành tích cao nhất trong các sự kiện thể thao, chế độ dinh dưỡng tốt và hoạt
động thê chất (nói chung và tập luyện nói riêng) phải được coi là những yếu tố quan trọng.Không giống như các vận động viên chuyên nghiệp có sự hỗ trợ của huấn luyện viên cánhân, các vận động viên nghiệp dư chủ yếu dựa vào kinh nghiệm và cảm giác của họ Do
đó, các vận động viên nghiệp dư cần một phương thức khác dé hỗ trợ họ theo dõi và đề
xuất việc thực hiện các hoạt động của họ hiệu quả hơn Một trong những giải pháp dé theo
dõi các vận động viên nghiệp dư là thu thập dữ liệu nhật ký cuộc sống (tức là dt liệu hàng
ngày được thu thập từ các nguồn khác nhau xung quanh một người) dé hiểu chế độ dinhdưỡng và các hoạt động thé chất có thé tac động đến các bài tập như thé nào Thật khôngmay, không phải tất cả các yếu tố của dữ liệu nhật ký cuộc sống đều có thể góp phần hiểu
được một nhóm người cụ thể và chung (ví dụ: thói quen, dinh dưỡng, tuổi tác, giới tính, tần
suất tập thé dục)
Trong bài luận văn này, tác giả đề xuất một phương pháp mới dé (i) khám phá các tậphop con tối ưu khác nhau từ bộ dữ liệu nhật ký cuộc sống, đặc biệt là mối quan hệ giữadinh dưỡng, hoạt động thé chat và hiệu suất tập luyện và (ii) xây dựng một mô hình thích
ứng có thể dự đoán hiệu suất cho cả quy mô lớn và các nhóm cá nhân Phương pháp được
đề xuất đã tạo ra kết quả tích cực với chỉ số MAE thấp khi được thử nghiệm trên các bộ dữliệu riêng lẻ và quy mô lớn, đồng thời phát hiện ra các mẫu và mối tương quan thú vị giữacác yếu tố dit liệu
Luận văn này gồm có năm chương: Chương 1: GIỚI THIỆU Chương 2: CÁC NGHIÊNCỨU LIÊN QUAN Chương 3: PHƯƠNG PHÁP NGHIÊN CỨU Chương 4: QUÁ TRÌNH
HUẦN LUYỆN MÔ HÌNH VÀ KÉT QUÁ THỰC NGHIỆM Cuối cùng, chương 5: KẾT
LUẬN VÀ HƯỚNG PHAT TRIEN
Trang 12Chương 1
GIỚI THIỆU
1.1 Tính cấp thiết của đề tài
1.1.1 Giới thiệu đề tài
Tập thé dục thường xuyên va ăn uống khoa học có thê hỗ trợ kiểm soát cân nặng, tốc độ
chạy và có lợi cho sức khỏe của mọi người Thời gian tập thể dục dài có thể mang lại nhiềulợi ích sức khỏe khác nhau [1] Mặt khác, không hoạt động thể chất là một yếu tố nguy co
có thê thay đổi đối với bệnh tim va các bệnh mãn tính khác, chăng hạn như tiêu đường, béo
phì, tăng huyết áp, xương và khớp [2]
Hơn thế nữa, sức khỏe của mọi nguoi CÓ thể được hưởng lợi từ việc tập thể dục thườngxuyên và dinh dưỡng tốt, đặc biệt là các vận động viên nghiệp dư [3] Đề xác định xu hướngsức khỏe ở các nhóm tuôi khác nhau, nghiên cứu được giới thiệu trong [4] đã chỉ ra rằngmọi người rất chú ý đến loại dinh dưỡng và hoạt động thể chất mà họ cần thực hiện trongquá trình tập luyện để đạt được thành tích tốt hơn Trong [5], tác giả đề cập đến mối quan
tâm của mọi người đối với mối tương quan giữa dinh dưỡng, chat lượng giấc ngủ, chế độ
luyện tập và sức khỏe Tập luyện vất vả mà không ăn ngủ lành mạnh thì người ta không cảithiện được thành tích, sức khỏe có thé sẽ sa sút
1.1.2 Ly do chọn đề tài
Trong những năm gần đây, mặc dù nhiều nghiên cứu đã được tiến hành trong lĩnh vựcnày, nhưng chỉ có một số nhóm nhỏ được nghiên cứu và một vài mô hình đã tiết lộ mối liên
hệ giữa các thuộc tính trọng lượng và tốc độ (ví dụ: hoạt động, sức khỏe, thói quen) dé rút
ra các mẹo giúp mọi người kiểm soát trọng lượng và tốc độ chạy của họ Nghiên cứu này
đã đề xuất một cách tiếp cận sử dụng các kỹ thuật khai thác mẫu theo chu kỳ và tần suất
Trang 13xuất hiện dé khám phá các thuộc tính tối ưu nhất theo thời gian dé dự đoán trọng lượng và
tốc độ của một vận động viên cho một sự kiện thé thao Hơn nữa, nó cũng đề xuất Mô hình
học tập thích ứng, có thể học hỏi từ đữ liệu cá nhân và chung dé dự đoán cân nặng hoặctốc độ của một người ở các nhóm tuôi khác nhau, chang hạn như thanh niên, trung niên vàthành viên nữ hoặc nam Dựa trên phân tích trên, các cách tiếp cận khác nhau dé xây dựng
mô hình dự đoán về cân nặng hoặc tốc độ chạy của vận động viên đang được kiểm tra dựa
trên dữ liệu sơ cấp.
Đề đáp ứng những thách thức này và khám phá những hiểu biết thú vị và có giá trị,nghiên cứu này đề xuất một phương pháp mới đề dự đoán sự thay đôi về tốc độ chạy và cânnặng, nhắn mạnh việc sử dụng các yếu tố dinh dưỡng và hoạt động thé chất của bộ đữ liệu
PMData.
1.13 Thách thức
Các bộ đữ liệu nhật ký cuộc sống đa phương thức gần đây đã thành công trong việc thu
thập các loại dữ liệu đa dạng phản ánh các hoạt động hàng ngày của con người Tham vọng
của các bộ dữ liệu nay là thu thập càng nhiều dữ liệu càng tốt Thật không may, điều nàydẫn đến những thách thức đáng kề trong phân tích dữ liệu và xây dựng mô hình dự đoán,chăng hạn như dữ liệu nhiều chiều, khối lượng công việc tính toán phức tạp, lấy mẫu ditliệu và dữ liệu dư thừa Mặc dù dữ liệu nhật ký cuộc song giúp phục vụ các nhu cầu cá nhân
(ví dụ: tìm kiếm, đề xuất, dự đoán hoạt động/hành vi), cộng đồng cần nhiều hơn thế: một
mô hình dự đoán có thê hoạt động cho một nhóm người quy mô lớn và mô hình đó có thé
dễ dàng và nhanh chóng thích nghi với một cá nhân mới sắp tham gia cộng đồng Nói cách
khác, với một bộ di liệu nhật ký cuộc sống được thu thập từ một nhóm người khác nhau,
chúng ta có thể xây dựng một mô hình có thê hoạt động tốt cho cả nhóm và cá nhân không?Hơn nữa, chúng ta có thể giải thích lý do hoặc quan hệ nhân quả của kết quả đầu ra của mô
hình không?
Sau khi tìm hiểu hiéu rõ hơn về đữ liệu, tác giả phát hiện ra rằng dữ liệu do Fitbit thu thậpchứa rất nhiều nhiễu, gây khó khăn cho việc khái quát hóa Hơn nữa, tập dữ liệu của mỗingười tham gia bị hạn chế Ví dụ: có khoảng 20 hoạt động đang chạy dành cho người thamgia 1, 2 và 4, nhưng chỉ có 3 trong số các hoạt động này dành cho cá nhân 3 và 5 Hơn nữa,nhiều người không có nhiều đữ liệu, chăng hạn như người tham gia 5, người chỉ ghi lại 2 -3
Trang 14lần trong một tháng đối với thuộc tính ’téc độ” Những yếu tố này ảnh hưởng đáng ké đến
khả năng đạt được độ chính xác tối ưu của các mô hình
Hơn nữa, dữ liệu được trình bày không chứa thuộc tính trực tiếp biểu thị thời gian chạy
cho nhiệm vụ dự đoán thời gian chạy Mỗi người tham gia phải hoàn thành đường chạy 5
km Bằng cách chia thuộc tính khoảng cách cho thuộc tính tốc độ, tác giả phát hiện ra rằng
thời gian ban đầu này được trích xuất ngẫu nhiên từ hoạt động chạy của mỗi người tham
gia Mặc dù thời lượng chạy bắt đầu được cho là 5km, thuộc tính khoảng cách hiển thị thờigian chạy ngắn hơn đáng kê Hơn thé nữa, dữ liệu được lấy từ 16 người tập chạy 5 km nhưnghầu hết các sự kiện chạy của họ đều ngắn hơn 5 km Dé giải quyết những van dé này, hướngtiếp cận của luận văn là sử dụng các phương pháp tiền xử lý dữ liệu đặc biệt, chăng hạn nhưthời gian thuộc tính cấu trúc trên mỗi km
Mặt khác, tác giả không phải là chuyên gia trong các lĩnh vực dinh dưỡng và thể thao.Việc tìm kiếm thông tin về su phân loại các nhóm thực phẩm và phân định mức độ cao,trung bình, thấp (sẽ được trình bày chi tiết hơn ở những phan sau) chỉ được thực hiện ở mức
độ phô biến Tương tự, trong lĩnh vực thé thao cũng chỉ có thể phân định mức độ cao, trung
bình, thấp về số phút tập luyện và cường độ tập luyện ở mức phô biến nhất
1.2 Mục tiêu nghiên cứu
Đề đáp ứng những thách thức này và khám phá những hiểu biết có giá trị và thú vị, tácgia đề xuất một phương pháp mới dé đạt được những điều sau:
» Tìm các tập hợp con tối ưu khác nhau của các loại dữ liệu từ các bộ đữ liệu nhật ký
cuộc sông đa phương thức có thé giúp giảm độ phức tạp tính toán của hệ thống
* Khám phá các mô hình hoạt động và dinh dưỡng hàng ngày có tác động đáng kê đến
kêt quả tập luyện bao gôm sức bên, sức chịu đựng và giảm cân.
* Dự đoán kết quả tập luyện dựa trên dinh đưỡng và hoạt động hàng ngày, cho cả nhóm
và cá nhân
Những đóng góp chính trong công việc của tác giả là:
- Ap dụng kỹ thuật khai thác các mẫu có tần suất định kỳ [6] để khám phá các tập hợp
con của các yêu tô xuât hiện với tân suât định kỳ cao trong toàn bộ tập dữ liệu Tác
Trang 15giả chuyền đổi dit liệu về dinh dưỡng và hoạt động thé chất thành một bảng giao dichbằng cách chuyên đổi dữ liệu liên tục thành dữ liệu rời rạc bằng logic mờ Tác giả đưa
ra giả thuyết rằng những tập hợp con này có thé đặc trưng cho một nhóm người cụ thé
có cùng những điểm chung không xuất hiện ở những nhóm khác
* Tao các tập hợp dữ liệu phân biệt đối xử khác nhau bang cách sử dụng khai thác mẫu
Các tập hợp con dir liệu này có thể được sử dụng theo nhiều cách khác nhau (ví dụ:hợp nhất nội bộ, hợp nhất) dé tạo thành các mô hình thích ứng cho các nhóm ngườikhác nhau được nhóm lại băng cách sử dụng dt liệu dân chu
* Ước tính ty lệ thực phẩm lành mạnh và không lành mạnh từ hình ảnh thực phẩm và
xử lý chúng dưới dang dữ liệu số Dữ liệu này có thé làm phong phú thêm yếu tố dinh
dưỡng bên cạnh nhật ký thực phẩm do mọi người báo cáo Ước tính một phần thực
phẩm lành mạnh có thê vượt qua thách thức tính toán chính xác lượng calo từ hình ảnhthực phẩm do các thuật toán phát hiện đối tượng và phân đoạn ngữ nghĩa hiện hoạt
động tốt hơn so với các thuật toán từ hình ảnh đến calo
* Tạo ra một mô hình xếp chồng dé dự báo những thay đồi về cân nặng và tốc độ chạycủa vận động viên dựa trên chế độ ăn uống hàng ngày và thói quen tập luyện của họ
Mô hình có thê thích ứng với các trường hợp chung và cá nhân khác nhau phù hợp vớihiểu biết về hiệu suất luyện tập trong suốt các hoạt động dinh dưỡng và thể chất của
một nhóm người quy mô lớn.
1.3 Đối tượng và phạm vi nghiên cứu
Do hạn chế về thời gian và nguồn lực đề tài chỉ thực hiện trong giới hạn sau:
Khác với các phương pháp và bộ dữ liệu đã đề cập, PMData [7] nhằm mục đích thu thập
dữ liệu nhật ký cuộc sống từ những người bình thường muốn có sức khỏe tốt hơn bằngcách tập thé dục độc lập mà không cần huấn luyện viên cá nhân Những người này có thé
được coi là vận động viên nghiệp dư Động lực của người tạo ra bộ dữ liệu này là cung cấpmột sân chơi cho những người muốn tạo ra một công cụ có thể hỗ trợ các vận động viên
nghiệp dư đạt được thành tích tập luyện tốt hơn băng cách theo dõi thói quen hàng ngàycủa họ Động lực này được thể hiện với công chúng thông qua thử thách ImageCLEFlifelog
Trang 162020 [8] trong đó người tham gia được yêu cầu dự đoán sự thay đổi về tốc độ và trọng lượng
khi chạy sau khi theo dõi bộ dữ liệu của vận động viên nghiệp dư trong một thời gian.
Phạm vi nghiên cứu của luận văn này là dữ liệu của các vận động viên và họ là ba phụ nữ
và mười ba nam được thu thập trong năm tháng (11/2019 — 03/2020).
Tác giả thực hiện thử thách trong imageCLEFlifelog 2020 [9] với thử thách 1 đoán sự
thay đổi của tốc độ chạy từ lần chạy đầu tiên đến lần chạy cuối kỳ báo cáo; thử thách 2 là
dự đoán sự thay đổi cân nặng từ đầu kỳ đến cuối kỳ báo cáo
1.4 Ý nghĩa khoa học và giá trị thực tiễn
- Ý nghĩa khoa học: Dé tài đã nghiên cứu và vận hành thành công mô hình thu thập dữ
liệu và mô hình xếp chồng dé dự báo những thay đổi về cân nặng và tốc độ chạy của
vận động viên, cung cấp dữ liệu cho các bài báo nghiên cứu khoa học như [10], [11]
* Giá trị thực tiễn: việc xây dựng mô hình dự đoán những thay đi về cân nặng và tốc
độ chạy của các vận động viên nghiệp du trong một nhóm giúp ta có thé dự đoán chonhững người khác, nếu họ có chung những đặc điềm trong nhóm Cụ thé hơn, điều nàygiúp chúng ta có thê dự đoán cân nặng và tốc độ chạy của một người mà không cần
huân luyện mô hình thêm nữa.
Tom lại, trong Chương 1, tac giả đã giới thiệu khái quát về đề tài, mục tiêu đề tài, phươngpháp tiếp cận đề tài, phạm vi nghiên cứu và ý nghĩa thực tiễn, thực tế của luận văn, và cáccông trình nghiên cứu liên quan Trong chương tiếp theo, tác giả sẽ trình bày chỉ tiết hơn về
các nghiên cứu liên quan trong lĩnh vực này.
Trang 17Chương 2
CÁC NGHIÊN CỨU LIÊN QUAN
Trong chương này, tác giả tiễn hành tìm hiểu những nghiên cứu về lĩnh vực sức khỏe của
con người, đặc biệt là các yếu tố dinh dưỡng và hoạt động thé thao Khi tìm hiểu nhữngnghiên cứu liên quan này sẽ giúp cho tác giả có thêm kiến thức về lĩnh vực này và góp phần
hoàn thiện hơn cho luận văn.
2.1 Cac nghiên cứu liên quan
* Mọi người muốn dự đoán hiệu suất tập luyện cho nhiều đối tượng khác nhau (ví dụ:
vận động viên chuyên nghiệp và nghiệp dư, sinh viên đại học, người lớn tuổi) dựa trên
thói quen hàng ngày của mọi người, chang hạn như dinh dưỡng, ngủ, hoạt động thé
chất, thói quen và đữ liệu cá nhân Trong [12], một mô hình được xây dựng bởi mạng
lưới thần kinh và lý thuyết hỗn loạn được đề xuất đề dự đoán hiệu suất đào tạo của sinh
viên đại học Độ chính xác của mô hình là hơn 90% và hầu hết dữ liệu liên quan đếncác phép đo thành tích thé thao Trong [13], một mô hình mang thần kinh sử dung dit
liệu hiệu suất của người chơi được xây dựng đề dự báo hiệu suất của các vận động viên
cricket Một mô hình LSTM được giới thiệu trong [14] đề dự đoán thành tích của cácvận động viên bóng đá Những nghiên cứu này tập trung vào một phạm vi hẹp hiếmkhi có những điểm chung giống nhau, chăng hạn như vận động viên chuyên nghiệp
và sinh viên đại học Hơn nữa, những nghiên cứu này không xem xét dinh dưỡng, một
trong những yếu tố quan trọng nhất ảnh hưởng đến hiệu suất tập luyện
* Trong [15], các tác giả giới thiệu một dir liệu nhật ký cuộc sống đa phương thức thú
vị bao gồm thói quen ăn kiêng, tham gia thé thao và tình trang sức khỏe của các cánhân Bộ dữ liệu này chứa các yếu tố khác nhau, bao gồm hình ảnh thức ăn, nhịp tim,
Trang 18chất lượng giấc ngủ, bài tập và cảm xúc Động lực chính của nghiên cứu này là kếthợp thông tin về tập luyện và dinh dưỡng đề xác định thành tích của vận động viên cóthể bị ảnh hưởng như thế nào bởi lựa chọn chế độ ăn uống và lịch tập luyện của họ.Nghiên cứu này nhằm mục đích đưa ra một khuyến nghị phù hợp tùy thuộc vào hoạtđộng của họ Giả sử một vận động viên có những thói quen tồi tệ làm giảm thành tích,chăng hạn như tốc độ chạy chậm hoặc ăn uống không lành mạnh Hệ thống sẽ tư vấnthực đơn, chế độ luyện tập phù hợp dé vận động viên nâng cao thành tích.
Trong [16], thuật toán máy hoc Support Vector Machine (SVM) và bay hat được ápdụng dé xây dựng mô hình dự đoán thành tích của vận động viên Việc triển khai lýthuyết hỗn loạn đối với dữ liệu của các vận động viên trong quá khứ dé xác định cácquy tắc ân làm tăng hiệu suất của các mô hình dự đoán là một đóng góp đáng kể của
kỹ thuật này Thật không may, mô tả tập dữ liệu không đủ chỉ tiết, vì vậy có thê khó lặp lại quy trình này.
Trong [17], mô hình hồi quy phi tuyến tính và mạng thần kinh được giới thiệu Nghiêncứu này được thực hiện trên nhóm vận động viên ném lao 18 + 0,5 tuổi dé huấn luyện
và thử nghiệm mô hình Tác giả cũng chứng minh rang mô hình thần kinh hoạt độngtốt hơn mô hình hồi quy trong việc dự đoán kết quả thể thao Tuy nhiên, nghiên cứunày chỉ giới hạn ở một cỡ mẫu nhỏ, điều này sẽ khó dự đoán đối với những người trẻtuôi hoặc trung niên
Trong cuộc thi do điểm chuẩn so sánh LSC’21, LifeSeeker 3.0 [18] tập trung vào tìm
kiếm và lọc theo truy van văn bản sử dụng mô hình Túi từ có trọng số với tính năngtăng ý tưởng trực quan và ba từ vựng có trọng số Thật không may, cách tiếp cận nàykhông phân biệt được các đối tượng không xác định trong các bức ảnh lifelog dé tự
động chú thích.
Trong [19], mô hình Mạng lưới thần kinh nhân tạo (Multi-Layer Perceptrons) được
sử dụng để dự đoán thành tích của một nữ vận động viên bơi lội hàng đầu trong trận
chung kết nội dung 200 mét bơi ngửa tại Thế vận hội Olympic 2000 ở Sydney Thậtkhông may, do thiếu bộ đữ liệu lớn được sử dụng để đào tạo mô hình ANN, các tác giảcho rằng hành vi thích ứng của cả hai vận động viên là tương tự nhau, khiến mô hình
Trang 19* Trong [20], tác gia đưa ra nhiều mô hình dự báo thành tích của vận động viên trong
các giải đấu thể thao, bao gồm RNN, LSTM và GRU, sau đó lựa chon mô hình tối ưu
dé dự báo cho một hoặc một nhóm vận động viên Tuy nhiên, mô hình không thể dựđoán nhiều nhóm người khác nhau do bộ dữ liệu bị hạn chế và việc chọn mô hình tối
ưu đê dự đoán cho một hoặc một nhóm người.
2.2 Ưu diém và hạn chê của các nghiên cứu liên quan
Tóm lại, các nghiên cứu trên đã đạt được những thành tựu nhất định, họ đã có những đónggóp tích cực cho xã hội nhăm mục đích nâng cao đời sống con người Chúng ta cùng điểm
qua những ưu điêm và hạn chê của những nghiên cứu đó:
° Ưu điềm: hướng dén nhiêu đôi tượng khác nhau như sinh viên đại học, các vận động
viên Cricket và bóng đá Mặt khác, các nghiên cứu đó cũng đê xuât nhiêu loại mô hình
khác nhau chăng hạn như mô hình mạng thần kinh, mô hình LSTM, SVM, và RNN
» Hạn chế: trong mỗi nghiên cứu trên, họ chỉ nhắm đến một đối tượng cụ thể và chỉdùng một mô hình đơn lẻ Điều này sẽ rất khó cho độc giả có thể áp dụng theo các
phương pháp mà họ đề xuất, chăng hạn như một người ở độ tuổi trung niên thì anh
ấy không thê bắt chước các phương pháp dành cho các sinh viên đại học bởi vì nó sẽ
không đem lại kết quả như mong đợi Hơn thế nữa, với việc chỉ xây dựng một mô hình
đơn lẻ dé dự đoán cho một người thì xem ra phương án đó không được khả thi cho lắm.Nếu có một người mới tham gia vào nhóm của họ thì họ phải huấn luyện và kiểm tralại mô hình cho người mới đó Hơn thế nữa, nếu có một ngản người mới, chăng lẽ họphải huấn luyện và kiểm tra cho một ngàn mô hình?
Nhăm mục đích khắc phục những hạn chế của những nghiên cứu trên, tác giả mong muốn
có một mô hình dự đoán có thé hoạt động cho một nhóm người quy mô lớn và mô hình
đó có thé dé dang và nhanh chóng thích nghi với một cá nhân Cụ thé hon, trong luận vănnày, tác giả sẽ nghiên cứu nhiều nhóm đối tượng khác nhau như nhóm chỉ toàn các thành
viên nam hay nhóm ở độ tuổi trung niên Tiếp theo, thay vì chỉ sử dụng một mô hình đơn lẻ
dé dự đoán, tác giả sẽ tìm cách kết hợp nhiều mô hình đơn lẻ lại với nhau nhằm mục dichtăng độ chính xác lên cao hơn Chỉ tiết về nghiên cứu này sẽ được tác giả trình bày ở những
chương sau.
Trang 20Chương 3
PHƯƠNG PHÁP NGHIÊN CỨU
Phần này giới thiệu cách tiếp cận dựa trên dữ liệu mà tác giả xây dựng mô hình của mình.Đầu tiên, tác giả giới thiệu ngắn gọn về thuật toán khai thác mẫu tần suất định kỳ và cách
sử dụng thuật toán này dé khám phá các tập hợp con có giá trị của các yếu tô dit liệu ma
có thê phân biệt giữa các nhóm người Bên cạnh đó, phương pháp khai thác mẫu tuần suấtcũng được tiến hành tương tự như phương pháp trên Sau đó, tác giả giới thiệu cách thứctiền xử lý dữ liệu, chia nhóm người, cũng như là lựa chọn thuộc tính cho mô hình Tiếp
theo, luận văn này đề cập đến mô hình học tập thích ứng dựa trên nền tảng xếp chồng mô
hình theo hướng dữ liệu chạy trên các tập hợp con được khai thác của các yếu tố dit liệu.Cuối cùng, tác giả giải thích cách mô hình có thê hoạt động trong các trường hợp chung và
riêng lẻ khác nhau.
Hình 3.1 và 3.2 minh họa tổng quan về phương pháp đề xuất Mỗi thành phần sẽ sớm
được mô tả trong các phân sau.
3.1 KY thuật khai thác các mẫu có tần suất định kỳ
Trong tiêu mục này, tác giả xem xét ngắn gọn các thuật ngữ cơ bản của các kỹ thuật khaithác mẫu tần suất định kỳ, chỉ ra một ví dụ về cách chúng tạo ra các mẫu tần suất định kỳ
và giải thích cách diễn giải các mẫu này.
Đặt J = {Ij} i-1 v biểu thị tập mục Đặt 7; = {Un} „tim biểu thi một giao dich là một tập
hợp các mục của tập mục Đặt Pe = { Un} net, độ hỗ trợ(%), tính tuần hoàn(%)} biểu thị
một mẫu tần số tuần hoàn trong đó tập hợp các phần tử {„Ì»„=[ixị có tần số được biểu thị
theo hỗ trợ (%) và mức độ thường xuyên của mẫu này xuất hiện trong cơ sở đữ liệu được
mô tả theo chu kỳ (%).
Trang 21Stacking model Stacking model Features Frequent
Intersection selections Mini features ining
Features
selections
Hình 3.2: Tổng quan về phương pháp kỹ thuật khai thác mẫu
Thuật toán khai thác mẫu tần số định kỳ được giới thiệu bởi Dr Uday et al [6] lấy
{T;} ;=1 trong đó M là tổng số giao dich làm đầu vào và tạo ra {P¿}¿=¡.p trong đó P là
tong số mau làm đầu ra minSup (nghĩa là chỉ chọn các mẫu có độ hỗ trợ lớn hơn minSup)
và maxPer (tức là chỉ chon các mẫu có chu kỳ nhỏ hơn maxPer) phải được khai báo trước
dé giới hạn phạm vi tìm kiếm
Bang 3.1 minh họa một mau tập hợp vật phẩm, giao dịch và các mẫu phô biến định kỳ
Trang 22ts, P, Sup va Per lần lượt là từ viết tắt của giao dịch, mẫu, hỗ trợ và tính định kỳ Độc giả có
thể tham khảo bài báo gốc [6] dé biết thêm chỉ tiết.
Giả sử chúng ta có 10 biên lai của khách hàng từ một cửa hàng tạp hóa nhỏ trong thị tran, trong đó mỗi biên lai ghi lại danh sách thực phẩm mà một khách hàng đã mua Sau đó,
chúng ta muốn hiểu tần suất và định kỳ một loại thực phẩm được mua Bảng 3 la minh họa
10 biên lai này; mỗi lần nhận được coi là một giao dich (ts) Bảng 3.1b mô tả kết quả từ việc khai thác mẫu tần số định kỳ Chúng ta có thé thấy rằng “thịt được mua với tần suất cao (tức là 6/10) và không quá ba giao dịch, “thịt” lại được mua lại.
ts Items P Sup | Per
1 | meat, vegetables meat 6 3
2 | meat, fruit, nuts, vegetables 5 3
sugar_sweetened_beverages 3_| fruit, eggs, fish, Fast food fruit 5 |3
4 | meat, vegetables, fis! nuts 4 3
dairy_products, refined_grains 5_| vegetables, fruit, nuts eggs 4 |3
6 | nuts, eggs, fi fish 4 3
7 | meat, vegetables, meat, vegetables | 4 3
sugar_sweetened_beverages
8 | fruit, nuts, eggs fruit, nuts 3 3
9 | meat, vegetables, eggs, fish
10 | meat, fruit, dairy_products
(a) Transactional table (b) Periodic-frequent
pat-terns mined from (a)
Bang 3.1: Một ví dụ về khai thác các mẫu tan suất định kỳ
3.2 Kỹ thuật khai thác mẫu
Trước tiên, tác giả cần chuyền đổi dữ liệu của mình sang các bảng giao dịch đề sử dụng
các kỹ thuật khai thác dữ liệu Đề làm được điều đó, tác giả phải rời rạc hóa dữ liệu của
mình bằng cách áp dụng logic mờ với ranh giới mềm giữa hai vùng giá trị liên tiếp Bộ ba (thấp, bình thường, cao) dé rời rac hóa dit liệu số được sử dụng trong trường hợp này Tác
giả chọn lợi thế của từng cấp tùy thuộc vào bản năng của dữ liệu có thé được tham khảo bằng cách tận dụng nghiên cứu có liên quan Vi dụ: "lượng calo' có thé được phân tách
thành lượng calo thấp, lượng calo bình thường và lượng calo cao liên quan đến ít hơn 2000,
từ 2000 đến 3000 và lớn hơn 3000 calo mỗi ngày.
Tiếp theo, tác giả coi mỗi giá trị được hình thành bằng cách sử dụng phương pháp được
Trang 23giao dịch đại điện cho các hoạt động trong một ngày Cuối cùng, thuật toán khai thác dữ
liệu cơ bản Apriori đề khai thác các mẫu được sử dụng trong nghiên cứu này.
Quy trình trên cung cấp một tập hợp các mẫu chứa các mi quan hệ, liên kết có tần suất
xuất hiện cao giữa các yếu tố dữ liệu cho một người làm đầu ra Chúng ta có thể linh hoạt thay đổi các tham số Apriori để đạt được các mẫu khác nhau cho các yếu tố mục tiêu (ví
dụ: trọng lượng, tốc độ chạy).
Bảng 3.2 va 3.3 biểu thị hai ví du về thói quen được đề cập.
Bảng 3.2: Một ví dụ các mẫu trọng lượng liên quan
Person Weight Efficiency Frequent pattern
Weight_high AttributeS_normal: # pattern
Bảng 3.3: Một ví dụ các mẫu tốc độ liên quan
Person Speed Efficiency Frequent pattern
Attribute 1_normal: # pattern
Speed_low Attribute2_high: # pattern
Attribute3_high: # pattern
Person | Speed _normal | Attribute1_low: # pattern
ỷ Attribute4_low: # pattern
Speed _high Attribute5_normal: # pattern
Mục tiêu của chiến lược này là tìm ra các thuộc tính có liên quan chặt chẽ nhất với trong lượng hoặc tốc độ chạy Mặc dù các thuộc tính này cho chúng ta ấn tượng rằng không có
mối tương quan nào trong quá trình xử lý trước đữ liệu, vì vậy chúng có thé dễ dàng bị
bỏ qua Sau đó, tác giả sử dụng tệp gốc của mỗi người (dữ liệu số) đề chọn các thuộc tính
nhằm huấn luyện mô hình sau khi tìm thấy các hệ quả thích hợp đối với trọng lượng hoặc tốc độ chạy.
Trang 24Trong nghiên cứu này, chúng ta không thé sử dụng tdp ro để xác định giới hạn cho một thuộc tính nào đó bởi vì nó không có một ranh giới rach roi, chẳng hạn đối với ’Calories’,
ta chỉ biết nếu một ngày mà anh ta đốt lượng Calo dưới 2000 là /ow Chúng ta không thé
chỉ ra một con số chính xác cụ thé thì mới xác định nó ở mức thấp Chính vì vậy, tác giả
sử dụng biến ngôn ngữ (Linguistic Variables) [30] dé biểu diễn tính đặc trưng cho một đại
lượng thay vì dùng con số Một biến ngôn ngữ thường được phân tích thành một tập hợp các thuật ngữ, 7(u), bao hàm cách biểu diễn ngôn ngữ của nó.
Ví dụ, lay Calories (u) được diễn giải như là một biến ngôn ngữ Nó được biểu diễn
thành một tập hợp như sau 7(calories) = {low,normal, high} trong đó mỗi thuật ngữ trong
T(calories) được đặc trưng bởi một tập mờ đặt trong U = [0, 6000] Chúng ta diễn giải
mức low nếu lượng Calo dưới 2000, normal nếu lượng calo gần mức 3000, và high nếu trên
3000 Các thuật ngữ này có thé được mô tả như là các tập mờ có hàm thành viên được biểu
diễn trong hình 3.3
Calories
Hình 3.3: Hàm các thành viên của ?(calories) = {low, normal, high} Hình dạng của các hàm thành viên cũng như
mức độ chồng chéo của chúng là khá tùy ý
Đôi với các thuộc tính khác, tác giả cũng áp dụng phương pháp này Chi tiệt về Logic mờ, độc gia có thé tìm hiểu kỹ hơn ở [30]
3.4 Tiền xử lý dữ liệu
Như đã đề cập bên trên, cách tiếp cận của tác giả là dựa trên dữ liệu, do đó, phải hiểu rõ
dữ liệu trước khi có thể xây dựng một mô hình là một điều rất cần thiết Vì vậy tác giả quyết định sử dụng khai thác mẫu phổ biến định kỳ và khai thác mẫu để trích xuất các tập hợp
con khác nhau của các yếu tô dữ liệu, nên việc chuyền đổi tập dé liệu thành định dạng giao
Trang 25Vi luận văn này quan tâm đến dinh dưỡng và các hoạt động thé chat, trước tiên, cần phảilọc ra những dữ liệu không liên quan, chuyên đổi các đơn vị đo lường khác nhau thành một
và đồng bộ hóa dữ liệu theo thứ nguyên thời gian Cuối cùng, một bộ dữ liệu mới chỉ chứadinh dưỡng sạch và các hoạt động thé chất được đồng bộ hóa theo dòng thời gian đã được
tạo ra.
Tác giả quyết định áp dụng logic mờ với ba cấp độ đề rời rạc hóa dữ liệu Sở dĩ chọn ba
cấp độ (thấp, trung bình, cao) là dé thích nghỉ với thói quen của con người khi nói về chấtlượng của một thứ gi đó Chúng ta có thé xác định nhiều cấp độ hơn (ví du: 5, 7); tuy nhiên,tác giả thay rằng ba cấp độ là đủ dé giải thích nhận thức của mọi người và đơn giản hơn dé
giải thích ý nghĩa của các mẫu.
Mọi người đã nghiên cứu mối liên hệ giữa các loại thực phâm và lượng calo trong một thời
gian dài Hơn nữa, danh mục thực phẩm cũng cung cấp thông tin về các bữa ăn lành mạnh
va không lành mạnh ma mọi người nên dùng cho mục đích cá nhân Trong [21], [22], [23]
các tác giả cung cấp các loại thực phâm được xây dung dura trên các tiêu chí khác nhau (vídụ: màu thực phẩm, i-6t, thức ăn nhanh so với thức ăn chậm, lượng calo) Những nghiêncứu này đưa ra gợi ý dé chúng tôi tạo ra các danh mục thực phẩm: 1) ngũ cốc tinh chế, 2)
rau, 3) trái cây, 4) quả hạch, 5) trứng, 6) sản phẩm từ sữa, 7) cá, 8) thịt, 9) đồ uống có đường
và 10) fast_food Trước tiên, tác giả phân loại và xác định tỷ lệ của từng loại thực phamtrong mỗi hình ảnh thực phẩm theo cách thủ công Sau đó, logic mờ được sử dụng dé chiamỗi phần thành một trong ba mức thấp (dưới 20%), trung bình (từ 20% đến 50%), và cao
(trên 50%) Cuối cùng, tác giả đính kèm các nhãn này làm tiền tố của các danh mục phần
dé tạo các tập mục
Ví dụ, có một món ăn với bánh mì nguyên hạt, bông cải xanh hấp, trứng luộc và dâu tây.
Tác giả chỉ định các danh mục "ngũ cốc tinh chế", "rau", "trứng" và "trái cây" Sau đó, anh
ay ước tính mức độ lớn của mỗi danh mục so với toàn bộ món ăn Giả sử chúng ta có 55%
"ngũ cốc tinh chế", 30% "rau", 10% "trứng" và 5% "trái cây" Khi đó chúng ta sẽ có tập hợp
các món {high_refined_grains, medium_vegetables, low_eggs, low_fruits} cho món ăn.
Trong [24], các tác giả cung cấp thông tin thú vị liên quan đến nhu cầu calo hàng ngày
điển hình của người trưởng thành Hoa Kỳ theo nhân khẩu học và các đặc điểm khác
Do đó, chúng ta có thé ước tính lượng calo trung bình cho người lớn hàng ngày Trên
cơ sở đó, chúng ta xác định mức thấp (dưới 2,000 calo/ngày), trung bình (từ 2,000 đến