1.4 .Kết luận chƣơng 1
3.1. Bài toán dự báo dãy thành tích vận động viên
3.1.1 Dự báo thành tích thành tích chạy 100m
Dự báo thể thao là quá trình nghiên cứu sự ảnh hưởng của các yếu tố di truyền, hoặc là quá trình nghiên cứu, tìm kiếm những đặc tính đặc trưng cũng như sự ổn định của những đặc tính đó trong quá trình phát triển của đối tượng nghiên cứu [5].
Trong hoạt động Thể dục thể thao, để có đƣợc những VĐV thể thao tài năng, ngƣời ta thƣờng tiến hành dự báo và tuyển chọn năng khiếu thể thao.
Lý luận về tuyển chọn và dự báo thể thao đã hình thành từ những năm 60 của thế kỷ 20, nhƣng nó chỉ thực sự phát triển mạnh mẽ vào thập kỷ 80 với sự tham gia của nhiều nhà khoa học lớn trên thế giới. Các công trình khoa học trong lĩnh vực dự báo và tuyển chọn thể thao đƣợc thực hiện theo hai xu hƣớng [5]:
Một là nghiên cứu xây dựng cơ sở lý luận, phƣơng pháp tuyển chọn và dự báo.
Hai là nghiên cứu về tuyển chọn và dự báo trong từng môn thể thao cụ thể. Trong luận văn này, tác giả thực hiện việc dự báo theo xu hƣớng thứ hai. Theo nhiều nhà khoa học, dự báo thành tích thể thao phải dựa vào sự phát triển ổn định của các chỉ tiêu, test để dự báo. Nghĩa là nghiên cứu mối quan hệ giữa các chỉ tiêu, test để tìm ra quy luật đánh giá sự phát triển thể chất của cơ thể. Từ đó tìm ra mối quan hệ giữa các giá trị ban đầu và giá trị cuối của chỉ tiêu hoặc test nào đó sau một thời gian quan sát, trên cơ sở đó phân tích và dự báo sự phát triển thành tích trong tƣơng lai [5].
Tập hợp các đặc tính cơ bản về khả năng của VĐV chạy 100m bao gồm [2]:
Các kích thƣớc của cơ thể (chiều cao, cân nặng, tỷ lệ giữa các đoạn của cơ thể, ..)
Trình độ phát triển các tố chất thể lực quan trọng nhất đối với VĐV chạy 100m (sức mạnh, sức mạnh tốc độ) và sự phù hợp của chúng đối với những đặc điểm động – sinh học cơ bản của VĐV chạy 100m (phối hợp chuyên môn của các chuyển động).
Môn chạy 100m thuộc môn học chạy cự ly ngắn. Theo Đàm Quốc Chính, (2000) [3], về mặt chuyên môn, thành tích chạy 100m của đối tƣợng nghiên cứu ảnh hƣởng ở mức độ khác nhau của 5 yếu tố: chạy 30m xuất phát cao (XPC), chạy 30m tốc độ cao (TĐC), chạy 60m XPC, bật xa tại chỗ, bật xa ba bƣớc. Vì vậy, để nâng cao thành tích chạy 100m, các VĐV cần tập luyện để nâng cao thành tích ở các test chuyên môn trên.
− Chạy 30m XPC: tính bằng “giây”; nhằm đánh giá sức mạnh tốc độ; khả năng phản xạ; kỹ thuật.
− Chạy 60m XPC: tính bằng “giây”; nhằm đánh giá tốc độ.
− Chạy 30 TĐC: tính bằng “giây”; nhằm đánh giá tốc độ.
− Bật xa tại chỗ: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ.
− Bật xa ba bƣớc: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ, khả năng phối hợp.
Khi đo thành tích của 5 yếu tố trên, ngƣời ta dự đoán đƣợc thành tích chạy 100m của VĐV.
3.1.2. Dữ liệu
Do đặc thù của ngành nên tập dữ liệu về thành tích của VĐV không nhiều. Tập dữ liệu thực tác giả có đƣợc chỉ gồm dãy thành tích 5 test chuyên môn ở các lứa tuổi 12, 13, 14, 15, 16 và thành tích chạy 100m ở lứa tuổi 16 của 60 VĐV tuổi. Vì vậy, để thử nghiệm mô hình SVR cho dự báo thành tích thể thao của VĐV, tác giả sử dụng thêm một tập dữ liệu do tác giả sinh tự động để so sánh với tập dữ liệu thực.
3.1.3. Phân tích dữ liệu
Lựa chọn các biến đầu vào đóng vai trò quan trọng trong việc xây dựng mô hình SVR và mô hình dự báo. Do đó, để khẳng định chắc chắn hơn các yếu tố đầu vào mà [3] lựa chọn là hợp lý, tác giả tiến hành phân tích mối tƣơng quan giữa các yếu tố đầu vào lựa chọn với yếu tố đầu ra 100m.
- Sự ảnh hƣởng của thành tích chạy 30m XPC tới thành tích chạy 100m.
Nhƣ đề cập phần trƣớc, chạy 30m XPC đƣợc tính bằng “giây”; nhằm đánh giá sức mạnh tốc độ; khả năng phản xạ; kỹ thuật. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 30mXPC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 30m XPC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.
- Sự ảnh hƣởng của thành tích chạy 60m XPC tới thành tích chạy
100m.
Chạy 60m XPC đƣợc tính bằng “giây”; nhằm đánh giá tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 60mXPC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 60m XPC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.
- Sự ảnh hƣởng của thành tích chạy 30m TĐC tới thành tích chạy
100m.
Chạy 30m TĐC đƣợc tính bằng “giây”; nhằm đánh giá tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 30m TĐC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 30m TĐC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.
- Sự ảnh hƣởng của thành tích bật xa tại chỗ tới thành tích chạy
100m.
Bật xa tại chỗ: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích bật xa tại chỗ càng tốt (tức là số mét càng cao) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan nghịch giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích bật xa tại chỗ với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.
- Sự ảnh hƣởng của thành tích bật xa ba bƣớc tới thành tích chạy
100m.
Bật xa ba bƣớc: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ, khả năng phối hợp. Trong mối quan hệ với thành tích chạy 100m, khi thành tích bật xa ba
bƣớc càng tốt (tức là số mét càng cao) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan nghịch giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích bật xa ba bƣớc với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.
Bảng 4: mối tƣơng quan giữa thành tích các test chuyên môn và thành tích chạy 100m. Chạy 30m XPC Chạy 60m XPC Chạy 30m TĐC Bật xa tại chỗ Bật xa ba bƣớc Chạy 100m Chạy 30m XPC 1 0.887729 0.907628 -0.90381 -0.9119 0.837806 Chạy 60m XPC 0.887729 1 0.785835 -0.8217 -0.79026 0.821112 Chạy 30m TĐC 0.907628 0.785835 1 -0.85397 -0.8196 0.953633 Bật xa tại chỗ -0.90381 -0.8217 -0.85397 1 0.793605 -0.73785 Bật xa ba bƣớc -0.9119 -0.79026 -0.8196 0.793605 1 -0.71156 Chạy 100m 0.837806 0.821112 0.953633 -0.73785 -0.71156 1
Hình 6, biểu thị mối tƣơng quan giữa thành tích các test chuyên môn với thành tích chạy 100m.
Hình 6: sự ảnh hƣởng của thành tích các test chuyên môn tới thành tích chạy 100m 100m
3.2. Áp dụng phương pháp hồi quy vector hỗ trợ dự báo thành tích vận động viên
3.2.1. Môi trƣờng thực nghiệm
Phần cứng: máy tính Lenovo M 330, Core i3, 2.13 GHz, RAM 2GB.
Phần mềm: sử dụng bộ công cụ Weka phiên bản 3.7.5 [22, 26] đƣợc phát triển bởi nhóm nghiên cứu trƣờng đại học Waikato Hamilton, New Zealan. Bộ công cụ này có thể đƣợc tải về tại địa chỉ:
http://nchc.dl.sourceforge.net/project/weka/weka-3-7-windows/3.7.5/.
3.2.2. Quy trình thực nghiệm
Tác giả tiến hành thực nghiệm trên hai tập dữ liệu: dữ liệu thực và dữ liệu sinh tự động.
Sử dụng phƣơng thức k - fold
Mỗi tập dữ liệu, tác giả sử dụng phƣơng thức k – fold, chia tập dữ liệu làm 10 fold, sau đó tiến hành huấn luyện với 10 lần lặp. Mỗi lần, sử dụng 9 – fold dữ liệu làm tập huấn luyện mô hình, fold còn lại làm tập test.
Mô hình thực nghiệm
Luận văn mới chỉ thực hiện thực nghiệm với mô hình SVR đơn. Do điều kiện về thời gian nên việc thực hiện thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền chƣa đƣợc hoàn thiện. Vì vậy trong luận văn này, tác giả chƣa trình bày phần thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền.
Lựa chọn nhân và biến là bƣớc quan trọng để xây dựng mô hình SVR. Trong nghiên cứu này, tác giả lựa chọn 2 hàm nhân chính cho SVR là nhân Radial Basis Functions (RBF) và nhân đa thức (Polynomial - Poly) để ánh xạ dữ liệu nhƣ là các biến đầu vào xi trong mô hình SVR. Thử nghiệm thực hiện với giải thuật smoregimproved cho mô hình hồi quy vector hỗ trợ.
Đầu vào của mô hình bao gồm thành tích các test chuyên môn: chạy 30m XPC, chạy 30m TDC, chạy 60m XPC, bật xa tại chỗ, bật xa ba bƣớc ở các lứa tuổi 12, 13, 14, 15, 16.
Thực nghiệm với mô hình SVR, các tham số C, và các tham số của hàm nhân ngƣời dùng sẽ tự nhập theo phƣơng pháp thử sai để chọn ra tập tham số tối ƣu cho SVR. Bảng 5 biểu thị việc lựa chọn các tham số cho mô hình SVR.
Bảng 5: Lựa chọn giá trị các tham số cho mô hình thực nghiệm. Tham số Dữ liệu thực Dữ liệu sinh tự động Hàm nhân đa thức (bậc = 1) C 2 2 0.0001 0.0001 Hàm nhân RBF (Gama = 0.01) C 2 1 0.0001 0.0001
Phƣơng pháp đánh giá mô hình
Khi dự báo, bao giờ cũng có sai số nhất định. Có nhiều phƣơng pháp để đánh giá kết quả dự báo. Trong nghiên cứu này, tác giả sử dụng các phƣơng pháp sau: - n i i i f y n RMSE 1 2 ) ( 1
(Sai số căn quân phƣơng)
- n i n i i i n i i i f f y y f f y y R 1 1 2 2 1 ) ( ) ( ) )( (
(Sai số tƣơng quan)
- n i i i f y n MAE 1 1
(Sai số tuyệt đối trung bình)
- Trong đó, yi và fi chỉ giá trị thực và giá trị dự báo tại thời điểm i,
,
y f là giá trị trung bình của giá trị thực và giá trị dự báo.
Phƣơng pháp dự báo tốt là phƣơng pháp nhận đƣợc sai số R lớn còn sai số RMSE và MAE nhỏ (càng gần về không càng tốt).
3.2.3. Kết quả thực nghiệm Với tập dữ liệu thực. Với tập dữ liệu thực.
Hình 7: kết quả thực nghiệm mô hình SVR với nhân RBF
Kết quả thực nghiệm mô hình SVR với nhân Poly đƣợc thể hiện ở hìnn 8.
Hình 8: kết quả thực nghiệm mô hình SVR với nhân Poly.
Kết quả thực nghiệm mô hình với nhân RBF đƣợc thể hiện ở hình 9.
Hình 9: kết quả thực nghiệm mô hình với nhân RBF. Kết quả thực nghiệm mô hình với nhân Poly đƣợc thể hiện ở hình 10. Kết quả thực nghiệm mô hình với nhân Poly đƣợc thể hiện ở hình 10.
3.2.4. Đánh giá kết quả
Kết quả thực nghiệm trên tập dữ liệu thực và dữ liệu sinh tự động đƣợc thể hiện ở bảng 6 cho ta thấy rằng: ở cả hai trƣờng hợp: nhân RBF và nhân Poly, kết quả thực nghiệm với tập dữ liệu thực đều cho kết quả tốt hơn thực nghiệm với tập dữ liệu sinh tự động. Vì tập dữ liệu sinh tự động chƣa thể hiện đƣợc toàn diện tính chất của dữ liệu thực. Điều đó chứng tỏ rằng tập dữ liệu có ảnh hƣởng rất lớn đến kết quả dự báo. Một tập dữ liệu tốt sẽ cho kết quả dự báo tốt hơn.
Kết quả so sánh thực hiện thực nghiệm mô hình SVR với hai tập dữ liệu thực và dữ liệu sinh tự động đƣợc thể hiện ở bảng 6.
Bảng 6: kết quả thực nghiệm với mô hình SVR.
SVR với giải thuật smoregimproved Chỉ số dự báo
Hàm nhân
MAE RMSE R
Nhân RBF Dữ liệu thực 0.0197 0.0278 0.9337
Dữ liệu sinh tự động 0.0837 0.106 0.9141 Nhân Poly Dữ liệu thực 0.0049 0.0069 0.9957
Dữ liệu sinh tự động 0.095 0.1212 0.8859 Kết quả nghiên cứu của luân văn tiến bộ hơn các phƣơng pháp đã nghiên cứu ở Việt Nam. Điều này đƣợc thể hiện rõ ở bảng 7.
Bảng 7: Đối sánh phƣơng pháp của luận văn với phƣơng pháp hiện thời tại Việt Nam.
Đàm Quốc Chính [3] Luận văn
Mô
hình Hồi quy tuyến tính Hồi quy vector hỗ trợ
Cách xây dựng mô hình dự báo
Chia thành 2 bài toán con: 1. Xây dựng mô hình hồi
quy dự báo thành tích chạy 100m ở 4 lứa tuổi (12 – 15).
2. Sử dụng thành tích 100m vừa dự báo ở 4 lứa tuổi làm đầu vào cho mô hình hồi quy để dự báo thành tích 100m ở lứa tuổi 16
Sử dụng 5 test chuyên môn ở 5 lứa tuổi làm đầu vào cho mô hình hồi quy để dự báo thành tích chạy 100m ở lứa tuổi 16 (không phải chia nhỏ bài toán).
Tập đối tƣợng 32 60 Đánh giá kết quả
Từng đối tƣợng Toàn bộ tập đối tƣợng
Độ đo
Tính sai số trực tiếp (lấy hiệu giá trị dự báo của đối tƣợng thứ i – giá trị thực của đối tƣợng thứ i) Căn quân phƣơng (RMSE) Trung bình tuyệt đối (MAE) Tƣơng quan (r) Giá trị 0.00843 0.3109 0,0069 0,0278 0,0051 0,0197 0,9337 0,9957 3.3. Kết luận chương 3
Trong chƣơng này, tác giả tiến hành thử nghiệm để đánh giá sự phù hợp của mô hình đối với bài toán dự báo thành tích chạy cự ly 100m của động viên. Kết quả thực nghiệm cho thấy, mô hình hồi quy vector hỗ trợ là phƣơng án khả quan có thể ứng dụng đƣợc vào bài toán dự báo hồi quy.
KẾT LUẬN
Luận văn đã tiến hành nghiên cứu và tìm hiểu bài toán dự báo thành tích chạy ngắn cự ly 100m cho vận động viên. Đây là bài toán quan trọng trong lĩnh vực tuyển chọn tài năng thể thao, đồng thời nó cũng là một trong nhóm bài toán quan trọng của vấn đề học máy có giám sát. Để giải quyết bài toán này, luận văn đã tập trung nghiên cứu mô hình hồi quy vector hỗ trợ, giải thuật di truyền và mô hình kết hợp giữa học máy hồi quy vector hỗ trợ với giải thuật di truyền. Luận văn đã đạt đƣợc một số kết quả sau.
Giới thiệu về mô hình hồi quy vector hỗ trợ. Mô hình này dựa trên nguyên tắc tối thiểu hóa rủi ro cấu trúc để cho phép giải quyết bài toán có tập mẫu huấn luyện nhỏ. Đây cũng là mô hình cho phép giải quyết nhóm bài toán dự báo hồi quy tuyến tính và dự báo hồi quy phi tuyến.
Nghiên cứu kết hợp giải thuật di truyền với mô hình hồi quy vector hỗ trợ để tự động tối ƣu hóa các tham số của mô hình hồi quy.
Sử dụng bộ công cụ Weka để tiến hành thực nghiệm dự báo thành tích vận động viên với mô hình hồi quy vector hỗ trợ. Kết quả thực nghiệm dự báo với bộ dữ liệu thực có chỉ số dự báo r = 0,9337 0,9957, RMSE = 0,0069 0,0278, MAE = 0,0051 0,0197; với bộ dữ liệu sinh tự động, r = 0,8859 0,9141, RMSE = 0,106 0,1212, MAE = 0,0837
0,095. Đây là kết quả cao trong dự báo thành chạy cự ly 100m của vận động viên.
Qua kết quả thử nghiệm, chúng tôi nhận ra rằng, tập dữ liệu huấn luyện ảnh hƣởng lớn đến kết quả dự báo.
Hƣớng nghiên cứu tiếp theo
Kết quả nghiên cứu khả quan về ứng dụng mô hình hồi quy vector hỗ trợ