3.2.4. Đánh giá kết quả
Kết quả thực nghiệm trên tập dữ liệu thực và dữ liệu sinh tự động đƣợc thể hiện ở bảng 6 cho ta thấy rằng: ở cả hai trƣờng hợp: nhân RBF và nhân Poly, kết quả thực nghiệm với tập dữ liệu thực đều cho kết quả tốt hơn thực nghiệm với tập dữ liệu sinh tự động. Vì tập dữ liệu sinh tự động chƣa thể hiện đƣợc toàn diện tính chất của dữ liệu thực. Điều đó chứng tỏ rằng tập dữ liệu có ảnh hƣởng rất lớn đến kết quả dự báo. Một tập dữ liệu tốt sẽ cho kết quả dự báo tốt hơn.
Kết quả so sánh thực hiện thực nghiệm mô hình SVR với hai tập dữ liệu thực và dữ liệu sinh tự động đƣợc thể hiện ở bảng 6.
Bảng 6: kết quả thực nghiệm với mô hình SVR.
SVR với giải thuật smoregimproved Chỉ số dự báo
Hàm nhân
MAE RMSE R
Nhân RBF Dữ liệu thực 0.0197 0.0278 0.9337
Dữ liệu sinh tự động 0.0837 0.106 0.9141 Nhân Poly Dữ liệu thực 0.0049 0.0069 0.9957
Dữ liệu sinh tự động 0.095 0.1212 0.8859 Kết quả nghiên cứu của luân văn tiến bộ hơn các phƣơng pháp đã nghiên cứu ở Việt Nam. Điều này đƣợc thể hiện rõ ở bảng 7.
Bảng 7: Đối sánh phƣơng pháp của luận văn với phƣơng pháp hiện thời tại Việt Nam.
Đàm Quốc Chính [3] Luận văn
Mô
hình Hồi quy tuyến tính Hồi quy vector hỗ trợ
Cách xây dựng mô hình dự báo
Chia thành 2 bài toán con: 1. Xây dựng mô hình hồi
quy dự báo thành tích chạy 100m ở 4 lứa tuổi (12 – 15).
2. Sử dụng thành tích 100m vừa dự báo ở 4 lứa tuổi làm đầu vào cho mô hình hồi quy để dự báo thành tích 100m ở lứa tuổi 16
Sử dụng 5 test chuyên môn ở 5 lứa tuổi làm đầu vào cho mô hình hồi quy để dự báo thành tích chạy 100m ở lứa tuổi 16 (không phải chia nhỏ bài toán).
Tập đối tƣợng 32 60 Đánh giá kết quả
Từng đối tƣợng Toàn bộ tập đối tƣợng
Độ đo
Tính sai số trực tiếp (lấy hiệu giá trị dự báo của đối tƣợng thứ i – giá trị thực của đối tƣợng thứ i) Căn quân phƣơng (RMSE) Trung bình tuyệt đối (MAE) Tƣơng quan (r) Giá trị 0.00843 0.3109 0,0069 0,0278 0,0051 0,0197 0,9337 0,9957 3.3. Kết luận chương 3
Trong chƣơng này, tác giả tiến hành thử nghiệm để đánh giá sự phù hợp của mô hình đối với bài toán dự báo thành tích chạy cự ly 100m của động viên. Kết quả thực nghiệm cho thấy, mô hình hồi quy vector hỗ trợ là phƣơng án khả quan có thể ứng dụng đƣợc vào bài toán dự báo hồi quy.
KẾT LUẬN
Luận văn đã tiến hành nghiên cứu và tìm hiểu bài toán dự báo thành tích chạy ngắn cự ly 100m cho vận động viên. Đây là bài toán quan trọng trong lĩnh vực tuyển chọn tài năng thể thao, đồng thời nó cũng là một trong nhóm bài toán quan trọng của vấn đề học máy có giám sát. Để giải quyết bài toán này, luận văn đã tập trung nghiên cứu mô hình hồi quy vector hỗ trợ, giải thuật di truyền và mô hình kết hợp giữa học máy hồi quy vector hỗ trợ với giải thuật di truyền. Luận văn đã đạt đƣợc một số kết quả sau.
Giới thiệu về mô hình hồi quy vector hỗ trợ. Mô hình này dựa trên nguyên tắc tối thiểu hóa rủi ro cấu trúc để cho phép giải quyết bài toán có tập mẫu huấn luyện nhỏ. Đây cũng là mô hình cho phép giải quyết nhóm bài toán dự báo hồi quy tuyến tính và dự báo hồi quy phi tuyến.
Nghiên cứu kết hợp giải thuật di truyền với mô hình hồi quy vector hỗ trợ để tự động tối ƣu hóa các tham số của mô hình hồi quy.
Sử dụng bộ công cụ Weka để tiến hành thực nghiệm dự báo thành tích vận động viên với mô hình hồi quy vector hỗ trợ. Kết quả thực nghiệm dự báo với bộ dữ liệu thực có chỉ số dự báo r = 0,9337 0,9957, RMSE = 0,0069 0,0278, MAE = 0,0051 0,0197; với bộ dữ liệu sinh tự động, r = 0,8859 0,9141, RMSE = 0,106 0,1212, MAE = 0,0837
0,095. Đây là kết quả cao trong dự báo thành chạy cự ly 100m của vận động viên.
Qua kết quả thử nghiệm, chúng tôi nhận ra rằng, tập dữ liệu huấn luyện ảnh hƣởng lớn đến kết quả dự báo.
Hƣớng nghiên cứu tiếp theo
Kết quả nghiên cứu khả quan về ứng dụng mô hình hồi quy vector hỗ trợ trong dự báo thành tích chạy 100m của vận động viên chứng tỏ đây là mô hình có thể ứng dụng hiệu quả đối với bài toán này. Trong luận văn, chúng tôi mới chỉ sử dụng phƣơng pháp nhân đơn cho mô hình hồi quy vector hỗ trợ. Vì vậy, câu hỏi đặt ra, liệu khi sử dụng ma trận nhân phức với mô hình hồi quy vector hỗ trợ có cho kết quả tốt hơn hay không? Đã có một số nghiên cứu sử dụng nhân phức cho mô hình hồi quy vector hỗ trợ trong bài toán dự báo hồi quy và dự báo chuỗi thời gian.
Sự đầy đủ hay không của dữ liệu đầu vào cũng sẽ ảnh hƣởng rất lớn đến kết quả của dự báo. Trong thi đấu thể thao, tâm lý của vận động viên (trạng thái “sốt xuất phát”), thời tiết, mức độ chấn thƣơng (thể lực) của vận động viên ở thời điểm sát thi đấu, …ảnh hƣởng lớn đến thành tích thi đấu của vận động viên. Vì vậy, song song với hƣớng nghiên cứu trên, chúng tôi cũng sẽ thu thập các số liệu này để thử nghiệm và đánh giá kết quả dự báo.
Tiếp tục hoàn thiện chƣơng trình thử nghiệm với mô hình SVR kết hợp giải thuật GA.
Mặc dù rất cố gắng, song luận văn chắc chắn không tránh khỏi những thiếu sót. Vì vậy, tác giả rất mong nhận đƣợc những ý kiến đóng góp để luận văn đƣợc hoàn thiện hơn.
TÀI LIỆU THAM KHẢO
[1]. Võ Thị Ngọc Châu. Bài giảng hồi quy dữ liệu, 2011 – 2012.
[2]. Dƣơng Nghiêp Chí, Nguyễn Kim Minh, Phạm Khắc Ngọc, Võ Đức Phùng, Nguyễn Đại Dƣơng, Nguyễn Văn Quảng, Nguyễn Quang Hƣng (2000). Điền Kinh. NXB Thể dục thể thao.
[3]. Đàm Quốc Chính (2000). Nghiên cứu khả năng phù hợp tập luyện (dƣới góc độ sƣ phạm) nhằm góp phần nâng cao hiệu quả tuyển chọn và dự báo thành tích của vận động viên trẻ chạy 100m ở Việt Nam.
[4]. Bùi Quang Hải, 2008. Nghiên cứu sự phát triển thể chất của học sinh một số tỉnh phía Bắc bằng phƣơng pháp quan sát dọc (từ 6 đến 10 tuổi).
[5]. Bùi Quang Hải, Vũ Chung Thủy, Nguyễn Kim Xuân, Nguyễn Danh Hoàng Việt (2009). Giáo trình tuyển chọn tài năng thể thao. NXB Thể dục thể thao.
[6]. Nguyễn Quang Hƣng, Nguyễn Đại Dƣơng (Biên dịch) (2002). Chạy cự ly ngắn. NXB Thể dục thể thao.
[7]. Nguyễn Trọng Hoài Phùng Thanh Bình Nguyễn Khánh Duy (2009). Dự Báo Và Phân Tích Dữ Liệu Trong Kinh Tế Và Tài Chính. NXB Thống kê.
[8]. Nguyễn Hải Thanh. Tối ƣu hóa: giáo trình cho ngành tin học và công nghệ thông tin. NXB Bách khoa – Hà Nội, 2006.
[9]. A. O. Sykes (1993). An Introduction to Regression Analysis Coase lecture. Law School, University of Chicago.
[10]. Alexander J. Smola, Bernhard Schölkopf (2004). A tutorial on support vector regression, Statistics and Computing 14(3): 199- 222.
[11]. Boyang LI, Jinglu HU, and Kotaro HIRASAWA (2008). Financial Time Series Prediction Using a Support Vector Regression Network, IJCNN (1): 621 – 627.
[12]. Chun-Hsin Wu, Chia-Chen Wei, Ming-Hua Chang, Da-Chun Su and Jan-Ming Ho (2004). Travel-Time Prediction With Support Vector Regression, IEEE 5 (4): 276 – 281, [www.iis.sinica.edu.tw]. [13]. Deh Wu (2008). Time Series Prediction for Machining Errors
Using Support Vector Regression, ICINIS '08: 27-30.
[14]. Egwu Kalu, Autar Kaw. Chapter 06.02: Introduction of Regression Analysis, October 11, 2008.
[15]. Fan Wang, Guozhen Tan, Yu Fang (2009). Multiscale Wavelet Support Vector Regression for Traffic Flow Prediction, IITA'09 (the 3rd international conference on Intelligent information technology application): 319-322.
[16]. Gert R. G. Lanckriet, Nello Cristianini, Peter L. Bartlett, Laurent El Ghaoui, Michael I. Jordan (2004). Learning the Kernel Matrix with Semidefinite Programming. Journal of Machine Learning Research 5: 27-72 (2004).
[17]. Hang Xie, Yuhe Liao, Hao Tang (2009). Reliable Prediction System Based on Support Vector Regression with Genetic Algorithms, ICNC (1) 2009: 552-555.
[18]. J. Scott Armstrong (2001) Principles of forecasting: A Handbook for Researchers and practitioners, Kluwer Academic publishers. [19]. Jiawei Han, Micheline Kamber. (2006) Data Mining: Concepts and
Techniques, 2nd, Morgan Kaufmann Publishers.
[20]. John McCullagh Faculty of Education, La Trobe (2010). Data Mining in Sport: A Neural Network Approach, International Journal of Sports Science and Engineering Vol. 04 (2010) No. 03, pp. 131-138.
[21]. Lan Yu, Jiangxi (2009) [21]. Association Rules based Data Mining on Test Data of Physical Health Standard.
[22]. Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009). The WEKA data mining software: an update, SIGKDD Explorations 11(1): 10-18.
[23]. Moritz Kuhn (2006). The Karush – Kuhn – Tucker theorem, CDSEM Uni Mannheim.
[24]. Osama K. Solieman (2006). Data mining in Sport.
[25]. Paláncz Béla, Völgyesi Lajos, Popper György (2005). Support Vector Regression via Mathematica, Periodica Polytechnica Civ. Eng, 49 (1): 59-84, http://www.pp.bme.hu/ci/ 2005_1/pdf/ci2005_1_05.p’df.
[26]. Remco R. Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, Alex Seewald, David Scuse (2011). WEKA Manual for Version 3-7-5, Technical report, October 28, 2011,
http://nchc.dl.sourceforge.net/project/weka/ documentation/3.7.x/WekaManual-3-7-5.pdf
[27]. S.K. Lahiri, Nadeem M. Khalfe (2009). Soft sensor development and optimization oF the commercial petrochemical plant integrating support vector regression and genetic algorithm.
[28]. Shibin Qiu, Terran Lane (2009). A Framework for Multiple Kernel Support Vector Regression and Its Applications to siRNA Efficacy Prediction, IEEE/ACM Trans. Comput. Biology Bioinform, 6(2): 190-199.
[29]. Theodoros Evgeniou, Massimiliano Pontil (2000). Statistical Learning Theory: a Primer, Kluwer Academic Publishers, Boston. [30]. V. N. Vapnik. Statistical Learning Theory.Wiley, New York, 1998. [31]. Vladimir N. Vapnik (1999) . An Overview of Statistical Learning
Theory, IEEE transactions on neural networks, Vol. 10, No. 5. 988 – 999.
[32]. Zdravko Ivanković, Miloš Racković, Branko Markoski, Dragica Radosav, Miodrag Ivković (2010). Appliance of Neural Networks in Basketball Scouting.
[33]. Zhiyong Li, Zhigang Chen, Chao Fu, Shipeng Zhang (2010). Annual Power Load Forecasting Using Support Vector Regression Machines: A Study on Guangdong Province of China 1985-2008