Bài viết Ứng dụng phương pháp khoa học dữ liệu để dự báo tuổi phát triển của sâm và phân tích các yếu tố ảnh hưởng dựa trên cơ sở dữ liệu thực nghiệm thu thập được nhằm xây dựng và đánh giá hiệu suất của 3 mô hình máy học: Tăng cường độ dốc cực cao - Extreme Gradient Boosting (XGB), Tăng cường độ dốc nhẹ - Light Gradient Boosting (LGB) và Tăng cường độ dốc - Gradient Boosting (GB) trong việc dự đoán CAG.
Journal of Science and Transport Technology University of Transport Technology Application of data science approach to predicting the cultivation ages of ginseng and analyzing affecting variables Do Quang Hung1, Ngo Thi Thu Tinh1*, Nguyen Phuong Linh2 University of Transport Technology, Hanoi 100000, Vietnam Hanoi - Amsterdam Highschool for the Gifted, Hanoi 100000, Vietnam Article info Type of article: Original research paper * Corresponding author: E-mail address: tinhntt@utt.edu.vn Received: 21/7/2022 Accepted: 22/8/2022 Published: 24/8/2022 JSTT 2022, (3), 25-38 Abstract: The cultivation ages of ginseng are important factors that influence the quality and price of ginseng Recent advances in data science have created great benefits for various practical applications In data science, machine learning plays a vital role to discover the insights from data This study develops and assesses the performance of three machine learning models, including Extreme Gradient Boosting (XGB), Light Gradient Boosting (LGB), and Gradient Boosting (GB), in predicting the cultivation age of ginseng (CAG) The models are developed based on 106 data samples with nine input parameters and one output parameter The Kfold cross-validation technique is used to improve the models' generalizability and predictive performance Importantly, the XGB model is optimized to find the hyperparameters The predictive performance of the optimal XGB model is compared to the performance of the LG and GB models The results show that the XGB is the best model with very high predictive performance (R 2=0.964, RMSE=0.148 years, MAE=0.107 years) The sensitivity analysis using the feature importance is performed to evaluate the influence of input variables on the predicted CAG Keywords: Cultivation age of ginseng (CAG), Machine learning (ML), Extreme Gradient Boosting (XGB), Data science https://jstt.vn/index.php/vn Tạp chí điện tử Khoa học Công nghệ Giao thông Trường Đại học Công nghệ GTVT Ứng dụng phương pháp khoa học liệu để dự báo tuổi phát triển sâm phân tích yếu tố ảnh hưởng Đỗ Quang Hưng1, Ngơ Thị Thu Tình1, Nguyễn Phương Linh2 1Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ Giao thông Vận tải, Hà Nội, Việt Nam 2Trường THPT Chuyên Hà Nội - Amsterdam, Hà Nội, Việt Nam Thông tin viết Tác giả liên hệ: Địa E-mail: tinhntt@utt.edu.vn Ngày nộp bài: 21/7/2022 Ngày chấp nhận:22/8/2022 Ngày đăng bài:24/8/2022 Tóm tắt: Tuổi phát triển sâm (Cultivation ages of ginseng – CAG) yếu tố quan trọng ảnh hưởng đến chất lượng giá thành sâm Những tiến gần khoa học liệu tạo lợi ích to lớn cho đa dạng ứng dụng thực tế Trong lĩnh vực khoa học liệu, học máy đóng vai trị quan trọng để khám phá thơng tin chi tiết từ liệu Nghiên cứu dựa sở liệu thực nghiệm thu thập nhằm xây dựng đánh giá hiệu suất mơ hình máy học: Tăng cường độ dốc cực cao - Extreme Gradient Boosting (XGB), Tăng cường độ dốc nhẹ - Light Gradient Boosting (LGB) Tăng cường độ dốc Gradient Boosting (GB) việc dự đốn CAG Các mơ hình phát triển dựa 106 mẫu liệu với chín tham số đầu vào tham số đầu Kỹ thuật xác thực chéo K-lần sử dụng để nâng cao khả tổng quát hóa hiệu suất dự báo mơ hình Quan trọng hơn, nghiên cứu mơ hình máy học tối ưu hóa để lựa chọn siêu tham số Hiệu suất dự báo mơ hình XGB, LGB GB sau tối ưu hóa tham số so sánh để chọn mơ hình máy học tốt nhằm dự báo CAG Kết cho thấy XGB mơ hình tốt với hiệu suất dự đốn cao (R2=0,964; RMSE=0,148 năm, MAE=0,107 năm) Ngoài ra, kỹ thuật tầm quan trọng tính (Feature importance) thực để đánh giá ảnh hưởng biến đầu vào CAG dự đốn Từ khóa: Tuổi phát triển sâm (CAG), mơ hình máy học (ML), mơ hình tăng cường độ dốc (XGB), Khoa học liệu Đặt vấn đề Từ hàng nghìn năm trước, nhân sâm vị thuốc quý lĩnh vực y học cổ truyền Cho đến nay, nhân sâm ưa chuộng toàn giới [1] Sâm có nhiều tác dụng tốt hỗ trợ điều trị chăm sóc sức khỏe, cụ thể tăng cường khả miễn dịch, phòng chống ung thư [2], chống xi hóa [3], cải thiện chức nhận thức thần kinh [4], điều trị rối loạn lipid máu lợi ích khác mà khơng có tác dụng phụ [5] Với nhiều tác dụng vậy, chất lượng sâm JSTT 2022, (3), 25-38 có liên quan trực tiếp đến sức khỏe lợi ích người sử dụng Chất lượng sâm chịu ảnh hưởng nhiều yếu tố loại sâm, xuất xứ, tuổi phát triển sâm, phương thức trồng trọt công nghệ sản xuất [6] Trong đó, tuổi phát triển sâm (CAG) yếu tố quan trọng, định đến chất lượng giá sâm ảnh hưởng phần lớn đến việc tích lũy hợp chất hoạt tính sinh học sâm [7] Nhìn chung, sâm có tuổi phát triển lâu năm có giá trị Cùng loại sâm tuổi phát triển khác có giá bán https://jstt.vn/index.php/vn JSTT 2022, (3), 25-38 thị trường khác Lợi dụng điều này, sâm non tuổi bị pha tạp chất tráo đổi thành sâm lâu đời để bán với giá cao Do đó, điều quan trọng phải phát triển phương pháp đáng tin cậy để xác định tuổi phát triển sâm nhằm chống lại việc làm sai lệch tuổi sâm Phương pháp truyền thống để xác định tuổi phát triển sâm quan sát đặc điểm hình thái vi thể sâm số lượng ngạnh, số vết tích thân sâm trước thu hoạch [7] Tuy nhiên, phương pháp đòi hỏi người mua phải có kỹ phân biệt tốt, khơng mang tính khách quan [8] Hơn nữa, phương pháp quan sát áp dụng sản phẩm sâm thị trường đặc điểm hình thái Cho đến nay, số phương pháp hiệu xác định tuổi phát triển sâm nghiên cứu như: phương pháp cộng hưởng từ hạt nhân (NMR), phương pháp sắc ký lớp mỏng (TLC), phương pháp sắc ký lỏng hiệu cao (HPLC), phương pháp sắc ký lỏng hiệu suất cực cao ghép đầu dò khối phổ (UPLC/Q-TOFMS) [9], [10], [7] Các phương pháp sử dụng kỹ thuật phân tích đại, cho phép phân tích định tính định lượng thành phần hoạt tính dược liệu, từ xây dựng mơ hình dự báo tuổi phát triển sâm Tuy nhiên, kỹ thuật xử lý phức tạp, tốn nhiều thuốc thử, tốn nhiều thời gian chi phí Hơn nữa, số nghiên cứu có chất tuyến tính, khơng thể mơ tả đầy đủ mối quan hệ nội cấu hình hóa lý năm tăng trưởng sâm Kết dự đoán dễ dàng thất bại toán phức tạp, đặc biệt mối quan hệ biến đầu vào đầu khơng rõ ràng [11] Vì vậy, phương pháp dự đoán tuổi phát triển sâm cần phát triển nhằm giảm chi phí, thời gian, cho kết dự báo tin cậy Khoa học liệu ngành khoa học nhằm rút hiểu biết sâu sắc từ liệu bao gồm liệu thơ liệu khơng có cấu trúc Trong năm gần đây, máy học (ML) – lĩnh vực Đỗ & nnk khoa học liệu dần trở nên phổ biến ứng dụng nhiều lĩnh vực khoa học kỹ thuật dân dụng [12], khoa học thực vật [13], y tế chăm sóc sức khỏe [11], [14] Ưu điểm ML dựa sở liệu sẵn có, học hành vi hệ thống phức tạp mà không cần biết trước mối quan hệ biến đầu vào đầu ra, từ dự báo tham số đầu ML sử dụng thuật tốn cho phép máy tính học từ liệu sẵn có nhằm thực thiện cơng việc thay phải trình cách rõ ràng Vì vậy, nghiên cứu này, dựa liệu gồm 106 mẫu, ba mơ hình học máy XGB, LGB, GB xây dựng để dự báo CAG Việc quan trọng xây dựng mơ hình học máy lựa chọn siêu tham số để mơ hình đạt hiệu dự báo tốt Ở đây, mơ hình máy học sử dụng tối ưu hóa nhằm lựa chọn siêu tham số Tiếp theo, hiệu suất dự báo ba mô hình XGB, LGB, GB tối ưu so sánh Các tiêu chí đánh giá hiệu suất dự báo sử dụng Hệ số xác định (R2), Sai số tuyệt đối trung bình (MAE), Sai số tồn phương trung bình (RMSE) Kết mơ hình XGB cho hiệu suất dự báo tốt nhất, lựa chọn để dự báo tuổi phát triển sâm Hơn nữa, nghiên cứu mức độ ảnh hưởng tham số đầu vào đến tuổi phát triển sâm đánh giá kỹ thuật “Tầm quan trọng tính năng” Cơ sở liệu Hiệu suất dự đoán mơ hình học máy phụ thuộc vào nhiều yếu tố, chẳng hạn tính đầy đủ liệu đào tạo, số lượng liệu, mối quan hệ liệu đầu vào đầu Trong nghiên cứu này, liệu bao gồm 106 liệu thực nghiệm thu thập từ báo đăng tạp chí uy tín giới [11] Bộ liệu sử dụng nghiên cứu bao gồm thông số đầu vào là: Chiều dài mẫu, cm (X1), Trọng lượng mẫu, g (X2), hàm lượng chất hòa tan cồn, % (X3), hàm lượng chất hòa tan nước, % (X4); Rg1 ,% (X5); Rd ,% (X6); Re, % (X7); Rb1, % (X8); F11, % (X9) Chỉ có biến đầu tuổi phát triển sâm, năm (Y) Trong 26 Đỗ & nnk JSTT 2022, (3), 25-38 Rg1, Rd, Re, Rb1, F11 hoạt chất sâm Bảng trình bày chi tiết ký hiệu, đơn vị, số lượng phân tích thống kê, bao gồm: giá trị trung bình, độ lệch chuẩn (Std), giá trị nhỏ nhất, giá trị lớn (max), giá trị góc 10%, 20% tham số đầu vào tham số đầu Bảng Phân tích thống kê sở liệu Chất hòa tan nước Rg1 Rd Re Rb1 F11 Tuổi phát triển sâm Tên Chiều dài mẫu Trọng lượng mẫu Chất hòa tan cồn Đơn vị (cm) (g) (%) (%) (%) (%) (%) (%) (%) (năm) Ký hiệu X1 X2 X3 X4 X5 X6 X7 X8 X9 Y Vai trò Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu Số lượng 106 106 106 106 106 106 106 106 106 106 Trung bình 7,938 8,543 33,899 37,251 0,068 0,120 0,623 0,880 0,059 3,396 Độ lệch chuẩn 3,419 5,162 8,314 6,590 0,043 0,109 0,294 0,477 0,035 0,789 Nhỏ 1,6 1,72 22,772 28,031 0,008 0,012 0,112 0,093 0,012 10% 3,2 3,145 25,563 30,62 0,028 0,039 0,2695 0,366 0,023 20% 3,6 27,664 31,09 0,036 0,049 0,377 0,444 0,03 30% 4,625 28,613 32,943 0,042 0,0735 0,454 0,572 0,037 40% 6,75 5,4 30,05 34,749 0,049 0,085 0,561 0,651 0,045 50% 7,8 6,69 30,908 35,9295 0,0545 0,093 0,609 0,824 0,053 60% 8,5 9,62 33,418 36,76 0,064 0,103 0,672 1,035 0,059 70% 8,5 11,335 36,3285 38,5595 0,0745 0,131 0,764 1,17 0,069 80% 12 14,19 40,641 43,246 0,092 0,157 0,876 1,186 0,088 90% 14 15,74 47,43 48,252 0,1315 0,211 0,9445 1,407 0,096 Lớn 14 21,68 57,226 53,993 0,187 0,716 1,48 2,576 0,189 Cơ sở liệu thu thập được tách ngẫu nhiên thành hai phần để phát triển thuật toán ML (phần liệu đào tạo phần liệu kiểm tra) Phần liệu đào tạo chiếm 70% tổng liệu phần liệu kiểm tra chiếm 30% liệu lại Tỷ lệ 70/30 để tạo phần liệu chọn dựa kinh nghiệm số nhà nghiên cứu [15], [16] Phần liệu đào tạo sử dụng để huấn luyện xác nhận chéo mơ hình, nhằm lựa chọn siêu tham số mơ hình ML Phần liệu thử nghiệm sử dụng để đánh giá độ xác mơ hình đề xuất Sự phân bố liệu đầu vào sử dụng nghiên cứu thể Hình Có thể thấy hầu hết biến đầu vào sở liệu có giá trị biến thiên khoảng rộng Chiều dài mẫu 1,614 (cm) Trọng lượng mẫu chủ yếu khoảng 1,721 (g) Hàm lượng chất hòa tan cồn nằm khoảng 2252 (%), với vài giá trị cao 57% Ngược lại, hàm lượng chất hòa tan nước chủ yếu nằm khoảng 3040 (%), số giá trị 27 JSTT 2022, (3), 25-38 nằm rải rác 42 53% Rg1 thay đổi từ 0,008 đến 0,187 (%) giá trị chủ yếu nằm khoảng 0,0080,1 (%) Rd dao động phạm vi từ 0,012 đến 0,716 (%) hầu hết giá trị nằm khoảng 0,0120,22 (%) Biến Re Đỗ & nnk dao động từ 0,112 đến 1,48 (%) Rb1 biến thiên từ 0,093 đến 2,576% F11 thay đổi từ 0,012 đến 0,189 (%) giá trị chủ yếu nằm khoảng 0,0120,1 (%) Tương ứng với giá trị này, CAG có giá trị 2, năm tuổi 28 Đỗ & nnk JSTT 2022, (3), 25-38 Hình Biểu đồ tần suất phân bố tham số đầu vào đầu Hình biểu đồ ma trận tương quan biến đầu vào biến đầu Đây ma trận 10x10 tạo tạo để khám phá mối tương quan thống kê tuyến tính biến sở liệu Trục tung trục hoành biến đầu vào (Xi) biến đầu (tuổi phát triển sâm, Y) Biểu đồ xây dựng dựa hệ số tương quan thứ hạng Spearman (rs) biến theo cặp Trong mối tương quan tất thông số vẽ rõ ràng xác, màu sắc khác thể giá trị tương quan khác Căn vào giá trị rs chia mức độ tương quan thành cấp độ sau: rs = 00,19: tương quan yếu rs = 0,20,39: tương quan yếu rs = 0,40,59: tương quan vừa phải rs = 0,60,79: tương quan mạnh rs = 0,81: tương quan mạnh Quan sát Hình cho thấy, đường chéo ma trận có giá trị (vì hệ số tương quan biến biến với 1) Hầu hết mối tương quan biến mức độ tương quan yếu, yếu vừa phải (ứng với số rs nằm khoảng từ đến 0,65) Chỉ có vài tương quan mức độ mạnh, mạnh X4 với X3 (rs=0,93) X8 với X7 (rs =0,71) Phân tích cho thấy, coi tham số đầu vào tham số đầu tập liệu biến độc lập Vì nghiên cứu tất biến sử dụng để phát triển mơ hình máy học ước tính tầm quan trọng tính 29 JSTT 2022, (3), 25-38 Đỗ & nnk 3.2 Tăng cường độ dốc nhẹ -Light Gradient Boosting (LGB) Hình Ma trận tương quan biến đầu vào biến đầu Các phương pháp máy học sử dụng nghiên cứu 3.1 Mơ hình tăng độ dốc - Gradient Boosting (GB) Thuật toán tăng độ dốc (GB) sử dụng số phân loại hồi quy để cung cấp kết đáng tin cậy mong muốn Kỹ thuật xây dựng (đôi gọi "người học sở"), hết đến khác để cải thiện hiệu suất thuật toán GB Friedman thiết kế để sử dụng cho toán hồi quy toán phân loại, mục đích ban đầu sử dụng cho toán phân loại [17] Việc kết hợp yếu tố dự báo khác từ lần lặp nâng cao hiệu suất mơ hình, giảm thiểu sai số mơ hình tổng thể Từ đó, tượng “quá khớp” giảm bớt Trong kỹ thuật GB, hồi quy sử dụng người học yếu, đường xuống dốc ngẫu nhiên sử dụng để huấn luyện mơ hình lần lặp để giảm thiểu sai số [18] Về chất, phương pháp chia liệu thành nhiều phần khác Một thuật toán triển khai để xác định khác biệt giá trị mục tiêu dự đoán điểm phân tách Các sai số tính tốn điểm phân tách chọn cách sử dụng biến có giá trị thấp cho chức thích hợp trước hoạt động lặp lại [19] LGB khung tăng cường độ dốc sử dụng thuật tốn học Nó thiết kế để phân phối hiệu cách sử dụng hai kỹ thuật mới: Lấy mẫu phía dựa Gradient (GOSS) Gói tính độc quyền (EFB) So với phương pháp CB có sẵn khác, LGB có số ưu điểm tốc độ đào tạo nhanh hơn, hiệu cao hơn, sử dụng nhớ thấp hơn, độ xác tốt hơn, khả xử lý liệu quy mô lớn hỗ trợ học song song Phương pháp khung tăng cường độ dốc nhanh, phân tán, hiệu suất cao dựa thuật toán định Nó sử dụng để xếp hạng, phân loại nhiều nhiệm vụ khác lĩnh vực máy học [20] 3.3 Tăng cường độ dốc cực cao- Extreme Gradient Boosting (XGB) XGB thuật toán nâng cấp từ thuật toán Gradient Tree Boosting phát triển Friedman et al vào năm 2000 [17] Ý tưởng thuật tốn "Đẩy", có nghĩa kết hợp tất dự đốn nhóm người học "yếu" để xây dựng người học "mạnh" thông qua chiến lược đào tạo bổ sung Một thành phần (được gọi quy hóa) đưa vào hàm mục tiêu hàm mát XGB để nâng cao hiệu suất mơ hình cách làm mịn trọng số cuối giảm thiểu lần lặp không cần thiết Thống kê độ dốc bậc bậc hai sử dụng để tối ưu hóa hàm mát Ngồi ra, thời gian đào tạo, tính tốn song song cho chức XGB thực tự động Do đó, lợi ích thuật tốn XGB tính linh hoạt hiệu cao 3.4 Kỹ thuật xác thực chéo -Cross validation (CV) Trong lĩnh vực máy học, tượng mơ hình q khớp (overfitting) tượng mơ hình tìm thấy phù hợp mức với liệu đào tạo Hiện tượng dẫn đến dự đốn khơng xác, nhiễu mơ hình có hiệu suất dự đoán thấp 30 Đỗ & nnk JSTT 2022, (3), 25-38 liệu xác thực Kỹ thuật xác thực chéo thường sử dụng để giải vấn đề Đối với mơ hình máy học mà trình huấn luyện sử dụng xác thực chéo với K nếp gấp tồn sở liệu phân chia ngẫu nhiên thành hai phần: tập huấn luyện (70% tổng số liệu) tập kiểm tra (với 30% liệu lại) Tập liệu kiểm tra giữ riêng cho giai đoạn kiểm chứng mơ hình Trong q trình đào tạo mơ hình, tập liệu kiểm tra mơ hình biết đến Tập liệu huấn luyện bao gồm trình đào tạo xác thực mơ hình Điều thực cách chia ngẫu nhiên tập huấn luyện thành K phần Mơ hình đào tạo K lần, với lần đào tạo chọn phần làm liệu xác thực (K-1) phần lại làm liệu đào tạo Kết đánh giá cuối giá trị trung bình K lần đào tạo Nói chung, khơng nên chọn K lớn K cao dẫn đến tập liệu đào tạo lớn nhiều so với tập liệu xác thực Khi đó, kết đánh giá khơng cịn thể xác chất máy học, đặc biệt với tập liệu lớn Trong nghiên cứu kỹ thuật xác thực chéo với số nếp gấp K = lựa chọn Đối với tốn dự báo nói chung, lực dự báo mơ hình quan trọng Nó thể thơng qua tiêu đánh giá sai số Trong nghiên cứu này, ba số sử dụng để đánh giá hiệu suất mơ hình máy học, hệ số xác định (R2), sai số tuyệt đối trung bình (MAE) sai số tồn phương trung bình (RMSE) Trong đó, RMSE đo lường khác biệt giá trị thực tế giá trị dự đoán, MAE đại diện cho sai số trung bình giá trị thực giá trị dự đốn Giá trị RMSE MAE thấp, độ xác mơ hình cao hay hiệu suất dự báo mơ hình tốt Ngược lại, giá trị R2 cao cho thấy hiệu suất mơ hình tốt Các tiêu chí xác định sau: n MAE= ∑|gi -g, i | n (1) i=1 n RMSE=√ ∑ (gi -g, i ) n (2) i=1 R =1- ∑ni=1 (gi -g, i )2 ̅ )2 ∑ni=1 (gi -g (3) gi g, i biểu thị giá trị 3.5 Mức độ quan trọng tính (Feature importance) ̅ giá trị trung thực tế dự đoán mẫu thứ i; g bình tất giá trị thực tế (gi ), n tổng số Mức độ quan trọng tính phản ánh chiến lược đánh giá mức độ hữu ích thơng tin đầu vào việc dự đoán biến mục tiêu Ý nghĩa tính điều cần thiết dự án mơ hình dự báo chúng cung cấp nhìn sâu sắc liệu thơng tin mơ hình tảng để giảm kích thước lựa chọn tính năng, tăng hiệu suất hiệu mơ hình dự báo [21] Kỹ thuật tầm quan trọng tính sử dụng đề cập đến tầm quan trọng hốn vị, hàm tích hợp sẵn tất mơ hình máy học dạng đề xuất xem xét mẫu 3.6 Các tiêu chí đánh giá lực dự báo mơ hình (RMSE, MAE, R2) Kết thảo luận Trong nghiên cứu này, ba mơ hình máy học bao gồm XGB, LGB GB phát triển để dự đốn CAG Mục tiêu quy trình tìm kiếm giá trị siêu tham số để cung cấp cho mơ hình máy học hoạt động tốt Một tập hợp tham số điển hình chọn để tối ưu hóa Để tối ưu hóa tham số quan trọng mơ hình, giá trị chúng thay đổi phạm vi định, tham số quan trọng chọn theo giá trị mặc định Để xác định cấu trúc tối ưu mơ hình máy học, lực dự báo ổn định mô hình đánh giá dựa tiêu chí R2 độ lệch chuẩn (Std) tương 31 Đỗ & nnk JSTT 2022, (3), 25-38 ứng Giá trị R2 xác định cách lấy trung bình lần xác thực Điều quan trọng cần lưu ý trình xác thực lần sử dụng tập liệu huấn luyện (chiếm 70% tổng số toàn liệu) không sử dụng tập liệu kiểm tra (30% tổng số liệu lại) Các mơ hình khơng biết đến tập liệu kiểm tra suốt trình đào tạo xác nhận mơ hình Tuy nhiên, hạn chế thời gian, nghiên cứu trình bày chi tiết trình tối ưu hóa tham số mơ hình XGB Sau tối ưu hóa tham số, hiệu suất dự báo mơ hình XGB, LGB GB tối ưu so sánh để chọn mơ hình có hiệu suất tốt nhằm dự đốn CAG 4.1 Tối ưu hóa tham số mơ hình XGB Q trình tối ưu hóa tham số mơ hình XGB trình bày phần Hiệu suất dự báo mơ hình XGB phụ thuộc vào nhiều tham số, tham số là: Độ sâu tối đa (max_D), Số lượng tăng cường độ dốc (est), tổng trọng lượng tối thiểu (min_cw), Tỷ lệ mẫu (sub) Vì tham số chọn để tối ưu hóa Kết việc tối ưu hóa tham số mơ hình XGB thể hình Quan sát biểu đồ nhiệt Hình 3, trục tung thể giá trị tham số max_D, trục hoành thể giá trị tham số est, giá trị min_cw sub thay đổi Hình a, b, c , d, e, f, g, h, k Miền màu đỏ thể R2 cao tức mơ hình có hiệu suất dự báo tốt, trái lại, miền màu xanh thể R2 thấp tức mơ hình có hiệu suất dự báo thấp Kết là, Hình 3f mơ tả trường hợp mơ hình XGB có hiệu suất dự báo tốt (R2 =0,916) ứng với với siêu tham số max_D=3, est=1000 , min_cw=2, sub=0,5 tham số lại lấy giá trị mặc định Đây mơ hình XGB tối ưu dự báo tuổi sâm Tiến hành tương tự cho mơ hình cịn lại LGB GB Sau tối ưu hóa, mơ hình XGB, LGB GB với siêu tham số xác định Hiệu suất dự báo CAG mơ hình trình bày phần 32 Đỗ & nnk JSTT 2022, (3), 25-38 Hình Kết tối ưu hóa tham số mơ hình XGB 4.2 So sánh hiệu suất dự báo ba mơ hình tối ưu tham số XGB, LGB GB Nội dung phần so sánh hiệu suất mơ hình XGB, LGB GB dự báo tuổi phát triển sâm Hiệu suất dự báo mơ hình đánh giá dựa ba số RMSE (Hình 4a), MAE (Hình 4b) R2 (Hình 4c) ba giai đoạn đào tạo, xác thực kiểm tra Đặc biệt giai đoạn kiểm tra, R2 mơ hình XGB cao (R2kiểmtra=0,964) thể lực dự báo mơ hìn XGB tốt Ngồi ra, giai đoạn xác thực mơ hình XGB có giá trị Std nhỏ so với mơ hình LGB, GB chứng tỏ hiệu suất dự báo mơ hình XGB ổn định Như trình bày mục 3.6, mơ hình có khả dự báo tốt tiêu đánh giá R2 cao sai số MAE, RMSE thấp Quan sát Hình 4a cho thấy, giai đoạn đào tạo, xác thực kiểm tra mơ hình XGB có giá trị RMSE nhỏ tổng số mơ hình nghiên cứu giá trị nhỏ thể RMSEđàotạo=0,0005, RMSExácthực=0,2206, RMSEkiểmtra = 0,1481 Kết chứng tỏ dựa tiêu chí RMSE mơ hình XGB có khả dự báo tốt mơ hình hiệu suất dự báo tuổi phát triển sâm có sai số nhỏ Dựa vào tiêu chí MAE (Hình 4b), giai đoạn đào tạo mơ hình XGB có sai số MAE thấp (0,00037) thể khả dự báo tốt Tuy nhiên, xét giai đoạn xác thực kiểm tra thứ tự có thay đổi, mơ hình GB khả dự báo tốt với MAEkiểmtra= 0,0744, đến mơ hình XGB với MAEkiểmtra= 0,1071 cuối mơ hình LGB với MAEkiểmtra = 0,1148 Tiếp theo, Hình 4c thể giá trị R2 mơ hình nghiên cứu, kết tương tự hình 4a, khả dự báo mơ hình theo thứ tự giảm dần XGB, GB thấp LGB cho 33 Đỗ & nnk JSTT 2022, (3), 25-38 Ở phần trên, khả dự báo mơ hình XGB, LGB, GB so sánh, kết mơ hình XGB có hiệu suất dự báo cao Vì mục trình bày kết dự báo CAG mơ hình tiêu biểu (mơ hình XGB) Hinh Kết so sánh hiệu suất dự báo CAG mô hình XGB, LGB, GB theo tiêu chí đánh giá (a) RMSE, (b) MAE, (c) R2 Như vậy, sau so sánh khả dự báo mơ hình XGB, GB, LGB, kết luận XGB có hiệu suất dự báo cao ổn định Điều hồn tồn phù hợp mơ hình trên, LGB mơ hình đơn giản hố nên lực dự báo hạn chế, mơ hình XGB (có tăng cường) nên khả dự báo tốt Hiệu suất dự báo mơ hình XGB, LGB GB thể chi tiết Bảng Bảng Kết dự báo mơ hình XGB, LGB, GB cho giai đoạn đào tạo, xác thực kiểm tra Xác thực Đào tạo Kiểm tra Tiêu chí XGB LGB GB RMSE 0.2205960 0.3526249 0.2202240 MAE 0.1754708 0.2981771 0.1038067 R2 0.9164411 0.7848670 0.9020409 RMSE 0.0004915 0.1754760 0.0105320 MAE 0.0003700 0.1179378 0.0069161 R2 0.9999996 0.9500693 0.9998201 RMSE 0.1481402 0.2147620 0.1746620 MAE 0.1071492 0.1147797 0.0743862 R2 0.9643864 0.9251511 0.9504929 Hình biểu đồ hồi quy mơ hình XGB dự báo CGA Biểu đồ hồi quy thể tương quan kết giá trị tuổi sâm mơ hình XGB dự báo giá trị tuổi sâm thực tế cho tập liệu đào tạo (Hình 5a) tập liệu kiểm tra (Hình 5b) Trong đó, trục hồnh đại diện cho kết thực tế thu thập, trục tung đại diện cho kết dự báo theo mơ hình XGB Quan sát cho thấy, khả đào tạo mơ hình gần lý tưởng (Hình 5a) với R2đàotạo= 0,999 Ở giai đoạn kiểm tra (Hình 5b), hầu hết mẫu có kết dự báo gần với kết thực tế, thể giá trị R2kiểmtra =0,964 cho thấy lực dự báo CAG tốt mơ hình XGB Tiếp theo, Hình minh họa trùng khớp các giá trị CAG dự báo mơ hình XGB giá trị CAG thực tế Quan sát Hình 6a cho thấy, 74 mẫu tập liệu đào tạo có giá trị CAG dự báo gần trùng khít với đường giá trị CAG thực tế Hình 6b thể hầu hết mẫu số 32 mẫu tập liệu kiểm tra có giá trị CAG dự báo trùng với CAG thực tế, vài mẫu có sai lệch nhỏ mẫu số 25, mẫu số 27 Tuy nhiên, số lượng mẫu có sai lệch không đáng kể so với tổng số 32 mẫu tập liệu kiểm tra nên kết dự báo hoàn toàn đáng tin cậy 4.3 Kết điển hình dự báo tuổi sâm mơ hình tốt (XGB) 34 JSTT 2022, (3), 25-38 Đỗ & nnk Bên cạnh đó, sai số CAG thực tế với CAG dự báo cho mẫu mô tả Hình giai đoạn đào tạo (Hình 7a) giai đoạn kiểm tra (Hình 7b) Sai số nhỏ, thể giá trị dự đoán gần giá trị thực tế hay khả dự báo mơ hình XGB xác Quan sát hình cho thấy, phần lớn mẫu có sai số nhỏ, cụ thể [-0,001 0,001] (năm) với giai đoạn đào tạo [-0,3 0,2] (năm) giai đoạn kiểm tra Đa số mẫu có sai số nhỏ chứng tỏ kết dự báo mơ hình XGB hồn tồn đáng tin cậy Hình Biểu đồ hồi quy mơ hình XGB dự báo CGA: (a) giai đoạn đào tạo, (b) giai đoạn kiểm tra Hình So sánh giá trị CAG thực tế CAG dự báo mơ hình XGB cho (a) tập liệu đào tạo, (b) tập liệu kiểm tra Hình Tần suất sai số CAG dự báo mô hình XGB CAG thực tế cho: (a) tập liệu đào tạo (b) tập liệu kiểm tra 4.4 Phân tích mức độ ảnh hưởng tham số đầu vào đến CAG 35 Đỗ & nnk JSTT 2022, (3), 25-38 Trong phần này, mức độ ảnh hưởng tham số đầu vào đến CAG phân tích dựa vào đánh giá tầm quan trọng tính (Feature importance) Kết phân tích mơ tả Hình Trục hồnh biểu thị yếu tố đầu vào (từ X1 đến X9), trục tung thể tầm quan trọng tính Yếu tố đầu vào có giá trị tầm quan trọng tính cao thể yếu tố có ảnh hưởng nhiều tới CAG Quan sát Hình cho thấy, yếu tố có ảnh hưởng nhiều đến CAG trọng lượng mẫu (X2), chiều dài mẫu (X1) Rb1 (X8) Trong X2 có ảnh hưởng vượt trội đến CAG Đây yếu tố ảnh hưởng lớn đến CAG tổng số yếu tố đầu vào nghiên cứu Sáu yếu tố cịn lại có ảnh hưởng đến CAG, xếp theo thứ tự giảm dần Hàm lượng chất hòa tan cồn (X3) > Re (X7) > Hàm lượng chất hòa tan nước (X4) > F11 (X9) > Rd (X6) > Rg1(X5) hiệu suất dự báo mơ hình XGB tối ưu, LGB, GB so sánh Mơ hình XGB đề xuất mơ hình tốt ổn định dự báo CAG, với kết dự tốt thể R2đào tạo=0,999 R kiểm tra=0,964 Ngồi ra, tầm quan trọng tính sử dụng để phân tích tác động chín tham số đầu vào tuổi sâm dự báo Kết phân tích trọng lượng mẫu (X2) có ảnh hưởng lớn tới CAG Ngồi ra, tham số cịn lại có mức độ ảnh hưởng xếp theo thứ tự giảm dần là: chiều dài mẫu, Rb1, hàm lượng chất hòa tan cồn, Re, hàm lượng chất hòa tan nước, F11, Rd, Rg1 Kết nghiên cứu sở để xây dựng công cụ phần mềm đáng tin cậy dự báo CAG cách nhanh chóng, xác tiết kiệm chi phí dựa sở liệu thực nghiệm sẵn có Tài liệu tham khảo [1] H Zhao, J Xu, H Ghebrezadik, and P J Hylands, ‘Metabolomic quality control of commercial Asian ginseng, and cultivated and wild American ginseng using (1)H NMR and multi-step PCA’, J Pharm Biomed Anal, vol 114, pp 113–120, Oct 2015, doi: 10.1016/j.jpba.2015.05.010 Hình Các yếu tố ảnh hưởng tới CAG phân tích mơ hình XGB Kết luận Mục tiêu nghiên cứu đề xuất mơ hình học máy tối ưu để dự báo tuổi phát triển sâm cách nhanh chóng, hiệu dựa sở liệu thực nghiệm thu thập Để đạt mục tiêu này, mơ hình học máy XGB, LGB, GB lựa chọn nghiên cứu Để nâng cáo hiệu suất dự báo, tham số quan mô hình tối ưu hóa để lựa chọn siêu tham số Dựa tiêu chí đánh giá R2, MAE RMSE, [2] R B Duda, Y Zhong, V Navas, M Z Li, B R Toy, and J G Alavarez, ‘American ginseng and breast cancer therapeutic agents synergistically inhibit MCF-7 breast cancer cell growth’, J Surg Oncol, vol 72, no 4, pp 230– 239, Dec 1999, doi: 10.1002/(sici)10969098(199912)72:43.0.co;2-2 [3] Z.-H Shao et al., ‘Antioxidant effects of American ginseng berry extract in cardiomyocytes exposed to acute oxidant stress’, Biochim Biophys Acta, vol 1670, no 3, pp 165–171, Feb 2004, doi: 10.1016/j.bbagen.2003.12.001 [4] A Scholey et al., ‘Effects of American ginseng (Panax quinquefolius) on neurocognitive function: an acute, randomised, double-blind, 36 JSTT 2022, (3), 25-38 placebo-controlled, crossover study’, Psychopharmacology (Berl), vol 212, no 3, pp 345–356, Oct 2010, doi: 10.1007/s00213-0101964-y [5] S I Chung, S J Nam, M Xu, M Y Kang, and S C Lee, ‘Aged ginseng (Panax ginseng Meyer) reduces blood glucose levels and improves lipid metabolism in high fat diet-fed mice’, Food Sci Biotechnol, vol 25, no 1, pp 267–273, 2016, doi: 10.1007/s10068-0160039-1 [6] I.-M Chung, J.-W Kim, P Seguin, Y.-M Jun, and S.-H Kim, ‘Ginsenosides and phenolics in fresh and processed Korean ginseng (Panax ginseng C.A Meyer): Effects of cultivation location, year, and storage period’, Food Chemistry, vol 130, no 1, pp 73–83, Jan 2012, doi: 10.1016/j.foodchem.2011.06.056 Đỗ & nnk [11] X Hu et al., ‘Machine learning methods to predict the cultivation age of Panacis Quinquefolii Radix’, Chin Med, vol 16, no 1, p 100, Oct 2021, doi: 10.1186/s13020-02100511-5 [12] H.-V T Mai, T.-A Nguyen, H.-B Ly, and V Q Tran, ‘Investigation of ANN Model Containing One Hidden Layer for Predicting Compressive Strength of Concrete with Blast-Furnace Slag and Fly Ash’, Advances in Materials Science and Engineering, vol 2021, p e5540853, Jun 2021, doi: 10.1155/2021/5540853 [13] S.-E Park et al., ‘Metabolomic Approach for Discrimination of Cultivation Age and Ripening Stage in Ginseng Berry Using Gas Chromatography-Mass Spectrometry’, Molecules, vol 24, no 21, p E3837, Oct 2019, doi: 10.3390/molecules24213837 [7] X Chang et al., ‘Nontargeted metabolomics approach for the differentiation of cultivation ages of mountain cultivated ginseng leaves using UHPLC/QTOF-MS’, J Pharm Biomed Anal, vol 141, pp 108–122, Jul 2017, doi: 10.1016/j.jpba.2017.04.009 [14] S Pan, H Zhang, Z Li, and T Chen, ‘Classification of Ginseng with different growth ages based on terahertz spectroscopy and machine learning algorithm’, Optik, vol 236, p 166322, Jun 2021, doi: 10.1016/j.ijleo.2021.166322 [8] M C Ichim and H J de Boer, ‘A Review of Authenticity and Authentication of Commercial Ginseng Herbal Medicines and Food Supplements’, Front Pharmacol, vol 11, p 612071, 2020, doi: 10.3389/fphar.2020.612071 [15] M S Khorsheed and A O Al-Thubaity, ‘Comparative evaluation of text classification techniques using a large diverse Arabic dataset’, Lang Resources & Evaluation, vol 47, no 2, pp 513–538, Jun 2013, doi: 10.1007/s10579-013-9221-8 [9] E.-J Lee et al., ‘Quality Assessment of Ginseng by 1H NMR Metabolite Fingerprinting and Profiling Analysis’, ACS Publications, Aug 05, 2009 https://pubs.acs.org/doi/pdf/10.1021/jf901675y (accessed Jul 04, 2022) [16] ‘Neural network classifier optimization using Differential Evolution with Global Information and Back Propagation algorithm for clinical datasets ScienceDirect’ https://www.sciencedirect.com/science/article/ abs/pii/S1568494616303866 (accessed Jan 12, 2022) [10] S.-O Yang et al., ‘NMR-based metabolic profiling and differentiation of ginseng roots according to cultivation ages’, J Pharm Biomed Anal, vol 58, pp 19–26, Jan 2012, doi: 10.1016/j.jpba.2011.09.016 [17] J H Friedman, ‘Greedy Function Approximation: A Gradient Boosting Machine’, The Annals of Statistics, vol 29, no 5, pp 1189–1232, 2001 37 JSTT 2022, (3), 25-38 [18] Z Wei, Y Meng, W Zhang, J Peng, and L Meng, ‘Downscaling SMAP soil moisture estimation with gradient boosting decision tree regression over the Tibetan Plateau’, Remote Sensing of Environment, vol 225, pp 30–44, May 2019, doi: 10.1016/j.rse.2019.02.022 [19] W Ben Chaabene, M Flah, and M L Nehdi, ‘Machine learning prediction of mechanical properties of concrete: Critical review’, Construction and Building Materials, vol 260, p 119889, Nov 2020, doi: 10.1016/j.conbuildmat.2020.119889 Đỗ & nnk Gradient Boosting Decision Tree’, in Advances in Neural Information Processing Systems, 2017, vol 30 Accessed: Jan 18, 2022 [Online] Available: https://proceedings.neurips.cc/paper/2017/has h/6449f44a102fde848669bdd9eb6b76faAbstract.html [21] K.-Q Shen, C.-J Ong, X.-P Li, and E P V Wilder-Smith, ‘Feature selection via sensitivity analysis of SVM probabilistic outputs’, Mach Learn, vol 70, no 1, pp 1–20, Jan 2008, doi: 10.1007/s10994-007-5025-7 [20] G Ke et al., ‘LightGBM: A Highly Efficient 38 ...Tạp chí điện tử Khoa học Cơng nghệ Giao thông Trường Đại học Công nghệ GTVT Ứng dụng phương pháp khoa học liệu để dự báo tuổi phát triển sâm phân tích yếu tố ảnh hưởng Đỗ Quang Hưng1, Ngơ... 10.1016/j.jpba.2015.05.010 Hình Các yếu tố ảnh hưởng tới CAG phân tích mơ hình XGB Kết luận Mục tiêu nghiên cứu đề xuất mơ hình học máy tối ưu để dự báo tuổi phát triển sâm cách nhanh chóng, hiệu dựa sở liệu thực... suất dự báo tốt nhất, lựa chọn để dự báo tuổi phát triển sâm Hơn nữa, nghiên cứu mức độ ảnh hưởng tham số đầu vào đến tuổi phát triển sâm đánh giá kỹ thuật “Tầm quan trọng tính năng” Cơ sở liệu