Journal of Science and Transport Technology University of Transport Technology JSTT 2022, 2 (3), 25 38 https //jstt vn/index php/vn Application of data science approach to predicting the cultivation a[.]
Journal of Science and Transport Technology University of Transport Technology Application of data science approach to predicting the cultivation ages of ginseng and analyzing affecting variables Do Quang Hung1, Ngo Thi Thu Tinh1*, Nguyen Phuong Linh2 University of Transport Technology, Hanoi 100000, Vietnam Hanoi - Amsterdam Highschool for the Gifted, Hanoi 100000, Vietnam Article info Type of article: Original research paper * Corresponding author: E-mail address: tinhntt@utt.edu.vn Received: 21/7/2022 Accepted: 22/8/2022 Published: 24/8/2022 JSTT 2022, (3), 25-38 Abstract: The cultivation ages of ginseng are important factors that influence the quality and price of ginseng Recent advances in data science have created great benefits for various practical applications In data science, machine learning plays a vital role to discover the insights from data This study develops and assesses the performance of three machine learning models, including Extreme Gradient Boosting (XGB), Light Gradient Boosting (LGB), and Gradient Boosting (GB), in predicting the cultivation age of ginseng (CAG) The models are developed based on 106 data samples with nine input parameters and one output parameter The Kfold cross-validation technique is used to improve the models' generalizability and predictive performance Importantly, the XGB model is optimized to find the hyperparameters The predictive performance of the optimal XGB model is compared to the performance of the LG and GB models The results show that the XGB is the best model with very high predictive performance (R 2=0.964, RMSE=0.148 years, MAE=0.107 years) The sensitivity analysis using the feature importance is performed to evaluate the influence of input variables on the predicted CAG Keywords: Cultivation age of ginseng (CAG), Machine learning (ML), Extreme Gradient Boosting (XGB), Data science https://jstt.vn/index.php/vn Tạp chí điện tử Khoa học Công nghệ Giao thông Trường Đại học Công nghệ GTVT Ứng dụng phương pháp khoa học liệu để dự báo tuổi phát triển sâm phân tích yếu tố ảnh hưởng Đỗ Quang Hưng1, Ngơ Thị Thu Tình1, Nguyễn Phương Linh2 1Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ Giao thông Vận tải, Hà Nội, Việt Nam 2Trường THPT Chuyên Hà Nội - Amsterdam, Hà Nội, Việt Nam Thông tin viết Tác giả liên hệ: Địa E-mail: tinhntt@utt.edu.vn Ngày nộp bài: 21/7/2022 Ngày chấp nhận:22/8/2022 Ngày đăng bài:24/8/2022 Tóm tắt: Tuổi phát triển sâm (Cultivation ages of ginseng – CAG) yếu tố quan trọng ảnh hưởng đến chất lượng giá thành sâm Những tiến gần khoa học liệu tạo lợi ích to lớn cho đa dạng ứng dụng thực tế Trong lĩnh vực khoa học liệu, học máy đóng vai trị quan trọng để khám phá thơng tin chi tiết từ liệu Nghiên cứu dựa sở liệu thực nghiệm thu thập nhằm xây dựng đánh giá hiệu suất mơ hình máy học: Tăng cường độ dốc cực cao - Extreme Gradient Boosting (XGB), Tăng cường độ dốc nhẹ - Light Gradient Boosting (LGB) Tăng cường độ dốc Gradient Boosting (GB) việc dự đốn CAG Các mơ hình phát triển dựa 106 mẫu liệu với chín tham số đầu vào tham số đầu Kỹ thuật xác thực chéo K-lần sử dụng để nâng cao khả tổng quát hóa hiệu suất dự báo mơ hình Quan trọng hơn, nghiên cứu mơ hình máy học tối ưu hóa để lựa chọn siêu tham số Hiệu suất dự báo mơ hình XGB, LGB GB sau tối ưu hóa tham số so sánh để chọn mơ hình máy học tốt nhằm dự báo CAG Kết cho thấy XGB mơ hình tốt với hiệu suất dự đốn cao (R2=0,964; RMSE=0,148 năm, MAE=0,107 năm) Ngoài ra, kỹ thuật tầm quan trọng tính (Feature importance) thực để đánh giá ảnh hưởng biến đầu vào CAG dự đốn Từ khóa: Tuổi phát triển sâm (CAG), mơ hình máy học (ML), mơ hình tăng cường độ dốc (XGB), Khoa học liệu Đặt vấn đề Từ hàng nghìn năm trước, nhân sâm vị thuốc quý lĩnh vực y học cổ truyền Cho đến nay, nhân sâm ưa chuộng toàn giới [1] Sâm có nhiều tác dụng tốt hỗ trợ điều trị chăm sóc sức khỏe, cụ thể tăng cường khả miễn dịch, phòng chống ung thư [2], chống xi hóa [3], cải thiện chức nhận thức thần kinh [4], điều trị rối loạn lipid máu lợi ích khác mà khơng có tác dụng phụ [5] Với nhiều tác dụng vậy, chất lượng sâm JSTT 2022, (3), 25-38 có liên quan trực tiếp đến sức khỏe lợi ích người sử dụng Chất lượng sâm chịu ảnh hưởng nhiều yếu tố loại sâm, xuất xứ, tuổi phát triển sâm, phương thức trồng trọt công nghệ sản xuất [6] Trong đó, tuổi phát triển sâm (CAG) yếu tố quan trọng, định đến chất lượng giá sâm ảnh hưởng phần lớn đến việc tích lũy hợp chất hoạt tính sinh học sâm [7] Nhìn chung, sâm có tuổi phát triển lâu năm có giá trị Cùng loại sâm tuổi phát triển khác có giá bán https://jstt.vn/index.php/vn JSTT 2022, (3), 25-38 thị trường khác Lợi dụng điều này, sâm non tuổi bị pha tạp chất tráo đổi thành sâm lâu đời để bán với giá cao Do đó, điều quan trọng phải phát triển phương pháp đáng tin cậy để xác định tuổi phát triển sâm nhằm chống lại việc làm sai lệch tuổi sâm Phương pháp truyền thống để xác định tuổi phát triển sâm quan sát đặc điểm hình thái vi thể sâm số lượng ngạnh, số vết tích thân sâm trước thu hoạch [7] Tuy nhiên, phương pháp đòi hỏi người mua phải có kỹ phân biệt tốt, khơng mang tính khách quan [8] Hơn nữa, phương pháp quan sát áp dụng sản phẩm sâm thị trường đặc điểm hình thái Cho đến nay, số phương pháp hiệu xác định tuổi phát triển sâm nghiên cứu như: phương pháp cộng hưởng từ hạt nhân (NMR), phương pháp sắc ký lớp mỏng (TLC), phương pháp sắc ký lỏng hiệu cao (HPLC), phương pháp sắc ký lỏng hiệu suất cực cao ghép đầu dò khối phổ (UPLC/Q-TOFMS) [9], [10], [7] Các phương pháp sử dụng kỹ thuật phân tích đại, cho phép phân tích định tính định lượng thành phần hoạt tính dược liệu, từ xây dựng mơ hình dự báo tuổi phát triển sâm Tuy nhiên, kỹ thuật xử lý phức tạp, tốn nhiều thuốc thử, tốn nhiều thời gian chi phí Hơn nữa, số nghiên cứu có chất tuyến tính, khơng thể mơ tả đầy đủ mối quan hệ nội cấu hình hóa lý năm tăng trưởng sâm Kết dự đoán dễ dàng thất bại toán phức tạp, đặc biệt mối quan hệ biến đầu vào đầu khơng rõ ràng [11] Vì vậy, phương pháp dự đoán tuổi phát triển sâm cần phát triển nhằm giảm chi phí, thời gian, cho kết dự báo tin cậy Khoa học liệu ngành khoa học nhằm rút hiểu biết sâu sắc từ liệu bao gồm liệu thơ liệu khơng có cấu trúc Trong năm gần đây, máy học (ML) – lĩnh vực Đỗ & nnk khoa học liệu dần trở nên phổ biến ứng dụng nhiều lĩnh vực khoa học kỹ thuật dân dụng [12], khoa học thực vật [13], y tế chăm sóc sức khỏe [11], [14] Ưu điểm ML dựa sở liệu sẵn có, học hành vi hệ thống phức tạp mà không cần biết trước mối quan hệ biến đầu vào đầu ra, từ dự báo tham số đầu ML sử dụng thuật tốn cho phép máy tính học từ liệu sẵn có nhằm thực thiện cơng việc thay phải trình cách rõ ràng Vì vậy, nghiên cứu này, dựa liệu gồm 106 mẫu, ba mơ hình học máy XGB, LGB, GB xây dựng để dự báo CAG Việc quan trọng xây dựng mơ hình học máy lựa chọn siêu tham số để mơ hình đạt hiệu dự báo tốt Ở đây, mơ hình máy học sử dụng tối ưu hóa nhằm lựa chọn siêu tham số Tiếp theo, hiệu suất dự báo ba mô hình XGB, LGB, GB tối ưu so sánh Các tiêu chí đánh giá hiệu suất dự báo sử dụng Hệ số xác định (R2), Sai số tuyệt đối trung bình (MAE), Sai số tồn phương trung bình (RMSE) Kết mơ hình XGB cho hiệu suất dự báo tốt nhất, lựa chọn để dự báo tuổi phát triển sâm Hơn nữa, nghiên cứu mức độ ảnh hưởng tham số đầu vào đến tuổi phát triển sâm đánh giá kỹ thuật “Tầm quan trọng tính năng” Cơ sở liệu Hiệu suất dự đoán mơ hình học máy phụ thuộc vào nhiều yếu tố, chẳng hạn tính đầy đủ liệu đào tạo, số lượng liệu, mối quan hệ liệu đầu vào đầu Trong nghiên cứu này, liệu bao gồm 106 liệu thực nghiệm thu thập từ báo đăng tạp chí uy tín giới [11] Bộ liệu sử dụng nghiên cứu bao gồm thông số đầu vào là: Chiều dài mẫu, cm (X1), Trọng lượng mẫu, g (X2), hàm lượng chất hòa tan cồn, % (X3), hàm lượng chất hòa tan nước, % (X4); Rg1 ,% (X5); Rd ,% (X6); Re, % (X7); Rb1, % (X8); F11, % (X9) Chỉ có biến đầu tuổi phát triển sâm, năm (Y) Trong 26 Đỗ & nnk JSTT 2022, (3), 25-38 Rg1, Rd, Re, Rb1, F11 hoạt chất sâm Bảng trình bày chi tiết ký hiệu, đơn vị, số lượng phân tích thống kê, bao gồm: giá trị trung bình, độ lệch chuẩn (Std), giá trị nhỏ nhất, giá trị lớn (max), giá trị góc 10%, 20% tham số đầu vào tham số đầu Bảng Phân tích thống kê sở liệu Chất hòa tan nước Rg1 Rd Re Rb1 F11 Tuổi phát triển sâm Tên Chiều dài mẫu Trọng lượng mẫu Chất hòa tan cồn Đơn vị (cm) (g) (%) (%) (%) (%) (%) (%) (%) (năm) Ký hiệu X1 X2 X3 X4 X5 X6 X7 X8 X9 Y Vai trò Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu vào Đầu Số lượng 106 106 106 106 106 106 106 106 106 106 Trung bình 7,938 8,543 33,899 37,251 0,068 0,120 0,623 0,880 0,059 3,396 Độ lệch chuẩn 3,419 5,162 8,314 6,590 0,043 0,109 0,294 0,477 0,035 0,789 Nhỏ 1,6 1,72 22,772 28,031 0,008 0,012 0,112 0,093 0,012 10% 3,2 3,145 25,563 30,62 0,028 0,039 0,2695 0,366 0,023 20% 3,6 27,664 31,09 0,036 0,049 0,377 0,444 0,03 30% 4,625 28,613 32,943 0,042 0,0735 0,454 0,572 0,037 40% 6,75 5,4 30,05 34,749 0,049 0,085 0,561 0,651 0,045 50% 7,8 6,69 30,908 35,9295 0,0545 0,093 0,609 0,824 0,053 60% 8,5 9,62 33,418 36,76 0,064 0,103 0,672 1,035 0,059 70% 8,5 11,335 36,3285 38,5595 0,0745 0,131 0,764 1,17 0,069 80% 12 14,19 40,641 43,246 0,092 0,157 0,876 1,186 0,088 90% 14 15,74 47,43 48,252 0,1315 0,211 0,9445 1,407 0,096 Lớn 14 21,68 57,226 53,993 0,187 0,716 1,48 2,576 0,189 Cơ sở liệu thu thập được tách ngẫu nhiên thành hai phần để phát triển thuật toán ML (phần liệu đào tạo phần liệu kiểm tra) Phần liệu đào tạo chiếm 70% tổng liệu phần liệu kiểm tra chiếm 30% liệu lại Tỷ lệ 70/30 để tạo phần liệu chọn dựa kinh nghiệm số nhà nghiên cứu [15], [16] Phần liệu đào tạo sử dụng để huấn luyện xác nhận chéo mơ hình, nhằm lựa chọn siêu tham số mơ hình ML Phần liệu thử nghiệm sử dụng để đánh giá độ xác mơ hình đề xuất Sự phân bố liệu đầu vào sử dụng nghiên cứu thể Hình Có thể thấy hầu hết biến đầu vào sở liệu có giá trị biến thiên khoảng rộng Chiều dài mẫu 1,614 (cm) Trọng lượng mẫu chủ yếu khoảng 1,721 (g) Hàm lượng chất hòa tan cồn nằm khoảng 2252 (%), với vài giá trị cao 57% Ngược lại, hàm lượng chất hòa tan nước chủ yếu nằm khoảng 3040 (%), số giá trị 27 JSTT 2022, (3), 25-38 nằm rải rác 42 53% Rg1 thay đổi từ 0,008 đến 0,187 (%) giá trị chủ yếu nằm khoảng 0,0080,1 (%) Rd dao động phạm vi từ 0,012 đến 0,716 (%) hầu hết giá trị nằm khoảng 0,0120,22 (%) Biến Re Đỗ & nnk dao động từ 0,112 đến 1,48 (%) Rb1 biến thiên từ 0,093 đến 2,576% F11 thay đổi từ 0,012 đến 0,189 (%) giá trị chủ yếu nằm khoảng 0,0120,1 (%) Tương ứng với giá trị này, CAG có giá trị 2, năm tuổi 28 Đỗ & nnk JSTT 2022, (3), 25-38 Hình Biểu đồ tần suất phân bố tham số đầu vào đầu Hình biểu đồ ma trận tương quan biến đầu vào biến đầu Đây ma trận 10x10 tạo tạo để khám phá mối tương quan thống kê tuyến tính biến sở liệu Trục tung trục hoành biến đầu vào (Xi) biến đầu (tuổi phát triển sâm, Y) Biểu đồ xây dựng dựa hệ số tương quan thứ hạng Spearman (rs) biến theo cặp Trong mối tương quan tất thông số vẽ rõ ràng xác, màu sắc khác thể giá trị tương quan khác Căn vào giá trị rs chia mức độ tương quan thành cấp độ sau: rs = 00,19: tương quan yếu rs = 0,20,39: tương quan yếu rs = 0,40,59: tương quan vừa phải rs = 0,60,79: tương quan mạnh rs = 0,81: tương quan mạnh Quan sát Hình cho thấy, đường chéo ma trận có giá trị (vì hệ số tương quan biến biến với 1) Hầu hết mối tương quan biến mức độ tương quan yếu, yếu vừa phải (ứng với số rs nằm khoảng từ đến 0,65) Chỉ có vài tương quan mức độ mạnh, mạnh X4 với X3 (rs=0,93) X8 với X7 (rs =0,71) Phân tích cho thấy, coi tham số đầu vào tham số đầu tập liệu biến độc lập Vì nghiên cứu tất biến sử dụng để phát triển mơ hình máy học ước tính tầm quan trọng tính 29 JSTT 2022, (3), 25-38 Đỗ & nnk 3.2 Tăng cường độ dốc nhẹ -Light Gradient Boosting (LGB) Hình Ma trận tương quan biến đầu vào biến đầu Các phương pháp máy học sử dụng nghiên cứu 3.1 Mơ hình tăng độ dốc - Gradient Boosting (GB) Thuật toán tăng độ dốc (GB) sử dụng số phân loại hồi quy để cung cấp kết đáng tin cậy mong muốn Kỹ thuật xây dựng (đôi gọi "người học sở"), hết đến khác để cải thiện hiệu suất thuật toán GB Friedman thiết kế để sử dụng cho toán hồi quy toán phân loại, mục đích ban đầu sử dụng cho toán phân loại [17] Việc kết hợp yếu tố dự báo khác từ lần lặp nâng cao hiệu suất mơ hình, giảm thiểu sai số mơ hình tổng thể Từ đó, tượng “quá khớp” giảm bớt Trong kỹ thuật GB, hồi quy sử dụng người học yếu, đường xuống dốc ngẫu nhiên sử dụng để huấn luyện mơ hình lần lặp để giảm thiểu sai số [18] Về chất, phương pháp chia liệu thành nhiều phần khác Một thuật toán triển khai để xác định khác biệt giá trị mục tiêu dự đoán điểm phân tách Các sai số tính tốn điểm phân tách chọn cách sử dụng biến có giá trị thấp cho chức thích hợp trước hoạt động lặp lại [19] LGB khung tăng cường độ dốc sử dụng thuật tốn học Nó thiết kế để phân phối hiệu cách sử dụng hai kỹ thuật mới: Lấy mẫu phía dựa Gradient (GOSS) Gói tính độc quyền (EFB) So với phương pháp CB có sẵn khác, LGB có số ưu điểm tốc độ đào tạo nhanh hơn, hiệu cao hơn, sử dụng nhớ thấp hơn, độ xác tốt hơn, khả xử lý liệu quy mô lớn hỗ trợ học song song Phương pháp khung tăng cường độ dốc nhanh, phân tán, hiệu suất cao dựa thuật toán định Nó sử dụng để xếp hạng, phân loại nhiều nhiệm vụ khác lĩnh vực máy học [20] 3.3 Tăng cường độ dốc cực cao- Extreme Gradient Boosting (XGB) XGB thuật toán nâng cấp từ thuật toán Gradient Tree Boosting phát triển Friedman et al vào năm 2000 [17] Ý tưởng thuật tốn "Đẩy", có nghĩa kết hợp tất dự đốn nhóm người học "yếu" để xây dựng người học "mạnh" thông qua chiến lược đào tạo bổ sung Một thành phần (được gọi quy hóa) đưa vào hàm mục tiêu hàm mát XGB để nâng cao hiệu suất mơ hình cách làm mịn trọng số cuối giảm thiểu lần lặp không cần thiết Thống kê độ dốc bậc bậc hai sử dụng để tối ưu hóa hàm mát Ngồi ra, thời gian đào tạo, tính tốn song song cho chức XGB thực tự động Do đó, lợi ích thuật tốn XGB tính linh hoạt hiệu cao 3.4 Kỹ thuật xác thực chéo -Cross validation (CV) Trong lĩnh vực máy học, tượng mơ hình q khớp (overfitting) tượng mơ hình tìm thấy phù hợp mức với liệu đào tạo Hiện tượng dẫn đến dự đốn khơng xác, nhiễu mơ hình có hiệu suất dự đoán thấp 30 ...Tạp chí điện tử Khoa học Cơng nghệ Giao thông Trường Đại học Công nghệ GTVT Ứng dụng phương pháp khoa học liệu để dự báo tuổi phát triển sâm phân tích yếu tố ảnh hưởng Đỗ Quang Hưng1, Ngơ... suất dự báo tốt nhất, lựa chọn để dự báo tuổi phát triển sâm Hơn nữa, nghiên cứu mức độ ảnh hưởng tham số đầu vào đến tuổi phát triển sâm đánh giá kỹ thuật “Tầm quan trọng tính năng” Cơ sở liệu. .. hệ biến đầu vào đầu không rõ ràng [11] Vì vậy, phương pháp dự đoán tuổi phát triển sâm cần phát triển nhằm giảm chi phí, thời gian, cho kết dự báo tin cậy Khoa học liệu ngành khoa học nhằm rút