1. Trang chủ
  2. » Nông - Lâm - Ngư

Ứng dụng máy học cho định danh loài nấm mối

8 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết giới thiệu mô hình máy học áp dụng cho tập dữ liệu ITS của nấm mối để xác định tên loài và xây dựng cây định danh loài. Mô hình xây dựng cây định danh nấm mối được thực nghiệm bằng các thuật toán XGBoost, Random Forest và phân cụm phân cấp UPGMA.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00069 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI Dương Thị Kim Chi1,2, Nguyễn Thị Ngọc Nhi3, Nguyễn Thế Bảo1, Lê Mậu Long4, Phạm Công Xuyên2 Khoa Kỹ thuật Công nghệ, Trường Đại học Thủ Dầu Một Trường Đại học Lạc Hồng Khoa Tự nhiên, Trường Đại học Thủ Dầu Một Khoa Công nghệ thông tin, Trường Đại học Nguyễn Tất Thành chidtk@tdmu.edu.vn, nhintn@tdmu.edu.vn, baont@tdmu.edu.vn, lmlong@ntt.edu.vn, pcxuyen@lhu.edu.vn TĨM TẮT: Nấm mối lồi nấm ăn có giá trị cao kinh tế dinh dưỡng Nấm mối có theo mùa thời gian sinh trưởng ngắn nên việc định danh loài theo phương pháp dựa vào quan sát hình thái kinh nghiệm dân gian có kết khơng cao Hiện nay, việc sử dụng kỹ thuật di truyền phân tử để xác định lồi ghi nhận có hiệu cao việc định loại giám định lồi Bài báo giới thiệu mơ hình máy học áp dụng cho tập liệu ITS nấm mối để xác định tên loài xây dựng định danh lồi Mơ hình xây dựng định danh nấm mối thực nghiệm thuật toán XGBoost, Random Forest phân cụm phân cấp UPGMA Kết thực nghiệm kiểm chứng mơ hình xây dựng với hai trình tự ITS thu thập từ mẫu nấm mối x An inh, huyện h iáo, tỉnh Bình Dương có kết định danh loài trùng khớp với phần mềm dự đốn lồi BLAST NCBI Từ khóa: ITS (Internal transcribed spacer), Termite mushroom, Termitomyces, Extreme Gradient Boosting, Random forest, UPGMA - Unweighted pair group with arthmetic means, Machine Learning I GIỚI THIỆU Nấm mối có tên khoa học Termitomyces loại nấm ăn có hương vị thơm ngon có gi tri dinh dư ng cao Một số lồi nấm mối sử dụng làm dược liệu T robustus, T striatus với t c dụng chống lão hóa [1]; T heimii chứa axit béo ergosterol, linoleic tăng cường hệ thống miễn dịch, ngăn ngừa bệnh cao huyết p [2]; C c nghiên cứu kh c β-D-glucan có T clypeatus có có khả ức chế tế bào ung thư [3] kh ng trực khuẩn Pseudomonas aeruginosa hỗ trợ điều trị bệnh thủy đậu [4] Với nhiều công dụng lồi nấm chưa thể ni trồng [5], đến năm 2013, Việt Nam có khoảng 10 lồi nấm mối ghi nhận [6] Nấm mối mọc tự nhiên theo mùa, sản lượng c c loại nấm giảm sút [5] Có nhiều yếu tố t c động đến phân bố ph t triển nấm mối như: ô nhiễm môi trường, thời tiết thay đổi hay với số lượng tổ mối1 ngày giảm t c động người Để nghiên cứu bảo tồn loài nấm mối quý việc định danh lồi nấm mối quan trọng, việc x c định xác tên lồi giúp hiểu rõ c c đặc sinh trưởng c c nghiên cứu liên quan công bố loài Phương ph p định danh loài trước thường dựa khóa phân loại cịn gọi đặc điểm hình th i lồi, nhiên với c c lồi mà mẫu vật thu thập khơng ngun vẹn, hay bảo quản khơng c ch khó phân định x c Gần đây, việc sử dụng c c DNA để định danh loài p dụng, đoạn DNA thường dùng để phân loại gọi DNA mã vạch (DNA barcode) [7] hay cịn cách gọi kh c là trình tự ITS (Internal transcribed spacer) [5, 9] Các nhóm gen thường sử dụng gen rRNA 18S, 5S 16S dùng để đ nh gi mối quan hệ tiến ho c c sinh vật So với thị hình th i thị ho học, thị DNA cho độ x c cao mà khơng lệ thuộc vào yếu tố kh ch quan [8] C c trình tự nhận dạng lồi thường sử dụng trình tự ITS [5, 9] vùng DNA nằm c c gen hay gọi sử dụng làm DNA thị nghiên cứu c c nhà nghiên cứu công bố c c ngân hàng gen quốc tế2 NCBI, EMBI, DDBJ, BOLD Số lượng trình tự ITS nấm mối cơng bố ngày nhiều phân t n nhiều ngân hàng gene nên việc định danh có trở ngại định Việc xây dựng sở liệu nấm mối (TerDBTermitomyces Database) tập hợp c c trình tự ITS lồi; đặc trưng kiểu hình; đặc trưng loài mối cộng sinh với loại nấm mối tương ứng Ứng dụng mơ hình học m y khai th c thông tin từ TerDB giúp cho việc định danh lồi nhanh x c Trong viết này, đề xuất giải ph p m y học để xây dựng mơ hình dự đo n tên loài nấm mối xây dựng phân loại thể tương đồng trình tự lồi Mơ hình phân loại theo c ch tiếp cận học m y cung cấp c c kiến thức hay kết dự đo n nhãn đầu dựa c c thông tin đầu vào mô tả qu khứ C c thuật to n thường dùng cho phân lớp dự đo n rừng ngẫu nhiên (Random Forest- RF), phân lớp kết hợp (Extreme Gradient Boosting –XGBoost), Support Vector MachineSVM để x c định tên loài Do liệu TerDB có số lồi Termitomyces heimii, Termitomyces mammiformis có số lượng gene ITS kh hiếm, có lồi thu từ trình tự Các lồi kh c có số lượng từ đến 422 trình Nấm mối lồi nấm sống cộng sinh c c tổ mối DDBJ- DNA DataBank of Japan; EMBL-European Molecular Biology Laboratory; NCBI- National Center for Biotechnology Information; BOLD -The Barcode of Life Data System ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI 530 tự có khoảng 10 nhóm cần phân định Bài viết p dụng c c thuật to n phân lớp chiều cao thử nghiệm hai loại thuật to n XGBoost Random Forest Bài viết tiến hành so s nh hiệu dự đo n hai thuật to n p dụng kỹ thuật phân cụm phân cấp UPGMA để xây dựng phân loại theo kết dự đo n Các kh i niệm trình tự ITS, trích xuất thơng tin, giới thiệu phương ph p chuyển đổi biểu diễn trình tự dạng chuỗi gene thành vector tương ứng trình bày phần II; Phần III giới thiệu thuật toán Gradient Boosting, Random Forest, kỹ thuật phân cụm phân cấp UPGMA Cây phân cấp c c kỹ thuật liên quan vận dụng c c giải thuật cho việc xây dựng mơ hình; Phần IV phân tích c c kết thực nghiệm so s nh kết mơ hình đề xuất kết II CÁC KHÁI NIỆM LIÊN QUAN 2.1 Vùng đệm mã-ITS (Internal Transcribed Spacer) C c vùng ITS có độ dài 300 đến 900 bp c c vùng tiến hóa nhanh nên thay đổi trình tự độ dài ITS có tính bảo thủ cao loài lại thay đổi c c loài kh c [8] C c nghiên cứu ph t sinh loài dựa vào ITS cho phép hiểu biết sâu tiến hóa lai tạo c c loài thực vật kh c ITS nghiên cứu nguồn gốc, ph t sinh loài nghiên cứu mã vạch thực vật [8] Bài viết sử dụng c c chuỗi trình tự ITS c c lồi nấm mối cơng bố c c ngân hàng gene quốc tế NCBI, EMBI, DDBJ, BOLD để xây dựng TerDB Chúng thu 626 trình tự ITS nấm mối, Bảng trình bày chi tiết c c thơng tin c c ITS loài nấm thu nhận dùng để xây dựng TerDB Bảng Thống kê liệu ITS nấm mối TerDB Spieces Termitomyces Bulborhizus Mean of ITS seq 698,0 Number of seq Class Termitomyces Clypeatus 503,6 21 Termitomyces Fuliginosus 593,3 Termitomyces Heimii 427,3 Termitomyces Mammiformis 356,0 Termitomyces Microcarpus 548,3 18 Termitomyces Robustus 520,6 12 T Termitomyces Sp 466,7 90 Termitomyces Striatus 451,9 17 Termitomycyces Eurrhizus 630,5 11 10 Uncultured Termitomyces 603,8 442 11 2.2 Trích xuất đặc trưng, xây dựng tập liệu Để xây dựng tập liệu huấn luyện (Training), b o chuyển đổi c c trình tự ITS TerDB thành vector phương pháp k-mer [10] K-mer đoạn ngắn gồm k nucleotide liên tiếp trình tự Các đoạn k-mer có từ việc dùng cửa sổ trượt có kích thước k dịch chuyển từ vị trí đầu chuỗi trình tự hết chiều dài chuỗi trình tự [11] Với base (A, G, T, C) có 4k vị trí cho chuỗi trình tự [10, 11] Hình minh họa c ch tính k-mer cho chuỗi trình tự với k=5 Hình Minh họa c ch trích xuất đặc trưng cho c c trình tự ITS theo phương ph p k-mer với k [11] Độ dài k k-mer dao động từ đến 11, việc chọn độ dài k phù hợp để xây dựng tập training hạn chế việc dự đo n lỗi xây dựng mơ hình dự đo n [11] Trong phạm vi viết chọn độ dài cho k-mer nên số thuộc tính tập training 1024, với k=5 cho phù hợp cho c c tập liệu sinh gene có độ dài trình tự dao động từ 300 đến 900 III MƠ HÌNH PHÂN LỒI NẤM MỐI Mơ hình Học có giám sát (Supervised learning) b o p dụng để dự đo n đầu (outcome) trình tự ITS loài nấm mối (new input) dựa c c cặp (input, outcome) biết từ TerDB Với tập liệu đầu vào với n mẫu trình tự ITS 4k+1 thuộc tính D {( )} (|D| =n, xi R, yi R) tập gene phân lập từ TerDB biểu diễn thành tập liệu đầu vào có dạng: Dương Thị Kim Chi, Nguyễn Thị Ngọc Nhi, Nguyễn Thế Bảo, Lê Mậu Long, Phạm Công Xuyên 531 ( (1) ) Trong Xi: predictor features có * + dùng mơ tả c c gi trị số k-mer loại trình tự ITS, Yi response features, * + tập biến đích g n nhãn cho liệu c c loài nấm mối định danh Quy trình dự đo n tên lồi nấm mối mơ tả theo hình Hình Quy trình dự đo n tên lồi nấm mối C c thuật to n phân lớp hồi quy nghiên cứu b o chọn hai thuật tốn học có gi m s t điển hình để p dụng cho qu trình thực nghiệm Trong phạm vi viết so s nh hai giải thuật XGBoost Random Forest cho việc xây dựng dự đo n tên loài nấm mối C c mô tả cụ thể c c thuật to n sau: Thuật toán XGBoost XGBoost (Extreme Gradient Boosting) ph t triển dựa mơ hình gốc “Gradient Boosting Machine” Friedman [13] XGBoost sử dụng cho việc học tập gi m s t, có khả dự đo n x c nhãn cần phân lớp với liệu trainning chiều cao [10] Hình Mơ hình xây dựng dự đo n với thuật to n XGBoost [12] Với XGBoost hoạt động theo c ch lấy ngẫu nhiên c c tập từ tập Training theo mơ hình hồi quy (hình 2) ban đầu sau xây dựng định với tập T (T1, T2, Tk), bước thêm kết hợp c c “weak learner” để tạo thành “strong learner” tập trung vào quan s t bị dự b o sai Với Gradient Boosting, xây dựng với mục tiêu minimizes dần tổng loss trước việc sử dụng phương ph p Gradient Descent Hàm dự đo n bước sử dụng kết dự đo n từ trước để định xây dựng Hàm hồi quy thu từ hồi quy theo Boosting: ̂( ) ( ) ( ) ( ) (2) Độ đo mức độ hiệu mơ hình dự đo n hàm hồi quy tổng qu t: (3) Trong đó: X1, X2, Xk: c c biến phụ thuộc; β1, β2, βk: hệ số hồi quy; Gi trị sai số dự đo n (Residual) có dạng: ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI 532 ̂( ) (4) Thuật toán Random Forest Random Forest (RF) tập hợp mơ hình (ensemble) Mơ hình Random Forest hiệu cho c c to n phân loại huy động lúc hàng trăm mơ hình nhỏ bên với quy luật kh c để đưa định cuối [13] Mỗi mơ hình mạnh yếu kh c nhau, theo nguyên tắc “bầu chọn” RF thuật to n định, với số lượng hàng trăm cây, định tạo c ch ngẫu nhiên từ việc: T i chọn mẫu (Bootstrap, Random sampling) Với mơ tả hình ứng dụng RF vào cho mơ hình dự đo n tên lồi nấm mối p dụng viết Việc bầu chọn tên lồi nấm mối mơ tả cơng thức (4): ( ) ∑ ( ) (5) Hình Mơ hình xây dựng dự đo n với thuật to n RF [13] Phân cụm phân cấp UPGMA (unweighted pairgroup method with arithmetic mean) [15] Phân cụm phân cấp UPGMA phương ph p tính khoảng c ch trung bình với gi trị số đại số Thuật to n sử dụng sử dụng ma trận khoảng c ch để x c định nhóm c c trình tự gần Quy trình tính to n tóm tắt sau: (1) Tìm gi trị khoảng c ch nhỏ ma trận khoảng c ch c c trình tự ITS c c nhóm ∑ ∑ ( ) | || || (6) (2) Xếp nhóm gi trị khoảng c ch cụ thể, ghi hai điểm (3) Xây dựng ma trận khoảng c ch gần nhóm riêng Khoảng c ch hai nhóm tính gi trị khoảng c ch trung bình cluster (4) Lập lại quy trình hết Áp dụng thuật tốn XGBoost cho mơ hình dự đốn tên lồi Việc phân lớp dự đo n tên loài nấm mối phân tích to n phân lớp nhiều lớp với tập liệu huấn luyện chiều cao Áp dụng mơ hình hồi quy [12] để xây dựng mơ hình phân lớp dự đo n X=[ x1 , x2, xN] véctơ hàng chứa thông tin input, y số vô hướng (scalar) biểu diễn output Thuật to n XGBoost p dụng cho qu trình xây dựng hồi quy để dự đo n tên loài ph t biểu sau: Đầu vào: Tập hợp c c chuỗi gen X=[ x1 , x2, xN] Đầu ra: Mơ hình dự đo n (1) Đặt: ̂( ) , ri=yi cho tất c c i tập training (2) For b = 1, 2…., B (2.1) Fit ̂ với d splits (d+1 nút trong) cho tập liệu (X, r); ̂( ) ̂ ( ) (2.2) Cập nhật gi trị ̂ : ̂( ) ̂ ( ) (2.3) Cập nhật lại residuals: ̂ ( ) ∑ (3) Output mơ hình Boosting: ̂( ) Mơ hình học ban đầu khởi tạo với hồi quy hàm lỗi giải thuật tìm mơ hình cực tiểu hóa lỗi hồi quy Áp dụng giải thuật XGBoost: (1) Bước đầu dùng giải thuật dự đo n biến đầu ŷ; (2) Tiếp theo lặp lại k lần (số hồi quy k tham số mơ hình) để thực hiện; (3) Tính to n phần dư ε công thức xây dựng mô hình hồi quy dùng phần dư ε biến đích với mục tiêu cực tiểu hóa lỗi Dự đo n mẫu dùng mơ hình hồi quy bước trước Dương Thị Kim Chi, Nguyễn Thị Ngọc Nhi, Nguyễn Thế Bảo, Lê Mậu Long, Phạm Công Xuyên 533 IV THỰC NGHIỆM Trong phạm vi viết, sử dụng phần mềm Rstudio gói XGBoost, gói Caret có chứa c c thuật tốn c c mơ hình hồi quy liệt kê mục III, Quy trình thực nghiệm (hình 2), thử nghiệm m y tính c nhân Ram GB, Intel Core i3 Với hai nội dung xây dựng mơ hình huấn luyện từ c c tập liệu TerDB, sau dùng mơ hình để dự đo n tên loài nấm mối (g n nhãn liệu) Xử lý liệu thực nghiệm Các qu trình chuẩn bị liệu mô tả sau: (1) Bộ gene ITS tải từ NCBI , EMBI, DDBJ, BOLD (2) Tách thành gen - số lượng 626 (3) Tính k-mer gen (4) Tạo bảng liệu gồm: - số gen: 626 dòng - số chiều: 1025 cột - Nhãn lồi nâm mối trình bày bảng Hình Quy trình xử lý liệu tổng qu t Dữ liệu sau tải từ ngân hàng gen quốc tế NCBI, tách thành gen, số lượng mẫu trình tự ITS thu 626 Từ trình tự thu c c gen tính K-mer k=5 với cho gen, tạo bảng liệu cho mẫu gồm 626 gen 1024 thuộc tính mô tả Khảo s t sơ liệu phân bố độ dài trung bình lồi nhận thấy: độ dài trình tự c c nhóm có kh c biệt chêch lệch cao class class (hình 6) Hình Thống kê trình tự trung bình nhóm Số lượng gen ITS thu cho loài (class) dao động từ đến 442 (hình 7), với số lượng gen c c nhóm 1, 3, 4, có kh c biệt lớn bố trí số trình tự cho tập Trainning tập Testing Bài b o sử dụng hàm createDataPartition gói Caret để bố trí tỷ lệ tập Training tập Testing Do số lượng hai class 4, class có số lượng trình tự thấp, ảnh hưởng đến chất lượng dự đo n, nên b o bỏ hai lớp qu trình xây dựng tập training Hình Thống kê số lượng trình tự lồi tên c c nhãn g n cho c c lồi ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LỒI NẤM MỐI 534 Xây dựng mơ hình dự đốn tên lồi nấm mối Áp dụng gói phần mềm XGBoot [12] tiến hành thực nghiệm mơi trường R, gói phần mềm Random Forest dùng để so sánh kết cho mô hình đề xuất Bài viết thực nghiệm từ tập gen 626 1024 thuộc tính, 65 % tập gen dùng làm liệu huấn luyện-Training 35 % dùng để làm liệu kiểm thử-testing mơ hình Khi xây dựng mơ hình hồi quy, chúng tơi sử dụng kỹ thuật kiểm tra chéo 5-folds với quy tắc: (1) Lần đầu cho ngẫu nhiên số lần lập nround=30; (2) Thực nghiệm mơ hình với XGB.cv tập training liệt kê c c gi trị hàm Loss; (3) Chọn gi trị hàm loss thấp nhất; (4) Thực nghiệm điều chỉnh n_round gi trị nhỏ vừa tìm được, tìm mơ hình hồn chỉnh Áp dụng mơ hình vừa tìm tập liệu Testing Xây dựng ma trận hỗn độn - ConfusionMatrix, Multi-class area under the curve để đ nh gi mơ hình huấn luyện Yếu tố thời gian so s nh cho hai thuật to n Chúng tiến hành thực nghiệm quy trình 10 lần cho hai thuật to n XGBoost, Random Forest với số n-round dao động từ 10 đến 30 để tìm tập c c gi trị hàm Loss nhỏ tìm mơ hình tốt cho hai mơ hình dự đo n Bảng trình bày kết thống kê qu trình kiểm tra n-round nêu Bảng Thống kê kết đ nh gi hai mơ hình dự đo n lồi nấm mối Thông số so sánh Model_XGB Model_RF Accuracy Multi-class area under the curve Thời gian thực thi (giây) 0,98 0,91 1,66 0,88 0,64 3,43 Với kết thống kê Bảng cho thấy kh c kh c biệt mơ hình dự đo n, mơ hình Model_RF, Model_XGB c c tham số đ nh gi mô thời gian thực thi Mơ hình có tính vượt trội Model_XGB nên viết dùng mơ hình làm mơ hình học dự đo n lồi Với mơ hình Model_XGB, Model_RF b o p dụng cho Classifier Model để dự đo n nhãn lồi cho tập trình tự ITS kiểm chứng gồm có: hai trình tự ITS hai mẫu nấm mối phân lập từ loài nấm mối thu xã An Linh, huyện Phú Gi o, tỉnh Bình Dương [5] Kết dự đo n hai mơ hình để có dự đo n loài Termitomyces clypeatus, kết trùng khớp kết dự đo n phần mềm BLAST NCBI Hình Kết định danh lồi nấm mối Bình Dương mơ hình Model_XGB Hình Kết định danh loài nấm mối Bình Dương mơ hình Model_RF Dương Thị Kim Chi, Nguyễn Thị Ngọc Nhi, Nguyễn Thế Bảo, Lê Mậu Long, Phạm Công Xuyên 535 V KẾT LUẬN Random Forest, XGBoost thuật to n phân lớp mạnh đề xuất phương pháp Ensemble điển hình Kết giải ph p tạo tập hợp c c định, xây dựng tập mẫu Bootstrap với hiệu phân lớp x c cao p dụng phân lớp chiều cao sử dùng phổ biến Vận dụng phương ph p Random Forest xây dựng mơ hình dự đo n liệu thử cho mơ hình đề xuất để so s nh tính hiệu mơ hình đề xuất XGBoost Bài báo trình bày kh i niệm liên quan đối tượng nấm mối cần định danh, c c kỹ thuật XGBoost, Random Forest thuật to n phù hợp cho to n phân lớp dự đo n cho loại liệu chiều cao, nhiều lớp Quy trình xây dựng mơ hình Dự đo n tên lồi nấm mối chứng minh thuật tốn đề xuất có khả chịu nhiễu thường loại bỏ nhiễu cho liệu huấn luyện Loại bỏ gi trị trống làm giảm đặc tính sinh học khả dự b o hệ thống Kết thực nghiệm cho thấy mơ hình đề xuất có khả dự đo n có độ xác cao khả g n nhãn tốt hoàn toàn không dùng đến kỹ thuật lọc nhiễu tiến hành thực nghiệm Ngoài ra, độ đo quan trọng c c tiêu chí tính to n từ mơ hình hiển thị kết trực quan giúp nhà sinh học có thơng tin cần thiết để nâng cao khả dự đo n mức độ nhận định tên loài VI TÀI LIỆU THAM KHẢO [1] Adewusi S R A., Alofe F V., Odeyemi O., Afolabi O A and Oke O L., 1993 Studies on some edible wild mushrooms from Nigeria: 1.Nutritional, teratogenic and toxic considerations.Plant foods for human nutrition, 43(2): 115-121 [2] Masamba K G and Kazombo-Mwale Determination and comparison of nutrient and mineral contents between cultivated and indigenous edible mushrooms in Central Malawi African Journal of Food Science, 4(4): 176-179 2010 [3] Villares A., Mateo-Vivaracho L and Guillamón E Structural features and healthy properties of polysaccharides occurring in mushrooms Agriculture, 2(4): 452-471, 2012 [4] Giri S., Biswas G., Pradhan P., Mandal S C and Acharya K Antimicrobial activities of basidiocarps of wild edible mushrooms of West Bengal, India International Journal of PharmTech Research, 4(4):1554-1560, 2012 [5] Nguyễn Thị Ngọc Nhi Trần Nhân Dũng hân lập giống nấm mối Termitomyces clypeatus Tạp chí Khoa học Trường Đại học Cần Thơ, 2016 [6] Trịnh Tam Kiệt Nấm lớn Việt Nam Tập Nhà xuất Khoa học tự nhiên Công nghệ 2013 [7] Zhang A-b, Feng J, Ward R D., Wan P., Gao Q., et al A New Method for Species Identification via ProteinCoding and Non-Coding DNA Barcodes by Combining Machine Learning with Bioinformatic Methods PLoS ONE 7, 2012 [8] Nguyễn Đức Thành Các kỹ thuật thị DNA nghiên cứu chọn lọc thực vật Tạp chí Sinh học, 36(3): 265294, 2014 [9] Van den Berg C., Higgins W E., Dressler R L., Whitten W M., Soto Arenas M A., Culham A., Chase M W A phylogenetic analysis of Laeliinae (Orchidaceae) based on sequence data from nuclear internal transcribed spacers (ITS) of ribosomal DNA, Lindleyana (15), pp.96114 2000 [10] William Stafford Noble1, Scott Kuehn, Robert Thurman, Man Yu2 and John Stamatoyannopoulos Predicting the in vivo signature of human gene regulatory sequences, Vol 21 Bioinformatics, pages 338-343, 2005 [11] Hsin-Hsiung Huang An ensemble distance measure of k-mer and Natural Vector for the phylogenetic analysis of multiple-segmented viruses, Journal of Theoretical Biology, 136–144, 2016 [12] Tianqi Chen, Carlos Guestrin XGBoost: A Scalable Tree Boosting System KDD ’16, San Francisco, CA USA, 100-142, ACM, 2016 [13] Tianqi Chen, Tong He Michael Benesty, Vadim Khotilovich, Yuan Tang Extreme Gradient Boosting CRAN, 2017 [14] Leo Breiman Random Forests Statistics Department University of California Berkeley, CA 94720, 2001 [15] Fionn Murtagh, Pierre Legendre Ward’s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward’s Criterion? Journal of Classification 31:274-295, 2014 536 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI APPLICATION MACHINES LEARNING FOR DETERMINATION OF TERMITE MUSHROOM SPECIES Duong Thi Kim Chi, Nguyen Thi Ngoc Nhi, Nguyen The Bao, Le Mau Long, Pham Cong Xuyen ABSTRACT: Termite mushroom are edible mushrooms of high economic value as well as nutritious Termite mushroom with short season and growth time should identify this species according to the method based on morphological and folk experience will have low results The use of molecular genetic techniques to identify species has been reported to be highly effective in species identification.The article introduces the machine learning model applied to the ITS data set of the fungus to identify the species and establish the species identification tree The model construction was tested using the XGBoost, Random forest and UPGMA classifier algorithms Experimental results of the two-genome test were collected from the fungus samples in An Linh Commune, Phu Giao District, Binh Duong Province have the same results of the identification were coincident with NCBI's BLAST prediction software ... Thống kê số lượng trình tự lồi tên c c nhãn g n cho c c loài ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI 534 Xây dựng mơ hình dự đốn tên lồi nấm mối Áp dụng gói phần mềm XGBoot [12] tiến hành thực.. .ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI 530 tự có khoảng 10 nhóm cần phân định Bài viết p dụng c c thuật to n phân lớp chiều cao thử nghiệm... (Residual) có dạng: ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI 532 ̂( ) (4) Thuật toán Random Forest Random Forest (RF) tập hợp mơ hình (ensemble) Mơ hình Random Forest hiệu cho c c to n phân

Ngày đăng: 30/09/2021, 16:00

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w