1 NGHIÊN C Ứ U Ứ NG D Ụ NG CÔNG NGH Ệ THÔNG TIN Đ Ể PHÂN TÍCH , TH Ố NG KÊ CƠ S Ở D Ữ LI Ệ U NGU Ồ N GEN LÚA THU Ộ C D Ự ÁN PHÁT TRI Ể N NGÂN HÀNG GEN CÂY TR Ồ NG QU Ố C GIA, 2011 - 2015 - Full 10 điểm

10 0 0
1 NGHIÊN C Ứ U Ứ NG D Ụ NG CÔNG NGH Ệ THÔNG TIN Đ Ể PHÂN TÍCH , TH Ố NG KÊ CƠ S Ở D Ữ LI Ệ U NGU Ồ N GEN LÚA THU Ộ C D Ự ÁN PHÁT TRI Ể N NGÂN HÀNG GEN CÂY TR Ồ NG QU Ố C GIA, 2011 - 2015 - Full 10 điểm

Đang tải... (xem toàn văn)

Thông tin tài liệu

1 NGHIÊN C Ứ U Ứ NG D Ụ NG CÔNG NGH Ệ THÔNG TIN Đ Ể PHÂN TÍCH , TH Ố NG KÊ CƠ S Ở D Ữ LI Ệ U NGU Ồ N GEN LÚA THU Ộ C D Ự ÁN PHÁT TRI Ể N NGÂN HÀNG GEN CÂY TR Ồ NG QU Ố C GIA, 2011 - 2015 Vũ Đình Tú 1 , Nguy ễ n Th ị Hi ề n 1 , Nguy ễ n Chí Tín 1 , Nguy ễ n Ti ế n Hưng 1 TÓM T Ắ T Tin h ọ c hóa n ề n nông nghi ệ p đư ợ c coi là cu ộ c cách m ạ ng xanh ở th ế k ỷ 21 Trong nông nghi ệ p nói chung và công tác b ả o t ồ n tài nguyên th ự c v ậ t ph ụ c v ụ nông nghi ệ p nói riêng thì Công ngh ệ thông tin (CNTT) không ch ỉ là phương ti ệ n h ỗ tr ợ mà có th ể tr ở thành l ự c lư ợ ng lao đ ộ ng quan tr ọ ng Vì v ậ y, vi ệ c ứ ng d ụ ng công ngh ệ thông tin đ ể phân tích, th ố ng kê cơ s ở d ữ li ệ u là m ộ t trong nh ữ ng công vi ệ c r ấ t quan tr ọ ng c ủ a công tác b ả o t ồ n TNTV c ủ a Trung tâm Tài nguyên th ự c v ậ t Đ ể khai thác cơ s ở d ữ li ệ u D ự án phát tri ể n Ngân hàng gen cây tr ồ ng qu ố c giai giai đo ạ n 2011 - 20150, B ộ môn D ữ li ệ u và Thông tin TNTV đã ứ ng d ụ ng hi ệ u qu ả m ộ t s ố ph ầ n m ề m như Excel, SPSS, Q GIS, Infographic… đ ể làm s ạ ch d ữ li ệ u, phân tích, th ố ng kê, trình bày sơ s ở d ữ li ệ u ngu ồ n gen thu th ậ p đư ợ c (Bao g ồ m cơ s ở d ữ li ệ u v ề thông tin lai l ị ch và mô t ả đánh giá ngu ồ n gen) Báo cáo này ch ủ y ế u gi ớ i thi ệ u m ộ t s ố khái ni ệ m và k ế t qu ả ứ ng d ụ ng CNTT vào b ả o t ồ n tài nguyên th ự c v ậ t ph ụ c v ụ nông nghi ệ p c ủ a B ộ môn trong th ờ i gian qua nh ằ m giúp cho các nhà qu ả n lý, các cán b ộ nghiên c ứ u trong Trung tâm hi ể u rõ hơn các ho ạ t đ ộ ng c ứ u và ph ụ c v ụ nghiên c ứ u c ủ a B ộ môn hi ệ n nay T ừ khóa: Công ngh ệ thông tin; Phân tích, th ố ng kê d ữ li ệ u ; Lúa ( Oryza sativa L ) I Đ Ặ T V Ấ N Đ Ề D ự án phát tri ể n Ngân hàng gen cây tr ồ ng Qu ố c gia giai đo ạ n 201 1 - 2015 do Trung tâm Tài nguyên th ự c v ậ t thưc hi ệ n đã thu th ậ p đư ợ c 12 758 m ẫ u gi ố ng c ủ a 119 lo ạ i cây tr ồ ng trên toàn qu ố c Trong đó, Lúa ( Oryza sativa L ) là lo ạ i cây tr ồ ng thu th ậ p đư ợ c nhi ề u và đa d ạ ng v ớ i s ố lư ợ ng 1 704 m ẫ u ngu ồ n gen Ho ạ t đ ộ ng b ả o t ồ n và s ử d ụ ng b ề n v ữ ng qu ỹ gen cây tr ồ ng đòi h ỏ i quá trình thu thâp, lưu tr ữ thông tin và sinh ra m ộ t lư ợ ng d ữ li ệ u kh ổ ng l ồ Chính vì v ậ y, vi ệ c xây d ự ng h ệ th ố ng cơ s ở d ữ li ệ u có kh ả năng cung c ấ p d ữ li ệ u có đ ộ tin cây cao cho nhi ề u đ ố i tư ợ ng s ử d ụ ng là m ộ t công vi ệ c không th ể thi ế u c ủ a ho ạ t đ ộ ng b ả o t ồ n Hi ệ n t ạ i, cơ s ở d ữ li ệ u c ủ a Trung tâm Tài nguyên th ự c v ậ t bao g ồ m d ữ li ệ u Lai l ị ch , Mô t ả đánh giá ban đ ầ u, Mô t ả đánh giá chi ti ế t, Hình ả nh… đư ợ c cung c ấ p t ừ các ho ạ t đ ộ ng b ả o t ồ n Đ ế n nay đã có hàng tri ệ u trư ờ n g d ữ li ệ u cho các Lo ạ i cây tr ồ ng khác nhau Kh ố i lư ợ ng d ữ li ệ u ngày càng nhi ề u d ẫ n đ ế n vi ệ c lưu tr ữ và phân tích, th ố ng kê d ữ li ệ u s ẽ g ặ p ph ả i nh ữ ng khi ế m khuy ế t 1 B ộ Môn D ữ li ệ u và Thông tin TNTV 2 nh ấ t đ ị nh Trư ớ c kia, vi ệ c nh ậ p d ữ li ệ u, th ố ng kê d ữ li ệ u thư ờ ng đư ợ c ti ế n hành th ủ công và đư ợ c đ ố i soát theo b ả n m ẫ u gây m ấ t r ấ t nhi ề u th ờ i gian , ti ề n c ủ a và công s ứ c T ừ khi áp d ụ ng công ngh ệ thông tin trong khâu x ử lý và t ổ ng h ợ p s ố li ệ u th ố ng kê, th ờ i gian x ử lý và t ổ ng h ợ p cho m ộ t cu ộ c đi ề u tra đư ợ c rút ng ắ n đáng k ể Hơn th ế n ữ a, s ử d ụ ng các chương trình máy tính trong khâu x ử lý và t ổ ng h ợ p s ố li ệ u còn cho phép nâng cao đư ợ c ch ấ t lư ợ ng s ố li ệ u th ố ng kê th ố ng qua các chương trình ki ể m tra logic và s ử a l ỗ i Bài báo cáo đưa ra các khái ni ệ m, công c ụ h ỗ tr ợ , ph ầ n m ề m chuyên ngành đ ể có th ể giúp í ch trong công tác ti ề n x ử lý d ữ li ệ u , phân tích, th ố ng kê cơ s ở d ữ li ệ u ngu ồ n gen Lúa thu th ậ p và mô t ả , đánh giá trong d ự án phát tri ể n ngân hà ng gen cây tr ồ ng qu ố c gia (2011 - 2015) II V Ậ T LI Ệ U VÀ PHƯƠNG PHÁP NGHIÊN C Ứ U - D ự a vào cơ s ở d ữ li ệ u thông tin ngu ồ n gen lúa đang đư ợ c qu ả n lý t ạ i B ộ môn D ữ li ệ u và Thông tin tài nguyên th ự c v ậ t bao g ồ m d ữ li ệ u thu th ậ p ngu ồ n gen (nhóm d ữ li ệ u Đăng kí, Lai l ị ch) , d ữ li ệ u mô t ả đánh giá ban đ ầ u ngu ồ n gen ( nhóm d ữ li ệ u Mô t ả , đánh giá ngu ồ n gen) , chúng tôi ch ọ n ra b ộ cơ s ở d ữ li ệ u c ủ a 1 704 ngu ồ n gen lúa đư ợ c thu th ậ p b ở i D ự án Phát tri ể n ngân hà ng gen cây tr ồ ng qu ố c gia và b ộ cơ s ở d ữ li ệ u c ủ a 940 /1 704 m ẫ u gi ố ng đã đư ợ c ti ế n hành mô t ả , đánh giá đ ặ c đi ể m nông sinh h ọ c ban đ ầ u - T ừ b ộ cơ s ở d ữ li ệ u ngu ồ n gen lúa , chúng tôi ti ế n hành ti ề n x ử lý d ữ li ệ u b ằ ng phương pháp làm s ạ ch d ữ li ệ u (data cleaning) T ừ ngu ồ n d ữ li ệ u đã đư ợ c x ử lý đó chúng tôi ti ế n hành phân t ích, th ố ng kê ngu ồ n gen lúa t heo vùng sinh thái, theo ngu ồ n g ố c dân t ộ c s ở h ữ u, theo d ữ li ệ u mô t ả đánh gi á m ộ t s ố các ch ỉ tiêu cơ b ả n đ ể t ổ ng h ợ p các b ả ng s ố li ệ u, thông tin 2 1 Ứ ng d ụ ng Làm s ạ ch d ữ li ệ u ( Data Cleaning ) đ ể rà soát l ạ i d ữ li ệ u, nh ằ m đ ả m b ả o r ằ ng các d ữ li ệ u đ ề u đ ồ ng nh ấ t và chính xác ở m ứ c đ ộ cao nh ấ t 2 1 1 Kiểm tra, chuẩn hóa giá trị dữ liệu : - Quy trình kiểm tra, chuẩn hóa giá trị dữ liệu được tiến hành trên Nhóm dữ liệu Đăng ký, dữ liệu Lai lịch , dữ liệu Mô tả, đánh giá Quy t rình này thực hiện trên các dữ liệu Dữ liệu chính tả (Số đăng kí, Tên mẫu nguồn gen) ; Dữ liệu địa lý (Tỉnh, h uyện, xã ); Dữ liệu tọa độ ( Kinh độ, Vĩ độ); Dữ liệu dân tộc ; Dữ liệu thời gian ( Ngày/tháng /năm) - Tất cả các công đoạn được tiến hành trên tệp (file) Excel Để đảm bảo an toàn dữ liệu trong khi thao tác chúng tôi tạo bản sao lưu dữ liệu ban đầu trong một file làm việc khác - Các bước chung cho thao tác một trường dữ liệu là: ➢ Chèn một cột mới (B) bên cạnh cột gốc (A) cần làm sạch 3 ➢ Thêm công thức sẽ biến đổi dữ liệu ở trên cùng của cột mới (B) ➢ Điền công thức trong cột mới (B) Trong bảng Excel, một cột đư ợc tính toán tự động được tạo bằng giá trị điền xuống dưới ➢ Chọn cột mới (B), sao chép nó, sau đó dán dưới dạng giá trị vào cột mới (B) ➢ Loại bỏ cột gốc (A), chuyển đổi cột mới từ B đến A - Loại bỏ khoảng trắng và các ký tự thay thế , chỉnh sửa chính tả : sử dụ ng một số hàm trong tệp Excel như Find & R eplace, TRIM VL ookup … - Chuẩn hóa dữ liệu về địa giới hành chính (tỉnh/huyện/xã) của các nguồn gen bằng cách đối chiếu với cơ sở dữ liệu chuẩn về địa giới hành chính - Chuyển đổi d ữ liệu tọa độ (Kinh độ, Vĩ đô) đồng nhất về hệ tọa độ Decartes (hệ tọa độ không gian 2 chiều bằng cặp số tọa độ x, y) VD: Chiềng Sại, Bắc Yên, Sơn La có tọa độ ( Kinh độ, Vĩ độ) Decartes là: ( 104 506667 , 21 069722 ) - Chuẩn hóa dữ liệu về dân tộc của các ngu ồn gen bằng cách đối chiếu với cơ sở dữ liệu “54 dân tộc Việt Nam” của Ủy ban dân tộc Việt Nam - Chuẩn hóa dữ liệu thời gian về định dạng ngày tháng năm (dd/mm/yyyy) (VD: 11/09/2014) 2 1 2 Nh ậ n di ệ n , x ử lý ph ầ n t ử ngo ạ i lai (outliers) và gi ả m thi ể u nhi ễ u (noise data) - X ác đ ị nh ph ầ n t ử ngo ạ i lai b ằ ng m ộ t s ố phương pháp : phân b ố th ố ng kê (statistical distribution based), kho ả ng cách (distance - based), phương pháp gi ả m thi ể u nhi ễ u phân c ụ m (clustering) đ ể hi ệ u ch ỉ nh d ữ li ệ u 2 1 3 Nh ậ n di ệ n, x ử lý d ữ li ệ u b ị thi ế u (missing data) - S ử d ụ ng ph ầ n m ề m th ố ng kê s ố li ệ u SPSS Statistics đ ể xác đ ị nh đư ợ c các giá tr ị b ị thi ế u (missing values ) và qui đ ổ i giá tr ị thi ế u v ề h ằ ng s ố chung 2 2 Ứ ng d ụ ng H ệ th ố ng thông tin đ ị a lý (Geo graphic information system - GIS ) đ ể phân tích, th ố ng kê d ữ li ệ u không gian (d ữ li ệ u b ả n đ ồ ) c ủ a các m ẫ u ngu ồ n gen - D ự a vào d ữ li ệ u v ề t ọ a đ ộ (kinh đ ộ , vĩ đ ộ ) đư ợ c chu ẩ n hóa theo H ệ t ọ a đ ộ Decartes và s ử d ụ ng h ệ t ọ a đ ộ qu ố c t ế WGS 84 trên GIS chúng tôi bư ớ c đ ầ u ứ ng d ụ ng QGIS (Window, Ma c OS X Linux) trên l ớ p b ả n đ ồ n ề n 63 t ỉ nh thành Vi ệ t Nam đ ể th ố ng kê phân b ố ngu ồ n gen Lúa đư ợ c thu th ậ p trên toàn qu ố c và 8 vùng sinh thái nông nghi ệ p 2 3 Ứ ng d ụ ng ph ầ n m ề m x ử lý s ố li ệ u Excel , IBM SPSS Statistic đ ể phân tích, th ố ng kê d ữ li ệ u lai l ị ch, d ữ li ệ u mô t ả đánh giá ngu ồ n gen 4 2 4 Ứng dụng Infographic (Information graphic) (Adobe Photoshop, Adobe Illustrator) để đồ họa trực quan thông tin, dữ liệu nguồn gen Lúa III K Ế T QU Ả VÀ TH Ả O LU Ậ N 3 1 Ứ ng d ụ ng Làm s ạ ch d ữ li ệ u ( Data Cleaning ) đ ể rà soát l ạ i d ữ li ệ u Làm sạch dữ li ệu ( Data cleaning) là công việc hết sức quan trọng trong quá trình tiền xử lý dữ liệu để đảm bảo tính chính xác (accuracy) , tính hiện hành (currency) , tính toàn vẹn (completeness ) , tính nh ấ t quán (consistency) M ộ t thu ậ t ng ữ v ề ch uyên ngành d ữ li ệ u đư ợ c đưa ra đó là “garbage in, garbage out” (d ữ li ệ u đ ầ u vào là rác thì d ữ li ệ u đ ầ u ra s ẽ là rác) N ế u chúng ta cung c ấ p m ộ t t ậ p d ữ li ệ u ch ứ a thông tin rác, thì k ế t qu ả cu ố i cùng chúng ta nh ậ n đư ợ c cũng s ẽ là rác Do đó, khi nh ậ n đư ợ c m ộ t lư ợ ng l ớ n d ữ li ệ u, vi ệ c đ ầ u tiên mà chúng ta c ầ n nghĩ đ ế n là ti ề n x ử lý t ậ p d ữ li ệ u đó, đ ể có th ể h ạ n ch ế rác (garbage) và s ử d ụ ng chúng đ ể khai phá sau này K ế t qu ả làm s ạ ch b ằ ng m ộ t s ố phương pháp: 3 1 1 Ki ể m tra , chu ẩ n hóa giá tr ị d ữ li ệ u K ế t qu ả ki ể m tra, chu ẩ n hóa d ữ li ệ u đư ợ c trình bày t ạ i B ả ng 1 : Bảng 1 : Thống kế số lượng dữ liệu được kiểm tra, chuẩn hóa giá trị Loại dữ liệu Dữ liệu chính tả Dữ liệu địa giới hành chính (Tỉnh/Huyện/Xã) Dữ liệu tọa độ Dữ liệu dân tộc Dữ liệu thời gian Số dữ liệu cần kiểm tra 1704 39/136/407 1704 48 1704 Số dữ liệu được hiệu chỉnh 22 39/135/407 168 32 0 - Trong quá trình kiểm tra, chuẩn hóa chúng tôi nhận thấy Dữ liệu địa giới hành chính hầu như chính xác tuyệt đối ( chỉ có 1 huyện Gia Nghĩa bị nhập liệu sai nên thành 2 huyện) ; Dữ liệu chính tả bị sai chủ yếu bởi chỉ tiêu Tên nguồn gen bị lỗi kí tự dấu cách; Dữ liệu tọa độ thì có 168 tọa độ được chuyển đổi từ hệ tọa độ GPS về hệ tọa độ Decartes, dữ liệu dân tộc chủ yếu bị lỗi khi cán bộ thu thập viết tên sai ; Dữ liệu thời gian có tỷ lệ chính xác cao 100% khi không có lỗi nào 3 1 2 Nh ậ n di ệ n , x ử lý ph ầ n t ử ngo ạ i lai (outliers) và gi ả m thi ể u nhi ễ u (noise data) - Các phần tử ngoại lai (Outliers) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán Những phần tử ngoại lai (đối tượng) này không tuân theo đặc tính/ hành vi chung của tập dữ liệu (đối tượng) Các giá trị tương tự nhau sẽ được hiể n thị theo một cụm, các giá trị nằm ngoài, bất thường chính là các phần từ ngoại lai (outiers) gây ra dữ liệu nhiễu (noisy data) Các phần tử ngoại lai này thường 5 xuất hiện tron g các chỉ tiêu đánh giá định lượng như Chiều dài hạt, Chiều rộng hạt , Chiều cao cây , Số dảnh, Thời gian sinh trưởng… - Quá trình phân tích dữ liệu mô tả đánh giá bằng phương pháp giảm thiểu nhiễu phân cụm (clustering) chúng tôi đã tìm ra được 2 chỉ tiêu có dữ liệu mà trong đó xuất hiện một số phần tử ngoại lai đó là chỉ tiêu Chiều r ộng hạt =0,5 cm - 0,57 cm và chỉ tiêu Độ dài thân < 3 0 cm - 6 mẫu n guồn gen (GBVN017399 ( Aroo ba trăng) GBVN01 7382 (Đha nang), GBVN017386 (Aroo đếêp Đha nang), GBVN017403 (Aroo đếêp prong), GBVN017404 (Aroo đếêp Arứt), GBVN017405 (Aroo đếêp Ađíp) ) có dữ liệu Chiều rộng hạt >=0,5 cm được đối chứng lại với seed file nguồn gen đ ã được mô tả đánh giá lại ; 02 mẫu nguồn gen có dữ liệu Độ dài thân < 3 0 cm đó là: GBVN017283 (Khẩu già zui); TEMP019134 (Tài lồ) được yêu cầu mô tả, đánh giá lại Hình 1 : Các p hần tử ngoại lai trong chỉ tiêu mô tả Chiều rộng hạt , Chiều dài thân 3 2 3 Nh ậ n di ệ n, x ử lý d ữ li ệ u b ị thi ế u (m issing data) - D ữ li ệ u b ị thi ế u (missing data) là d ữ li ệ u không s ẵ n có khi c ầ n s ử d ụ ng xu ấ t hi ệ n do khách quan (không t ồ n t ạ i lúc nh ậ p li ệ u, s ự c ố ) ho ặ c ch ủ quan (tác nhân con ngư ờ i) Chúng tôi đã ti ế n hành xác đ ị nh d ữ li ệ u b ị thi ế u (missing data) trên nhóm d ữ li ệ u mô t ả , đánh giá ngu ồ n gen và x ử lý b ằ ng cách đưa v ề h ằ ng s ố “null” cho các giá tr ị nà y B ả ng 2 : Th ố ng k ế s ố lương các trư ờ ng d ữ li ệ u b ị thi ế u trong d ữ li ệ u MTĐG Ch ỉ tiêu Màu phiến lá Màu thìa lìa Dạng thìa lìa Màu cổ lá Màu tai lá Số dảnh hữu hiệu Màu nhị cái Màu ống rạ Dạng bông Giá tr ị thi ế u 21 18 18 18 18 27 22 18 21 Ch ỉ tiêu Độ thoát cổ bông Trục bông Râu Màu mỏ hạt Màu vỏ trấu Độ phủ lông vỏ trấu Màu mày hạt Màu h ạ t g ạ o Giá tr ị thi ế u 19 20 5 5 4 4 5 13 - Vi ệ c xác đ ị nh đư ợ c s ố lư ợ ng các d ữ li ệ u b ị thi ế u (missing data) giúp cho chúng tôi li ệ t kê danh sách nh ữ ng ngu ồ n gen b ị khuy ế t d ữ li ệ u và có k ế ho ạ ch hoàn thi ệ n d ữ li ệ u trong các đ ợ t nhân gi ố ng, mô t ả đánh giá ngu ồ n gen ti ế p theo 6 3 2 Ứ ng d ụ ng H ệ th ố ng thông tin đ ị a lý (Geographic Information System - GIS) đ ể phân tích, th ố ng kê d ữ li ệ u không gian (d ữ li ệ u b ả n đ ồ ) c ủ a các m ẫ u ngu ồ n gen - GIS t ừ lâu đã là công c ụ h ỗ tr ợ đ ắ c l ự c đ ể phân tích, hi ể n th ị các thông tin liên quan t ớ i v ị trí đ ị a lý c ủ a các đ ố i tư ợ ng Đ ố i v ớ i d ữ li ệ u c ủ a b ả o t ồ n tài nguyên th ự c v ậ t nông nghi ệ p, n ế u chúng ta có m ộ t cơ s ở d ữ li ệ u n ề n t ố t v ề v ị trí đ ị a lý, d ữ li ệ u khí h ậ u, d ữ li ệ u th ổ như ỡ ng… thì GIS s ẽ giúp ích r ấ t nhi ề u trong công tác mô ph ỏ ng, d ự đoán - Bư ớ c đ ầ u ứ ng d ụ ng ph ầ n m ề m Q GIS : d ữ li ệ u th ố ng kê đã cho th ấ y đư ợ c sư phân b ố đa d ạ ng c ủ a 1 704 ngu ồ n gen Lúa đ ị a phương tr ả i dài t ừ B ắ c – Nam, m ộ t s ố vùng có h ệ s ố đa d ạ ng cao d ự a trên s ố lư ợ ng ngu ồ n gen như (Tây B ắ c, Tây Nguyên, Đông B ắ c), vùng có h ệ s ố đa d ạ ng th ấ p (ĐB Sông H ồ ng, B ắ c Trung B ộ ) D ữ li ệ u d ạ ng b ả n đ ồ cũng cho cái nhìn khái quát v ề k ế t qu ả thu th ậ p ngu ồ n gen Lúa trong D ự án phát tri ể n ngân hàng gen cây tr ồ ng qu ố c gia cũng như giúp l ậ p k ế ho ạ ch trong các chương trình thu th ậ p ngu ồ n gen t ạ i các vùng chưa đư ợ c thu th ậ p Hình 2: Th ố ng kê phân b ố ngu ồ n gen Lúa thu th ậ p s ử d ụ ng công c ụ GIS 3 3 Ứ ng d ụ ng ph ầ n m ề m x ử lý s ố li ệ u đ ể phân tích, th ố ng kê d ữ li ệ u , Lai l ị ch, d ữ li ệ u M ô t ả đánh giá ngu ồ n gen - S ử d ụ ng các ph ầ n m ề m x ử lý th ố ng kê d ữ li ệ u Excel , SPSS chúng tôi đã phân tích th ố ng kê d ữ li ệ u Lai l ị ch c ủ a 1 704 ngu ồ n gen và d ữ li ệ u Mô t ả , đánh giá c ủ a 940 ngu ồ n gen theo nhi ề u hư ớ ng Các k ế t qu ả c ủ a công tác phân tích, th ố ng kê đư ợ c tr ình bày theo các Hình, B ả ng dư ớ i đây: Hình 3 : Th ố ng kê s ố lư ợ ng ngu ồ n gen Lúa thu th ậ p theo vùng sinh thái 703 281 271 263 98 62 25 1 0 200 400 600 800 Đông Bắc Tây Nguyên Tây Bắc Nam Trung Bộ Tây Nam Bộ Đông Nam Bộ Bắc Trung Bộ ĐB Sông Hồng 7 B ả ng 3 : Th ố ng kê s ố lư ợ ng T ỉ nh/Huy ệ n/Xã đã thu th ậ p ngu ồ n gen Lúa Đông Bắc Tây Nguyên Tây Bắc Nam Trung Bộ Tây Nam Bộ Đông Nam Bộ Bắc Trung Bộ ĐB Sông Hồng Tổng Tỉnh 11 5 4 5 7 3 2 1 38 Huyện 43 26 12 25 13 12 6 1 133 Xã 187 59 51 49 34 18 11 1 410 B ả ng 4 : Th ố ng kê s ố lư ợ ng ngu ồ n gen thu th ậ p theo Dân t ộ c STT Nhóm dân t ộ c S ố lư ợ ng ngu ồ n gen T ỷ l ệ % STT Nhóm dân t ộ c S ố lư ợ ng ngu ồ n gen T ỷ l ệ % 1 Kinh 239 14 04 17 Ê Đ ê 13 0 76 2 Dao 222 13 04 18 Kháng 13 0 76 3 H''''Mông 197 11 57 19 Khơ M ú 10 0 59 4 Tày 194 11 40 20 Lô Lô 7 0 41 5 Nùng 118 6 93 21 Phù L á 7 0 41 6 Xơ Đ ăng 102 5 99 22 Giáy 6 0 35 7 Thái 89 5 23 23 Cơ H o 5 0 29 8 Cơ tu 80 4 70 24 La C hí 5 0 29 9 Gia r ai 73 4 29 25 Hà N hì 5 0 29 10 Ba N a 67 3 94 26 Lào 4 0 24 11 M ’ nông 59 3 47 27 Pà T h ẻ n 4 0 24 12 Mư ờ ng 51 3 00 28 Hoa 4 0 24 13 Kh me r 43 2 53 29 Co 2 0 12 14 Sán c hay 34 2 00 30 Ra glai 2 0 12 15 Gi ẻ T riêng 28 1 65 31 Chăm 1 0 06 16 M ạ 17 1 00 32 Sán D ìu 1 0 06 B ả ng 5 : Th ố ng kê các ch ỉ tiêu mô t ả đánh giá ban đ ầ u ngu ồ n gen Lúa Màu lá S ố lư ợ ng T ỷ l ệ % Màu g ố c b ẹ lá S ố lư ợ ng T ỷ l ệ % 1 – Xanh nh ạ t 265 28,84 1 – Xanh 860 93,68 2 – Xanh 496 53,97 2 – Có s ọ c tím 35 3,81 3 – Xanh đ ậ m 135 14,69 3 – Tím nh ạ t 19 2,07 4 – Tím ở đ ỉ nh 0 0 4 – Tím 4 0,44 5 – Tím ở mép lá 14 1,52 T ổ ng 918 6 – Có đ ố m 5 0,54 7 – Tím 4 0,44 T ổ ng 919 Màu c ổ lá S ố lư ợ ng T ỷ l ệ % Màu tai lá S ố lư ợ ng T ỷ l ệ % 1 – Xanh nh ạ t 716 77,66 1 – Xanh nh ạ t 841 91,21 2 – Xanh 158 17,14 2 – Tím 81 8,79 3 – Tím 48 5,21 T ổ ng 922 T ổ ng 922 Màu nh ụ y S ố lư ợ ng T ỷ l ệ % Màu s ắ c ố ng r ạ S ố lư ợ ng T ỷ l ệ % 8 1 – Tr ắ ng 742 80,83 1 – Xanh 382 41,43 2 – Xanh nh ạ t 0 0 2 – Vàng nh ạ t 489 53,04 3 – Vàng 47 5,12 3 – S ọ c tím 39 4,23 4 – Tím nh ạ t 76 8,28 4 – Tím 12 1,30 5 – Tím 53 5,77 T ổ ng 922 T ổ ng 918 D ạ ng bông S ố lư ợ ng T ỷ l ệ % Phân nhánh th ứ c ấ p trên bông S ố lư ợ ng T ỷ l ệ % 1 – Ch ụ m 99 10,77 1 – Không 7 0,76 5 – Trung gian 528 57,45 2 – Nh ẹ 842 91,52 9 – M ở 292 31,77 3 – N ặ ng 67 7,28 4 – Đ ẻ c ụ m 4 0,43 T ổ ng 920 Đ ộ thoát c ổ bông S ố lư ợ ng T ỷ l ệ % Tr ụ c bông S ố lư ợ ng T ỷ l ệ % 1 – Thoát hoàn 698 75,79 1 – Th ẳ ng đ ứ ng 7 0,76 3 – Thoát trung bình 162 17,59 2 – U ố n xu ố ng 913 99,24 5 – V ừ a đúng c ổ bông 58 6,30 T ổ ng 920 7 – Thoát m ộ t 2 0,22 9 – Không thoát đư ợ c 1 0,11 T ổ ng 921 Râu S ố lư ợ ng T ỷ l ệ % Màu râu S ố lư ợ ng T ỷ l ệ % 1 – Không râu 720 77,01 1 – Vàng rơm 42 19,09 3 – Râu ng ắ n t ừ ng ph ầ n 160 17,11 2 – Vàng 46 20,91 5 – Râu ng ắ n toàn ph ầ n 9 0,96 3 – Nâu 28 12,73 7 – Râu dài t ừ ng 34 3,64 4 – Đ ỏ 40 18,18 9 – Râu dài toàn ph ầ n 12 1,28 5 – Tím 48 21,82 T ổ ng 935 6 – Đen 16 7,27 T ổ ng 220 Màu m ỏ h ạ t S ố lư ợ ng T ỷ l ệ % Màu v ỏ tr ấ u S ố lư ợ ng T ỷ l ệ % 1 – Tr ắ ng 20 2,14 1 – Vàng rơm 291 31,09 2 – Vàng rơm 375 40,11 2 – Vàng ho ặ c khía vàng 231 24,68 3 – Nâu 271 28,98 3 – Đ ố m 61 6,52 4 – Đ ỏ 26 2,78 4 – Khía nâu 197 21,05 5 – Đ ỉ nh đ ỏ 4 0,43 5 – Nâu 33 3,53 6 – Tím 205 21,93 6 – Hơi đ ỏ đ ế n tím nh ạ t 8 0,85 7 – Đ ỉ nh tím 34 3,64 7 – Đ ố m tím 40 4,27 T ổ ng 935 8 – Khía tím 57 6,09 9 – Tím 14 1,50 10 – Đen 4 0,43 T ổ ng 936 Màu mày h ạ t S ố lư ợ ng T ỷ l ệ % Màu v ỏ cám S ố lư ợ ng T ỷ l ệ % 9 1 – Vàng rơm 563 60,21 1 – Tr ắ ng 761 82,09 2 – Vàng 132 14,12 2 – Nâu nh ạ t 9 0,97 3 – Đ ỏ 111 11,87 3 – Ánh nâu 21 2,27 4 – Tím 129 13,80 4 – Nâu 10 1,08 T ổ ng 935 5 – Đ ỏ 64 6,90 6 – Tím m ộ t ph ầ n 16 1,73 7 – Tím 46 4,96 T ổ ng 927 B ả ng 6 : Th ố ng k ế d ữ li ệ u tính toán m ộ t s ố ch ỉ tiêu đ ị nh lư ợ ng c ủ a Lúa D thìa lìa (mm, n=5) S ố d ả nh TL 1000 h ạ t (gr, n=3) Dài h ạ t (mm, n=5) R ộ ng h ạ t (mm, n=5) TG sinh trư ở ng (ngày) Max 42 40 29 00 57 10 12 00 4 5 4 162 00 Min 1 00 1 30 10 00 6 04 1 88 95 00 Trung bình 16 66 6 66 28 62 8 76 3 24 127 18 3 4 Ứ ng d ụ ng Infographics (Information graphic) đ ể đ ồ h ọ a tr ự c quan thông tin, d ữ li ệ u ngu ồ n gen ph ụ c v ụ công tác in ấ n, xu ấ t b ả n ấ n ph ẩ m thúc đ ẩ y khai thác và s ử d ụ ng b ề n v ữ ng ngu ồ n gen - Infographic ( thiết kế đồ họa thông tin ) l à ki ể u thi ế t k ế đ ồ h ọ a ch ủ y ế u d ự a v à o c á c h ì nh ả nh tr ự c quan đ ể mô ph ỏ ng cho nh ữ ng d ữ li ệ u thông tin, v ớ i thi ế t k ế ki ể u n à y ngư ờ i d ù ng d ễ d à ng thu th ậ p d ữ li ệ u m ộ t c á ch nhanh nh ấ t nh ờ c á c bi ể u tư ợ ng, c á c icon Th ờ i gi an g ầ n đây Infographic đ ã tr ở nên ph ổ bi ế n cho nh ữ ng ý tư ở ng cho nh ữ ng thông tin ph ứ c t ạ p đư ợ c tr ì nh b à y trên nhiều bảng biểu, nhiều trang gi ấ y - T hay v ì t ậ p h ợ p tin t ứ c d ạ ng text th ì bây gi ờ chúng tôi sử dụng infographic đ ể c ó th ể th ố ng kê 1 c á ch r õ r à ng v à chi ti ế t nh ấ t, giúp cho các cán bộ nghiên cứu có thể hấp thụ và trao đổi nguồn thông tin dễ dàng hơn V ớ i nh ữ ng l ợ i í ch c ủ a infographic, chúng tôi đã ứng dụng để xuất bản tài liệu “Thống kê nguồn gen Lúa theo vùng s inh thái nông nghiệp, dân tộc và đặc điểm hình thái chính được thu thập bởi Dự án phát triển ngân hàng gen cây trồng quốc gia giai đoạn 2011 - 2020” Hình 4 : Infographic đ ồ h ọ a tr ự c quan d ữ li ệ u thông tin đư ợ c phân tích, th ố ng kê 10 IV K Ế T LU Ậ N VÀ Đ Ề NGH Ị 4 1 K ế t lu ậ n - Đã ứ ng d ụ ng hi ệ u qu ả CNTT đ ể làm s ạ ch, x ử lý phân tích, th ố ng kê cơ s ở d ữ li ệ u lai l ị ch c ủ a 1 704 m ẫ u ngu ồ n gen và mô t ả đánh giá ban đ ầ u c ủ a 940 m ẫ u ngu ồ n gen lúa t ừ d ự án; - Ứ ng d ụ ng thành công H ệ th ố ng thôn g tin đ ị a lý (GIS) đ ể phân tíc h th ố ng kê d ữ li ệ u không gian các ngu ồ n gen thu th ậ p đư ợ c t ừ d ự án; - Ứ ng d ụ ng thành công Đ ồ h ọ a tr ự c quan hình ả nh (Infographic) đ ể trình bày thông tin d ữ li ệ u ngu ồ n gen lúa t ừ d ự án ph ụ c ph ụ c v ụ in ấ n, xu ấ t b ả n Đã xu ấ t b ả n đư ợ c 01 ấ n ph ẩ m th ố ng kê ngu ồ n gen Lúa ph ụ c v ụ khai thác s ử d ụ ng ng u ồ n ge n; - D ữ li ệ u đư ợ c phân tích, th ố ng kê theo nhi ề u hư ớ ng giúp ích cho các nhà nghiên c ứ u có cái nhìn đa chi ề u v ề công tác b ả o t ồ n tài nguyên th ự c v ậ t nông nghi ệ p 4 2 Đ ề ngh ị - C ầ n ti ế p t ụ c ứ ng d ụ ng CNTT đ ể phân tích, th ố ng kê d ữ li ệ u c ủ a các Lo ạ i cây khác, nhóm cây khác trong toàn h ệ th ố ng B ả o t ồ n ngu ồ n gen th ự c v ậ t nông nghi ệ p - Ti ế p t ụ c ứ ng d ụ ng nh ữ ng khái ni ệ m CNTT m ớ i trong công tác tư li ệ u hóa thông tin ngu ồ n gen T ÀI LI Ệ U THAM KH Ả O 1 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web , NXB Giáo dục, 2009 2 TS Nguyễn Minh Tuấn, Hà Trọng Quang, Giáo trình Xử lý dữ liệu nghiên cứu với SPSS FOR WINDOW , Trường ĐH Công nghiệp TP HCM 3 https://ongxuanhong wordpress com/2016/01/31/lay - va - lam - sach - du - lieu - xu - ly - du - lieu - ngoai - lai - outliers/ 4 Khai thác dữ liệu & ứng dung (Data Mining) ( http://tailieu vn/doc/data - mining - and - application - qui - t rinh - chuan - bi - du - lieu - 723931 html ) 5 Tài liệu xử lý thống kê bằng Excel ( http://tailieu vn/doc/xu - ly - thong - ke - bang - excel - 365594 html ) 6 Tài liệu QGIS ( http://www qgistutorials com/vi/ ) 7 Cơ sở dữ liệu 54 dân tộc Việt Nam ( http://www cema gov vn/gioi - thieu/co ng - dong - 54 - dan - toc htm 8 https://en wikipedia org/wiki/Infographic 9 Robert Nisbet, John Elder, Gary Miner , Handbook of Statistical Analysis and Data Mining Applications , Elsevier Inc, 2009

NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ THÔNG TIN ĐỂ PHÂN TÍCH, THỐNG KÊ CƠ SỞ DỮ LIỆU NGUỒN GEN LÚA THUỘC DỰ ÁN PHÁT TRIỂN NGÂN HÀNG GEN CÂY TRỒNG QUỐC GIA, 2011-2015 Vũ Đình Tú1, Nguyễn Thị Hiền1, Nguyễn Chí Tín1, Nguyễn Tiến Hưng1 TÓM TẮT Tin học hóa nơng nghiệp coi cách mạng xanh kỷ 21 Trong nơng nghiệp nói chung công tác bảo tồn tài nguyên thực vật phục vụ nơng nghiệp nói riêng Cơng nghệ thơng tin (CNTT) không phương tiện hỗ trợ mà trở thành lực lượng lao động quan trọng Vì vậy, việc ứng dụng cơng nghệ thơng tin để phân tích, thống kê sở liệu công việc quan trọng công tác bảo tồn TNTV Trung tâm Tài nguyên thực vật Để khai thác sở liệu Dự án phát triển Ngân hàng gen trồng quốc giai giai đoạn 2011-20150, Bộ môn Dữ liệu Thông tin TNTV ứng dụng hiệu số phần mềm Excel, SPSS, QGIS, Infographic… để làm liệu, phân tích, thống kê, trình bày sơ sở liệu nguồn gen thu thập (Bao gồm sở liệu thông tin lai lịch mô tả đánh giá nguồn gen) Báo cáo chủ yếu giới thiệu số khái niệm kết ứng dụng CNTT vào bảo tồn tài nguyên thực vật phục vụ nông nghiệp Bộ môn thời gian qua nhằm giúp cho nhà quản lý, cán nghiên cứu Trung tâm hiểu rõ hoạt động cứu phục vụ nghiên cứu Bộ môn Từ khóa: Cơng nghệ thơng tin; Phân tích, thống kê liệu; Lúa (Oryza sativa L.) I ĐẶT VẤN ĐỀ Dự án phát triển Ngân hàng gen trồng Quốc gia giai đoạn 2011-2015 Trung tâm Tài nguyên thực vật thưc thu thập 12.758 mẫu giống 119 loại trồng toàn quốc Trong đó, Lúa (Oryza sativa L.) loại trồng thu thập nhiều đa dạng với số lượng 1.704 mẫu nguồn gen Hoạt động bảo tồn sử dụng bền vững quỹ gen trồng địi hỏi q trình thu thâp, lưu trữ thơng tin sinh lượng liệu khổng lồ Chính vậy, việc xây dựng hệ thống sở liệu có khả cung cấp liệu có độ tin cao cho nhiều đối tượng sử dụng công việc thiếu hoạt động bảo tồn Hiện tại, sở liệu Trung tâm Tài nguyên thực vật bao gồm liệu Lai lịch, Mô tả đánh giá ban đầu, Mô tả đánh giá chi tiết, Hình ảnh…được cung cấp từ hoạt động bảo tồn Đến có hàng triệu trường liệu cho Loại trồng khác Khối lượng liệu ngày nhiều dẫn đến việc lưu trữ phân tích, thống kê liệu gặp phải khiếm khuyết Bộ Môn Dữ liệu Thông tin TNTV định Trước kia, việc nhập liệu, thống kê liệu thường tiến hành thủ cơng đối sốt theo mẫu gây nhiều thời gian, tiền công sức Từ áp dụng công nghệ thông tin khâu xử lý tổng hợp số liệu thống kê, thời gian xử lý tổng hợp cho điều tra rút ngắn đáng kể Hơn nữa, sử dụng chương trình máy tính khâu xử lý tổng hợp số liệu cho phép nâng cao chất lượng số liệu thống kê thống qua chương trình kiểm tra logic sửa lỗi Bài báo cáo đưa khái niệm, công cụ hỗ trợ, phần mềm chuyên ngành để giúp ích công tác tiền xử lý liệu, phân tích, thống kê sở liệu nguồn gen Lúa thu thập mô tả, đánh giá dự án phát triển ngân hàng gen trồng quốc gia (2011- 2015) II VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU - Dựa vào sở liệu thông tin nguồn gen lúa quản lý Bộ môn Dữ liệu Thông tin tài nguyên thực vật bao gồm liệu thu thập nguồn gen (nhóm liệu Đăng kí, Lai lịch), liệu mơ tả đánh giá ban đầu nguồn gen (nhóm liệu Mơ tả, đánh giá nguồn gen), chọn sở liệu 1.704 nguồn gen lúa thu thập Dự án Phát triển ngân hàng gen trồng quốc gia sở liệu 940/1.704 mẫu giống tiến hành mô tả, đánh giá đặc điểm nông sinh học ban đầu - Từ sở liệu nguồn gen lúa, tiến hành tiền xử lý liệu phương pháp làm liệu (data cleaning).Từ nguồn liệu xử lý chúng tơi tiến hành phân tích, thống kê nguồn gen lúa theo vùng sinh thái, theo nguồn gốc dân tộc sở hữu, theo liệu mô tả đánh giá số tiêu để tổng hợp bảng số liệu, thông tin 2.1 Ứng dụng Làm liệu (Data Cleaning) để rà soát lại liệu, nhằm đảm bảo liệu đồng xác mức độ cao 2.1.1 Kiểm tra, chuẩn hóa giá trị liệu: - Quy trình kiểm tra, chuẩn hóa giá trị liệu tiến hành Nhóm liệu Đăng ký, liệu Lai lịch , liệu Mơ tả, đánh giá Quy trình thực liệu Dữ liệu tả (Số đăng kí, Tên mẫu nguồn gen); Dữ liệu địa lý (Tỉnh, huyện, xã); Dữ liệu tọa độ (Kinh độ, Vĩ độ); Dữ liệu dân tộc; Dữ liệu thời gian (Ngày/tháng/năm) - Tất công đoạn tiến hành tệp (file) Excel Để đảm bảo an toàn liệu thao tác tạo lưu liệu ban đầu file làm việc khác - Các bước chung cho thao tác trường liệu là: ➢ Chèn cột (B) bên cạnh cột gốc (A) cần làm ➢ Thêm công thức biến đổi liệu cột (B) ➢ Điền công thức cột (B) Trong bảng Excel, cột tính tốn tự động tạo giá trị điền xuống ➢ Chọn cột (B), chép nó, sau dán dạng giá trị vào cột (B) ➢ Loại bỏ cột gốc (A), chuyển đổi cột từ B đến A - Loại bỏ khoảng trắng ký tự thay thế, chỉnh sửa tả: sử dụng số hàm tệp Excel Find & Replace, TRIM VLookup… - Chuẩn hóa liệu địa giới hành (tỉnh/huyện/xã) nguồn gen cách đối chiếu với sở liệu chuẩn địa giới hành - Chuyển đổi liệu tọa độ (Kinh độ, Vĩ đô) đồng hệ tọa độ Decartes (hệ tọa độ không gian chiều cặp số tọa độ x, y) VD: Chiềng Sại, Bắc Yên, Sơn La có tọa độ (Kinh độ, Vĩ độ) Decartes là: (104.506667, 21.069722) - Chuẩn hóa liệu dân tộc nguồn gen cách đối chiếu với sở liệu “54 dân tộc Việt Nam” Ủy ban dân tộc Việt Nam - Chuẩn hóa liệu thời gian định dạng ngày tháng năm (dd/mm/yyyy) (VD: 11/09/2014) 2.1.2 Nhận diện, xử lý phần tử ngoại lai (outliers) giảm thiểu nhiễu (noise data) - Xác định phần tử ngoại lai số phương pháp: phân bố thống kê (statistical distributionbased), khoảng cách (distance-based), phương pháp giảm thiểu nhiễu phân cụm (clustering) để hiệu chỉnh liệu 2.1.3 Nhận diện, xử lý liệu bị thiếu (missing data) - Sử dụng phần mềm thống kê số liệu SPSS Statistics để xác định giá trị bị thiếu (missing values) qui đổi giá trị thiếu số chung 2.2 Ứng dụng Hệ thống thông tin địa lý (Geographic information system- GIS) để phân tích, thống kê liệu không gian (dữ liệu đồ) mẫu nguồn gen - Dựa vào liệu tọa độ (kinh độ, vĩ độ) chuẩn hóa theo Hệ tọa độ Decartes sử dụng hệ tọa độ quốc tế WGS 84 GIS bước đầu ứng dụng QGIS (Window, Mac OS X Linux) lớp đồ 63 tỉnh thành Việt Nam để thống kê phân bố nguồn gen Lúa thu thập tồn quốc vùng sinh thái nơng nghiệp 2.3 Ứng dụng phần mềm xử lý số liệu Excel, IBM SPSS Statistic để phân tích, thống kê liệu lai lịch, liệu mô tả đánh giá nguồn gen 2.4 Ứng dụng Infographic (Information graphic) (Adobe Photoshop, Adobe Illustrator) để đồ họa trực quan thông tin, liệu nguồn gen Lúa III KẾT QUẢ VÀ THẢO LUẬN 3.1 Ứng dụng Làm liệu (Data Cleaning) để rà soát lại liệu Làm liệu (Data cleaning) công việc quan trọng trình tiền xử lý liệu để đảm bảo tính xác (accuracy), tính hành (currency), tính tồn vẹn (completeness), tính qn (consistency) Một thuật ngữ chuyên ngành liệu đưa “garbage in, garbage out” (dữ liệu đầu vào rác liệu đầu rác) Nếu cung cấp tập liệu chứa thơng tin rác, kết cuối nhận rác Do đó, nhận lượng lớn liệu, việc mà cần nghĩ đến tiền xử lý tập liệu đó, để hạn chế rác (garbage) sử dụng chúng để khai phá sau Kết làm số phương pháp: 3.1.1 Kiểm tra, chuẩn hóa giá trị liệu Kết kiểm tra, chuẩn hóa liệu trình bày Bảng 1: Bảng 1: Thống kế số lượng liệu kiểm tra, chuẩn hóa giá trị Loại liệu Dữ liệu Dữ liệu địa giới Dữ liệu Dữ liệu Dữ liệu tả hành tọa độ dân tộc thời gian Số liệu cần 1704 (Tỉnh/Huyện/Xã) 1704 48 1704 kiểm tra 22 39/136/407 168 32 Số liệu hiệu chỉnh 39/135/407 - Trong trình kiểm tra, chuẩn hóa chúng tơi nhận thấy Dữ liệu địa giới hành xác tuyệt đối (chỉ có huyện Gia Nghĩa bị nhập liệu sai nên thành huyện); Dữ liệu tả bị sai chủ yếu tiêu Tên nguồn gen bị lỗi kí tự dấu cách; Dữ liệu tọa độ có 168 tọa độ chuyển đổi từ hệ tọa độ GPS hệ tọa độ Decartes, liệu dân tộc chủ yếu bị lỗi cán thu thập viết tên sai; Dữ liệu thời gian có tỷ lệ xác cao 100% khơng có lỗi 3.1.2 Nhận diện, xử lý phần tử ngoại lai (outliers) giảm thiểu nhiễu (noise data) - Các phần tử ngoại lai (Outliers) có ảnh hưởng lớn đến độ xác mơ hình dự đốn Phát xử lý điểm ngoại lai bước quan trọng q trình chuẩn bị liệu cho mơ hình dự đoán Những phần tử ngoại lai (đối tượng) khơng tn theo đặc tính/ hành vi chung tập liệu (đối tượng) Các giá trị tương tự hiển thị theo cụm, giá trị nằm ngồi, bất thường phần từ ngoại lai (outiers) gây liệu nhiễu (noisy data) Các phần tử ngoại lai thường xuất tiêu đánh giá định lượng Chiều dài hạt, Chiều rộng hạt, Chiều cao cây, Số dảnh, Thời gian sinh trưởng… - Q trình phân tích liệu mô tả đánh giá phương pháp giảm thiểu nhiễu phân cụm (clustering) chúng tơi tìm tiêu có liệu mà xuất số phần tử ngoại lai tiêu Chiều rộng hạt =0,5 cm - 0,57 cm tiêu Độ dài thân < 30 cm - mẫu nguồn gen (GBVN017399 (Aroo ba trăng) GBVN017382 (Đha nang), GBVN017386 (Aroo đếêp Đha nang), GBVN017403 (Aroo đếêp prong), GBVN017404 (Aroo đếêp Arứt), GBVN017405 (Aroo đếêp Ađíp) ) có liệu Chiều rộng hạt >=0,5 cm đối chứng lại với seed file nguồn gen mô tả đánh giá lại ; 02 mẫu nguồn gen có liệu Độ dài thân < 30 cm là: GBVN017283 (Khẩu già zui); TEMP019134 (Tài lồ) u cầu mơ tả, đánh giá lại Hình 1: Các phần tử ngoại lai tiêu mô tả Chiều rộng hạt, Chiều dài thân 3.2.3 Nhận diện, xử lý liệu bị thiếu (missing data) - Dữ liệu bị thiếu (missing data) liệu không sẵn có cần sử dụng xuất khách quan (không tồn lúc nhập liệu, cố) chủ quan (tác nhân người) Chúng tiến hành xác định liệu bị thiếu (missing data) nhóm liệu mơ tả, đánh giá nguồn gen xử lý cách đưa số “null” cho giá trị Bảng 2: Thống kế số lương trường liệu bị thiếu liệu MTĐG Chỉ tiêu Màu Màu Dạng Màu Màu Số dảnh Màu Màu Dạng Giá trị thiếu phiến thìa thìa cổ tai hữu nhị ống lìa lìa hiệu rạ Chỉ tiêu 18 18 18 18 27 22 18 21 Giá trị thiếu 21 Trục Râu Màu Màu Màu Màu Độ mỏ vỏ Độ phủ mày hạt thoát hạt trấu lông vỏ hạt gạo cổ 20 trấu 13 19 - Việc xác định số lượng liệu bị thiếu (missing data) giúp cho liệt kê danh sách nguồn gen bị khuyết liệu có kế hoạch hồn thiện liệu đợt nhân giống, mô tả đánh giá nguồn gen 3.2 Ứng dụng Hệ thống thông tin địa lý (Geographic Information System- GIS) để phân tích, thống kê liệu không gian (dữ liệu đồ) mẫu nguồn gen - GIS từ lâu công cụ hỗ trợ đắc lực để phân tích, hiển thị thơng tin liên quan tới vị trí địa lý đối tượng Đối với liệu bảo tồn tài nguyên thực vật nông nghiệp, có sở liệu tốt vị trí địa lý, liệu khí hậu, liệu thổ nhưỡng… GIS giúp ích nhiều cơng tác mơ phỏng, dự đốn - Bước đầu ứng dụng phần mềm QGIS: liệu thống kê cho thấy sư phân bố đa dạng 1.704 nguồn gen Lúa địa phương trải dài từ Bắc – Nam, số vùng có hệ số đa dạng cao dựa số lượng nguồn gen (Tây Bắc, Tây Nguyên, Đơng Bắc), vùng có hệ số đa dạng thấp (ĐB Sông Hồng, Bắc Trung Bộ) Dữ liệu dạng đồ cho nhìn khái quát kết thu thập nguồn gen Lúa Dự án phát triển ngân hàng gen trồng quốc gia giúp lập kế hoạch chương trình thu thập nguồn gen vùng chưa thu thập Hình 2: Thống kê phân bố nguồn gen Lúa thu thập sử dụng công cụ GIS 3.3 Ứng dụng phần mềm xử lý số liệu để phân tích, thống kê liệu, Lai lịch, liệu Mô tả đánh giá nguồn gen - Sử dụng phần mềm xử lý thống kê liệu Excel, SPSS phân tích thống kê liệu Lai lịch 1.704 nguồn gen liệu Mô tả, đánh giá 940 nguồn gen theo nhiều hướng Các kết cơng tác phân tích, thống kê trình bày theo Hình, Bảng đây: ĐB Sơng Hồng Bắc Trung Bộ 25 Đông Nam Bộ 62 Tây Nam Bộ 98 Nam Trung Bộ 263 Tây Bắc 271 Tây Nguyên 281 Đông Bắc 703 200 400 600 800 Hình 3: Thống kê số lượng nguồn gen Lúa thu thập theo vùng sinh thái Bảng 3: Thống kê số lượng Tỉnh/Huyện/Xã thu thập nguồn gen Lúa Đông Tây Tây Nam Tây Đông Bắc ĐB Tổng Bắc Nguyên Bắc Trung Nam Nam Trung Sông Bộ Bộ Hồng 38 Tỉnh 11 Bộ Bộ 133 410 Huyện 43 26 12 25 13 12 Xã 187 59 51 49 34 18 11 Bảng 4: Thống kê số lượng nguồn gen thu thập theo Dân tộc STT Nhóm dân Số lượng Tỷ STT Nhóm Số lượng Tỷ tộc nguồn gen lệ% dân tộc nguồn gen lệ % Kinh 239 14.04 17 Ê Đê 13 0.76 Dao 222 13.04 18 Kháng 13 0.76 H'Mông 197 11.57 19 Khơ Mú 10 0.59 Tày 194 11.40 20 Lô Lô 0.41 Nùng 118 6.93 21 Phù Lá 0.41 Xơ Đăng 102 5.99 22 Giáy 0.35 Thái 89 5.23 23 Cơ Ho 0.29 Cơ tu 80 4.70 24 La Chí 0.29 Gia rai 73 4.29 25 Hà Nhì 0.29 10 Ba Na 67 3.94 26 Lào 0.24 11 M’nông 59 3.47 27 Pà Thẻn 0.24 12 Mường 51 3.00 28 Hoa 0.24 13 Khmer 43 2.53 29 Co 0.12 14 Sán chay 34 2.00 30 Raglai 0.12 15 Giẻ Triêng 28 1.65 31 Chăm 0.06 16 Mạ 17 1.00 32 Sán Dìu 0.06 Bảng 5: Thống kê tiêu mô tả đánh giá ban đầu nguồn gen Lúa Màu Số Tỷ Màu gốc bẹ Số Tỷ lượng lệ % lượng lệ % 1– Xanh nhạt 28,84 1– Xanh 860 93,68 2– Xanh 265 53,97 2– Có sọc tím 3,81 3– Xanh đậm 496 14,69 3– Tím nhạt 35 2,07 4– Tím đỉnh 135 4– Tím 19 0,44 5– Tím mép Tổng 6– Có đốm 14 1,52 918 7– Tím 0,54 Tổng 0,44 919 Màu cổ Số Tỷ Màu tai Số Tỷ lượng lệ % lượng lệ % 1– Xanh nhạt 77,66 1– Xanh nhạt 841 91,21 2– Xanh 716 17,14 2– Tím 8,79 3– Tím 158 5,21 Tổng 81 Tổng 48 922 922 Tỷ Màu sắc ống rạ Màu nhụy Số lệ % Số Tỷ lượng lượng lệ % 1– Trắng 742 80,83 1– Xanh 382 41,43 2– Xanh nhạt 2– Vàng nhạt 489 53,04 3– Vàng 47 3– Sọc tím 39 4,23 4– Tím nhạt 76 5,12 4– Tím 12 1,30 5– Tím 53 8,28 Tổng 922 Tổng 918 5,77 Số Phân nhánh thứ cấp Số Tỷ Dạng lượng Tỷ lượng lệ % 99 lệ % 1– Không 0,76 1– Chụm 528 10,77 2– Nhẹ 91,52 5– Trung gian 292 57,45 3– Nặng 842 7,28 9– Mở 31,77 4– Đẻ cụm 67 0,43 Tổng Độ thoát cổ Số Tỷ Tỷ lượng lệ % Trục 920 lệ % 1– Thốt hồn 75,79 Số 0,76 3– Thốt trung bình 698 17,59 1– Thẳng đứng lượng 99,24 5– Vừa cổ bơng 162 6,30 2– Uốn xuống 7– Thốt 58 0,22 Tổng 9– Khơng 0,11 913 Tổng 920 921 Tỷ Râu Số lệ % Màu râu Số Tỷ lượng 77,01 lượng lệ % 1– Không râu 720 17,11 1– Vàng rơm 19,09 3– Râu ngắn phần 160 0,96 2– Vàng 42 20,91 5– Râu ngắn toàn phần 3,64 3– Nâu 46 12,73 7– Râu dài 34 1,28 4– Đỏ 28 18,18 9– Râu dài tồn phần 12 5– Tím 40 21,82 Tổng 935 Tỷ 6– Đen 48 7,27 lệ % Tổng 16 Màu mỏ hạt Số 2,14 220 Tỷ lượng 40,11 Màu vỏ trấu Số lệ % 1– Trắng lượng 31,09 2– Vàng rơm 20 28,98 1– Vàng rơm 291 24,68 375 2,78 2– Vàng khía 231 3– Nâu 0,43 vàng 4– Đỏ 271 21,93 3– Đốm 61 6,52 5– Đỉnh đỏ 26 4– Khía nâu 197 21,05 6– Tím 3,64 5– Nâu 33 3,53 205 6– Hơi đỏ đến tím 7– Đỉnh tím nhạt 0,85 Tổng 34 7– Đốm tím 935 8– Khía tím 40 4,27 9– Tím 57 6,09 Màu mày hạt Số Tỷ 10– Đen 14 1,50 Tổng 0,43 936 Màu vỏ cám Số Tỷ lượng lệ % lượng lệ % 1– Vàng rơm 563 60,21 1– Trắng 761 82,09 2– Vàng 0,97 3– Đỏ 132 14,12 2– Nâu nhạt 21 2,27 4– Tím 10 1,08 Tổng 111 11,87 3– Ánh nâu 64 6,90 16 1,73 129 13,80 4– Nâu 46 4,96 935 5– Đỏ 927 6– Tím phần 7– Tím Tổng Bảng 6: Thống kế liệu tính tốn số tiêu định lượng Lúa D thìa lìa Số TL.1000 Dài hạt Rộng hạt TG sinh (mm, n=5) dảnh hạt (mm, n=5) (mm, n=5) trưởng Max 42.40 29.00 (gr, n=3) 12.00 4.54 (ngày) Min 1.00 1.30 57.10 6.04 1.88 162.00 Trung 16.66 6.66 10.00 8.76 3.24 95.00 bình 28.62 127.18 3.4 Ứng dụng Infographics (Information graphic) để đồ họa trực quan thông tin, liệu nguồn gen phục vụ công tác in ấn, xuất ấn phẩm thúc đẩy khai thác sử dụng bền vững nguồn gen - Infographic (thiết kế đồ họa thông tin) kiểu thiết kế đồ họa chủ yếu dựa vào hình ảnh trực quan để mơ cho liệu thông tin, với thiết kế kiểu người dùng dễ dàng thu thập liệu cách nhanh nhờ biểu tượng, icon Thời gian gần Infographic trở nên phổ biến cho ý tưởng cho thơng tin phức tạp trình bày nhiều bảng biểu, nhiều trang giấy - Thay tập hợp tin tức dạng text chúng tơi sử dụng infographic để thống kê cách rõ ràng chi tiết nhất, giúp cho cán nghiên cứu hấp thụ trao đổi nguồn thông tin dễ dàng Với lợi ích infographic, chúng tơi ứng dụng để xuất tài liệu “Thống kê nguồn gen Lúa theo vùng sinh thái nông nghiệp, dân tộc đặc điểm hình thái thu thập Dự án phát triển ngân hàng gen trồng quốc gia giai đoạn 2011-2020” Hình 4: Infographic đồ họa trực quan liệu thơng tin phân tích, thống kê IV KẾT LUẬN VÀ ĐỀ NGHỊ 4.1 Kết luận - Đã ứng dụng hiệu CNTT để làm sạch, xử lý phân tích, thống kê sở liệu lai lịch 1.704 mẫu nguồn gen mô tả đánh giá ban đầu 940 mẫu nguồn gen lúa từ dự án; - Ứng dụng thành công Hệ thống thông tin địa lý (GIS) để phân tích thống kê liệu khơng gian nguồn gen thu thập từ dự án; - Ứng dụng thành công Đồ họa trực quan hình ảnh (Infographic) để trình bày thơng tin liệu nguồn gen lúa từ dự án phục phục vụ in ấn, xuất Đã xuất 01 ấn phẩm thống kê nguồn gen Lúa phục vụ khai thác sử dụng nguồn gen; - Dữ liệu phân tích, thống kê theo nhiều hướng giúp ích cho nhà nghiên cứu có nhìn đa chiều cơng tác bảo tồn tài nguyên thực vật nông nghiệp 4.2 Đề nghị - Cần tiếp tục ứng dụng CNTT để phân tích, thống kê liệu Loại khác, nhóm khác tồn hệ thống Bảo tồn nguồn gen thực vật nông nghiệp - Tiếp tục ứng dụng khái niệm CNTT cơng tác tư liệu hóa thơng tin nguồn gen TÀI LIỆU THAM KHẢO Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 TS Nguyễn Minh Tuấn, Hà Trọng Quang, Giáo trình Xử lý liệu nghiên cứu với SPSS FOR WINDOW, Trường ĐH Công nghiệp TP.HCM https://ongxuanhong.wordpress.com/2016/01/31/lay- va- lam-sach-du- lieu-xu- ly- du-lieu-ngoai- lai-outliers/ Khai thác liệu & ứng dung (Data Mining) (http://tailieu.vn/doc/data-mining- and-application-qui-trinh-chuan-bi-du-lieu-723931.html) Tài liệu xử lý thống kê Excel (http://tailieu.vn/doc/xu- ly-thong-ke-bang- excel-365594.html) Tài liệu QGIS (http://www.qgistutorials.com/vi/) Cơ sở liệu 54 dân tộc Việt Nam (http://www.cema.gov.vn/gioi-thieu/co ng- dong-54-dan-toc.htm https://en.wikipedia.org/wiki/Infographic Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 10

Ngày đăng: 28/02/2024, 01:10

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan