1 NGHIÊN C Ứ U Ứ NG D Ụ NG CÔNG NGH Ệ THÔNG TIN Đ Ể PHÂN TÍCH , TH Ố NG KÊ CƠ S Ở D Ữ LI Ệ U NGU Ồ N GEN LÚA THU Ộ C D Ự ÁN PHÁT TRI Ể N NGÂN HÀNG GEN CÂY TR Ồ NG QU Ố C GIA, 2011 - 2015 Vũ Đình Tú 1 , Nguy ễ n Th ị Hi ề n 1 , Nguy ễ n Chí Tín 1 , Nguy ễ n Ti ế n Hưng 1 TÓM T Ắ T Tin h ọ c hóa n ề n nông nghi ệ p đư ợ c coi là cu ộ c cách m ạ ng xanh ở th ế k ỷ 21 Trong nông nghi ệ p nói chung và công tác b ả o t ồ n tài nguyên th ự c v ậ t ph ụ c v ụ nông nghi ệ p nói riêng thì Công ngh ệ thông tin (CNTT) không ch ỉ là phương ti ệ n h ỗ tr ợ mà có th ể tr ở thành l ự c lư ợ ng lao đ ộ ng quan tr ọ ng Vì v ậ y, vi ệ c ứ ng d ụ ng công ngh ệ thông tin đ ể phân tích, th ố ng kê cơ s ở d ữ li ệ u là m ộ t trong nh ữ ng công vi ệ c r ấ t quan tr ọ ng c ủ a công tác b ả o t ồ n TNTV c ủ a Trung tâm Tài nguyên th ự c v ậ t Đ ể khai thác cơ s ở d ữ li ệ u D ự án phát tri ể n Ngân hàng gen cây tr ồ ng qu ố c giai giai đo ạ n 2011 - 20150, B ộ môn D ữ li ệ u và Thông tin TNTV đã ứ ng d ụ ng hi ệ u qu ả m ộ t s ố ph ầ n m ề m như Excel, SPSS, Q GIS, Infographic… đ ể làm s ạ ch d ữ li ệ u, phân tích, th ố ng kê, trình bày sơ s ở d ữ li ệ u ngu ồ n gen thu th ậ p đư ợ c (Bao g ồ m cơ s ở d ữ li ệ u v ề thông tin lai l ị ch và mô t ả đánh giá ngu ồ n gen) Báo cáo này ch ủ y ế u gi ớ i thi ệ u m ộ t s ố khái ni ệ m và k ế t qu ả ứ ng d ụ ng CNTT vào b ả o t ồ n tài nguyên th ự c v ậ t ph ụ c v ụ nông nghi ệ p c ủ a B ộ môn trong th ờ i gian qua nh ằ m giúp cho các nhà qu ả n lý, các cán b ộ nghiên c ứ u trong Trung tâm hi ể u rõ hơn các ho ạ t đ ộ ng c ứ u và ph ụ c v ụ nghiên c ứ u c ủ a B ộ môn hi ệ n nay T ừ khóa: Công ngh ệ thông tin; Phân tích, th ố ng kê d ữ li ệ u ; Lúa ( Oryza sativa L ) I Đ Ặ T V Ấ N Đ Ề D ự án phát tri ể n Ngân hàng gen cây tr ồ ng Qu ố c gia giai đo ạ n 201 1 - 2015 do Trung tâm Tài nguyên th ự c v ậ t thưc hi ệ n đã thu th ậ p đư ợ c 12 758 m ẫ u gi ố ng c ủ a 119 lo ạ i cây tr ồ ng trên toàn qu ố c Trong đó, Lúa ( Oryza sativa L ) là lo ạ i cây tr ồ ng thu th ậ p đư ợ c nhi ề u và đa d ạ ng v ớ i s ố lư ợ ng 1 704 m ẫ u ngu ồ n gen Ho ạ t đ ộ ng b ả o t ồ n và s ử d ụ ng b ề n v ữ ng qu ỹ gen cây tr ồ ng đòi h ỏ i quá trình thu thâp, lưu tr ữ thông tin và sinh ra m ộ t lư ợ ng d ữ li ệ u kh ổ ng l ồ Chính vì v ậ y, vi ệ c xây d ự ng h ệ th ố ng cơ s ở d ữ li ệ u có kh ả năng cung c ấ p d ữ li ệ u có đ ộ tin cây cao cho nhi ề u đ ố i tư ợ ng s ử d ụ ng là m ộ t công vi ệ c không th ể thi ế u c ủ a ho ạ t đ ộ ng b ả o t ồ n Hi ệ n t ạ i, cơ s ở d ữ li ệ u c ủ a Trung tâm Tài nguyên th ự c v ậ t bao g ồ m d ữ li ệ u Lai l ị ch , Mô t ả đánh giá ban đ ầ u, Mô t ả đánh giá chi ti ế t, Hình ả nh… đư ợ c cung c ấ p t ừ các ho ạ t đ ộ ng b ả o t ồ n Đ ế n nay đã có hàng tri ệ u trư ờ n g d ữ li ệ u cho các Lo ạ i cây tr ồ ng khác nhau Kh ố i lư ợ ng d ữ li ệ u ngày càng nhi ề u d ẫ n đ ế n vi ệ c lưu tr ữ và phân tích, th ố ng kê d ữ li ệ u s ẽ g ặ p ph ả i nh ữ ng khi ế m khuy ế t 1 B ộ Môn D ữ li ệ u và Thông tin TNTV 2 nh ấ t đ ị nh Trư ớ c kia, vi ệ c nh ậ p d ữ li ệ u, th ố ng kê d ữ li ệ u thư ờ ng đư ợ c ti ế n hành th ủ công và đư ợ c đ ố i soát theo b ả n m ẫ u gây m ấ t r ấ t nhi ề u th ờ i gian , ti ề n c ủ a và công s ứ c T ừ khi áp d ụ ng công ngh ệ thông tin trong khâu x ử lý và t ổ ng h ợ p s ố li ệ u th ố ng kê, th ờ i gian x ử lý và t ổ ng h ợ p cho m ộ t cu ộ c đi ề u tra đư ợ c rút ng ắ n đáng k ể Hơn th ế n ữ a, s ử d ụ ng các chương trình máy tính trong khâu x ử lý và t ổ ng h ợ p s ố li ệ u còn cho phép nâng cao đư ợ c ch ấ t lư ợ ng s ố li ệ u th ố ng kê th ố ng qua các chương trình ki ể m tra logic và s ử a l ỗ i Bài báo cáo đưa ra các khái ni ệ m, công c ụ h ỗ tr ợ , ph ầ n m ề m chuyên ngành đ ể có th ể giúp í ch trong công tác ti ề n x ử lý d ữ li ệ u , phân tích, th ố ng kê cơ s ở d ữ li ệ u ngu ồ n gen Lúa thu th ậ p và mô t ả , đánh giá trong d ự án phát tri ể n ngân hà ng gen cây tr ồ ng qu ố c gia (2011 - 2015) II V Ậ T LI Ệ U VÀ PHƯƠNG PHÁP NGHIÊN C Ứ U - D ự a vào cơ s ở d ữ li ệ u thông tin ngu ồ n gen lúa đang đư ợ c qu ả n lý t ạ i B ộ môn D ữ li ệ u và Thông tin tài nguyên th ự c v ậ t bao g ồ m d ữ li ệ u thu th ậ p ngu ồ n gen (nhóm d ữ li ệ u Đăng kí, Lai l ị ch) , d ữ li ệ u mô t ả đánh giá ban đ ầ u ngu ồ n gen ( nhóm d ữ li ệ u Mô t ả , đánh giá ngu ồ n gen) , chúng tôi ch ọ n ra b ộ cơ s ở d ữ li ệ u c ủ a 1 704 ngu ồ n gen lúa đư ợ c thu th ậ p b ở i D ự án Phát tri ể n ngân hà ng gen cây tr ồ ng qu ố c gia và b ộ cơ s ở d ữ li ệ u c ủ a 940 /1 704 m ẫ u gi ố ng đã đư ợ c ti ế n hành mô t ả , đánh giá đ ặ c đi ể m nông sinh h ọ c ban đ ầ u - T ừ b ộ cơ s ở d ữ li ệ u ngu ồ n gen lúa , chúng tôi ti ế n hành ti ề n x ử lý d ữ li ệ u b ằ ng phương pháp làm s ạ ch d ữ li ệ u (data cleaning) T ừ ngu ồ n d ữ li ệ u đã đư ợ c x ử lý đó chúng tôi ti ế n hành phân t ích, th ố ng kê ngu ồ n gen lúa t heo vùng sinh thái, theo ngu ồ n g ố c dân t ộ c s ở h ữ u, theo d ữ li ệ u mô t ả đánh gi á m ộ t s ố các ch ỉ tiêu cơ b ả n đ ể t ổ ng h ợ p các b ả ng s ố li ệ u, thông tin 2 1 Ứ ng d ụ ng Làm s ạ ch d ữ li ệ u ( Data Cleaning ) đ ể rà soát l ạ i d ữ li ệ u, nh ằ m đ ả m b ả o r ằ ng các d ữ li ệ u đ ề u đ ồ ng nh ấ t và chính xác ở m ứ c đ ộ cao nh ấ t 2 1 1 Kiểm tra, chuẩn hóa giá trị dữ liệu : - Quy trình kiểm tra, chuẩn hóa giá trị dữ liệu được tiến hành trên Nhóm dữ liệu Đăng ký, dữ liệu Lai lịch , dữ liệu Mô tả, đánh giá Quy t rình này thực hiện trên các dữ liệu Dữ liệu chính tả (Số đăng kí, Tên mẫu nguồn gen) ; Dữ liệu địa lý (Tỉnh, h uyện, xã ); Dữ liệu tọa độ ( Kinh độ, Vĩ độ); Dữ liệu dân tộc ; Dữ liệu thời gian ( Ngày/tháng /năm) - Tất cả các công đoạn được tiến hành trên tệp (file) Excel Để đảm bảo an toàn dữ liệu trong khi thao tác chúng tôi tạo bản sao lưu dữ liệu ban đầu trong một file làm việc khác - Các bước chung cho thao tác một trường dữ liệu là: ➢ Chèn một cột mới (B) bên cạnh cột gốc (A) cần làm sạch 3 ➢ Thêm công thức sẽ biến đổi dữ liệu ở trên cùng của cột mới (B) ➢ Điền công thức trong cột mới (B) Trong bảng Excel, một cột đư ợc tính toán tự động được tạo bằng giá trị điền xuống dưới ➢ Chọn cột mới (B), sao chép nó, sau đó dán dưới dạng giá trị vào cột mới (B) ➢ Loại bỏ cột gốc (A), chuyển đổi cột mới từ B đến A - Loại bỏ khoảng trắng và các ký tự thay thế , chỉnh sửa chính tả : sử dụ ng một số hàm trong tệp Excel như Find & R eplace, TRIM VL ookup … - Chuẩn hóa dữ liệu về địa giới hành chính (tỉnh/huyện/xã) của các nguồn gen bằng cách đối chiếu với cơ sở dữ liệu chuẩn về địa giới hành chính - Chuyển đổi d ữ liệu tọa độ (Kinh độ, Vĩ đô) đồng nhất về hệ tọa độ Decartes (hệ tọa độ không gian 2 chiều bằng cặp số tọa độ x, y) VD: Chiềng Sại, Bắc Yên, Sơn La có tọa độ ( Kinh độ, Vĩ độ) Decartes là: ( 104 506667 , 21 069722 ) - Chuẩn hóa dữ liệu về dân tộc của các ngu ồn gen bằng cách đối chiếu với cơ sở dữ liệu “54 dân tộc Việt Nam” của Ủy ban dân tộc Việt Nam - Chuẩn hóa dữ liệu thời gian về định dạng ngày tháng năm (dd/mm/yyyy) (VD: 11/09/2014) 2 1 2 Nh ậ n di ệ n , x ử lý ph ầ n t ử ngo ạ i lai (outliers) và gi ả m thi ể u nhi ễ u (noise data) - X ác đ ị nh ph ầ n t ử ngo ạ i lai b ằ ng m ộ t s ố phương pháp : phân b ố th ố ng kê (statistical distribution based), kho ả ng cách (distance - based), phương pháp gi ả m thi ể u nhi ễ u phân c ụ m (clustering) đ ể hi ệ u ch ỉ nh d ữ li ệ u 2 1 3 Nh ậ n di ệ n, x ử lý d ữ li ệ u b ị thi ế u (missing data) - S ử d ụ ng ph ầ n m ề m th ố ng kê s ố li ệ u SPSS Statistics đ ể xác đ ị nh đư ợ c các giá tr ị b ị thi ế u (missing values ) và qui đ ổ i giá tr ị thi ế u v ề h ằ ng s ố chung 2 2 Ứ ng d ụ ng H ệ th ố ng thông tin đ ị a lý (Geo graphic information system - GIS ) đ ể phân tích, th ố ng kê d ữ li ệ u không gian (d ữ li ệ u b ả n đ ồ ) c ủ a các m ẫ u ngu ồ n gen - D ự a vào d ữ li ệ u v ề t ọ a đ ộ (kinh đ ộ , vĩ đ ộ ) đư ợ c chu ẩ n hóa theo H ệ t ọ a đ ộ Decartes và s ử d ụ ng h ệ t ọ a đ ộ qu ố c t ế WGS 84 trên GIS chúng tôi bư ớ c đ ầ u ứ ng d ụ ng QGIS (Window, Ma c OS X Linux) trên l ớ p b ả n đ ồ n ề n 63 t ỉ nh thành Vi ệ t Nam đ ể th ố ng kê phân b ố ngu ồ n gen Lúa đư ợ c thu th ậ p trên toàn qu ố c và 8 vùng sinh thái nông nghi ệ p 2 3 Ứ ng d ụ ng ph ầ n m ề m x ử lý s ố li ệ u Excel , IBM SPSS Statistic đ ể phân tích, th ố ng kê d ữ li ệ u lai l ị ch, d ữ li ệ u mô t ả đánh giá ngu ồ n gen 4 2 4 Ứng dụng Infographic (Information graphic) (Adobe Photoshop, Adobe Illustrator) để đồ họa trực quan thông tin, dữ liệu nguồn gen Lúa III K Ế T QU Ả VÀ TH Ả O LU Ậ N 3 1 Ứ ng d ụ ng Làm s ạ ch d ữ li ệ u ( Data Cleaning ) đ ể rà soát l ạ i d ữ li ệ u Làm sạch dữ li ệu ( Data cleaning) là công việc hết sức quan trọng trong quá trình tiền xử lý dữ liệu để đảm bảo tính chính xác (accuracy) , tính hiện hành (currency) , tính toàn vẹn (completeness ) , tính nh ấ t quán (consistency) M ộ t thu ậ t ng ữ v ề ch uyên ngành d ữ li ệ u đư ợ c đưa ra đó là “garbage in, garbage out” (d ữ li ệ u đ ầ u vào là rác thì d ữ li ệ u đ ầ u ra s ẽ là rác) N ế u chúng ta cung c ấ p m ộ t t ậ p d ữ li ệ u ch ứ a thông tin rác, thì k ế t qu ả cu ố i cùng chúng ta nh ậ n đư ợ c cũng s ẽ là rác Do đó, khi nh ậ n đư ợ c m ộ t lư ợ ng l ớ n d ữ li ệ u, vi ệ c đ ầ u tiên mà chúng ta c ầ n nghĩ đ ế n là ti ề n x ử lý t ậ p d ữ li ệ u đó, đ ể có th ể h ạ n ch ế rác (garbage) và s ử d ụ ng chúng đ ể khai phá sau này K ế t qu ả làm s ạ ch b ằ ng m ộ t s ố phương pháp: 3 1 1 Ki ể m tra , chu ẩ n hóa giá tr ị d ữ li ệ u K ế t qu ả ki ể m tra, chu ẩ n hóa d ữ li ệ u đư ợ c trình bày t ạ i B ả ng 1 : Bảng 1 : Thống kế số lượng dữ liệu được kiểm tra, chuẩn hóa giá trị Loại dữ liệu Dữ liệu chính tả Dữ liệu địa giới hành chính (Tỉnh/Huyện/Xã) Dữ liệu tọa độ Dữ liệu dân tộc Dữ liệu thời gian Số dữ liệu cần kiểm tra 1704 39/136/407 1704 48 1704 Số dữ liệu được hiệu chỉnh 22 39/135/407 168 32 0 - Trong quá trình kiểm tra, chuẩn hóa chúng tôi nhận thấy Dữ liệu địa giới hành chính hầu như chính xác tuyệt đối ( chỉ có 1 huyện Gia Nghĩa bị nhập liệu sai nên thành 2 huyện) ; Dữ liệu chính tả bị sai chủ yếu bởi chỉ tiêu Tên nguồn gen bị lỗi kí tự dấu cách; Dữ liệu tọa độ thì có 168 tọa độ được chuyển đổi từ hệ tọa độ GPS về hệ tọa độ Decartes, dữ liệu dân tộc chủ yếu bị lỗi khi cán bộ thu thập viết tên sai ; Dữ liệu thời gian có tỷ lệ chính xác cao 100% khi không có lỗi nào 3 1 2 Nh ậ n di ệ n , x ử lý ph ầ n t ử ngo ạ i lai (outliers) và gi ả m thi ể u nhi ễ u (noise data) - Các phần tử ngoại lai (Outliers) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán Những phần tử ngoại lai (đối tượng) này không tuân theo đặc tính/ hành vi chung của tập dữ liệu (đối tượng) Các giá trị tương tự nhau sẽ được hiể n thị theo một cụm, các giá trị nằm ngoài, bất thường chính là các phần từ ngoại lai (outiers) gây ra dữ liệu nhiễu (noisy data) Các phần tử ngoại lai này thường 5 xuất hiện tron g các chỉ tiêu đánh giá định lượng như Chiều dài hạt, Chiều rộng hạt , Chiều cao cây , Số dảnh, Thời gian sinh trưởng… - Quá trình phân tích dữ liệu mô tả đánh giá bằng phương pháp giảm thiểu nhiễu phân cụm (clustering) chúng tôi đã tìm ra được 2 chỉ tiêu có dữ liệu mà trong đó xuất hiện một số phần tử ngoại lai đó là chỉ tiêu Chiều r ộng hạt =0,5 cm - 0,57 cm và chỉ tiêu Độ dài thân < 3 0 cm - 6 mẫu n guồn gen (GBVN017399 ( Aroo ba trăng) GBVN01 7382 (Đha nang), GBVN017386 (Aroo đếêp Đha nang), GBVN017403 (Aroo đếêp prong), GBVN017404 (Aroo đếêp Arứt), GBVN017405 (Aroo đếêp Ađíp) ) có dữ liệu Chiều rộng hạt >=0,5 cm được đối chứng lại với seed file nguồn gen đ ã được mô tả đánh giá lại ; 02 mẫu nguồn gen có dữ liệu Độ dài thân < 3 0 cm đó là: GBVN017283 (Khẩu già zui); TEMP019134 (Tài lồ) được yêu cầu mô tả, đánh giá lại Hình 1 : Các p hần tử ngoại lai trong chỉ tiêu mô tả Chiều rộng hạt , Chiều dài thân 3 2 3 Nh ậ n di ệ n, x ử lý d ữ li ệ u b ị thi ế u (m issing data) - D ữ li ệ u b ị thi ế u (missing data) là d ữ li ệ u không s ẵ n có khi c ầ n s ử d ụ ng xu ấ t hi ệ n do khách quan (không t ồ n t ạ i lúc nh ậ p li ệ u, s ự c ố ) ho ặ c ch ủ quan (tác nhân con ngư ờ i) Chúng tôi đã ti ế n hành xác đ ị nh d ữ li ệ u b ị thi ế u (missing data) trên nhóm d ữ li ệ u mô t ả , đánh giá ngu ồ n gen và x ử lý b ằ ng cách đưa v ề h ằ ng s ố “null” cho các giá tr ị nà y B ả ng 2 : Th ố ng k ế s ố lương các trư ờ ng d ữ li ệ u b ị thi ế u trong d ữ li ệ u MTĐG Ch ỉ tiêu Màu phiến lá Màu thìa lìa Dạng thìa lìa Màu cổ lá Màu tai lá Số dảnh hữu hiệu Màu nhị cái Màu ống rạ Dạng bông Giá tr ị thi ế u 21 18 18 18 18 27 22 18 21 Ch ỉ tiêu Độ thoát cổ bông Trục bông Râu Màu mỏ hạt Màu vỏ trấu Độ phủ lông vỏ trấu Màu mày hạt Màu h ạ t g ạ o Giá tr ị thi ế u 19 20 5 5 4 4 5 13 - Vi ệ c xác đ ị nh đư ợ c s ố lư ợ ng các d ữ li ệ u b ị thi ế u (missing data) giúp cho chúng tôi li ệ t kê danh sách nh ữ ng ngu ồ n gen b ị khuy ế t d ữ li ệ u và có k ế ho ạ ch hoàn thi ệ n d ữ li ệ u trong các đ ợ t nhân gi ố ng, mô t ả đánh giá ngu ồ n gen ti ế p theo 6 3 2 Ứ ng d ụ ng H ệ th ố ng thông tin đ ị a lý (Geographic Information System - GIS) đ ể phân tích, th ố ng kê d ữ li ệ u không gian (d ữ li ệ u b ả n đ ồ ) c ủ a các m ẫ u ngu ồ n gen - GIS t ừ lâu đã là công c ụ h ỗ tr ợ đ ắ c l ự c đ ể phân tích, hi ể n th ị các thông tin liên quan t ớ i v ị trí đ ị a lý c ủ a các đ ố i tư ợ ng Đ ố i v ớ i d ữ li ệ u c ủ a b ả o t ồ n tài nguyên th ự c v ậ t nông nghi ệ p, n ế u chúng ta có m ộ t cơ s ở d ữ li ệ u n ề n t ố t v ề v ị trí đ ị a lý, d ữ li ệ u khí h ậ u, d ữ li ệ u th ổ như ỡ ng… thì GIS s ẽ giúp ích r ấ t nhi ề u trong công tác mô ph ỏ ng, d ự đoán - Bư ớ c đ ầ u ứ ng d ụ ng ph ầ n m ề m Q GIS : d ữ li ệ u th ố ng kê đã cho th ấ y đư ợ c sư phân b ố đa d ạ ng c ủ a 1 704 ngu ồ n gen Lúa đ ị a phương tr ả i dài t ừ B ắ c – Nam, m ộ t s ố vùng có h ệ s ố đa d ạ ng cao d ự a trên s ố lư ợ ng ngu ồ n gen như (Tây B ắ c, Tây Nguyên, Đông B ắ c), vùng có h ệ s ố đa d ạ ng th ấ p (ĐB Sông H ồ ng, B ắ c Trung B ộ ) D ữ li ệ u d ạ ng b ả n đ ồ cũng cho cái nhìn khái quát v ề k ế t qu ả thu th ậ p ngu ồ n gen Lúa trong D ự án phát tri ể n ngân hàng gen cây tr ồ ng qu ố c gia cũng như giúp l ậ p k ế ho ạ ch trong các chương trình thu th ậ p ngu ồ n gen t ạ i các vùng chưa đư ợ c thu th ậ p Hình 2: Th ố ng kê phân b ố ngu ồ n gen Lúa thu th ậ p s ử d ụ ng công c ụ GIS 3 3 Ứ ng d ụ ng ph ầ n m ề m x ử lý s ố li ệ u đ ể phân tích, th ố ng kê d ữ li ệ u , Lai l ị ch, d ữ li ệ u M ô t ả đánh giá ngu ồ n gen - S ử d ụ ng các ph ầ n m ề m x ử lý th ố ng kê d ữ li ệ u Excel , SPSS chúng tôi đã phân tích th ố ng kê d ữ li ệ u Lai l ị ch c ủ a 1 704 ngu ồ n gen và d ữ li ệ u Mô t ả , đánh giá c ủ a 940 ngu ồ n gen theo nhi ề u hư ớ ng Các k ế t qu ả c ủ a công tác phân tích, th ố ng kê đư ợ c tr ình bày theo các Hình, B ả ng dư ớ i đây: Hình 3 : Th ố ng kê s ố lư ợ ng ngu ồ n gen Lúa thu th ậ p theo vùng sinh thái 703 281 271 263 98 62 25 1 0 200 400 600 800 Đông Bắc Tây Nguyên Tây Bắc Nam Trung Bộ Tây Nam Bộ Đông Nam Bộ Bắc Trung Bộ ĐB Sông Hồng 7 B ả ng 3 : Th ố ng kê s ố lư ợ ng T ỉ nh/Huy ệ n/Xã đã thu th ậ p ngu ồ n gen Lúa Đông Bắc Tây Nguyên Tây Bắc Nam Trung Bộ Tây Nam Bộ Đông Nam Bộ Bắc Trung Bộ ĐB Sông Hồng Tổng Tỉnh 11 5 4 5 7 3 2 1 38 Huyện 43 26 12 25 13 12 6 1 133 Xã 187 59 51 49 34 18 11 1 410 B ả ng 4 : Th ố ng kê s ố lư ợ ng ngu ồ n gen thu th ậ p theo Dân t ộ c STT Nhóm dân t ộ c S ố lư ợ ng ngu ồ n gen T ỷ l ệ % STT Nhóm dân t ộ c S ố lư ợ ng ngu ồ n gen T ỷ l ệ % 1 Kinh 239 14 04 17 Ê Đ ê 13 0 76 2 Dao 222 13 04 18 Kháng 13 0 76 3 H''''Mông 197 11 57 19 Khơ M ú 10 0 59 4 Tày 194 11 40 20 Lô Lô 7 0 41 5 Nùng 118 6 93 21 Phù L á 7 0 41 6 Xơ Đ ăng 102 5 99 22 Giáy 6 0 35 7 Thái 89 5 23 23 Cơ H o 5 0 29 8 Cơ tu 80 4 70 24 La C hí 5 0 29 9 Gia r ai 73 4 29 25 Hà N hì 5 0 29 10 Ba N a 67 3 94 26 Lào 4 0 24 11 M ’ nông 59 3 47 27 Pà T h ẻ n 4 0 24 12 Mư ờ ng 51 3 00 28 Hoa 4 0 24 13 Kh me r 43 2 53 29 Co 2 0 12 14 Sán c hay 34 2 00 30 Ra glai 2 0 12 15 Gi ẻ T riêng 28 1 65 31 Chăm 1 0 06 16 M ạ 17 1 00 32 Sán D ìu 1 0 06 B ả ng 5 : Th ố ng kê các ch ỉ tiêu mô t ả đánh giá ban đ ầ u ngu ồ n gen Lúa Màu lá S ố lư ợ ng T ỷ l ệ % Màu g ố c b ẹ lá S ố lư ợ ng T ỷ l ệ % 1 – Xanh nh ạ t 265 28,84 1 – Xanh 860 93,68 2 – Xanh 496 53,97 2 – Có s ọ c tím 35 3,81 3 – Xanh đ ậ m 135 14,69 3 – Tím nh ạ t 19 2,07 4 – Tím ở đ ỉ nh 0 0 4 – Tím 4 0,44 5 – Tím ở mép lá 14 1,52 T ổ ng 918 6 – Có đ ố m 5 0,54 7 – Tím 4 0,44 T ổ ng 919 Màu c ổ lá S ố lư ợ ng T ỷ l ệ % Màu tai lá S ố lư ợ ng T ỷ l ệ % 1 – Xanh nh ạ t 716 77,66 1 – Xanh nh ạ t 841 91,21 2 – Xanh 158 17,14 2 – Tím 81 8,79 3 – Tím 48 5,21 T ổ ng 922 T ổ ng 922 Màu nh ụ y S ố lư ợ ng T ỷ l ệ % Màu s ắ c ố ng r ạ S ố lư ợ ng T ỷ l ệ % 8 1 – Tr ắ ng 742 80,83 1 – Xanh 382 41,43 2 – Xanh nh ạ t 0 0 2 – Vàng nh ạ t 489 53,04 3 – Vàng 47 5,12 3 – S ọ c tím 39 4,23 4 – Tím nh ạ t 76 8,28 4 – Tím 12 1,30 5 – Tím 53 5,77 T ổ ng 922 T ổ ng 918 D ạ ng bông S ố lư ợ ng T ỷ l ệ % Phân nhánh th ứ c ấ p trên bông S ố lư ợ ng T ỷ l ệ % 1 – Ch ụ m 99 10,77 1 – Không 7 0,76 5 – Trung gian 528 57,45 2 – Nh ẹ 842 91,52 9 – M ở 292 31,77 3 – N ặ ng 67 7,28 4 – Đ ẻ c ụ m 4 0,43 T ổ ng 920 Đ ộ thoát c ổ bông S ố lư ợ ng T ỷ l ệ % Tr ụ c bông S ố lư ợ ng T ỷ l ệ % 1 – Thoát hoàn 698 75,79 1 – Th ẳ ng đ ứ ng 7 0,76 3 – Thoát trung bình 162 17,59 2 – U ố n xu ố ng 913 99,24 5 – V ừ a đúng c ổ bông 58 6,30 T ổ ng 920 7 – Thoát m ộ t 2 0,22 9 – Không thoát đư ợ c 1 0,11 T ổ ng 921 Râu S ố lư ợ ng T ỷ l ệ % Màu râu S ố lư ợ ng T ỷ l ệ % 1 – Không râu 720 77,01 1 – Vàng rơm 42 19,09 3 – Râu ng ắ n t ừ ng ph ầ n 160 17,11 2 – Vàng 46 20,91 5 – Râu ng ắ n toàn ph ầ n 9 0,96 3 – Nâu 28 12,73 7 – Râu dài t ừ ng 34 3,64 4 – Đ ỏ 40 18,18 9 – Râu dài toàn ph ầ n 12 1,28 5 – Tím 48 21,82 T ổ ng 935 6 – Đen 16 7,27 T ổ ng 220 Màu m ỏ h ạ t S ố lư ợ ng T ỷ l ệ % Màu v ỏ tr ấ u S ố lư ợ ng T ỷ l ệ % 1 – Tr ắ ng 20 2,14 1 – Vàng rơm 291 31,09 2 – Vàng rơm 375 40,11 2 – Vàng ho ặ c khía vàng 231 24,68 3 – Nâu 271 28,98 3 – Đ ố m 61 6,52 4 – Đ ỏ 26 2,78 4 – Khía nâu 197 21,05 5 – Đ ỉ nh đ ỏ 4 0,43 5 – Nâu 33 3,53 6 – Tím 205 21,93 6 – Hơi đ ỏ đ ế n tím nh ạ t 8 0,85 7 – Đ ỉ nh tím 34 3,64 7 – Đ ố m tím 40 4,27 T ổ ng 935 8 – Khía tím 57 6,09 9 – Tím 14 1,50 10 – Đen 4 0,43 T ổ ng 936 Màu mày h ạ t S ố lư ợ ng T ỷ l ệ % Màu v ỏ cám S ố lư ợ ng T ỷ l ệ % 9 1 – Vàng rơm 563 60,21 1 – Tr ắ ng 761 82,09 2 – Vàng 132 14,12 2 – Nâu nh ạ t 9 0,97 3 – Đ ỏ 111 11,87 3 – Ánh nâu 21 2,27 4 – Tím 129 13,80 4 – Nâu 10 1,08 T ổ ng 935 5 – Đ ỏ 64 6,90 6 – Tím m ộ t ph ầ n 16 1,73 7 – Tím 46 4,96 T ổ ng 927 B ả ng 6 : Th ố ng k ế d ữ li ệ u tính toán m ộ t s ố ch ỉ tiêu đ ị nh lư ợ ng c ủ a Lúa D thìa lìa (mm, n=5) S ố d ả nh TL 1000 h ạ t (gr, n=3) Dài h ạ t (mm, n=5) R ộ ng h ạ t (mm, n=5) TG sinh trư ở ng (ngày) Max 42 40 29 00 57 10 12 00 4 5 4 162 00 Min 1 00 1 30 10 00 6 04 1 88 95 00 Trung bình 16 66 6 66 28 62 8 76 3 24 127 18 3 4 Ứ ng d ụ ng Infographics (Information graphic) đ ể đ ồ h ọ a tr ự c quan thông tin, d ữ li ệ u ngu ồ n gen ph ụ c v ụ công tác in ấ n, xu ấ t b ả n ấ n ph ẩ m thúc đ ẩ y khai thác và s ử d ụ ng b ề n v ữ ng ngu ồ n gen - Infographic ( thiết kế đồ họa thông tin ) l à ki ể u thi ế t k ế đ ồ h ọ a ch ủ y ế u d ự a v à o c á c h ì nh ả nh tr ự c quan đ ể mô ph ỏ ng cho nh ữ ng d ữ li ệ u thông tin, v ớ i thi ế t k ế ki ể u n à y ngư ờ i d ù ng d ễ d à ng thu th ậ p d ữ li ệ u m ộ t c á ch nhanh nh ấ t nh ờ c á c bi ể u tư ợ ng, c á c icon Th ờ i gi an g ầ n đây Infographic đ ã tr ở nên ph ổ bi ế n cho nh ữ ng ý tư ở ng cho nh ữ ng thông tin ph ứ c t ạ p đư ợ c tr ì nh b à y trên nhiều bảng biểu, nhiều trang gi ấ y - T hay v ì t ậ p h ợ p tin t ứ c d ạ ng text th ì bây gi ờ chúng tôi sử dụng infographic đ ể c ó th ể th ố ng kê 1 c á ch r õ r à ng v à chi ti ế t nh ấ t, giúp cho các cán bộ nghiên cứu có thể hấp thụ và trao đổi nguồn thông tin dễ dàng hơn V ớ i nh ữ ng l ợ i í ch c ủ a infographic, chúng tôi đã ứng dụng để xuất bản tài liệu “Thống kê nguồn gen Lúa theo vùng s inh thái nông nghiệp, dân tộc và đặc điểm hình thái chính được thu thập bởi Dự án phát triển ngân hàng gen cây trồng quốc gia giai đoạn 2011 - 2020” Hình 4 : Infographic đ ồ h ọ a tr ự c quan d ữ li ệ u thông tin đư ợ c phân tích, th ố ng kê 10 IV K Ế T LU Ậ N VÀ Đ Ề NGH Ị 4 1 K ế t lu ậ n - Đã ứ ng d ụ ng hi ệ u qu ả CNTT đ ể làm s ạ ch, x ử lý phân tích, th ố ng kê cơ s ở d ữ li ệ u lai l ị ch c ủ a 1 704 m ẫ u ngu ồ n gen và mô t ả đánh giá ban đ ầ u c ủ a 940 m ẫ u ngu ồ n gen lúa t ừ d ự án; - Ứ ng d ụ ng thành công H ệ th ố ng thôn g tin đ ị a lý (GIS) đ ể phân tíc h th ố ng kê d ữ li ệ u không gian các ngu ồ n gen thu th ậ p đư ợ c t ừ d ự án; - Ứ ng d ụ ng thành công Đ ồ h ọ a tr ự c quan hình ả nh (Infographic) đ ể trình bày thông tin d ữ li ệ u ngu ồ n gen lúa t ừ d ự án ph ụ c ph ụ c v ụ in ấ n, xu ấ t b ả n Đã xu ấ t b ả n đư ợ c 01 ấ n ph ẩ m th ố ng kê ngu ồ n gen Lúa ph ụ c v ụ khai thác s ử d ụ ng ng u ồ n ge n; - D ữ li ệ u đư ợ c phân tích, th ố ng kê theo nhi ề u hư ớ ng giúp ích cho các nhà nghiên c ứ u có cái nhìn đa chi ề u v ề công tác b ả o t ồ n tài nguyên th ự c v ậ t nông nghi ệ p 4 2 Đ ề ngh ị - C ầ n ti ế p t ụ c ứ ng d ụ ng CNTT đ ể phân tích, th ố ng kê d ữ li ệ u c ủ a các Lo ạ i cây khác, nhóm cây khác trong toàn h ệ th ố ng B ả o t ồ n ngu ồ n gen th ự c v ậ t nông nghi ệ p - Ti ế p t ụ c ứ ng d ụ ng nh ữ ng khái ni ệ m CNTT m ớ i trong công tác tư li ệ u hóa thông tin ngu ồ n gen T ÀI LI Ệ U THAM KH Ả O 1 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web , NXB Giáo dục, 2009 2 TS Nguyễn Minh Tuấn, Hà Trọng Quang, Giáo trình Xử lý dữ liệu nghiên cứu với SPSS FOR WINDOW , Trường ĐH Công nghiệp TP HCM 3 https://ongxuanhong wordpress com/2016/01/31/lay - va - lam - sach - du - lieu - xu - ly - du - lieu - ngoai - lai - outliers/ 4 Khai thác dữ liệu & ứng dung (Data Mining) ( http://tailieu vn/doc/data - mining - and - application - qui - t rinh - chuan - bi - du - lieu - 723931 html ) 5 Tài liệu xử lý thống kê bằng Excel ( http://tailieu vn/doc/xu - ly - thong - ke - bang - excel - 365594 html ) 6 Tài liệu QGIS ( http://www qgistutorials com/vi/ ) 7 Cơ sở dữ liệu 54 dân tộc Việt Nam ( http://www cema gov vn/gioi - thieu/co ng - dong - 54 - dan - toc htm 8 https://en wikipedia org/wiki/Infographic 9 Robert Nisbet, John Elder, Gary Miner , Handbook of Statistical Analysis and Data Mining Applications , Elsevier Inc, 2009
Trang 1NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ THÔNG TIN ĐỂ PHÂN TÍCH, THỐNG KÊ CƠ SỞ DỮ LIỆU NGUỒN GEN LÚA THUỘC DỰ ÁN PHÁT TRIỂN NGÂN HÀNG GEN CÂY TRỒNG QUỐC GIA, 2011-2015
Vũ Đình Tú1, Nguyễn Thị Hiền1, Nguyễn Chí Tín1, Nguyễn Tiến Hưng1
TÓM TẮT
Tin học hóa nền nông nghiệp được coi là cuộc cách mạng xanh ở thế kỷ 21 Trong nông nghiệp nói chung và công tác bảo tồn tài nguyên thực vật phục vụ nông nghiệp nói riêng thì Công nghệ thông tin (CNTT) không chỉ là phương tiện hỗ trợ mà có thể trở thành lực lượng lao động quan trọng Vì vậy, việc ứng dụng công nghệ thông tin để phân tích, thống kê cơ sở dữ liệu là một trong những công việc rất quan trọng của công tác bảo tồn TNTV của Trung tâm Tài nguyên thực vật Để khai thác cơ sở dữ liệu Dự án phát triển Ngân hàng gen cây trồng quốc giai giai đoạn 2011-20150, Bộ môn Dữ liệu và Thông tin TNTV đã ứng dụng hiệu quả một số phần mềm như Excel, SPSS, QGIS, Infographic…
để làm sạch dữ liệu, phân tích, thống kê, trình bày sơ sở dữ liệu nguồn gen thu thập được (Bao gồm cơ sở dữ liệu về thông tin lai lịch và mô tả đánh giá nguồn gen) Báo cáo này chủ yếu giới thiệu một số khái niệm và kết quả ứng dụng CNTT vào bảo tồn tài nguyên thực vật phục vụ nông nghiệp của Bộ môn trong thời gian qua nhằm giúp cho các nhà quản lý, các cán bộ nghiên cứu trong Trung tâm hiểu rõ hơn các hoạt động cứu và phục
vụ nghiên cứu của Bộ môn hiện nay
Từ khóa: Công nghệ thông tin; Phân tích, thống kê dữ liệu; Lúa (Oryza sativa L.)
I ĐẶT VẤN ĐỀ
Dự án phát triển Ngân hàng gen cây trồng Quốc gia giai đoạn 2011-2015 do Trung tâm Tài nguyên thực vật thưc hiện đã thu thập được 12.758 mẫu giống của 119 loại cây
trồng trên toàn quốc Trong đó, Lúa (Oryza sativa L.) là loại cây trồng thu thập được
nhiều và đa dạng với số lượng 1.704 mẫu nguồn gen
Hoạt động bảo tồn và sử dụng bền vững quỹ gen cây trồng đòi hỏi quá trình thu thâp, lưu trữ thông tin và sinh ra một lượng dữ liệu khổng lồ Chính vì vậy, việc xây dựng
hệ thống cơ sở dữ liệu có khả năng cung cấp dữ liệu có độ tin cây cao cho nhiều đối tượng
sử dụng là một công việc không thể thiếu của hoạt động bảo tồn Hiện tại, cơ sở dữ liệu của Trung tâm Tài nguyên thực vật bao gồm dữ liệu Lai lịch, Mô tả đánh giá ban đầu, Mô
tả đánh giá chi tiết, Hình ảnh…được cung cấp từ các hoạt động bảo tồn Đến nay đã có hàng triệu trường dữ liệu cho các Loại cây trồng khác nhau Khối lượng dữ liệu ngày càng nhiều dẫn đến việc lưu trữ và phân tích, thống kê dữ liệu sẽ gặp phải những khiếm khuyết
1 Bộ Môn Dữ liệu và Thông tin TNTV
Trang 2nhất định Trước kia, việc nhập dữ liệu, thống kê dữ liệu thường được tiến hành thủ công
và được đối soát theo bản mẫu gây mất rất nhiều thời gian, tiền của và công sức Từ khi
áp dụng công nghệ thông tin trong khâu xử lý và tổng hợp số liệu thống kê, thời gian xử
lý và tổng hợp cho một cuộc điều tra được rút ngắn đáng kể Hơn thế nữa, sử dụng các chương trình máy tính trong khâu xử lý và tổng hợp số liệu còn cho phép nâng cao được chất lượng số liệu thống kê thống qua các chương trình kiểm tra logic và sửa lỗi Bài báo cáo đưa ra các khái niệm, công cụ hỗ trợ, phần mềm chuyên ngành để có thể giúp ích trong công tác tiền xử lý dữ liệu, phân tích, thống kê cơ sở dữ liệu nguồn gen Lúa thu thập và mô tả, đánh giá trong dự án phát triển ngân hàng gen cây trồng quốc gia (2011-2015)
II VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
- Dựa vào cơ sở dữ liệu thông tin nguồn gen lúa đang được quản lý tại Bộ môn
Dữ liệu và Thông tin tài nguyên thực vật bao gồm dữ liệu thu thập nguồn gen (nhóm dữ liệu Đăng kí, Lai lịch), dữ liệu mô tả đánh giá ban đầu nguồn gen (nhóm dữ liệu Mô tả, đánh giá nguồn gen), chúng tôi chọn ra bộ cơ sở dữ liệu của 1.704 nguồn gen lúa được thu thập bởi Dự án Phát triển ngân hàng gen cây trồng quốc gia và bộ cơ sở dữ liệu của 940/1.704 mẫu giống đã được tiến hành mô tả, đánh giá đặc điểm nông sinh học ban đầu
- Từ bộ cơ sở dữ liệu nguồn gen lúa, chúng tôi tiến hành tiền xử lý dữ liệu bằng phương pháp làm sạch dữ liệu (data cleaning).Từ nguồn dữ liệu đã được xử lý đó chúng tôi tiến hành phân tích, thống kê nguồn gen lúa theo vùng sinh thái, theo nguồn gốc dân tộc sở hữu, theo dữ liệu mô tả đánh giá một số các chỉ tiêu cơ bản để tổng hợp các bảng
số liệu, thông tin
2.1 Ứng dụng Làm sạch dữ liệu (Data Cleaning) để rà soát lại dữ liệu, nhằm đảm bảo rằng các dữ liệu đều đồng nhất và chính xác ở mức độ cao nhất
2.1.1 Kiểm tra, chuẩn hóa giá trị dữ liệu:
- Quy trình kiểm tra, chuẩn hóa giá trị dữ liệu được tiến hành trên Nhóm dữ liệu Đăng ký, dữ liệu Lai lịch , dữ liệu Mô tả, đánh giá Quy trình này thực hiện trên các dữ liệu Dữ liệu chính tả (Số đăng kí, Tên mẫu nguồn gen); Dữ liệu địa lý (Tỉnh, huyện, xã);
Dữ liệu tọa độ (Kinh độ, Vĩ độ); Dữ liệu dân tộc; Dữ liệu thời gian (Ngày/tháng/năm)
- Tất cả các công đoạn được tiến hành trên tệp (file) Excel Để đảm bảo an toàn
dữ liệu trong khi thao tác chúng tôi tạo bản sao lưu dữ liệu ban đầu trong một file làm việc khác
- Các bước chung cho thao tác một trường dữ liệu là:
➢ Chèn một cột mới (B) bên cạnh cột gốc (A) cần làm sạch
Trang 3➢ Thêm công thức sẽ biến đổi dữ liệu ở trên cùng của cột mới (B)
➢ Điền công thức trong cột mới (B) Trong bảng Excel, một cột được tính toán tự động được tạo bằng giá trị điền xuống dưới
➢ Chọn cột mới (B), sao chép nó, sau đó dán dưới dạng giá trị vào cột mới (B)
➢ Loại bỏ cột gốc (A), chuyển đổi cột mới từ B đến A
- Loại bỏ khoảng trắng và các ký tự thay thế, chỉnh sửa chính tả: sử dụng một số hàm trong tệp Excel như Find & Replace, TRIM VLookup…
- Chuẩn hóa dữ liệu về địa giới hành chính (tỉnh/huyện/xã) của các nguồn gen bằng cách đối chiếu với cơ sở dữ liệu chuẩn về địa giới hành chính
- Chuyển đổi dữ liệu tọa độ (Kinh độ, Vĩ đô) đồng nhất về hệ tọa độ Decartes (hệ tọa độ không gian 2 chiều bằng cặp số tọa độ x, y) VD: Chiềng Sại, Bắc Yên, Sơn La có tọa độ (Kinh độ, Vĩ độ) Decartes là: (104.506667, 21.069722)
- Chuẩn hóa dữ liệu về dân tộc của các nguồn gen bằng cách đối chiếu với cơ sở
dữ liệu “54 dân tộc Việt Nam” của Ủy ban dân tộc Việt Nam
- Chuẩn hóa dữ liệu thời gian về định dạng ngày tháng năm (dd/mm/yyyy) (VD: 11/09/2014)
2.1.2 Nhận diện, xử lý phần tử ngoại lai (outliers) và giảm thiểu nhiễu (noise data)
- Xác định phần tử ngoại lai bằng một số phương pháp: phân bố thống kê (statistical distributionbased), khoảng cách (distance-based), phương pháp giảm thiểu nhiễu phân cụm (clustering) .để hiệu chỉnh dữ liệu
2.1.3 Nhận diện, xử lý dữ liệu bị thiếu (missing data)
- Sử dụng phần mềm thống kê số liệu SPSS Statistics để xác định được các giá trị
bị thiếu (missing values) và qui đổi giá trị thiếu về hằng số chung
2.2 Ứng dụng Hệ thống thông tin địa lý (Geographic information system- GIS) để phân tích, thống kê dữ liệu không gian (dữ liệu bản đồ) của các mẫu nguồn gen
- Dựa vào dữ liệu về tọa độ (kinh độ, vĩ độ) được chuẩn hóa theo Hệ tọa độ Decartes và sử dụng hệ tọa độ quốc tế WGS 84 trên GIS chúng tôi bước đầu ứng dụng QGIS (Window, Mac OS X Linux) trên lớp bản đồ nền 63 tỉnh thành Việt Nam để thống
kê phân bố nguồn gen Lúa được thu thập trên toàn quốc và 8 vùng sinh thái nông nghiệp
2.3 Ứng dụng phần mềm xử lý số liệu Excel, IBM SPSS Statistic để phân tích, thống
kê dữ liệu lai lịch, dữ liệu mô tả đánh giá nguồn gen
Trang 42.4 Ứng dụng Infographic (Information graphic) (Adobe Photoshop, Adobe Illustrator) để đồ họa trực quan thông tin, dữ liệu nguồn gen Lúa
III KẾT QUẢ VÀ THẢO LUẬN
3.1 Ứng dụng Làm sạch dữ liệu (Data Cleaning) để rà soát lại dữ liệu
Làm sạch dữ liệu (Data cleaning) là công việc hết sức quan trọng trong quá trình tiền xử lý dữ liệu để đảm bảo tính chính xác (accuracy), tính hiện hành (currency), tính toàn vẹn (completeness), tính nhất quán (consistency) Một thuật ngữ về chuyên ngành
dữ liệu được đưa ra đó là “garbage in, garbage out” (dữ liệu đầu vào là rác thì dữ liệu đầu
ra sẽ là rác) Nếu chúng ta cung cấp một tập dữ liệu chứa thông tin rác, thì kết quả cuối cùng chúng ta nhận được cũng sẽ là rác Do đó, khi nhận được một lượng lớn dữ liệu, việc đầu tiên mà chúng ta cần nghĩ đến là tiền xử lý tập dữ liệu đó, để có thể hạn chế rác (garbage) và sử dụng chúng để khai phá sau này Kết quả làm sạch bằng một số phương pháp:
3.1.1 Kiểm tra, chuẩn hóa giá trị dữ liệu
Kết quả kiểm tra, chuẩn hóa dữ liệu được trình bày tại Bảng 1:
Bảng 1: Thống kế số lượng dữ liệu được kiểm tra, chuẩn hóa giá trị
Loại dữ liệu Dữ liệu
chính tả
Dữ liệu địa giới hành chính (Tỉnh/Huyện/Xã)
Dữ liệu tọa độ
Dữ liệu dân tộc
Dữ liệu thời gian
Số dữ liệu cần
Số dữ liệu được
- Trong quá trình kiểm tra, chuẩn hóa chúng tôi nhận thấy Dữ liệu địa giới hành chính hầu như chính xác tuyệt đối (chỉ có 1 huyện Gia Nghĩa bị nhập liệu sai nên thành 2 huyện); Dữ liệu chính tả bị sai chủ yếu bởi chỉ tiêu Tên nguồn gen bị lỗi kí tự dấu cách;
Dữ liệu tọa độ thì có 168 tọa độ được chuyển đổi từ hệ tọa độ GPS về hệ tọa độ Decartes,
dữ liệu dân tộc chủ yếu bị lỗi khi cán bộ thu thập viết tên sai; Dữ liệu thời gian có tỷ lệ chính xác cao 100% khi không có lỗi nào
3.1.2 Nhận diện, xử lý phần tử ngoại lai (outliers) và giảm thiểu nhiễu (noise data)
- Các phần tử ngoại lai (Outliers) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán Những phần tử ngoại lai (đối tượng) này không tuân theo đặc tính/ hành vi chung của tập dữ liệu (đối tượng) Các giá trị tương tự nhau sẽ được hiển thị theo một cụm, các giá trị nằm ngoài, bất thường chính là các phần
từ ngoại lai (outiers) gây ra dữ liệu nhiễu (noisy data) Các phần tử ngoại lai này thường
Trang 5xuất hiện trong các chỉ tiêu đánh giá định lượng như Chiều dài hạt, Chiều rộng hạt, Chiều cao cây, Số dảnh, Thời gian sinh trưởng…
- Quá trình phân tích dữ liệu mô tả đánh giá bằng phương pháp giảm thiểu nhiễu phân cụm (clustering) chúng tôi đã tìm ra được 2 chỉ tiêu có dữ liệu mà trong đó xuất hiện
một số phần tử ngoại lai đó là chỉ tiêu Chiều rộng hạt =0,5 cm - 0,57 cm và chỉ tiêu Độ dài thân < 30 cm
- 6 mẫu nguồn gen (GBVN017399 (Aroo ba trăng) GBVN017382 (Đha nang), GBVN017386 (Aroo đếêp Đha nang), GBVN017403 (Aroo đếêp prong), GBVN017404
(Aroo đếêp Arứt), GBVN017405 (Aroo đếêp Ađíp) ) có dữ liệu Chiều rộng hạt >=0,5
cm được đối chứng lại với seed file nguồn gen đã được mô tả đánh giá lại ; 02 mẫu nguồn gen có dữ liệu Độ dài thân < 30 cm đó là: GBVN017283 (Khẩu già zui); TEMP019134
(Tài lồ) được yêu cầu mô tả, đánh giá lại
Hình 1: Các phần tử ngoại lai trong chỉ tiêu mô tả Chiều rộng hạt, Chiều dài thân 3.2.3 Nhận diện, xử lý dữ liệu bị thiếu (missing data)
- Dữ liệu bị thiếu (missing data) là dữ liệu không sẵn có khi cần sử dụng xuất hiện
do khách quan (không tồn tại lúc nhập liệu, sự cố) hoặc chủ quan (tác nhân con người) Chúng tôi đã tiến hành xác định dữ liệu bị thiếu (missing data) trên nhóm dữ liệu mô tả, đánh giá nguồn gen và xử lý bằng cách đưa về hằng số “null” cho các giá trị này
Bảng 2: Thống kế số lương các trường dữ liệu bị thiếu trong dữ liệu MTĐG
Chỉ tiêu
Màu phiến
lá
Màu thìa lìa
Dạng thìa lìa
Màu
cổ lá
Màu tai
lá
Số dảnh hữu hiệu
Màu nhị cái
Màu ống
rạ
Dạng bông
Chỉ tiêu
Độ thoát
cổ bông
Trục bông Râu Màu mỏ
hạt
Màu
vỏ trấu
Độ phủ lông vỏ trấu
Màu mày hạt
Màu hạt gạo
- Việc xác định được số lượng các dữ liệu bị thiếu (missing data) giúp cho chúng tôi liệt kê danh sách những nguồn gen bị khuyết dữ liệu và có kế hoạch hoàn thiện dữ liệu trong các đợt nhân giống, mô tả đánh giá nguồn gen tiếp theo
Trang 63.2 Ứng dụng Hệ thống thông tin địa lý (Geographic Information System- GIS) để phân tích, thống kê dữ liệu không gian (dữ liệu bản đồ) của các mẫu nguồn gen
- GIS từ lâu đã là công cụ hỗ trợ đắc lực để phân tích, hiển thị các thông tin liên quan
tới vị trí địa lý của các đối tượng Đối với dữ liệu của bảo tồn tài nguyên thực vật nông nghiệp, nếu chúng ta có một cơ sở dữ liệu nền tốt về vị trí địa lý, dữ liệu khí hậu, dữ liệu thổ nhưỡng… thì GIS sẽ giúp ích rất nhiều trong công tác mô phỏng, dự đoán
- Bước đầu ứng dụng phần mềm QGIS: dữ liệu thống kê đã cho thấy được sư phân bố
đa dạng của 1.704 nguồn gen Lúa địa phương trải dài từ Bắc – Nam, một số vùng có hệ
số đa dạng cao dựa trên số lượng nguồn gen như (Tây Bắc, Tây Nguyên, Đông Bắc), vùng
có hệ số đa dạng thấp (ĐB Sông Hồng, Bắc Trung Bộ) Dữ liệu dạng bản đồ cũng cho cái nhìn khái quát về kết quả thu thập nguồn gen Lúa trong Dự án phát triển ngân hàng gen cây trồng quốc gia cũng như giúp lập kế hoạch trong các chương trình thu thập nguồn gen tại các vùng chưa được thu thập
Hình 2: Thống kê phân bố nguồn gen Lúa thu thập sử dụng công cụ GIS
3.3 Ứng dụng phần mềm xử lý số liệu để phân tích, thống kê dữ liệu, Lai lịch, dữ liệu Mô tả đánh giá nguồn gen
- Sử dụng các phần mềm xử lý thống kê dữ liệu Excel, SPSS chúng tôi đã phân tích thống kê dữ liệu Lai lịch của 1.704 nguồn gen và dữ liệu Mô tả, đánh giá của 940 nguồn gen theo nhiều hướng Các kết quả của công tác phân tích, thống kê được trình bày theo các Hình, Bảng dưới đây:
Hình 3: Thống kê số lượng nguồn gen Lúa thu thập theo vùng sinh thái
703 281
271 263 98 62 25 1
Đông Bắc Tây Nguyên Tây Bắc Nam Trung Bộ Tây Nam Bộ Đông Nam Bộ Bắc Trung Bộ
ĐB Sông Hồng
Trang 7Bảng 3: Thống kê số lượng Tỉnh/Huyện/Xã đã thu thập nguồn gen Lúa
Đông
Bắc Nguyên Tây Tây Bắc Trung Nam
Bộ
Tây Nam
Bộ
Đông Nam
Bộ
Bắc Trung
Bộ
ĐB
Sông Hồng
Tổng
Bảng 4: Thống kê số lượng nguồn gen thu thập theo Dân tộc STT Nhóm dân
tộc nguồn gen Số lượng lệ% Tỷ STT dân tộc Nhóm nguồn gen Số lượng lệ % Tỷ
Bảng 5: Thống kê các chỉ tiêu mô tả đánh giá ban đầu nguồn gen Lúa
lượng lệ % Tỷ Màu gốc bẹ lá lượng Số lệ % Tỷ
lượng
Tỷ
lệ %
lượng
Tỷ
lệ %
lượng
Tỷ
lệ %
Màu sắc ống rạ Số
lượng
Tỷ
lệ %
Trang 81– Trắng 742 80,83 1– Xanh 382 41,43
lượng
Tỷ
lệ %
Phân nhánh thứ cấp trên bông
Số lượng
Tỷ
lệ %
Độ thoát cổ bông Số
lượng
Tỷ
lệ %
lượng
Tỷ
lệ %
1– Thoát hoàn 698 75,79 1– Thẳng đứng 7 0,76
3– Thoát trung bình 162 17,59 2– Uốn xuống 913 99,24
lượng
Tỷ
lệ %
lượng
Tỷ
lệ %
3– Râu ngắn từng phần 160 17,11 2– Vàng 46 20,91
lượng lệ % Tỷ Màu vỏ trấu lượng Số lệ % Tỷ
2– Vàng rơm 375 40,11 2– Vàng hoặc khía
6– Tím 205 21,93 6– Hơi đỏ đến tím
nhạt
8 0,85
lượng lệ % Tỷ Màu vỏ cám lượng Số lệ % Tỷ
Trang 91– Vàng rơm 563 60,21 1– Trắng 761 82,09
6– Tím một phần 16 1,73
Bảng 6: Thống kế dữ liệu tính toán một số chỉ tiêu định lượng của Lúa
D thìa lìa
(mm, n=5)
Số dảnh
TL.1000 hạt
(gr, n=3)
Dài hạt
(mm, n=5)
Rộng hạt
(mm, n=5)
TG sinh trưởng
(ngày)
Trung
bình
3.4 Ứng dụng Infographics (Information graphic) để đồ họa trực quan thông tin,
dữ liệu nguồn gen phục vụ công tác in ấn, xuất bản ấn phẩm thúc đẩy khai thác
và sử dụng bền vững nguồn gen
- Infographic (thiết kế đồ họa thông tin) là kiểu thiết kế đồ họa chủ yếu dựa vào các hình ảnh trực quan để mô phỏng cho những dữ liệu thông tin, với thiết kế kiểu này người dùng dễ dàng thu thập dữ liệu một cách nhanh nhất nhờ các biểu tượng, các icon Thời gian gần đây Infographic đã trở nên phổ biến cho những ý tưởng cho những thông tin phức tạp được trình bày trên nhiều bảng biểu, nhiều trang giấy
- Thay vì tập hợp tin tức dạng text thì bây giờ chúng tôi sử dụng infographic để có thể thống kê 1 cách rõ ràng và chi tiết nhất, giúp cho các cán bộ nghiên cứu có thể hấp thụ và trao đổi nguồn thông tin dễ dàng hơn Với những lợi ích của infographic, chúng tôi đã
ứng dụng để xuất bản tài liệu “Thống kê nguồn gen Lúa theo vùng sinh thái nông nghiệp, dân tộc và đặc điểm hình thái chính được thu thập bởi Dự án phát triển ngân hàng gen cây trồng quốc gia giai đoạn 2011-2020”
Hình 4: Infographic đồ họa trực quan dữ liệu thông tin được phân tích, thống kê
Trang 10IV KẾT LUẬN VÀ ĐỀ NGHỊ
4.1 Kết luận
- Đã ứng dụng hiệu quả CNTT để làm sạch, xử lý phân tích, thống kê cơ sở dữ liệu lai lịch của 1.704 mẫu nguồn gen và mô tả đánh giá ban đầu của 940 mẫu nguồn gen lúa từ dự án;
- Ứng dụng thành công Hệ thống thông tin địa lý (GIS) để phân tích thống kê dữ liệu không gian các nguồn gen thu thập được từ dự án;
- Ứng dụng thành công Đồ họa trực quan hình ảnh (Infographic) để trình bày thông tin dữ liệu nguồn gen lúa từ dự án phục phục vụ in ấn, xuất bản Đã xuất bản được
01 ấn phẩm thống kê nguồn gen Lúa phục vụ khai thác sử dụng nguồn gen;
- Dữ liệu được phân tích, thống kê theo nhiều hướng giúp ích cho các nhà nghiên cứu có cái nhìn đa chiều về công tác bảo tồn tài nguyên thực vật nông nghiệp
4.2 Đề nghị
- Cần tiếp tục ứng dụng CNTT để phân tích, thống kê dữ liệu của các Loại cây khác, nhóm cây khác trong toàn hệ thống Bảo tồn nguồn gen thực vật nông nghiệp
- Tiếp tục ứng dụng những khái niệm CNTT mới trong công tác tư liệu hóa thông tin nguồn gen
TÀI LIỆU THAM KHẢO
1 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu
Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web, NXB Giáo dục, 2009
2 TS Nguyễn Minh Tuấn, Hà Trọng Quang, Giáo trình Xử lý dữ liệu nghiên cứu với SPSS FOR WINDOW, Trường ĐH Công nghiệp TP.HCM
3 https://ongxuanhong.wordpress.com/2016/01/31/lay-va-lam-sach-du-lieu-xu-ly-du-lieu-ngoai-lai-outliers/
4 Khai thác dữ liệu & ứng dung (Data Mining) ( http://tailieu.vn/doc/data-mining-and-application-qui-trinh-chuan-bi-du-lieu-723931.html)
5 Tài liệu xử lý thống kê bằng Excel ( http://tailieu.vn/doc/xu-ly-thong-ke-bang-excel-365594.html)
6 Tài liệu QGIS (http://www.qgistutorials.com/vi/)
7 Cơ sở dữ liệu 54 dân tộc Việt Nam (http://www.cema.gov.vn/gioi-thieu/co ng-dong-54-dan-toc.htm
8 https://en.wikipedia.org/wiki/Infographic
9 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009