1. Trang chủ
  2. » Công Nghệ Thông Tin

Xây dựng và cân chỉnh mô hình dự báo mật số rầy nâu trên nền Apache Spark

9 27 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết trình bày tiếp cận xây dựng mô hình dự báo dịch rầy nâu gây hại trên lúa. Mô hình máy học véc-tơ hỗ trợ và rừng ngẫu nhiên là các mô hình được sử dụng phổ biến trong dự báo do tính chính xác của chúng. Tuy nhiên, việc cân chỉnh mô hình để tìm các siêu tham số của giải thuật máy học tốn nhiều thời gian tính toán. Đề xuất phân tán các tác vụ cân chỉnh mô hình trên nền Apache Spark (nền tảng tính toán nhóm trên bộ nhớ trong), để rút ngắn thời gian tìm kiếm các siêu tham số của giải thuật học khi xây dựng mô hình dự báo mật số rầy nâu.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.000106 XÂY DỰNG VÀ CÂN CHỈNH MƠ HÌNH DỰ BÁO MẬT SỐ RẦY NÂU TRÊN NỀN APACHE SPARK Đỗ Thanh Nghị, Trần Nguyễn Minh Thư, Bùi Võ Quốc Bảo, Phạm Nguyên Khang Khoa CNTT-TT, Trường Đại học Cần Thơ Khu 2, Đường 3/2, Xuân Khánh, Ninh Kiều, TP Cần Thơ dtnghi@cit.ctu.edu.vn TÓM TẮT— Trong viết này, chúng tơi trình bày tiếp cận xây dựng mơ hình dự báo dịch rầy nâu gây hại lúa Mơ hình máy học véc-tơ hỗ trợ rừng ngẫu nhiên mơ hình sử dụng phổ biến dự báo tính xác chúng Tuy nhiên, việc cân chỉnh mơ hình để tìm siêu tham số giải thuật máy học tốn nhiều thời gian tính tốn Chúng tơi đề xuất phân tán tác vụ cân chỉnh mơ hình Apache Spark (nền tảng tính tốn nhóm nhớ trong), để rút ngắn thời gian tìm kiếm siêu tham số giải thuật học xây dựng mơ hình dự báo mật số rầy nâu Kết thực nghiệm cho thấy phân tán công việc cân chỉnh mơ hình dự báo máy học véc-tơ hỗ trợ, rừng ngẫu nhiên Apache Spark đạt hiệu thời gian tăng số lượng nút sử dụng hệ nhóm máy tính Kết mơ hình tối ưu tìm sau cân chỉnh mơ hình dự báo xác mật số rầy nâu so sánh với mơ hình hồi quy tuyến tính, k láng giềng Từ khóa— Dự báo mật số rầy nâu, máy học véc-tơ hỗ trợ, rừng ngẫu nhiên, Apache Spark I GIỚI THIỆU Vùng đồng sông Cửu Long từ lâu xem trung tâm lớn sản xuất lúa gạo, nuôi trồng, đánh bắt chế biến thủy sản, đóng góp lớn vào xuất nơng thủy sản nước Theo báo Quân đội nhân dân số ngày tháng năm 2015, nguồn tin từ Ban Chỉ đạo Tây Nam Bộ cho biết, năm 2014, tỉnh vùng Đồng sông Cửu Long (ĐBSCL) phấn đấu nâng kim ngạch xuất gạo thủy sản lên 10,2 tỷ USD, tăng 21% so với năm 2014, góp phần đưa tổng kim ngạch xuất hàng hóa vùng năm 2015 đạt 11,9 tỷ USD Các tỉnh ĐBSCL thực biện pháp ổn định diện tích sản xuất lúa 4,2 triệu héc-ta (trong đó, 80% diện tích trồng giống lúa chất lượng cao) 800.000 héc-ta thủy sản để phấn đấu đạt sản lượng 25 triệu lúa 3,7 triệu thủy sản phục vụ tiêu dùng nước chế biến xuất Kinh tế vùng đóng vai trò lớn phát triển kinh tế nước ta Khi kinh tế xã hội phát triển theo nạn tàn phá mơi trường tự nhiên, nhiễm, biến đổi điều kiện khí hậu, gây khơng khó khăn tác động trực tiếp đến sản xuất bà nông dân Theo Tạp chí cộng sản số ngày 29 tháng 10 năm 2013, Việt Nam Liên hợp quốc xác định sáu quốc gia giới chịu tác động nhiều tình trạng biến đổi khí hậu tồn cầu Trong đó, đồng sơng Cửu Long xác định vùng Việt Nam giới chịu tác động thiệt hại nặng nề tình trạng biến đổi khí hậu nước biển dâng Tình trạng nước biển xâm nhập ngày sâu vào đất liền, làm nhiều diện tích lúa bị nhiễm mặn Dịch bệnh phát triển diện rộng dịch rầy nâu làm phá hoại lúa, tôm cá chết hàng loạt bị nhiễm bệnh hay tác động xấu mơi trường Tình hình dịch hại ảnh hưởng lớn đến nguồn lợi kinh tế bà nông dân ảnh hưởng đến phát triển kinh tế, an ninh lương thực vùng Chính lý trên, xây dựng mơ hình phục vụ cơng tác dự báo tình hình dịch hại cần thiết Mục tiêu giúp nhà nơng tránh rủi ro sản xuất, kịp thời ứng phó với dịch hại, bảo vệ nguồn lợi kinh tế Nghiên cứu [Trương et al., 11] đề xuất sử dụng công nghệ GIS mơ hình hồi quy tuyến tính để dự báo dịch rầy nâu Đồng Tháp [Vũ & Huỳnh, 16] sử dụng mơ hình mạng Bayes xích Markov để dự báo mức độ nhiễm, cháy lan truyền rầy theo thời gian [Võ & Trần, 14], [Võ et al., 15] đề xuất ứng dụng ảnh viễn thám xác định trạng sinh trưởng lúa cảnh báo dịch hại tỉnh An Giang [Nguyễn, 16] nghiên cứu hệ thống đa tác tử mơ hình hóa khả định dựa vào nhiều tiêu chí đánh giá rủi ro côn trùng hại lúa Trong phạm vi nghiên cứu này, chúng tơi trình bày kết thu từ việc áp dụng công nghệ khám phá tri thức khai mở liệu [Fayyad et al., 96] phân tích dự báo mật số rầy nâu gây hại lúa Chúng tiến hành điều tra thu thập số liệu từ mùa vụ trước, thực thao tác tiền xử lý làm liệu Bước thực xây dựng mơ hình phi tuyến, máy học véc-tơ hỗ trợ (Support Vector Machines – SVM [Vapnik, 1995]), rừng ngẫu nhiên (Random Forests – RF [Breiman, 01]), để dự báo mật số rầy nâu Chúng đề xuất phân tán tác vụ cân chỉnh mơ hình dự báo tảng tính tốn nhóm nhớ trong, Apache Spark [Zaharia et al., 10], [Apache Software Foundation, 14] Kết thực nghiệm cho thấy phân tán công việc cân chỉnh mơ hình dự báo máy học véc-tơ hỗ trợ, rừng ngẫu nhiên Apache Spark đạt hiệu thời gian tăng số lượng nút sử dụng hệ nhóm máy tính Kết mơ hình tối ưu tìm sau cân chỉnh mơ hình dự báo xác mật số rầy nâu so sánh với mơ hình hồi quy tuyến tính [Hastie et al., 01], k láng giềng [Fix & Hodges, 52] Phần lại viết tổ chức sau: phần trình bày tóm tắt mơ hình dự báo mật số rầy nâu; phần trình bày cân chỉnh mơ hình với Apache Spark; kết thực nghiệm trình bày phần trước kết luận hướng phát triển trình bày phần XÂY DỰNG VÀ CÂN CHỈNH MƠ HÌNH DỰ BÁO MẬT SỐ RẦY NÂU TRÊN NỀN APACHE SPARK 872 II CÁC MƠ HÌNH DỰ BÁO Hồi quy phương pháp toán học áp dụng thường xuyên thống kê để phân tích mối liên hệ tượng kinh tế xã hội Xét tập liệu gồm m phần tử x1, x2, …, xm không gian n chiều (biến độc lập, thuộc tính), có giá trị tương ứng biến phụ thuộc (cần dự báo) y1, y2, …, ym Phân tích hồi quy phân tích thống kê để xác định mối quan hệ biến phụ thuộc y với hay nhiều biến độc lập x A Hồi quy tuyến tính Hình Hồi quy tuyến tính Hồi quy tuyến tính sử dụng rộng rãi thực tế tính đơn giản Mơ hình hồi quy tuyến tính mơ tả mối quan hệ tuyến tính biến phụ thuộc y với hay nhiều biến độc lập x Mơ hình hồi quy tuyến tính có dạng: y = α + βx (1) với α chặn (intercept), β độ dốc (slope) Các tham số α, β mơ hình ước lượng từ liệu quan sát (tập liệu huấn luyện) phương pháp bình phương bé (least squares):  m  Min   yi    xi    i 1    (2) Giá trị dự báo cho phần tử x dựa vào công thức (3): ŷ = α + βx (3) B Máy học véc-tơ hỗ trợ Máy học véc-tơ hỗ trợ (SVM) đề xuất Vapnik từ năm 1995 mơ hình học hiệu phổ biến cho vấn đề phân lớp, hồi quy tuyến tính phi tuyến Xét tốn hồi quy hình Hình Máy học véc-tơ hỗ trợ cho vấn đề hồi quy Giải thuật SVM tìm siêu phẳng tối ưu (xác định véc-tơ pháp tuyến w độ lệch siêu phẳng b), qua tất phần tử liệu với độ lệch chuẩn  (dựa siêu phẳng hỗ trợ, w.x – b =  w.x – b = -) Những phần tử nằm phía ngồi siêu phẳng hỗ trợ coi lỗi Khoảng cách lỗi biểu diễn zi (với xi nằm phía siêu phẳng hỗ trợ khoảng cách lỗi tương ứng zi = 0, cịn ngược lại zi> khoảng cách từ điểm xi đến siêu phẳng hỗ trợ tương ứng nó) Huấn luyện máy học SVM cho xử lý vấn đề hồi quy dẫn đến việc giải toán quy hoạch toàn phương (4) sau: m (w, b, z*, z) = (1/2) ||w||2 + c  (z i 1 s.t w.xi – b - yi - zi* ≤ ε w.xi – b - yi + zi ≥ -ε * i  zi ) (4) Đỗ Thanh Nghị, Trần Nguyễn Minh Thư, Bùi Võ Quốc Bảo, Phạm Nguyên Khang 873 zi* , zi ≥ (i=1, 2, …, m) với c > sử dụng để chỉnh độ rộng lề lỗi Giải toán quy hoạch toàn phương (4) thu siêu phẳng hồi quy (w, b) SVM Dự báo cho phần tử đến x dựa siêu phẳng (w, b) tính theo cơng thức (5): predict(x) = (w.x - b) (5) Máy học SVM sử dụng hàm nhân khác để giải lớp toán phân lớp phi tuyến [Cristianini & Shawe-Taylor, 00] Để xử lý vấn đề phân lớp phi tuyến, không cần thay đổi từ giải thuật mà cần thay hàm nhân tuyến tính cơng thức hàm nhân khác Có hàm nhân phi tuyến phổ biến là:   ( ) Hàm đa thức bậc d: K xi , x j = xi × x j +1 d Hàm sở bán kính (Radial Basic Function – RBF): K xi , x j = e-g xi -x j (6) (7) Mô hình máy học SVM cho kết cao, ổn định, chịu đựng nhiễu tốt phù hợp với tốn phân lớp, hồi quy Nhiều ứng thành cơng SVM công bố nhiều lĩnh vực nhận dạng ảnh, phân loại văn sinh-tin học [Guyon, 99] C Rừng ngẫu nhiên Cây định đề xuất [Breiman et al., 84], [Quinlan, 93] mô hình máy học tự động sử dụng nhiều phân tích dự báo khai mở liệu tính đơn giản hiệu Hình minh họa ví dụ định thu cách học từ tập liệu, để dự đoán giá trị biến phụ thuộc y từ biến x Mơ hình dễ hiểu rút trích luật định tương ứng với nút có dạng IF-THEN tạo từ việc thực AND điều kiện theo đường dẫn từ nút gốc đến nút Các luật định dễ hiểu với người sử dụng Hình Mơ hình định cho vấn đề hồi quy Giải thuật học từ liệu trình xây dựng nút gốc đến nút Giải thuật thực phân hoạch đệ quy tập liệu theo biến độc lập thành phân vùng siêu chữ nhật rời mà phần tử liệu xi, xj, …, xk phân vùng (nút lá) có yi, yj, …, yk tương tự vấn đề hồi quy Giải thuật học mơ hình định từ liệu gồm bước lớn: xây dựng cây, cắt nhánh để tránh học vẹt Quá trình xây dựng làm sau: - Bắt đầu từ nút gốc, tất liệu học nút gốc, - Nếu phần tử liệu nút tương tự nút xét cho nút lá, giá trị dự báo nút giá trị trung bình {yi, …,yk} phần tử nút - Nếu liệu nút hỗn loạn (các giá trị {yi, …,yk} khác nhau) nút cho nút trong, tiến hành phân hoạch liệu cách đệ quy việc chọn biến để thực phân hoạch tốt Một biến cho tốt sử dụng để phân hoạch liệu cho kết thu nhỏ Việc lựa chọn dựa vào heuristics: chọn biến sinh nút sớm Để đánh giá chọn biến phân hoạch liệu, giải thuật CART [Breiman et al., 84] ước lượng độ đo hỗn loạn thông tin phân vùng D dựa độ lệch chuẩn (8) với μ giá trị trung bình giá trị y D 874 XÂY DỰNG VÀ CÂN CHỈNH MƠ HÌNH DỰ BÁO MẬT SỐ RẦY NÂU TRÊN NỀN APACHE SPARK ( yi   ) (8) k i 1 Nếu sử dụng biến A phân hoạch D kích thước m thành tập D1 (kích thước m1) D2 (kích thước m2), độ hỗn loạn sau phân hoạch tính công thức (9): k S ( D)   S A ( D)  m1 m S ( D1 )  S ( D2 ) m m (9) Biến chọn phân hoạch liệu biến cho giá trị độ hỗn loạn sau phân hoạch nhỏ Mơ hình định sau xây dựng thường không mạnh với nhiễu dễ dẫn đến học vẹt Tức mơ hình có tính tổng qt thấp, cần liệu kiểm tra có thay đổi so với liệu học định dự báo sai Để khắc phục khuyết điểm này, Breiman đề nghị chiến lược cắt nhánh giải thuật CART Có lựa chọn postpruning (cắt nhánh sau xây dựng cây) hay prepruning (dừng sớm trình phân nhánh) Trong thực tế, postpruning sử dụng nhiều prepruning Tuy nhiên độ phức tạp việc cắt nhánh sau xây dựng phức tạp, sử dụng chiến lược để ước lượng lỗi sinh mơ hình sau cắt nhánh Hình Mơ hình rừng ngẫu nhiên cho vấn đề hồi quy Trong phân tích thành phần lỗi giải thuật học, Breiman [Breiman, 96], lỗi bao gồm thành phần bias variance Thành phần lỗi bias khái niệm lỗi mô hình học (khơng liên quan đến liệu học) thành phần lỗi variance lỗi tính biến thiên mơ hình so với tính ngẫu nhiên mẫu liệu học Dựa cách phân tích hiệu giải thuật học, Breiman đề xuất giải thuật học rừng ngẫu nhiên [Breiman, 01], tạo tập hợp định không cắt nhánh, xây dựng tập mẫu bootstrap (lấy mẫu có hồn lại từ tập học), nút phân hoạch tốt thực từ việc chọn ngẫu nhiên tập thuộc tính Lỗi tổng quát rừng phụ thuộc vào độ xác thành viên rừng phụ thuộc lẫn thành viên Giải thuật rừng ngẫu nhiên xây dựng không cắt nhánh nhằm giữ cho thành phần lỗi bias thấp (thành phần lỗi bias thành phần lỗi giải thuật học, độc lập với tập liệu học) dùng tính ngẫu nhiên để điều khiển tính tương quan thấp rừng Giải thuật máy học rừng ngẫu nhiên (hình 4) trình bày ngắn gọn sau:  Từ tập liệu học LS có m phần tử n biến (thuộc tính), xây dựng T định cách độc lập  Mơ hình định thứ t xây dựng tập mẫu Bootstrap thứ t từ tập học LS  Tại nút trong, chọn ngẫu nhiên n’ biến (n’

Ngày đăng: 26/11/2020, 00:10

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w