SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ

Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ Đỗ Thanh Nghị1, Phạm Nguyên Khang1, Nguyễn Nhị Gia Vinh2 Văn Phạm Đăng Trí3 Khoa Công nghệ Thông tin & Truyền thông, Trường Đại học Cần Thơ Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ Khoa Môi trường & Tài nguyên Thiên nhiên, Trường Đại học Cần Thơ Thông tin chung: Ngày nhận: 03/09/2013 Ngày chấp nhận: 21/10/2013 Title: A comparision of rainfall forecast models for Can Tho city - Vietnam Từ khóa: Dự báo lượng mưa, hồi qui tuyến tính, k láng giềng, định, bagging, rừng ngẫu nhiên, máy học véc-tơ hỗ trợ Keywords: Rainfall forecast, linear regression, k nearest neighbors, decision trees, bagging, random forests, support vector machines ABSTRACT In recent years, climate change is one of the environmental problems that needs to be studied in the Mekong Delta of Vietnam, especially those in conjunction with temperature and rainfall As temperature and rainfall changes directly affect agriculture and aquaculture activities - driving factors of the delta’s development, the raising question is if such changes could be forecasted with acceptable level of uncertainties This paper presents algorithms and models of adjusting the forecasted rainfall data obtained from climate data of the SEA-START A comparison of these forecast models is conducted by forecast error analysis A case study is experimented by using rainfall data in Can Tho city - Vietnam The results show that the linear regression model has the greatest forecast error while the non-linear forecast models give better results The diversity of these forecast models can be applied to solve environmental problems in practice TÓM TẮT Trong năm gần đây, biến đổi khí hậu vấn đề môi trường cần nghiên cứu vùng đồng sông Cửu Long - Việt Nam, đặc biệt vấn đề liên quan đến yếu tố nhiệt độ lượng mưa Do thay đổi nhiệt độ lượng mưa ảnh hưởng trực tiếp đến hoạt động nông nghiệp nuôi trồng thủy sản - yếu tố dẫn đến phát triển vùng đồng Sông Cửu Long, câu hỏi đặt liệu thay đổi nhiệt độ lượng mưa dự báo với độ không chắn mức chấp nhận hay không Bài báo trình bày giải thuật mô hình dự báo lượng mưa từ nguồn liệu khí hậu SEA-START Các mô hình dự báo so sánh với phương pháp phân tích lỗi dự báo Các kết báo cho thấy mô hình hồi qui tuyến tính có lỗi dự báo cao mô hình dự báo phi tuyến cho kết dự báo tốt Tính đa dạng mô hình dự báo ứng dụng để giải toán môi trường thực tiễn sinh Các tiến trình vật lý xạ, tuần hoàn mưa phản ứng với tiến trình sinh học tiến trình hấp thu carbon trồng cây, biến đổi hóa học để hình thành nên hệ thống khí hậu GIỚI THIỆU Hệ thống khí hậu trái đất bao gồm bốn thành phần: khí quyển, đại dương, khu vực đóng băng 80 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 biến đổi phức tạp (McKuffie et al., 2005) Những biến đổi phức tạp tác động mạnh mẽ đến sản xuất nông nghiệp nước giới, đặc biệt nước vùng nhiệt đới Ở nước ta, ảnh hưởng biến đổi khí hậu nguồn tài nguyên nước lên lĩnh vực nông nghiệp thủy sản mối quan tâm hàng đầu nhà nghiên cứu thủy văn học Theo báo cáo (Bộ Tài nguyên Môi trường, 2011) vùng đồng sông Cửu Long (ĐBSCL) vùng đất thấp ven biển Việt Nam khu vực bị tác hại nặng nề biến đổi khí hậu gây Thành phố Cần Thơ nằm trung tâm ĐBSCL với đặc điểm nắng nhiều nhiệt độ cao quanh năm Mùa mưa kéo dài từ tháng đến tháng 10, mùa khô từ tháng 11 đến tháng năm sau Ngoài nằm cạnh sông Hậu nên Cần Thơ có mạng lưới sông, kênh, rạch chằng chịt Vùng tứ giác Long Xuyên có địa hình thấp trũng chịu ảnh hưởng lũ trực tiếp hàng năm Theo báo cáo Bộ Tài nguyên Môi trường năm 2011 trị số phổ biến lượng xạ tổng cộng trung bình năm 150-170 kcal/cm2 trị số phổ biến lượng mưa trung bình năm khoảng 1600 đến 2000 mm (Bộ Tài nguyên Môi trường, 2011) Lượng mưa ngày lớn Thành phố Cần Thơ khoảng 150-350 mm Cả mùa mưa có từ đến tháng mưa 200 mm/tháng Việc biến đổi khí hậu làm thiệt hại cho sản xuất nông nghiệp đất đai bị bạc màu nhiễm mặn, hạn hán bất thường, lũ lụt không theo qui luật nhiều dịch bệnh hình thành, độ phân giải thấp để dự báo biến đổi khí hậu dài hạn trung hạn cho vùng với phạm vi rộng lớn, làm cho chuyên gia khó khăn việc dự báo ảnh hưởng biến đổi khí hậu nguồn tài nguyên nước vùng có phạm vi nhỏ Việc biến đổi kết đầu mô hình GCM để dự báo biến đổi khí hậu vùng có phạm vi nhỏ (như: cấp xã, ấp, cánh đồng) toán khó mô hình GCM không đề cập đến tiến trình xảy vùng có phạm vi nhỏ (ví dụ: tiến trình bốc nước, hấp thụ nước, phân bố lượng mưa) Các phương pháp downscaling phát triển để tạo liên hệ kết đầu mô hình GCM có độ phân giải thấp với biến thời tiết có độ phân giải cao vùng có phạm vi nhỏ Các phương pháp downscaling phân thành hai nhóm chính: downscaling thống kê downscaling động Phương pháp downscaling thống kê chia thành bốn nhóm: phân loại thời tiết (weather typing method) (Bárdossy et al., 1992; Von Storch et al., 1993; Bárdossy , 1997), sinh liệu thời tiết ngẫu nhiên (stochastic weather generator) (Selker and Haith, 1990; Tung and Haith, 1995; Yu et al., 2002), phương pháp lấy mẫu lại (resampling method) (Murphy, 2000; Buishand and Brandsma, 2001; Palutikor et al., 2002) phương pháp hồi quy (regression method) Phương pháp hồi quy thiết lập hàm tuyến tính phi tuyến thực nghiệm biến thời tiết cấp độ vùng có phạm vi nhỏ (cấp độ địa phương-local scale) biến cấp độ toàn cục (global scale) mô hình GCM Phương pháp thường sử dụng dễ cài đặt Ngoài ra, hàm hồi quy cho downscaling xây dựng mạng nơ-ron (Neural network) (Hewitson and Crane, 1996; Olsson et al., 2001; Dibike and Coulibaly, 2006), phân tích tương quan tắc (Burger, 1996; Menzel and Burger, 2002; Chu et al., 2008) hay máy học véc-tơ hỗ trợ (Support vector machine) (Tripathi et al., 2006; Anamdhi et al., 2008) Nghiên cứu (Chen et al., 2010) đề xuất kết hợp mô hình phân lớp (mưa hay không mưa) mô hình hồi quy sử dụng máy học véc tơ hỗ trợ Nhiều mô hình phần mềm downscaling hình thành phát triển Nhưng mô hình SDSM (Statistical downscaling model) Wilby et al (2002) sử dụng nhiều Ví dụ như, Wilby et al (2006) kết hợp SDSM với mô hình cân nước mô hình chất lượng nước cân để nghiên cứu đánh giá ảnh hưởng Nghiên cứu tác động biến đổi khí hậu tài nguyên nước đòi hỏi tiết hóa (downscaling) lượng mưa ngày từ dự báo cấp khu vực (Regional Climate Model - RCM) Bài báo đề xuất phương pháp downscaling hai bước để dự báo lượng mưa ngày Bước thực việc dự báo ngày có mưa hay không Bước thứ hai dự báo lượng mưa ngày dự báo có mưa bước Các phần báo sau: phần trình bày ngắn gọn nghiên cứu liên quan đến mô hình dự báo lượng mưa, phần trình bày mô hình dự báo lượng mưa Phần trình bày kết thực nghiệm, sau phần kết luận hướng phát triển NGHIÊN CỨU LIÊN QUAN Các chuyên gia sử dụng mô hình tuần hoàn tổng quát (GCM - General Circulation Model) để thiết kế mô hình mô tiến trình biến đổi khí hậu phạm vi toàn cầu (Ghosh et al., 2008) Mô hình GCM sử dụng biến thời tiết có 81 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 biến đổi khí hậu không chắn dòng chảy sông Thêm vào đó, SDSM thường so sánh với phương pháp downscaling thống kê Trong nghiên cứu dự báo lượng mưa, trước tiên sử dụng mô hình hồi quy tuyến tính Tiếp đến, nghiên cứu tập trung vào hướng tiếp cận dựa mô hình máy học tự động như: k láng giềng (k Nearest Neighbors) (Fix and Hodges, 1952), định (Decision Trees) (Breiman et al., 1984), bagging (Breiman, 1996), rừng ngẫu nhiên (Random Forests) (Breiman, 2001) máy học véc tơ hỗ trợ (Support Vector Machines) (Vapnik, 1995) Chúng đề xuất mô hình học phân cấp kết hợp mô hình phân lớp mô hình hồi quy dựa rừng ngẫu nhiên máy học véc tơ hỗ trợ Hình 1: Hồi quy tuyến tính Giá trị dự báo cho phần tử x dựa vào công thức (3): ŷ = α + βx (3) 3.2 k láng giềng (k Nearest Neighbors - kNN) Giải thuật k láng giềng (kNN) Fix Hodges đề xuất từ năm 1952 Đây phương pháp đơn giản cho hiệu cao khai mỏ liệu (Hastie et al., 2009; Wu and Kumar, 2009) Giả sử có tập liệu bao gồm m phần tử x1, x2, …, xm không gian n chiều, có giá trị tương ứng biến phụ thuộc y1, y2, …, ym MÔ HÌNH DỰ BÁO 3.1 Mô hình hồi quy tuyến tính (linear regression - LM) Hồi quy phương pháp toán học áp dụng thường xuyên thống kê để phân tích mối liên hệ tượng kinh tế xã hội Hồi quy tuyến tính sử dụng rộng rãi thực tế tính chất đơn giản hóa hồi quy Phân tích hồi quy phân tích thống kê để xác định mối quan hệ biến phụ thuộc y với hay nhiều biến độc lập x Mô hình hồi quy đơn giản hàm tuyến tính (bậc 1) dùng để mô tả mối quan hệ biến phụ thuộc biến độc lập tuyến tính Mô hình hồi quy tuyến tính có dạng: y = α + βx (1) với α chặn (intercept), β độ dốc (slope) Các tham số α, β mô hình ước lượng từ liệu quan sát Xét tập liệu gồm m phần tử x1, x2, …, xm không gian n chiều (biến độc lập, thuộc tính), có giá trị tương ứng biến phụ thuộc (cần dự báo) y1, y2, …, ym Các tham số α, β mô hình ước lượng phương pháp bình phương bé (least squares):  m  Min   yi    xi    i 1    Hình 2: Giải thuật k láng giềng Giải thuật kNN trình học Khi dự đoán giá trị biến phụ thuộc phần tử liệu x đến, giải thuật tìm k láng giềng (k=1, 2, …) x từ tập liệu học phần tử {(x1,y1), …, (xk,yk)}, sau thực hiện:  Phân lớp với bình chọn số đông giá trị {y1, …, yk}, (2)  Hồi quy với giá trị trung bình {y1, …, yk} 82 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 Quá trình tìm k láng giềng x thường sử dụng khoảng cách (distance) hay độ tương tự (similarity) 3.3 Cây định (Decision Trees - DT) minh họa ví dụ định thu cách học từ tập liệu, để dự đoán chơi Golf (ŷ = yes / no?) từ biến (thời tiết, nhiệt độ, độ ẩm, gió) Mô hình dễ hiểu rút trích luật định tương ứng với nút có dạng IF-THEN tạo từ việc thực AND điều kiện theo đường dẫn từ nút gốc đến nút Các luật định dễ hiểu với người sử dụng Cây định đề xuất (Breiman et al., 1984; Quinlan, 1993) mô hình máy học tự động sử dụng nhiều khai mỏ liệu (Wu and Kumar, 2009) tính đơn giản hiệu Hình Hình 3: Cây định học từ liệu cho phép dự báo chơi Golf {yi, …, yk} khác nhau) nút cho nút trong, tiến hành phân hoạch liệu cách đệ quy việc chọn biến để thực phân hoạch tốt Xét tập liệu bao gồm m phần tử x1, x2, …, xm không gian n chiều, có giá trị tương ứng biến phụ thuộc y1, y2, …, ym Giải thuật học từ liệu trình xây dựng nút gốc đến nút Đây giải thuật đệ quy phân hoạch tập liệu theo biến độc lập thành phân vùng chữ nhật rời mà phần tử liệu xi, xj, …, xk phân vùng (nút lá) có yi, yj, …, yk khiết: Một biến cho tốt sử dụng để phân hoạch liệu cho kết thu nhỏ Việc lựa chọn dựa vào heuristics: chọn biến sinh nút khiết Hiện có giải thuật học định tiêu biểu C4.5 (Quinlan, 1993), CART (Breiman et al., 1984)  Giống vấn đề phân lớp,  Tương tự vấn đề hồi quy Để đánh giá chọn biến phân hoạch liệu, Quinlan đề nghị sử dụng độ lợi thông tin (chọn biến có độ lợi thông tin lớn nhất) tỉ số độ lợi dựa hàm entropy Shannon Độ lợi thông tin biến tính bằng: độ đo hỗn loạn trước phân hoạch trừ cho sau phân hoạch Giả sử pc xác suất mà phần tử liệu D thuộc lớp yc (c =1 , C), độ đo hỗn loạn thông tin trước phân hoạch tính theo công thức entropy (4) sau: Giải thuật học mô hình định từ liệu gồm bước lớn: xây dựng cây, cắt nhánh để tránh học vẹt Quá trình xây dựng làm sau:  Bắt đầu từ nút gốc, tất liệu học nút gốc,  Nếu phần tử liệu nút khiết nút xét cho nút lá, giá trị dự báo nút cho vấn đề phân lớp với bình chọn số đông giá trị {yi, …, yk}, cho vấn đề hồi quy với giá trị trung bình {yi, …, yk} C Info( D )   pc log pc  Nếu liệu nút hỗn loạn (các giá trị c 1 83 (4) Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 thường không mạnh với nhiễu dễ dẫn đến học vẹt Tức mô hình có tính tổng quát thấp, cần liệu kiểm tra có thay đổi so với liệu học định dự báo sai Để khắc phục khuyết điểm này, Quinlan đề nghị chiến lược cắt nhánh giải thuật C4.5 Có lựa chọn postpruning (cắt nhánh sau xây dựng cây) hay prepruning (dừng sớm trình phân nhánh) Trong thực tế, postpruning sử dụng nhiều prepruning Tuy nhiên độ phức tạp việc cắt nhánh sau xây dựng phức tạp, sử dụng chiến lược để ước lượng lỗi sinh mô hình sau cắt nhánh 3.4 Mô hình Bagging (BagDT) Độ đo hỗn loạn sau sử dụng biến A phân hoạch liệu D có m phần tử thành v phân vùng kích thước tương ứng m1, m2, , mv tính (5): v mj j 1 m Info A ( D )    Info ( D j ) (5) Độ lợi thông tin chọn biến A phân hoạch liệu D thành v phần tính công thức (6): Gain(A) = Info(D) – InfoA(D) (6) Giải thuật CART Breiman cộng sử dụng số Gini để phân hoạch liệu trình xây dựng Giả sử pc xác suất mà phần tử liệu D thuộc lớp yc (c =1, C), số Gini tính theo công thức (7): Gini ( D )   k  p c 1 c Từ năm 1990, cộng đồng máy học nghiên cứu cách để kết hợp nhiều mô hình phân loại yếu thành mô hình tập hợp phân loại mạnh cải thiện độ xác cao so với mô hình phân loại đơn yếu Trong phân tích thành phần lỗi giải thuật học, Breiman (Breiman, 1996), lỗi bao gồm thành phần bias variance Thành phần lỗi bias khái niệm lỗi mô hình học (không liên quan đến liệu học) thành phần lỗi variance lỗi tính biến thiên mô hình so với tính ngẫu nhiên mẫu liệu học Mục đích mô hình tập hợp làm giảm variance và/hoặc bias giải thuật học Dựa cách phân tích hiệu giải thuật học dựa thành phần lỗi bias variance, Breiman đề xuất giải thuật học Bagging (Bootstrap AGGregatING) nhằm giảm lỗi variance giải thuật học không làm tăng lỗi bias nhiều Giải thuật tóm tắt sau: (7) Hàm Gini nhỏ lớp D bị lệch Nếu sử dụng biến A phân hoạch D kích thước m thành tập D1 (kích thước m1) D2 (kích thước m2), hàm Gini tính công thức (8) Biến chọn phân hoạch liệu biến cho giá trị số Gini nhỏ GiniA ( D)  m1 m Gini( D1 )  Gini( D2 ) m m (8) Cho vấn đề hồi quy, độ đo hỗn loạn thông tin phân vùng D dựa độ lệch chuẩn (9) với μ giá trị trung bình giá trị y D k ( yi   )2 (9) S ( D)   k i 1  Từ tập liệu học LS có m phần tử, xây dựng T mô hình sở độc lập  Mô hình thứ t xây dựng tập mẫu Bootstrap thứ t (lấy mẫu m phần tử có hoàn lại từ tập học LS) Nếu sử dụng biến A phân hoạch D kích thước m thành tập D1 (kích thước m1) D2 (kích thước m2), độ hỗn loạn sau phân hoạch tính công thức (10) (10)  Kết thúc trình xây dựng T mô hình sở, dùng chiến lược bình chọn số đông để phân lớp phần tử x đến giá trị trung bình cho toán hồi quy Biến chọn phân hoạch liệu biến cho giá trị độ hỗn loạn trước phân hoạch trừ cho độ hỗn loạn sau phân hoạch nhỏ Mô hình định sau xây dựng Trong thực tế, giải thuật Bagging cải thiện tốt mô hình đơn không ổn định định thường có thành phần lỗi variance cao Hình ví dụ giải thuật Bagging áp dụng cho mô hình sở định S A ( D)  m1 m S ( D1 )  S ( D2 ) m m 84 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 Hình 4: Giải thuật Bagging định cao đáp ứng yêu cầu thực tiễn cho vấn đề phân loại, hồi qui Giải thuật rừng ngẫu nhiên (Hình 5) trình bày ngắn gọn sau: 3.5 Rừng ngẫu nhiên (Random Forests - RF) Tiếp cận rừng ngẫu nhiên (Breiman, 2001) đưa phương pháp tập hợp mô hình thành công Giải thuật rừng ngẫu nhiên tạo tập hợp định không cắt nhánh, xây dựng tập mẫu bootstrap (như Bagging), nút phân hoạch tốt thực từ việc chọn ngẫu nhiên tập thuộc tính Lỗi tổng quát rừng phụ thuộc vào độ xác thành viên rừng phụ thuộc lẫn thành viên Giải thuật rừng ngẫu nhiên xây dựng không cắt nhánh nhằm giữ cho thành phần lỗi bias thấp dùng tính ngẫu nhiên để điều khiển tính tương quan thấp rừng Tiếp cận rừng ngẫu nhiên cho độ xác cao so sánh với thuật toán học có giám sát Như Breiman đề cập (Breiman, 2001), rừng ngẫu nhiên học nhanh, chịu đựng nhiễu tốt không bị tình trạng học vẹt Giải thuật rừng ngẫu nhiên sinh mô hình có độ xác  Từ tập liệu học LS có m phần tử n biến (thuộc tính), xây dựng T định cách độc lập  Mô hình định thứ t xây dựng tập mẫu Bootstrap thứ t (lấy mẫu m phần tử có hoàn lại từ tập học LS)  Tại nút trong, chọn ngẫu nhiên n’ biến (n’ gán nhãn cho x lớp dương (+1), ngược lại gán nhãn cho x lớp âm (-1) Xét ví dụ phân lớp nhị phân tuyến tính (hình 6) với m phần tử x1, x2, …, xm không gian n chiều, có nhãn (lớp) phần tử y1, y2, …, ym có giá trị -1 yi = 1, xi thuộc lớp +1 (lớp dương, lớp quan tâm), yi = –1, xi thuộc lớp –1 (lớp âm hay lớp lại) predict(x) = sign(w.x – b) SVM tìm siêu phẳng tối ưu (xác định véc tơ pháp tuyến w độ lệch siêu phẳng b) dựa siêu phẳng hỗ trợ lớp Các phần tử lớp +1 nằm bên phải siêu phẳng hỗ trợ cho lớp +1, phần tử lớp -1 nằm phía bên trái siêu phẳng hỗ trợ cho lớp -1 Những phần tử nằm ngược phía với siêu phẳng hỗ trợ coi lỗi Khoảng cách lỗi biểu diễn zi  (với xi nằm phía (12) Hình 7: Hồi quy với máy học véc tơ hỗ trợ siêu phẳng hỗ trợ khoảng cách lỗi tương ứng zi = 0, ngược lại zi > khoảng cách từ điểm xi đến siêu phẳng hỗ trợ tương ứng nó) Máy học SVM xử lý toán hồi quy Trong vấn đề hồi quy Hình 7, SVM tìm siêu phẳng qua tất phần tử liệu với độ lệch chuẩn  Huấn luyện máy học SVM cho xử lý vấn đề hồi quy dẫn đến việc giải toán quy hoạch toàn phương (13) sau: (w, b, z*, z) = (1/2) ||w||2 + m c  (z i 1 * i  zi ) s.t (13) w.xi – b - yi - zi* ≤ ε w.xi – b - yi + zi ≥ -ε zi* , zi ≥ (i=1, 2, …, m) với c > sử dụng để chỉnh độ rộng lề lỗi Hình 6: Phân lớp tuyến tính với máy học véc tơ hỗ trợ Giải toán quy hoạch toàn phương (13) thu siêu phẳng hồi quy (w, b) SVM Dự báo cho phần tử đến x dựa siêu phẳng (w, b) tính theo công thức (14): Khoảng cách siêu phẳng hỗ trợ gọi lề Siêu phẳng tối ưu (nằm siêu phẳng hỗ trợ) tìm từ tiêu chí cực đại hóa lề (lề lớn, mô hình phân lớp an toàn) cực tiểu hóa lỗi Vấn đề dẫn đến việc giải toán quy hoạch toàn phương (11): predict(x) = (w.x - b) Giải thuật SVM thay tích vô hướng công thức (11-14) hàm nhân (kernel functions), cho phép giải số lớn toán phân lớp hồi quy phi tuyến Không có thay đổi cần thiết mặt m (w, b, z) = (1/2) ||w||2 + c z i 1 i s.t (14) (11) 86 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 liệu) Cho dù phức tạp, Bagging, rừng ngẫu nhiên đơn giản so với máy học SVM Xây dựng mô hình SVM cần thiết ba tham số số c > (để chỉnh độ rộng lề lỗi), độ lệch chuẩn  tham số hàm nhân Thời gian xây dựng mô hình dự báo cao (ít bậc so với số lượng phần tử) Mặc dù phức tạp, Bagging, rừng ngẫu nhiên SVM mô hình phi tuyến, nên xử lý tốt cho vấn đề phi tuyến, đặc biệt dự báo lượng mưa xét giải thuật, việc làm thay tích vô hướng hai véc tơ công thức hàm nhân dùng phổ biến như:  Đa thức bậc d: K(u, v) = (u.v + c)d (15)  Radial Basis Function (RBF): K(u, v) = exp(-||u – v||2) 3.7 (16) Mô hình hồi quy phân cấp Chúng ta sử dụng trực tiếp mô hình hồi quy vừa trình bày để dự báo lượng mưa ngày Mỗi mô hình có ưu điểm khuyết điểm khác Chẳng hạn mô hình hồi quy tuyến tính đơn giản, thời gian xây dựng mô hình dự báo nhanh, điều tất yếu độ xác không cao Riêng mô hình kNN đơn giản, sử dụng tham số k = 1, 2, số láng giềng, nhiên thời gian dự báo lâu phải tìm kiếm láng giềng phần tử cần dự báo Mô hình định cần tham số minobj = 1,2, số phần tử tối thiểu nút lá, thời gian xây dựng mô hình dự báo nhanh, đạt độ xác tương đối cao so với kNN hồi quy tuyến tính Bagging rừng ngẫu nhiên cần thêm tham số số lượng T = 50, 100, riêng, rừng ngẫu nhiên sử dụng thêm tham số số biến ngẫu nhiên sử dụng cho phân hoạch  Hình minh họa mô hình hồi quy phân cấp Dữ liệu phân lớp (ClassM) vào năm lớp như: không mưa (lượng mưa = 0), mưa nhẹ (lượng mưa: 0-2,5 mm), mưa vừa (lượng mưa: 2,57,6 mm), mưa to (lượng mưa: 7,6-50mm), to (lượng mưa 50 mm) Tương ứng với lớp, mô hình hồi quy xây dựng cho phép dự báo tốt phần tử thuộc lớp (RegM-i) Xét độ phức tạp, xử lý vấn đề phân lớp đơn giản nhiều so với toán hồi quy Hơn nữa, trình xây dựng mô hình hồi quy phức tạp cần dự báo lượng mưa từ tập liệu, có mối quan hệ phi tuyến biến phụ thuộc (lượng mưa) với nhiều biến độc lập (bức xạ mặt trời, hướng gió, tốc độ gió, nhiệt độ) Từ phân tích trên, đề xuất mô hình hồi quy phân cấp, kết hợp mô hình phân lớp nhiều mô hình hồi quy cục để nâng cao hiệu xử lý dự báo lượng mưa n (trong khoảng  n ,  với n số biến 2  Hình 8: Mô hình phân cấp (phân lớp + hồi quy) Chương trình bao gồm mô hình: Hồi quy tuyến tính (LM), k láng giềng (kNN), Cây định (DT), Bagging (BagDT), Rừng ngẫu nhiên (RF), Máy học véc tơ hỗ trợ cho hồi quy SVR, Mô hình phân cấp: RF phân lớp RF hồi quy (RFC-RFR), Mô hình phân cấp: SVC phân lớp SVR hồi quy (SVC-SVR) để dự báo lượng mưa KẾT QUẢ THỰC NGHIỆM Để tiến hành đánh giá hiệu mô hình dự báo lượng mưa, tiến hành cài đặt tất chương trình dự báo ngôn ngữ R (Ihaka and Gentleman, 1996) có sử dụng gói thư viện FNN, rpart, ipred, randomForest, e1071 87 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 Bảng 1: Kết dựa báo lượng mưa mô hình Phương pháp hồi quy tuyến tính (lm) k láng giềng (k=5) định (leaf-size=5) Bagging (#trees=100) rừng ngẫu nhiên (#trees=100, #randim=3) máy học SVR (RBF, γ=0.01, ε=0.1, C= 104) mô hình phân cấp RFC-RFR mô hình phân cấp SVC-SVR MSE MAE 34.161274 4.406217 19.815441 2.593839 15.508522 2.052494 1.481438 8.970759 9.131517 1.545566 17.006430 2.455377 10.412143 1.469576 20.074542 2.405764 để dự báo lượng mưa (rainfall) từ thuộc tính lại Chúng sử dụng nghi thức kiểm thử hold-out cách lấy ngẫu nhiên 2/3 tập liệu (6240 dòng) làm tập huấn luyện mô hình dự báo 1/3 lại (3120 dòng) làm tập kiểm tra kết dự báo Kết dự báo đánh giá tiêu chí trung bình bình phương lỗi (Mean Square Error - MSE) trung bình lỗi tuyệt đối (Mean Absolute Error - MAE) Chúng sử dụng tập huấn luyện để điều chỉnh tham số mô hình Các tham số lựa chọn cho đạt tiêu chí lỗi thấp Chúng sử dụng tập liệu (gồm 24 tập con) từ SEA-START RC có địa website http://cc.start.or.th Đây hệ thống phân phối liệu biến đổi khí hậu nằm chương trình hợp tác trung tâm START khu vực Đông Nam Á ESRI Thái Lan Tập liệu thu từ kết trình mô phức tạp cho ngày với kích thước lưới 20 x 20 km cho toàn khu vực sông Mêkong khoảng từ năm 1980 đến năm 2006 Chúng sử dụng liệu lưới gần Cần Thơ (có kinh độ LON = 105.8 vĩ độ LAT = 10.2) Tập liệu có 9360 dòng (ngày), dòng có giá trị thuộc tính nhiệt độ (tmax, tmin), xạ mặt trời (solar radiation), hướng gió (wind-dir), tốc độ gió (wind-speed) lượng mưa (rainfall) Vấn đề cần kiểm thử xây dựng mô hình dự báo sử dụng tập liệu có Kết thu từ mô hình dự báo (với tham số tối ưu) trình bày Bảng Ở hai cột MSE MAE, kết dự báo với lỗi thấp in đậm, lỗi thấp thứ hai in gạch lỗi thấp thức ba in đậm nghiêng Hình 9: Kết dự báo 360 ngày mô hình phân cấp RFC-RFR quy tuyến tính Trong đó, mô hình định đơn giản cho kết khả quan so sánh với tất mô hình lại Tuy nhiên, hiệu phương pháp tập hợp mô Bagging, rừng ngẫu nhiên mô hình phân cấp RFC-RFR, cho phép dự báo xác lượng mưa (lỗi dự báo thấp) Mô hình Bagging dự báo Không có ngạc nhiên mô hình hồi quy tuyến tính cho lỗi dự báo cao Trong mô hình dự báo phi tuyến chứng tỏ nhiều ưu Mặc dù vậy, mô hình máy học véc tơ hỗ trợ cho hồi quy SVR mô hình phân cấp SVCSVR thắng so sánh với kNN hồi 88 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 Research 28: doi: 10.1029/91WR02589 ISSN: 0043-1397, (1992) A Bárdossy Downscaling from GCMs to local climate through stochastic linkages Journal of Environmental Management, vol 49(1): 7-17, (1997) T.A Buishand and T Brandsma Multisite simulation of daily precipitation and temperature in the Rhine basin by nearestneighbor resampling Journal Water Resources Research, Vol.37(11):27612776, (2001) Bộ Tài nguyên Môi trường Kịch biến đổi khí hậu nước biển dâng cho Thành phố Cần Thơ Báo cáo kỹ thuật, Bộ Tài nguyên Môi trường, Hà Nội, (2011) L Breiman, J.H Friedman, R.A Olshen and C Stone Classification and Regression Trees Wadsworth International, (1984) L Breiman Bagging predictors Machine Learning vol 24(2):123–140, (1996) L Breiman Random forests Machine Learning vol 45(1):5–32, (2001) 10 C.C Chang and C.J Lin LIBSVM - a library for support vector machines (2011) 11 S.T Chen, P.S Yu, Y.H Tang Statistical downscaling of daily precipitation using support vector machines and multivariate analysis Journal of Hydrology 385:13–22, (2010) 12 C.T Dhanya, D.N Kumar Multivariate nonlinear ensemble prediction of daily chaotic rainfall with climate inputs Journal of Hydrology, Elsevier, vol.403(3-4):292306, (2011) 13 C.T Dhanya, D.N Kumar Data Mining for Evolving Fuzzy Association Rules for Predicting Monsoon Rainfall of India Journal of Intelligent Systems, Freund & Pettman, UK, vol.18(3):193-209, (2010) 14 K McKuffie and A Henderson-Sellers, A Climate Modeling Primer, John Wiley & Sons Ltd., UK, ISBN 0-470-85750-1, (2005) 15 E Fix, J Hodges Discriminatoiry Analysis: Small Sample Performance Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA, (1952) 16 S Ghosh, P.P Mujumdar Statistical downscaling of GCM simulations to với trung bình bình phương lỗi nhỏ mô hình phân cấp RFC-RFR dự báo với trung bình lỗi tuyệt đối nhỏ Đồ thị kết dự báo lượng mưa 360 ngày mô hình phân cấp RFC-RFR trình bày Hình Quan sát đồ thị này, thấy mô hình phân cấp RFC-RFR dự báo hiệu lượng mưa KẾT LUẬN VÀ ĐỀ XUẤT Nghiên cứu so sánh mô hình dự báo theo phương pháp phân tích lỗi dự báo Phương pháp downscaling hai bước đề xuất báo nhằm dự báo lượng mưa ngày cho thấy khả ứng dụng mô hình dự báo lượng mưa thực tế Nghiên cứu ngày áp dụng phương pháp Hồi quy tuyến tính, k láng giềng, Cây định, Bagging, Rừng ngẫu nhiên (RF), Máy học véc tơ hỗ trợ cho hồi quy SVR, Mô hình phân cấp: RF phân lớp RF hồi quy (RFCRFR), Mô hình phân cấp: SVC phân lớp SVR hồi quy (SVC-SVR) để dự báo lượng mưa từ tập liệu SEA-START lưới gần Thành phố Cần Thơ Kết thực nghiệm cho thấy mô hình hồi quy tuyến tính không phù hợp cho dự báo lượng mưa mô hình dự báo khác Bagging, rừng ngẫu nhiên mô hình phân cấp RFC-RFR dự báo xác Trong tương lai, áp dụng mô hình dự báo vào liệu thực tế Thành phố Cần Thơ thu thập tiền xử lý liệu Chúng nghiên cứu áp dụng cho vấn đề dự báo tương tự dự báo mực nước, dự báo lưu lượng gọi điện thoại, mô hình tổng quát cho vấn đề dự báo TÀI LIỆU THAM KHẢO P Aksornsingchai, C Srinilta Statistical Downscaling for Rainfall and Temperature Prediction in Thailand Proc of the Intl MultiConference of Engineers and Computer Scientists, pp 356-361, (2011) A Anandhi, V.V Srinivas, R.S Nanjundiah, D.N Kumar Downscaling precipitation to river basin in India for IPCC SRES scenarios using support vector machine International Journal of Climatology, vol 28(3):401–420, (2008) A Bárdossy and E.J Plate Space-time model for daily rainfall using atmospheric circulation patterns Water Resources 89 Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2013): 80-90 streamflow using relevance vector machine Advances in Water Resources, vol 31(1):132-146, (2008) 17 S Ghosh SVM-PGSL coupled approach for statistical downscaling to predict rainfall from GCM output Journal of Geophysical Research: Atmospheres, vol.115(D22):1984-2012, (2010) 18 M.K Goyal, C.S.P Ojha Evaluation of Various Linear Regression Methods for Downscaling of Mean Monthly Precipitation in Arid Pichola Watershed Natural Resources, vol.1(1):11-18, (2010) 19 M.Z Hashmi, A.Y Shamseldin, B.W Melville Statistical downscaling of precipitation: state-of-the-art and application of bayesian multi-model approach for uncertainty assessment Hydrology and Earth System Sciences Discuss (6):6535-6579, (2009) 20 R Ihaka, R Gentleman R: A language for data analysis and graphics Journal of Computational and Graphical Statistics, vol.5(3):299-314, (1996) 21 J Murphy Predictions of climate change over Europe using statistical and dynamical downscaling techniques Intl Journal of Climatology, Vol.20(5):489-501, (2000) 22 J.P Palutikof, C.M Goodess, S.J Watkins and T Holt Generating Rainfall and Temperature Scenarios at Multiple Sites: Examples from the Mediterranean Journal of Climate, Vol.15(24): 3529-3548, (2002) 23 A Pasini Neural NetworkModeling in Climate Change Studies In Artificial Intelligence Methods in the Environmental Sciences, S E Haupt et al (eds.), pp 235254, (2009) 24 J.R Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann, (1993) 25 D Raje, P.P Mujumdar A comparison of three methods for downscaling daily precipitation in the Punjab region Hydrological Processes, vol.25(23):3575– 3589, (2011) 26 J.S Selker and D.A Haith Development and testing of single-parameter precipitation distributions Water Resources Research 26: doi: 10.1029/90WR01648 ISSN: 00431397, (1990) 27 S Tripathi, V.V Srinivasa, R.S Nanjundiahb Downscaling of precipitation for climate change scenarios: a support vector machine approach Journal of Hydrology 330:621–640, (2006) 28 C.P Tung and D.A Haith Global-warming effects on New York streamflows Journal of Water Resources Planning and Management, 121(2), pp 216-225, (1995) 29 V Vapnik The Nature of Statistical Learning Theory Springer-Verlag, (1995) 30 H Von Storch, E Zorita and U Cubasch Downscaling of climate change estimates to regional scales: An application to winter rainfall in the Iberian Peninsula Journal of Climate 6: 11611171, (1993) 31 X Wu and V Kumar Top 10 Algorithms in Data Mining Chapman & Hall/CRC, (2009) 32 H Yu, S.C Liu and R.E Dickinson Radiative effects of aerosols on the evolution of the atmospheric boundary layer Journal of Geophysical Research: Atmospheres, 107(D12), 4142, doi:10.1029/2001JD000754, (2002) 90

Định dạng
Số trang	11
Dung lượng	1,17 MB