Ch¬ng 2 : PHƯƠNG PHÁP NGHIÊN CỨU Trong chương này trình bày các phương pháp nghiên cứu sử dụng trong luận án bao gồm phương pháp mô hình hóa khí hậu khu vực (trình bày về mô hình khí hậu khu vực RegCM3), phương pháp hạ độ phân giải (downscaling) thống kê sử dụng mạng thần kinh nhân tạo hiệu chỉnh sản phẩm của RegCM3 về gần với quan trắc hơn) và các phương pháp đánh giá thống kê sản phẩm của mô hình khí hậu. 2.1. Phương pháp mô hình hoá khí hậu khu vực 2.2. Downscaling thống kê: Mạng thần kinh nhân tạo (ANN) Ý tưởng xây dựng ANN bắt nguồn từ việc nghiên cứu hệ thần kinh sinh học của con người, trong đó quan trọng nhất là sự điều khiển của bộ não sau đó là sự lan truyền thông tin trong hệ thống các tế bào thần kinh (Haykins, 1994). Tuy không được xây dựng chặt chẽ và phức tạp như các hệ thống thần kinh sinh học nhưng ANN lại có thể mô hình hoá được rất nhiều quá trình phức tạp của các hệ thống thần kinh sinh học và ngoài ra, rất nhiều đặc tính của ANN lại không có trong các hệ thần kinh sinh học. Ví dụ, ANN có thể bao gồm các đầu ra là các giá trị hằng số riêng lẻ trong khi đó đầu ra của các neuron sinh học là một chuỗi liên kết và biểu hiện phức tạp theo thời gian của các nhánh. Sau đây là hình vẽ so sánh cấu trúc của mạng thần kinh sinh học với ANN (Hình 2.4). Hình 2.4: Cấu trúc của mạng thần kinh sinh học và cấu trúc ANN. Đối với mạng thần kinh sinh học, thông tin có thể lan truyền từ cơ quan thụ cảm về não bộ hoặc ngược lại nhưng đều theo một cách thức như nhau là thông qua các xung thần kinh trên các sợi trục thần kinh và liên kết hoá học trên các khớp thần kinh. Cách thức lan truyền thông tin này được ANN mô phỏng đơn giản hơn rất nhiều nhưng cũng khá đầy đủ và tương đồng. Ban đầu, thông tin từ các nhánh thần kinh (dendrites) đi vào một neuron sinh học, tương ứng với việc cung cấp các đầu vào cho các nodes trên ANN. Sau đó thông tin lan truyền trên sợi trục thần kinh (axon), tương ứng với các hàm truyền của ANN. Các khớp thần kinh sinh học (Synapses) tương ứng với các trọng số trong ANN. Cuối cùng thông tin đi tới một cơ quan thực hiện hành động, tương ứng với việc ANN cho ra một kết xuất (output). ANN có thể rất phức tạp bao gồm nhiều nút, nhiều lớp ẩn nhưng đơn giản nhất là chỉ có 1 lớp đầu vào, 1 lớp ẩn và lớp kết xuất. Một trong những toán tử thường được sử dụng nhiều nhất trong ANN là toán tử lan truyền ngược (backpropagation) trong đó thông tin không những được lan truyền tiến dọc theo các nút nhờ hàm truyền và các trọng số mà còn được lan truyền ngược trở lại để cập nhật các trọng số sao cho sai số giữa kết xuất và hàm đích giảm đi. Phương pháp cực tiểu hoá sai số giữa kết xuất và hàm đích thường được sử dụng là phương pháp học giảm dốc nhất (phương pháp giảm gradient). Nguyên tắc học là trọng số được cập nhật sao cho làm giảm gradient tổng cộng của sai số theo mọi trọng số trên tất cả các mẫu. ANN thường sử dụng hàm truyền logistic sigmoid (LogSigmoid) hoặc hyperbolic tangent sigmoid (TanSigmoid) trong các lớp ẩn. Đối với lớp kết xuất, nếu hàm đích là những giá trị biến đổi từ 0 đến 1, ANN sẽ sử dụng hàm sigmoid, ngược lại sẽ sử dụng hàm tuyến tính (Linear) như được biểu diễn trong Hình 2.5. Hình 2.5: Hàm truyền của ANN (Demuth vcs., 2000). ANN được ứng dụng trong nhiều lĩnh vực, nhiều nhất là điều khiển. Ngoài ra, ANN còn được ứng dụng trong các lĩnh vực nghiên cứu khoa học khác, trong đó có dự báo thời tiết, ví dụ như dự báo mưa đá (Caren vcs., 2000), dự báo giáng thuỷ hạn dài (David vcs., 2000), dự báo giáng thuỷ hạn ngắn (Robert vcs., 2000) và mô hình hoá ôzôn (Narasimhan vcs., 2000). Thuật toán LevenbergMarquardt là một trong những cải tiến của phương pháp lan truyền ngược và grandient giảm dốc nhất trong đó trọng số được cập nhật không phải hằng số theo thời gian mà biến đổi tùy thuộc gradient tại bước ngay trước đó. Đây là thuật toán chính thức của phương pháp ANN trong chương trình MatLab (Matrix Laboratory, Mỹ), được luận án sử dụng để hiệu chỉnh nhiệt độ và lượng mưa. Hình 2.6: Mạng thần kinh 3 lớp theo phương pháp LevenbergMarquardt. Hình 2.7: Dạng vectơ của mạng 3 lớp trong Hình 2.6. Mạng thần kinh 3 lớp có dạng và công thức cụ thể như trên hình Hình 2.6 hoặc dạng vectơ như trên hình Hình 2.7 trong đó ký hiệu p là vectơ đầu vào, IW là ma trận trọng số của đầu vào, b là các vectơ bias tại từng lớp, LW là các ma trận trọng số tại các lớp, f là các hàm truyền, a là vectơ chứa các giá trị tại các nút (các nơron), y là vectơ đầu ra. Trong trường hợp tổng quát, khi có nhiều lớp thì không thể viết công thức tường minh như trên vì quá dài, thay vì đó, sử dụng công thức quy nạp sau để mô phỏng một mạng thần kinh: (2.2.1) Mạng thần kinh nhân tạo được luyện bằng cách thay đổi các trọng số và BIAS để sai số giữa đầu ra và mục tiêu là nhỏ nhất. Phương pháp được lựa chọn là từng bước cập nhật trọng số theo đường dốc nhất (hướng âm của gradient). Công thức thay đổi theo đường dốc nhất có dạng: trong đó xk là vectơ chứa các trọng số và bias tại bước (thế hệ) thứ k, gk là gradient của sai số đối với trọng số và bias, k là bước tiến. Thuật toán này có thể hiểu một cách hình tượng giống như một hòn bi lăn trong một cái chảo sẽ tìm đường dốc nhất để đi tới đáy chảo. Trong những chương trình luyện mạng đơn giản, người ta cho bước tiến k là hằng số và quá trình hội tụ rất chậm. Các thuật toán cải tiến sẽ thay đổi bước tiến trong quá trình luyện. Ở đây ta sử dụng thuật toán LevenbergMarquardt để luyện. Thuật toán LevenbergMarquardt là một thuật toán áp dụng cho các hàm mục tiêu có dạng bình phương. Gọi vectơ sai số giữa đầu ra của mạng và hàm mục tiêu là e. Ta cần cực tiểu hoá một chỉ tiêu F có dạng tổng bình phương sau: trong đó ei là thành phần thứ i của vectơ e, còn n là số chiều của vectơ e (cũng chính là số đầu ra). Chỉ tiêu F và sai số e là hàm của các trọng số và BIAS (các trọng số và BIAS được lưu trong vectơ x). Ta có thể tính được các đạo hàm riêng cấp 1 và cấp 2 như sau:
Ch¬ng : PHƯƠNG PHÁP NGHIÊN CỨU Trong chương trình bày phương pháp nghiên cứu sử dụng luận án bao gồm phương pháp mơ hình hóa khí hậu khu vực (trình bày mơ hình khí hậu khu vực RegCM3), phương pháp hạ độ phân giải (downscaling) thống kê sử dụng mạng thần kinh nhân tạo hiệu chỉnh sản phẩm RegCM3 gần với quan trắc hơn) phương pháp đánh giá thống kê sản phẩm mơ hình khí hậu 2.1 Phương pháp mơ hình hố khí hậu khu vực 2.2 Downscaling thống kê: Mạng thần kinh nhân tạo (ANN) Ý tưởng xây dựng ANN bắt nguồn từ việc nghiên cứu hệ thần kinh sinh học người, quan trọng điều khiển não sau lan truyền thông tin hệ thống tế bào thần kinh (Haykins, 1994) Tuy không xây dựng chặt chẽ phức tạp hệ thống thần kinh sinh học ANN lại mơ hình hố nhiều q trình phức tạp hệ thống thần kinh sinh học ra, nhiều đặc tính ANN lại khơng có hệ thần kinh sinh học Ví dụ, ANN bao gồm đầu giá trị số riêng lẻ đầu neuron sinh học chuỗi liên kết biểu phức tạp theo thời gian nhánh Sau hình vẽ so sánh cấu trúc mạng thần kinh sinh học với ANN (Hình 1) Hình 2.1: Cấu trúc mạng thần kinh sinh học cấu trúc ANN Đối với mạng thần kinh sinh học, thơng tin lan truyền từ quan thụ cảm não ngược lại theo cách thức thông qua xung thần kinh sợi trục thần kinh liên kết hoá học khớp thần kinh Cách thức lan truyền thông tin ANN mô đơn giản nhiều đầy đủ tương đồng Ban đầu, thông tin từ nhánh thần kinh (dendrites) vào neuron sinh học, tương ứng với việc cung cấp đầu vào cho nodes ANN Sau thơng tin lan truyền sợi trục thần kinh (axon), tương ứng với hàm truyền ANN Các khớp thần kinh sinh học (Synapses) tương ứng với trọng số ANN Cuối thông tin tới quan thực hành động, tương ứng với việc ANN cho kết xuất (output) ANN phức tạp bao gồm nhiều nút, nhiều lớp ẩn đơn giản có lớp đầu vào, lớp ẩn lớp kết xuất Một toán tử thường sử dụng nhiều ANN toán tử lan truyền ngược (back-propagation) thơng tin khơng lan truyền tiến dọc theo nút nhờ hàm truyền trọng số mà lan truyền ngược trở lại để cập nhật trọng số cho sai số kết xuất hàm đích giảm Phương pháp cực tiểu hoá sai số kết xuất hàm đích thường sử dụng phương pháp học giảm dốc (phương pháp giảm gradient) Nguyên tắc học trọng số cập nhật cho làm giảm gradient tổng cộng sai số theo trọng số tất mẫu ANN thường sử dụng hàm truyền logistic sigmoid (Log-Sigmoid) hyperbolic tangent sigmoid (Tan-Sigmoid) lớp ẩn Đối với lớp kết xuất, hàm đích giá trị biến đổi từ đến 1, ANN sử dụng hàm sigmoid, ngược lại sử dụng hàm tuyến tính (Linear) biểu diễn Hình 2 Hình 2.2: Hàm truyền ANN (Demuth vcs., 2000) ANN ứng dụng nhiều lĩnh vực, nhiều điều khiển Ngồi ra, ANN cịn ứng dụng lĩnh vực nghiên cứu khoa học khác, có dự báo thời tiết, ví dụ dự báo mưa đá (Caren vcs., 2000), dự báo giáng thuỷ hạn dài (David vcs., 2000), dự báo giáng thuỷ hạn ngắn (Robert vcs., 2000) mơ hình hố ơzơn (Narasimhan vcs., 2000) Thuật tốn Levenberg-Marquardt cải tiến phương pháp lan truyền ngược grandient giảm dốc trọng số cập nhật số theo thời gian mà biến đổi tùy thuộc gradient bước trước Đây thuật tốn thức phương pháp ANN chương trình MatLab (Matrix Laboratory, Mỹ), luận án sử dụng để hiệu chỉnh nhiệt độ lượng mưa Hình 2.3: Mạng thần kinh lớp theo phương pháp Levenberg-Marquardt Hình 2.4: Dạng vectơ mạng lớp Hình Mạng thần kinh lớp có dạng cơng thức cụ thể hình Hình dạng vectơ hình Hình ký hiệu p vectơ đầu vào, IW ma trận trọng số đầu vào, b vectơ bias lớp, LW ma trận trọng số lớp, f hàm truyền, a vectơ chứa giá trị nút (các nơron), y vectơ đầu Trong trường hợp tổng qt, có nhiều lớp khơng thể viết cơng thức tường minh q dài, thay đó, sử dụng cơng thức quy nạp sau để mô mạng thần kinh: n1 = IWp + b1 , n = LW 2,1a1 + b , a1 = f ( n1 ) a2 = f ( n2 ) n N = LW N , N −1a N −1 + b N , aN = f N ( nN ) = y Mạng thần kinh nhân tạo luyện cách thay đổi trọng số BIAS để sai số đầu mục tiêu nhỏ Phương pháp lựa chọn bước cập nhật trọng số theo đường dốc (hướng âm gradient) Công thức thay đổi theo đường dốc có dạng: x k +1 = x k − α k g k xk vectơ chứa trọng số bias bước (thế hệ) thứ k, gk gradient sai số trọng số bias, αk bước tiến Thuật tốn hiểu cách hình tượng giống hịn bi lăn chảo tìm đường dốc để tới đáy chảo Trong chương trình luyện mạng đơn giản, người ta cho bước tiến αk số q trình hội tụ chậm Các thuật tốn cải tiến thay đổi bước tiến trình luyện Ở ta sử dụng thuật toán Levenberg-Marquardt để luyện Thuật toán Levenberg-Marquardt thuật toán áp dụng cho hàm mục tiêu có dạng bình phương Gọi vectơ sai số đầu mạng hàm mục tiêu e n Ta cần cực tiểu hoá tiêu F có dạng tổng bình phương sau: F ( x ) = ∑ ei ( x ) i =1 ei thành phần thứ i vectơ e, n số chiều vectơ e (cũng số đầu ra) Chỉ tiêu F sai số e hàm trọng số BIAS (các trọng số BIAS lưu vectơ x) Ta tính đạo hàm riêng cấp cấp sau: n ∂e ∂F = 2∑ ei i ∂x j ∂x j i =1 ∂2 F ∂ = ∂x j ∂xk ∂xk ( j = 1, m ) n n n ∂ei ∂e ∂e ∂ ei = 2∑ i i + 2∑ ei 2∑ ei ÷ ÷ ∂xk ∂x j i =1 ∂xk ∂x j i =1 i =1 ∂x j ( j , k = 1, m ) xj, xk thành phần vectơ x, m số chiều vectơ x (là tổng số trọng số BIAS) Ta sử dụng ký hiệu vectơ ma trận sau: T ∂e1 ∂F ∂x ∂x 1 ∂e1 ∂F J F = ∂x2 , J e = ∂x2 M M ∂ F ∂e1 ∂xm ∂xm T ∂e2 ∂x1 L ∂e2 ∂x2 L M O ∂e2 ∂xm L ∂2F ∂en ∂x ∂x1 ∂2F ∂en ∂x2 , H F = ∂x2 ∂x1 M M ∂en ∂2F ∂x ∂x ∂x j m ∂2F ∂x1∂x2 L ∂2F ∂x2 ∂x2 L M O ∂2F ∂xm ∂x2 L ∂2F ∂x1∂xm ∂2F ∂x2 ∂xm M ∂2F ∂xm ∂xm Như ta biết, toán học, người ta gọi tên ma trận vectơ sau: J F Jacobian F theo x, Je Jacobian e theo x, HF ma trận Hessian F theo x Chú ý ma trận Hessian đối xứng Từ ta viết lại J F = 2eT J e thành: H F = ( J eT J e + A ) Với A ma trận có thành phần: ∂ ei Ajk = ∑ ei ∂xk ∂x j i =1 n Bây ta xác định công thức lặp Giả sử bước lặp thứ k, ta biết xk, ta cần xác định xk+1 Xét khai triển Taylor hàm nhiều biến JF(xk+1): J F ( x k +1 ) = J F ( x k ) + x k +1 − x k H F ( x k ) + o ( ) T o(2) ký hiệu vơ bé bậc Điểm cực tiểu điểm có đạo hàm riêng cấp 0, tức Jacobian JF Nếu bỏ qua vơ bé bậc ta cần chọn xk+1 cho: J F ( x k ) + x k +1 − x k H F ( x k ) = T Sử dụng thay vào , ý tính đối xứng ma trận Hessian, ta có cơng thức bước lặp (thế hệ) thứ k: ( x k +1 = x k − ( J e k ) J e k + Ak T ) −1 (J ) k T e ek ký hiệu k bên giá trị tính bước lặp (thế hệ) thứ k Từ ta thấy muốn tính phải tính đạo hàm cấp Việc tính đạo hàm cấp khó Vì Levenberg-Marquardt thay ma trận A ma trận đường chéo có trọng số thay đổi Lúc sửa thành: ( x k +1 = x k − ( J e k ) J e k + µ k I T ) −1 (J ) k T e ek với I ma trận đơn vị cịn µk tham số thay đổi cách thích hợp Với ý JeTe gradient, so sánh x k +1 = x k − α k g k ta thấy bước tiến αk thay ((Jek)TJek+µkI)-1 Bước tiến thay đổi theo bước lặp Tại vị trí có đạo hàm riêng Jek lớn bước tiến bé Ta hiểu vấn đề cách hình tượng đường dốc có bước tiến dài ta vượt qua chỗ trũng không hội tụ đến điểm cực tiểu Ngồi ra, thuật tốn Levenberg-Marquardt, tham số µ điều chỉnh cho hàm sai số giảm Tại bước mà hàm sai số nhỏ µ giảm để tăng bước tiến Ngược lại hàm sai số tăng lên, tức bước tiến q lớn µ tăng lên để giảm bước tiến giảm hàm sai số Như vấn đề thuật tốn cịn lại tính ma trận Jacobian Ma trận Jacobian tính phương pháp đạo hàm hàm hợp Từ ta có đạo hàm riêng sau: ∂e ∂e ∂a N ∂n N ∂a N −1 ∂a k ∂n k = ∂LW k ,k −1 ∂a N ∂n N ∂a N −1 ∂n N −1 ∂n k ∂LW k ,k −1 ' ' ' ∂e = N ( f N ) LW N , N −1 ( f N −1 ) ( f k ) a k −1 ∂a ∂e ∂e ∂a N ∂n N ∂a N −1 ∂a k ∂n k = ∂b k ∂a N ∂n N ∂a N −1 ∂n N −1 ∂n k ∂b k ' ' ' ∂e = N ( f N ) LW N , N −1 ( f N −1 ) ( f k ) ∂a ∂e ∂e ∂a N ∂n N ∂a N −1 ∂a1 ∂n1 = N N ∂IW ∂a ∂n ∂a N −1 ∂n N −1 ∂n1 ∂IW ' ' ' ∂e = N ( f N ) LW N , N −1 ( f N −1 ) ( f ) p ∂a dấu phẩy ký hiệu đạo hàm hàm truyền Để lập trình, công thức , viết dạng quy nạp ga N = ∂e , ∂a N gn N = ga N ( f N ) , ' gn N −1 = ga N −1 ( f N −1 ) , ' ga N −1 = gn N LW N , N −1 , gn k = ga k ( f k ) , ' ga k = gn k +1LW k +1,k , gn1 = ga1 ( f ) ga1 = gn LW 2,1 , ∂e = gn k a k −1 , k , k −1 ∂LW ∂e = gn k , k ∂b ' ∂e = gn1 p ∂IW Vậy biểu thức quy nạp cho ta tính tất đạo hàm riêng theo trọng số đầu vào IW, theo trọng số lớp LW theo bias b, ta tính ma trận Jacobian J tiến hành lặp theo thuật toán Levenberg-Marquardt 2.3 Đánh giá thống kê kỹ mơ hình khí hậu 2.3.1.Đánh giá mắt thường 2.3.2.Các phương pháp dự báo phân đơi (dự báo có/khơng) Dự báo phân đơi nói “đúng, kiện xảy ra” “không, kiện không xảy ra” Dự báo mưa sương mù ví dụ phổ biến dự báo có/khơng Đối với số ứng dụng, ngưỡng xác định để phân chia có/khơng, ví dụ tốc độ gió lớn 50knots Để đánh giá loại dự báo ta bắt đầu với bảng ngẫu nhiên, biểu diễn tần số “đúng” “sai” dự báo quan trắc khả kết hợp có/khơng dự báo có/khơng quan trắc gọi phân bố chung (joint) bao gồm: - hit (đúng) – dự báo kiện có xảy kiện thực xảy - miss (lỡ) – dự báo kiện không xảy kiện xảy - false alarm (cảnh báo sai) – dự báo kiện xảy kiện không xảy - correct negative – dự báo kiện không xảy thực tế kiện không xảy Bảng ngẫu nhiên phương pháp hữu ích để xem dự báo mắc phải loại sai số Hệ thống dự báo hoàn hảo tạo hits correct negatives, khơng có misses false alarms Một lượng lớn thống kê phân nhóm tính tốn từ phân tử bảng ngẫu nhiên để mơ tả khía cạnh đặc biệt hiệu dự báo (Bảng 1) Các số thường thấy đánh giá thống kê phân nhóm sử dụng bảng ngẫu nhiên trình bày Bảng 2 2.3.3 Các phương pháp đánh giá dự báo đa nhóm Các phương pháp đánh giá dự báo đa nhóm bắt đầu với bảng ngẫu nhiên biểu diễn tần số dự báo quan trắc nhóm nhỏ khác (Bảng 3) Trong bảng này, n(Fi,Oj) ký hiệu số dự báo thuộc nhóm thứ i có số quan trắc thuộc nhóm thứ j, N(Fi) tổng số dự báo thuộc nhóm i, N(Oj) tổng số quan trắc thuộc nhóm j, N tổng số quan trắc Một hệ thống dự báo hoàn hảo phải đạt giá trị khác đường chéo giá trị đường chéo phải Các số Accuracy, số kỹ Heidke biệt thức Hanssen Kuipers tương tự phương pháp phân đơi lấy tổng theo nhóm (Bảng 4) Bảng 2.1: Bảng ngẫu nhiên Dự báo Tổng Có Khơng Quan trắc Có Khơng hits false alarms misses correct negatives Quan trắc có Quan trắc khơng Tổng Dự báo có Dự báo không Tổng cộng Bảng 2.2: Bảng số đánh giá dự báo phân đôi Chỉ số Biểu thức tính Accuracy Giá trị 01 tốt = Ý nghĩa Dự báo phần trăm? Bias 0 ∞ tốt = Tần số dự báo kiện có xảy so với tần số quan trắc có xảy POD 1 tốt = Phần dự báo kiện có xảy có xác hay không ? POFD 01 tốt = Phần dự báo kiện có xảy thực tế khơng xảy số tổng quan trắc không Dự báo kiện “có” tốt đến đâu so với quan trắc “có” TS 1 tốt = xấu = Biệt thức Hanssen Kuipers -1 tốt = xấu = Dự báo kiện “có” phân biệt tốt đến đâu so với kiện “không” ? - ∞ Độ xác dự báo quan tốt = hệ với tính ngẫu nhiên xấu = nào? HSS Chỉ số kỹ Heidke Bảng 2.3: Bảng ngẫu nhiên dự báo đa nhóm Dự báo Nhóm Tổng i,j K n(F1,O1) n(F1,O2) n(F1,OK) N(O1) Quan trắc n(F2,O1) n(F2,O2) n(F2,OK) N(O2) Nhóm Tổng K n(FK,O1) n(FK,O2) n(FK,OK) N(OK) N(F1) N(F2) N(FK) N Bảng 2.4: Bảng số đánh giá dự báo đa nhóm Chỉ số Biểu thức tính Accuracy Giá trị 01 tốt = Ý nghĩa Dự báo phần trăm? Chỉ số kỹ Heidke - ∞ Độ xác dự báo tốt = quan hệ với tính ngẫu xấu = nhiên nào? -1 tốt = xấu = Biệt thức Hanssen Kuipers Dự báo kiện “có” phân biệt tốt đến đâu so với kiện “không” ? 2.3.4 Phương pháp đánh giá dự báo biến liên tục Minh họa cho phương pháp đánh giá dự báo biến liên tục phương pháp thống kê ví dụ tập hợp 10 ngày nhiệt độ dự báo Stanski vcs (1989) Đánh giá dự báo biến liên tục thường thực đồ thị tụ điểm đồ thị hộp vài số tổng quát Bảng Bảng 2.5: Bảng số đánh giá dự báo biến liên tục Chỉ số Giá trị -∞∞ tốt = 0 ∞ tốt = Ý nghĩa Sai số dự báo trung bình bao nhiêu? Biên độ trung bình sai số dự báo RMSE 0 ∞ tốt = Biên độ trung bình sai số dự báo Hệ số tương quan r -11 tốt = Tương quan giá trị dự báo giá trị quan trắc ME MAE Biểu thức tính 2.3.5 Phương pháp đánh giá dự báo xác suất Dự báo xác suất cho biết xác suất xuất kiện với giá trị từ 0-1 (hay 0-100 Một phương pháp đánh giá dự báo xác suất mơ hình khí hậu thường sử dụng biểu đồ ROC (Relative Operating Characteristic) biểu diễn xác suất phát kiện POD thông qua xác suất phát sai kiện POFD sử dụng tập hợp ngưỡng xác suất tăng dần (ví dụ 0.05, 0.15, 0.25, …) để đưa định kiện có/khơng xảy Diện tích nằm bên đường cong ROC thường sử dụng làm số để đưa định Chỉ số cho biết khả dự báo việc phân biệt kiện có xảy hay không Kỹ tốt đường cong nằm từ đáy bên trái đến đỉnh bên trái biểu đồ sau cắt đỉnh bên phải biểu đồ Đường chéo biểu thị không kỹ (no skill) Chỉ số hồn hảo ROC=1 Có thể xem thêm ROC tài liệu Mason (1982), Jolliffe Stephenson (2003) Hình biểu diễn ví dụ đường cong ROC Hình 2.5: Đường cong ROC (WWRP/WGNE Joint Working Group on Verification) Chương sau trình bày kết nghiên cứu luận án Ch¬ng : MƠ HÌNH RegCM3 MƠ PHỎNG HỒN LƯU, NHIỆT ĐỘ VÀ MƯA TRONG MÙA GIĨ MÙA MÙA HÈ TRÊN KHU VỰC ĐƠNG NAM Á Ch¬ng : HIỆU CHỈNH NHIỆT ĐỘ VÀ LƯỢNG MƯA CỦA MƠ HÌNH RegCM3 BẰNG PHƯƠNG PHÁP THỐNG KÊ Từ kết đánh giá nhiệt độ lượng mưa mô cho Việt Nam khu vực chương cho thấy nhiệt độ lượng mưa mô hình có sai số hệ thống rõ ràng so với quan trắc Tuy nhiên, hiệu chỉnh học cách cộng trừ lượng để đưa mô giá trị quan trắc thực Thông thường, để đơn giản, người ta xây dựng phương trình hồi quy tuyến tính để hiệu chỉnh sản phẩm mơ hình giá trị quan trắc qua số thử nghiệm nhận thấy hồi quy tuyến tính khơng cho kết tốt Mặt khác, thân hệ số tương quan nhiệt độ (lượng mưa) mô nhiệt độ (lượng mưa) quan trắc khoảng 0.6 (0.1-0.2) nên mối quan hệ tuyến tính sản phẩm mơ hình với đại lượng quan trắc khơng mạnh Do đó, chương này, chúng tơi sử dụng mạng thần kinh nhân tạo (ANN) để xây dựng mối quan hệ nhiệt độ (lượng mưa) mô hình quan trắc, từ hiệu chỉnh giá trị mô gần với thực tế Mục 4.1 giới thiệu cấu trúc liệu quy trình hiệu chỉnh ANN, mục 4.2 kết hiệu chỉnh nhiệt độ lượng mưa mục 4.3 đánh giá thống kê so sánh kết trước sau hiệu chỉnh ANN năm số liệu độc lập 4.1 Dữ liệu quy trình hiệu chỉnh Chương trình ANN sử dụng luận án phần chương trình Matlab - phần mềm tính tốn với ma trận hiệu Mỹ có mã nguồn mở Thực chất, chúng tơi xây dựng chương trình luyện ANN riêng dựa mã nguồn Matlab cho kết tương tự sử dụng phần mềm tiện ích đồ họa Matlab nên sử dụng Matlab để luyện ANN hiển thị kết Bộ số liệu nhiệt độ (lượng mưa) ngày tháng mùa hè 10 năm chia thành phần cách ngẫu nhiên, năm số liệu phụ thuộc để luyện mạng năm số liệu độc lập để áp dụng hiệu chỉnh đánh giá năm số liệu phụ thuộc 1992, 1993, 1994, 1997, 1999, 2000 năm để hiệu chỉnh 1991, 1995, 1996 1998 60 trạm Việt Nam luyện 60 mạng ANN riêng Mỗi mạng ANN bao gồm đầu vào nhiệt độ (hoặc lượng mưa) phiên Reg+GAB, Reg+TieB Reg+TieZ trạm đích nhiệt độ (lượng mưa) quan trắc trạm tương ứng Số lớp ẩn với số nút lớp Hàm truyền lớp đầu vào lớp ẩn lớp ẩn hàm tang hypebol sigma hàm truyền lớp ẩn cuối với lớp kết xuất hàm tuyến tính Số hệ luyện nhiệt 300 mưa 1000 hệ Để tránh tượng “quá khớp”, đánh giá sai số RMSE chuỗi số liệu độc lập cách nhân số liệu với trọng số sau hệ luyện Nếu sai số khuếch đại lớn dừng trình luyện lấy trọng số trọng số thời điểm dừng Đây nguyên tắc “early stopping” mạng Leveberg-Marquardt Sau luyện cho 60 trạm, thông số số lớp ẩn, nút ẩn, giá trị trọng số lớp lưu riêng sử dụng để đánh giá khả hiệu chỉnh số liệu phụ thuộc độc lập Do trọng số lớp ẩn lớp xuất có dạng ma trận phức tạp, không đơn giản phương trình hồi quy tuyến tính nên khơng trình bày cụ thể Các kết hiệu chỉnh trình bày mục 4.2 4.2 Kết hiệu chỉnh 4.2.1 Nhiệt độ Do Reg+TieB có kỹ tái tạo nhiệt độ bề mặt tốt số phiên thử nghiệm nên so sánh nhiệt độ sau hiệu chỉnh ANN, ký hiệu Reg+ANN, với nhiệt độ Reg+TieB cách vẽ biểu đồ tụ điểm Error: Reference source not found Các điểm tập trung quanh đường chéo nghĩa mô hình gần với quan trắc Reg+ANN hiệu chỉnh tốt nhiệt độ ngày Việt Nam khu vực Khi hiển thị chuỗi thời gian trung bình tháng đánh giá thống kê thực với phiên Reg+GAB Reg+TieZ (a1) Việt Nam, Reg+TieB (a2) Việt Nam, Reg+ANN Hình 4.6 : Nhiệt độ trung bình 18 tháng năm số liệu phụ thuộc (92, 93, 94, 97, 99, 2000) (a) Quan trắc, (b) Reg+TieB (c) Reg+ANN Đơn vị độ C Hình 4.7 : Tương tự Hình năm số liệu độc lập (91, 95, 96, 98) Hình 4.8 : Chuỗi thời gian nhiệt độ trung bình tháng Việt Nam Tây Bắc+Việt Bắc năm, số liệu phụ thuộc Đơn vị độ C Hình 4.9 : Chuỗi thời gian nhiệt độ tháng 6/1998 (a) Tây Bắc Việt Bắc, (b) Đông Bắc Bộ, Đồng Bắc Bộ Bắc Trung Bộ Đơn vị độ C Đường nét liền với dấu hoa thị Reg+TieB, đường nét liền đậm quan trắc đường nét đứt với dấu nhiệt độ hiệu chỉnh ANN 4.2.2 Lượng mưa 4.3.Đánh giá thống kê Các số sau tính nhiệt độ ngày lượng mưa trung bình tháng trạm tương tự chương Bảng 4.6 : Bảng số đánh giá biến liên tục nhiệt độ ngày, trạm Việt Nam quan trắc phiên Reg+GAB, Reg+TieB, Reg+TieZ, năm (98, 96, 91, 95) Phiên TrBình mơ hình Reg+GAB Reg+TieB Reg+TieZ Reg+ANN 26.141 27.017 26.765 27.520 TrBình qtrắc 27.686 27.686 27.686 27.686 TBMH /TBQT MAE RMSE 0.944 0.976 0.967 0.994 2.063 1.739 1.802 0.972 2.511 2.229 2.305 1.256 ME -1.545 -0.669 -0.921 -0.166 HSTQ 0.650 0.611 0.610 0.875 Acc 0.279 0.367 0.348 0.575 HK HSS 0.069 0.149 0.128 0.394 0.065 0.147 0.126 0.404 Bảng 4.7 : Bảng số đánh giá biến liên tục lượng mưa trung bình tháng, trạm Việt Nam quan trắc phiên Reg+GAB, Reg+TieB, Reg+TieZ, năm (98, 96, 91, 95) Phiên TrBình mơ hình Reg+GAB Reg+TieB Reg+TieZ Reg+Tổ hợp Reg+ANN 5.064 11.248 8.061 8.124 8.353 TrBình qtrắc 7.940 7.940 7.940 7.940 7.940 TBMH /TBQT MAE RMSE ME 0.638 1.417 1.015 1.023 1.052 4.615 7.265 5.437 4.817 2.991 6.195 10.922 7.287 6.417 3.906 -2.877 3.308 0.120 0.184 0.412 HSTQ 0.259 0.030 0.110 0.134 0.675 Acc 0.306 0.304 0.302 0.322 0.511 HK HSS 0.084 0.028 0.022 0.014 0.264 0.079 0.028 0.022 0.015 0.278 Các số đánh giá cho thấy với Reg+ANN, sai số RMSE nhiệt độ ngày tính cho Việt Nam giảm từ 2.2 oC (Reg+TieB) xuống 1.2oC HSTQ tăng từ 0.6 lên gần 0.9 Độ xác Acc tăng gấp 1.5 lần biệt thức HK hệ số kỹ HSS tăng gần gấp lần (Bảng 6) Đối với lượng mưa trung bình tháng Việt Nam, RMSE giảm từ 6.2 (Reg+GAB) 6.4 (Reg+Tổ hợp) xuống 3.9 HSTQ tăng từ 0.2 0.1 lên 0.7 lúc Acc, HK HSS tăng gấp 3-3.5 lần (Bảng 7) Các số khu vực có xu tương tự (xem Error: Reference source not found Error: Reference source not found) Bảng 4.8 : Bảng số đợt nắng nóng (nhiệt độ trung bình khu vực ngày liên tiếp vượt TBNN) năm (98, 96, 91, 95) phiên Reg+GAB, Reg+TieB, Reg+TieZ, quan trắc nhiệt độ hiệu chỉnh ANN Reg+GAB Reg+TieB Reg+TieZ Qtrắc Reg+ANN Khu vực Năm 1998 Tây Bắc 1996 1 Việt Bắc 1991 0 1995 1 5 Tổng 29 25 Đông Bắc Bộ, 1998 Đồng 1996 1 Bắc Bộ 1991 0 Bắc Trung Bộ 1995 4 Tổng 11 25 19 1998 Trung Trung Bộ 1996 0 1991 Nam Trung Bộ 1995 4 Tổng 10 24 13 1998 2 1996 2 Tây Nguyên 1991 2 1995 Tổng 13 27 19 1998 3 10 1996 7 Nam Bộ 1991 1995 10 Tổng 25 25 27 23 Bảng 4.9 : Bảng số đợt mưa vừa mưa lớn (lượng mưa trung bình khu vực, ngày liên tiếp có lượng mưa ngày vượt 10mm/ngày) năm (98, 96, 91, 95) phiên Reg+GAB, Reg+TieB, Reg+TieZ, Reg+Tổ hợp, quan trắc lượng mưa hiệu chỉnh ANN Khu vực Tây Bắc Việt Bắc Đông Bắc Bộ, Đồng Bắc Bộ Bắc Trung Bộ Năm Reg+GAB Reg+TieB Reg+TieZ Reg+Tổ hợp Qtrắc Reg+ANN 1998 1996 1991 1995 Tổng 1998 1996 1991 1995 3 1 7 24 4 4 14 5 17 4 6 21 3 2 8 28 3 Trung Trung Bộ Nam Trung Bộ Tây Nguyên Nam Bộ Tổng 1998 1996 1991 1995 Tổng 1998 1996 1991 1995 Tổng 1998 1996 1991 1995 Tổng 0 2 0 1 16 19 4 17 2 10 14 1 0 0 10 3 15 10 0 0 13 4 13 14 0 0 0 10 Số ngày nắng nóng số đợt mưa lớn năm 91, 95, 96, 98 trình bày Bảng Bảng Một đợt nắng nóng xác định nhiệt độ ngày liên tiếp vượt nhiệt độ TBNN mùa hè Năm 1996 có số đợt nắng nóng nhiều năm 1998 biên độ nhiệt độ thấp Một đợt mưa vừa mưa lớn xác định ngày liên tiếp có lượng mưa ngày vượt q 10mm/ngày Reg+TieB mơ số đợt nắng nóng tốt Reg+GAB, Reg+TieZ khơng biểu diễn nhiều đợt Reg+ANN nắm bắt hầu hết số đợt nắng nóng tổng số đợt năm năm này, đặc biệt tốt Tây Bắc Việt Bắc (kém quan trắc đợt), tốt Đông Bắc Bộ, Đồng Bắc Bộ Bắc Trung Bộ (kém quan trắc đợt) Tại khu vực ven biển Trung Bộ Tây Nguyên, Reg+ANN tái tạo quan trắc 11 đợt nắng nóng Nhìn chung, khu vực này, Reg+ANN tái tạo số đợt nắng nóng tốt Reg+TieB Chỉ riêng Nam Bộ, Reg+ANN Reg+TieB đợt nên tái tạo quan trắc đợt nắng nóng Xem xét riêng số đợt nắng nóng năm ta thấy, Reg+ANN tạo số đợt nắng nóng nhiều quan trắc năm 1998 lại năm cịn lại năm 1991 1995 năm có nhiệt độ cao TBNN ảnh hưởng El Nino yếu Bảng cho thấy phiên Reg+TieB tạo nhiều đợt mưa vừa lớn nước, phù hợp Bắc Bộ, Bắc Trung Bộ, Tây Nguyên Nam Bộ, nơi có nhiều mưa lớn vào mùa hè dự báo khống nhiều khu vực ven biển Trung Bộ Phiên Reg+Tổ hợp tái tạo số đợt mưa vừa lớn gần quan trắc tốt so với phiên thành phần Sau hiệu chỉnh ANN, số đợt mưa phiên Reg+ANN nhìn chung gần với quan trắc có xu hướng tạo nhiều đợt mưa vừa lớn quan trắc Bắc Bộ Bắc Trung Bộ tạo đợt mưa Tây Nguyên Nam Bộ, đặc biệt mô tả số đợt mưa khu vực ven biển Trung Bộ Tuy nhiên, lượng mưa ngày không cải thiện đáng kể nhờ hiệu chỉnh ANN Chỉ số ROC đánh giá kỹ dự báo phân biệt ngưỡng mưa lượng mưa ngày Reg+Tổ hợp Reg+ANN gần khơng khác (Hình 10) Tại khu vực, ngưỡng Reg+ANN có số ROC lớn chút lại chút so với Reg+Tổ hợp khu vực khác ngưỡng khác Như vậy, sau hiệu chỉnh ANN cải thiện lượng mưa trung bình tháng khả nắm bắt đợt mưa vừa lớn khu vực Việt Nam (a) Mưa, 10mm/ngày, Tây Bắc Việt Bắc (b) 10mm/ngày, Trung Trung Bộ Nam Trung Bộ (d) 10mm/ngày, Tây Nguyên (c) 5mm/ngày, Trung Trung Bộ Nam Trung Bộ (e) 25mm/ngày, Tây Nguyên (f) 25mm/ngày, Đông Bắc Bộ, Đbằng Bắc Bộ Bắc Trung Bộ Hình 4.10 : Đường cong ROC phiên Reg+Tổ hợp Reg+ANN lượng mưa ngày tháng mùa hè năm (1998, 1991, 1996 1995) ... ứng với hàm truyền ANN Các khớp thần kinh sinh học (Synapses) tương ứng với trọng số ANN Cuối thông tin tới quan thực hành động, tương ứng với việc ANN cho kết xuất (output) ANN phức tạp bao gồm... hình hố ơzơn (Narasimhan vcs., 2000) Thuật toán Levenberg-Marquardt cải tiến phương pháp lan truyền ngược grandient giảm dốc trọng số cập nhật khơng phải số theo thời gian mà biến đổi tùy thuộc... hiệu chỉnh ANN, ký hiệu Reg+ANN, với nhiệt độ Reg+TieB cách vẽ biểu đồ tụ điểm Error: Reference source not found Các điểm tập trung quanh đường chéo nghĩa mơ hình gần với quan trắc Reg+ANN hiệu