Phương pháp hồi quy từng bướ c

Một phần của tài liệu nghiên cứu ứng dụng công nghệ viễn thám và gis phục vụ giám sát trạng thái sinh trưởng, phát triển và dự báo năng suất lúa ở đồng bằng sông hồng (Trang 76 - 81)

b) Tình hình phát triển kinh tế vùng Đồng bằng sông Hồng

5.1.1. Phương pháp hồi quy từng bướ c

Như đã biết, trong nghiên cứu khí tượng thuỷ văn nói chung và khí tượng nông nghiệp nói riêng ta thường gặp bài toán hồi quy nhiều biến. Tuy nhiên, các yếu tố khí tượng nông nghiệp nói chung thường có tác động qua lại ảnh hưởng lẫn nhau và ảnh hưởng đến nhân tố dự báo. Bởi vậy, khái niệm biến độc lập chỉ

mang ý nghĩa hình thức. Điều đó có nghĩa là giữa các biến độc lập thường có mối quan hệ tương quan nào đó. Mặt khác, giữa các biến độc lập và biến phụ

thuộc cũng tồn tại những mối quan hệ ràng buộc. Do đó, có thể xảy ra tình trạng các biến độc lập được chọn đều tương quan tốt với nhau và tương quan tốt với cả biến phụ thuộc. Ý nghĩa cung cấp thông tin của các biến độc lập vì thế mà giảm đi. Trong nhiều trường hợp, điều đó dẫn đến hậu quả là mặc dù phương trình hồi quy khá phức tạp, do sự có mặt của nhiều biến độc lập nhưng độ chính xác của nó lại kém hơn do sai số quan trắc, sai số ngẫu nhiên, sai số tính toán... mang lại. Vì vậy, vấn đềđặt ra là phải xác định xem những biến nào trong các biến độc lập có ảnh hưởng đáng kể đến biến phụ thuộc, có nhất thiết tất cả các biến được chọn đều phải có mặt trong phương trình hồi quy hay chỉ là một bộ

phận nào đó. Phương pháp hồi quy từng bước sẽ giúp ta giải quyết vấn đề này [5, 6]. Tóm tắt các bước thực hiện trong phương pháp hồi quy từng bước như

sau:

Bước 1: Tính các hệ số tương quan toàn phần giữa X1 (biến phụ thuộc) và (m-1) các biến độc lập Xi (i = 2,3 ,..., m), chọn trong chúng hệ số có giá trị tuyệt

đối lớn nhất. Giả sử r { }r i m i 12 = 2 1 ≤ ≤ max . Khi đó biến X2 là biến có tác động chính đến X1 và ta xác định phương trình hồi quy X1(1) = a1(1) + a2(1).X2.

Tương ứng phương trình này ta tính chuẩn sai thặng dư S(1).

Bước 2: Tính các hệ số tương quan riêng r1,i.2 (i = 3, ..., m) và chọn hệ số

có giá trị lớn nhất trong chúng. Giả sử r { }r i m i 13 2. = max3 1 2. ≤ ≤ , khi đó ta chọn tiếp biến X3 và xác định phương trình hồi quy: X1(2) = a1(2) + a2(2)X2 + a3(2)X3.

Tương ứng với nó ta tính chuẩn sai thặng dư S(2) và phương trình hồi quy hai biến này có độ chính xác được đánh giá bởi S(2).

Bước 3: So sánh giá trị chuẩn sai thặng dư S(2) với S(1). Nếu

( ) ( ) ( ) S S S 2 1 2 − 〈ε thì biến X3 bị bỏ qua và một biến khác trong số các biến còn lại sẽđược lựa chọn để tính như bắt đầu từ bước 2. Ởđây ε là một số dương ta đưa vào đểđánh giá xem nếu tăng thêm biến cho phương trình hồi quy thì độ chính xác có tăng lên đáng kể hay không? (khi thêm vào phương trình hồi quy một biến mới thì đóng góp thông tin của nó làm giảm sai số được bao nhiêu phần trăm). Nếu mức độ giảm không vượt quá ε thì có thể bỏ qua nó. Quá trình cứ tiếp tục như vậy cho đến khi hết tất cả các biến. Sau quá trình lọc biến, mô hình sẽ chọn ra

được các yếu tố khí tượng nông nghiệp có ảnh hưởng đáng kể nhất đến năng suất, trên cơ sởđó xây dựng các phương trình hồi quy dùng để dự báo năng suất.

Việc ứng dụng phương pháp hồi quy từng bước trong xây dựng các phương trình dự báo năng suất được thực hiện thông qua mô hình "Thống kê thời tiết - cây trồng". Mô hình thống kê thời tiết – cây trồng được xây dựng trên cơ sở

nghiên cứu của các nhà nghiên cứu khí tượng nông nghiệp trên thế giới (WMO, 2000), trong đó năng suất cây trồng có thể được tách thành 3 hợp phần do 3 nhóm yếu tố có ảnh hưởng nhiều nhất đến năng suất như sau:

1/ Nhóm các thành phần không ngẫu nhiên; 2/ Nhóm các thành phần ngẫu nhiên và

3/ Nhóm các nhiễu ngẫu nhiên (random noises).

Hình 5.1. Sơ đồ mô tả các hợp phần của năng suất lúa theo mô hình thống kê

Năng suất xu thế Năng suất thực Năng suất ngẫu nhiên Thời gian Năng suất

Nhóm các tác động của các thành phần không ngẫu nhiên bao gồm các hoạt

động quản lý cây trồng, sử dụng phân bón, bảo vệ thực vật, đặc tính giống, điều kiện đất đai, canh tác và những tiến bộ kỹ thuật khác do con người tạo nên. Thành phần năng suất được tạo nên bởi tác động của nhóm những yếu tố này trong điều kiện thời tiết bình thường được gọi là thành phần “năng suất xu thế” (đường đứt nét hình 5.1).

Nhóm các tác động của thành phần ngẫu nhiên bao gồm các điều kiện khí hậu thời tiết và trạng thái cây trồng, khả năng hấp thụ bức xạ quang hợp để tạo sinh khối của cây trồng của năm cụ thể tạo nên. Thành phần năng suất được tạo nên bởi tác động của thành phần ngẫu nhiên trong các mô hình dự báo năng suất cây trồng trước đây chủ yếu là điều kiện khí hậu thời tiết của năm cụ thể chứ

không xét đến trạng thái sinh trưởng của cây trồng ở thời điểm dự báo và thành phần năng suất này được gọi là "năng suất thời tiết". Để đánh giá được phần năng suất do tác động của các thành phần ngẫu nhiên, ngoài các yếu tố khí hậu thời tiết cụ thể của năm dự báo chúng tôi còn xét đến thành phần bức xạ quang hợp được cây lúa hấp thụ (APAR) để tạo sinh khối đến thời điểm dự báo.

Nhóm các tác động nhiễu ngẫu nhiên gồm những tác động khác không

được tính đến trong hai nhóm đầu như là sai số ngẫu nhiên trong quá trình thống kê.

Vì vậy, một cách tổng quát có thể viết:

Y = Yt + Yr + ∆Y (5.1) Trong đó: Y - năng suất cây trồng;

Yt - thành phần năng suất xu thế do nhóm các tác động không ngẫu nhiên tạo nên; là hàm của thời gian và được hình thành trong trạng thái thời tiết ở mức trung bình.

∆Y - sai số ngẫu nhiên; thường được bỏ qua trong dự báo năng suất.

Yr – thành phần năng suất ngẫu nhiên là hàm của các điều kiện thời tiết từng năm cụ thể và bức xạ quang hợp được cây lúa hấp thụ

tạo nên sinh khối và được tính:

Yr = f(điều kiện thời tiết, APAR) (5.2) APAR = PAR * FAPAR (5.3)

Trong đó: PAR - Bức xạ quang hợp (kcal/cm2). Bức xạ quang hợp là lượng bức xạ mặt trời trong dải phổ khoảng từ 0.4 – 0.8 µm mà cây xanh có thể hấp thụ được trong quá trình quang hợp và được tính theo công thức:

PAR = 1/2 * Q, (5.4) Q là bức xạ tổng cộng

Do hiện nay ở khu vực Đồng bằng sông Hồng chỉ có 2 trạm đo bức xạ tổng cộng. Vì vậy, để xác định được bức xạ tổng cộng hay bức xạ quang hợp cho các tỉnh Đồng bằng sông Hồng cần phải tính thông qua số giờ nắng và số giờ chiếu sáng theo thiên văn. Q = Qa * (a + b * n/N) (5.5) Trong đó: Q - Bức xạ tổng cộng a, b - hằng số thực nghiệm: a = 0,18; b = 0,61 (Nguyễn Văn Viết - 2008) n - Số giờ nắng

N - Số giờ chiếu sáng theo thiên văn phụ thuộc vĩ độ và ngày tháng trong năm (bảng P.5.1 - Phụ lục)

Qa - Bức xạ ngoài khí quyển (FAO-56)

[ sin( )sin( ) cos( )cos( )sin( )] ) 60 ( 24 s s r sc a G d Q ω ϕ δ ϕ δ ω π + = (5.6)

Trong đó: Gsc - Hằng số mặt trời = 0.082 MI/m2.min

dr - Nghịch đảo khoảng cách giữa trái đất và mặt trời ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = J dr 365 2 cos 033 , 0 1 π (5.7) J - Số ngày trong năm tính từ ngày 1/1

ωs - góc lặn của mặt trời (rad):

ωs = arccos[−tan(ϕ)tan(δ)] (5.8)

ϕ - Vĩ độđịa lý (rad) δ - Xích vĩ (rad): ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = 1.39 365 2 sin 409 , 0 π J δ (5.9)

Kết quả tính bức xạ quang hợp (PAR) được thể hiện trên bảng P.5.2-P.5.11 phần phụ lục.

FAPAR - Hệ số quang hợp của cây trồng (cây lúa)

) R ( ) R ( ) ( ) NDVI - (NDVI AR min max min max min max min FPAR FPA f FAPAR FPAR FPA NDVI NDVI FAP c − = − − = (5.10) Trong đó: fc - hệ số biểu hiện độ che phủ của cây trồng

FPAR - Khả năng hấp thụ bức xạ quang hợp để tạo sinh khối của cây trồng

Trong các kết quả nghiên cứu xác định hệ số độ che phủ của cây lúa từảnh MODIS [38, 39, 40,42] cho thấy khi cây lúa mới cấy có độ che phủ khoảng 5% thì chỉ số NDVI ≈ 0 và NDVImin được lấy bằng 0,001 và khi cây lúa trong giai

đoạn phát triển tốt nhất có độ che phủ là 95% thì chỉ số NDVImax≈ 0,5 (Trương Giai Hoa - 1998). (Theo P.J. Sellers, 1994): FPARmin = 0,001 và FPARmax = 0,95.

Như vậy công thức (5.3) tính APAR có dạng:

APAR = PAR * 1,89762 (NDVI - 0,001) (5.11)

Trong dự báo thống kê do ∆Y - sai số ngẫu nhiên thường được bỏ qua nên khi dự báo năng suất, năng suất dự báo có thểđược tính như sau:

Y' = Y't + Y'r (5.12) Trong đó: Y' - năng suất dự báo

Y't - năng suất "xu thế" dự báo; Y'r - năng suất "ngẫu nhiên" dự báo.

Trong mô hình thống kê thời tiết - cây trồng, năng suất xu thế được xác

định bằng cách chọn từ một loạt hàm số theo các dạng tuyến tính, phi tuyến tính, trung bình trượt với các bước trượt khác nhau hoặc hàm thích hợp theo từng giai

đoạn thời gian sao cho phù hợp nhất với năng suất thực của các vùng đã chọn. Việc chọn dạng đường xu thếđược dựa trên cơ sở sao cho phân bố của độ lệch năng suất thực tế so với năng suất xu thế tương ứng tiến gần đến quy luật phân bố chuẩn. Điều này sẽ hạn chế được tính chủ quan trong các kết quả thu được khi xây dựng mô hình dự báo. Sau khi tính được năng suất xu thế sẽ tính được giá trị chênh lệch giữa năng suất thực và năng suất xu thế như sau:

Yr = Y - Yt (5.13)

Các giá trị Yr này sẽđược sử dụng ở bước tiếp trong mô hình thống kê thời tiết - cây trồng để tìm phương trình dự báo thành phần “năng suất ngẫu nhiên” theo phương pháp hồi quy từng bước bằng phép lọc Stepwise với ngưỡng lọc biến theo chỉ tiêu Fisher. Như vậy, bằng phương pháp hồi qui từng bước với sự trợ

giúp của mô hình thống kê thời tiết - cây trồng sẽ tìm được các phương án tính các thành phần năng suất xu thế và thành phần "năng suất ngẫu nhiên" từ đó sẽ đưa ra các phương án tính năng suất cây trồng, trên cơ sởđó sẽ tiến hành chọn lọc các phương trình dự báo năng suất tối ưu.

Trên cơ sở phương trình dự báo năng suất lúa ở Đồng bằng sông Hồng bằng dữ liệu ảnh MODIS, tiến hành dự tính ước lượng sản lượng lúa cho từng tỉnh:

Sản lượng lúa của 1 pixel = Y * diện tích ô pixel (5.14) Y - năng suất lúa dự báo đã được xây dựng

Dữ liệu ảnh MODIS được sử dụng trong giám sát và dự báo năng suất lúa

Đồng bằng sông Hồng có độ phân giải 250m x 250m và diện tích 1 ô pixel là 62500m2 (6.25ha). Như vậy:

SLlúa của 1 pixel = Y * 6,25 và (5.15) SLlúa của tỉnh = n * Sản lượng lúa 1 pixel = n * Y * 6,25 (5.16) Trong đó: SLlúa – Sản lượng lúa

n - số lượng pixel được xác định trồng lúa của tỉnh dự báo

5.1.2. S liu s dng

Số liệu được thu thập và sử dụng trong xây dựng các phương trình dự báo năng suất lúa đông xuân và mùa ở các tỉnh Đồng bằng sông Hồng bao gồm:

a. Số liệu năng suất, sản lượng: Số liệu năng suất, sản lượng của cây lúa vụ đông xuân và mùa được thu thập và sử dụng trong nghiên cứu là số liệu năng suất trung bình và tổng sản lượng theo tỉnh của các năm từ năm 2000 đến 2009 do Tổng cục Thống kê cung cấp.

Thời vụ gieo trồng chính được tổng hợp từ kết quả xác định thời vụ gieo trồng do Trung tâm Khuyến nông và Viện Quy hoạch và Thiết kế Nông nghiệp - Bộ Nông nghiệp và Phát triển Nông thôn cung cấp và trên cơ sở số liệu điều tra trực tiếp từ các tỉnh, cụ thể như sau:

• Vụđông xuân: thời gian cấy đại trà từ 15/I - 15/II, thu hoạch vào cuối tháng V đến trung tuần tháng VI

• Vụ mùa: cấy đại trà từ cuối tháng VI, đầu tháng VII và thu hoạch vào tháng X

Một phần của tài liệu nghiên cứu ứng dụng công nghệ viễn thám và gis phục vụ giám sát trạng thái sinh trưởng, phát triển và dự báo năng suất lúa ở đồng bằng sông hồng (Trang 76 - 81)

Tải bản đầy đủ (PDF)

(120 trang)