Việc giữ lại các thành phần chính được dựa trên các giá trịriêng λi của ma trận hiệp phương sai là lớn hay bé. Tuy nhiên, cácλi là chưa biết. Hơn nữa, chất lượng của thành phần chính thứ i phụ thuộc vào λi và vectơ riêng ei. Vì vậy, việc tìm khoảng tin cậy của cácλi, vectơ riêngei và do đó thành phần chínhYi dựa trên một
mẫu ngẫu nhiên X1, . . . ,Xn cần được nghiên cứu. Tuy vậy, việc xác định phân bố củaλi vàei rất khó. Tuy nhiên, người ta cũng đã thu được phân bố mẫu củaλi và ei như sau
Phân bố mẫu củaλi vàei
Giả thiết rằng X1, . . . ,Xn là n quan sát độc lập của vectơ X có phân bố chuẩn
Nk(μ,Σ), trong đó Σ là ma trận xác định dương với các giá trị riêng λ1 > λ2 >
. . . > λk > 0đều chưa biết. Giả sử(λi,ei)là cặp giá trịriêng và vectơ riêng của ma
trận hiệp phương sai mẫuS sao choλ1 ≥λ2 ≥ . . .≥λk. Khi đó,
1. Đặt Λ là ma trận chéo với các giá trịriêng λ1, λ2, . . . , λk ở trên đường chéo chính. Khi đó √
n(λ − λ) có phân bố gần chuẩn Nk(0,2Λ2), trong đó λT =
(λ1, λ2, . . . , λk),λT = (λ1,λ2, . . . ,λk). 2. Đặt Ei = λi k j=1,ji λj (λj−λi)2eieTj,
trong đó ej là vectơ riêng ứng với giá trịriêng λj của
. Khi đó√
n(ei −ei)
có phân bố xấp xỉ chuẩn Nk(0,Ei).
3. Mỗiλi có phân bố độc lập với phần tửei.Từ kết luận 1 ta nhận được
P{|λi−λi| ≤ uα 2 λ i √ 2/n}= 1−α
do đó khoảng tin cậy với mức tin cậy1−α củaλi là λi 1+uα 2 √ 2/n < λi < λi 1−uα 2 √ 2/n . Ví dụ 1.3.13. Xét Ví dụ 1.2.1 ta có
Khoảng tin cậy mức0.95(α = 0.05)củaλ1 vàλ6 là
16.555 1+1.96√ 2/16 < λ1 < 16.555 1−1.96√ 2/16 hoặc9.779 < λ1 < 53.918. 0.3 1+1.96√ 2/16 < λ6 < 0.3 1−1.96√ 2/16 hoặc0.177 < λ6 < 0.977.
Ứng dụng trong phân tích thổ nhưỡng đất trồng trọt của huyện Thanh Ba - Phú Thọ
2.1 Phần mềm trợ giúp việc tính toán
2.1.1 Giới thiệu chung
Qua Ví dụ 1.2.1 sử dụng phân tích chùm và phân tích thành phần chính trong phần lý thuyết trên, ta thấy rằng, về nguyên tắc là chúng ta hoàn toàn có thể tính toán bình thường bằng dùng các phần mềm thống kê như Maple, Minitab, SPSS. Luận văn này đã sử dụng phần mềm Maple cho việc tính toán với lượng số liệu là ít như trong các ví dụ, và cũng đã dùng phần mềm Minitab để chạy thử số liệu trong ứng dụng. Tuy nhiên với số lượng dữ liệu lớn như vậy thì hai phần mềm Maple và Minitab là không hiệu quả. Vì vậy luận văn trình bày ứng dụng bằng sử dụng phần mềm SPSS.
2.1.2 Phần mềm SPSS
SPSS là tên viết tắt của một phần mềm thống kê nổi tiếng "Statistical Packages for Social Sciences" của công ty SPSS (Mỹ). Phần mềm này được phát triển từ năm 1960, lúc đầu chỉ hoạt động trên máy tính lớn. Khi máy tính cá nhân trở thành phổ biến, công ty SPSS đã thành công trong việc đưa ra các phiên bản SPSS chạy trên hệ điều hành Windows. SPSS trở thành một công cụ phân tích thống kê không thể thiếu được để thực hiện các phương pháp phân tích định lượng. Gần đây, công
ty SPSS đã đổi tên phần mềm SPSS thành PASW (Predictive Analytics Software) Statistics nhằm thể hiện ý tưởng kết hợp công cụ thống kê toán học với việc phân tích dự báo. Sau đây là trình bày lại Ví dụ1.2.1 về mối liên hệ giữa các giống lúa, thời gian sinh trưởng và đặc điểm hình thái của 16 dòng lúa trong vụ mùa năm 2009 tại Gia Lâm - Hà Nội đã được trình bày ở trên.
2.1.3 Sử dụng SPSS trong phân tích chùm
Mở tệp dữ liệu gionglua.sav vào analyze Classify Hierarchical cluster. Chọn tất cả các biến vào Variables Label cases by Dòng. Trong statistics, Plots và Method chọn như trên các hình sau.
Ta được kết quả như sau:
Hình 2.1 là biểu diễn sự phân nhóm trên không gian các biến theo liên kết đơn. Từ đồ thịta thấy rằng
Nếu cắt đồ thịở mức 2 ta được ba nhóm là (34), (56), (1)và (2). Cắt ở mức 3 thì ta được hai nhóm là (3456) và (12). Và cuối cùng là (123456) lập thành một nhóm. Giống với việc tính toán trong Ví dụ 1.2.1 ở trên. Tuy nhiên, chúng ta không phải tính toán nhiều, có được đồ thịminh họa trực quan hơn, và khi số liệu là một lượng lớn hơn thì chúng ta vẫn làm được. Ngoài ra chúng ta còn có thể phân tích chùm trên không gian các đối tượng.
2.1.4 Sử dụng SPSS trong phân tích thành phần chính
Mở tệp Gionglua.sav vào analyze Data reduction Factor analysis. Chọn các biến vào Variables. Trong Descriptives, Extraction, Ratation, Scores và Options chọn như sau:
Từ đó ta có các kết quả:
Hình 2.2: Đồ thịbiểu diễn các thành phần chính.
Từ đồ thịtrên ta nên chọn hai thành phần chính. Tuy nhiên để biết thành phần chính thứ nhất liên quan đến đối tượng nào, thành phần chính thứ hai liên quan đến đối tượng nào thì ta xem ma trận tương quan sau.
Hình 2.3: Ma trận tương quan.
Dựa vào ma trận ta có thể biết được thành phần chính thứ nhất liên quan chủ yếu đến chiều rộng lá đòng và góc lá. Cũng có liên quan nhưng ít hơn đấy là thời gian
sinh trưởng và chiều cao bông. Thành phần chính thứ hai liên quan chủ yếu là chiều dài lá đòng.
Hình 2.4: Biểu diễn các đối tượng trên mặt phẳng chính.
Từ mặt phẳng chính ta có thể biết được phân bố của các đối tượng. Tuy nhiên, số liệu ở Ví dụ là quá ít vì thế các kết luận cụ thể hơn khó được đưa ra. Chúng ta sẽ sử dụng hai loại phân tích trên cùng với phần mềm SPSS để khảo sát về một dữ liệu lớn hơn sau đây.
2.2 Số liệu thổ nhưỡng đất
2.2.1 Thổ nhưỡng đất
Thổ nhưỡng là đất mặt tơi xốp của vỏ lục địa, có độ dầy khác nhau, có thể sản suất ra những sản phẩm của cây trồng. Nguồn gốc của đất là từ các đá mẹ nằm trong thiên nhiên lâu đời bịphá hủy dưới tác dụng của yếu tố lý học, hóa học và sinh học. Tiêu chuẩn cơ bản để phân biệt giữa đá mẹ và đất là độ phì nhiêu, nếu chưa có độ phì nhiêu, thực vật cao cấp chưa sống được thì chưa gọi là thổ nhưỡng. Các yếu tố hình thành đất là đá mẹ, các mẫu chất, sinh vật (động vật, thực vật và vi sinh vật), khí hậu, địa hình, thời gian và con người.
Các loại đá nằm trong thiên nhiên chịu tác dụng lý học, hóa học và sinh học dần dần bịphá hủy thành một sản phẩm gọi là mẫu chất. Trong mẫu chất mới chỉ có
các nguyên tố hóa học chứa trong đá mẹ sinh ra nó, còn thiếu một số thành phần quan trọng như chất hữu cơ, đạm nước... vì thế thực vật cao cấp chưa sống được. Trải qua một thời gian dài nhờ tác dụng của sinh vật tích lũy được chất hữu cơ và đạm, thực vật cao cấp sống được, có nghĩa là đã hình thành thổ nhưỡng.
Dù là đất nông nghiệp, đất lâm nghiệp, đất đồng cỏ, thậm chí là đất hoang đều gồm có các thành phần cơ bản cụ thể là thổ nhưỡng gồm chất rắn (chất vô cơ, chất hữu cơ), khe hở giữa các hạt (không khí, nước) và các loài sinh vật.
2.2.2 Sơ lược về điều tra đất
Địa điểm đào phẫu diện phải thật đại diện cho khu vực điều tra. Sau đó khi đào phẫu diện thì đào đến khi nào gặp tầng cứng rắn, đá mẹ hoặc đến độ sâu tối thiểu là 125cm nếu chưa gặp tầng cứng rắn, chiều rộng 70 - 80cm, chiều dài 1.2 - 2.0m. Khi gặp loại đất giống đất ở phẫu diện chính gần đó thì đào phẫu diện phụ sâu 100cm.
Lấy mẫu đất đi phân tích theo trình tự sau: lấy mẫu đất ở đáy phẫu diện, sau đó lấy dần lên các tầng trên, lấy ở tất cả các tầng phát sinh, lấy đều theo độ dày tầng đất, tầng dày chưa đến 50cm lấy một mẫu, tầng dày 50 - 90cm lấy hai mẫu, tầng dày hơn 90cm lấy ba mẫu và mẫu đất phải lấy đủ trọng lượng 1kg. Lấy đất ở các tầng cho vào các ngăn của hộp tiêu bản bằng giấy, gỗ hoặc nhựa. Đất cho vào hộp phải giữ được dạng tự nhiên và đặc trưng cho tất cả các tầng đất. Sau đó mô tả phẫu diện đất.
2.2.3 Một số vấn đề về phẫu diện đất tại Thanh Ba - Phú Thọ
Dựa vào số liệu điều tra ta có thể biết được về phẫu diện đất. Cụ thể là ở số liệu trong luận văn là như sau.
Số liệu được điều tra tại các xã Hanh Cù, Vô Lao, Thanh Xá, Yên Nội, Đông Lĩnh, Chí Tiến, TT Thanh Ba, Thái Ninh, Đồng Xuân, Thanh Vân, Lương Lỗ, Đỗ Sơn, Đông Thành, Năng Yên, Quảng Nạp, Khải Xuân, Hoàng Cương, Thanh Hà, Đỗ Xuyên, Yểu Khê, Sơn Cương, Mạn Lan, Phương Lĩnh, Ninh Dân của huyện Thanh Ba tỉnh Phú Thọ. Trong đó, đã điều tra về địa hình, thành phần cơ giới, màu sắc,
chất hữu cơ và tính kiềm của đất.
Cụ thể là số liệu đã được điều tra trên các loại địa hình khác nhau như đồi, gò, núi, bãi, dốc, nông trường và cánh đồng. Thành phần cơ giới gồm có sét, limon và cát. Và các nguyên tố hóa học chính trong đất như Si, Al, Fe, Ca, Mg, S, N, P, K và một số nguyên tố vi lượng khác.
Dung tích trao đổi cation của đất là tổng số cation (kể cả cation kiềm và không kiềm) được giữ ở trạng thái trao đổi trong 100g đất, tính bằng ly đương lượng gam, ký hiệu bằng chữ CEC.
Dung tích trao đổi cation được xác định bằng cách phân tích trực tiếp hoặc tính theo công thức CEC=S+H. Trong đó S là tổng số cation kiềm, kiềm thổ hấp thụ (chủ yếu là Ca2+, Mg2+, K+ và Na+), H là tổng số ion H+ và Al3+ hấp thụ (độ chua thủy phân). Tất cả đều tính bằng đơn vị1đl/100g đất.
Dung tích trao đổi cation của đất phụ thuộc vào thành phần keo, thành phần cơ giới đất, tỷ lệ SiO2/R2O3 và độ pH. Thành phần keo đất khác nhau thì CEC của đất cũng khác nhau, đất càng nhiều mùn, thành phần cơ giới đất càng nặng, tỉ lệ SiO2/R2O3 càng lớn thì CEC càng lớn, độ pH tăng lên thì CEC cũng tăng lên. Nói chung, CEC có giá trịcàng cao thì đất càng tốt vì chứa nhiều keo. Tuy nhiên, dung tích trao đổi cation chỉ nói lên khả năng trao đổi cation mà chưa nói lên thành phần cation hấp thụ. Thực tế một số đất có CEC lớn nhưng do nhiều H+ nên đất chua. Vì thế, cần có tỷ lệ CEC lớn nhưng tỷ lệ cation bazơ (cả cation kiềm và kiềm thổ) cũng lớn đất mới tốt. Bởi vậy người ta dùng chỉ tiêu độ no bazơ để đánh giá độ phì nhiêu của đất.
Độ no bazơ của đất là tỷ lệ phần trăm các cation kiềm, kiềm thổ chiếm trong tổng số cation kiềm hấp thụ, ký hiệu là BS, đơn vị% và được tính theo công thức BS(%)= (S x 100)/CEC = (S x 100)/(S+H). BS có giá trịcàng lớn thì đất càng bão hòa bazơ. Cụ thể là BS < 50% là đất đói bazơ, BS từ 50% đến 75% là đất có độ bazơ trung bình còn BS > 75% là đất no bazơ.
Như vậy, cả độ pH, CEC và BS đều dùng để đo tính kiềm của đất.
Chất hữu cơ và mùn trong đất
Chất hữu cơ do xác sinh vật phân hủy chiếm dưới 5% trọng lượng hoặc 12% thể tích chất rắn. Dấu hiệu cơ bản làm đất khác đá mẹ là đất có chất hữu cơ và mùn.
Số lượng và tính chất của chúng tác động mạnh mẽ đến quá trình hình thành đất, quyết định nhiều tính chất lý, hóa, sinh và độ phì nhiêu của đất. Về mặt số lượng chất hữu cơ, tiêu chí cơ bản nhất để đánh giá là tỷ lệ %OC (cacbon hữu cơ tổng số) hoặc tỷ lệ % mùn hoặc OM (chất hữu cơ tổng số = 1.72 x OC) so với đất khô kiệt. Giá trịcác chỉ tiêu này càng cao thì đất càng tốt. W.Siderius đã đánh giá hàm lượng chất hữu cơ trong đất (phân tích theo Walkley-Black) theo tiêu chuẩn sau:
Mức độ OC (%) OM (%) Mùn Rất giàu > 3.50 > 6.0 > 8.0 Giàu 2.51 - 3.50 4.3 - 6.0 4.0 - 8.0 Trung bình 1.26 - 2.51 2.3 - 4.3 2.0 - 4.0 Nghèo 0.60 - 1.26 1.0 - 2.2 1.0 - 2.0 Rất nghèo < 0.60 < 1.0 < 1.0 Tổng hợp các chỉ tiêu lý hóa học
Bảng 1. Xếp loại phản ứng của đất (theo pHH2O)
Phản ứng đất pH Phản ứng đất pH Cực kỳ chua <4.5 Trung tính 6.6 - 7.3 Rất chua 4.5 - 5.0 Hơi kiềm 7.4 - 7.8 Chua mạnh 5.1 - 5.5 Kiềm trung bình 7.9 - 8.4 Chua trung bình 5.6 - 6.0 Kiềm mạnh 8.5 - 9.0 Chua nhẹ 6.1 - 6.5 Rất kiềm >9.1
Bảng 2. Dung tích hấp thụ (CEC), độ bão hòa bazơ của đất (BS).
Mức độ CEC (1lđ/100g đất) BS(%) pH (H2O) tương ứng với BS Rất cao >40 81 - 100 6.5 - 7.2
Cao 26 - 40 61 - 80 6.0 - 6.5 Trung bình 13 - 25 41 - 60 5.5 - 6.0 Thấp 6 - 12 21 - 40 5.0 - 5.5 Rất thấp < 6 < 20 < 5.0
Mức độ OM tổng số (%) OC tổng số (%) N tổng số (%) C/N Rất cao > 6.0 > 3.5 > 0.3 > 25 Cao 4.3 - 6.0 2.51 - 3.5 0.226 - 0.3 16 - 25 Trung bình 2.1 - 4.2 1.26 - 2.5 0.126 - 0.225 11 - 15 Thấp 1.0 - 2.0 0.6 - 1.25 0.05 - 0.125 8 - 10 Rất thấp < 1.0 < 0.6 < 0.05 <8
Bảng 4. Hàm lượng lân tổng số trong đất.
Mức độ P2O5 tổng số (%) Giàu > 0.1
Trung bình 0.06 - 0.1 Nghèo 0.06
Bảng 5. Hàm lượng đạm thủy phân
Mức độ N thủy phân (mg/100g đất) Giàu >8
Trung bình 4 - 8 Nghèo 8
Bảng 6. Hàm lượng kali dễ tiêu trong đất.
Mức độ K2O (mg/kg đất) Rất cao >200
Cao 175 - 200 Trung bình 150 - 175 Thấp < 150
2.3 Kết quả áp dụng phương pháp phân tích chùm
Khi phân tích số liệu, các nhà thổ nhưỡng kỳ vọng có thể rút ra một số chỉ số tiêu biểu để phân tích, đánh giá. Việc phân nhóm các biến giúp ta biết được các biến nào có đặc trưng giống nhau, khác nhau. Từ đó rút ra được những kết luận có lợi cho việc nghiên cứu. Do vậy, ta thử dùng phương pháp phân tích chùm để
ghép các biến vào một số nhóm. Bằng cách sử dụng các loại khoảng cách khác nhau như khoảng cách Euclid, Euclid bình phương, Cosine, Tương quan Pearson, Chebychev, Block, Minkowski và Customized trong SPSS. Sau khi xem xét kết quả thì thấy rằng trong tất cả các loại khoảng cách đó thì khoảng cách Tương quan Pearson là hợp lý.
Hình 2.5: Biểu diễn biến được chia thành 3 nhóm.
Cụ thể là từ Hình2.5 ta thấy rằng không gian các biến được chia làm 3 nhóm. Trong đó nhóm 1 gồm các biến pHH2O, pHHCl, Ca2+, Mg2+, K+, BS, P2O5, K2O, Fe2+, Fe3+, cat ở cả ba tầng, liên quan chủ yếu đến độ kiềm của đất (độ pH, độ no bazơ (BS)), nhóm 2 gồm các biến Al3+, Set, Limon ở cả ba tầng, liên quan chủ yếu đến thành phần cơ giới của đất và nhóm 3 gồm các biến Na+, OC, N, CEC ở cả ba tầng, liên quan chủ yếu đến chất hữu cơ và mùn trong đất (Nitơ, cacbon hữu cơ tổng số (OC)). Tuy nhiên, ta thấy rằng CEC là đo độ kiềm trong đất nhưng vì công thức tính của nó ngược lại với độ pH và độ no bazơ nên lại bịđưa sang nhóm 3. Như vậy, kết quả này chưa thực sự hợp lý. Ta thử phân tích chùm trên không gian các biến bằng cách thay biến CEC thành biến mới (-1)xCEC thì thấy kết quả hợp