1.1. Các bước trong nghiên cứu khoa học nông nghiệp Nghiên cứu khoa học nông nghiệp là quá trình tìm hiểu sự thật hay phát hiện các quy luật tự nhiên. Nó được tiến hành theo một phương pháp khoa học mang tính hệ thống. Trước hết là quan sát sự vật (từ thực tế hoặc từ các nguồn tài liệu thứ cấp), trên cơ sở đó xác định vấn đề thực tiễn cần đòi hỏi phải giải quyết. Từ đó, xác định mục tiêu nghiên cứu và hình thành giả thiết khoa học để giải quyết vấn đề đặt ra.. Giả thiết sẽ có giá trị nếu như nó được chứng minh qua thí nghiệm và dựa trên các kết quả của thí nghiệm phát hiện bản chất của sự vật. Để đánh giá đúng và hiểu rõ ý nghĩa của các kết quả thí nghiệm cần thiết phải sử dụng toán thống kê để phân tích và đánh giá mức độ tin cậy của kết quả thí nghiệm ấy..
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI
BÀI GIẢNG CAO HỌC THÚ Ý
MÔN: PPTN & THỐNG KÊ SINH HỌC
PGS.TS NGUYỄN THỊ LAN
Bộ môn: HỆ THỐNG NÔNG NGHIỆP
Hà Nội - 2010
Trang 2MỤC LỤC
BÀI 1: NHỮNG KHÁI NIỆM CƠ BẢN TRONG NGHIÊN CỨU 1
1.1 Các bước trong nghiên cứu khoa học nông nghiệp 1
1.2 Các phương pháp nghiên cứu trong khoa học nông nghiệp 3
1.2.1 Phương pháp nghiên cứu trong phòng 3
1.2.2 Phương pháp nghiên cứu trong nhà có mái che 3
1.2.3 Phương pháp nghiên cứu trong chuồng trại 3
1.2.4 Phương pháp nghiên cứu trong điều kiện sản xuất của hộ nông dân (trang trại) 4
1.3 Các nguyên tắc khi thiết kế thí nghiệm 4
1.3.1 Nhắc lại 4
1.3.2 Ngẫu nhiên 4
1.3.3 Khối 5
1.3.4 Một số nguyên tắc đồng đều 6
1.4 Một số khái niệm cơ bản trong thống kê sinh học 7
1.4.1 Thí nghiệm 7
1.4.3 Một số tham số thống kê đại diện 8
1.4.4 Tham số thống kê đại diện 9
1.5 Phân tích sự sai khác 11
1.6 Thu thập số liệu 12
1.6.1 Cách lấy mẫu 12
1.6.2 Nguyên tắc lấy mẫu 12
1.6.3 Các loại số liệu trong nghiên cứu khoa học 14
1.6.4 Một số quy tắc cần biết trong tính toán 14
BÀI 2: PHÂN TÍCH MỐI LIÊN HỆ GIỮA CÁC ĐẠI LƯỢNG 15
2.1 Nghiên cứu mối liên hệ 15
2.2 Xác định mức độ liên hệ giữa các đại lượng 16
2.2.1 Tỷ tương quan 18
2.2.2 Hệ số tương quan 20
2.2.3 Chỉ số tương quan 24
2.2.4 Hệ số tương quan kép (hệ số tương quan tuyến tính 2 lớp) 24
2.3 Phương pháp bình phương bé nhất 24
2.4 Nghiên cứu mối quan hệ tuyến tính bậc nhất 25
2.5 Tương quan và hồi quy tuyến tính nhiều biến 31
2.5.1 Ý nghĩa của phân tích mối quan hệ nhiều biến 31
2.5.2 Hệ số hồi quy riêng và hệ số tương quan riêng 32
2.5.3 Hệ số tương quan bội (hệ số tương quan phức) 34
2.5.4 Xây dựng phương trình tuyến tính nhiều lớp 35
2.6 Nghiên cứu mối liên hệ phi tuyến 39
2.7 Hệ số tương quan thứ tự (tưong quan Spearman) 49
2.8 Kiểm định giả thuyết về các hệ số khi nghiên cứu mối liên hệ 51
Trang 32.8.1 So sánh hai hệ số tương quan 51
2.8.2 So sánh nhiều hệ số tương quan 51
2.8.3 So sánh hệ số hồi quy 53
2.8.4 Một số sai lầm trong nghiên cứu mối quan hệ 54
BÀI 3: BỐ TRÍ THÍ NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ 55
3.1 Bố trí thí nghiệm 1 nhân tố 55
3.1.1 Sắp xếp tuần tự 55
3.1.2 Sắp xếp hoàn toàn ngẫu nhiên (CRD: Completely randomized design) 56
3.1.3 Bố trí kiểu khối ngẫu nhiên đầy đủ (RCB hay RCBD: Randommized Complete Block Design) 56
3.1.4 Bố trí ô vuông la tinh (LS: Latin Square) 57
3.2 Bố trí thí nghiệm 2 nhân tố 57
3.2.1 Kiểu tổ hợp hoàn toàn ngẫu nhiên (CRD) 57
3.2.2 Kiểu tổ hợp khối ngẫu nhiên đầy đủ (RCB) 57
3.2.3 Kiểu chia ô lớn ô nhỏ (Split-Plot) 57
3.2.4 Bố trí thí nghiệm kiểu chia băng (Strip – Plot hay Criss Cross) 58
3.3 Bố trí thí nghiệm 3 nhân tố 59
3.4 Mô hình phân tích kết quả thí nghiệm 1 nhân tố 59
3.4.1 Kiểu thiết kế hoàn toàn ngẫu nhiên (CRD) 59
3.4.2 Kiểu thiết kế khối ngẫu nhiên đầy đủ (RCB) 63
3.4.3 Phân tích kết quả của thí nghiệm thiết kế theo kiểu ô vuông la tinh (LS) 67
3.5 Phân tích kết quả thí nghiệm 2 nhân tố 71
3.5.1 Thí nghiệm 2 nhân tố thiết kế tổ hợp khối ngẫu nhiên đầy đủ (RCB) 71
3.5.2 Phân tích kết quả thí nghiệm thiết kế chia ô lớn ô nhỏ (Split – Plot) 76
3.6 Đổi biến (chuyển đổi) số liệu trước khi phân tích kết quả thí nghiệm 90
3.7 Phân tích kết quả thí nghiệm 3 nhân tố 93
3.7.1 Kiểu khối ngẫu nhiên đầy đủ (RCB) 93
3.7.2 Kiểu chia ô lớn, ô nhỏ, ô nhỏ (Split – Split – Plot) 99
3.8 Phân tích phương sai qua một loạt thí nghiệm 99
3.8.1 Phân tích qua các vụ 100
3.8.2 Phân tích qua các năm 100
3.9 Phân tích hiệp phương sai 100
3.10 Một số phương pháp phân tích sự sai khác trong so sánh các trung bình 100
TÀI LIỆU THAM KHẢO 102
PHỤ LỤC 103
Trang 4BÀI 1: NHỮNG KHÁI NIỆM CƠ BẢN TRONG NGHIÊN CỨU
1.1 Các bước trong nghiên cứu khoa học nông nghiệp
Nghiên cứu khoa học nông nghiệp là quá trình tìm hiểu sự thật hay phát hiện các quy luật
tự nhiên Nó được tiến hành theo một phương pháp khoa học mang tính hệ thống Trước hết
là quan sát sự vật (từ thực tế hoặc từ các nguồn tài liệu thứ cấp), trên cơ sở đó xác định vấn
đề thực tiễn cần đòi hỏi phải giải quyết Từ đó, xác định mục tiêu nghiên cứu và hình thànhgiả thiết khoa học để giải quyết vấn đề đặt ra Giả thiết sẽ có giá trị nếu như nó được chứngminh qua thí nghiệm và dựa trên các kết quả của thí nghiệm phát hiện bản chất của sự vật Đểđánh giá đúng và hiểu rõ ý nghĩa của các kết quả thí nghiệm cần thiết phải sử dụng toán thống
kê để phân tích và đánh giá mức độ tin cậy của kết quả thí nghiệm ấy
Song, muốn có được kết quả đúng và đáng tin cậy, thí nghiệm phải được thực hiện và tuânthủ các phương pháp đúng Các phương pháp này quy định cách bố trí thí nghiệm và cách xử
lý (phân tích thống kê) kết quả thu được từ việc theo dõi thí nghiệm thông qua các chỉ tiêunghiên cứu đặt ra Tuy nhiên, lựa chọn phương pháp tính toán và xử lý nào lại phụ thuộc vàomực đích (số lượng nhân tố trong yếu tố thí nghiệm) và cách bố trí thí nghiệm Kết quả thí
nghiệm hay kết quả nghiên cứu nếu được xử lý bằng các tiêu chuẩn (Test) thống kê phù hợp
sẽ cho kết luận tin cậy
Các kết quả thí nghiệm thu được chỉ mới dựa vào một mẫu (dựa vào tham số thống kê đạidiện của mẫu), nhà khoa học nếu chỉ dựa vào kết quả này để đánh giá sẽ dễ dàng mắc sai lầmtrong kết luận Do vậy, mục đích chính của thống kê toán là đưa ra các cơ sở khách quan choviệc phân tích vấn đề nghiên cứu thông qua các số liệu quan sát được Có thể coi đây là cơ sởcủa môn học này Phần lớn các nghiên cứu trong khoa học nông nghiệp sử dụng phương phápquy nạp Có nghĩa là phân tích qua các giai đoạn phát dục của đối tượng nghiên cứu ở các chỉtiêu gián tiếp và cuối cùng đến chỉ tiêu có vị trí quan trọng là năng suất của cây trồng cũngnhư vật nuôi trong nghiên cứu đặt ra Từ đó, rút ra các kết luận khái quát
Thí nghiệm được xây dựng dựa trên việc theo dõi các chỉ tiêu nghiên cứu Qua theo dõicác chỉ tiêu đó, dưới ảnh hưởng của yếu tố thí nghiệm trong cùng điều kiện của yếu tố khôngthí nghiệm được kiểm soát (yếu tố thí nghiệm được quyền và bắt buộc thay đổi, trong khi cácnhân tố của yếu tố không thí nghiệm được đồng nhất có nghĩa là sự khác nhau là tối thiểu) Thí dụ: Nghiên cứu ảnh hưởng của các mức kali bón khác nhau đến năng suất lúa, thì chỉ cócác mức kali bón là thay đổi, còn các mức của phân chuồng, phân đạm và phân lân là đượcgiữ nguyên Các biện pháp kỹ thuật như: giống lúa, tuổi mạ, mật độ, …cũng giống nhau Nhưvậy, sau này năng suất lúa khác nhau là do nguyên nhân chủ yếu của lượng kali bón khácnhau Còn ảnh hưởng của các loại phân khác và các biện pháp kỹ thuật thực hiện thí nghiệm
là tối thiểu
Ta có thể mô tả các bước trong nghiên cứu khoa học nông nghiệp qua hình sau:
Trang 5THU THẬP THÔNG TIN ĐỂ XÁC
ĐỊNH VẤN ĐỀ CẦN GIẢI QUYẾT
MỤC TIÊU CẦN ĐẠT ĐƯỢC
PHÂN TÍCH CƠ SỞ KHOA HỌC VÀ
THỰC TIẾN ĐỂ NẮM ĐƯỢC VẤN ĐỀ
XÂY DỰNG GIẢ THIẾT KHOA HỌC
CHỨNG MINH GIẢ THIẾT KHOA HỌC
PHÂN TÍCH THỐNG KÊ KẾT QUẢ NGHIÊN CỨU
TỔNG KẾT VÀ VIẾT BÁO CÁO
KHOA HỌC
NGHIÊN CỨU TIẾP HAY MỞ HỘI THẢO HOẶC
KHUYẾN CÁO ÁP DỤNG VÀO SẢN XUẤT
Trang 6
Hình 1.1 Các bước trong tiến trình nghiên cứu 1.2 Các phương pháp nghiên cứu trong khoa học nông nghiệp
Hiện nay, trong nghiên cứu nông nghiệp nói chung và đặc biệt trong chăn nuôi thú y người
ta đang sử dụng các phương pháp nghiên cứu sau đây:
1.2.1 Phương pháp nghiên cứu trong phòng
Phương pháp này các thí nghiệm được thực hiện trong các phòng thí nghiệm hay cácphòng nghiên cứu Điều kiện thực hiện thí nghiệm có tính nhân tạo và độc lập với môi trường
tự nhiên bên ngoài Do đó, kết quả thí nghiệm có độ chính xác cao Các kết luận được rút ra
từ những thí nghiệm này không áp dụng vào thực tế sản xuất được, mà chỉ có tác dụng lýluận Có thể mô tả kết quả nghiên cứu này bằng phương trình :
Y fX,V (1.1)
Ở đây: Y là kết quả thí nghiệm; X là yếu tố thí nghiệm; còn V là các biện pháp kỹthuật thực hiện trong thí nghiêm (yếu tố không thí nghiệm)
Sai số thí nghiệm cho phép CV% 1%
1.2.2 Phương pháp nghiên cứu trong nhà có mái che
Phương pháp này các đối tượng nghiên cứu được nuôi trong các ô chuồng nhỏ (có ít đốitượng nghiên cứu), hoặc trong các bể (nếu là thủy hải sản)…Điều kiện là đối tượng nghiêncứu được sống một phần trong môi trường tự nhiên, còn một phần là môi trường nhân tạo(đây là phương pháp chuyển tiếp giữa phương pháp trong phòng và phương pháp trongchuồng trại) Hiện nay, phương pháp này đang phát triển và nông dân nếu có điều kiện cũng
có thể làm được.Tuy nhiên, phương pháp thí nghiệm dạng này chủ yếu được thực hiện ở các
cơ sở nghiên cứu khoa học và các trường Biểu thức mô tả kết quả có dạng:
Y fX;V;e (1.2)
Ở đây e: là một bộ phận của môi trường tự nhiên trong nhà có mái che, là nơi đặt thínghiệm mà ở đó người nghiên cứu chưa kiểm soát được
Các thí nghiệm của phương pháp này có sai số cho phép CV% 5%
1.2.3 Phương pháp nghiên cứu trong chuồng trại
Đây là loại hình thí nghiệm nghiên cứu phổ biến trong các cơ sở khoa học chăn nuôi và thú
y Phương pháp này, đối tượng trong thí nghiệm được nuôi trong môi trường tự nhiên và đồngthời chịu ảnh hưởng của nhiều nhân tố như: điều kiện chuồng trại và khí hậu Những nhân tốnày thuộc yếu tố không thí nghiệm (nền cho thí nghiệm và không tham gia so sánh) Song, takhó có thể kiểm soát chặt chẽ
Những thí nghiệm này có ưu điểm là sát với thực tế sản xuất, nên có thể sử dụng kết quả
để xây dựng các biện pháp kỹ thuật trong sản xuất Kết quả được biểu thị bằng biểu thức sau:
Y fX;V;E (1.3)
Trong công thức này E : là môi trường tự nhiên tại nơi làm thí nghiệm Thí nghiệm nàytuỳ thuộc vào đối tượng nghiên cứu cũng như sự khác biệt của yếu tố thí nghiệm cho phép sai
Trang 7số khác nhau vật nuôi có kích thước nhỏ, trong mỗi lần nhắc lại có nhiều đầu gia súc sai số bécòn vật nuôi có kích thước lớn mỗi lần nhắc lại có ít con vật nuôi tham gia phải cho phép sai
số lớn hơn
1.2.4 Phương pháp nghiên cứu trong điều kiện sản xuất của hộ nông dân (trang trại)
Đây có thể coi là trường hợp đặc biệt của phương pháp nghiên cứu trong chuồng trại nêutrên Điều này có nghĩa là: thí nghiệm (nghiên cứu) được thực hiện trong điều kiện thực tế của
hộ nông dân, do hộ quản lý, theo dõi và đánh giá kết quả (có thể nuôi trong chuồng trại vàchăn thả tự nhiên ngoài đồng cỏ hay dưới tán rừng ) Vì điều kiện thực tế sản xuất tại hộ nôngdân nên khó có thể khống chế các điều kiện thí nghiệm chặt chẽ Vì vậy, thí nghiệm nên đơngiản, ít công thức và chỉ nên theo dõi ít chỉ tiêu (những chỉ tiêu thông thường) Thí nghiệmnày yêu cầu độ chính xác thấp hơn
Ưu điểm của loại hình nghiên cứu này là tiết kiệm, khả năng phổ biến để áp dụng kết quảvào sản xuất cao, phù hợp với điều kiện thực tế của nông dân và điều quan trọng là tự hộ nôngdân đánh giá Mô tả kết quả nghiên cứu bằng biểu thức toán học :
Y fX;V;E;S (1.4)
Trong đó: S là kỹ năng quản lý của chủ trang trại
1.3 Các nguyên tắc khi thiết kế thí nghiệm
Như ta đã biết, để có được kết quả thí nghiệm đúng và tin cậy phải thực hiện thí nghiệm
tuân thủ các phương pháp đúng thiết kế thí nghiệm đúng phù hợp với mục đích và điều kiệnnghiên cứu sẽ làm giảm sai số, tăng độ tin cậy để khẳng định vai trò của yếu tố thí nghiệmđặt ra Để có thể kiểm soát được sai số thí nghiệm, trong khi thiết kế cũmg như sắp xếp thínghiệm cần phải nắm vững tuân thủ các nguyên tắc của thí nghiệm
1.3.2 Ngẫu nhiên
Ngẫu nhiên là sự sắp xếp các công thức thí nghiệm vào các lô thí nghiệm hoặc gán mỗi giasúc à 1 lần nhắc lại (vị trí các ô chuồng) hoàn toàn ngẫu nhiên mà không hề có định hướng.Những ảnh hưởng của các nhân tố khác trong yếu tố không thí nghiêm (ảnh hưởng tương tác)cũng được coi là tác nhân ngẫu nhiên Do có những sai khác luôn luôn xảy ra khách quan vàngẫu nhiên, mà người làm thí nghiệm khó và thậm chí không thể kiểm soát nổi, Vì vậy, mọi
cơ sở của phân tích thống kê đều dựa trên luật phân phối của các đại lượng ngẫu nhiên phù
Trang 8hợp (phân phối ngẫu nhiên) Sắp xếp ngẫu nhiên các trong thí nghiệm sẽ tránh được ý muốnchủ quan của con người, tạo điều kiện cho các giả thiết có giá trị khách quan.
1.3.3 Khối
Để thí nghịêm đạt độ chính xác cao, các công thức cần phải được sắp xếp ở điều kiện cànggiống nhau càng tốt Điều này có nghĩa là: nếu xảy ra sự khác nhau thì chỉ là tổi thiểu Trongthực tế các dãy chuồng nuôi thí nghiệm hay gia súc không cùng lứa với cùng mẹ nên khôngthể hoàn toàn đồng nhất Do đó, người thiết kế nên chia các dãy chuồng trong thí nghiệm (cácgia súc ) thành các khối (Block) khác nhau, trên mỗi khối các công thức thí nghiệm đều đượcxuất hiện
Thí dụ: Có một thí nghiệm so sánh các mức đạm urê bổ sung trong khẩu phần ăn cho lơn conkhác nhau, để có thể kiểm soát sai số do chuồng nuôi (thuộc yếu tố không thí nghiệm), ta chiakhu vực thí nghiệm làm nhiều khối Trong đó, mỗi khối lại chia làm các ô chuồng để bố trí sốlơn con thí nghiệm được bổ sung các mức đạm urê trong khẩu phần ăn Như vậy, khối có thểđược coi là một phần hoàn chỉnh của thí nghiệm Sự khác nhau do điều kiện thí nghiệm (vị tríchuòng trại) giữa các ô chuồng nuôi của thí nghiệm trong cùng khối là nhỏ hơn so với sự khácnhau giữa các chuồng trong các khối khác nhau
Kỹ thuật tạo khối làm tăng sự chính xác cho thí nghiệm, do tách được sai số của thínghiệm ra khỏi sự sai khác do nhân tố thí nghiệm Bên cạnh đó khối còn cho phép đánh giá sựkhác nhau của nhân tố thí nghiệm ở trong cùng một khối
Khi thiết kế thí nghiệm để đảm bảo “ sai khác duy nhất” cần có các điều kiện sau:
(1) Các ô chuồng thí nghiệm khác nhau về nhân tố (hay mức độ của cùng nhân tố) theođúng nội dung nghiên cứu xây dựng
(2) Sai số ngẫu nhiên (sai số thí nghiệm) phải nhỏ
(3) Thiết kế (sắp xếp các ô thí nghiệm) phải phù hợp với điều kiện của nơi đặt thínghiệm, số lượng nhân tố nghiên cứu để đạt độ chính xác cao và tin cậy
(4) Phân tích thống kê theo đúng mô hình thiết kế phù hợp
(5) Kết luận phải có giá trị rộng
Có thể thấy độ chính xác của thí nghiệm phụ thuộc vào nhiều nhân tố Song độ chính xáctăng khi sai số chuẩn trung bình giảm Có thể có một số giải pháp làm tăng độ chính xác củathí nghiệm như sau:
(1) Tăng số đầu gia súc cho 1 công thức trong 1 lần nhắc lại của thí nghiệm, tuy nhiên khithực hiện được như trên sẽ cần phải có chuồng rộng và đồng thời khó tạo ra cácnguyên tắc đồng đều trong nghiên cứu Điều này lại làm cho sai số thí nghiệm lớn(2) Tăng số lần nhắc lại (3 - 4 lần hoặc có thể nhiều hơn)
(3) Xác định công thức nghiên cứu thích hợp
(4) Kỹ thuật thực hiện thí nghiệm có tính đồng nhất cao
Trang 9(3) Đối với đại gia súc (trâu, bò, dê, cừu,…)chênh một số tháng
1.3.4.2 Đồng đều về thể trọng (khối lượng)
Gia súc đưa vào thí nghiệm có khối ượng càng gần nhau càng tốt Nhưng cũng có khi cùngtuổi nhưng khối lượng lại khác nhau, trong cùng một đàn (lứa) cũng khó có khả năng có thểtrọng như nhau Vì vậy, khi thực hiện thí nghiệm phải chấp nhận một sự khác nhau về khốilượng là:
(1) Đối với gia cầm khối lượng chênh nhau???
(2) Với lợn chia ra: Lợn con chênh 1- 2 kg/con; lợn nhỡ lệch nhau 4 – 5 kg/con và lợn lớnchênh lệch nhau từ 10 – 15 kg/con
(3) Với đại gia súc như: Trâu, bò,bao gồm:
+ Với bê nghé chênh nhau 20 – 25 kg
+ Trâu, bò chênh nhau 30 – 40 kg
1.3.4.3 Đồng đều về số lượng
Trong thí nghiệm số lượng gia súc trong mỗi công thức cho mỗi lần nhắc lại phải bằngnhau Song, với mỗi loại gia súc thí nghiệm khác nhau số lượng cho mỗi công thức cũng khácnhau Có thể chấp nhận số lượng như sau:
+ Với gia cầm mỗi công thức 50 con/lần nhắc lại
+ Với lợn cho phép 10 – 15 con cho mỗi công thức/lần nhắc lại
+ Với trâu bò 5 con/lần nhắc/công thức
Có thể trong thời gian thí nghiệm với những lý do khách quan (ngẫu nhiên mà con ngườikhông kiểm soát được) làm thất thoát (mất hay chết) khi đó phải chấp nhận số gia súc còn lại
là không giống nhau
1.3.4.4 Đồng đều về tính biệt và giống
Thực tế trong thí nghiệm tính biệt (đực, cái) phải có số lượng hay tỷ lệ như nhau, trừnhững nghiên cứu chuyên sâu về tính biệt còn ại các nghiên cứu khác đều có cả con đực vàcon cái trong mỗi công thức/mỗi lần nhắc Tuyệt đối không để riêng 1 loại tính biệt cho mộtlần nhắc nào đó, mặc dù trong các công thức đều có số lượng cho mỗi tính biệt là như nhau.Cũng tương tự, loại trừ thí nghiệm về giống còn trong các thí nghiệm khác nếu đồng nhất chỉ
Trang 101 giống là tốt nhất Tuy nhiên nếu không thể chọn đủ chỉ 1 giống có thể có thêm cácgiốngkhác, nhưng tỷ lệ các giống phải như nhau trong các công thức.
1.3.4.5 Đồng đều về dinh dưỡng
Loại trừ thí nghiệm về dinh dưỡng, còn lại các thí nghiệm khác dinh dưỡng đều là nhân tốthuộc yếu tố không thí nghiệm Vì vây, phải như nhau (số lượng đơn vị thức ăn hay khẩuphần ăn cho mỗi con trong ngày theo tuổi và thời kỳ phát dục của gia súc Cụ thể tỷ lệ thức ăntinh, thô hay dinh dưỡng bổ sung, số bữa và thời gian cho ăn/ngày)
1.3.4.6 Đồng đều về các mặt khác
Việc chăm sóc (tắm và cho ra sân chơi hoặcchăn thả trên đồng cỏ)và tiêm phòng trừ cácloại dịch bệnh cho gia súc thí nghiệm cũng phải đồng nhất
Bên cạnh đó đối tượng nghiên cứu với vật nuôi cần xác định rõ:
- Loài vật nuôi: lợn vật nuô ăn cỏ (trâu, bò,dê, ngựa, ), gia cầm (gà, vịt, ngan, ngỗng,…)
- Hướng sản xuất: Thịt, trứng, sữa, cày kéo
- Tuổi còn non hay trưởng thành
- Điều kiện nuôi dưỡng: Thời gian, địa điểm và kỹ thuật nuôi dưỡng
1.4 Một số khái niệm cơ bản trong thống kê sinh học
1.4.1 Thí nghiệm
Trong thống kê thực hiện thí nghiệm (hay phép thử) để tạo ra số liệu Những thí dụ cổ điểntrong toán xác suất hay nêu như: tung đồng xu và kết quả xảy ra là sự xuất hiện mặt xấp hoặcmặt ngửa (chỉ có 2 trường hợp) Đổ con xúc sắc sẽ có 6 trường hợp có thể xảy ra Trongnghiên cứu về hệ thống nông nghiệp việc phỏng vấn hộ nông dân ở một vùng nào đó để biếtđược mức thu nhập, trình độ sản xuất (nhỏ lẻ, trang trại,…) Hay ta tiến hành so sánh khốilượng ợn con cai sữa của 5 đàn lợn lai kinh tế …Các thí dụ nêu trên đều gọi là thí nghiệm.Mục đích của thí nghiệm là nhằm kiểm tra giả thiết về nguyên nhân thực của sự vật hay hiệntượng xảy ra
Có thể hiểu thí nghiệm là thực hiện một công việc không có sẵn trong tự nhiên để tạo ra sốliệu Cũng có thể hiểu cụ thể hơn: Thí nghiệm là quá trình theo dõi một hay nhiều chỉ tiêudưới tác động của một hay nhiều nhân tố nhằm phát hiện hoặc kiểm định một vấn đề nào đó
rạ làm thức ăn cho trâu, bò, biến đạm (N các mức cho vào ủ cùng khối lượng rơm rạ) là biến
Trang 11độc lập, còn chất lượng rơm rạ sau khi ủ theo quy trình (hoặc sau đó cho trâu bò ăn rồi theodõi sự tăng trọng ,…) là biến phụ thuộc.
Tham số là một đặc trưng thông kê của một biến hay tính trạng của tổng thể Thí dụ: Sốtrung bình của quần thể (hay gọi là kỳ vọng toán; số trung bình lý thuyết) Số trung bình đạidiện cho độ lớn trung bình của chỉ tiêu nghiên cứu trong tổng thể Hoặc tham số phương saicủa quần thể (б2); phương sai đại diện cho độ biến động hay phân tán của các giá trị của chỉtiêu nghiên cứu
Tuy nhiên, hai tham số này không biết trực tiếp mà chỉ xác định thông qua phép ướclượng
1.4.3 Một số tham số thống kê đại diện
1.4.3.1 Tổng thể
Tất cả các cá thể (phần tử) của đối tượng mà ta nghiên cứu được gọi là tổng thể, còn trong
1 công thức các con vật nuôi gọi là quần thể Thí dụ ta nghiên cứu về hiện trạng sử dụng đấtsản xuất nông nghiệp để trồng cỏ chăn nuôi tại một vùng nào đó, thì tất cả các hộ nông dânnhận đất sản xuất nông nghiệp để trồng cỏ trong vùng đó là một tổng thể Hay trong một vùng
có 4400 con trâu, bò, muốn biết số con bị bênh lở mồm, long móng có tỷ lệ là bao nhiêu?tổng thể của trường hợp này là 4400 con có trong vùng nêu trên
* Vậy tham số trung bình của tổng thể
N
x MX
n i i
1 (1.5)Trong đó: x i là giá trị quan sát của cá thể thứ i
n i i
1.4.3.2 Mẫu ngẫu nhiên
Mục đích của các nhà khoa học luôn mong muốn biết các thông tin về tổng thể nghiên cứu.Song, họ không thể quan sát được toàn bộ các cá thể có trong tổng thể, bởi những hạn chế sau:(1) Không có đủ thời gian, nhân lực và tài chính
(2) Cần phải bảo vệ đối tượng nghiên cứu (có một số trường hợp sau khi đo đếm mẫu bị pháhuỷ Nếu có bao nhiêu đem nghiên cứu hết sẽ không có mẫu cho lần tiếp sau
Vì những lý do trên, nên các nhà khoa học phải làm thế nào để chỉ cần lấy một số cá thể(một nhóm hay bộ phận) có độ lớn n từ trong tổng thể để quan sát mà vẫn có thể biết đượccác thông tin (đặc trưng) của tổng thể Việc đó gọi là “ lấy mẫu”
Trang 12Thí dụ: Tiến hành quan sát độc lập một chỉ tiêu (ký hiệu biến ngâu nhiên X ) nào đó Ta
gọi x i là giá trị quan sát thứ i của chỉ tiêu X Khi đó các giá trị x1;x2; ;x i; ;x n
được gọi là mẫu ngẫu nhiên; n được gọi là cỡ mẫu (dung lượng hay độ lớn mẫu) Như vậy,mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, có cùng phân phối như biến
ngẫu nhiên X
Mẫu phải có tính đại diện Để đảm bảo điều kiện này phải tạo điều kiện cho tất cả các cáthể trong tổng thể có tính đồng khả năng như nhau trong chọn mẫu Sự chọn mẫu còn cầnphải độc lập giữa các cá thể trong cùng tổng thể với nhau
Như vậy, theo nguyên lý của xác suất, ta phải chọn ngẫu nhiên các cá thể trong tổng thể
đó Mỗi cá thể được chọn là một biến ngẫu nhiên có cùng hàm phân phối xác suất Nếu thoảmãn được các điều kiện trên được gọi là “mẫu ngẫu nhiên”
1.4.4 Tham số thống kê đại diện
n i i
1 (1.7) trong đó: n là dung lượng mẫu
x i làgiá trị quan sát thứ i
1.4.4.2 Phương sai
* Phương sai tổng thể 2
Phương sai của tổng thể : là tổng bình phương độ lệch trung bình của các giá trị quan sát
so với kỳ vọng của tổng thể.Công thức tính số (1.6)
* Phương sai mẫu S2
Từ mẫu ngẫu nhiên có dung lượng n , phương sai mẫu là tổng bình phương độ lệch trungbình bớt đi một độ tự do của các giá trị quan sát trong mẫu so với trung bình mẫu; Phương saimẫu tính bằng công thức
1
2
1 2
n i
i (1.8)
Phương sai mẫu biểu thị sự biến động hay phân tán của mẫu nghiên cứu Có thể xảy ratrường hợp hai mẫu có trung bình như nhau, nhưng phương sai khác nhau, nên hai mẫu cũng
Trang 13khác nhau Nếu mẫu nào có giá trị phương sai nhỏ hơn, mẫu đó ổn định hơn (các cá thể trongmẫu đồng đều hơn).
1.4.4.3 Độ lệch chuẩn
Độ lệch chuẩn là sự sai khác của của các giá trị quan sát với tham số trung bình Độ lệchchuẩn càng nhỏ các giá trị càng tập trung gần với trung bình Ngược lại độ lệch chuẩn cànglớn các giá trị phân bố xa số trung bình
1.4.4.4 Độ lệch chuẩn của sổ trung bình
Thông thường, trong các tiêu chuẩn (Test) trong thống kê hay sử dụng tham số trung bình
để tính toán Vì vậy, độ lệch chuẩn của trung bình hay được sử dụng
* Độ lệch chuẩn của trung bình tổng thể (x)
Độ lệch chuẩn của trung bình của tổng thể tính như sau:
Hệ số biến động là giá trị so sánh tương đối giữa độ lệch chuẩn với trung bình
Hệ số biến động của mẫu tính bằng công thức sau:
Thí dụ: Giả sử muốn biết khả năng tăng trọng của một giống bò thịt A nào đó được nuôi ở haiđiều kiện là: có ủ chua thức ăn và không ủ chua thức ăn xanh, xem có khác nhau hay không ?
Trang 14Ta có thể chia số bò thí nghiệm thành 2 nhóm, mỗi nhóm tuân thủ các nguyên tắc đồng đều.Một nhóm bò cho ăn thức ăn xanh được ủ chua theo quy trình và nhóm thứ 2 cho ăn thức ănxanh không ủ chua Nhóm bò ăn thứ ăn xanh ủ chua cho khả năng tăng trọng cao hơn nhóm
bò chỉ ăn thức ăn thông thường Như vậy cho kết luận là thức ăn được ủ chua đã làm cho khảnăng tăng trọng cao hơn so với thức ăn không được ủ chua Nhưng kết luận như vậy liệu đãchính xác chưa? Để trả lời câu hỏi đó cần xem xét một số nội dung sau:
Sự sai khác về khả năng tăng trọng thu được của hai nhóm bò do hai nguyên nhân:
(1) Do có sự khác nhau về chất lượng thức ăn xanh (đây là nhân tố hay yếu tố thí nghiệm)(2) Do nhóm trâu bò ăn thức ăn không ủ chua được nuôi trong chuồng có điều kiện tốt hơn(đây là yếu tố không thí nghiệm) Có thể hai nhóm bò cùng ăn thức ăn xanh được ủ chua,nhưng khối lượng thịt thu được từ hai nhóm trâu bò cũng khác nhau Nhưng sự khác nhaunày là do ảnh hưởng của điều kiện môi trường như:(chất lượng chuồng nuôi; khí hậu; dịch ;bệnh;…) ta không kiểm soát được Sự khác nhau này được gọi là “ sai số thí nghiệm”
Như vậy, sự khác nhau khối lượng giữa hai nhóm trâu bò thí nghiệm là do có sự khác nhau
về yếu tố thí nghiệm và cả sự khác nhau giữa các yếu tố không thí nghiệm (sai số thí nghiệm)tạo ra Do đó, chỉ căn cứ vào sự khác nhau để kết luận là không chính xác Nên cần phải sửdụng phương pháp phân tích thống kê để phân tích sự sai khác Phân tích thống kê sẽ táchđược sự sai khác (thông qua các nguồn biến động) do các nguyên nhân (gọi là nguồn biếnđộng) khác nhau gây ra
Sự khác nhau cơ bản trong các kiểu bố trí thí nghiệm là khác nhau Sự khác nhau này cầnđược tính khi phân tích kết quả thí nghiệm Công cụ phân tích này là dựa vào sự kiểm địnhbằng phân tích phương sai (ANOVA) là công cụ phân tích chính
Phân tích sai khác tổng hợp (biến động toàn phần) thành các thành phần hay các nguyênnhân do các nguồn biến động khác nhau Trong đó, nguyên nhân chính dẫn tới sự khác nhau
là yếu tó thí nghiệm (do 1 nhân tố hoặc do nhiều nhân tố)
Sự sai khác trung bình (hay còn có tên là phương sai) do các nguyên nhân khác nhau (docông thức hay yếu tố thí nghiệm; khối; …) được so sánh với phương sai ngẫu nhiên, thôngqua việc thiết lập tỷ số giữa hai phương sai Trong đó: phương sai ngẫu nhiên nluên đứng làm
mẫu số để có được tiêu chuẩn F (Fisher- Snedercor) Giá trị F được dùng để đánh giá mức
độ khác nhau giữa các giá trị trung bình của một nguồn biến động cụ thể
Bên cạnh đó, phân tích phương sai còn cho biết mức độ sai số chuẩn của các số trung bình.Qua đó để ước lượng tìm khoảng tin cậy chắc chắn của sự sai khác do yếu tố thí nghiệm gâynên
Có một số các tiêu chuẩn (Test) dùng trong so sánh số trung bình như:
(1)Dùng hiệu quả chênh lệch nhỏ nhất có ý nghĩa LSD
Trang 15(2)Dùng tiêu chuẩn đa biên độ của Duncan DMRT Trong đó cần phải tính được sựkhác nhau nhỏ nhất D của tất cả các khoảng giữa các số trung bình trong dãy xếphạng
1.6 Thu thập số liệu
1.6.1 Cách lấy mẫu
Mẫu là một bộ phận (nhóm) của tổng thể Thông qua mẫu ta có thể ước lượng và biết đượctổng thể Lý do ta phải lấy mẫu là:
(1) Tổng thể có số lượng cá thể lớn hoặc rất lớn Trong khi đó nhân lực và tài chính chỉ
có hạn nên không thể nghiên cứu tất cả tổng thể
(2) Tổng thể có biến đổi theo thời gian (đối tượng nghiên cứu là sinh vật) nếu quan sáttất cả sẽ mắc sai số
(3) Phải bảo vệ đối tượng nghiên cứu
Lý thuyết thống kê cũng đã chứng minh được: Luật phân bố của tổng thể phù hợp với luậtphân bố của mẫu, nếu như mẫu đủ lớn và đại diện Do đó, có thể dùng phân tích thống kê đểkiểm tra độ chính xác (độ tin cậy) của mẫu có đại diện cho tổng thể hay không?
Có hai nguyên nhân gây nên sai số của mẫu là: (i) do ngẫu nhiên (ii) và do lấy mẫu gây ra
Ta có khả năng khắc phục sai số này bằng cách phải lấy mẫu đại diện và tăng dung lượngmẫu
1.6.2 Nguyên tắc lấy mẫu
Theo nguyên lý thì mẫu phản ánh (đại diện) cho tổng thể Nên các cá thể có trong tổng thểđều có khả năng như nhau trong việc chọn mẫu Do đó, mẫu phải được lấy ngẫu nhiên và đâycũng chính là cơ sở toán học để tính xác suất nhằm kiểm định kết quả thí nghiệm sau này
1.6.2.1 Dung lượng mẫu (n)
Dung lượng mẫu hay còn gọi là độ lớn của mẫu n , tuỳ theo từng đặc trưng (chỉ tiêu)nghiên cứu có biến động khác nhau mà xác định dung lượng cho phù hợp Có thể thấy, dunglượng mẫu phụ thuộc vào các điều kiện sau:
- Loại chỉ tiêu nghiên cứu
- Độ chính xác của thí nghiệm cần đạt được
- Điều kiện (nhân lực; tài chính) và số lượng cá thể có trong tổng thể hay trong côngthức
1.6.2.2 Phương pháp lấy mẫu
Để mẫu đảm bảo tính đại diên, khách quan và chính xác, bên cạnh độ lớn của mẫu thì cáchlấy mẫu cũng cần được quan tâm
(1) Phương pháp chọn ngẫu nhiên
Phương pháp này cho biết : Mỗi cá thể trong tổng thể có cơ hội được chọn như nhau (lưu ýcần loại trừ các cá thể ở hàng biên) Phương pháp này chỉ chính xác khi dung lượng mấu lớn,trong điều kiện tổng thể nhỏ và đồng nhất
Trang 16(2) Phương pháp chọn theo lớp ( theo nhóm)
Phải phân các cá thể trong tổng thể thành các nhóm (k nhóm khác nhau) Trên cơ sở củacác nhóm sẽ xác định tiêu chuẩn cụ thể của mấu và các dung lượng (mi ) cụ thể của từngnhóm cho phù hợp Dung lượng mẫu sẽ là tổng của các dung lượng mẫu của các nhóm:
m m
m n
1 2
1 (1.14)Phương pháp này đảm bảo khách quan và chính xác Nhưng tốn thời gian
(3) Phương pháp chọn mẫu phân phối đều
Đây là phương pháp hay được áp dụng với thí nghiệm đồng ruộng Chon mẫu bằngphương pháp này được thực hiện theo hai dạng sau:
(1) Phân phối đều theo đường chéo (5 điểm;4 điểm; 3 điểm hay 2 điểm tuỳ thuộc từngtrường hợp cụ thể) Dạng này hay áp dụng cho lấy mẫu trên ô thí nghiệm (hay có thểhiểu quần thể có tính đồng nhất cao)
(2) Phân phối đều theo tuyến Kiểu này thường sử dụng trong lấy mẫu điều tra trên đồngruộng (tổng thể không đồng nhất)
Cho dù lấy mẫu theo phương pháp nào thì cũng không lấy các cá thể ở hàng biên ( hayngoài rìa )
1.6.3 Các loại số liệu trong nghiên cứu khoa học
1.6.3.1 Số liệu thô
Các số liệu thu được trực tiếp sau mỗi lần đo, đếm hoặc quan sát (đánh giá) gọi là số liệuthô Thí dụ: Xác định sản lượng sữa của 1 bò cái trong một chu kỳ cho sữa (kg/con) với 2giống có các số liệu như sau:
Giống A: 26,0 ; 21,0 ; 23,7 ; 26,2 ; 19,9 ; 27,0 ; 21,0 ; 23,5 ; 21,7 ; 25,9
Giống B 19,0 ; 23,5 ; 25,0 ; 24,6 ; 20,6 ; 22,4 ; 25,3 ; 23,0 ; 23,7 ; 20,6
Nhìn vào các số liệu thô, ta rất khó nhận định kết quả xem sản lượng sữa của giống bò nào
là cao hơn? Giống nào có sản lượng sữa ổn định hơn?
1.6.3.2 Số liệu tinh
Các số (tham số) được tính toán từ số liệu thô, theo những tham số thống kê cần thiếtđược gọi là số liệu tinh Số liệu tinh dùng để công bố trong báo cáo khoa học Thí dụ từ sốliệu thô về sản lượng sữa của hai giông trên ta tính được sản lượng sữa trung bình của giống
A và của giống B Từ đó sẽ có nhận định giống bò nào có sản lượng sữa lớn hơn và ổn địnhhơn
1.6.4 Một số quy tắc cần biết trong tính toán
Trong quá trình tính toán (chuyển từ số liệu thô sang số liệu tinh) kết quả có thể là các sốngẫu nhiên Song, tuỳ thuộc vào ý nghĩa của các chỉ tiêu nghiên cứu mà ta có thể quy định đểkhi công bố kết qủa nghiên cứu, các số đó vừa đảm bảo tính chính xác cần thiết và vừa đảmbảo ý nghĩa của chỉ tiêu
Trang 171.6.4.1 Con số có nghĩa
Thí dụ: Có số liệu vòng ngực của n con trâu (đơn vị đo: cm) Thông thường số liệu thô có thể lấy chính xác đến 1/10 ( lấy 1 số thập phân hay 1 số lẻ tương ứng mm).
Vì vậy, con số có nghĩa là 4 (vòng ngực đạt trung bình 121,0 cm)
Như vậy, con số có nghĩa là số con số diễn tả (biểu thị) giá trị của biến ngẫu nhiên xi
1.6.4.2 Phép tính gần đúng ( quy tắc xấp xỉ hay cách làm tròn số)
Sau khi quy định con số có nghĩa, khi tính các tham số thống kê (cộng; trừ; nhân; chia; bìnhphương; căn;…), kết quả của các phép tính là một số ngẫu nhiên Vì vậy, cần phải làm tròn sốtheo đúng quy định về số chữ số có nghĩa Có như vậy mới đảm bảo sự thống nhất cũng như ýnghĩa của chỉ tiêu nghiên cứu
Thí dụ: Vòng ngực của đại gia súc quy định lấy chính xác đến 1/10 cm, nên khi tính vòngngực trung bình của (n) con trâu giả sử được giá trị 120,642 cm, nên khi công bố kết quả tachỉ lấy trung bình là xấp xỉ 120,6 cm
Hay chiều cao trung bình của một giống bò là 115,572 cm, ta quy định chỉ lấy 1 số thậpphân thì trung bình là 115,6 cm
BÀI 2: PHÂN TÍCH MỐI LIÊN HỆ GIỮA CÁC ĐẠI LƯỢNG
Mục đích: Giúp người học hiểu được ý nghĩa và sự cần thiết của việc nghiên cứu mói quan
hệ giữa các đại lượng (các chỉ tiêu) trong nghiên cứu về lý thuyết cũng như trong thực tiễn.Sau khi học, người học phải biết tính các tham số cũng như xây dựng phương trình hồi quybiểu diễn mối quan hệ giữa chúng, biết các thuật toán khác có liên quan như: Ước lượng,kiểm tra sự tồn tại của các tham số, từ đó, áp dụng trong công tác nghiên cứu khoa học
2.1 Nghiên cứu mối liên hệ
Trong tự nhiên cũng như xã hội, mọi hiện tượng và sự vật đều có liên hệ với nhau Đặcbiệt, trong sinh học giữa các cá thể sinh vật, giữa các quần thể, các quần xã, các hệ sinh thái
và cả sinh quyển trong quá trình phát triển luôn luôn tồn tại các mối liên hệ qua lại lẫn nhau
và với môi trường Nhiệm vụ của con người là phát hiện và phân biệt được các mối liên hệkhách quan đó Trên cơ sở những nhận biết, thông qua các mối liên hệ tìm cách điều khiểncác liên hệ theo hướng có lợi cho con người
Các mối liên hệ này có thể phân thành 2 dạng sau:
(1) Quan hệ hàm số (hay sự phụ thuộc hàm)
Trang 18Nếu ta có hai đại lượng (hai chỉ tiêu) X và Y , nếu ứng với mỗi giá trị của X hoàn toàn xác định được giá trị của Y thì ta nói rằng Y là hàm số của X Thí dụ quan hệ giữa
diện tích hình tròn S là hàm số của bán kính R Hàm số này được biểu diễn bởi công
thức sau: S* R2 Hay trong quá trình đẳng nhiệt, khi thể tích V giảm thì áp suất P tăng, có nghĩa là giữa P và V có sự phụ thuộc hàm số và được biểu diễn bằng côngthức:
V
C
P với C là một hằng số
(2) Quan hệ tương quan (sự phụ thuộc tương quan)
Trong sinh học, thường gặp một kiểu phụ thuộc khác đó là: ứng với mỗi giá trị của đạilượng này không hoàn toàn xác định được giá trị của đại lượng kia
Thí dụ: Quan hệ giữa khối lượng gia súc với vòng ngực của chúng, ta không thể biết chính
xác rằng khi có vòng ngực là X xác định nào đó, sẽ cho phép định lượng khối lượng cơ thể Y đạt ở mức bao nhiêu? Mà thường khối lượng này giao động trong một khoảng xác định nào đó Vì vậy, X là đại lượng không ngẫu nhiên, còn khối lượng Y là hàm số của
X Sự phụ thuộc này có thể biểu diễn bằng công thức:
Y f ( X) (2.1)
Ở đây: Y là biến phụ thuộc, còn X là biến độc lập
Người ta xem xét mối liên hệ giữa các đại lượng qua sơ đồ sau:
Trang 19THEO TỔNG YẾU TỐ THEO CƯỜNG ĐỘ
MỘT YẾU TỐ NHIỀU YẾU TỐ CHẬT
Nhiệm vụ của người làm công tác thống kê khi phân tích các mối quan hệ giữa các đạilượng là phải xác định đựoc rõ mức độ quan hệ giữa chúng và sau đó xây dựng đượcphương trình hồi quy biểu thị mối quan hệ đó Thông qua phương trình hồi quy xây dựng,
có thể dự báo kết quả của tác động của biện pháp kỹ thuật nào đó
2.2 Xác định mức độ liên hệ giữa các đại lượng
Có thể xem xét mối liên hệ giữa các đại lượng (các biến) qua các hàm (phương trình)hồi quy sau:
y
x b>0
y=a+blgx
b<0 y
y=a+bx+cx2+dx3
d>0
y y
lgy=a+blgx
Trang 20Trong thống kê toán để xác định mức độ liên hệ giữa các đại lượng ta có thể sử dụng các
tham số sau:
Trang 212.2.1 Tỷ tương quan
2.2.1.1 Khái niêm
Tỷ tương quan là chỉ tiêu mô tả mức độ liên hệ giữa các đại lượng trong trường hợp chungnhất mà ta không cần (hoặc chưa biết trước) dạng liên hệ Vì vây, tỷ tương quan mới chỉ mô
tả cường độ của sự liên hệ, mà không nêu lên chiều hướng của sự liên hệ đó
Trong thực tế, để biết xem ta có thể lợi dụng được sự liên hệ giữa các đại lượng haykhông, thường trước tiên phải xác định tỷ tương quan để biết giữa chúng có thực sự tồn tạimối liên hệ hay không và liên hệ ở mức độ nào? trước khi đi xác định dạng liên hệ giữa cácđại lượng đó
Tỷ tương quan được ký hiệu là và công thức tính cụ thể như sau:
y x y Q Q
f j ij y
i
y y
f j
i ij
x y
i
x y y
Trong đó, y ij là các trị số quan sát của biến phụ thuộc Y
y là trị số trung bình của n trị số quan sát của biến phụ thuộc Y
y x i là số trung bình có điều kiện của biến phụ thuộc Y ứng với 1 trị số xác định của biến đọc lập X
Tỷ tương quan là một số nhận các giá trị từ 0 đến 1( 0 1 ))
Nếu 0 thì 2 đại lượng độc lập tuyến tính
Nếu 1 thì 2 đại lượng có quan hệ hàm số
Nếu ( 0 0 , 3 ) thì 2 đại lượng có quan hệ yếu
Nếu (0 , 3 0 , 5) thì 2 đại lượng có quan hệ vừa
Nếu (0 , 5 0 , 7) thì 2 đại lượng có quan hệ tương đối chặt
Nếu (0 , 7 0 , 9) thì 2 đại lượng có quan hệ chặt
Nếu (0 , 9 1) thì 2 đại lượng có quan hệ rất chặt
2.2.1.2 Cách tính
Để tính tỷ tương quan trong mối liên hệ giữa 2 đại lượng Y và X , trước tiên các số liệu quan sát được chia tổ ghép nhóm theo biến X Từ biểu thức (2.2) ta rút ra
Trang 22f j
m i
f j ij ij
m i
m i
f
j ij i
n
y y
n
y f
2
1 1
2
1 2
là tổng các trị số quan sát của biến Y ở tất cả các tổ của biến X
Khi dung lượng mẫu nghiên cứu mối liên hệ nhỏ, ta có thể sử dụng ngay công thức(2.2) hoặc công thức biến đổi sau:
y
x y Q
Q /
1
(2.6)
2.2.1.3 Kiểm tra độ tin cậy của tỷ tương quan
Tỷ tương quan mà ta vừa tính được ở biểu thức (2.5) và (2.6) mới chỉ là của mẫu có độ lớn
là n, đặc biệt là khi mẫu có những dao động ngẫu nhiên nhất là khi dung lượng mẫu n nhỏ,nên tỷ tương quan này chưa hẳn đã tồn tại trong quần thể Vì vậy, cần phải kiểm tra sự tồn tại
(độ tin cậy) của nó để khẳng định hai đại lượng Y và X là có liên hệ với nhau thực sự trong
quần thể
Người ta đã chứng minh được rằng: Nếu phân bố tần suất của biến Y tại mỗi tổ của biến
X là chuẩn với các phương sai bằng nhau và giả thuyết
F TN
(2.7)
Có phân phối F với độ tự do df1 m 1và độ tự do df2 n m (trong đó: m là số tổ
của đại lượng X
Nếu giá trị của F TN tính theo biểu thức (2.7) < F LT với hai độ tự do df1 và df2thì giảthuyết H o : 0 là đúng (có nghĩa là tỷ tương quan không tồn tại hay không đáng tin cậy).Ngược lại F TN F LT khẳng định tỷ tương quan tính được là tồn tại (nghĩa là trong quần
thể thực sự tồn tại mối liên hệ giữa hai đại lượng X và Y
Trang 232.2.2 Hệ số tương quan
2.2.2.1 Khái niệm
Hệ số tương quan là tham số đánh giá mức độ liên hệ (phụ thuộc hay chi phối) giữahai đại lượng (hai chỉ tiêu) X & Y trong mối quan hệ tuyến tính bậc nhất (hay đường thẳng 1lớp)
Công thức định nghĩa hệ số tương quan như sau:
*
(2.8) Người ta cũng chứng minh được rằng r yx r xy r
Nếu trước khi nghiên cứu hệ số tương quan ta đã nghiên cứu hồi quy đã xây dựng phươngtrình hồi quy biểu diễn sự phụ thuộc của hai đại lượng với nhau thì các hệ số có mối quan hệthông qua biểu thức sau:
x
y yx yx
S
S b r
r (2.9)
Ở đây hệ số hồi quy b yx là hệ số hồi quy của Y phụ thuộc vào X Tưong tự ta thấy:
y
x xy xy
S
S b r
r (2.10)
Từ biểu thức (2.9) ta có
x
y yx
S
S r
b
và từ công thức (2.10) có
y
x xy
S
S r
b
Từ đây có hệ số tương quan : r b yx *b xy (2.11)
Nhưng ta cũng có thể biết hệ số tương quan còn được tính theo biểu thức tiếp sau:
y
y y Q
Q Q
n
i
i y
n
y y
y y
Q
1
2 1 2 2
2 1
i i
Q (2.14)Trong đó: y là giá trị trung bình của biến Y
yˆ ilà giá trị lý thuyết tính theo phương trình hồi quy ứng với giá trị x i từ phươngtrình hồi quy yˆi ab yx x i
Trang 242.2.2.2 Đánh giá hệ số tương quan
Hệ số tương quan lấy các giá trị trong khoảng sau :0 r 1
Nếu r 0 thì hai đại lượng X & Yđộc lập tuyến tính
r 1 thì hai đại lượng X & Ycó quan hệ hàm số
3 ,
0
0 r thì hai đại lượng X & Ycó quan hệ yếu
5 , 0 3
,
0 r thì hai đại lượng X & Ycó quan hệ vừa
7 , 0 5
,
0 r thì hai đại lượng X & Ycó quan hệ tương đối chặt
9 , 0 7
0 r thì hai đại lượng X & Ycó quan hệ rất chặt
Hệ số tương quan r có thể lấy giá trị âm nếu X & Ycó quan hệ nghịch
Hệ số tương quan lấy dấu dương nếu X & Ycó quan hệ thuận
2.2.2.3 Cách tính hệ số tương quan
Hệ số tương quan có thể tính được bằng các công thức sau đây :
(1) Tính hệ số tương quan bằng các tổng biến động
y x
xy
Q Q
Q r
Q
n
i i n
i i x
2
1 1
i
n
i i n
i i i
i
n
y x
y x Q
1 1
1
Q y tính theo biểu thức (2.13)
(2) Tính hệ số tương quan thông qua hệ số hồi quy như công thức (2.11)
(3) Tính hệ số tương quan thông qua phương sai thừa
y
Q
S n r
2
ˆ 2
1
(2.18) Trong đó, phương sai thừa là:
2
*Sˆ
2 2
Q y yx x
(2.19)
2.2.2.4 Kiểm tra độ tin cậy của hệ số tương quan
Hệ số tương quan mẫu tính theo các công thức cần phải được kiểm tra độ tin cậy (sự tồntại) của nó, đặc biệt là khi mẫu nhỏ
Có một số phương pháp để kiểm tra sự tồn tại của tham số này
Trang 25Cách 1: So sánh hệ số tương quan thực nghiệm (r tn) với hệ số tương quan lý thuyết
;
2 2
; 2
n df n
df
T
T r
(2.20)
Hoặc có thể tìm hệ số tương quan lý thuyết trong bảng tính sẵn
Nếu r tn r;dfn 2ta nói rằng: hệ số tương quan tính được là không đáng tin cậy
Ngược lại, nếu r tn r;dfn 2, thì hệ số tương quan tính được là đáng tin cậy (hay tồn tại)Cách 2: Dùng tiêu chuẩn T test, trong đó giá trị thực nghiệm là:
T tn T;dfn 2 hệ số tương quan không đáng tin cậy, còn nếu T tn T;dfn 2 thì hệ sốtương quan đáng tin cậy
Cách 3: Kiểm định thông qua biến chuẩn
Ta phải đổi hệ số tương quan thành biến chuẩn
r
r z
1
1 ln 2
1
( giá trị đã có sẵn trongbảng phụ lục của tài liệu thống kê), Sau đó tính
Tiếp theo là đi ước lượng (ước lượng điểm và ước lượng khoảng) đối với hệ số tươngquan Nếu có 2 hệ số tương quan r1& r2, ta có thể so sánh để khẳng định sự khác nhau củachúng Có thể nghiên cứu tiếp tục theo các mối liên hệ cụ thể sẽ hiểu rõ hơn
2.2.3 Chỉ số tương quan
Chỉ số tương quan I là chỉ tiêu đánh giá mức độ liên hệ giữa hai biến hay hai đại lượng
X & Y trong liên hệ phi tuyến tính Điều này đồng nghĩa, chỉ số tương quan thuyết minh
mức độ biến động giữa các trị số quan sát của biến Y với trị số lý luận của phương trình phi
tuyến Biểu thức định nghĩa cho chỉ số tương quan có dạng sau:
Trang 26
y
y y Q
Q Q
I ˆ hay
y
y Q
i i
Q và nếu đã kiểm tra sự tồn tại của phương trình hồi quy trước khitính chỉ số tương quan thì Q yˆ là tổng biến động ngẫu nhiên E SShay còn gọi là tổng
chênh lệch giữa các trị số thực nghiệm của biến Y với giá trị lý luận tính theo phương trình
hồi quy Chỉ số tương quan cũng được kiểm tra độ tin cậy như hệ số tương quan
2.2.4 Hệ số tương quan kép (hệ số tương quan tuyến tính 2 lớp)
Đây là tham số biểu thị sự phụ thuộc của biến hàm số Y với hai biến X 1 &X2trong mốiliên hệ tuyến tính 2 lớp Hệ số tương quan này còn có tên gọi là “hệ số tương quan phức hay
hệ số tương quan bội” Song, để tính được hệ số tương quan này cần phải tính hệ số tươngquan tuyến tính bậc nhất của 2 biến với nhau, tiếp đó tính hệ số tương quan riêng và cuốicùng mới tính được hệ số tương quan kép hay nếu phụ thuộc nhiều biến gọi chung là hệ sốtương quan bội hay phức Các công thức sẽ minh họa chi tiết sau (mục 2.5 tương quan tuyếntính nhiều biến)
2.3 Phương pháp bình phương bé nhất
Sử dụng phương pháp bình phương bé nhất để xác định các hệ số trong phương trình hồiquy mô tả hay (biểu diễn) mối liên hệ giữa các đại lượng Nguyên tắc chung của phương phápnày là: Từ các đám mây (trường tương quan) thực nghiệm chọn đường hồi quy lý thuyết
X
f
Y để với một số hữư hạn các hệ số a;b'c; sao cho tổng bình phương các chênhlệch (hiệu sai) từ các trị số quan sát (thực nghiệm) của biến y i với trị số lý thuyết tính theophương trình hồi quy yˆ ilà bé nhất, nghĩa là:
i
i y y
1
2
min
ˆ (2.26)Thay giá trị yˆi abx i vào công thức (2.24) ta có:
n i
n i i i
i i
y
2 1 2
1
2
0 Điều kiện cần ở đây là:
a f
1
2
min
;
Trang 27Tùy thuộc vào mối liên hệ nhiều lớp mà ta có các đạo hàm của các hệ
số để xây dựng được ma trận (hệ) phương trình mẫu Giải hệ phương trình sẽ xác định đượccác hệ số hồi quy
2.4 Nghiên cứu mối quan hệ tuyến tính bậc nhất
Phương trình biểu diễn mối liên hệ tuyến tính bậc nhất (tuyến tính 1 lớp) như sau:
i
Y (2.27)
Trong phương trình này Y là biến phụ thuộc hay gọi là hàm số X là biến độc lập; a là
hệ số tự do của Y phụ thuộc vào X và còn b là hệ số hồi quy của Y phụ thuộc vào X
Muốn xây dựng phương trình hồi quy ta phải tính được giá trị cuảa & b Khái niệm và côngthức tính hệ số tương quan tuyến tính bậc nhất dã nêu ở mục (2.2.2) Sau đó, tiếp tuc ướclương hệ số tương quan Các hệ số của phương trình được xác định bằng phương pháp bìnhphương bé nhất Để hiểu rõ hơn, ta xem xét cụ thể về liên hệ này qua thí dụ sau:
Thí dụ (2.1): Nghiên cứu mối quan hệ giữa lượng đạm bón (X:kgN/ha) với năng suất ngô(Y:tấn/ha) có các số liệu sau :
Bảng (2.1): Bảng tính tương quan tuyến tính bậc nhất của khối lượng tăng trong 1 tháng
( :Y kg con của lợn con phụ thuộc vào lượng urê bổ sung (X:mg/con/ngay)/ )
hay x x Q
n i i n
i
n
i i i
x
2 1
Trang 28 137 , 144
10
4 , 935 46
, 87634
hay y y Q
n i i n
i
n i i i
Q
10
6,49
*4,93522
,4652)
(
1
10 1 1
i i i
i i
n
yx
n
y x
y x hay
y y x x
+ Kiểm tra độ tin cậy của hệ số tương quan
Có 3 cách để kiểm tra hệ số tương quan
Cách 1: So sánh hệ số tương quan thực nghiêm r tnvới hệ số tương quan lý thuyết
r;dfn 2 Nếu hệ số tương quan thực nghiệm r tn < r;dfn 2thì hệ số tương quanthực nghiệm không đáng tin cậy, ngược lại Nếu r tn r;dfn 2 hệ số tương quan đángtin (hay tồn tại)
632 , 0
Như vậy: T tn 4 , 406 T lt 2 , 31 nên hệ số tương quan đáng tin cậy
Cách 3: Sử dụng tiêu chuẩn của hàm chuẩn U nhưng phải đổi biến
r
r r
1
(cóbảng sẵn) r 0 , 8415 z 1 , 221
23 , 3 3
Trang 29Kết luận: Lượng urê bổ sung đã chi phối đến khả năng tăng trọng của lợn con cai sữa (tăngurê bổ sung trong khẩu phần ăn, đẫn đến tăng trọng tăng).
Bước 3: Xây dựng phương trình hồi quy biểu diễn khả năng tăng trọng của lợn con cai sữaphụ thuộc thuận vào lượng urê bổ sung theo dạng yˆ abx (vì hệ số tương quan ở mức độrất chặt) Như vậy cần tính hệ số hồi quy b và hệ số tự do a
144 , 137
636 , 12
Q S
S y x Ở đây Sˆ 2gọi là phương sai thừa
210
144,137
*09214,0644,1
1 2449
,
0
09214 ,
và T0,05;df8 2 , 31 nên giá trị thực nghiệm lớn hơn giá trị
lý thuyết T , do đó hệ số hồi quy là đáng tin.
+ Kiểm tra ý nghĩa với hệ số tự do
*10
46,876342449
,0ˆ
x S
T ( giá trị T tính nhỏ hơn giá trị T0 , 05 ;df 8 ) như vậy hệ số tự do
a không đáng tin cậy
Phương trình hồi quy biểu diễn khối lượng tăng Y phụ thuộc tuyến tính bậc nhất vào lượng urê bổ sung X có dạng cụ thể như sau:
yˆi 0 , 09214x i 3 , 6585
Bước 4: Kiểm tra độ tin cậy của phương trình hồi quy
Phương trình vừa tính được ở trên, mới chỉ được tính từ mẫu có n 10, để kiểm tra người
ta sử dụng tiêu chuẩn F Để có thể thực hiện kiểm tra ta có bảng các giá trị sau:
Bảng 2.2: Các giá trị của các biến và khối lượng tăng/1 tháng lý thuyết
yˆi 0,09214x i 3,6585
STT x i y i yˆ i y i yˆi2
Trang 302 0,4797ˆ
i
i
i y y SS
8
4797 , 0
E
06 , 0
1643 , 1
Re
MS E
MS G
F tn , với 0 , 05& 1 1;' 2 8 5,32
df df
19,405 > 5,32 (giá trị lý thuyết F), nên kết luận đường hồi quy mẫu đáng tin cậy
Bước 5: Ước lượng khoảng 95% độ tin cậy của các tham số và đường hồi quy
+ Ước lượng hệ số tương quan của tổng thể R
Ta đổi hệ số tương quan mẫu r 0 , 8415 z 1 , 221 và độ lệch chuẩn của biến
z Do đó, khoảng tin cậy 95% của hệ số tương quan được cho như sau:
PZ zT0,05ldf8S z 1 0,05 thay các giá trị đã biết vào công thức
PZ 1,2212,31*0,378 1 0,05 và ta có PZ 1 , 221 0 , 062 1 0 , 05 hay
cụ thể ta có khoảng tin cậy của P1 , 159 Z 1 , 283 1 0 , 05; từ kết quả của đại lượngchuẩn hóa Z của hệ số tương quan ta sẽ tính trở lại cho khoảng tin cậy 95% đối với hệ sốtương quan
Ta có P0 , 820 R 0 , 860 1 0 , 05 Như vậy, khoảng tin cậy 95% của hệ số tương quantổng thể R sẽ lấy từ 0,820 đến 0,860
+ Ước lượng khoảng tin cậy dối với hệ số hồi quy tổng thể B
Ta có công thức tổng quát cho khoảng tin cậy với hệ số hồi quy là:
PBb (T;dfn2*S b) 1
Thay các giá trị trong biểu thức trên:
PB 0,09214T0,05;df8*0,0209 1 0,05
Trang 31PB0,092142,31*0,0209 1 0,05
PB 0 , 09214 0 , 04828 1 0 , 05
và cuối cùng hệ số hồi quy tổng thể B sẽ lấy giá trị từ 0,04386 đến 0,14042 với độ tin cậy
95%
+ Ước lượng khoảng với hệ số tự do của tổng thể A
Tương tự biểu thức thể hiện khoảng tin cậy 95% đối với hệ số tự do như sau:
y
S
x x n
644 , 1
Thay các giá trị cụ thể ta có khoảng tin cậy 95% cho phương trình hồi quy
P Yˆi yˆi T;dfn2*S yˆ 1
238 , 15
54 , 93 1
10
4274 , 0
* 31 , 2 6585 , 3 09214 , 0
P
238 , 15
54 , 93 1
312 , 0 6585 , 3 09214 , 0
x Y
P
Giới hạn trên của khoảng với phương trình tổng thể lấy với dấu
Và giới hạn dưới lấy với dấu
2.5 Tương quan và hồi quy tuyến tính nhiều biến
2.5.1 Ý nghĩa của phân tích mối quan hệ nhiều biến
Trong thực tế, sinh vật nói chung và cây trồng nói riêng thường phát sinh nhiều mối quan
hệ tương hỗ giữa chúng với nhau, cũng như với môi trường bên ngoài
Trang 32Thí dụ: Năng suất sữa của bò phụ thuộc vào các yếu tố như (giống bò, lưọng thức ăn và chấtlượng thức ăn; tuổi bò, các biện pháp chăm sóc phòng trừ dịch bệnh,…) Tuy nhiên, năng suấtphụ thuộc rất lớn vào dinh dưỡng (dinh dưỡng gồm: thức ăn thô, thức ăn tinh, các nguyên tố vilượng bổ sung) và cả cách chăm sóc ở từng vùng khí hậu khác nhau
Tuy nhiên, không phải tất cả các yếu tố đều có mối liên hệ đến năng suất sữa như nhau,
mà mỗi yếu tố, ở mỗi thời kỳ cũng như chu kỳ cho sữa lại có vai trò quan trọng khác nhau Vìvậy, vấn đề đặt ra là: Cần phải tìm hiểu có bao nhiêu yếu tố có quan hệ mật thiết đến năngsuất sữa , tương ứng với các chu kỳ cho sữa Để từ đó xây dựng quy trình các biện pháp kỹthuật vừa để hy vọng có năng suất cao, lại vừa đạt hiệu quả cao là điều cần thiết và rất có ýnghĩa Mối quan hệ (tương quan và hồi quy) giữa một yếu tố (một biến) với một số yếu tốkhác hay biến khác gọi là tương quan và hồi quy bội
Thí dụ: Nghiên cứu mối quan hệ giữa sản lượng sữa với lượng thức ăn, loại thức ăn và tuổicho sữa
Hay nghiên cứu mối quan hệ giữa tỷ lệ bệnh bạc lá lúa với lượng N bón, ẩm độ không khí,lượng mưa và mật độ cấy
Còn khi nghiên cứu mối liên hệ giữa 2 yếu tố và cố định các yếu tố khác còn lại gọi làtương quan hồi quy riêng
Phương trình biểu diễn (hay mô tả) mối quan hệ tuyến tính nhiều yếu tố có dạng sau:
k
k X b X
b X b a
Y 1 1 2 2 (2.28)
Ở đây, các biến số (X1;X2; X k)tương đối độc lập và quan hệ với biến hàm Y theo
dạng tuyến tính Ta có biểu thức (2.28) và phương trình tổng quát có dạng:
X X X k
f
Yˆ 1; 2; ; (2.29)Nếu như các biến số (X1 ;X2 ; X k)không có quan hệ tuyến tính với biến hàm số Y , thì
phải tuyến tính hóa các biến để chuyển về dạng tuyến tính cơ bản
2.5.2 Hệ số hồi quy riêng và hệ số tương quan riêng
2.5.2.1.Tính hệ số hồi quy riêng
Trong biểu thức (2.27) các giá trị b1;b2; ;b klà các hệ số hồi quy riêng, còn alà hệ
số tự do của phương trình hồi quy tuyến tính bội Xác định các hệ số hồi quy riêng và hệ số tự
do bằng phương pháp bình phương bé nhất dựa vào hệ phương trình chuẩn sau đây:
y n*ab1x1b2x2 b kx k (1)
x y ax b x2 b2x1x2 b kx1x k
1 1 1
x y ax b x x b x2 b3 x2x3 b k x2x k
2 2 2 1 1 2
x yax b x x b x2 b3x3x4 b lx3x k
3 2 3 1 1 3
………
x k yax k b1x1x k b2x2x k b kx k2 (k)
Trang 33Trong đó,các giá trị trong ma trận của hệ phương trình mẫu đều là các giá trị thực nghiệm Giải hệ ma trận này ta sẽ được các hệ số a;b1;b2; ;b k và sau đó thiết lập đượcphương trình hồi quy
Tiếp theo ta có thể tiến hành ước lượng các hệ số cũng như cả đường hồi quy mẫu, kiểmtra sự tồn tại của các hệ số của phương trình và kiểm tra độ tin cậy của cả phương trình hồiquy mẫu tính được
Cụ thể, dùng tiêu chuẩn T Student kiểm tra sự tồn tại của các hệ số
Thí dụ: Tính giá trị thực nghiệm cho hệ số hồi quy b1khi cố định các biếnx2;x3; x k
3 2 1
1 1
b b b b
b x b a
Yˆ 1 1 2 2 Khi cố định các biến x2;x3; ;x k
Q x b a
Yˆx1.x2 xk 1 1 (2.30)Trong đó Q là tổng của các yếu tố cố định Phương trình (2.30)
So sánh các giá trị thực nghiệm T với giá trị T;dfnk 2Ở đây k là số biến cố địnhNếu T tn < T lt hệ số hồi quy không tồn tại
Ngược lại T tn T lt hệ số hồi quy này tồn tại
2.5.2.2 Xác định hệ số tương quan riêng
Tương quan riêng là mối liên hệ giữa 2 yếu tố thuần túy khi cố định các biến còn lại Hệ số
tương quan riêng được ký hiệu là ( R ) Để tính được hệ số tương quan riêng, phải tính được
hệ số tương qua đơn giản r12;r13;r23
Hệ số tương quan riêng cấp 1 là tương quan được tính từ 3 biến số
Giả sử gọi các biến Y;X1 ;X2tương ứng với đánh số thứ tự của 3 biến là:1 ; 2 ; 3
Công thức tính hệ số tương quan riêng cấp 1 như sau:
23
2 13
23 13 12 3
12
11
*
r r
r r r R
23 12 13 2
13
11
*
r r
r r r R
13 12 23 1 23
11
*
r r
r r r R
Trang 34.
23
R là hệ số tương quan riêng giữa X1với X 2khi cố định Y
Hệ số tương quan riêng được tính từ 4 biến số gọi là hệ số tương quan riêng cấp 2 Khitính toán hệ số tương quan riêng cấp 2, ta cần phải cố định 2 biến Như vậy, để tính hệ sốtương quan riêng cấp 2 R12 34;R13 24'R14 23, phải tính được hệ số tương quan riêng cấp 1
Công thức tính hệ số tương quan riêng cấp 2 như sau :
214 3 224 3
3 24 3 14 3 12 34
12
11
)
*(
R R
R R R
13
11
)
*(
R R
R R R
14
11
)
*(
R R
R R R
2.5.3 Hệ số tương quan bội (hệ số tương quan phức)
2.5.3.1 Cách tính hệ số tương quan phức
Trong thực tiễn ta thường nghiên cứu mối quan hệ giữa biến hàm số (biến phụ thuộc) và ký
hiệu là Y Biến này đồng thời bị chi phối bởi p biến số Như vậy, hệ số tương quan phức biểu thị sự chi phối của p biến với biến hàm số.
Giả sử ta có các đại lượng Y;X1;X2, ở đây Y là biến hàm hay biến phụ thuộc vào haibiến X1&X2 Vậy hệ số tương quan phức tính như sau:
2
2 13
2 12 23
2.5.3.2 Kiểm tra độ tin cậy của hệ số tương quan phức
Người ta sử dụng phương pháp phân tích phương sai (dùng tiêu chuẩn F )
Trang 35Hệ số tương quan bội được kiểm định sự tồn tại bằng tiêu chuẩn F với giá trị thực nghiệm
tính bằng công thức : p
p n x R
2.5.4 Xây dựng phương trình tuyến tính nhiều lớp.
Xem xét mối liên hệ tuyến tính 2 lớp, xin được cụ thể hóa như sau:
Để tính hệ số tương quan bội (hay còn gọi hệ số tương quan phức) giữa biến hàm số Y
phụ thuộc vào biến X1& X2 ta phải tính các hệ số tương quan đơn giản giữa
2 1 2
1 ; & ; &
Y Sau đó tính hệ số tương quan riêng cấp 1 giữa biến hàm số Y vớibiến X 1 khi cố địnhX2, hệ số tương quan riêng cấp 1 giữa Y với X2 khi cố định X1 Cóthể tóm tắt các bước cơ bản gồm:
Bước 1: Tính các hệ số tương quan đơn giản
Bước 2: Tính các hệ số tương quan riêng cấp 1
Bước 3: Tính hệ số tương quan phức
Bước 4: Kiểm tra độ tin cậy của các hệ số tương quan
Bước 5: Tính các hệ số trong phương trình hồi quy
Bước 6: Kiểm tra độ tin cậy của các hệ số hồi quy, phương trình hồi quy và ước lượngcho hệ số hồi quy
Để hiểu rõ vấn đề ta có thể tìm hiểu qua thí dụ sau đây:
Thí dụ 2,2: Nghiên cứu mối quan hệ giữa năng suất cỏ (Y :tấn/ha) với lượng đạm bón (
1
X :kg/ha) và lượng kali bón (X2:kg/ha) Có các số liệu sau:
Bảng 2.3: Các giá trị để tính hệ số tương quan tuyến tính 2 lớp cho thí dụ (2.2)
Trang 36Bước 1: Tính các tổng bình phương và các hệ số tương quan đơn giản
56,2053
1
x
Q Q x2 509,56 Q y 0 , 44
87,28
7
; 05 , 0 2
*8862,09604,01
1
*
2 2
2 2 1
2 2
2 1 2 1 2
x x yx yx x
x
r r
r r r
*9604,08862,01
1
*R
2 2
2 2
.x
y x
2 1
2 1 2 1
x yx yx
r r
r r r
Bước 3: Tính hệ số tương quan phứccủa năng suất phụ thuộc vào lượng đạm và kali
2
Bước 4: Kiểm tra độ tin cậy của hệ số tương quan riêng và tương quan bội
+ Với hệ số tương quan riêng
Dùng T- test tính giá trị T thực nghiệm như sau:
219
81,01
81,0
2
.
.
2 1
2 1 2
R T
x yx
x yx x
2221,01
2221,01
.
.
1 2
1 2 1
R T
x yx
x yx x
yx
tn
hệ số tương quan riêng của năng suất
với kali khi cố định đạm bón là không có ý nghĩa, vì T tn T lt
+ Với hệ số tương quan bội
Trang 37Dùng tiêu chuẩn F, trong đó giá trị thực nghiệm
1 2 9 9624 , 0 1
9624 , 0 1
*
2 2
.
2
2
2 1
R
F
x y
x y tn
Ở đây: p là số biến cố định trong hệ số tương quan phức
14,506
,155
&
14,5
1 2 9
nên hệ số tương quan bội đáng tin
Bước 5: Xây dựng phương trình hồi quy tuyến tính 2 lớp biểu diễn mối quan hệ giữa năngsuất phụ thuộc vào lượng đạm và lượng kali bón
2 2 1 1
6
,
Giải các phương trình trên ta có các hệ số hồi quy b1& b2
Tuy nhiên, ta có thể tính b1 & b2bằng các công thức đơn giản như sau:
D
Q Q Q
0 92
, 114105
27 , 13
* 56 , 965 87
, 28
* 56 , 509
b
00548 , 0 92
, 114105
87 , 28
* 56 , 965 27
, 13
* 56 , 2053
b
Tính a theo các công thức sau:
2 2
1x1 b x
b
y
a hay yˆ y b1x1 x1 x2 x2
Trang 38Thay số tính được a 5 , 01
Vậy phương trình hồi quy tuyến tính hai lớp có dạng cụ thể là:
2
1 0 , 00548 016634
, 0 01
,
5
Bước 6: Kiểm tra độ tin cậy của phương trình và ước lượng hệ số hồi quy
+ Kiểm tra độ tin cậy cho phương trình hồi quy bằng phân tích ANOVA Các nguồn biếnđộng gồm:
44 , 0 SS Q y
ToT độ tự do df n 1 8
* * 0,016634*28,87 0,00548*13,27 0,41
ReG SS b1 Q yx1 b2 Q yx2
Độ tự do ReG df p 2
03 , 0 41 , 0 44 , 0 Re
Re
Re
df G
SS G MS
G
0 , 005
6
03 0
.
df E
SS E MS E
005 , 0
205 , 0
Re
MS E
MS G
F tn
Trị số F0,05;df12&df26 5 , 14
41 , 00 lt5 , 14
F nên phương trình hồi quy mẫu tính được là đáng tin cậy
+ Ước lượng các hệ số hồi quy
b Q n
y y
n i
92,114105
56,509
2
1
56,2053
1
2
0016634
,
0
+ Kiểm tra độ tin cậy của các hệ số hồi quy
Dùng tiêu chuẩn T Trong đó,
Trang 3935 , 3 004466 ,
0 0742 , 0
016634 ,
0 ˆ
00548 , 0 ˆ
2 2
2.6 Nghiên cứu mối liên hệ phi tuyến
Trong nông nghiệp cũng như nhiều lĩnh vực khoa học khác, ngoài các mối liên hệ tuyến
tính 1 ; 2 ; ;k lớp như đã đề cập ở trên, người làm thống kê ứng dụng còn gặp nhiều dạngliên hệ giữa các đại lượng (các chỉ tiêu nghiên cứu) không phải dạng tuyến tính Thí dụ như
+ Liên hệ giữa khối lượng Y với chiều cao thân đại gia súc.
+ Liên hệ giữa độ ẩm hạt trong quá trình bảo quản với vị trí bảo quản
+ Liên hệ giữa sản lượng sữa với lượng thức ăn
+ Liên hệ giữa lượng đất bị xói mòn với lượng mưa hay cường độ mưa (dòng chảy mặt) trênđất dốc…
Có thể đề cập một số hàm hồi quy phi tuyến gồm:
Nghiên cứu mối liên hệ phi tuyến rất phức tạp, nên trước khi phân tích ta chuyển các liên
hệ phi tuyến về dạng tuyến tính Thí dụ:
Trang 40Trong trường hợp này ta đặt biến mới
x
Như vậy ta nhận được hàm hồi quy mới có dạng : yabv
Hay ta có mối liên hệ hàm phi tuyến bậc 2 (Parabon)
yabxcx2 Như vậy, cần tuyến tính hóa để nhận được mối liên hệ theo đường tuyếntính 2 lớp, cụ thể :
Sau khi tuyến tính hóa, ta tính các tham số theo phương trình tuyến tính (tất cả các bước), chỉ khác
là tham số thống kê biểu thị mức độ liên hệ là (r; R ) Hay ( I ) Cuối cùng phương trình tuyến tính
hóa phải được chuyến trả lại về biến ban đầu, để có phương trình hồi quy phi tuyến chính tắc
Như vậy, bằng cách này hay cách khác người làm thống kê ứng dụng nhìn chung đều có thểchuyển các liên hệ phi tuyến về dạng tuyến tính, để dễ dàng phân tích được mối liên hệ màvẫn đảm bảo chính xác
Có thể xem xét qua thí dụ cụ thể sau :
Thí dụ (2.3) : Có thể giả thuyết rằng sự phụ thuộc của độ ẩm hạt Y: %ở lúa và độ cao các vịtrí bảo quản hạt trong kho X : m cách mặt đất được thể hiện bằng đường cong hyperbon
i
b
a
y Kết quả trong bảng sau :
Bảng (2.4) : Số liệu để tính các tham số trong nghiên cứu mối quan hệ phi tuyến cho thí dụ (2.3)
i i x
i i x
X
i
i i i x
y y