Khi tiến hành nghiên cứu về vấn đề ô nhiễm môi trường không khí ở Hà nội, phương pháp phân tích phương sai là một trong những phương pháp thống kế phân tích dữ liệu có tầm quan trọng trong việc đánh giá mối tương quan giữa các thông số sinh học, hoá học và khí hậu...nhằm tìm ra các yếu tố tương tác lẫn trong môi trường. Bài báo này nhằm đưa ra tính ứng dụng của phương pháp phân tích phương sai trong phân tích môi trường.
SỬ DỤNG PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI ĐỂ ĐÁNH GIÁ MỐI TƯƠNG QUAN GIỮA CÁC NHÂN TỐ CÓ TRONG BỤI KHÍ Ở KHU VỰC HÀ NỘI VÕ THỊ ANH, NGUYỄN THUÝ BÌNH Viện Khoa học Và Kỹ thuật Hạt nhân, 179 Hoàng Quốc Việt, Cầu Giấy, Hà Nội vothianhanh@yahoo.com, binh1955@yahoo.com Tóm tắt: Khi tiến hành nghiên cứu về vấn đề ô nhiễm môi trường không khí ở Hà nội, phương pháp phân tích phương sai là một trong những phương pháp thống kế phân tích dữ liệu có tầm quan trọng trong việc đánh giá mối tương quan giữa các thông số sinh học, hoá học và khí hậu nhằm tìm ra các yếu tố tương tác lẫn trong môi trường. Bài báo này nhằm đưa ra tính ứng dụng của phương pháp phân tích phương sai trong phân tích môi trường. Từ khoá: Phân tích phương sai, không khí I. Mở đầu Hiện nay, vấn đề ô nhiễm không khí là vấn đề không chỉ của riêng mỗi quốc gia mà còn mang tính toàn cầu. Việt Nam cũng không nằm ngoài mối quan tâm lớn đó. Bởi sự ô nhiễm không khí ở các khu đô thị lớn đang diễn biến ngày càng phức tạp. Nguyên do chính của tình trạng trên là do quá trình đô thị hoá quá nhanh, sự tăng nhanh chóng của các phương tiện giao thông, sự phát triển của công nghiệp và tiểu thủ công nghiệp quá nhanh trong khi cơ sở hạ tầng còn thấp Hà Nội là thủ đô của cả nước với tốc độ phát triển kinh tế xã hội đứng đầu cả nước. Tuy nhiên đạt được những thành tựu kinh tế xã hội như vậy nhưng cuộc sống của người dân nơi đây phải đối mặt với những vấn đề như ô nhiễm môi trường sống do mật độ dân cư dầy đặc, sự ô nhiễm nguồn nước sinh hoạt, và đặc biệt là vấn đề ô nhiễm không khí dẫn đến làm giảm chất lượng sống ở thành thị. Nhiều năm trở lại đây, các nhà khoa học trong nhiều lĩnh vực khác nhau đã tiến hành nghiên cứu về vấn đề ô nhiễm không khí ở khu vực Hà Nội. Tuy nhiên những nghiên cứu này còn rời rạc, chưa có mối liên kết phản biện về tương quan những tác nhân ảnh hưởng tới chất lượng không khí ở Hà Nội với đời sống sức khoẻ, tinh thần của dân cư trong khu vực. Những số liệu thu thập từ những nghiên cứu khoa học mới có tính chất thống kê để đưa ra khuyến cáo nhằm đề xuất giảm thiểu tình trạng ô nhiễm không khí chứ chưa thể hiện được mối tương quan tác động qua lại. Việc sử dụng các công cụ toán học cũng như mô hình toán được đưa vào nghiên cứu mối liên hệ những yếu tố ảnh hưởng còn ít, chưa rõ ràng. Trong bài báo này, chúng tôi đã áp dụng một phương pháp phân tích cổ điển, phương pháp phân tích phương sai, một trong nhiều phương pháp thống kê toán học, để tìm hiểu mối tương quan giữa các yếu tố môi trường tác động với sức khoẻ con người. II. Sử dựng phương pháp phân tích phương sai (analysis of variance_ANOVA) trong việc đánh giá số liệu ghi nhận được. Phân tích phương sai thực chất là bài toán kiểm định về sự bằng nhau của nhiều trung bình tổng thể. 1. Phân tích phương sai một chiều: Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố. Mục đích của phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiêu) nào đó trên các giá trị quan sát. Với bài toán này chúng ta so sánh giá trị trung bình của nhiều tập hợp chính với giả thiết các phương sai bằng nhau và kiểm định xem các giá trị trung bình có bằng nhau không (tức là kiểm tra xem khi một nhân tố thay đổi thì điều đó có ảnh hưởng đến hiệu quả trung bình không). Để giải quyêt bài toán có hay không mối tương quan tác động qua lại giữa các yếu tố trung bình vi khuẩn ghi nhận được với các yếu tố thời tiết như độ ẩm, nhiệt độ và lượng mưa trong cùng một thời điểm tiến hành lấy mẫu, chúng ta xem xét bảng số liệu dưới đây. Bảng 1: Số liệu khí tượng và vi khuẩn theo tháng Tháng Trung bình vi khuẩn Lượng mưa trung bình (mm) Độ ẩm Nhiệt độ ( o C) Thg3-11 88568 18 78% 16 Thg4-11 12859 41 79% 24 Thg5-11 2566 149 80% 26 Thg6-11 3191 396 91% 28 Thg7-11 15091 295 79% 30 Thg8-11 6819 313 83% 29 Thg9-11 6348 247 87% 26 Thg10-11 1070 178 84% 25 Thg11-11 8448 32 88% 21 Thg12-11 1317 52 74% 15 Thg1-12 2465 20 78% 14 Thg2-12 22120 19 87% 15 Thg3-12 11484 17 92% 19 Từ bảng số liệu này, ta sẽ vẽ đồ thị để tìm xem giữa chúng có tính quy luật gì không. Biểu đồ Trung bình vi khuẩn theo tháng 0 30000 60000 90000 120000 Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12 Tháng T r u n g b ì n h v i k h u ẩ n Hình 1: Trung bình vi khuẩn theo tháng Hình 2: Độ ẩm theo tháng Biểu đồ độ ẩm theo tháng 0% 20% 40% 60% 80% 100% Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12 Tháng Đ ộ ẩ m Hình 3: Nhiệt độ hàng tháng Hình 4: Lượng mưa hàng tháng Nếu nhìn vào bốn đồ thị trên, chúng ta thật khó có thể nhìn thấy mối tương quan giữa chúng cũng như tìm thấy quy luật của các yếu tố trên theo thời gian 12 tháng. Bây giờ chúng ta sử dụng công cụ ANOVA để đánh giá các yếu tố ghi nhận được có trong bảng số liệu trên và thu được bảng kết quả như sau: Nguồn biến thiên Tổng độ lệch bình phương Bậc tự do Phương sai F P-value F crit Giữa các nhóm 1903853145 3 6,35E+08 4,697298306 0,0059053 2,7980606 Trong nội bộ nhóm 6484929919 48 1,35E+08 Tổng số 8388783064 51 Xét bài toán với mức ý nghĩa =5% Với giả thiết ban đầu Ho là yếu tố thời tiết với trung bình vi khuẩn không có mối tương quan ảnh hưởng qua lại với nhau. Dựa vào giá trị kiểm định ta thấy giá trị p=0,0059053 là rất bé, đồng thời F>Fcrit, nghĩa là giả thiết Ho không được chấp nhận. Điều này cho thấy giữa yếu tố trung bình vi khuẩn và các giá trị thời tiết là có ảnh hưởng tác động qua lại với nhau. Từ việc giải quyết bài toán theo phương pháp vẽ đồ thị và tính toán phương sai, ta thấy phương pháp tính đã đưa ra giá trị toán học có tính logic, tính nhanh và có tính thuyết phục cao hơn việc vẽ đồ thị. Tuy nhiên, việc áp dụng phương pháp tính phương sai một chiều là áp dụng cho bài toán đơn giản, với ít yếu tố ảnh hưởng đến hiện tượng phân tích. Với những bài toán phức tạp, nhiều yếu tố thì chúng ta cần phải sử dụng công cụ toán học có tính thuyết phục cao hơn, đó là phương pháp phân tích phương sai hai chiều. 2. Phân tích phương sai hai chiều: Phân tích phương sai hai chiều là xét đến hai yếu tố ảnh hưởng đến hiện tượng phân tích. Biểu đồ nhiệt độ theo tháng 0 5 10 15 20 25 30 35 Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12 Tháng N h i ệ t đ ộ o C Biểu đồ lượng mưa theo tháng 0 100 200 300 400 500 Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12 Tháng L ư ợ n g m ư a m m a) Trường hợp có một quan sát trong cùng một ô: Trường hợp này tương ứng với sự tác động của yếu tố cột và yếu tố hàng, chúng ta chỉ chọn một quan sát. Nghĩa là ta vừa kiểm định giả thuyết trung bình theo cột bằng nhau vừa kiểm định trung bình theo hàng bằng nhau. Dựa trên việc thu thập số liệu số lượng bệnh nhân nhiễm các bệnh về đường hô hấp ghi nhận được ở bệnh viện E trong hai năm 2010 và 2011, chúng tôi tiến hành nghiên cứu xem có sự thăng giáng về số bệnh nhân có tuân theo quy luật nào không từ số liệu này. Tháng S ố bệnh nhân li ên quan t ới hô hấp (người) BV E Năm 2010 Năm 2011 1 113 144 2 82 149 3 140 243 4 104 197 5 107 151 6 123 122 7 129 125 8 194 106 9 124 107 10 140 132 11 179 123 12 153 136 Bảng 2: Số liệu bệnh nhân tại bệnh viện E Hình 5: Bệnh nhân liên quan tới đường hô hấp Từ đồ thị trên, ta thấy rằng vào tháng 3 năm 2011 và tháng 8 năm 2010 cơ số bệnh nhân cao nhất trong năm. Bây giờ ta áp dụng bài toán phương sai cho nghiên cứu trên với giả thiết ban đầu là số bệnh nhân nhiễm đường hô hấp ở bệnh viện E năm theo năm và theo tháng là không có mối tương quan lẫn nhau, nghĩa là không có một quy luật nhất định nào. Kết quả tính toán ANOVA: Nguồn biến thiên Tổng độ lệch bình phương Bậc tự do Phương sai F P-value F crit Giữa các hàng 9624,091 10 962,4091 0,534691 0,830965 2,978237 Giữa các cột 611,6364 1 611,6364 0,33981 0,572849 4,964603 Sai số 17999,36 10 1799,936 Tổng cộng 28235,09 21 Với mức ý nghĩa là =5% Từ kết quả tính toán trên, chúng tôi có một số nhận xét sau: Số bệnh nhân liên quan tới hô hấp BV E 0 50 100 150 200 250 0 1 2 3 4 5 6 7 8 9 10 11 12Tháng Người Năm 201 0 Năm 201 1 - Ở đây cả yếu tố hàng p=0,830965 và yếu tố cột p=0,572849 là giá trị rất lớn, đồng thời giá trị kiểm định của hàng và cột đều nhỏ hơn giá trị Fcrit, đều đó khẳng định giả thiết ban đầu được chấp nhận. Nghĩa là số bệnh nhân ghi nhận được theo năm, theo tháng là ngẫu nhiên, không có quy luật nào. Như vậy, phương pháp tính này đã giúp chúng ta đánh giá số liệu một cách khách quan khoa học thông qua những giá trị p, F bên cạnh phương pháp vẽ đồ thị thông thường và nhìn cảm quan bên ngoài. b) Trường hợp có hơn một tham số trong một ô: Trong một nghiên cứu nhằm tìm kiếm số lượng vi khuẩn có trong môi trường theo một ngày nhất định trong tuần (ngày thứ 3 hàng tuần) và theo tháng, được tiến hành nuôi cấy đồng thời trên ba đĩa A, B, C, chúng tôi ghi nhận được bảng số liệu dưới đây. Như vậy, từ bảng số liệu thu nhận được, chúng ta đặt ra câu hỏi, vậy việc lấy mẫu trên các đĩa khác nhau có gì đặc biệt không, hay việc lấy mẫu có tính chu kỳ lặp lại như vậy có mối liên quan với nhau. Đây là một bài toán hai yếu tố với nhiều quan sát ghi nhận được. Để giải quyết bài toán này, chúng tôi đã áp dụng phương pháp phân tích phương sai hai chiều có hơn một tham số trong một ô. Phương pháp này áp dụng trong trường hợp với mỗi yếu tố hàng và yếu tố cột có nhiều quan sát thì ngoài việc chúng ta phải kiểm định vể trung bình theo hàng và theo cột bằng nhau, chúng ta còn phải xem xét sự tương tác giữa yếu tố hàng và yếu tố cột có ảnh hưởng đến hiện tượng nghiên cứu hay không. Bảng 3: Số liệu vi khuẩn có trên các đĩa theo tháng Số vi khuẩn có trên các đĩa Số vi khuẩn có trên các đĩa A B C A B C Tháng 3 1690 1750 1900 Tháng 6 6900 9200 7900 4130 3970 3480 3900 4200 3900 2600 2200 2400 1240 1300 1180 250000 220000 220000 980 910 890 Tháng 4 29000 25000 30000 Tháng 7 95 175 125 12300 11800 13100 17300 16900 16500 380 610 660 1450 1750 1750 30000 36000 29000 980 890 980 Tháng 5 300 350 340 Tháng 8 13000 14000 13200 550 610 560 1290 1330 1280 620 490 570 8000 8200 6300 120 100 140 4700 4500 4300 Kết quả tính toán phương sai ANOVA: Source of Variation SS df MS F P-value F crit Sample 3,01E+10 5 6,01E+09 2,715771 0,029238 2,38607 Columns 22754686 2 11377343 0,005139 0,994875 3,168246 Interaction 1,35E+08 10 13540528 0,006116 1 2,011181 Within 1,2E+11 54 2,21E+09 Total 1,5E+11 71 Từ bảng tính toán trên ta có một số kết luận sau: - Kiểm định theo cột: + Với giả thiết số vi khuẩn ghi nhận được không phụ thuộc vào đĩa. + Giá trị =5%, p=0,994875, F<Fcrit=3,168246, chấp nhận giả thiết đưa ra. + Kết luận: Số vi khuẩn ghi nhận không phụ thuộc vào việc cấy trên đĩa nào. - Kiểm định theo hàng: + Với giả thiết số vi khuẩn ghi nhận được không phụ thuộc theo thời gian. + Giá trị =5%, p=0,029238, F A >Fcrit=2,3860, không chấp nhận giả thiết. + Kết luận: số vi khuẩn ghi nhận được phụ thuộc theo thời gian. - Kiểm định mối tương tác + Với giả thiết không có mối tương tác giữa yếu tố thời gian, đĩa cấy mẫu với số vi khuẩn ghi nhận được trên đĩa + Giá trị =5%, p=1, F< Fcrit=2,011181, chấp nhận giả thuyết. Kết luận chung: Lượng vi khuẩn ghi nhận được trên các đĩa là có tính ngẫu nhiên, và tuân theo quy luật thời gian, tức là có sự thay đổi theo mùa, phụ thuộc vào các thông số khí tượng môi trường. Bằng cách sử dụng phương pháp tính phương sai, chúng ta đã tìm ra có hay không mối tương tác qua lại giữa số liệu ghi nhận được với yếu tố môi trường cũng như điều kiện nuôi cấy vi khuẩn trên các đĩa khác nhau. Điều này thật khó nếu ta nhìn vào bảng số liệu thô ban đầu. Đây là ưu điểm lớn của phương pháp tính này. III. Kết luận Bằng việc sử dụng phương pháp tính ANOVA, các số liệu mà ta thu thập được đã thể hiện có hay không mối tương quan qua lại ảnh hưởng lẫn nhau, điều mà nếu ta nhìn vào số liệu thống kê hay vẽ đồ thị thì không thể nhận biết được. Đây chính là ưu điểm mạnh của phương pháp. Và đây cũng là phương pháp có tính phản biển mạnh mẽ cho những nghiên cứu về ô nhiễm môi trường không khí mà chúng tôi đang nghiên cứu. TÀI LIỆU THAM KHẢO [1] J.S. Kaper and J.S. Prener, “The XYZ Method”, Acta Crystallogr., 7,246-48, 1954 [2] Trần Văn Công, Bahr Weiss, Sự cần thiết và ý nghĩa của việc sử dụng xác suất thống kê trong nghiên cứu giáo dục và các khoa học xã hội. [3] Burkhardt Seifert & Alois Tschopp, Biostatistics ANOVA - Analysis of Variance [4] Thomas Scheike, Biostatistics Quantitative Data APPLICATION ANALYSIS OF VARIANCE METHODE FOR EVALUATED RALATION TO FACTORS IN AIRBORNE DUST IN HANOI Abstract: When study about air environmental pollution in Hanoi, the analysis of variance method is one of statistical methodes for data analysis which is very importance for evaluated relation about biology, chemistry and climate… to look for interactive factors in environment. This paper aims to study the analysis of variance method for enviromental analysis. . 29000 25000 30000 Tháng 7 95 175 125 12300 11800 13100 17300 169 00 165 00 380 610 660 1450 1750 1750 30000 36000 29000 980 890 980 Tháng. 2,38607 Columns 22754686 2 11377343 0,005139 0,994875 3 ,168 246 Interaction 1,35E+08 10 13540528 0,006 116 1 2,011181 Within 1,2E+11 54 2,21E+09 Total 1,5E+11 . vi khuẩn Lượng mưa trung bình (mm) Độ ẩm Nhiệt độ ( o C) Thg3-11 88568 18 78% 16 Thg4-11 12859 41 79% 24 Thg5-11 2566 149 80% 26 Thg6-11 3191 396 91%