2.4.1 Phân tích thành phần chính (PCA)
Mỗi bộ dữ liệu thu thập được khi tiến hành các nghiên cứu, thí nghiệm thường được thể hiện dưới dạng các giá trị số của nhiều yếu tố. Chúng tạo thành một tập hợp số liệu lớn, khá phức tạp. Các số liệu này cần được phân tích và xử lý để có thể rút ra những nhận xét, đánh giá thích hợp. Do đó, Phân tích thành phần chính (PCA) là một kỹ thuật thống kê phân tích đa biến được sử dụng rộng rãi để giảm tập hợp các biến phụ thuộc đến một tập hợp dữ liệu nhỏ hơn hay còn gọi là yếu tố, căn cứ trên mơ hình của tương quan giữa các biến ban đầu.
Mục đích của phân tích thành phần chính là rút ra thơng tin chủ yếu chứa trong bảng số liệu bằng cách xây dựng một biểu diễn đơn giản hơn sao cho tập hợp số liệu được thể hiện rõ nhất. Cụ thể khi phân tích thành phần chính tức là đi tìm những trục để quan sát, mơ tả tốt nhất, trung thực nhất tập hợp vị trí lấy mẫu nước mưa chảy tràn và chỉ tiêu các chất ơ nhiễm.
Việc tìm các thành phần chính (trục chính Fi) được thực hiện như sau: tìm trục chính thứ nhất (F1) là trục mà quán tính nhỏ nhất, tức là đường thẳng qua tâm gần tập hợp điểm nhất. Trục chính thứ hai (F2) là trục qua tâm trực giao với trục chính thứ nhất và qn tính của tập hợp điểm theo nó là nhỏ nhất. Trục chính thứ ba (F3) là trục qua tâm, trực giao với hai trục chính thứ nhất (F1) và thứ hai (F2) và gần tập hợp điểm nhất sau hai trục trên. Tiếp tục như vậy đến bước thứ i, ta được một hệ i vectơ trực giao tạo thành siêu phẳng i chiều mà tập hợp điểm thể hiện trên đó là rõ nhất. Tuy nhiên trong thực tế, khi đã tìm được một số trục chính có tỉ lệ đóng góp tương đối tốt (thường F1 và F2), ta có thể dừng lại để quan sát. Qua hình ảnh thu được, có thể thấy các vị trí nào gần nhau, vị trí nào xa nhau, giúp quan sát rõ hơn và đưa ra những nhận xét thích hợp. Cách tìm các trục toạ độ được phân tích xây dựng trên cơ sở tốn học.
2.4.2 Phân tích chùm dựa vào khoảng cách (AHC)
Phương pháp xuất phát từ việc coi các dữ liệu là một tập hợp con và tìm cách ghép các tập con này thành một số lớp theo các mức khác nhau. Hình ảnh thu được sau khi ghép các tập con sẽ cho cái nhìn trực quan về mối liên hệ giữa các dữ liệu thu thập được.
Có nhiều phương pháp xác định mối liên quan giữa các vị trí. Mỗi cách xác định mối liên quan tương ứng với một cách lập cây phân loại dựa trên các vị trí đó. Với hai vị trí lấy mẫu khác nhau, hai cây phân loại lập được có thể sẽ khác nhau, do đó hình ảnh thu được tương ứng cũng khác nhau. Hiện nay, với sự hỗ trợ của máy tính, việc phân loại và đánh giá mối liên quan giữa các vị trí lấy mẫu trở nên đơn giản. Chỉ cần chọn thơng số ơ nhiễm thích hợp và số vị trí lấy mẫu cần phân chia sẽ thu được một hình ảnh trực quan về những thơng tin chứa đựng trong các số liệu thu được.
Các số liệu phân tích từ các trận mưa khác nhau, tại các vị trí lấy mẫu nước mưa chảy tràn có bề mặt đệm với các mục đích sử dụng đất khác nhau (mục 2.3.1). Các dữ liệu của các thuộc tính khác nhau đã nêu ở trên được sắp xếp theo thứ tự tăng hoặc giảm dần và xử lý bằng phần mềm thống kê XLSTAT phiên bản 2014.1.01. Sau đó các dữ liệu được giảm bằng cách phân tích dữ liệu, các biến độc lập, các biến phụ thuộc được lựa chọn và dựa trên đồ thị 2 trục chính (F1 và F2). Các số liệu này được sử dụng để vẽ biểu đồ phân tích thành phần chính (Principle
Component Analysis – PCA), phân tích chùm dựa vào khoảng cách (Agglomerative Hierarchical Clustering - AHC).