Xử lý thống kê số liệu phân tích

Một phần của tài liệu (LUẬN văn THẠC sĩ) khảo sát, đánh giá sự phân bố hàm lượng các kim loại nặng trong nước và trầm tích hệ thống sông đáy (Trang 37 - 40)

CHƢƠNG 1 : TỔNG QUAN

1.6. Xử lý thống kê số liệu phân tích

1.6.1. Phân tích phương sai đa biến (MANOVA)

MANOVA là phân tích phương sai đa biến áp dụng cho các tập số liệu có từ hai biến phụ thuộc trở lên, được dùng để đánh giá sự khác nhau của các nhóm biến độc lập được phân tích đồng thời dựa trên tập hợp các biến chính tắc đóng vai trị như những biến độc lập.

Phương pháp này được dùng để đánh giá ảnh hưởng tương hỗ và ảnh hưởng chính của biến độc lập đến các kết quả thí nghiệm. MANOVA dùng một hay nhiều biến phụ thuộc (predictors) như ANOVA nhưng khác với ANOVA nó gồm nhiều

hơn một biến độc lập. Nếu như ANOVA kiểm tra sự khác nhau giữa các giá trị trung bình của nhiều biến độc lập tức là sử dụng một phép đo độc lập thì MANOVA kiểm tra sự khác nhau về gía trị (vecto) trung tâm của giá trị trung bình của rất nhiều biến tức là so sánh các mẫu dựa trên hai hay nhiều biến độc lập .

Để kiểm tra giả thiết đảo trong MANOVA người ta sử dụng nghiệm đặc trưng lớn nhất (greatest characteristic root-gcr). Nó sẽ kiểm tra hàm khác biệt đầu tiên của các biến độc lập với khả năng của nó để nhận ra sự khác nhau giữa các nhóm .

Sự khác nhau có ý nghĩa thống kê về giá trị trung bình của hai hay nhiều biến giữa hai nhóm được kiểm tra bằng giá trị Hotelling's T2.

Cả ANOVA và MANOVA đều cần giả thiết về các phép đo độc lập:

- Phân phối chuẩn: Biến phụ thuộc phải tuân theo phân phối chuẩn trong nhóm.

- Tính tuyến tính: MANOVA cần giả thiết có quan hệ tuyến tính giữa tất cả các cặp của biến phụ thuộc, các cặp biến ngẫu nhiên và cặp biến phụ thuộc – biến ngẫu nhiên

- Phương sai phải đồng nhất.

- Biến ngẫu nhiên (variate): là sự kết hợp tuyến tính của các biến. Trong MANOVA, biến độc lập được tạo vào trong biến ngẫu nhiên trong hàm biệt thức .

Thuận lợi khi dùng MANOVA:

Trong phân tích MANOVA, những phép đo lặp lại được xem như những tập hợp con (subset). Nếu sử dụng ANOVA một yếu tố sẽ mắc sai lầm loại một. MANOVA kiểm soát được sự lan truyền sai số này.

Khi xuất hiện đa cộng tính giữa các biến độc lập thì MANOVA có thể phát hiện sự khác nhau mà bằng ANOVA 1 yếu tố không phát hiện được.

Hạn chế: nếu số thí nghiệm nhỏ thì kết quả bị ảnh hưởng bởi sai số thô. + Giữa các biến độc lập phải có quan hệ tuyến tính

+ MANOVA không cho ta ảnh hưởng tương hỗ của yếu tố chính và yếu tố lặp lại.[11]

1.6.2. Phân tích thành phần chính (PCA)

Phân tích thành phần (cấu tử) chính là cơng cụ hữu hiệu cho phép giảm số biến trong tập số liệu nhằm đạt được biểu diễn hai chiều từ tập số liệu đa chiều bằng cách tìm ra giá trị phương sai lớn nhất với số thành phần chính (PC) hay các biến ảo ít nhất.

Nói cách khác PCA là thuật toán đa biến dựa trên việc quay các trục số liệu chứa các biến tối ưu. Khi đó, một tập hợp các biến liên quan với nhau được chuyển thành tập hợp các biến không liên quan và được sắp xếp theo thứ tự giảm độ biến thiên hay phương sai. Những biến không liên quan này là sự kết hợp tuyến tính các biến ban đầu. Dựa trên phương sai do mỗi biến mới gây ra có thể loại bỏ bớt các

biến phía cuối dãy mà chỉ mất ít nhất thơng tin về các số liệu thực ban đầu. Bằng cách này sẽ giảm được kích thước của tập số liệu trong khi vẫn có thể giữ ngun thơng tin.

Trong thuật tốn PCA, có thể có nhiều PC vì có nhiều biến trong tập số liệu. Số PC tối đa bằng số biến. Việc dùng PCA có thể tóm lược được cấu trúc đồng phương sai với tập số liệu có kích thước nhỏ hơn, mà không làm mất đi ý nghĩa của tập số liệu ban đầu. Có thể sử dụng tập số liệu mới này trong tính tốn để thay thế cho tập số cũ.

PCA được ứng dụng chủ yếu trong việc giảm kích thước tập số liệu, từ biểu diễn n chiều trong không gian thành biểu diễn hai hoặc 3 chiều với số biến có ảnh hưởng chính đến tập số liệu.

PCA loại bỏ sự đa cộng tính giữa các biến trong việc xây dựng phương trình hồi qui biểu diễn sự phụ thuộc của tín hiệu phân tích vào các biến là nồng độ các thành phầntrong hệ. Phương pháp này có tên gọi là hồi qui thành phần chính.

Từ tập số liệu với n biến ban đầu có liên quan mật thiết với nhau, sau khi giảm thành p biến khơng liên quan thì trị riêng của chúng có thể sử dụng làm số liệu đầu vào của phương pháp hồi qui kết hợp với mạng noron nhân tạo giải bài tốn phân tích đồng thời các thành phần trong hệ có tương tác khơng cộng tính.

Nếu xem các số liệu phân tích trong tập số liệu là kết quả phân tích lặp lại thì PCA cho phép tìm được sai số thơ trong số các kết quả phân tích.

Tuy nhiên PCA đơn thuần là phương pháp toán học nên các kết quả thu được bị ảnh hưởng rất lớn bởi tập số liệu ban đầu, vì vậy cần kết hợp với những kiến thức chuyên ngành khác nếu không sẽ dẫn đến những giải nghĩa sai lệch.[11]

1.6.3. Phân tích nhóm (CA)

Phân tích nhóm là kỹ thuật phân tích đa biến nhằm phân loại những số liệu có đặc tính giống nhau thành các nhóm hay cịn gọi là các cụm.

Hai loại phân tích nhóm thường được sử dụng là: phân tích nhóm theo bậc và phân tích nhóm k – trung bình.

Phân tích nhóm theo bậc là cách để tìm ra các nhóm trong tập số liệu bằng cách tạo ra cây phân nhóm. Cây phân nhóm gồm nhiều bậc trong đó nhóm ở một mức được nối với với nhóm bên cạch ở mức cao hơn. Điều đó cho phép quyết định mức hoặc thang chia nào của nhóm là phù hợp hơn.

Nhóm theo bậc nhằm tìm ra các nhóm trong tập số liệu bằng cách tạo ra cây phân nhóm. Theo phương pháp này, tập số liệu lớn được chia thành các tập số liệu nhỏ hơn nữa cho đến khi mỗi tập số liệu nhỏ chỉ còn một phần tử. Cây phân nhóm gồm nhiều bậc trong đó nhóm ở một mức được nối với với nhóm bên cạch ở mức cao hơn. Điều đó cho phép quyết định mức hoặc thang chia nào của nhóm là phù hợp hơn.

Nhóm theo k - trung bình: các phần tử trong tập số liệu được tách vào k nhóm, các phần tử cùng nhóm được kết hợp với nhau và các nhóm khác nhau được tách ra khỏi nhau.[11]

1.6.4. Phần mềm máy tính

Các số liệu phân tích lặp lại, phân tích hồi qui, xử lý thống kê đa biến (multivariate analysis), hoặc đồ thị biểu diễn qui luật phân bố các đại lượng được xử lý bằng phần mềm MINITAB 15.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khảo sát, đánh giá sự phân bố hàm lượng các kim loại nặng trong nước và trầm tích hệ thống sông đáy (Trang 37 - 40)

Tải bản đầy đủ (PDF)

(97 trang)