CHƢƠNG 2 : THỰC NGHIỆM
2.4. Xử lý thống kê số liệu phân tắch
biến trong tập số liệu nhằm đạt đƣợc biểu diễn hai chiều từ tập số liệu đa chiều bằng cách tìm ra giá trị phƣơng sai lớn nhất với số thành phần chắnh (PC) hay các biến ảo ắt nhất.
Nói cách khác PCA là thuật tốn đa biến dựa trên việc quay các trục số liệu chứa các biến tối ƣu. Khi đó, một tập hợp các biến liên quan với nhau đƣợc chuyển thành tập hợp các biến không liên quan và đƣợc sắp xếp theo thứ tự giảm độ biến thiên hay phƣơng sai. Những biến không liên quan này là sự kết hợp tuyến tắnh các biến ban đầu. Dựa trên phƣơng sai do mỗi biến mới gây ra có thể loại bỏ bớt các biến phắa cuối dãy mà chỉ mất ắt nhất thơng tin về các số liệu thực ban đầu. Bằng cách này sẽ giảm đƣợc kắch thƣớc của tập số liệu trong khi vẫn có thể giữ ngun thơng tin.
Trong thuật tốn PCA, có thể có nhiều PC vì có nhiều biến trong tập số liệu. Số PC tối đa bằng số biến. Việc dùng PCA có thể tóm lƣợc đƣợc cấu trúc đồng phƣơng sai với tập số liệu có kắch thƣớc nhỏ hơn, mà không làm mất đi ý nghĩa của tập số liệu ban đầu. Có thể sử dụng tập số liệu mới này trong tắnh toán để thay thế cho tập số cũ.
PCA loại bỏ sự đa cộng tắnh giữa các biến trong việc xây dựng phƣơng trình hồi qui biểu diễn sự phụ thuộc của tắn hiệu phân tắch vào các biến là nồng độ các thành phần trong hệ. Phƣơng pháp này có tên gọi là hồi qui thành phần chắnh.
Từ tập số liệu với n biến ban đầu có liên quan mật thiết với nhau, sau khi giảm thành p biến khơng liên quan thì trị riêng của chúng có thể sử dụng làm số liệu đầu vào của phƣơng pháp hồi qui kết hợp với mạng noron nhân tạo giải bài tốn phân tắch đồng thời các thành phần trong hệ có tƣơng tác khơng cộng tắnh.
Nếu xem các số liệu phân tắch trong tập số liệu là kết quả phân tắch lặp lại thì PCA cho phép tìm đƣợc sai số thơ trong số các kết quả phân tắch.
Tuy nhiên PCA đơn thuần là phƣơng pháp toán học nên các kết quả thu đƣợc bị ảnh hƣởng rất lớn bởi tập số liệu ban đầu, vì vậy cần kết hợp với những kiến thức chuyên ngành khác nếu không sẽ dẫn đến những giải nghĩa sai lệch.
2.4.2. Phần mềm máy tắnh
Các số liệu phân tắch lặp lại, phân tắch hồi qui, hoặc đồ thị biểu diễn qui luật phân bố...các đại lƣợng đƣợc xử lý bằng phần mềm MINITAB 14, exel 2007, Origin 8.0.