I. Các phương pháp nghiên cứu sử dụng trong khóa luận
I.2. Phương pháp xử lý thống kê đa biến
I.2.1. Giới thiệu
Ngày nay, các phương pháp phân tích thống kê đa biến được áp dụng rất rộng rãi trong nhiều ngành khoa học kỹ thuật khác nhau như: Môi trường, địa chất, khảo cổ, y học, sinh học, kinh tế, xã hội học…Lịch sử ra đời của phương pháp phân tích thống kê đa biến gắn liền với thống kê một biến. Các phương pháp phân tích thống kê một biến gặp phải khó khăn cơ bản khi xử lý với những tập hợp dữ liệu lớn, phức tạp, nhiều thông tin, trong khi phương pháp thống kê một biến không thể đưa ra câu
trả lời chính xác cho tồn bộ tập số liệu mà nó chỉ phân tích được từng bộ số liệu riêng rẽ trong tập số liệu đó.[3]
Phân tích thống kê đa biến xử lý đồng thời bộ số liệu của từng biến hay nói cách khác nó phân tích thống kê từng biến riêng rẽ, nó khác biệt ở chỗ sau khi xử lý thống kê riêng rẽ từng biến nó sử dụng những phương pháp phân tích để đưa ra các mối quan hệ giữa các biến với nhau. Với những bộ số liệu lớn và nhiều chiều như trong thống kê đa biến thì đại số ma trận trở thành cơ sở tính tốn cho hầu hết các phương pháp phân tích đa biến. Sự phát triển của máy tính và cơng nghệ thơng tin việc giải những ma trận này trở nên đơn giản hơn và phân tích thống kê đa biến đã được sử dụng trong nhiều lĩnh vực khác nhau và giải quyết thành cơng rất nhiều bài tốn phức tạp.
Trong khảo cổ học, số liệu khảo sát bằng các phương pháp phân tích là cơ sở dữ liệu về hàm lượng đa nguyên tố (~20-30 nguyên tố) trong một tập hợp mẫu nghiên cứu. Cơ sở dữ liệu này hàm chứa nhiều thông tin đặc trưng cho nguyên liệu làm ra chúng như: thành phần các ngun tố chính đại diện cho một nguồn nào đó, một lớp mẫu nào đó, v.v… sự giống và khác nhau giữa các nhóm mẫu về nguồn gốc, xuất xứ, về thời đại hay được tạo ra từ những công nghệ khác nhau, từ những tộc người khác nhau trong quá khứ. Với bộ số liệu nhiều chiều như vậy phân tích thống kê đa biến là thích hợp nhất để nghiên cứu nguồn gốc trong khảo cổ.[3]
Có 4 phương pháp thống kê đa biến được sử dụng phổ biến nhất trong việc xử lý số liệu phân tích là :
+ Phép phân tích các thành phần chính – PCA (Principal Component Analysis)