1.1. Biến ngẫu nhiên hai chiều
Trong thực tế có thể có nhiều biến ngẫu nhiên cùng tồn tại trong một tổng thể. Chẳng hạn, chỉ số thể lực của người được xác định bởi ba biến ngẫu nhiên: chiều cao X, cân nặng Y, vòng ngực Z; hoặc lượng nước mưa trong năm X và năng suất cây trồng Y; v.v… Các biến ngẫu nhiên này tồn tại trong từng cá thể của tổng thể. Người ta gọi bộ các biến ngẫu nhiên đó là biến ngẫu nhiên (hay véc tơ ngẫu nhiên) nhiều chiều; bộ ba (X,Y,Z) là biến (véc tơ) ngẫu nhiên ba chiều (khi khảo sát thể lực); bộ hai biến (X,Y) gọi là biến (véc tơ) ngẫu nhiên hai chiều (như khi khảo sát lượng nước mưa và năng suất). Chúng ta giới hạn việc nghiên cứu ở biến ngẫu nhiên hai chiều (X,Y).
Chú ý rằng, các kết quả trong chương này vẫn đúng trong trường hợp một trong hai biến (X hoặc Y) là biến chủ động, chẳng hạn như biến X là lượng phân bón còn Y là năng suất tương ứng của cây trồng hoặc X là vốn đầu tư còn Y là lợi nhuận tương ứng, …
1.2. Mẫu thống kê hai chiều
Để nghiên cứu biến ngẫu nhiên hai chiều (X,Y) tồn tại trong một tập hợp chính nào đó, ta lấy mẫu dung lượng n và khảo sát cả X và Y của từng cá thể và được n cặp giá trị (x1,y1), (x2,y2), …, (xn,yn) của (X,Y). Bộ số liệu (x1,y1), (x2,y2), …, (xn,yn) gọi là mẫu thống kê hai chiều dung lượng n của (X,Y).
Việc đầu tiên là phải sắp xếp lại các số liệu thu được. Có ba cách sắp xếp như sau:
a) Nếu mẫu nhỏ (n nhỏ)
Khi đó xếp các số liệu thành bảng 2 dòng như sau:
X x1 x2 … xn
Y y1 y2 … yn
b) Nếu mẫu lớn và có nhiều số liệu trùng nhau
Khi đó đếm các cặp số liệu trùng nhau và xếp các số liệu thành bảng có tần số:
X x1 x2 … xk
Y y1 y2 … yk
ni n1 n2 … nk
Trong đó có ni cặp số liệu (xi,yj) trong bộ số liệu ban đầu và n = n1 + n2 + … + nk là dung lượng mẫu.
c) Nếu mẫu lớn và các số liệu ít trùng nhau
Khi đó tiến hành phân các giá trị của X thành r lớp với xi là giá trị đại diện của lớp i (giá trị giữa lớp i của X). Phân các giá trị của Y thành s lớp với yj là giá trị đại diện của lớp j (giá trị giữa lớp j của Y). Xếp các số liệu thành bảng hai lối vào:
X Y x1 x2 … xr y1 n11 n12 … n1r y2 n21 n22 … n2r … … … … … ys ns1 ns2 … nsr
Trong đó có nji cặp giá trị mà (xi,yj) là đại diện và n = n11 + n12 + … + nsr là dung lượng mẫu, nếu nij = 0 thì ô tương ứng để trống.
Chú ý 1: Trong mẫu thống kê hai chiều của (X,Y) có thể chủ động trước một biến (thường
là biến X). Chẳng hạn khi nghiên cứu lượng phân bón X và năng suất Y của cây trồng ta có thể chủ động các giá trị của X.
Chú ý 2: Giống như mẫu thống kê một chiều, trong mẫu thống kê (x1,y1); (x2,y2);…;
(xn,yn), người ta cũng coi xi là một giá trị cụ thể của biến ngẫu nhiên Xi và yi là một giá trị cụ thể của biến ngẫu nhiên Yi. Bộ n biến ngẫu nhiên (X1,Y1); (X2,Y2); …; (Xn,Yn) gọi là mẫu ngẫu nhiên của biến ngẫu nhiên hai chiều (X,Y) hay không gian mẫu thống kê của (X,Y).