Chương 1: DỮ LIỆU ĐỊA KHÔNG GIAN VÀ LÝ THUYẾT ĐỊA THỐNG KÊ
1.2. Khái lƣợc về lý thuyết địa thống kê
1.2.3. Phân tích sơ bộ dữ liệu địa không gian
Phân tích sơ bộ dữ liệu giúp đánh giá quy luật phân phối của dữ liệu thực tế (thực nghiệm) để biết đƣợc một số đặc trƣng chung của bộ dữ liệu nhƣ trị lớn nhất, trị nhỏ nhất, trị trung bình, độ phân tán của dữ liệu, tính bất đối xứng, tính đẳng hướng, xu thế biến đổi (trend) v.v… Dựa vào các tham số sơ bộ nêu trên có thể kết luận về tính chất của trường ngẫu nhiên đó và trả lời cho câu hỏi là đó có phải là trường ngẫu nhiên không gian Gauss hay không? Có thỏa mãn tính chất của một trường ngẫu nhiên có tính dừng bậc hai hay không? Điều này có ý nghĩa rất quan trọng đối với bước thứ hai là phân tích tương quan của dữ liệu. Trong bước này cũng có thể phát hiện đƣợc những trị quan trắc có chứa sai số thô để loại bỏ chúng ra khỏi trường dữ liệu ngẫu nhiên [1].
1.2.3.1. Lập biểu đồ tần suất
Biểu đồ tần suất (histogram) còn gọi là biểu đồ tần suất thông thường (ordinary histogram) là cách biểu diễn chung nhất về mật độ phân bố dữ liệu thực nghiệm. Nếu có một chuỗi số liệu với n trị đo zi (với i=1,2,…,n), chúng ta sắp xếp
chúng theo chiều tăng dần của các giá trị sao cho z1 < z2 < … < zn. Trong khoảng giá trị nhỏ nhất và lớn nhất ta chia thành m khoảng nhỏ, được ký hiệu tương ứng với các điểm chia là a0, a1, …, am-1, am.
Số lƣợng phân khoảng đƣợc ƣớc tính:
min
Zmax Z
m h (1.37)
trong đó: zmax là giá trị lớn nhất, zmin là giá trị nhỏ nhất.
Số lƣợng phân khoảng tính theo (1.37) phải đƣợc làm tròn thành số nguyên (m).
Theo công thức biểu diễn hàm phân phối của đại lƣợng ngẫu nhiên:
x
F x f x dx (1.38) với hàm mật độ xác suất f(x), xác suất sao cho đại lƣợng ngẫu nhiên nằm trong khoảng (ak-1, ak) (với k=1,2,…,m) đƣợc xác định bởi công thức lý thuyết:
1
1
k
k
a
k k
a
P a z a f x dx (1.39) Ở đây, chúng ta sẽ xác định mật độ thực nghiệm (experimental density) bằng cách đếm số lƣợng có giá trị nằm trong phân khoảng thứ m thỏa mãn:
ak 1 z ak (1.40) Ký hiệu nk là số trị đo nằm trong phân khoảng thứ k (theo 1.40). Tỷ số nk/n sẽ thể hiện tần suất trị đo trong phân khoảng thứ k. Biểu đồ với trục tung thể hiện số trị đo nk hoặc tần suất là tỷ số nk/n và trục hoành biểu thị các phân khoảng a0, a1, …, am-1, am cho ta biểu đồ tần suất của dữ liệu trường ngẫu nhiên.
Lưu ý tới công thức tổng quát xác định mô men bậc k của đại lượng ngẫu nhiên liên tục:
k k
E x x f x dx (1.41)
Nếu biểu đồ tần suất thể hiện số lƣợng trị quan trắc trên trục tung thì tổng số lƣợng của tất cả phân khoảng phải bằng đúng n, tức là:
1 m
k k
n n (1.42)
Còn nếu trục tung của biểu đồ tần suất thể hiện tần suất là tỷ số nk/n của các trị đo trong các phân khoảng thì:
1 1
1 1
m m
k
k
k k
n n
n n n n (1.43)
1.2.3.2. Lập biểu đồ phân phối tích lũy thực nghiệm
Biểu đồ tần suất tích lũy (cumulative histogram) còn được gọi là đường cung nhọn (Ogive) là biểu đồ phân phối tích lũy thực nghiệm [3]. Đối với bộ dữ liệu đã đƣợc sắp xếp theo thứ tự tăng dần: z1 < z2 < … < zn và cũng đƣợc chia ra m phân khoảng nhƣ trên. Trong mỗi phân khoảng ta kiểm đếm số lƣợng trị đo và lập tỷ số nk/n là tần suất thực nghiệm. Từ đó chúng ta lập các tổng theo các phân khoảng để xác định tần suất tích lũy theo công thức:
1 i
k i
k
p n
n (1.44)
(với i=1,2,…,m)
Cũng có thể không tính tổng các tỷ số nk
n mà tính tổng số lƣợng trong các phân khoảng theo công thức:
1 i
k i
k
p n
n (1.45)
(với i=1,2,…,m)
Trên trục tung thể hiện tần suất tích lũy theo (1.44) hoặc số lƣợng tích lũy theo (1.45), còn trên trục hoành thể hiện các giá trị ai, khi đó sẽ nhận đƣợc một đường gẫy khúc (bậc thang) gọi là biểu đồ tần suất tích lũy.
1.2.3.3. Thống kê tổng thể
Thống kê tổng thể hay thống kê tóm lƣợc (summary statistics) sẽ xác định một số đặc trƣng khái quát của bộ dữ liệu không gian nhƣng chƣa xét tới các đặc
trưng liên quan tới vị trí, do đó giá trị các tham số tính toán sẽ được thực hiện tương tự như đối với biến ngẫu nhiên vô hướng.
* Trị trung bình số học
Trị trung bình số học là giá trị cần quan tâm đầu tiên đối với bộ dữ liệu của trường ngẫu nhiên. Trị trung bình số học cho ta thông tin về mức chuẩn chung (Typical) hay giá trị trọng tâm (Central) của bộ dữ liệu. Trị trung bình số học đƣợc tính theo công thức đơn giản đã biết:
1 2
1
... n 1 n
i i
z z z
z z
n n (1.46)
Ngoài ra còn tính đƣợc giá trị trung tuyến zm (median) theo công thức sau:
1 / 2
l m
l l
z z
z z với l = (n+1)/2, nếu n lẻ (1.47) với l = n/2, nếu n chẵn
Lưu ý là giá trị trung tuyến (zm) không phải là trị trung bình số học mà là giá trị ở giữa của bộ dữ liệu (tức 0,5), đương nhiên về độ lớn của giá trị trung tuyến cũng gần với trị trung bình số học.
* Độ phân tán
Sau khi xác định đƣợc trị trung bình của bộ dữ liệu, chúng ta có thể xác định độ phân tán, còn đƣợc gọi là độ trải rộng (spread) của dữ liệu qua giá trị trung bình bình phương của hiệu số của từng giá trị với trị trung bình theo công thức sau:
2 2 2
1 2 2
2
1
... n 1 n
i i
z z z z z z
s z z
n n (1.48)
Giá trị ở trên chính là giá trị phương sai mà chúng ta đã biết, sau khi khai căn bậc hai, nhận đƣợc giá trị s chính là độ lệch chuẩn.
Một chỉ tiêu khác biểu thị độ phân tán của dữ liệu là khoảng cách liên tứ phân vị (interquartile range) ký hiệu là , còn gọi là độ phân tán Q (Q-spread).
Khoảng cách liên tứ phân vị đƣợc tính theo công thức:
Iq = Q(0,75) – Q(0,25) (1.49)
trong đó: Q(0,75) gọi giá trị là tứ phân vị trên (upper quartile) và Q(0,25) là giá trị tứ phân vị dưới (lower quartile). Ưu điểm của khoảng cách liên tứ phân vị là ít nhạy cảm (ít tác động) bởi một vài giá trị lớn nhƣ độ lệch chuẩn. Với lý do đó, độ phân tán Q thường được sử dụng để phân tích khám phá ban đầu, còn độ lệch chuẩn thường được sử dụng tiếp theo cho dữ liệu có phân phối gần với phân phối chuẩn.
* Độ đối xứng
Trong các đặc trƣng phân phối, độ đối xứng là một đặc tính nổi bật và quan trọng. Có thể thấy rằng, độ phân tán đặc trƣng bởi một con số đơn lẻ, nhƣng độ đối xứng của dữ liệu đã cho thấy đƣợc quy luật phân bố của chúng quanh trị trung tâm.
Đó chính là ƣu điểm của độ đối xứng.
Độ đối xứng đƣợc thể hiện bởi một hệ số gọi là độ lệch hay độ xiên (skewness coefficient) tính theo công thức sau:
3 1
1 3
1 n
i s
Z Z
k n
S (1.50) Độ đối xứng là một số không đơn vị. Độ đối xứng ks bằng 0 thì dữ liệu hoàn toàn đối xứng. Nếu dữ liệu có nhiều giá trị nhỏ hơn trị trung bình một chút và một số lƣợng không nhiều giá trị lại lớn hơn trị trung bình đáng kể thì khi đó độ đối xứng có giá trị dương; Khi có rất nhiều giá trị lớn hơn trị trung bình một chút nhưng lại có một vài giá trị nhỏ hơn trị trung bình một lƣợng đáng kể thì độ đối xứng có giá trị âm [1].