Quá trình điểm không gian: Các khái niệm cơ bản
Mẫu điểm không gian
Trong nghiên cứu thống kê, dữ liệu thường được trình bày dưới dạng các điểm phân bố ngẫu nhiên trong một không gian cụ thể Ví dụ, các ảnh chụp từ trên cao có thể cho thấy vị trí của cây cối trong rừng, tổ chim, hoặc các tế bào trong mẫu mô.
Chúng ta gọi các tập hợp này là mẫu điểm không gian, trong đó vị trí của các phần tử được xem như các biến cố, nhằm phân biệt chúng với những điểm tùy ý khác trong miền được đề cập.
Sau đây ta xem xét một số ví dụ cụ thể về mẫu điểm không gian
Hình 1.1, được cung cấp bởi Numata (xem [12]), minh họa vị trí của 65 cây thông đen Nhật Bản trong một khu vực hình vuông có chiều dài cạnh 5,7m.
Hình 1.2: Vị trí của 62 cây gỗ đỏ Hình 1.2, do Strauss đưa ra(xem [14]), thể hiện vị trí 62 cây gỗ đỏ trên một hình vuông với cạnh 23m
Hai mô hình này có sự khác biệt rõ rệt; Hình 1.1 thể hiện cấu trúc không rõ ràng, gần như là một mô hình ngẫu nhiên Ngược lại, Hình 1.2 cho thấy sự mọc thành cụm rõ rệt của các cây gỗ đỏ Mẫu điểm giống như Hình 1.2 được mô tả là mẫu kết tập.
Hình 1.3: Vị trí nhân của 42 tế bào sinh học
Mẫu điểm trong Hình 1.3 do Ripley cung cấp thể hiện sự phân bố của 42 tế bào sinh học, cho thấy các nhân tế bào có một cấu trúc phân bố có vẻ quy tắc.
Qua 3 ví dụ trên ta có thể hình thành một sự phân loại các mẫu điểm không gian như sau: mẫu có quy tắc, mẫu ngẫu nhiên, mẫu kết tập
Các miền được xem xét trong bài viết này đều là các miền phẳng trong không gian hai chiều, tuy nhiên, nguyên tắc này có thể được mở rộng cho các không gian khác.
1.2 Tính ngẫu nhiên không gian hoàn toàn (tính CSR)
Tính ngẫu nhiên không gian hoàn toàn (Complete Spatial Randomness - CSR) được định nghĩa là tính độc lập tứ phía, trong đó số lượng các biến cố của mẫu điểm rơi vào k tập Borel rời nhau tạo thành k biến ngẫu nhiên độc lập.
Giả thiết về tính ngẫu nhiên trong không gian khẳng định rằng số biến cố trong miền phẳng A có diện tích A tuân theo phân phối Poisson với giá trị trung bình λ A Ngoài ra, với n biến cố X i trong miền A, các X i được coi là một mẫu ngẫu nhiên độc lập cỡ n với phân phối đều trên A.
Trong nghiên cứu về cường độ biến cố, hằng số λ đại diện cho số trung bình các biến cố trên mỗi đơn vị diện tích Nếu tính chất CSR được thỏa mãn, cường độ của các biến cố sẽ không thay đổi quá mức cho phép Hơn nữa, khi tính chất CSR được áp dụng, không có sự ảnh hưởng lẫn nhau giữa các biến cố, tức là tính độc lập sẽ bị vi phạm nếu sự tồn tại của một biến cố tại vị trí X có thể khuyến khích hoặc hạn chế sự xuất hiện của các biến cố khác xung quanh.
Hình 1.4: 100 biến cố trong một hình vuông đơn vị
Hình 1.4 trình bày mẫu điểm ngẫu nhiên không gian hoàn toàn của 100 biến cố trên một đơn vị diện tích, cho thấy không có hình ảnh ấn tượng về sự kết tập Điều này cũng cần được lưu ý vì nó có sự tương đồng với hình 1.1.
Tính trách nhiệm xã hội của doanh nghiệp (CSR) là một khái niệm quan trọng, giúp chuẩn hóa các hoạt động kinh doanh, điều mà tưởng chừng khó đạt được trong thực tế Việc áp dụng CSR không chỉ mang lại lợi ích cho doanh nghiệp mà còn tạo ra sự tiện lợi trong việc định hướng phát triển bền vững.
Hầu hết các phân tích bắt đầu với việc kiểm tra tính CSR, bởi nó có những ưu điểm sau:
- Một mẫu thỏa mãn tính CSR không bác bỏ những ưu điểm của các phương pháp phân tích thống kê chính thức
- Các tiêu chuẩn được dùng như là công cụ để khám phá tập số liệu hơn là để bác bỏ tính CSR
- Tính CSR tác động như là một phân chia giả thiết để phân biệt mẫu điểm có quy tắc và mẫu điểm kết tập
Mô hình ngẫu nhiên đơn giản của mẫu ảnh không gian có thể dẫn đến các phân phối lý thuyết phức tạp Do đó, để kiểm định mô hình với các số liệu, người ta thường sử dụng các tiêu chuẩn Monte Carlo.
Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không gian Nội dung của tiêu chuẩn như sau:
Ta xét một thống kê U nào đó
+ Giả sử u 1 là giá trị quan sát của U từ mẫu điểm đã cho
Giả sử u_i (i = 2, …, s) là các giá trị của U được sinh ra từ những mẫu ngẫu nhiên độc lập, tuân theo giả thiết H, trong đó giả thiết H trong luận văn này đề cập đến tính CSR.
+ Giả sử u ( j ) là giá trị lớn nhất thứ j trong số u i , i = 1,2,…, s
Khi đó với giả thiết H ta có: u s u
Nếu u 1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H
Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa s k
Ta giả thiết các giá trị u i là khác nhau, do đó hạng (hay vị trí) của u 1 trong dãy u i là rõ ràng
Hope đã chỉ ra rằng sự tổn thất lực lượng nhận được từ tiêu chuẩn Monte Carlo là rất nhỏ, do đó giá trị s không cần phải lớn Với mức ý nghĩa một phía thông thường là 5%, giá trị s = 100 là đủ để đạt được kết quả mong muốn.
Tiêu chuẩn Monte Carlo
Mô hình ngẫu nhiên đơn giản của mẫu ảnh không gian thường dẫn đến các phân phối lý thuyết phức tạp Do đó, để kiểm định mô hình với các số liệu, các tiêu chuẩn Monte Carlo được sử dụng phổ biến.
Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không gian Nội dung của tiêu chuẩn như sau:
Ta xét một thống kê U nào đó
+ Giả sử u 1 là giá trị quan sát của U từ mẫu điểm đã cho
Giả sử u_i (i = 2, …, s) là các giá trị của U được sinh ra từ các mẫu ngẫu nhiên độc lập, đáp ứng giả thiết H nào đó, trong đó giả thiết H được đề cập trong luận văn này chính là tính CSR.
+ Giả sử u ( j ) là giá trị lớn nhất thứ j trong số u i , i = 1,2,…, s
Khi đó với giả thiết H ta có: u s u
Nếu u 1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H
Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa s k
Ta giả thiết các giá trị u i là khác nhau, do đó hạng (hay vị trí) của u 1 trong dãy u i là rõ ràng
Theo nghiên cứu của Hope, sự tổn thất lực lượng nhận được từ tiêu chuẩn Monte Carlo là rất nhỏ, cho thấy rằng giá trị s không cần phải lớn Với mức ý nghĩa một phía thông thường là 5%, giá trị s = 100 là đủ để đạt được kết quả mong muốn.
Nghiên cứu của Mairiott về "vùng giới hạn mờ" cho thấy tổn thất lực lượng liên quan đến giá trị của u 1 có thể có ý nghĩa trong phương pháp kiểm tra cổ điển nhưng không có ý nghĩa trong phương pháp kiểm tra Monte Carlo, và ngược lại Giả sử hàm phân phối của U với giả thiết H là F(u), đối với tiêu chuẩn một phía 5% với s = 20k.
Ta có F(u₁) = P(U ≤ u₁), và nếu u₁ có thứ hạng lớn nhất thứ k hoặc cao hơn, thì giả thiết H bị bác bỏ Với s - 1 giá trị uᵢ (i = 2, …, s), nếu có r giá trị lớn hơn u₁, sẽ có s - r - 1 giá trị nhỏ hơn hoặc bằng u₁ Dựa trên công thức xác suất Bernoulli, ta có công thức (1.1).
Với phương pháp kiểm tra cổ điển khi s → ∞ , P(bác bỏ H/ u 1 ) tiến tới 1 hoặc 0 tương ứng với F(u 1 ) lớn hơn hoặc nhỏ hơn 0,95.
Quá trình điểm không gian
Một quá trình điểm không gian là một cơ cấu ngẫu nhiên mà nó sinh ra một tập hợp đếm được các biến cố x i trong mặt phẳng
Chúng ta sẽ làm việc với các quá trình dừng và đẳng hướng
Tính dừng của quá trình đề cập đến việc các tính chất của quá trình không thay đổi khi có sự tịnh tiến, trong khi đó, tính đẳng hướng cho thấy các tính chất này vẫn giữ nguyên khi thực hiện phép quay.
Các phương pháp thống kê cho mẫu điểm không gian thường liên quan đến việc so sánh giữa các mô tả tóm tắt thực nghiệm của dữ liệu và các mô tả tóm tắt lý thuyết của mô hình quá trình điểm Việc này dẫn đến việc xây dựng các tiêu chuẩn về tính ngẫu nhiên không gian, liên quan đến so sánh giữa phân phối lý thuyết của khoảng cách và hàm phân phối trong mẫu quan sát của n biến cố Chúng ta sẽ xem xét các mô tả tóm tắt lý thuyết của quá trình điểm và tập trung vào những tính chất hỗ trợ cho các phương pháp thống kê hiệu quả.
E[X] là kỳ vọng của biến ngẫu nhiên X
N(A) là số các biến cố trong miền phẳng A
N j (A) là số các biến cố loại j trong A (trong quá trình đa biến)
A là diện tích của A dx là một miền nhỏ chứa điểm x y x là khoảng cách Euclid giữa điểm x và y
Trước hết, ta định nghĩa tính chất cấp một và tính chất cấp hai của quá trình điểm không gian
Tính chất cấp một được mô tả bởi hàm cường độ
Đối với quá trình dừng, λ(x) được coi là hằng số λ, tức là số các biến cố trên một đơn vị diện tích
Tính chất cấp hai mô tả bởi hàm cường độ cấp hai:
dx dy dy N dx N y E x dy dx
Hàm cường độ có điều kiện là:
Đối với quá trình dừng, λ2(x,y) ≡ λ2(x – y) Trong quá trình dừng,đẳng hướng thì λ2(x – y) có thể viết là λ 2 (t) với t x y
Một đặc trưng khác của tính chất cấp hai của một quá trình dừng, đẳng hướng là hàm K(t), được định nghĩa như sau:
K (1.2) với N 0 (t) là số các biến cố khác trong khoảng cách t của một biến cố tùy ý
Ta thiết lập mối quan hệ giữa K(t) và λ 2 (t) như sau:
Trong một quá trình có trật tự, các biến cố trùng nhau không thể xảy ra, dẫn đến việc xác suất P{N(dx) > 1} có cấp nhỏ hơn so với dx Điều này cho thấy rằng kỳ vọng E[N(dx)] xấp xỉ với P{N(dx) = 1}, với tỷ số giữa hai đại lượng này có xu hướng tiến đến 1 khi dx tiến gần đến 0.
N ( dx ) 1 P N ( dx ) 1 p P N ( dx ) 1 P N ( dx ) 1 p 0 ( dx ) P N ( dx ) 1
Giả sử E N(dx)N(dy)~P N(dx)N(dy)1, với các giả thiết này, số trung bình của các biến cố khác trong khoảng cách t từ một biến cố tùy ý có thể được tính bằng cách thực hiện tích phân cường độ có điều kiện trên một hình tròn có tâm tại gốc và bán kính t.
Theo lý thuyết, việc làm việc với hàm λ2(t) có thể mang lại sự tiện lợi hơn so với K(t) Để hỗ trợ cho điều này, chúng ta định nghĩa hàm mật độ hiệp phương sai như một sự thay thế nhỏ.
Trong phân tích dữ liệu, K(t) được ưa chuộng hơn λ2(t) vì khả năng ước lượng dễ dàng từ dữ liệu Cả K(t) và λ2(t) đều liên quan đến hàm phân phối và hàm mật độ xác suất của khoảng cách giữa các cặp biến cố trong mẫu điểm Đặc biệt, trong các mẫu nhỏ, K(t) cho phép ước lượng mà không cần phải xem xét độ mịn của phân phối thực nghiệm tương ứng.
Một lợi ích quan trọng của hàm K là tính bất biến của nó đối với phép làm mỏng ngẫu nhiên Điều này có nghĩa là nếu các biến cố trong một quá trình được giữ lại hoặc không theo dãy phép thử Bernoulli độc lập, thì hàm K của quá trình mỏng sẽ giống hệt hàm K của quá trình ban đầu Theo định nghĩa (1.2), hàm K được xác định là tỷ số giữa E[N0(t)] và λ Hiệu ứng của phép mỏng là mỗi phần tử bội là p, và xác suất giữ lại cho một biến cố bất kỳ là tỷ số không đổi.
1.4.2 Quá trình Poisson thuần nhất
Quá trình Poisson thuần nhất trên mặt phẳng là nền tảng lý thuyết cho quá trình điểm không gian, đại diện cho cơ chế ngẫu nhiên đơn giản nhất để tạo ra các mẫu điểm không gian Trong ứng dụng, nó được coi là tiêu chuẩn lý tưởng cho tính ngẫu nhiên không gian hoàn toàn Quá trình này được định nghĩa qua hai vấn đề chính: i) Đối với λ > 0, trong bất kỳ miền phẳng hữu hạn A, N(A) tuân theo phân phối Poisson với trung bình λ A; ii) Với N(A) = n đã cho, n biến cố trong A tạo thành một mẫu ngẫu nhiên độc lập phân phối đều trong A Để chứng minh tính tự phù hợp của i) và ii), ta đưa ra tính chất iii): iii) Với hai miền rời nhau A và B, các biến ngẫu nhiên N(A) và N(B) là độc lập Từ đó, ta có thể suy ra rằng hợp của hai miền rời nhau A và B là C = A ∪ B, với p = A / C và q = 1 - p = B / C.
Khi đó, áp dụng ii) cho miền C ta suy ra: y x q x p y n x C N
Theo i) ta có phân phối đồng thời của N(A) và N(B) là:
Với x, y là các số nguyên không âm, ta chứng minh rằng N(A) và N(B) có phân phối Poisson độc lập Ngược lại, tính cộng tính của các biến ngẫu nhiên phân phối Poisson độc lập X và Y, cùng với phân phối nhị thức có điều kiện của X khi biết X + Y, sẽ cho phép chúng ta xác định tính i) và ii) cho mọi miền là hợp của hai miền rời nhau, nơi mà các điều kiện i) và ii) được thỏa mãn Điều này chứng minh tính tự phù hợp mà chúng ta yêu cầu.
Tham số λ của quá trình Poisson là cường độ của nó Từ tính độc lập iii) ta suy ra
Trong quá trình Poisson, hàm phân phối G(y) của khoảng cách từ một biến cố tới biến cố gần nhất và hàm phân phối F(x) từ một điểm tới biến cố gần nhất là đồng nhất Điều này có nghĩa là sự tồn tại của một biến cố tại một điểm đặc biệt, như x₀, không ảnh hưởng đến phân phối của số lượng biến cố còn lại trong hình tròn có tâm tại x₀.
Để mô phỏng một quá trình Poisson trên miền A với N(A) cố định, cần tạo ra các biến cố độc lập dựa trên hàm phân phối đều Những miền A khó sử dụng có thể được điều chỉnh bằng cách mô phỏng các quá trình trên miền lớn hơn, như hình chữ nhật hoặc hình tròn, và chỉ giữ lại các biến cố nằm trong miền A.
Các phương pháp khoảng cách
Khoảng cách giữa các biến cố
Giả sử ta có một mẫu điểm gồm n biến cố trong một miền A, khi đó ta có
Khoảng cách giữa hai biến cố i và j trong miền A được ký hiệu là T Phân phối lý thuyết của khoảng cách T giữa các biến cố độc lập và phân phối đều trong A phụ thuộc vào kích thước và hình dạng của miền A Khi A là hình vuông hoặc hình tròn, khoảng cách này có thể được biểu diễn một cách rõ ràng Đặc biệt, đối với hình vuông đơn vị, hàm phân phối của T có những đặc điểm riêng biệt.
Còn đối với một đường tròn bán kính đơn vị, hàm phân phối là:
Bây giờ chúng ta phát triển tiêu chuẩn CSR dựa trên khoảng cách giữa hai biến cố
Giả sử miền A đã biết hàm phân phối H(t), ta tiến hành tính toán hàm phân phối thực nghiệm (EDF) cho khoảng cách giữa các biến cố Gọi hàm này là ˆ ( ).
H chính là tỷ lệ quan sát được của các khoảng cách giữa các biến cố t ij không vượt quá t, vì vậy
H #( t ij t ) trong đó # ( t ij t )là số lượng của các t ij mà nhỏ hơn hay bằng t
Bây giờ ta vẽ đồ thị của ˆ ( )
H là tung độ và H(t) là hoành độ Khi dữ liệu mẫu điểm phù hợp với CSR, đồ thị sẽ có dạng xấp xỉ tuyến tính, tức là sẽ tạo thành một đường thẳng Điều này cho thấy rằng khi tính chất CSR được thỏa mãn, hàm ˆ ( ) sẽ có sự chính xác trong việc mô tả mối quan hệ giữa các biến.
H sẽ bằng hàm H(t) Để đánh giá mức độ có ý nghĩa hoặc sự xa rời tính tuyến tính, biện pháp thuận lợi là phân phối mẫu ˆ ( )
H với giả thuyết tính CSR được thỏa mãn, tuy nhiên điều này phức tạp do sự phụ thuộc giữa các khoảng cách giữa các biến cố và một điểm biên chung Do đó, chúng ta sẽ tiến hành theo các bước cụ thể để phân tích vấn đề này.
Ta thực hiện mô phỏng s – 1 mẫu điểm với n biến cố trong miền A, có kích thước và hình dạng tương tự như mẫu điểm đang xem xét, đồng thời giả thiết này thỏa mãn tính CSR Mô phỏng này bao gồm n biến cố độc lập và được phân phối đều trong miền A.
+ Với một mẫu mô phỏng ta tính hàm phân phối thực nghiệm H ˆ i ( t ), i 2,3,…, s
+ Xác định các bao mô phỏng trên dưới tương ứng:
Bao mô phỏng trên là U(t) = max{ H ˆ i ( t ), i = 2,3, …, s } (2.3)
Bao mô phỏng dưới là L(t) = min { H ˆ i ( t ) , i = 2,3, …, s } (2.4) Các bao mô phỏng này được vẽ đối với H(t) và có tính chất là với tính CSR và với mỗi t t s
Các bao mô phỏng giúp ta đánh giá, giải thích đồ thị của ˆ ( )
H đối với H(t) Hai trong nhiều phép xấp xỉ để xây dựng tiêu chuẩn Monte Carlo chính xác của CSR như sau: i) Chọn t 0 và xác định ˆ ( ) t 0
Hạng của u1 trong dãy ui (i = 1, 2, …, s) là cơ sở cho tiêu chuẩn, do tính chất CSR khiến tất cả các hạng của u1 trở nên đồng nhất Để xác định ui, ta sử dụng nó như một thước đo sự khác biệt giữa Hˆi(t) và H(t) trên toàn bộ khoảng biến thiên t, với công thức H(ui) = ∫(Hˆi(t) - H(t))² dt Tiêu chuẩn này lại một lần nữa dựa trên hạng của u1.
Phép xấp xỉ đầu tiên có ý nghĩa chỉ khi t 0 có thể được lựa chọn một cách ngẫu nhiên, trong khi đó cách thứ hai có vẻ khách quan hơn
Nếu miền A có hàm phân phối lý thuyết H(t) chưa xác định, việc kiểm tra tính CSR vẫn khả thi bằng cách thay thế H(t) bằng ˆ ( ) trong công thức (2.6).
Các ui không còn độc lập khi tính CSR được thỏa mãn, nhưng vẫn đảm bảo rằng tất cả các hạng của u1 có xác suất như nhau Phương pháp đồ thị bao gồm việc vẽ đồ thị của các hàm ˆ().
H , U(t) và L(t) đối với H 1 (t) Chú ý vì )
H chỉ bao gồm các mô phỏng của tính CSR mà không có dữ liệu ban đầu nên nó cho một ước lượng không chệch của H(t)
Sau khi đã có đồ thị các hàm ˆ ( )
H , U(t) và L(t) ta tiến hành quan sát dáng điệu của ˆ ( )
H đối với U(t) và L(t) Nếu đồ thị hàm ˆ ( )
H xấp xỉ một đường thẳng và nằm giữa đồ thị bao mô phỏng trên U(t) và đồ thị bao mô phỏng dưới L(t), có nghĩa là ˆ ( )
H vẫn nằm trong khu vực dao động của tính CSR, cho phép ta chấp nhận giả thiết H rằng mẫu điểm có tính CSR Ngược lại, nếu bác bỏ giả thiết H, điều đó có nghĩa là mẫu điểm không có tính CSR Để đạt được các kết quả này, chúng ta cần sự hỗ trợ của máy tính điện tử.
Lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm ở hình 1.1, 1.2, 1.3 sẽ được thực hiện ở chương sau.
Khoảng cách lân cận gần nhất
Trong miền A, cho n biến cố, khoảng cách từ biến cố thứ i đến biến cố gần nhất được gọi là yi, hay khoảng cách lân cận gần nhất Từ đó, ta có thể xác định n giá trị yi trên miền A Việc này cho phép chúng ta tính toán được EDF.
G , khoảng cách lân cận gần nhất bằng cách tương tự với việc tính toán được sử dụng tại mục 2.1 để có được ˆ ( )
Trong thực tế, sự tương tác giữa các biến cố diễn ra chủ yếu ở mức độ nhỏ, như cây cối tìm kiếm ánh sáng mặt trời và chất dinh dưỡng thông qua ngọn cây hoặc hệ thống rễ Khoảng cách lân cận gần nhất trở thành một công cụ khách quan giúp chúng ta tập trung vào những khoảng cách nhỏ giữa các biến cố, mặc dù ngưỡng khoảng cách chính xác vẫn chưa được xác định.
Sự phân bố lý thuyết của khoảng cách lân cận gần nhất Y dưới tính CSR phụ thuộc vào n và miền A, không thể được biểu diễn một cách đơn giản do sự phức tạp của hiệu ứng biên Nếu bỏ qua hiệu ứng biên và ký hiệu A là diện tích của miền A, ta có thể nhận được một biểu thức xấp xỉ cho vấn đề này.
Xác suất để một biến cố bất kỳ nằm trong khoảng cách y so với một biến cố xác định, trong điều kiện giả thiết về tính CSR, cho thấy rằng các biến cố được xác lập độc lập Do đó, hàm phân phối xấp xỉ của Y có thể được xác định một cách rõ ràng.
Với n lớn, ta đặt λ bằng một xấp xỉ khác nữa là nA 1 ta có:
Hàm phân phối thực nghiệm ˆ ( )
G có thể so sánh với các bao mô phỏng trên và dưới nhận được từ các hàm phân phối thực nghiệm mô phỏng G ˆ i ( y ), i = 2,
… , s; một cách chính xác như trong mục 2.1
Chúng ta có thể sử dụng (2.7) làm phân phối lý thuyết, nhưng đây chỉ là một xấp xỉ Do đó, người ta thường ưa chuộng sử dụng trung bình mẫu G i (y) của các hàm phân phối thực nghiệm G ˆ i (y) với i = 2,…, s, dựa trên các mô phỏng.
Các cơ sở có thể đối với tiêu chuẩn Monte Carlo là
+ Chọn u i là giá trị trung bình của mẫu ycủa n khoảng cách lân cận gần nhất
Bước cuối cùng là vẽ đồ thị các hàm G ˆ i ( y ), U(y), L(y) trên cùng một hệ tọa độ với hoành độ là G 1 (y), các tung độ tương ứng là ˆ ( )
Việc đánh giá hàm phân phối thực nghiệm G1(y) cho các khoảng cách lân cận gần nhất dựa trên mẫu điểm đã cho là một quá trình tương tự như việc ước lượng hàm ˆ ( ).
Việc lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm được giới thiệu ở 1.1 sẽ được bàn đến ở chương sau.
Khoảng cách từ điểm tới các biến cố gần nhất
Giả sử có m điểm mẫu trong miền A, với x i là khoảng cách từ một điểm mẫu đến biến cố gần nhất trong n biến cố trong A Hàm phân phối thực nghiệm được biểu diễn như sau: ˆ ( ).
F đo khoảng trống trong A có nghĩa là 1 - Fˆ(x), là ước lượng diện tích B(x) của miền B(x), bao gồm tất cả các điểm trong A với khoảng cách tối thiểu là x tới mỗi biến cố trong A.
Lập luận tương tự như khi dẫn tới (2.7) dưới giả thiết về tính CSR ta nhận được biểu thức xấp xỉ:
Lotwick đã phát triển một thuật toán dựa trên ngôn ngữ Dirichlet của Green-Sibson để tính toán chính xác B(x) trong hình chữ nhật A Việc sử dụng m điểm trong lưới đều kxk sẽ tạo ra một xấp xỉ hợp lý nếu giá trị k đủ lớn Diggle và Matern khuyên rằng k nên được chọn bằng n (xem [8]).
Hình 2.1:Đồ thị thực nghiệm F ˆ ( x ) của các tế bào sinh học
Hình (2.1) chỉ ra rằng với mẫu điểm hình 1.3- nhân của 42 tế bào sinh học mức độ xấp xỉ được dùng là k = 7 ≈ 42 ; k = 14; k = 96
Với sự tiến bộ của khoa học tính toán, việc chọn giá trị k lớn không còn là trở ngại Như thể hiện trong hình 2.1, khi k lớn, chúng ta sẽ có đường cong F ˆ (x) trở nên mượt mà hơn.
Tương tự như đã làm trong khoảng cách lân cận gần nhất, tiêu chuẩn Monte Carlo của CSR có thể dựa trên thống kê:
Ước lượng tính chất cấp hai: ước lượng hàm K(t)
Chúng ta sẽ tập trung vào ước lượng hàm K dựa trên các lý do đã nêu trong mục 1.4.2 Từ ước lượng K ˆ (t), chúng ta áp dụng công thức (1.4) để nhận được ước lượng cho hàm 2 (t) Để thực hiện phép xấp xỉ, cần chọn một dải độ rộng h > 0.
) ˆ( ) ˆ( ) ˆ ' ( sẽ dẫn tới ước lượng
Điều này tạo ra một ước lượng tương tự như tổ chức đồ thị của 2(t) tại các khoảng độ rộng h trong t Stoyan và Stoyan đã giới thiệu một phiên bản nhân trơn, phiên bản này sau đó được áp dụng bởi nhiều tác giả, bao gồm Moller, Syversveen và Waagepetersen.
Hàm K(t) được định nghĩa trong mục 1.4.2 với công thức λK(t) = E[N0(t)], thể hiện tính chất cấp hai của quá trình dừng đẳng hướng Ở đây, cường độ λ đại diện cho số lượng trung bình các biến cố xảy ra trên một đơn vị diện tích.
Chúng ta có thể xây dựng một công thức ước lượng cho kỳ vọng E(t) của các biến cố khác trong khoảng cách t từ một biến cố tùy ý, với E(t) = E[N0(t)].
(2.10) Ở đây, I(.) ký hiệu là hàm chỉ tiêu
Dạng công thức ước lượng ~ ( ) t
Hàm K trong (2.10) thể hiện mối liên hệ chặt chẽ với phân bố khoảng cách giữa các biến cố, điều này đã được phân tích trong mục 1.2.
E là ước lượng chệch âm đối với E(t) do hiệu ứng biên Để phân tích biến cố trong khoảng cách t từ biên A, cần loại trừ các biến cố khác xảy ra trong khoảng cách t nhưng nằm ngoài biên.
A Một vài phương pháp đã được đề xuất cho việc này, phương pháp sau chúng ta sử dụng là của Ripley (xem [13])
+ Đặt ( x , u )là tỷ lệ chu vi của vòng tròn tâm x và bán kính u nằm trong A
Trong quá trình dừng, đẳng hướng, xác suất có điều kiện ij được định nghĩa để mô tả khả năng xảy ra một biến cố khi biết rằng nó cách biến cố thứ i một khoảng cách u ij Điều này cho thấy rằng, trong nhiều trường hợp, ij không bằng ji, như minh họa trong hình 2.2.
Hình 2.2: Ước lượng của Ripley (1976) cho hàm K(t)
Như vậy ước lượng không chệch cho E(t) là 1 1 ( )
+ Thay cường độ chưa biết λ bởi
A n1 , chúng ta nhận được ước lượng của Ripley(xem [13]) cho K(t)
Thực ra ,trong biểu thức K ˆ ( t ),Ripley sử dụng 1 2 n hơn là
Ước lượng của Ripley cho thấy rằng khi t đủ nhỏ, kết quả là xấp xỉ không chệch Hạn chế trên t là cần thiết do trọng lượng ij có thể tiến tới vô cùng khi t tăng Tuy nhiên, trong thực tế, vấn đề này không nghiêm trọng Ví dụ, khi A là hình vuông đơn vị, giới hạn lý thuyết của t có thể được xác định rõ ràng.
1 ≈ 0,7 nhưng K ˆ ( t )sẽ hiếm khi được yêu cầu với các giá trị t lớn như vậy
Các phần mềm Splancs kết hợp một thuật toán được viết bởi Barry Rowlingson cho cách tính ( x , u )khi A là một đa giác tùy ý Công thức rõ ràng của )
Các hình dạng đơn giản của miền A như hình chữ nhật và hình tròn có thể được viết ra một cách dễ dàng, và chúng rất hữu ích khi hiệu quả tính toán là yếu tố quan trọng hàng đầu.
+ Trước tiên ta xét trường hợp A là hình chữ nhật (0,a)x(0,b)
Như vậy, d 1 và d 2 là khoảng cách từ điểm x đến biên thẳng đứng và nằm ngang gần nhất của A Để tính ( x , u )chúng ta cần phân biệt hai trường hợp
Theo (2.12), hàm (x, u) bằng 1 khi u nhỏ hơn hoặc bằng min(d1, d2) Các công thức được nêu áp dụng cho giá trị của u trong khoảng từ 0 đến 0,5min(a, b), điều này đủ để phục vụ cho các ứng dụng thực tế.
Giả sử A là hình tròn với tâm tại gốc tọa độ và bán kính a Khoảng cách từ điểm x đến hình tròn được tính bằng r = √(x₁² + x₂²) Chúng ta sẽ phân biệt hai trường hợp dựa trên khoảng cách này.
Các công thức này áp dụng cho các giá trị của u từ 0 đến a.
Phân tích mẫu ảnh trên máy tính
Lập trình xử lý hàm H(t)
Chúng tôi lập trình để xử lý hàm H(t) cho mẫu ảnh chứa 65 cây thông đen Nhật Bản, và sẽ thay thế các tham số tương ứng khi làm việc với các mẫu ảnh khác.
Const tfi = 'Pic_In.ini'; maxn = 65;
Type toado = record x,y : real end;
A,A1,A2,A3,A4 : Array [0 maxn+1] of toado; kc :Array [0 maxn,0 maxn] of Real;
If GraphResultGrOK Then Halt(1);
(*==============================================*) Procedure Vehetruc(XO,YO,Dx1,Dx2,Dy1,Dy2:Integer);
Line(XO-Dx1, YO, XO+Dx2, YO); {Truc hoanh}
Line(XO+Dx2-5, YO-5, XO+Dx2, YO);
Line(XO+Dx2-5, YO+5, XO+Dx2, YO);
Line(XO, YO-Dy2, XO, YO+Dy1); {Truc tung}
Line(XO, YO-Dy2, XO-5, YO-Dy2+5);
Line(XO, YO-Dy2, XO+5, YO-Dy2+5);
(*==============================================*) Function FileExists(FileName: String): Boolean;
(*===============================================*) Procedure Nhap; { Đọc dữ liệu ảnh mẫu ban đầu}
(*===============================================*) Procedure SinhNN; {Sinh cac diem ngau nhien}
(*===============================================*) Function KCHH(i,j:Integer):Real; {Tinhkhoang cach giua 2 diem i va j}
Begin tg:=sqrt(sqr(a[i].x-a[j].x)+sqr(a[i].y-a[j].y));
(*===============================================*) Procedure TinhKCHH; { Tinh cac khoang cach}
(*===============================================*) Function Dem ( t: real) : Integer;{ Dem so khoang cach nho hon t}
If kc[i,j] 1 then writeln('ham arcos khong xac dinh') else if a=0 then arccos:= (pi/2) else begin b:=sqrt((1/sqr(a))-1); arccos:= arctan(b); end;
(*===================================================*) Procedure Nhap1; { Nhập dữ liệu ảnh mẫu ban đầu}
For i:= 1 to n do readln (fi,x[i],y[i]);
(*===================================================*) Procedure SinhNN; { Sinh cac diem ngau nhien}
Begin x[i]:=random(1001)/1000; y[i]:=random(1001)/1000; end; end;
The algorithm calculates the distance \( u \) between two points using the formula \( u := \sqrt{(x[i]-x[k])^2 + (y[i]-y[k])^2} \) If \( u \) is zero or greater than a threshold \( t \), the score \( s \) is set to zero Otherwise, it determines the minimum distances \( d1 \) and \( d2 \) from the point to the edges of a unit square If \( u \) is less than or equal to the minimum of \( d1 \) and \( d2 \), \( s \) is assigned a value of one If \( u \) is within the calculated distances, \( s \) is computed using the arccosine function If \( u \) exceeds these distances, a different formula for \( s \) is applied Finally, the score \( s \) is accumulated into the total \( w \).
End; m:= q*2000;z:=-round(m);putpixel(i,z,red); m:=l*2000;z:=-round(m);putpixel(I,z,red); end; end;
Phân tích xử lý ba mẫu ảnh cụ thể
Bây giờ sử dụng các chương trình đã lập ở trên chúng ta phân tích xử lý ba mẫu ảnh cụ thể đã được giới thiệu ở 1.1
Với vị trí của 65 cây thông đen Nhật Bản (hình 1.1) ta nhận được các kết quả như sau:
Hình 3.1:Đồ thị hàm phân phối thực nghiệm ˆ ( )
Hàm phân phối lý thuyết H(t) mô tả khoảng cách giữa các biến cố trên mẫu ảnh 65 cây thông đen Nhật Bản, với bao mô phỏng trên U(t) và bao mô phỏng dưới L(t) thể hiện tung độ của các biến cố này.
Hình 3.1 cho thấy đồ của ˆ ( )
H , U(t) và L(t) đối với H(t) cho dữ liệu của
Numata trước đây được đưa ra trong hình 1.1 Ta thấy ˆ ( )
H nằm sát đồ thị của
H đối với H(t) xấp xỉ với đường thẳng y = x) và giữa
U(t) và L(t) trong toàn khoảng xét Như vậy ta chấp nhận tính CSR đối với mẫu ảnh hình 1.1
Hình 3.2: Đồ thị hàm phân phối thực nghiệm ˆ ( )
G bao gồm mô phỏng trên U(t) và mô phỏng dưới L(t) liên quan đến hàm phân phối lý thuyết G(t), thể hiện khoảng cách tới biến cố gần nhất, dựa trên mẫu ảnh của 65 cây thông đen Nhật Bản.
Hình 3.2 minh họa đồ thị EDF cho khoảng cách lân cận gần nhất của các cây thông đen Nhật Bản, kèm theo các bao mô phỏng trên và dưới từ 99 mô phỏng với tính CSR Điều này cho thấy sự phân bố của các cây thông này trong không gian.
G nằm hoàn toàn trong hai bao mô phỏng trên và dưới Do đó tính CSR đối với mẫu ảnh hình 1.1 được chấp nhận
Đồ thị hàm phân phối thực nghiệm Fˆ(t) mô phỏng trên U(t) và dưới L(t) thể hiện khoảng cách giữa một điểm đến biến cố gần nhất, dựa trên mẫu ảnh 65 cây thông đen Nhật Bản So sánh với hàm phân phối lý thuyết F(t), kết quả cho thấy sự tương đồng và khác biệt trong việc phân tích dữ liệu.
Hình 3.3 cho đồ thị EDF của khoảng cách từ một điểm đến điểm gần nhất
(với lưới điểm 16x16) đối với dữ liệu Numata Chúng ta thấy ˆ( )
F nằm giữa hai bao mô phỏng trên toàn khoảng xét và sát với đường thẳng y = x Do đó tính CSR được chấp nhận, giống như hai tiêu chuẩn trước
Hình 3.4:Đồ thị hàm K ˆ 1 ( t ) t 2 ,hàm mô phỏng trên U(t), hàm mô phỏng dưới L(t) (tung độ) đối với t (hoành độ) ứng với mẫu ảnh 65 cây thông đen Nhật Bản
Dựa vào hình 3.4 và hàm K(t) - πt², ta nhận thấy hàm K̂₁(t) - πt² dao động quanh trục hoành Ot, cho thấy K̂₁(t) gần bằng πt² Đồ thị của hàm K̂₁(t) - πt² hoàn toàn nằm giữa hai bao mô phỏng trên và dưới, từ đó kết luận rằng mẫu điểm hình 1.1 có tính CSR.
Dựa trên bốn tiêu chuẩn khoảng cách đã phân tích, chúng ta có thể khẳng định rằng mẫu điểm của 65 cây thông đen Nhật Bản đạt yêu cầu về tính ngẫu nhiên không gian, chứng minh rằng mẫu điểm hình 1.1 phản ánh quá trình điểm không gian Poisson.
Với mẫu ảnh về vị trí của 62 cây giống gỗ đỏ (hình 1.2) ta nhận được các kết quả như sau:
Hình 3.5: Đồ thị hàm phân phối thực nghiệm ˆ ( )
Hàm phân phối lý thuyết H(t) mô tả khoảng cách giữa các biến cố ứng với mẫu ảnh cây giống gỗ đỏ, trong đó bao mô phỏng trên U(t) và bao mô phỏng dưới L(t) thể hiện các tung độ tương ứng.
Hình 3.5 cho đồ thị EDF của khoảng cách giữa các biến cố cùng với bao mô phỏng trên và dưới Ta thấy đồ thị ˆ ()
H không nằm giữa hai bao mô phỏng trên và dưới Do đó tính CSR bị vi phạm
Hình 3.6: Đồ thị hàm phân phối thực nghiệm ˆ ( )
G là hàm mô phỏng trên U(t) và L(t) thể hiện tung độ, liên quan đến hàm phân phối lý thuyết G(t) ở hoành độ Điều này mô tả khoảng cách tới biến cố gần nhất dựa trên mẫu ảnh của cây giống gỗ đỏ.
Hình 3.6 cho ta thấy đồ thị ˆ ( )
G vượt lên bao mô phỏng trên nên tính CSR bị vi phạm
Hình 3.7: Đồ thị hàm phân phối thực nghiệm ˆ( )
Hàm phân phối lý thuyết F(t) mô phỏng khoảng cách giữa một điểm đến biến cố gần nhất F(t) ứng với mẫu ảnh cây giống gỗ đỏ, với bao mô phỏng trên U(t) và bao mô phỏng dưới L(t) (tung độ).
F nằm dưới bao mô phỏng dướidẫn tới tính CSR bị bác bỏ
Hình 3.8: Đồ thị hàm K ˆ 1 ( t ) t 2 , hàm mô phỏng trên U(t), hàm mô phỏng dưới L(t) (tung độ) đối với t (hoành độ) ứng với mẫu ảnh cây giống gỗ đỏ
Hình 3.8 cho ta thấy đồ thị K ˆ 1 ( t ) t 2 vượt lên bao mô phỏng trên nên tính CSR bị vi phạm
Như vậy dựa trên bốn tiêu chuẩn khoảng cách, chúng ta thấy với mẫu điểm cây giống gỗ đỏ không thỏa mãn tính ngẫu nhiên không gian hoàn toàn
Với mẫu ảnh vẽ vị trí của 42 tế bào sinh học (hình 1.3) ta nhận được các kết quả sau:
Hình 3.9: Đồ thị hàm phân phối thực nghiệm ˆ ( )
Hàm phân phối lý thuyết H(t) mô tả khoảng cách giữa các biến cố H(t) trong mẫu ảnh 42 tế bào sinh học, với bao mô phỏng trên U(t) và bao mô phỏng dưới L(t) thể hiện tung độ.
Hình 3.9 cho ta thấy phần lớn đồ thị ˆ ( )
H nằm giữa hai bao mô phỏng trên và bao mô phỏng dưới, trừ khi giá trị t nhỏ Với t nhỏ H ˆ 1 ( t ) nằm dưới bao mô phỏng dưới, thậm chí ˆ ( )
Hình 3.10: Đồ thị hàm phân phối thực nghiệm ˆ ( )
G mô phỏng trên U(t) và dưới L(t) thể hiện hàm phân phối lý thuyết G(t) về khoảng cách tới biến cố gần nhất, dựa trên mẫu ảnh của 42 tế bào sinh học.
Hình 3.10 cho chúng ta thấy đồ thị hàm G ˆ 1 ( t ) nằm dưới bao mô phỏng dưới khi t nhỏ nên tính CSR bị vi phạm
Hình 3.11: Đồ thị hàm phân phối thực nghiệm ˆ ( )
F(t) là hàm phân phối lý thuyết mô phỏng khoảng cách đến biến cố gần nhất, với F là mô phỏng trên U(t) và L(t) là mô phỏng dưới (tung độ) cho mẫu ảnh 42 tế bào sinh học.
Đồ thị F ˆ 1 ( t ) trong Hình 3.11 nằm giữa hai bao mô phỏng trên và dưới, ngoại trừ khi t nhỏ, F ˆ 1 ( t ) gần sát với bao mô phỏng dưới, thậm chí có thể xấp xỉ 0, dẫn đến nghi ngờ về tính chính xác của CSR.
Hình 3.12: Đồ thị hàm K ˆ 1 ( t ) t 2 , hàm mô phỏng trên U(t), hàm mô phỏng dưới L(t) (tung độ) đối với t (hoành độ) ứng với mẫu ảnh 42 tế bào sinh học
Hình 3.12 cho chúng ta thấy đồ thị có phần nằm phía trên, có phần nằm phía dưới bao mô phỏng dưới.Do đó tính CSR bị vi phạm
Như vậy dựa trên bốn tiêu chuẩn khoảng cách, chúng ta thấy với mẫu điểm
Trong nghiên cứu, 42 tế bào sinh học đã vi phạm tiêu chí CSR, đặc biệt là với các giá trị t nhỏ Điều này có thể được giải thích hợp lý bởi mẫu 42 tế bào sinh học có sự phân bố đều đặn, dẫn đến việc xuất hiện các khoảng cách nhỏ giữa hai biến cố là rất hiếm.