Cluster có thứ bậc và đánh giá giá trị

2.1.1.Giá trị nhóm Contrario

Định nghĩa một phép đo định l−ợng giá trị nhóm các điểm. Một nhóm sẽ

đ−ợc đề cập nh− một vùng có ý nghĩa khi nó hàm chứa trong vùng có một vài

điểm mong đợi nếu nh− dữ liệu đ−ợc xác định tại một không gian. Từ đó, một

ph−ơng thức xác suất phải đ−ợc định nghĩa chính xác, thậm chí nó sẽ đ−ợc yêu

cầu.

Trong tất cả các công thức sau, E lấy từ tập phụ RD, để lại với một phép đo

xác suất π (nó sẽ đ−ợc gọi là luật cơ sở). Định nghĩa π(R) là xác suất tại một

không gian điểm phụ thuộc R.

Định nghĩa của π là một vấn đề cụ thể tổng quan đ−a ra một xác suất biết

tr−ớc hoặc có thể −ớc l−ợng theo kinh nghiệm trên tập dữ liệu.

Định nghĩa 2.1: Một xử lý nền là một xử lý các điểm có hạn (Xi) i= 1...M

trong E từ các biến độc lập với nhau, định dạng phân bố theo luật π.

Trình bày tập dữ liệu của M điểm (x1, x 2,... xM) trong EM , một tập phụ của tập dữ liệu sẽ là nhóm có nghĩa nếu các điểm quan trọng thuộc vào một vùng rất

nhỏ, ở đó xác suất của những điểm này rất nhỏ. Vì vậy, cơ sở của ph−ơng thức

Contrario là trái với giả thiết d−ới đây:

(A): mô tả M ∈ Xi (i = 1,…. M) là một xử lý nền thực sự.

Giả thiết cho khoảng cách E = (0,1)2 và π đồng dạng luật E. Đem M điểm

trong E = (0,1)2; nó luôn có thể tìm một kết nối tập R với xác suất nhỏ tuỳ ý π(R)

bao hàm trong mọi tập dữ liệu điểm. Trong thực tế, định nghĩa một nhóm có nghĩa sẽ bao hàm tổng có hạn các vùng phụ.

2.1.1.2. Nhóm có ý nghĩa.

Đề cập một vùng R∈E bao gồm vùng gốc, giả thiết k điểm trong số x1...xM

phụ thuộc vùng có dạng xj + R, cho 1≤ j ≤ M, nếu k đủ lớn, và π(xj + R) đủ nhỏ,

chúng sẽ mô tả một tập hợp điểm trong vùng xj + R. Nhóm các điểm này sẽ đ−ợc

tách trong xj + R, bằng ph−ơng pháp trái ng−ợc với ph−ơng pháp nền.

Giả thiết các điểm thay đổi, nhóm có thể đ−ợc gộp lại quanh điểm xj bất

kỳ và có hình dạng bất kỳ. Fix cứng xác suất cho tr−ớc, vùng R sẽ phải thuộc vào

tập vùng gốc R có giới hạn, nó sẽ đ−ợc mô tả kỹ hơn. Giả thiết đơn giản hơn R giới hạn các dự tuyển #R và với mọi R∈R, O∈ R. k ≤ M ∈N và 0 ≤ p ≤ 1

Dạng luật nhị phân xử lý nền X1...X M và vùng R ∈ E với xác suất π (R), 1 có

thể giải thích nh− xác suất tại điểm cuối k ngoài các điểm M của việc xử lý vào

trong tập R. Mặc dù nghiên cứu dạng nhị thức và chúng sử dụng trong tách cấu trúc hình học có thể tìm thấy.

Cho 1 ≤ j ≤ M và R' ∈R

Chú ý:

X = (X1...XM): xử lý nền.

Xj = (X1...XM): Xj thành phần bị thiếu.

K (Xj, Xj, R'): số các điểm trong danh sách Xj phụ thuộc Xj + R'.

Định nghĩa 2.2: Đặt R là một vùng dạng R = Xj + R'

j ∈ (1,...,M) và R' ∈ R. Gọi số cách báo sai của R = Xj + R'

Gọi R = Xj + R' là một vùng ε có nghĩa nếu NFAg(X, j, R') ≤ε.

Chú ý NFAg(X, j, R') cũng đ−ợc biểu thị bởi NFAg(R). Mục đích của chúng

ta là giới thiệu mở rộng số l−ợng vùng có ý nghĩa ε là nhỏ hơn ε.

Proposition 2.1

Nếu X1...XM là một xử lý nền, sự mở rộng số vùng có nghĩa ε nhỏ hơn ε. Để tính toán số các cảnh báo lỗi là phép đo sự giống nhau giữa các nhóm

chứa trong vùng R nh− thế nào trong một tập dữ liệu điểm này ẩn chứa trong k điểm

dữ liệu khác. Mức NFAg(R) thấp hơn, (Prop 2.1) thông số điều khiển tách là ε.

Mệnh đề d−ới đây chỉ ra ảnh h−ởng của tham số #R và của thông số quyết

định ε trong kết quả tách biên là rất ít.

Mệnh đề 2.2: Đặt R là một vùng của R

Chú ý: k*(ε) là giá trị nhỏ nhất của điểm trong nhóm có nghĩa ε. Bằng kết quả dự đoán, quyết định ng−ỡng này chỉ có loga phụ thuộc #R và ε.

Hình 2.2: Nhóm dữ liệu 950 điểm đồng dạng

Hình 2.2 chỉ ra một ví dụ của nhóm dữ liệu bao gồm 950 điểm đồng dạng phân bố trong một đơn vị vuông và 50 điểm thêm vào xung quanh (0,4;0,4) và (0,7;0,7) xung quanh 950 điểm; phân bố đồng đều trong một đơn vị vuông. Trong ví dụ này #R= 2500 (50 kích cỡ khác cho mỗi chiều). Chính xác hai nhóm lớn nhất đ−ợc tách (hình 2.2) NFA của miền trái thấp hơn 10-8 trong khi NFA bên phải 107

2.1.2. Tiêu chuẩn kết hợp tốt nhất.

Trong mục 2.2.1.2 đã giới thiệu hạn chế không gian của việc kiểm tra vùng từ

Xi+R, Xi là mô tả dữ liệu và R∈ R , một tập hỗn hợp có giới hạn các vùng chứa

vùng gốc trong RD

. Độ d− thừa cao khi mỗi vùng có nghĩa lại liên quan tới tập mô tả biểu diễn các vùng có nghĩa khác.

Hai vùng R ⊂ R', câu hỏi này dễ dàng trả lời bằng việc so sánh NFAg(R) và

NFAg(R'). Vùng có số l−ợng các cách báo sai nhỏ nhất là phù hợp hơn. Một cách

hỏi khác khi 3 hoặc nhiều vùng liên kết với nhau, vì vậy phải yêu cầu một tiêu chuẩn hỗn hợp. Đầu tiên sẽ định nghĩa số cảnh báo sai cho một cặp vùng. Giá trị

mới này đ−ợc so sánh với NFA của vùng hỗn hợp. Giới thiệu 3 hệ số danh nghĩa.

Chú ý: Số này đ−ợc diễn dịch nh− sau: đặt R1 và R2 là hai vùng tách rời của E và π1= π (R1), π2 =π (R2) xác suất của chúng à(M, k1 , k2, π1 , π2) là xác suất tại giá trị nhỏ nhất k1 trong số M điểm và tại điểm thấp nhất k2 trong số M-k1 điểm, theo thứ tự là vùng R1 và R2. Mục tiêu là định nghĩa 1 NFA mới cho mỗi thành phần.

Đặt 1<i ≠ j <M và R’, R”∈ R. Bây giờ 2 vùng thử Xi + R' và Xj + R'' có thể

giao nhau và phải thực sự với xác suất này. Chú ý: đ−ợc mô tả bằng sự thay đổi hoàn

toàn vai trò i và j:

Định nghĩa 2.3: Gọi số cách báo sai của 2 cặp vùng bất kỳ (Ri, Rj) = (X i+ R', Xj + R'')

(2.3)

Cặp vùng bất kỳ(Ri,Rj) là có ý nghĩa ε nếu NFAgg(X,i,j,R',R'') < ε, NFAgg (X,i,j,R',R'') cũ sẽ đ−ợc chứa trong NFAgg (Ri,Rj).

Mệnh đề 2.3: Số cặp vùng lý t−ởng nhỏ hơn ε

Mệnh đề này dẫn tới 2 phép đo kém ý nghĩa: NFA của vùng và NFA của cặp vùng. Từ số l−ợng vùng có ý nghĩa ε trong ph−ơng thức nền ở trên đề cập tới biên độ t−ơng tự nhau đ−ợc so sánh để định nghĩa một tiêu chuẩn hỗn hợp

Định nghĩa 2.4 (Vùng riêng biệt): Đặt R1 và R2 là hai vùng riêng biệt và R là

một vùng chứa tất cả các dữ liệu điểm của R1 và R2. Nói rằng R là riêng biệt mối

quan hệ với R1 và R2 nếu:

Tập R là vùng thử và R là một nhân tố của R. R là riêng biệt trong R nếu nó

độc lập quan hệ với mọi cặp vùng (R1, R2) chứa trong R; mỗi R chứa các điểm của

vùng R1, R2 công thức (2.5) giới thiệu một phép thử chủ yếu cho kết cấu một tập hợp

vùng Cluster. Nếu công thức 2.5 không xảy ra vùng thử đ−ợc coi nh− vùng không

có giá trị, có nghĩa vùng thử có thể chia thành nhiều cặp vùng có nghĩa khác trong Cluster. Lenma tiếp theo sẽ cung cấp sự hữu ích trong việc gia tăng quyết định hỗn hợp.

Lenma 2.1: Mỗi giá trị k1 và k2 trong (0,…., M). Mỗi k1, k2 ≤ M và mỗi π1 và π2 [0,1] sao cho π1 + π2≤ 1.

Mệnh đề 2.4: Nếu R là riêng biệt với chú ý tới R1 và R2

Từ mệnh đề (2.4) và định nghĩa (2.4)

(2.5)

Bằng Lenma 2.1, với β(M −1,k,p)≤β(M,k,p) cho mọi M, k, p công thức biểu diễn nh− sau:

Mệnh đề 2.4 là hữu ích cho tính toán tổng quan, có thể tránh việc phải tính toán chi tiết 3 phân bố bằng bộ lọc các cluster đó .

2.1.3. Vấn đề tính toán 2.1.3.1. Lựa chọn vùng thử.

Tập đúng của các vùng thử R nh− thế nào? Một vài lý do a > 0, r > 0 và n ∈N đề cập tới tất cả mọi vùng mà chiều dài đ−ờng biên thuộc vào tập {a, ar, ar2,

arn}. Liên hệ với một số vùng thử có nhiều hình dạng kích cỡ khác nhau. Để đơn

giản lựa chọn vùng thử có hình chữ nhật thích hợp với xác suất phân bố p đ−ợc định

nghĩa trên miền chữ nhật E của RD là kết quả kéo căng một chiều t−ơng ứng.

Định nghĩa 2.2: thừa nhận tính toán NFA của bất cứ vùng thử nào tại dữ liệu

điểm. Từ số l−ợng các độ chia là n cho mỗi chiều có MnD vùng tại dữ liệu điểm. Từ

số l−ợng các điểm quan sát khả thi. MnD sẽ rất lớn khi n tăng. Điều này giải thích tại sao phép thử không thể thực hiện theo cách này. Tốt hơn nên giải quyết cây cấu trúc của tập dữ liệu điểm mô tả bằng thuật toán tập trung thứ bậc. Tổ chức thứ bậc dữ liệu đ−ợc sử dụng để giới hạn các vùng thử, bằng thủ tục nh− sau:

B−ớc 1: Bằng việc áp dụng ph−ơng pháp tập trung thứ bậc, ph−ơng pháp này cung cấp 1 tập hợp các tập con ẩn trong tập hợp điểm. Cấu trúc cây mà trong đó mỗi nút là một phần của tập dữ liệu và là một ứng viên Cluster. Cây này gọi là dendgrogram.

Phần lớn các thủ tục đ−ợc thực hiện bởi việc lặp lại thủ tục nhị phân hỗn hợp. Vì vậy trực tiếp thiết lập cây nhị phân trong mỗi ph−ơng pháp, b−ớc khởi đầu: thiết

chúng. Khoảng cách nhóm, Cluster phải đ−ợc lựa chọn địa chỉ học. Trong tr−ờng hợp mật độ phân bố dữ liệu ít, b−ớc 1có thể khoảng cách nhỏ nhất d(xi, xj) tại xi phụ thuộc cluster đầu tiên và xj ở b−ớc 2. Các nút của cây đ−ợc tích hợp tất cả các phần tại tất cả các mức và lớp "cháu" của nút là 2 phần mà đã đ−ợc tích hợp từ đó.

Tại sao mỗi một cấu trúc lại cần thiết, tr−ờng hợp tập các đoạn trong tập dữ

liệu điểm lớn, thừa nhận một cấu trúc cây để giảm bớt việc khảo sát tỉ mỉ nhằm nghiên cứu một cây phụ tốt nhất đối với cấu trúc cây khởi tạo. Việc giảm bớt này dễ

bị ảnh h−ởng nếu tập các nút của cây khởi tạo bao gồm tất cả các nhóm trong tập dữ

liệu. Sự lựa chọn phép đo chính xác trên tập dữ liệu điểm và của khoảng cách cluster nguyên phải đ−ợc định rõ cẩn thận.

Đem đến một dendrogram của tập cơ sở dữ liệu điểm, thuật toán d−ới đây

chấp nhận khảo sát tỉ mỉ tất cả các vùng tại dữ liệu điểm và hàm chứa một nút của dendrogram.

Thuật toán nhóm

Mỗi nút G trong cây cluster hoặc dendrogram. 1- Mỗi điểm x thuộc nút:

a) Tìm vùng nhỏ nhất x + R trung tâm tại điểm này, và chứa các dữ liệu điểm khác của nút. Gọi k+1 là số điểm dữ liệu mà nó chứa trong.

b) Tính toán NFA của vùng nh− M.# R.B (M-1, k, p (x+R))

2- Kết hợp với nút G của vùng R(G) với mức NFA đ−ợc tính toán thấp

nhất, nó chứa điểm của nút G nh−ng cũng có thể chứa dữ liệu điểm khác.

Từ thuật toán này đ−ợc tính toán, một vùng ứng cử đ−ợc kết hợp với mỗi

nút bằng một chủ ý lạm dụng sự vô hại, chú ý NFAg(G) = NFAg(R(G)). Cách t−ơng tự, nếu G1 và G2 là một cặp nút và R(G1) và R(G2) là vùng của chúng. Chú

ý NFAgg(G1,G2) = NFAgg(R(G1), R(G2)). Bằng cách này, cây cluster đ−ợc để lại

2.1.3.2. Riêng rẽ và cực đại.

Đối mặt vấn đề có thể có nhiều nhóm có nghĩa bởi ph−ơng pháp tr−ớc,

NFA của chúng đã biết. Có thể cùng tính toán NFA của cặp cluster và so sánh thô với NFA hợp nhất của chúng. Định nghĩa tiếp theo giới thiệu một cách để lựa chọn cluster đúng, bằng việc sử dụng dendrogram cluster

Định nghĩa 2.5 ( Cực đại nhóm có nghĩa ε)

Một nút vùng R = R(G) trong R là ý nghĩa ε cực đại nếu và chỉ nếu:

1/ NFAg(R) ≤ ε

2/ R là riêng rẽ quan hệ với mọi cặp của sự xuống dốc.

3/ Mọi sự giảm độc lập R', NFAg(R') ≥ NFAg(R)

4/ Mọi sự tăng độc lập R', NFAg(R') >NFAg(R) hoặc tồn tại một sự giảm

độc lập R'' của R khi NFAg(R'') < NFAg (R'). Ta nói rằng G là vùng ý nghĩa ε lớn nhất nếu là R(G).

Điều kiện 4 bao hàm R có thể bị từ bỏ cho một vùng rộng hơn nếu vùng đó

không bị áp đặt bởi một sự giảm. áp đặt điều kiện 3 và 4 chắc chắn 2 nhóm vùng

ý nghĩa cực đại khác nhau là riêng rẽ. L−u ý rằng sự riêng biệt đ−ợc yêu cầu chỉ

với mối liên hệ của cặp giảm. Định nghĩa 2.4 đáp ứng lý thuyết nh−ng không đáp

ứng trong thực hành.

2.2. Kinh nghiệm có giá trị: Nhóm đối t−ợng dựa trên đặc tr−ng thành phần

Hiện t−ợng nhóm là cần thiết trong nhận thức của con ng−ời từ đó chúng

đáp ứng cho tổ chức thông tin. Mục tiêu của những kinh nghiệm này để trích

chọn nhóm đối t−ợng trong ảnh, đó là hình dạng hình học mà một vài thành phần

sở hữu. Đ−ờng viền đối t−ợng đ−ợc trích chọn nh− một vài đ−ờng mức t−ơng

giảm trong ảnh, gọi là mức đ−ờng có ý nghĩa ([5] cho mô tả đầy đủ của thủ tục

trích chọn này). Từ những đối t−ợng đ−ợc tách gọi là O1...OM, có thể tính toán

số M đối t−ợng có một vài đặc tr−ng chung, liệu điều gì sẽ xảy ra khi thay đổi

hoạc C nó có đủ để nhóm chúng. Mỗi dữ liệu điểm là một điểm trong tập đ−ờng

viền của RD và ph−ơng pháp đã mô tả ở trên đ−ợc ứng dụng (thực tế, một vài các

ngang cấp nh− góc phụ thuộc vào đơn vị tròn, từ tính chung kỳ phải đ−ợc đặt vào

hàng đội, điều này có thể thực hiện với các cách t−ơng tự).

2.2.1. Nhiễu điểm

Mỗi cái chứa 2 nhóm 25 điểm thêm vào 950 không đồng dạng trong một

đơn vị vuông. Hai nhóm và 2 nhóm đ−ợc chọn với NFAg tốt (<10-7) kinh nghiệm

trong hình 5 chỉ ra sự quan trọng của phân bố tr−ớc dữ liệu điểm. Hai phân bố

khác nhau dẫn tới 2 vùng có ý nghĩa cực đại khác nhau. Nh−ng cả hai mối quan

hệ đều đúng nh−ng lại phụ thuộc vào ngữ nghĩa.

Hình 2.5: Vấn đề quan trọng của phân bố ph−ơng thức nền.

Dữ liệu gốc là hình bên trái. Nó vị trí của 500 điểm trong 0,12 500iid điểm

trong (0; 0,5) x (0; 1) và 25 điểm quanh (0,2; 0,3). Trong phần giữa; 1 phân bố

tr−ớc trong ph−ơng thức nền mang lại đồng dạng. Sau đó, một vùng có ý nghĩa

cực đại và độ rộng đơn đ−ợc tách, bao gồm 793 điểm và lg (NFAg)=44,9. Hình

bên phải, phân bố đ−ợc định nghĩa nh− sản phẩm của phân bố lề theo kinh

nghiệm trong tách dọc và tách ngang. Vùng có ý nghĩa cực đại đơn (-

Các nhóm đ−ợc nhận thức nh− 1 kết quả cộng tác giữa hai đại l−ợng trong

khác nhau. Hình 2.6 chỉ ra 71 phân đoạn thẳng với h−ớng khác nhau; d−ờng nh−

vị trí phân bố đồng dạng.

Không cluster có ý nghĩa nào đ−ợc tách trong không gian sắp xếp vị trí của

chúng. Trong tất cả các kinh nghiệm, số của kích ảnh hình chữ nhật trong mỗi lần tách là 50. Vì vậy #R= 50D.

Hình 2.6: phân đoạn ảnh đã scan và 71 đ−ờng mức có mức ý nghĩa cực đại.

Nếu h−ớng đ−ợc lựa chọn nh− một đặc tr−ng (D=1); 8 nhóm có ý nghĩa

cực đại đ−ợc tách; t−ơng ứng với h−ớng đ−ợc biểu diễn rõ nhất. Không một

cluster nào đ−ợc biểu diễn mức (trung tâm) NFAg thấp. Chỉ duy nhất một trong

số các nhóm đó là riêng rẽ nh−ng h−ớng rõ ràng không phải là một nhân tố. Chú

ý, nhóm này không bao gồm tất cả các phân đoạn trung tâm. H−ớng của chúng là

khác nhau, và nhóm của 11phân đoạn không phải là cực đại. Tất cả các nhóm

khác nhau thực sự không đ−ợc cảm nhận bởi vì chúng bị che phủ bởi sự lộn xộn

tạo ra từ tất cả các đối t−ợng khác nhau. Tuy nhiên, một nhóm không thể có đối

t−ợng chúng có một kết cấu phức tạp.

Trong hình 2.7, có 8 nhóm có ý nghĩa cực đại. Thứ tự từ NFAg từ 10-1 đến

10-5 nhóm central không bao gồm tất cả các phân đoạn dọc, bởi vì h−ớng không

Cluster có thứ bậc và đánh giá giá trị

Ph−ơng thức quyết định Contrario