Thuật toán phân cụm Mountain và ứng dụng phân đoạn ảnh màu
HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN MÔN LOGIC MỜ VÀ SUY DIỄN XẤP XỈ TÊN ĐỀ TÀI Thuật toán phân cụm Mountain và ứng dụng phân đoạn ảnh màu TPHCM, Tháng 11 năm 2012 I. Phương pháp phân cụm Mountain (MCM) Yager và Filev (1994a) đã phát triển thuật toán tạo ra nguyên mẫu cho dữ liệu không dán nhãn, phương pháp rất khác biệt so với tất cả những phương pháp trước đây đã được thảo luận trong phần này. Trong kế hoạch của họ, một tập hợp hữu hạn lớn các mẫu thử được quy định cụ thể và cố định, và chức năng mục tiêu MCM được sử dụng để chọn ra các mẫu thử c tốt từ tập hợp đã được cố định. Từ các thiết lập cố định của các ứng cử viên. Trong ngắn hạn,các mẫu thử không phải là khởi tạo và sau đó đươc cập nhật lặp lại, nhưng chỉ đơn giản là được lựa chọnlặp lại từ một tập hợp rời rạc (rất lớn và cố định). MCM bắt đầu bằng cách xác định một lưới tọa độ giúp nắm bắt các dữ liệu không gắn nhãn X = (Xj, X2 x ^} c SRP. Không làm mất đi tính tổng quát, chúng ta mô tả một phiên bản đơn giản của MCM sử dụng một mạng số nguyên. Chúng ta xây dựng mạng lưới bằng cách mở rộng hyberbox hb(m, M) đầu tiên, sử dụng những đặc tính sàn và trần thay cho những giá trị đã được cho trong phương trình(4.20). Như vậy, với x, và X., biểu thị trần và sàn số nguyên của xj ^, tương ứng, chúng ta tính toán hb (LMJ, [M]), đó là hyperbox nhỏ nhất với các góc có các tọa độ số nguyên chứa X là một tập hợp con thực sự. Đối với 1 <J <p, cạnh thứ J của hb ([mJ, [M]) bao gồm r các số nguyên chạy từ tầng tối thiểu[mJ], đến trần tối đa [Mj]). Mạng lưới Lhb(|_mJ, [M]) = Lhb của các điểm lưới số nguyên ( hoặc các nút) trong hb(LinJ, [M]) gồm các thiết lập của các mẫu thử đề cử cho mô hình MCM. Chúng ta sẽ sử dụng những kí hiệu thông thường cho những mẫu thử điểm trong thiết lập này, đó là , và yêu cầu bạn ghi nhớ rằng những tọa độ của chúng là những số nguyên chỉ trong phân khu này. Kế tiếp, tính toán những khoảng cách Yager và Filev (1994a) thảo luận chỉ sử dụng những hàm (metric) Minkowski (1.11) cho việc này, tuy nhiên rõ ràng là những hàm (metric) sản phẩm bên trong trong một tập hợp ở (1.6) là có thể áp dụng như nhau. Khác với bất kì mô hình c-means nào, hàm mục tiêu MCM là không cố định. Thay vào đó, mô hình bắt đầu với một hàm mục tiêu ban đầu sau đó sử dụng tập hợp các giá trị hiện tại trong phép lặp tiếp theo để xác định một hàm mục tiêu mới tại mỗi t > 1, rất giống với hàm chức năng sử dụng bởi FLVQ. Hàm mục tiêu thiết lập ban đầu là ,(4.32), trong đó là một hằng số tích cực. Nếu chúng ta xem như một “ khả năng” tại cho bởi , sau đó đo lường tổng khả năng tại cho bởi dữ liệu. Do đó tổng khả năng sẽ cao khi những điểm dữ liệu được tập trung gần . Do đó Yager và Filev tranh luận rằng cực đại của (4.32) xác định các nguyên mẫu tốt. Nói một cách khác, với một cố định, giá trị tối đa ( tối thiểu) của xảy ra tại giá trị tối thiểu ( tối đa) của vượt qua . Do tổng kết n giá trị tại nút , sẽ tỷ lệ thuận với mật độ điểm trong X vùng lân cận của . Một biểu đồ các giá trị , sẽ là một bề mặt số với những đỉnh tại các nút nơi mật độ dữ liệu là cao nhất- nơi có các cụm. Do đó thuật ngữ " mountain function " cho (4.32). Việc tối đa hóa với được thực hiện bằng cách liệt kê một cách đơn giản những giá trị của nó và tìm ra một giá trị lớn nhất, những liên kết được giải quyết một cách tùy tiện. chúng ta cho tập hợp những giá trị mountain function (MFVs) đầu tiên là (4.33). Xác định mẫu mờ (4.33) Bước 1: Nếu , lưới điểm được khai báo. Bước 2: Xóa đỉnh , định nghĩa lại hàm Mountain bằng cách , hay còn gọi là nghịch đảo với khoảng cách Bước 3: Kết quả được lưu trong các giá trị của đã được cập nhật khi t> = 1 bước, Hàm này được xác định với công thức (4.34) Trong đó: - β là hằng số thứ 2 được định nghĩa . - là nguyên mẫu t-th. Trường hợp tối đa hóa hơn sẽ tạo ra một nút thứ hai , và là một nút ưu tiên để xác định . Vì vậy, công thức (4.34) do đó định nghĩa một thủ tục lặp đi lặp lại việc tiếp tục chọn các nút từ định nghĩa là nguyên mẫu cho các dữ liệu cho đến khi người dùng xác định điểm dừng được đáp ứng. Năm 1994 Yager và Filev đề nghị điểm dừng khi giá trị tối đa của hàm Mountain nhỏ. Ví dụ: bước i khi Tại một số ngưỡng chấm dứt Ɛ> 0. Tại thời điểm này MCM có bộ , hay còn gọi là cụm nguyên mẫu cho t (chưa xác định) trong X. Phương pháp này thì đơn giản, và giống như tất cả các thuật toán, có một số tham số để chọn. Tuy nhiên trong MCM có thể sử dụng một nút nhiều lần nên lượng giá trị bị giảm đi của hàm Mountain sẽ phụ thuộc vào p. Trường hợp lựa chọn sai, sẽ không đủ giá trị để làm phẳng bề mặt của đỉnh mạnh. Theo Barone et al. (1995), ông phân tích theo chiều sâu và gợi ý sử dụng và vấn đề tái sử dụng. Mô tả MCM bằng cách sử dụng một sơ đồ lưới với những trường lưới nguyên mẫu có thể tốt hơn hoặc hợp lý hơn. Barone et al. (1995) xem xét các vấn đề kích thước lưới, và thảo luận về sự lựa chọn thước đo cho việc tính toán khoảng cách. Bảng 4,16 tóm tắt phương pháp MCM của thế hệ nguyên mẫu. (Yager và Filev, 1994) Trường hợp 1: Nếu không có đỉnh được tái sử dụng trước khi MCM ngưng, sau đó c = t, có nghĩa là số nguyên mẫu riêng biệt tương ứng với giá trị cuối cùng của t Trường hợp 2: Mặt khác, khi một hoặc nhiều đỉnh núi được tái sử dụng, số nguyên mẫu riêng biệt được xác định bởi MCM hay c <=t. Trong cả hai trường hợp, MCM bắt đầu với mẫu thử nghiệm c= 1 c,hay còn gọi là phương pháp phân nhóm theo cấp bậc, và tiếp tục để thêm nguyên mẫu vào (điều này có thể không khác biệt) cho đến khi tiêu chí chấm dứt của nó được đáp ứng. Lúc đầu, điều này có vẻ như bỏ qua vấn đề giá trị cụm. Tuy nhiên, số lượng các nguyên mẫu được xác định bởi MCM phụ thuộc vào . Do đó, việc xác nhận tính hợp lệ vẫn còn là một vấn đề chưa rõ ràng. Theo Barone et , tính hợp lệ của cụm được xác nhận từ số lượng nguyên mẫu được lựa chọn bởi một ứng dụng mới của các giá trị từ việc áp dụng ma trận TXP . Họ đề nghị tìm kiếm một hoặc nhiều điểm dừng trong danh sách các giá trị đơn (tương tự trong nguyên lý của Hubert trong Chương 2), và căn cứ cuối cùng vào ước tính của c về thủ tục này. Các cụm của lượng MCM sử dụng để tính toán,. Ví dụ: gán nguyên mẫu chính xác nhất là nhãn X. Một số bài toán thí nghiệm đã thể hiện việc tìm kiếm cụm tốt theo cách này nhưng nó rất dễ dàng để xây dựng dữ liệu cho từng phương pháp nhằm đánh lạc hướng người sử dụng mới. Bên cạnh đó, MCM đã được sử dụng cho một ứng dụng quan trọng, và đó là một cách đơn giản để khởi tạo thành công phân nhóm khác hoặc các thế hệ nguyên mẫu thuật toán. Thật vậy, Barone et al. (1995) chủ trương điều này nên cung cấp một số ví dụ để hỗ trợ các điểm dừng của MCM . Ví dụ 4,4 (Barone et al, 1995). Bảng 4,17 sắp đặt các điểm dừng nguyên mẫu được tìm thấy bởi MCM và FCM trên các dữ liệu được thiết lập cho được hiển thị trong Hình 4.12. Cột đầu tiên trong Bảng 4,17 cũng cho thấy các biểu tượng được sử dụng cho 2D hay còn được thể hiện trong hình 4,12 Bảng 4,17 ga MCM và nguyên mẫu FCM cho , Barone et al đã sử dụng tiêu chuẩn cho cả hai thuật toán Euclide, và thiết lập c = 3 cho FCM. Họ cho rằng ALPHA được đặt ở 4 cho MCM, nhưng không có hoặc bất kỳ các thông số thực thi khác cho FCM nhằm cung cấp cho các kết quả trong Bảng 4,17. Vì vậy, giá trị MCM trong Bảng 4,17 là không thể thiếu, chúng ta biết rằng mạng tinh thể được sử dụng bởi MCM cho những tính toán này tốt hơn đáng kể (ít nhất là đủ mịn để có điểm lưới tọa độ để hai chữ số thập phân) so với đơn vị mạng LHB ([m], [M]) được sử dụng trong đặc điểm kỹ thuật của MCM. Kết luận rút ra từ Bảng 4,17 là, trao quyền lựa chọn cho MCM, nó có thể sản xuất nguyên mẫu một cách hợp lý khởi gán cho FCM. Chú ý rằng MCM dự toán dường như tồi tệ nhất tại dòng thứ 3, nhưng 50 điểm mà nó đại diện thì rất nhỏ gọn và được phân định rõ ràng từ 100 điểm còn lại trong (xem Hình 4.12). Ví dụ 4.4: Bảng 4,17 Bảng 4,17 sắp đặt các thiết bị đầu cuối nguyên mẫu được tìm thấy bởi MCM và FCM trên các dữ liệu thiết lập Iris được hiển thị trong Hình 4.12. Cột đầu tiên trong Bảng 4,17 cũng cho thấy các biểu tượng được sử dụng cho 2D phương tiện thể hiện trong hình 4,12. Hình 4,12 Sử dụng chỉ tiêu cho cả hai thuật toán Euclide, và thiết lập c= 3 cho FCM. Họ cho rằng α được đặt ở 4 cho MCM, nhưng không đối với β và ε, hoặc bất kỳ các thông số chế biến khác cho FCM cung cấp cho các kết quả trong Bảng 4,17. Kể từ khi giá trị MCM trong Bảng 4,17 là không thể thiếu, chúng ta biết rằng mạng tinh thể được sử dụng bởi MCM những tính toán này tốt hơn đáng kể (ít nhất là đủ mịn để có điểm lưới tọa độ để hai chữ số thập phân) so với đơn vị mạng Lhb ( ) được sử dụng trong đặc điểm kỹ thuật của MCM. Kết luận rút ra từ Bảng 4,17 là, trao quyền sự lựa chọn cho MCM, nó có thể sản xuất nguyên mẫu một cách hợp lý cho FCM. Chú ý rằng dự toán MCM có vẻ tồi tệ nhất của ba loai, nhưng 50 điểm mà nó đại diện rất nhỏ gọn và được phân định rõ ràng từ 100 điểm còn lại trong Iris (xem Hình 4.12). Có lẽ vấn đề lớn nhất và chắc chắn rõ ràng nhất với MCM là phức tạp tính toán. Nếu p là nhiều hơn hai hoặc ba, và/hoặc phạm vi của dữ liệu thiết lập X trong bất kỳ kích thước của nó p là lớn, mạng LHB được sử dụng trong mô tả của chúng tôi MCM sẽ rất lớn thực sự, Bởi vì . Đối với hai dữ liệu chiều thiết lập Iris, số tiền này (700) (300) = 210.000 nguyên mẫu ban đầu để bao gồm các mạng Lhb ((0,0) T , (7,3) T ). Trong bối cảnh không cụ thể, giả sử X có chứa các điểm dữ liệu trong 10 chiều - một không phổ lớn số các tính năng. Nếu mỗi người trong 10 trục được chia bằng 10, mạng Lhb ( ) sẽ có 10 10 nguyên mẫu ứng cử viên - quá nhiều để làm cho MCM tính toán dễ xử lý. Chiu (1994, 1995, 1997) đề xuất một sửa đổi của MCM trong đó lưới các điểm lưới ứng cử viên bị bỏ rơi, và thay thế bằng X, dữ liệu đầu vào không có nhãn. Chiu gọi là sửa đổi của MCM phương pháp phân nhóm trừ (SCM), và nó không đủ tiểu thuyết hay khác nhau từ MCM để đảm bảo một cuộc thảo luận riêng biệt ở đây. (Chúng tôi sẽ, tuy nhiên, thảo luận SCM một lần nữa trong Ví dụ 4,18). Kể từ khi các nguyên mẫu ứng cử viên trong SCM trùng khớp với các dữ liệu, chỉ có n số họ, và các vấn đề phức tạp sẽ có vẻ giải quyết. Tuy nhiên, Dave và Krishnapuram (1997) đã chỉ ra rằng sự phức tạp của SCM là vẫn còn O (n 2 ), trong khi sự phức tạp của FCM là 0(n). Họ tiếp tục thảo luận về các mối quan hệ giữa SCM, PCM và các thuật toán phân nhóm khác, bao gồm cả chức năng tiềm năng theo phương pháp tiếp cận (Tou và Gonzalez, 1974). Velthuizen et al.(1997) thảo luận về một bộ khác nhau của sửa đổi MCM, và được gọi là thuật toán modified mountain method (M3). Cần chú ý rằng MCM chỉ hữu ích nếu giá trị "tốt" được lựa chọn cho các thông số MCM α và β, họ đề nghị tính toán α dựa trên một thống kê mẫu của X. Cho được ma trận hiệp phương sai mẫu với có nghĩa là (4.36) (4.37) Không giống như MCM, mô hình M3 bản sửa lỗi c, số lượng các nguyên mẫu để tìm kiếm trong (4.36). Velthuizen et al. cũng trình bày một phương pháp để loại bỏ sự độ nhạy của MCM để β. Bản chất của phần này của M3 là để chọn một "hợp lý" (β - có lẽ là bằng cách thử và lỗi (β = 0,06 trong Velthuizen et al.), Cô lập một khu phố của người chiến thắng hiện tại nguyên mẫu v T bằng cách tìm ra 5 nguyên mẫu gần nhất với nó, và sau đó giới thiệu một lân cân tốt hơn. Chỉ trong một số mở rộng này khu phố, sự phân bố của các dữ liệu trong khu phố sau đó phù hợp với một phân bố bình thường đa biến (bạn phải tự hỏi một chút về một sự phù hợp đến 5 điểm). Cuối cùng, trong (4.34) được thay thế bởi giá trị của Gaussian mật độ được tìm thấy trong các khu phố của v T . Các tác giả khẳng định sửa đổi này vượt qua sự nhạy cảm của MCM với tham số β. Miền ứng dụng quan tâm Velthuizen et al. từ tính cộng hưởng (MR) hình ảnh phân khúc. T1 ij , T2 ij and P ij biểu thị tương ứng, lưới spin thư giãn, thư giãn ngang, và proton mật độ pixel (i, j) trong một lát MR (ba hình ảnh tại cùng một vị trí trong thời gian và không gian) có kích thước m x n. Nếu chúng ta tổng hợp các 3 con số này vào một vector pixel X ij = (T1 ij , T2 ij , P ij ), tập dữ liệu X = {x 11 , x 12 ,…,x ij ,…,x mn }, chúng tôi sẽ đáp ứng dữ liệu điểm ảnh vector 3D với một số ví dụ khác trong Chương 4 và 5. Các thuật toán cơ bản được sử dụng bởi Velthuizen et al. tiền thu được như sau. Cho X đứng cho một bộ điểm ảnh tính năng vector có nguồn gốc từ bất kỳ hình ảnh MR, và biểu thị nguyên mẫu được tìm thấy bởi M3 như V M3 để phân biệt chúng từ V MCM . II. Kết quả đạt được Chương trình được xây dựng trên Visual Studio 2010 [...]...1 Với phân cụm bằng 2, kết quả đạt được là 2 Với phân cụm bằng 3 Kết quả được là . TÊN ĐỀ TÀI Thuật toán phân cụm Mountain và ứng dụng phân đoạn ảnh màu TPHCM, Tháng 11 năm 2012 I. Phương pháp phân cụm Mountain (MCM) Yager và Filev (1994a) đã. tập hợp những giá trị mountain function (MFVs) đầu tiên là (4.33). Xác định mẫu mờ (4.33) Bước 1: Nếu , lưới điểm được khai báo. Bước 2: Xóa đỉnh , định nghĩa lại hàm Mountain bằng cách ,. những đỉnh tại các nút nơi mật độ dữ liệu là cao nhất- nơi có các cụm. Do đó thuật ngữ " mountain function " cho (4.32). Việc tối đa hóa với được thực hiện bằng cách liệt kê một cách