Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,34 MB
Nội dung
Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng LỜI CẢM ƠN Trong suốt thời gian học tập, hoàn thành đồ án tốt nghiệp em may mắn thầy bảo, dìu dắt gia đình, bạn bè quan tâm, động viên Trước tiên em xin bày tỏ lòng biết ơn chân thành tới PGS TS Ngô Quốc Tạo, người định hướng nhiệt tình bảo, hướng dẫn em suốt trình thực đồ án tốt nghiệp Em xin gửi lời cảm ơn tới thầy cô ngành hệ thống thông tin nói riêng trường đại học Dân Lập Hải Phịng nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình nghiên cứu học tập trường Em xin gửi lời cảm ơn tới gia đình, bạn bè người ln cổ vũ, quan tâm giúp đỡ em suốt thời gian học tập thời gian làm đồ án tốt nghiệp Do thời gian kiến thức có hạn nên khơng tránh khỏi thiếu sót định Em mong nhận đóng góp quý báu thầy cô bạn! Em xin chân thành cảm ơn! Hải Phòng, tháng 11 năm 2013 Sinh viên Bùi Trung Thành Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng MỤC LỤC LỜI CẢM ƠN LỜI NÓI ĐẦU CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức 1.2 Khai phá liệu khái niệm liên quan 1.2.1 Khái niệm khai phá liệu 1.2.2 Các bước trình khai phá liệu 10 1.2.3 Các thành phần khai phá liệu 11 1.2.4 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu 12 1.2.5 Ứng dụng khai phá liệu 13 CHƢƠNG IIPHÂN CỤM DỮ LIỆU VÀ CÁCTHUẬT TOÁN PHÂN CỤM DỮ LIỆU 14 2.1 Phân cụm liệu 14 2.1.1 Định nghĩa phân cụm liệu 14 2.1.2 Một số ví dụ phân cụm liệu 15 2.2 Một số kiểu liệu phân cụm 17 2.2.1 Kiểu liệu dựa kích thước miền 18 2.2.2 Kiểu liệu dựa hệ đo 18 2.3 Phép đo độ tương tự khoảng cách kiểu liệu 20 2.3.1 Khái niệm tương tự phi tương tự 20 2.3.2 Độ đo khoảng cách 21 2.4 Các hướng tiếp cận toán phân cụm liệu 24 2.4.1 Phương pháp phân cụm phân hoạch 24 2.4.2 Phương pháp phân cụm phân cấp 24 2.4.3 Phương pháp phân cụm dựa mật độ 26 2.4.4 Phương pháp phân cụm dựa lưới 29 2.4.5 Phương pháp phân cụm dựa mơ hình 30 2.4.6 Phương pháp phân cụm dựa liệu ràng buộc 30 2.5 Một số thuật toán phân cụm liệu 30 2.5.1 Các thuật toán phân cụm phân hoạch 30 2.5.2 Thuật toán phân cụm phân cấp 32 2.5.3 Thuật toán COP – Kmeans 33 Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng CHƢƠNG III: ỨNG DỤNG THUẬT TOÁN K - MEANS TRONG PHÂN ĐOẠN ẢNH 35 3.1 Tổng quan phân vùng ảnh 35 3.2 Các hướng tiếp cận phân đoạn ảnh 36 3.2.1 Các phương pháp dựa không gian đặc trưng 36 3.2.2 Các phương pháp dựa không gian ảnh 37 3.2.3 Các phương pháp dựa mơ hình vật lý 38 3.3 Một số phương pháp phân đoạn cụ thể 41 3.3.1 Phương pháp phân đoạn yếu B.G Prasad 41 3.3.2 Phương pháp phân đoạn dựa ngưỡng cục thích nghi 46 3.3.3 Phân đoạn sơ khởi Watershed 47 3.3.4 Trộn vùng 50 3.4 Thuật toán k-means cho phân đoạn ảnh 53 3.4.1 Mơ tả tốn 54 3.4.2 Các bước thực thuật tốn 54 3.4.3 Kết thực nghiệm 58 3.4.4 Ưu, nhược điểm thuật toán k – means 59 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng DANH MỤC HÌNH Hình 1: Quy trình phát tri thức Hình 2: Các bước khai phá liệu 10 Hình 3: Hai phương pháp tiếp cận phân cấp 25 Hình 4: p điểm hạt nhân với bán kính Eps 1cm ngưỡng trù mật Pts Khoảng cách dùng khoảng cách Euclide khơng gian hình học hai chiều, q điểm liên thông mật độ trực tiếp từ p 27 Hình 5: q điểm liên thông mật độ từ p 27 Hình 6: p q hai điểm có kết nối mật độ 28 Hình 7: Những cụm liệu khám phá CURE 32 Hình 8: ví dụ phân đoạn ảnh phương pháp phân đoạn yếu 42 Hình 9:(a) Ảnh gốc (b) Kết phân đoạn ngưỡng toàn cục 100 52 Hình 10: (a) Ảnh gốc (b) Sau áp dụng giải thuật watershed 53 Hình 11: Vùng sáng elip hiển thị khác khác 53 Hình 12: Thuật tốn k - means 56 Hình 13: Tìm kiếm top x color 57 Hình 14: Giao diện chương trình 59 Hình 15: Chọn ảnh đầu vào 59 Hình 16:Kết trình phân cụm ảnh 59 Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng LỜI NÓI ĐẦU Trong năm gần phát triển mạnh mẽ CNTT làm cho khả thuthập lưu trữ thông tin hệ thống thơng tin tăng lên nhanh chóng Bên cạnh đó, việc tin học hóa cách ạt làm cho hoạt động sản xuất kinh doanh nhiều lĩnh vực khác tạo lượng liệu khổng lồ Hàng triệu sở liệu (CSDL) sử dụng cho hoạt động sản xuất, kinh doanh….Trong đó, có nhiều CSDL lên tới hàng nghìn Gigabyte, chí lên mức Terabyte Sự bùng nổ dẫn tới u cầu cấp thiết, cần có cơng cụ mới, chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, khái niệm “khai phá liệu” đời, trở thành lĩnh vực thời CNTT giới nói chung Viêt Nam nói riêng Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực đời sống: Marketing, ngân hàng, bảo hiểm, y tế, khoa học, internet… Các kỹ thuật khai phá liệu chia thành nhóm chính: kỹ thuật khai phá liệu mơ tả kỹ thuật khai phá liệu dự đoán Bài báo cáo đồ án tốt nghiệp em xin trình bày vấn đề “Phân cụm cứng”, vấn đề khai phá liệu Bài báo cáo trình bày chương: - Chương 1: Trình bày tổng quan Khai phá liệu; Phân cụm liệu;Ứng dụng đời sống - Chương 2: Phương pháp phân cụm cứng phân đoạn ảnh - Chương 3: Xây dựng chương trình demo Kết luận: Tóm tắt vấn đề tìm hiểu bài, vấn đề liên quan đưa hướng phát triển tương lai Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng TĨM TẮT ĐỀ TÀI Bài báo cáo đồ án tốt nghiệp em, nghiên cứu “ phương pháp phân cụm cứng phân đoạn ảnh” Nội dung nghiên cứu gồm chương sau: CHƢƠNG I: Tổng quan khai phá liệu Chương nghiên cứu tổng quan khai phá liệu khám phá tri thức Quy trình khám phá tri thức; khai phá liệu, nhiệm vụ khai phá liệu, cách hướng tiếp cận kĩ thuật áp dụng khai phá liệu, ứng dụng khai phá liệu thực tế CHƢƠNG II: Phân cụm liệu thuật tóan phân cụm liệu Chương nghiên cứu phân cụm liệu; số kiểu liệu; độ đo khoảng cách; hướng tiếp cận phân cụm liệu số thuật tóan phân cụm liệu CHƢƠNG III: Ứng dụng thuật tóan k-means phân đoạn ảnh Chương nghiên cứu tổng quan phân đoạn ảnh; phương pháp phân đoạn ảnh; số thuật tóan phân đoạn ảnh; nghiên cứu thuật tóan k-means phân đoạn ảnh giao diện chương trình cài đặt mơ thuật tốn kmeans phân đoạn ảnh Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khám phá tri thức Nếu cho điện từ sóng điện từ chất công nghệ điện từ truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức khai phá liệu Thông thường coi liệu dãy bit, số kí hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thơng tin xem liệu lọc bỏ dưa thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp bao gồm thông tin mối quan hệ Các mối quan hệ hiểu ra, phát học.Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu quy trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Cịn khai phá liệu bước quy trình khám phá tri thức, gồm thuật toán khai phá liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu.Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị che khuất hàng núi liệu Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng Quy trình khám phá tri thức sau: Hình thành định nghĩa toán Thu thập tiền xử lý liệu Khai thác liệu rút tri thức phân tích kiểm định kết Sử dụng tri thức phát Hình 1: Quy trình phát tri thức - Bƣớc 1: Tìm hiểu lĩnh vực ứng dụng hình thành tốn, bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu - Bƣớc 2: Thu thập xử lý thô, gọi tiền xử lý liệu để loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm thời gian tồn quy trình khám phá tri thức - Bƣớc 3: Là khai phá liệu hay nói cách khác trích mẫu mơ hình ẩn liệu - Bƣớc 4: Hiểu tri thức tìm đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu lấy trung bình tất lần thực Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 1.2 Khai phá liệu khái niệm liên quan Khai phá liệu quy trình phân tích thiết kế để thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp mối quan hệ mang tính hệ thống biến sau hợp thức hóa kết tìm cách áp dụng mẫu phát cho tập liệu Quy trình gồm giai đoạn bản: thăm dò, xây dựng mơ hình định nghĩa mẫu, hợp thức, kiểm chứng 1.2.1 Khái niệm khai phá liệu Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử không nhừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ.Câu hỏi đặt khai thác từ “núi” liệu khổng lồ ấy? Và từ khái niệm “khai phá liệu ” đời Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, …Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước kia.Vậy “khai phá liệu gì”? Khai phá liệu q trình trợ giúp định, khám phá mẫu thơng tin có ích, chưa biết bất ngờ CSDL lớn Khai phá liệu bước quan trọng mang tính định trình KDD Bùi Trung Thành - CT1301 Page Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng 1.2.2 Các bƣớc q trình khai phá liệu Quá trình khai phá liệu gồm bước sau: Xác định nhiệm vụ Xác định liệu liên quan Thu thập tiền xử lý liệu Thống kê tóm tắt Dữ liệu trực tiếp Giải thuật KPD L Mẫu Hình 2: Các bước khai phá liệu - Xác định nhiệm vụ: Xác định xác vấn đề cần giải - Xác định liệu liên quan dùng để xây dựng giải pháp giải nhiệm vụ toán - Thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu - Chọn thuật tốn khai phá liệu thích hợp thực việc khai phá nhằm tìm mẫu có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa Đặc điểm mẫu phải (ít hệ thống đó) Độ đuợc đo tương ứng với độ thay đổi liệu (bằng cách so sánh giá trị với giá trị trước giá trị mong muốn), tri thức (mối liên hệ phương pháp tìm phương pháp cũ nào) Thường độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngồi ra, mẫu cịn phải có khả sử dụng tiềm tàng Các mẫu sau xử lý diển giải phải dẫn đến hành động có ích đánh giá hàm lợi ích Ví dụ liệu khoản vay, hàm lợi ích đánh giá khả tăng lợi nhuận từ khoản Bùi Trung Thành - CT1301 Page 10 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng nét Đồng thời, áp dụng giải thuật watershed ảnh xám ta hình 2d, chứa vơ số vùng Như áp dụng giải thuật watershed vào ảnh IG, ta nhận ảnh kết gồm n vùng không trùng lắp Do vùng trộn giai m đoạn trộn nên đặt đánh dấu chúng kí hiệu Ri , I = i m 1,…,n, mi = 1,…,Mi, với n số lượng vùng Mi số lần trộn Ri i trình trộn Ri , i=1,…,n tập vùng khởi tạo, hay nói cách khác chúng kết giải thuật watershed trước trình trộn lặp giai đoạn hai bắt đầu (a) Ảnh gốc ban đầu (b) Ảnh xám (c) Ảnh xám gradient sau áp dụng giải thuật tìm cạnh Canny (d) Ảnh phân đoạn nhận từ việc áp dụng giải thuật watershed Bùi Trung Thành - CT1301 Page 49 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng 3.3.4 Trộn vùng - Đánh giá khác biệt vùng Để xác định trình tự trộn vùng, ta xác định hàm thể khác biệt m m Rm Rm hai vùng lân cận Ri j , kí hiệu f( Ri , j ) Hàm thể khác j i i j biệt dựa vào hai thành phần: màu sắc cạnh Đối với thành phần màu, giải thuật sử dụng giá trị Huetrong khơng gian màu HSV trị bị ảnh hưởng thay đổi nguồn chiếu sáng, ví dụ hình dạng bóng Cụ thể, chúng tơi lấy trị trung bình thành m phần Hue vùng Ri , kí hiệu i h ( Rimi ) Thành phần thể khác biệt lại cạnh biểu diễn cường độ gradient Cường độ gradient trị pixel IG Chúng qui định G ( Rimi , Rmjj ) m Rm trị gradient trung bình hai vùng Ri j j i , xác định dựa trị gradient pixel chung hai vùng m Rm Gọi Bij tập pixel thuộc ranh giới hai vùng Ri j , j i G ( Rimi , Rmjj ) định nghĩa sau: G mi i mj j (R , R ) ( x , y ) BIJ IG ( x, y ) | Bij | (1) Với | Bij| số pixel tập Bij Ta có hàm thể khác biệt dựa vào trị Hue độ gradient tính sau: f ( Rimi , R mjj ) w1 * d ( h( Rimi ), h( R mjj )) w2 * G ( Rimi , R mjj ) Trong đó, R mjj d ( h( Rimi ), h ( R mjj )) (2) m chênh lệch trị trung bình Ri i : Bùi Trung Thành - CT1301 Page 50 Đồ án tốt nghiệp d ( h( Rimi ), h( R mjj )) min{| h( Rimi ) Trường đại học dân lập Hải Phòng h ( R mjj ) |, (360 | h ( Rimi ) h ( R mjj ) |} (3) với w1 w2 hệ số định trước Nếu hàm thể khác biệt f ( Rimi , R mjj ) phụ thuộc chủ yếu vào trị Hue màu sắc cường độ gradient w1>> w2 Dựa vào kinh nghiệm thực tiễn loại ảnh khác nhau, trị w1 w2 tương ứng 0.8 0.2 - Tìm ngưỡng cục thích nghi Mặc dù phần mơ tả q trình trộn hồn chỉnh ta chưa xác định giải thuật dừng Hay nói cách khác, ta chưa biết cách xác định vùng khơng trộn thời điểm khơng trộn Như vậy, cần có chế tự động rút trích thơng tin ngưỡng cục thơng qua việc theo dõi thay đổi vùng trình trộn Các ngưỡng cho biết trộn vùng hay khơng Như thế, ngưỡng giúp hình thành phân vùng hồn chỉnh cuối Như biết trình phân đoạn thao tác cục bộ, nên bước trộn cục dừng đồng thời Do việc sử dụng ngưỡng tồn cục khơng đủ vùng thường tách biệt với xung quanh ngưỡng khác vào lần xử lý khác Tuy nhiên vài trường hợp ngưỡng tồn cục lại phù hợp Ví dụ hình mơ tả trường hợp ngoại lệ, dùng ngưỡng tồn cục mà cho kết phân đoạn xác Lý ảnh ví dụ chứa đối tượng đồng màu sắc, đồng thời phần có màu đồng Trong trường hợp cần ngưỡng cho trình trộn đủ Quá trình trộn dừng trọng số cạnh khảo sát lớn ngưỡng chọn trước, cụ thể ví dụ 100 Bạn xem kết phân đoạn ngưỡng hình 9b Trong thực tế, ảnh phân tích thường chứa nhiều hai vùng nên khó phân đoạn dùng ngưỡng toàn cục Bùi Trung Thành - CT1301 Page 51 Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng Hình 9:(a) Ảnh gốc (b) Kết phân đoạn ngưỡng toàn cục 100 Bạn cảm nhận nhu cầu dùng ngưỡng cục thay cho ngưỡng toàn cục xem hình Ta có hình gốc 7a, hình 7b kết giải thuật watershed Với ngưỡng toàn cục t = 20 ta kết phân đoạn hình 7c, cịn hình 7d kết tương ứng với ngưỡng toàn cục t = 30 Trong hình 7.c, vùng đồng lớn Tuy nhiên, ngưỡng tăng lên 30 hình 7d, vùng nhìn mắt thường đồng mặt ghế lại bị phân nhỏ Trong đó, vùng mũi tên vàng chưa đồng Để phân thành nhiều vùng đồng ngưỡng phải nhỏ 30, việc trộn hai vùng khơng đồng áo khốt người đàn ơng ghế khơng thực Chúng ta nhận biết nhu cầu cần thiết tính ngưỡng cục bộ, tính ngưỡng dựa vào yếu tố cần xem xét tiếp Việc tính ngưỡng cục phải dựa vào thông tin cục bộ, liên quan đến vùng xét vùng lân cận xung quanh Thế phải xét vùng lân cận? Ta phải xét vùng lân cận vùng thường bị ảnh hưởng vùng xung quanh Bạn xem ví dụ hình để thấy mối quan hệ khắng khít vùng vùng lân cận nó, vùng đặt vào vùng lân cận khác cảm nhận thị giác khác Trong hình 8a, đối tượng hình ellipse màu vàng bật màu đen, khác hẳn với hình 8b, đối tượng ellipse màu vàng gần hòa vào màu trắng xung quanh nó, khó nhận biết Bùi Trung Thành - CT1301 Page 52 Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng Hình 10: (a) Ảnh gốc (b) Sau áp dụng giải thuật watershed (c) Sau hồn thành q trình trộn dùng ngưỡng tồn cục t=20 (d) Sau trộn dùng ngưỡng toàn cục t=30 Hình 11: Vùng sáng elip hiển thị khác khác 3.4 Thuật toán k-means cho phân đoạn ảnh Tầm quan trọng khó khăn việc gom cụm đối tượng mang tính tri giác người từ lâu nghiên cứu nhiều lĩnh vực thị giác máy tính đặc biệt lĩnh vực xử lý ảnh Và phân đoạn ảnh ứng dụng mạnh mẽ tốn phân tích hiểu ảnh tự động, Bùi Trung Thành - CT1301 Page 53 Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng tốn khó mà tới nhà khoa học chưa tìm cách giải hồn toàn thấu đáo Làm để phân chia ảnh thành tập Những cách khả thi để làm điều Đó câu hỏi mà người ta đặt từ lâu mong muốn có câu trả lời Trong khoảng 30 trở lại có nhiều thuật tốn đề xuất để giải vấn đề phân đoạn ảnh Các thuật toán hầu hết dựa vào hai thuộc tính quan trọng điểm ảnh so với điểm lân cận nó; “khác” “giống nhau” Các phương pháp dựa giống điểm ảnh gọi phương pháp miền , phương pháp dựa khác điểm ảnh gọi phương pháp biên Trong đề tài này, em xin trình bày thuật tốn k – means để giải tốn phân đoạn ảnh 3.4.1 Mơ tả tốn Input:+ Ảnh có kích thước m x n + Số cụm k muốn phân đoạn Output : Ảnh phân thành k đoạn có màu sắc tương đồng 3.4.2 Các bƣớc thực thuật toán Thuật toán dựa vào số lượng cụm mong muốn, trọng tâm cụm mà tính tốn khoảng cách điểm với trọng tâm cụm Sau gán điểm tới cụm mà có khoảng cách từ điểm tới trọng tâm cụm nhỏ nhất, cập nhật lại trọng tâm cụm Kết thu sau tâm cụm khơng đổi - Các bước thuật tốn:Thuật tốn k -means gồm bước: Chọn ngẫu nhiên k đối tượng làm trọng tâm ban đầu k cụm Gán (hoặc gán lại) đối tượng lại vào cụm có trọng tâm gần Bùi Trung Thành - CT1301 Page 54 Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng Nếu khơng có phép gán lại dừng Vì khơng có phép gán lại có nghĩa cụm ổn định thuật tốn khơng thể cải thiện làm giảm độ phân biệt Tính lại trọng tâm cho cụm Quay lại bước Lưu đồ tổng quát thuật toán: Bùi Trung Thành - CT1301 Page 55 Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng Begin Tìm Top X Color gán làm trọng tâm - Tính khoảng cách d(x,y) từ điểm đến trọng tâm, khoảng cách Eulide - Đưa điểm cụm - Cập nhật lại trọng tâm Tâm = Tâm cũ No Yes End Hình 12: Thuật tốn k - means Bùi Trung Thành - CT1301 Page 56 Đồ án tốt nghiệp - Trường đại học dân lập Hải Phịng Tìm kiếm Top X Color Đầu tiên ta so sánh số màu thực tế ảnh số cụm màu, số màu thực tế nhỏ số cụm màu ta nhận số cụm màu số màu thực tế Tạo danh sách chứa loại màu sau xếp chúng theo thứ tự giảm dần Lấy X phần tử danh sách Hình 13: Tìm kiếm top x color - Tính khoảng cách phân cụm: Dựa vào khoảng cách Euclide tính khoảng cách màu điểm với tâm cụm Dựa vào khoảng cách đưa điểm vào cụm mà khoảng cách tới tâm cụm nhỏ Bùi Trung Thành - CT1301 Page 57 Đồ án tốt nghiệp d (i, j ) - xi1 x j1 Trường đại học dân lập Hải Phòng xi x j2 xip x jp Tính lại trọng tâm Đối với cụm tính tốn lại điểm trung tâm dựa tất điểm thuộc vào cụm - Kiểm tra điều kiện hội tụ Quá trình phân cụm kết thúc nếu: + Khơng có (hoặc có khơng đáng kể) việc gán lại điểm vào cụm khác + Khơng có (hoặc có khơng đáng kể) việc thay đổi trọng tâm cụm 3.4.3 Kết thực nghiệm - Môi trƣờng cài đặt Chương trình lập trình với ngơn ngữ C#, cài đặt chạy thử hệ điều hành Window - Một số giao diện Bùi Trung Thành - CT1301 Page 58 Đồ án tốt nghiệp Trường đại học dân lập Hải Phịng Hình 14: Giao diện chương trình Hình 15: Chọn ảnh đầu vào Hình 16:Kết trình phân cụm ảnh 3.4.4 Ƣu, nhƣợc điểm thuật toán k – means a)Ƣu điểm Bùi Trung Thành - CT1301 Page 59 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng - Tương đối nhanh Độ phức tạp thuật tốn O (tkn), đó: + n: Số điểm không gian liệu + k: Số cụm cần phân hoạch + t: Số lần lặp (t nhỏ so với r) - K-means phù hợp với cụm có dạng hình cầu b) Khuyết điểm + Không đảm bảo đạt tối ưu toàn cục kết đầu phụ thuộc nhiều vào việc chọn k điểm khởi đầu Do phải chạy lại thuật toán với nhiều khởi đầu khác để có kết đủ tốt Trong thực tế, áp dụng thuật giải di truyền để phát sinh khởi đầu + Cần phải xác định trước số cụm + Khó xác định số cụm thực mà khơng gian liệu có Do phải thử với giá trị k khác + Khó phát loại cụm có hình dạng phức tạp dạng cụm không lồi + Không thể xử lý nhiễu mẫu cá biệt + Chỉ áp dụng tính trọng tâm Bùi Trung Thành - CT1301 Page 60 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng KẾT LUẬN A Kết đạt đƣợc Trong q trình nghiên cứu hồn thành báo cáo đồ án tốt nghiệp “Phân cụm cứng phân đoạn ảnh”, em thu nhận thêm nhiều kiến thức nhận thấy phân cụm liệu khai phá liệu lĩnh vực rộng lớn ứng dụng mạnh mẽ Hơn cịn nhiều vấn đề mà cần khám phá Trong đề tài em cố gắng tìm hiểu nghiên cứu tổng quan khai phá liệu, phân cụm liệu số thuật tốn nó, tổng quan phân đoạn ảnh Cài đặt thử nghiệm thuật toán k – means ứng dụng phân đoạn ảnh Do thời gian thực hạn chế kiến thức hạn chế nên em nghiên cứu số kỹ thuật phân cụm liệu, cài đặt thử nghiệm với thuật tốn k – means Cịn số kỹ thuật em chưa tìm hiểu, khai thác ứng dụng vào toán thực tế Mặc dù cố gắng, song lực trình độ có hạn nên q trình thực thực tập em khơng tránh khỏi thiếu sót Kính mong thầy bạn quan tâm giúp đỡ bảo để chương trình em hoàn thiện B Hƣớng phát triển tƣơng lai Trong thời gian tới em cố gắng tiếp tục nghiên cứu, tìm hiểu thêm số kĩ thuật phân cụm tìm hiểu phát triển kỹ thuật phân đoạn ảnh để xử lý với ảnh động Bùi Trung Thành - CT1301 Page 61 Đồ án tốt nghiệp Trường đại học dân lập Hải Phòng TÀI LIỆU THAM KHẢO [1] - Nguyễn Thị Ngọc, Phân cụm liệu dựa mật độ, Đồ án tốt nghiệp đại học Ngành công nghệ Thông tin – ĐHDL Hải Phòng, 2008 [2] - Trần Thị Quỳnh, Thuật toán phân cụm liệu nửa giám sát giải thuật di truyền, Đồ án tốt nghiệp đại học Ngành cơng nghệ Thơng tin – ĐHDLHải Phịng, 2008 [3] - Nguyễn Lâm, Thuật toán phân cụm liệu nửa giám sát,- Đồ án tốt nghiệp đại học Ngành công nghệ Thơng tin – ĐHDL Hải Phịng, 2007 [4] - Charles Elkan, Department of Comput er Science and Engineering, University of California, San Diego La jolla, CA 92093 [5] - Andre w W Moore Associate Professoor School of Computer Science, Carnegil Mellon University [6] - J.Han, M Kamber and A.K.H Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canadia Bùi Trung Thành - CT1301 Page 62 Đồ án tốt nghiệp Bùi Trung Thành - CT1301 Trường đại học dân lập Hải Phòng Page 63 ... toán phân cụm liệu 24 2.4.1 Phương pháp phân cụm phân hoạch 24 2.4.2 Phương pháp phân cụm phân cấp 24 2.4.3 Phương pháp phân cụm dựa mật độ 26 2.4.4 Phương pháp phân cụm. .. cận toán phân cụm liệu Các phương pháp phân cụm chia thành nhóm: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa mật độ, phương pháp dựa lưới, phân cụm dựa mơ hình, phân cụm dựa... - Phân cụm liệu hoạt động phân đoạn ảnh: Phân đoạn ảnh việc phân tích mức xám hay mầu ảnh thành lát đồng Trong phân đoạn ảnh phân cụm liệu thường dùng để phát biên đối tượng ảnh Vấn đề phân cụm