TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP THỰC PHẨM TP.HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN _ Môn học: Khai thác liệu ĐỀ TÀI Phân loại ảnh K-Means Người thực hiện: Nguyễn Thùy Duyên Nguyễn Huỳnh Thanh Duy Lê Trọng Thưởng GV hướng dẫn: Trần Như Ý TP.HỒ CHÍ MINH, THÁNG 11 NĂM 2021 Mục lục Thuật toán K-Means .3 a) Giới thiệu K-Means b) K-Means Clustering c) K-Means Phương pháp khuỷu tay .4 Phân loại ảnh K-Means a) Phân loại hình ảnh b) Khai thác tính .5 c) RGB .5 d) K-Means 1.Thuật toán K-Means a) Giới thiệu K-Means K-Means thuật toán sử dụng trường hợp bạn cung cấp tập liệu mẫu có tập hợp tính năng, khơng có nhãn Trong tình này, thử tìm nhóm liệu tương tự với Các điểm liệu tương tự gần Bằng cách này, họ tạo nhóm gọi cụm K-Means thuật tốn phân cụm Bởi K-Means đưa suy luận từ tập liệu sử dụng vectơ đầu vào, mà không tham chiếu đến mẫu biết gắn nhãn, làm cho trở thành thuật tốn học tập khơng giám sát Mục tiêu sử dụng K-Means đơn giản Đưa tập liệu, nhóm điểm liệu tương tự lại với khám phá mẫu Để xác định cụm, K-Means sử dụng centroid Centroid điểm sử dụng để mơ tả cụm Theo cách đó, điểm coi nằm cụm cụ thể, gần tâm điểm cụm trung tâm khác b) K-Means Clustering K-mean thuật tốn học máy đơn giản khơng có giám sát, nhóm liệu thành số (k) cụm cụ thể Bởi người dùng phải định trước k để chọn, thuật tốn ngây thơ - gán tất thành viên cho k cụm khơng phải k phù hợp với tập liệu Đôi việc chọn số phù hợp với k đơn giản Thường xuyên khơng phân tích tập liệu trước thực Đầu tiên, chọn số lượng cụm “ K ” (số nhóm chúng tơi muốn tìm liệu) Sau đó, centroid khởi tạo cách ngẫu nhiên Khi centroid khởi tạo, sẵn sàng thực lần lặp Quá trình lặp lại bao gồm hai bước Đầu tiên, chúng tơi gán điểm cho cụm có tâm gần với Trong bước thứ hai, chúng tơi tính tốn vị trí centroid làm giá trị trung bình (trung tâm) tất điểm gán cho cụm Và Chúng tơi lặp lại hai bước trung tâm ngừng di chuyển khơng có điểm liệu định cho cụm c) K-Means Phương pháp khuỷu tay Phương thức elbow chạy phân cụm k-mean tập liệu cho phạm vi giá trị k (giả sử từ 1-10) sau với giá trị k tính điểm trung bình cho tất cụm Khi số liệu tổng thể cho mơ hình vẽ biểu đồ, xác định trực quan giá trị tốt cho k Nếu biểu đồ đường trơng giống cánh tay, "khuỷu tay" (điểm uốn đường cong) giá trị tốt k “Cánh tay” lên xuống, có điểm uốn mạnh, dấu hiệu tốt cho thấy mơ hình bên phù hợp điểm 2.Phân loại ảnh K-Means a) Phân loại hình ảnh Nhóm hình ảnh thành loại có ý nghĩa mặt ngữ nghĩa cách sử dụng tính trực quan cấp thấp vấn đề thách thức quan trọng lĩnh vực Thị giác máy tính Chúng ta định nghĩa q trình gán hình ảnh đầu vào với nhãn từ nhóm danh mục cố định Vì vậy, muốn nhóm hình ảnh K-Means, trước tiên cần chọn số lượng cụm Để làm điều đó, sử dụng " Phương pháp khuỷu tay " Hoặc đốn K cách nhìn vào tập liệu Bằng mắt thường, nhóm ảnh thành loại Đồng cỏ xanh Thế giới nước xanh Truyện cổ tích mùa đơng trắng Thiên nhiên mùa thu màu cam Đó nhiệm vụ dễ dàng người d) Khai thác tính Trong học máy nhận dạng mẫu, tính định nghĩa thuộc tính đặc tính đo lường đối tượng mà bạn cố gắng phân tích Nói vậy, cần chọn tính thơng tin, phân biệt độc lập sử dụng để phân tích Một đặc điểm bật tập liệu chúng tơi màu sắc Đồng cỏ có màu xanh cây, nước sâu có màu xanh lam, mùa đơng mô tả rõ màu trắng mùa thu xác định cam Như bạn thấy, việc trích xuất tính liên quan đến việc giảm số lượng tài nguyên cần thiết để mô tả tập hợp liệu lớn Kết là, việc trích xuất đối tượng có liên quan đến việc giảm kích thước Trong dự án này, chúng tơi khơng xem xét tính phức tạp Nhưng cần trích xuất thành phần màu sắc hình ảnh phân loại e) RGB Trong hình ảnh màu , pixel biểu diễn vectơ gồm ba số (mỗi số từ đến 255) cho ba kênh màu chính: đỏ, lục lam Cả ba màu đỏ, xanh xanh dương ( RGB ) giá trị sử dụng với để định màu sắc điểm ảnh Điều có nghĩa vectơ đầu vào có ba giá trị Do đó, chúng tơi nhận vectơ đầu vào với phương thức sau: double[] GetAverageRGB(Bitmap bmpImage) { double[] result = new double[3]; int numberOfPixlels = 0; for (int i = 0; i < bmpImage.Width; i++) { for (int j = 0; j < bmpImage.Height; j++) { Color c = bmpImage.GetPixel(i, j); result[0] += c.R; result[1] += c.G; result[2] += c.B; numberOfPixlels++; } } result[0] /= numberOfPixlels; result[1] /= numberOfPixlels; result[2] /= numberOfPixlels; return result; } Phương thức GetAverageRGB tạo vectơ đầu vào cách tính giá trị trung bình kênh RGB hình ảnh Như bạn thấy từ tập liệu, tất hình ảnh có số màu chủ đạo Do đó, sử dụng thành phần màu để tìm nhóm tập liệu Đầu vào cho hình ảnh, giống sau: Input Vector = [Mean R, Mean G, Mean B] Sau đó, cơng việc K-Means đào tạo tập liệu phân loại hình ảnh f) K-Means Tuy nhiên, ý tưởng đằng sau K-Means phân cụm / nhóm hình ảnh tương tự theo màu sắc Kỳ vọng hình ảnh mùa đơng tạo cụm, hình ảnh sâu nước tạo nó, v.v Khái niệm dựa việc trích xuất tính mà chúng tơi làm trước Vì chúng tơi xem xét RGB trung bình cho hình ảnh, chúng tơi mong đợi nhóm hình ảnh theo màu sắc