ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA ĐIỆN ĐIỆN TỬ BÁO CÁO BÀI TẬP LỚN MÔN XỬ LÝ ẢNH ĐỀ TÀI K MEANS CLASSIFICATION Giáo viên Võ Tuấn Kiệt Nhóm 14 Nguyễn Thiên Phúc 1.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA ĐIỆN - ĐIỆN TỬ BÁO CÁO BÀI TẬP LỚN MÔN XỬ LÝ ẢNH ĐỀ TÀI: K-MEANS CLASSIFICATION Giáo viên: Võ Tuấn Kiệt Nhóm 14: - Nguyễn Thiên Phúc 1813585 - Lương Cao Thuần 1814218 - Nguyễn Viết Việt 1835044 TP.HCM 30/3/2022 BÁO CÁO BÀI TẬP LỚN MÔN XỬ LÝ ẢNH Danh sách thành viên: Họ tên Nguyễn Thiên Phúc Lương Cao Thuần Nguyễn Viết Việt MSSV 1813585 1814218 1835044 Mục Lục I Lý thuyết: .3 Thuật toán K-means: Ví dụ minh họa: 3 Đánh giá thuật toán K-means: II Ứng dụng thuật toán K-means thực tế: Bài toán phân cụm tập điểm cho trước: Phân loại ảnh số: Giảm kích thước ảnh: III Phụ lục: 11 Tham khảo: 11 Source Code: 11 I Lý thuyết: Thuật toán K-means: -Phát biểu: Cho tập đối tượng X = {xi|i=1,2,…,N} với N phần tử, ta phân chia thành K cụm nhỏ với cụm nhỏ Ci (i=[1:K]) tách rời thỏa mãn hàm tiêu chuẩn E đạt giá trị nhỏ -Hàm tối ưu E: sử dụng khoảng cách Euclidean E = N i=1 xi ∈Cj (||xi − cj||2 ) Với cj trọng tâm cụm Cj -Thuật toán hoạt động tập vectơ d chiều -Bằng cách lặp lặp lại nhiều lần trình sau để tìm kết tối ưu: +Gán liệu +Tính tốn khoảng cách +Cập nhật lại vị trí trọng tâm +Q trình lặp dừng lại trọng tâm hội tụ Ví dụ minh họa: Sử dụng thuật toán K-means chia điểm A(0,1),B(2,1),C(5,3),D(4,6) vào nhóm -Khởi tạo điểm ban đầu làm trọng tâm Chọn điểm O11(0,2) O12(1,4) Ta tính khoảng cách điểm tới tâm dAO11 = dAO12 = (0 − 0)2 + (1 − 2)2 = (0 − 2)2 + (1 − 2)2 = -Ta thấy khoảng cách từ điểm A đến tâm O11 ngắn so với tâm O12 nên ta chọn A thuộc nhóm với tâm O11 Tương tự ta thấy điểm B, C, D thuộc nhóm tâm O12 -Tính tốn lại trọng tâm: O21 ≡ A(0,1) O22( 2+5+4 1+3+6 , ) => O22(3.66, 2.5) -Ta thấy lúc điểm A,B thuộc tâm O21, điểm C,D thuộc tâm O22 -Tiếp tục cập nhật trọng tâm ta được: 0+2 1+1 , ) => O13(1,1) 2 5+4 3+6 O23( , ) => O23(4.5, 4.5) 2 O13( -Ta thấy với trọng tâm điểm A,B thuộc nhóm C,D thuộc nhóm nên dừng việc tính tốn kết luận chia điểm A,B,C,D thành nhóm A,B C,D *Nhận xét: Trong toán này, ta sử dụng thuật toán K-means để phân cụm với giá trị K Đánh giá thuật toán K-means: -Ưu điểm: +Khi liệu thay đổi sửa đổi dễ dàng để hoạt động hiệu +Có K cụm điểm liệu cụm ln tồn phần tử cụm +Các cụm độc lập với +Hội tụ sau hữu hạn lần lặp -Nhược điểm: +Với tập liệu không lồi thuật tốn hoạt động khơng hiệu +Việc chọn tâm ngẫu nhiên ban đầu định nhiều đến tốt độ hội tụ thuật toán +Việc chọn thơng số K để tối ưu địi hỏi cần có kiến thức cấu trúc tập liệu +Nhạy cảm với nhiễu hoạt động hiệu với liệu có cụm mà đường biên khơng rõ ràng II Ứng dụng thuật toán K-means thực tế: Bài toán phân cụm tập điểm cho trước: -Tạo tập 300 điểm ngẫu nhiên -Sử dụng thư viện sklearn để phân cụm -Hình ảnh 300 điểm khởi tạo: -Sử dụng thuật toán K-means thư viện có sẵn để phân cụm cho tập điểm Với giá trị K trả kết phân cụm khác +Với K = 2: +Với K = 3: +Với K = 4: -Nhận xét: +Với giá trị K thuật tốn tìm trọng tâm tối ưu để chia tập điểm thành K cụm phù hợp +Như kết ta thấy thuật tốn K-means tăng giá trị K để chia số cụm tùy ý (tối đa K cụm) Phân loại ảnh số: -Tập ảnh từ thư viện sklearn.datasets.load_digits với 1797 ảnh kích thước 8x8 Mỗi hình ảnh chứa số tự nhiên từ 0-9 -Do liệu có 10 số nên ta chọn K=10 -Dưới kết số nhóm ảnh chia từ tập ảnh ban đầu: -Nhận xét: +Nhìn chung thuật tốn phân loại chữ số xác +Thuật tốn khơng thể phân cụm xác hồn tồn đặc trưng hoạt động thuật toán ta biết thuật tốn Kmeans khơng phải cơng cụ mạnh dùng để phân loại ảnh Giảm kích thước ảnh: -Sử dụng thuật toán K-means để giảm số lượng màu ảnh, từ giảm kích thước thước ảnh nhờ việc mã hóa nhóm điểm ảnh thay điểm đơn lẻ -Với ảnh ban đầu kích thước 523x500x3 100552 màu: -Ta giảm số lượng màu ảnh 10 (thời gian thực t=10s): -Ta giảm số lượng màu ảnh 20 (thời gian thực t=26s): -Ta giảm số lượng màu ảnh 50 (thời gian thực t=120s): 10 -Ta giảm số lượng màu ảnh 100 (thời gian thực t=240s): -Nhận xét: +Số lượng màu ảnh giảm so với ảnh gốc lớn với khoảng 100 màu cho ảnh giống với ảnh gốc +Thời gian tính tốn thuật tốn tăng lên số lượng màu tăng nhiều màu có nhiều trọng tâm cần tìm Các trọng tâm ban đầu khởi tạo ngẫu nhiên nên giảm thời gian thực trọng tâm ban đầu phù hợp với ảnh +Ta áp dụng thuật toán K-means việc nén ảnh để giảm kích thước liệu đáng kể III Phụ lục: Tham khảo: i https://www.unioviedo.es/compnum/labs/new/kmeans.html?fbclid=IwAR3wknn7 P3RWmjvt1cjMPjOwUsGwFO5G6vdcyel9J9ji-ID6Vy1J2ltRmwM#ej2 ii https://www.slideshare.net/trand0anha0/thut-ton-k-mean Source Code: https://github.com/ntp0102/btl_xla.git 11 ... BÁO CÁO BÀI TẬP LỚN MÔN XỬ LÝ ẢNH Danh sách thành viên: Họ tên Nguyễn Thiên Phúc Lương Cao Thuần Nguyễn Viết Việt MSSV 1813585 1814218 1835044 Mục Lục I Lý thuyết: ... dùng để phân loại ảnh Giảm kích thước ảnh: -Sử dụng thuật toán K-means để giảm số lượng màu ảnh, từ giảm kích thước thước ảnh nhờ việc mã hóa nhóm điểm ảnh thay điểm đơn lẻ -Với ảnh ban đầu kích... Phân loại ảnh số: -Tập ảnh từ thư viện sklearn.datasets.load_digits với 1797 ảnh kích thước 8x8 Mỗi hình ảnh chứa số tự nhiên từ 0-9 -Do liệu có 10 số nên ta chọn K=10 -Dưới kết số nhóm ảnh chia