Ứng dụng mô hình MapReduce trong phân cụm ảnh

3 8 0
Ứng dụng mô hình MapReduce trong phân cụm ảnh

Đang tải... (xem toàn văn)

Thông tin tài liệu

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning. Bài viết Ứng dụng mô hình mapreduce trong phân cụm ảnh đề xuất cải tiến thuật toán phân cụm KMeans dựa trên mô hình MapReduce để có thể áp dụng cho phân cụm ảnh.

Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 ỨNG DỤNG MƠ HÌNH MAPREDUCE TRONG PHÂN CỤM ẢNH Vũ Thị Hường1, Nguyễn Tu Trung2 Sinh viên khoa Công nghệ thông tin – Trường Đại học Thủy lợi, huongvt52@wru.vn Trường Đại học Thủy lợi ĐẶT VẤN ĐỀ Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phương pháp Unsupervised Learning Machine Learning Về chất ta hiểu phân cụm q trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự đối tượng khác cụm khơng tương tự Có nhiều phương pháp phân cụm khác như: phương pháp hình thái, phương pháp họ KMeans, tách hợp Trong [2], tác giả đề xuất thuật toán KMeans sử dụng thay tâm cụm Trong [1], Balaji cộng trình bày phương pháp phân đoạn ảnh dựa đặc trưng màu từ ảnh với việc chuyển điểm ảnh từ không gian RGB sang không gian L*a*b* Sự bùng nổ nguồn liệu lớn (Big Data), phương pháp xử lý MapReduce mơ hình xử lý liệu phân tán hiệu quả, ứng dụng rộng rãi xử lý liệu lớn Trong [3] [7], tác giả trình bày thuật tốn KMeans song song hiệu dựa MapReduce Tuy nhiên, tác giả chưa cách ứng dụng thuật toán cho liệu ảnh lớn Bài báo đề xuất cải tiến thuật toán phân cụm KMeans dựa mơ hình MapReduce để áp dụng cho phân cụm ảnh MƠ HÌNH MAPREDUCE Hình 1: Mơ hình MapReduce [4] MapReduce mơ hình xử lý tính tốn song song phân tán google đề xuất Nó bao gồm hai chức bản: "Map" "Reduce" xác định người dùng [4] Dữ liệu đầu vào chia thành nhiều mảnh nhỏ xử lý song song Worker (MapTasktracker ReduceTasktracker), thể hình THUẬT TỐN PHÂN CỤM SONG SONG PKMEANS Từ thuật tốn KMeans [6] mơ hình xử lý liệu phân tán MapReduce, Jaatun cơng đưa thuật tốn PKMeans dựa MapReduce gồm thuật tốn cho hàm map hàm reduce Bảng 1: Thuật toán cho hàm map(key,value) Input: Global variable centers, the offset key, the sample value Output: pair, where the key’ is the index of the closest center point and value’ is a string comprise of sample information Construct the sample instance from value; minDis = Double.MAX VALUE; index = -1; For i=0 to centers.length dis= ComputeDist(instance, centers[i]); If dis < minDis { minDis = dis; index = i; } End For Take index as key’; Construct value’ as a string comprise of the values of different dimensions; output < key , value > pair; End Từ thuật toán cho hàm map, ta thấy đầu vào cho thuật toán PKMeans phải dạng list đối tượng liệu mà chuyển dạng key/value Tuy nhiên, với liệu ảnh cần có bước chuyển đổi Ngoài ra, với kết hàm reduce trên, thu tâm thông tin điểm ảnh bất tiện thực thao tác ảnh mà sử dụng kết phân cụm thơng tin vị trí khơng bao gồm kết 151 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-? Hình minh họa sơ đồ thuật toán ImagePKMeans Dữ liệu ảnh chia thành nhiều mảnh khác Với mảnh, liệu gom cụm dựa hàm mapImage (key, value) Hệ thống thực việc song song mảnh liệu Sau tất mảnh liệu thực gom cụm, liệu gom theo cụm Sau đó, q trình tính tâm thực cụm Cuối cùng, thuật toán kiểm tra độ hội tụ định kết thúc hay tiếp tục vòng lặp Để giải vấn đề trên, báo này, cải tiến thuật toán PKMeans thành ImagePKMeans gồm thuật toán với hàm mapImage reduceImage Bảng Thuật toán cho hàm reduce(key,V) Input: key is the index of the cluster, V is the list of the partial sums from different host Output: < key , value > pair, where the key’ is the index of the cluster, value’ is a string representing the new center Initialize one array record the sum of value of each dimensions of the samples contained in the same cluster, e.g the samples in the list V; Initialize a counter NUM as to record the sum of sample number in the same cluster; while(V.hasNext()){ Construct the sample instance from V.next(); Add the values of different dimensions of instance to the array NUM += num; } Divide the entries of the array by NUM to get the new center’s coordinates; Take key as key’; Construct value’ as a string comprise of the center’s coordinates; output < key , value > pair; End GIẢI PHÁP PHÂN CỤM ẢNH DỰA TRÊN MAPREDUCE Để phân cụm ảnh với mơ hình MapReduce, chúng tơi đề xuất lược đồ phân cụm sau: • B1: Chuyển đổi liệu • B2: Phân cụm với thuật toán ImagePKMeans • B3: Khôi phục kết phân cụm ảnh CHUYỂN ĐỔI LIU Yờu cu: ã Chuyn i d liu im ảnh thành list hàng • Mỗi hàng bao gồm: thơng tin vị trí danh sách giá trị thành phần vector biểu diễn cho điểm ảnh 4.1 Cải tiến thuật toán PKMeans cho phân cụm liệu ảnh Hình 2: Sơ đồ thuật tốn ImagePKMeans 152 Bảng 3: Thuật toán cho hàm mapImage(key,value) Input: Global variable centers, the offset key, the sample value is the list of color bands and position Output: pair, where the key’ is the index of the closest center point and value’ is a string comprise of color bands and position Construct the sample instance from value; minDis = Double.MAX VALUE; index = -1; For i=0 to centers.length dis= ComputeDist(instance, centers[i]); If dis < minDis { minDis = dis; index = i; } End For Take index as key’; Construct value’ as a string comprise of the values of different dimensions and position; output < key , value > pair; End Bảng 4: Thuật toán cho hàm reduce Image(key,V) Input: key is the index of the cluster, V is the list of color bands and position of the same cluster from different host Output: < key , value > pair, where the key’ is new center of the cluster, value’ is a string representing values of different dimensions and position Initialize one array record the sum of value of each dimensions of the samples contained in the same cluster, e.g the samples in the list V; Initialize a counter NUM as to record the sum of sample number in the same cluster; while(V.hasNext()){ Construct the sample instance by extract values of different dimensions from V.next(); Add the values of different dimensions of instance to the array NUM += num; } Divide the entries of the array by NUM to get the new center’s coordinates; Take key as key’; Construct value’ as a string comprise of the center’s coordinates and position; output < key , value > pair; End Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 5.2 Khôi phục kết phân cụm ảnh Từ liệu đầu của thuật toán ImagePKMeans, đơn giản nhất, khơi phục lại ảnh kết phân cụm từ thơng tin vị trí tâm cụm… Ngồi ra, sau đó, thực việc khác đánh giá liệu, phân tích liệu, nhận dạng, phân lớp, định… sau Thuật toán THỬ NGHIỆM VÀ ĐÁNH GIÁ Dữ liệu thử nghiệm Lấy từ liệu Kaggle, bao gồm 210 ghi [5] Một số kết phân cụm với cụm thống kê bảng Bảng Ảnh kết phân cụm với KMeans ImagePKMeans Đầu vào ImagePKMeans K-means ImagePKMeans KMeans Thời gian chạy (ms) 63556 87955 Tâm cụm sau hội tụ 111.34,144.54,57.47 171.97,65.98,151.51 241.18,178.06,232.22 27.09,39.43,17.52 61.75,73.56,36.08 111.34,144.54,57.47 171.97,65.98,151.51 241.18,178.06,232.22 27.09,39.43,17.52 61.75,73.56,36.08 Thời gian chạy (ms) 57224 108054 Tâm cụm sau hội tụ 129.69,138.09,78.88 219.20,221.84,62.35 224.67,230.73,152.24 33.32,39.65,23.32 85.66,90.67,42.43 129.69,138.09,78.89 219.2,221.84,62.35 224.67,230.73,152.24 33.32,39.65,23.32 85.66,90.67,42.43 Thời gian chạy (ms) 125549 173422 KẾT LUẬN Từ liệu bảng 6, ta thấy tập tâm cụm sinh thuật tốn sau Nói cách khác, hai thuật toán cho chất lượng phân cụm tương đương Tuy nhiên, thời gian thực thi, thuật tốn ImagePKMeans có hiệu suất tốt Bảng Tâm cụm sinh sau hội tụ Thuật toán ImagePKMeans KMeans Tâm cụm 121.25,33.69,38.11 sau hội tụ 186.78,37.58,64.25 224.81,65.30,98.80 247.19,111.52,154.32 30.13,21.61,14.97 121.25,33.69,38.11 186.78,37.58,64.25 224.81,65.30,98.80 247.19,111.52,154.32 30.13,21.61,14.97 Thời gian 63556 chạy (ms) Tâm cụm 102.13,119.54,63.75 sau hội tụ 21.72,24.67,17.19 215.19,71.73,14.58 249.06,124.79,24.10 62.65,71.94,36.40 246916 102.13,119.54,63.75 21.72,24.67,17.19 215.19,71.73,14.56 249.06,124.79,24.10 62.65,71.94,36.40 Trong báo này, tác giả đề xuất lược đồ phân cụm ảnh với việc sử dụng thuật toán ImagePKMeans cải tiến từ thuật toán PKMeans dùng cho phân cụm ảnh Các kết thử nghiệm cho thấy thuật toán ImagePKMeans cho kết phân cụm tốt tương đương hiệu suất cao với KMeans Trong khi, thuật toán ImagePKMeans thực song song phân tán cụm máy tính để tăng cường hiệu suất thực Trong nghiên cứu tiếp theo, dự kiến áp dụng mơ hình MapReduce cho thuật tốn học máy khác để khai thác, phân tích xử lý liệu lớn hiệu TÀI LIỆU THAM KHẢO [1] Balaji T., Sumathi M., Relational Features of Remote Sensing Image classification using Effective KMeans Clustering, International Journal of Advancements in Research & Technology, Volume 2, Issue 8, August2013, pp 103-107 [2] Chih-Tang Chang cộng sự, A Fuzzy KMeans Clustering Algorithm Using Cluster Center Displacement, Journal of Information science and Engineering 27, 2011, pp 995-1009 153 ... value > pair; End GIẢI PHÁP PHÂN CỤM ẢNH DỰA TRÊN MAPREDUCE Để phân cụm ảnh với mơ hình MapReduce, chúng tơi đề xuất lược đồ phân cụm sau: • B1: Chuyển đổi liệu • B2: Phân cụm với thuật tốn ImagePKMeans... phục kết phân cụm ảnh Từ liệu đầu của thuật toán ImagePKMeans, đơn giản nhất, khơi phục lại ảnh kết phân cụm từ thơng tin vị trí tâm cụm? ?? Ngồi ra, sau đó, thực việc khác đánh giá liệu, phân tích... 249.06,124.79,24.10 62.65,71.94,36.40 Trong báo này, tác giả đề xuất lược đồ phân cụm ảnh với việc sử dụng thuật toán ImagePKMeans cải tiến từ thuật toán PKMeans dùng cho phân cụm ảnh Các kết thử nghiệm cho

Ngày đăng: 30/07/2022, 16:15

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan