1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm hiểu thuật toán k means và ứng dụng của thuật toán k means trong phân đoạn ảnh

25 33 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,21 MB

Nội dung

MỤC LỤC PHÂN CÔNG CÔNG VIỆC .1 LỜI MỞ ĐẦU .2 CHƯƠNG I CƠ SỞ LÝ THUYẾT 1.1 Máy học .3 1.2 Tiến trình máy học phân loại thuật toán 1.2.1 Tiến trình máy học 1.2.2 Phân loại thuật toán CHƯƠNG II THUẬT TOÁN K-MEANS 2.1 Giới thiệu thuật toán định nghĩa sở 2.2 Thuật toán K-means 2.3 Ví dụ minh họa 10 2.4 Ưu khuyết điềm thuật toán 12 2.5 Cải tiến thuật toán K-means 12 CHƯƠNG III ỨNG DỤNG THUẬT TOÁN K-MEANS TRONG PHÂN ĐOẠN ẢNH 15 3.1 Giới thiệu phân đoạn ảnh 15 3.1.1 Các phương pháp dựa không gian đặc trưng .16 3.1.2 Các phương pháp dựa không gian ảnh .16 3.1.3 Các phương pháp dựa mơ hình vật lý 17 3.2 Phát biểu ứng dụng 18 KẾT LUẬN .22 TÀI LIỆU THAM KHẢO 23 PHÂN CÔNG CÔNG VIỆC Ngụy Đình Thành - Trưởng nhóm - Tìm hiểu nội dung liên quan thiết kế khung tiểu luận - Thực cải tiến thuật toán - Thực chương trình phân đoạn ảnh demo Đồn Hữu Phước - Tìm hiểu lý thuyết thuyết trình - Tìm hiểu ứng dụng phân đoạn ảnh thuật tốn K-Means Nguyễn Hữu Khánh - Tìm hiểu tổng quan thuật toán K-Means - Tổng hợp word chỉnh sửa tiểu luận Đặng Văn Chung - Tìm hiểu tổng quan sở lý thuyết học máy - Tổng hợp word làm slides LỜI MỞ ĐẦU Trong thời đại nay, phát triển vũ bão công nghệ thông tin (CNTT) kéo theo phát triển nhiều lĩnh vực khác Có thể nói, CNTT làm thay đổi hình hài kinh tế giới, giúp nhân loại bước bước vững đường kinh tế tri thức, thương mại điện tử… Ngày nay, người khơng cịn phải vất vả nhọc nhằn cơng việc thu thập dư liệu có trợ thủ đắc lực hệ thống máy tính mạng truyền số liệu triển khai quy mơ tồn cầu Tuy nhiên, phát triển vượt bậc CNTT làm tăng số lượng giao dịch thông tin mạng Internet cách đáng kể, đặc biệt thư điện tử, tin tức điện tử Một yêu cầu lớn đặt chứng ta tổ chức, tìm kiếm thơng tin cách hiệu phân loại thông tin giải pháp hợp lý cho yêu cầu Nhưng vối khối lượng thơng tin q lớn địi hỏi phải xử lý nhanh việc phân loại thủ cơng điều không tưởng Hướng giải xây dựng giải pháp cho phép thuật tốn hóa chương trình hóa máy tính để tự động phân loại thông tin Trong thập kỷ qua, việc ứng dụng máy học vào khoa học kỹ thuật giúp cho tạo xe tự lái, nhận dạng giọng nói thực tế, tìm kiếm web có hiệu quả, hiểu ngày sâu sắc gen người, v.v Ngày máy học phổ biến sử dụng hàng chục lần ngày mà khơng hay biết biết Nhìn thấy khả ứng dụng ML, đề tài nghiên cứu chúng em “Tìm hiểu thuật tốn KMeans ứng dụng thuật toán K-means phân đoạn ảnh” Ngồi phần mở đầu, kết luận, tìm hiểu nhóm gồm chương: Chương I: Cơ sở lý thuyết Chương II: Thuật toán K-Means Chương III: Ứng dụng thuật toán K-Means phân đoạn ảnh CHƯƠNG I CƠ SỞ LÝ THUYẾT 1.1 Máy học Rất khó để định nghĩa cách xác máy học Một định nghĩa rộng thuật ngữ máy học là: “một cụm từ dùng để khả chương trình máy tính để tăng tính thực thi dựa kinh nghiêm trải qua” “là để khả chương trình phát sinh cấu trúc liệu khác với cấu trúc liệu cũ” Lợi điểm phương pháp máy học phát sinh luật tường minh, sửa đổi, huấn luyện giới hạn định.Các phương pháp học liệu có đặc tả thơng tin Cấu trúc thơng tin gồm mức gọi tri thức kim tự tháp Hình 1.1 Mơ hình tri thức kim tự tháp Máy học tự động quy trình học việc học tương đương với việc xây dựng luật dựa việc quan sát trạng thái sở liệu chuyển hoá chúng Máy học kiểm tra ví dụ trước kiểm tra cảnhững kết chúng xuất học làm cách để tái tạo lại kết tạo nên tổng quát hóa cho trường hợp Nói chung, máy học sử dụng tập hữu hạn liệu gọi tập huấn luyện Tập chứa mẫu liệu mà viết mã theo cách để máy đọc hiểu Tuy nhiên, tập huấn luyện hữu hạn khơng phải tồn liệu học cách xác Lợi ích máy học Các thông tin ngày nhiều, hàng ngày ta phải xử lý nhiều thông tin đến từ nhiều nguồn khác Máy học giúp xứ lý dự báo thơng tin cách tạo luất sản xuất từdữ liệu thu thập Ở nơi khơng có chun gia, máy học giúp tạo định từ liệu có Các thuật tốn sử dụng máy học máy học giúp xử lý liệu khơng đầy đử, khơng xác Máy học giúp thiết kế hệ thống huấn luyện tự động (mạng nơrôn nhân tạo) giải mã mối liên hệ tri thức lưu trữtrong mạng từ liệu Công nghệ Máy học phương pháp khai phá liệu Nó sử dụng tiến trình khám phá tri thức 1.2 Tiến trình máy học phân loại thuật tốn 1.2.1 Tiến trình máy học Một tiến trình máy học bao gồm giai đoạn:  Giai đoạn học: hệ thống phân tích liệu nhận mối quan hệ (có thể phi tuyến tuyến tính) đối tượng liệu Kết việc học là: nhóm đối tượng vào lớp, tạo luật, tiên đoán lớp cho đối tượng  Giai đoạn thử nghiệm: Mối quan hệ (các luật, lớp ) tạo phải kiểm nghiệm lại số hàm tính tốn thực thi phần tập liệu huấn luyện tập liệu lớn 1.2.2 Phân loại thuật toán Các thuật toán máy học chia làm loại: học giám sát, học không giám sát học nửa giám sát  Học có giám sát (Supervised Learning) Đây cách học từ mẫu liệu mà kỹ thuật máy học giúp hệ thống xây dựng cách xác định lớp liệu Hệ thống phải tìm mơ tả cho lớp (đặc tính mẫu liệu) Người ta sử dụng luật phân loại hình thành q trình học phân lớp để sử dụng dự báo lớp liệu sau Thuật tốn học có giám sát gồm tập liệu huấn luyện M cặp: S = {(xi, cj) i=1,…,M; j=1,…,C} Các cặp huấn luyện gọi mẫu, vớixi vector n-chiều gọi vector đặc trưng, cj lớp thứ j biết trước Thuật toán máy học giám sát tìm kiếm khơng gian giả thuyết có thể, gọi H Đối với hay nhiều giả thuyết, mà ước lượng tốt hàm xác f : x  c.Đối với cơng việc phân lớp xem giả thuyết tiêu chí phân lớp Thuật tốn máy học tìm giả thuyết cách khám phá đặc trưng chung ví dụ mẫu thể cho lớp Kết nhận thường dạng luật (Nếu thì) Khi áp dụng cho mẫu liệu mới, cần dựa giả thuyết có để dự báo phân lớp tương ứng chúng Nếu khơng gian giả thuyết lớn, cần tập liệu huấn luyện đủ lớn nhằm tìm kiếm hàm xấp xỉ tốt f Tùy thuộc vào mức độ thuật toán học giám sát, người ta có mơ hình học giám sát sau:  Học vẹt (rote): hệ thống luôn “dạy” luật đúng, có học hội tụ  Học phép loại suy (analogy): hệ thống dạy phản hồi cho công việc tương tự, không xác định Vì hệ thống phải hiệu chỉnh phản hồi trước cách tạo luật áp dụng cho trường hợp  Học dựa trường hợp (case-based learning): trường hợp hệ thống học lưu trữ tất trường hợp, với kết đầu chúng Khi bắt gặp trường hợp mới, cố gắng hiệu chỉnh đến trường hợp cách xử lý trước lưu trữ  Học dựa giải thích (explanation-based learning), hệ thống phân tích tập hợp giải pháp nhằm phương pháp thành công hay không thành cơng Sau giải thích tạo ra, chúng dùng để giải vấn đề Một số thuật tốn học có giám sát - Support Vector Machine – SVM - K Nearest Neighbours – KNN - Naïve Bayes – NB - Decision Tree – DT - Neural Network – Nnet - Centroid–base vector - Linear Least Square Fit – LLSF  Học Không giám sát (Unsupervised Learning) Đây việc học từ quan sát khám phá Hệ thống khai thác liệu ứng dụng với đối tượng khơng có lớp định nghĩa trước, mà để phải tự hệ thống quan sát mẫu nhận mẫu Hệ thống dẫn đến tập lớp, lớp có tập mẫu khám phá tập liệu Học khơng giám sát cịn gọi học từ quan sát khám phá Trong trường hợp có ít, hay gần khơng có tri thức liệu đầu vào, hệ thống học khơng giám sát khám phá phân lớp liệu, cách tìm thuộc tính, đặc trưng chung mẫu hình thành nên tập liệu.Một thuật tốn máy học giám sát ln biến đổi thành thuật tốn máy học khơng giám sát (Langley 1996).Đối với toán mà mẫu liệu mô tả n đặc trưng, người ta chạy thuật tốn học giám sát n-lần, lần với đặc trưng khác đóng vai trị thuộc tính lớp, mà tiên đốn.Kết n tiêu chí phân lớp (n phân lớp), với hy vọng n phân lớp Một số thuật tốn học khơng giám sát: - Thuật tốn K-means - Mơ hình mạng Neural - Hệ thống ART (adaptive resonance theory)  Học nửa giám sát Học nửa giám sát thuật tốn học tích hợp từ học giám sát học không giám sát Việc học nửa giám sát tận dụng ưu điểm việc học giám sát học không giám sát loại bỏ khuyết điểm thường gặp hai kiểu học Một số thuật toán học nửa giám sát - EM - Expectation Maximization - TSVM - Transductive Support Vector Machine - Self-training - Co-training - Các phương pháp dựa đồ thị (graph-based) CHƯƠNG II THUẬT TOÁN K-MEANS 2.1 Giới thiệu thuật toán định nghĩa sở Thuật tốn K-means thuộc vào loại thuật tốn khơng giám sát đơn giản áp dụng rộng rãi vào mẫu toán phân cụm MacQueen giới thiệu tài liệu “J Some Methods for Classification and Analysis of Multivariate Observations” năm 1967 Bài toán phân cụm q trình nhóm nhóm điềm liệu vào số lượng nhỏ cụm Tổng quát mặt biểu diễn tốn học, có n điểm liệu xi,i=1 n cần phải phân vào k cụm Mục tiêu toán điểm liệu cho cụm Thuật toán K-means cung cấp cho phương pháp để tìm vị trí điểm μi,i=1 k cụm cho hàm khoảng cách từ điểm đến cụm nhỏ Trong ci tập điểm bên cụm i Thuật toán K-means sử dụng khoảng cách Euclidean 2.2 Thuật toán K-means Thuật toán K-means dùng để giải toán phân cụm hoạt động qua bước sau: Đầu tiên cần xác định số cụm k Khởi tạo điểm trung tâm cụm μi,i=1, ,k Gán điểm liệu vào cụm gần Thiết lập lại điểm trung tâm cụm Lặp lại bước 2-3 hội tụ Ghi |c|= số phần tử c Thuật toán k-means chứng minh hội tụ có độ phức tạp tính tốn là: Trong đó, n số đối tượng liệu, k số cụm liệu, d số chiều, τ số vòng lặp, Tflop thời gian để thực phép tính sở phép tính nhân, chia Như vậy, K-means phân tích phân cụm đơn giản nên áp dụng tập liệu lớn Tuy nhiên, nhược điểm K-means áp dụng với liệu có thuộc tính số khám phá cụm có dạng hình cầu, k-means cịn nhạy cảm với nhiễu phần tử ngoại lai liệu Hơn nữa, chất lượng phân cụm liêuk thuật toán k-means phụ thuộc nhiều vào tham số đầu vào như: số cụm k k trọng tâm khởi tạo ban đầu Trong trường hợp trọng tâm khởi tạo ban đầu mà lệch so với trọng tâm cụm tự nhiên kết phân cụm k-means thấp, nghĩa cụm liệu khám phá lệch so với cụm thực tế Trên thực tế chưa có giải pháp tối ưu để chọn tham số đầu vào, giải pháp thường sử dụng thử nghiệm với giá trị đầu vào k khác sau chọn giải pháp tốt 2.3 Ví dụ minh họa Trong phần xem qua bước thực thuật toán Kmeans đồ họa 10 Hình 2.1 Giá trị gốc ban đầu Hình 2.2 Khởi tạo cụm ban đầu Hình 2.3 Gán điểm liệu vào Hình 2.4 Tính tốn lại vị trí điểm trung tâm cụm cụm Hình 2.5 Gán điểm liệu Hình 2.6 Thuật tốn dừng lại vào cụm khơng có điểm thay đổi 11 Thuật tốn kết thúc khơng có thay đổi đối tượng cụm 2.4 Ưu khuyết điềm thuật tốn Ưu điểm:  Với số lượng biến lớn thuật tốn K-means tính tốn nhanh so với thuật tốn phân nhóm phân cấp khác (nếu K nhỏ)  K-means gom cụm chặt chẽ so với phân cụmtheo cấp bậc, đặc biệt cụm hình cầu Khuyết điểm: Giống thuật tốn khác, k- means có số khuyết điềm định:  Việc khởi tạo phần tử trung tâm cụm ban đầu ảnh hưởng đến phân chia đối tượng vào cụm trường hợp liệu không lớn  Số cụm k phải xác định trước  Không xác định rõ ràng vùng cụm, đối tượng, đưa vào cụm cụm khác dung lượng liệu thay đổi  Điều kiện khởi tạo có ảnh hưởng lớn đến kết Điều kiện khởi tạo khác cho kết phân cụm khác  Không xác định mức độ ảnh hưởng thuộc tính đến trình tạo cụm 2.5 Cải tiến thuật tốn K-means Như phần trên, nhóm em giới thiệu thuật tốn K-Means, nhiên thuật tốn có hạn chế định Do đó, nhóm em cải tiến thuật tốn nhằm khắc phục hạn chế thuật toán K-means 12 Nội dung: thay chọn số điểm (k) làm trọng tâm, không chọn số điểm (k) làm trọng tâm cho số cụm mà tăng số cụm từ lên k cụm cách đưa trung tâm cụm vào cụm có mức độ biến dạng lớn tính lại trọng tâm cụm Với thuật toán K-means bắt đầu cách chọn k cụm chọn ngẫu nhiên k điểm làm trung tâm cụm, chọn phân hoạch ngẫu nhiên k cụm tính trọng tâm cụm Việc chọn ngẫu nhiên k điểm làm trung tâm cụm nói cho kết khác tùy vào chọn k điểm Thuật toán K-means cải tiến: Bước 1: Khởi tạo giá trị ban đầu cho K: K=1 Bước 2: Bước 2.1: Kiểm tra điều kiện K Nếu K=1: chọn điểm làm trung tâm cụm Nếu K>1: thêm trung tâm cụm vào cụm có biến dạng max Bước 2.2: Gán điểm vào cụm có trung tâm gần với điểm xét cập nhật lại trung tâm cụm Bước 2.3: Nếu trung tâm cụm không thay đổi, chuyển sang bước Ngược lại, quay trở lại bước 2.2 (bước 2) Bước 3: (Tăng số cụm) Nếu K≤ giá trị ấn định số cụm K:=K+1, quay trở lại bước 2.1 (bước 2) Ngược lại, thuật toán dừng 13 Với thuật toán K-means cải tiến: đưa khác biệt, mức độ biến dạng cụm (dựa biến dạng để phân cụm) Mức độ biến dạng cụm tính sau: I=S-N(d(w, x)) Trong đó: w: trung tâm cụm; N: Số thành phần cụm; S: Tổng bình phương khoảng cách thành phần cụm trung tâm không gian Euclidean; I: Mức độ biến dạng cụm; d(w, x): khoảng cách trung tâm w cụm trung tâm không gian Euclidean x Nhận xét: + Một cụm có mức độ biến dạng lớn trung tâm cụm có vị trí khơng thích hợp + Việc xác định cụm xác định trung tâm cụm, thuật toán chủ yếu tìm trung tâm cụm xác xác định lại thành phần cụm Với thuật toán K-means cải tiến: + Bước 2: K-means khác là: không xác định trước k điểm mà tăng k lên dần từ Và chọn cụm có mức độ biến dạng lớn để phân cụm (khi cụm có mức độ biến dạng giảm, nhỏ hơn) + Thuật tốn cải tiến K-means có độ phức tạp O(k^2*nt), so với thuật tốn K-means có độ phức tạp O(tkn) thì: O(k^2*nt)>O(tkn), chấp nhận được, k

Ngày đăng: 18/06/2021, 11:03

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w