1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trình bày về mô hình hỗn hợp sử dụng giải thuật EM để nhận dạng nhóm 2 ký tự 6 và 9

18 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 1,27 MB

Nội dung

Trình bày về mô hình hỗn hợp sử dụng giải thuật EM để nhận dạng nhóm 2 ký tự 6 và 9 . HỌC VIỆN KHOA CÔNG NGHỆ THÔNG TIN o0o BÀI BÁO CÁO TRÍ TUỆ NHÂN TẠO Đề tài Trình bày về Mô hình hỗn hợp Sử dụng giải thuật EM để nhận dạng nhóm 2 ký tự 6 và 9 Giáo viên hướng dẫn Học viên thực hiện Lớ.

HỌC VIỆN KHOA CÔNG NGHỆ THÔNG TIN o0o BÀI BÁO CÁO TRÍ TUỆ NHÂN TẠO Đề tài: Trình bày Mơ hình hỗn hợp Sử dụng giải thuật EM để nhận dạng nhóm ký tự Giáo viên hướng dẫn : Học viên thực : Lớp : Hà Nội – Tháng 1/2022 MỤC LỤC LỜI MỞ ĐẦU Trước hết xin tỏ lòng biết ơn tới TS Ngô Hữu Phúc – người đã trực tiếp giảng dạy môn học “Trí tuệ nhân tạo” với cách thức truyền đạt hết sức khoa học và sư phạm Tôi cũng xin chân thành cảm ơn các bạn học đã nhiệt tình giúp đỡ và chi dẫn Vì còn nhiều mặt hạn chế nên không tránh khỏi những thiếu sót, rất mong được Thầy cùng các bạn nhận xét và góp ý kiến để được tiến bộ Nội dung báo cáo được chia thành các phần chính sau: Phần I: Mơ hình hỗn hợp (GMM) Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Phần I: Mô hình hỗn hợp (GMM) Giới thiệu mơ hình hỗn hợp (GMM – Gaussian Mixture models) Mô hình hỗn hợp Gaussian (GMM) là một thuật toán học không giám sát phổ biến Cách tiếp cận GMM tương tự thuật toán phân cụm K-Means, hữu ích, mạnh mẽ tính phức tạp Hơn nữa, GMM được phân loại thành các thuật toán phân cụm, vì nó có thể được sử dụng để tìm các cụm dữ liệu Các khái niệm chính là: - Phân phối Gaussian đa biến - Ma trận hiệp phương sai - Vector trung bình dữ liệu đa biến Mô hình Gaussian Mixture được sử dụng để tìm các cụm một tập dữ liệu mà từ đó ta biết (hoặc giả sử biết) số lượng các cụm có tập dữ liệu này, ta không biết các cụm này đâu cũng hình dạng Việc tìm kiếm các cụm này là nhiệm vụ GMM và vì ta không có bất kỳ thông tin nào thay vì số lượng cụm Để có thể phân biệt các cụm, ta cố gắng đưa một hỗn hợp các gaussian vào tập dữ liệu và cố gắng tìm một số phân phối gaussian có thể được sử dụng để mô tả hình dạng tập dữ liệu đó Một điểm mấu chốt cho sự hiểu biết là các cụm hình gaussian này không được có hình dạng tròn phương pháp KNN có thể có tất cả các hình dạng mà một phân bố Gaussian đa biến có thể có Đó là, một hình tròn chi có thể thay đổi đường kính nó mô hình GMM cũng có thể (do ma trận hiệp phương sai nó) mô hình hóa tất cả các hình dạng ellipsoid Dưới là một hình ảnh ví dụ cho mô hình không gian 2D Hình 1: Trong hình minh họa, vị trí không gian các mô hình KNN và GMM được xác định vect trung bình chúng Do đó, vector trung bình cho không gian đường kính tương ứng với ma trận hiệp phương sai xác định hình dạng các mô hình KNN và GMM Khi xem xét một tập dữ liệu tuỳ ý sau: Hình 2: Tập dữ liệu tuỳ ý được xem xét Đối với dữ liệu được mô tả trên, nếu sử dụng mô hình KNN rõ ràng là không thể đặc tả chính xác Điều này là thực tế là các cụm KNN có hình tròn dữ liệu có hình ellipsoid Mô hình KNN thất bại hoàn toàn minh họa hình sau Hình 3: Mô hình dữ liệu tuỳ ý đặc tả mô hình KNN Với dữ liệu phân bố dạng ellipsoid, phương pháp GMM là một phương pháp hoàn toàn phù hợp và được thể hiện hình sau Hình 4: Mô hình dữ liệu tuỳ ý đặc tả mô hình GMM Giả sử ta thêm một số điểm dữ liệu khác vào giữa hai cụm hình minh họa trên, có thể nhận thấy ta vẫn có thể giả định có hai cụm, khoảng trống giữa hai cụm có một số điểm mà không hoàn toàn rõ ràng chúng thuộc về cụm nào Xử lý tập dữ liệu này cách tiếp cận KNN cổ điển dẫn đến kết quả là điểm dữ liệu được phân bổ cho cụm một hoặc cụm hai tương ứng và với thuật toán KNN khó có thể tìm thấy một siêu phẳng giới hạn giữa hai cụm Mặc dù điều này không chính xác cho tất cả các điểm dữ liệu Hình 5: Ví dụ điểm dữ liệu có xác suất 60% thuộc cụm một và xác suất 40% thuộc cụm hai Trong trường hợp trên, cách tiếp cận KNN cổ điển không khả thi và ta cần một phương pháp tăng thêm khả phân nhóm linh hoạt GMM là một mô hình vậy, ta không chi cố gắng mô hình hóa dữ liệu với các vòng tròn mà thêm các gaussian vào dữ liệu mình, điều này cho phép phân bổ cho điểm khả thuộc về gaussian Rõ ràng ta biết một điểm dữ liệu càng gần một gaussian thì xác suất điểm này thực sự thuộc về gaussian này càng cao và xác suất điểm này thuộc về gaussian khác càng thấp Xem xét minh họa sau đây, đó ta đã thêm một GMM vào dữ liệu và đánh dấu điểm Điểm này có nhiều khả thuộc về cụm/gaussian một (C1) là cụm/gaussian hai (C2) Kể từ đó, nếu ta tính toán xác suất cho điểm này cho cụm, ta nhận được ví dụ:Với xác suất 99% Điểm thuộc cụm với xác suất 1% thuộc cụm hai Hình 6: Sử dụng GMM để phân cụm và đánh giá xác suất điểm thuộc C1 Tóm lại, nếu ta có dữ liệu đó giả định các cụm không được xác định các vòng tròn đơn giản mà các hình ellipsoid phức tạp hơn, cách tiếp cận GMM có thể được xem xét là phù hợp Ngoài ra, GMM tốt nếu ta muốn có các đường biên giới hạn mềm và kèm với các xác suất (nghĩa là nếu ta muốn biết xác suất một điểm dữ liệu thuộc về cụm) Về mặt toán học 2.1 Mật độ (xác suất) mơ hình hỗn hợp Gaussian Dựa việc mơ hình hoá các biến thể thống kê các thuộc tính, mật độ (xác suất) hỗn hợp Gaussian là tổng có trọng số các mật độ thành phần, được biểu diễn phương trình sau: Trong đó: • M là số thành phần • x là vector đặc trưng nhiều chiều • bi(x) là mật đợ thành phần thứ i • pi là trọng số hỗn hợp hoặc xác suất trước 2.2 Mật độ thành phần Để đảm bảo hỗn hợp có mật độ thích hợp, các xác suất trước phải được chọn để tổng thành thống nhất Mỗi mật độ thành phần được cho phương trình: Trong đó: • N là chiều vector đặc trưng x • μi là vector trung bình cho thành phần thứ i • Σi là ma trận hiệp phương sai cho thành phần thứ i 2.3 Thuật toán Tối đa hoá kỳ vọng (EM – Expectation maximization) Để nhận dạng, các cụm GMM riêng biệt được đại diện thông qua các tham số hóa dựa vào các vector trung bình, ma trận hiệp phương sai và trọng số hỗn hợp từ tất cả các mật độ thành phần Một mô hình ban đầu có thể thu được cách ước lượng các tham số từ các vector đặc trưng được phân nhóm tỷ lệ các vector cụm có thể đóng vai trò là trọng số hỗn hợp, giá trị trung bình và phương sai được ước tính từ các vector cụm Sau ước lượng, các vector đặc trưng có thể được gộp lại cách sử dụng mật độ thành phần (khả xảy ra) từ mô hình hỗn hợp ước tính và sau đó các tham số mô hình được tính toán lại Quá trình này được lặp lại cho đến các tham số mô hình hội tụ Thuật toán này được gọi là Tối đa hóa kỳ vọng (EM) Trong giai đoạn xác định, mật độ hỗn hợp được tính toán với mọi vector đặc trưng cho tất cả điểm và các điểm có khả tối đa được chọn nằm một cụm cụ thể Trong thuật toán EM ta liên tục thực hiện các vòng lặp mà vòng lặp bao gồm hai bước huấn luyện chính E-Step và M-Step nhằm tối đa hóa hàm hợp lý (likelihook) cho đến nó hội tụ E-Step và M-Step được thể hiện đơn giản sau: E-Step: Ước lượng phân phối biến ẩn z thể hiện phân phối xác suất các cụm tương ứng với dữ liệu và bộ tham số phân phối M-Step: Tối đa hoá phân phối xác suất đồng thời (join distribution probability) dữ liệu và biến ẩn Hình 7: Ví dụ về biểu diễn E-Step cho hình bên trái và M-Step cho hình bên phải Hình bên trái là bước E-Step Tại bước này ta tính toán phân phối xác suất tại điểm dữ liệu ứng với cụm theo bộ tham số phân phối cụm lúc ban đầu Chẳng hạn tại một điểm hình phía ta tính hai xác suất là P(A)=0.6 và P(B)=0.4 và tại một điểm phía dưới tính xác suất P(A)=0.2 và P(B)=0.8 Tiếp theo hình bên phải là bước M-Step thể hiện cách cập nhật lại tham số để phù hợp với phân phối các cụm dữ liệu Ở tham số trung bình các cụm được cập nhật lại đồng nghĩa với việc dịch chuyển cụm cho giá trị hợp lý phân phối lý thuyết được tối đa hoá và tiến gần tới phân phối thực cụm 10 Để hiểu cụ thể, ta giả sử đặt bài toán có một tập dữ liệu hãy tìm ước lượng hợp lý tối đa các tham số θ cho lớp mô hình được giả định là GMM khớp nhất bộ với dữ liệu Như vậy θ* chính là nghiệm bài toán: Để giải phương trình ta có cách tiếp cận: • Giải trực tiếp phương trình đạo hàm hàm logarith để theo các hệ số để tìm nghiệm tối ưu đã thực hiện đối với phân phối Gaussian đa biến cho cụm Tuy nhiên phương pháp này tỏ bất khả thi đối với bài toán có nhiều cụm thì hàm mất mát trở nên phức tạp nhiều Việc giải phương trình đạo hàm dường là khơng thể • Sử dụng tḥt toán EM (Expectation-Maximization) để cập nhật dần dần nghiệm θ Thuật toán EM là một những phương pháp thường được sử dụng để cập nhật nghiệm theo hàm hợp lý Đây là một phương pháp đơn giản và hiệu quả, phù hợp với các bài toán phức tạp mà lời giải trực tiếp từ đạo hàm không dễ dàng tìm kiếm Để cập nhật tham số, ta xét một hàm auxiliary sau: Như vậy Q(θ,θt) chính là kì vọng logarith xác suất chung X và Z cụm dữ liệu Giá trị kì vọng này tổng theo trọng số xác suất tiên 11 nghiệm p(z|X,θt) cụm Xác suất này có thể tính được dựa tham số θt trước đó (θ là đại diện chung cho cả μ và Σ) Tham số cần cập nhật nằm log likehood xác suất chung log p(X,Z|θ) Để tính xác suất này ta phân tích chúng theo công thức Bayes giữa p(Z|X,θ) và p(X|θ) Cuối cùng ta rút gọn thành tổng giữa logarith hàm hợp lý log p(X|θ) và logarith xác suất hậu nghiệm log p(Z|X,θ) Khi giá trị Q(θ,θt) gia tăng thì kéo theo sự gia tăng hàm hợp lý Như vậy tồn tại một chuỗi vô hạn cho Q(θj′,θt) là một chuỗi tăng và dẫn tới hội tụ về nghiệm cực đại θ* Khi đó giá trị hàm hợp lý log p(X|θ′) cũng là một chuỗi tăng và có nghiệm hội tụ về θ* Như vậy việc tối đa hoá hàm hợp lý có thể thông qua quá trình tìm nghiệm hàm Q(θ,θt) Chứng mình điều đó sau: Dòng thứ được suy là chính là một độ đo Kullback-Leibler Divergence về khoảng cách giữa hai phân phối và giá trị này lớn hoặc Bất đẳng thức cho thấy Q(θ,θt)≥Q(θt,θt) kéo theo log p(X|θ) ≥ log p(X|θt) Như vậy thay vì tối đa hoá hàm mục tiêu là hàm hợp lý thì ta có thể tối đa hoá hàm Q(θ,θt) 2.3.1 E-Step Mục tiêu bước E-Step là tính xác suất điểm dữ liệu dựa vào phân phối Gaussian đa chiều thông qua tham số θt vòng lặp gần nhất Xác suất này được tính sau: 12 Xác suất πj chính là xác suất tiên nghiệm (posteriori probability) với tỷ lệ các quan sát thuộc về cụm j vòng lặp thứ t Trong N(μjt, Σjt|xi) là xác suất xi rơi vào cụm thứ j được tính theo phân phối Gaussian đa chiều Hai xác suất này có thể tính được và sau cùng ta thu được xác suất rơi vào cụm tại một quan sát xi 2.3.2 M-Step Tại bước này cần cập nhật lại tham số phân phối theo hàm auxiliary Q(θ,θt) Cực trị đạt được đạo hàm bậc nhất 0: Ở θ là các tham số Lần lượt giải phương trình đạo hàm theo và 13 Từ đó suy ra: Trong đó p(zj|xi, θt) chính là xác suất tương ứng để xi thuộc về cụm j được tính từ bước E-Step Tiếp theo ta cần tính đạo hàm theo Σj Suy ra: Như vậy tham số tối ưu cụm được cập nhật theo công thức: Để tính ta dựa vào điều kiện ràng buộc Khi đó hàm Lagrange tương ứng với Q(θ,θt) là: 14 Từ đó suy (1): Mặt khác ta có Do đó: Suy λ=N và thế vào công thức (1) ta được: Như vậy ta đã tìm được tham số tối ưu thuật toán GMM sau vòng lặp Thuật toán dần dần hội tụ sau một hữu hạn bước Về lý thuyết thuật toán GMM ta phải trải qua nhiều tính toán đạo hàm tương đối phức tạp 15 Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Chuẩn bị liệu Đầu vào bài toán là các điểm đặc trưng cho ký tự và hệ toạ độ chiều sinh việc sử dụng vẽ tay ứng dụng Sau được chuẩn hoá dữ liệu đầu vào sinh là bộ dữ liệu toạ độ chiều kích thước 400x400 Với tập ký tự và có 20 bộ điểm đặc trưng vậy được sử dụng làm đầu Việc tiền xử lý dữ liệu toạ độ về kích thước 400x400 được thực hiện sau: Kiểm tra giá trị các điểm ngoại biên dữ liệu đã đạt kích thước tối đa (400x400) các chiều hay chưa (chiều x hoặc y) Xác định khả tịnh tiến theo vector hướng tâm ma trận 400x400 để đưa tâm bộ dữ liệu về trùng tâm ma trận (trong trường hợp chưa đạt tối đa các điểm ngoại biên theo kích thước) hoặc tịnh tiến về tâm theo vector hướng tâm một đại lượng phù hợp Tịnh tiến các điểm theo vector hướng biên để mở rộng thành ma trận kích thước phù hợp tối đa 400x400 Như vậy sau bước chuẩn hoá, toàn bộ dữ liệu đã được biến đổi chuyển sang dạng mới có kích thước tương đồng Quá trình huấn luyện: Ban đầu với số, ta khởi tạo bộ dữ liệu toạ độ chiều với 1169 điểm cho số và 1609 điểm cho số Dữ liệu test bao gồm 394 điểm cho số và 368 điểm cho số Sử dụng mô hình GMM và giải thuật EM thực hiện huấn luyện cho bộ dữ liệu train sau đó kiểm tra dữ liệu đó với bộ dữ liệu test 16 • Số cụm: • Số lặp tối đa cho giải thuật EM: 200 • Loại hiệp phương sai: spherical (đường tròn), diag (định hướng theo trục toạ độ), tied (không quy định hình dạng), full (đầy đủ) • Giá trị số sai số cho phép ngừng để vòng lặp lần huấn luyện : e=0.001 17 KẾT LUẬN GMM là một mô hình xác suất, mô hình này thể hiện sự cải tiến so với kMeans đó là các điểm dữ liệu được sinh từ một phân phối hỗn hợp một số hữu hạn các phân phối Gaussian đa chiều và tham số những phân phối này được giả định là chưa biết Để tìm tham số huấn luyện cho các mô hình thì ta cần tìm cách tối đa hoá hàm auxiliary thông qua thuật toán EM, thuật toán này cập nhật nghiệm sau vòng lặp để đến điểm cực trị Ta có thể xem xét GMM là một dạng khái quát thuật toán k-Means clustering nhằm kết hợp với thông tin về hiệp phương sai dữ liệu cũng là tâm các phân phối Gaussian tiềm ẩn Báo cáo này cũng trình bày một thực nghiệm xây dựng chương trình đơn giản để nhận dạng nhóm ký tự và Thông qua quá trình nghiên cứu và những kết quả đạt được, bản thân nhận thấy rằng: ứng dụng mô hình hỗn hợp (GMM) và giải thuật tối đa hoá kỳ vọng (EM) là rất to lớn và là một phần khó thể thiếu các hệ thống thông minh tương lai Tôi xin chân thành cảm ơn thầy Ngô Hữu Phúc đã hướng dẫn tận tình để có thể hoàn thiện bài toán Vì còn nhiều mặt hạn chế nên không tránh khỏi những điểm thiếu sót, mong thầy và các bạn đóng góp ý kiến để có thể hoàn hiện 18 ... Phần I: Mơ hình hỗn hợp (GMM) Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Phần I: Mơ hình hỗn hợp (GMM) Giới thiệu mơ hình hỗn hợp (GMM – Gaussian Mixture models) Mô hình hỗn hợp... tụ sau mô? ?t hữu hạn bước Về lý thuyết thuật toán GMM ta phải trải qua nhiều tính toán đạo hàm tương đối phức tạp 15 Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Chuẩn... hình dạng các mô hình KNN và GMM Khi xem xét mô? ?t tập dữ liệu tuỳ ý sau: Hình 2: Tập dữ liệu tuỳ ý được xem xét Đối với dữ liệu được mô tả trên, nếu sử dụng mô hình KNN rõ

Ngày đăng: 08/11/2022, 13:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w