Trình bày về mô hình hỗn hợp sử dụng giải thuật EM để nhận dạng nhóm 2 ký tự 6 và 9

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	18
Dung lượng	1,27 MB

Nội dung

Trình bày về mô hình hỗn hợp sử dụng giải thuật EM để nhận dạng nhóm 2 ký tự 6 và 9 . HỌC VIỆN KHOA CÔNG NGHỆ THÔNG TIN o0o BÀI BÁO CÁO TRÍ TUỆ NHÂN TẠO Đề tài Trình bày về Mô hình hỗn hợp Sử dụng giải thuật EM để nhận dạng nhóm 2 ký tự 6 và 9 Giáo viên hướng dẫn Học viên thực hiện Lớ.

HỌC VIỆN KHOA CÔNG NGHỆ THÔNG TIN o0o BÀI BÁO CÁO TRÍ TUỆ NHÂN TẠO Đề tài: Trình bày Mơ hình hỗn hợp Sử dụng giải thuật EM để nhận dạng nhóm ký tự Giáo viên hướng dẫn : Học viên thực : Lớp : Hà Nội – Tháng 1/2022 MỤC LỤC LỜI MỞ ĐẦU Trước hết xin tỏ lòng biết ơn tới TS Ngô Hữu Phúc – người đã trực tiếp giảng dạy môn học “Trí tuệ nhân tạo” với cách thức truyền đạt hết sức khoa học và sư phạm Tôi cũng xin chân thành cảm ơn các bạn học đã nhiệt tình giúp đỡ và chi dẫn Vì còn nhiều mặt hạn chế nên không tránh khỏi những thiếu sót, rất mong được Thầy cùng các bạn nhận xét và góp ý kiến để được tiến bộ Nội dung báo cáo được chia thành các phần chính sau: Phần I: Mơ hình hỗn hợp (GMM) Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Phần I: Mô hình hỗn hợp (GMM) Giới thiệu mơ hình hỗn hợp (GMM – Gaussian Mixture models) Mô hình hỗn hợp Gaussian (GMM) là một thuật toán học không giám sát phổ biến Cách tiếp cận GMM tương tự thuật toán phân cụm K-Means, hữu ích, mạnh mẽ tính phức tạp Hơn nữa, GMM được phân loại thành các thuật toán phân cụm, vì nó có thể được sử dụng để tìm các cụm dữ liệu Các khái niệm chính là: - Phân phối Gaussian đa biến - Ma trận hiệp phương sai - Vector trung bình dữ liệu đa biến Mô hình Gaussian Mixture được sử dụng để tìm các cụm một tập dữ liệu mà từ đó ta biết (hoặc giả sử biết) số lượng các cụm có tập dữ liệu này, ta không biết các cụm này đâu cũng hình dạng Việc tìm kiếm các cụm này là nhiệm vụ GMM và vì ta không có bất kỳ thông tin nào thay vì số lượng cụm Để có thể phân biệt các cụm, ta cố gắng đưa một hỗn hợp các gaussian vào tập dữ liệu và cố gắng tìm một số phân phối gaussian có thể được sử dụng để mô tả hình dạng tập dữ liệu đó Một điểm mấu chốt cho sự hiểu biết là các cụm hình gaussian này không được có hình dạng tròn phương pháp KNN có thể có tất cả các hình dạng mà một phân bố Gaussian đa biến có thể có Đó là, một hình tròn chi có thể thay đổi đường kính nó mô hình GMM cũng có thể (do ma trận hiệp phương sai nó) mô hình hóa tất cả các hình dạng ellipsoid Dưới là một hình ảnh ví dụ cho mô hình không gian 2D Hình 1: Trong hình minh họa, vị trí không gian các mô hình KNN và GMM được xác định vect trung bình chúng Do đó, vector trung bình cho không gian đường kính tương ứng với ma trận hiệp phương sai xác định hình dạng các mô hình KNN và GMM Khi xem xét một tập dữ liệu tuỳ ý sau: Hình 2: Tập dữ liệu tuỳ ý được xem xét Đối với dữ liệu được mô tả trên, nếu sử dụng mô hình KNN rõ ràng là không thể đặc tả chính xác Điều này là thực tế là các cụm KNN có hình tròn dữ liệu có hình ellipsoid Mô hình KNN thất bại hoàn toàn minh họa hình sau Hình 3: Mô hình dữ liệu tuỳ ý đặc tả mô hình KNN Với dữ liệu phân bố dạng ellipsoid, phương pháp GMM là một phương pháp hoàn toàn phù hợp và được thể hiện hình sau Hình 4: Mô hình dữ liệu tuỳ ý đặc tả mô hình GMM Giả sử ta thêm một số điểm dữ liệu khác vào giữa hai cụm hình minh họa trên, có thể nhận thấy ta vẫn có thể giả định có hai cụm, khoảng trống giữa hai cụm có một số điểm mà không hoàn toàn rõ ràng chúng thuộc về cụm nào Xử lý tập dữ liệu này cách tiếp cận KNN cổ điển dẫn đến kết quả là điểm dữ liệu được phân bổ cho cụm một hoặc cụm hai tương ứng và với thuật toán KNN khó có thể tìm thấy một siêu phẳng giới hạn giữa hai cụm Mặc dù điều này không chính xác cho tất cả các điểm dữ liệu Hình 5: Ví dụ điểm dữ liệu có xác suất 60% thuộc cụm một và xác suất 40% thuộc cụm hai Trong trường hợp trên, cách tiếp cận KNN cổ điển không khả thi và ta cần một phương pháp tăng thêm khả phân nhóm linh hoạt GMM là một mô hình vậy, ta không chi cố gắng mô hình hóa dữ liệu với các vòng tròn mà thêm các gaussian vào dữ liệu mình, điều này cho phép phân bổ cho điểm khả thuộc về gaussian Rõ ràng ta biết một điểm dữ liệu càng gần một gaussian thì xác suất điểm này thực sự thuộc về gaussian này càng cao và xác suất điểm này thuộc về gaussian khác càng thấp Xem xét minh họa sau đây, đó ta đã thêm một GMM vào dữ liệu và đánh dấu điểm Điểm này có nhiều khả thuộc về cụm/gaussian một (C1) là cụm/gaussian hai (C2) Kể từ đó, nếu ta tính toán xác suất cho điểm này cho cụm, ta nhận được ví dụ:Với xác suất 99% Điểm thuộc cụm với xác suất 1% thuộc cụm hai Hình 6: Sử dụng GMM để phân cụm và đánh giá xác suất điểm thuộc C1 Tóm lại, nếu ta có dữ liệu đó giả định các cụm không được xác định các vòng tròn đơn giản mà các hình ellipsoid phức tạp hơn, cách tiếp cận GMM có thể được xem xét là phù hợp Ngoài ra, GMM tốt nếu ta muốn có các đường biên giới hạn mềm và kèm với các xác suất (nghĩa là nếu ta muốn biết xác suất một điểm dữ liệu thuộc về cụm) Về mặt toán học 2.1 Mật độ (xác suất) mơ hình hỗn hợp Gaussian Dựa việc mơ hình hoá các biến thể thống kê các thuộc tính, mật độ (xác suất) hỗn hợp Gaussian là tổng có trọng số các mật độ thành phần, được biểu diễn phương trình sau: Trong đó: • M là số thành phần • x là vector đặc trưng nhiều chiều • bi(x) là mật đợ thành phần thứ i • pi là trọng số hỗn hợp hoặc xác suất trước 2.2 Mật độ thành phần Để đảm bảo hỗn hợp có mật độ thích hợp, các xác suất trước phải được chọn để tổng thành thống nhất Mỗi mật độ thành phần được cho phương trình: Trong đó: • N là chiều vector đặc trưng x • μi là vector trung bình cho thành phần thứ i • Σi là ma trận hiệp phương sai cho thành phần thứ i 2.3 Thuật toán Tối đa hoá kỳ vọng (EM – Expectation maximization) Để nhận dạng, các cụm GMM riêng biệt được đại diện thông qua các tham số hóa dựa vào các vector trung bình, ma trận hiệp phương sai và trọng số hỗn hợp từ tất cả các mật độ thành phần Một mô hình ban đầu có thể thu được cách ước lượng các tham số từ các vector đặc trưng được phân nhóm tỷ lệ các vector cụm có thể đóng vai trò là trọng số hỗn hợp, giá trị trung bình và phương sai được ước tính từ các vector cụm Sau ước lượng, các vector đặc trưng có thể được gộp lại cách sử dụng mật độ thành phần (khả xảy ra) từ mô hình hỗn hợp ước tính và sau đó các tham số mô hình được tính toán lại Quá trình này được lặp lại cho đến các tham số mô hình hội tụ Thuật toán này được gọi là Tối đa hóa kỳ vọng (EM) Trong giai đoạn xác định, mật độ hỗn hợp được tính toán với mọi vector đặc trưng cho tất cả điểm và các điểm có khả tối đa được chọn nằm một cụm cụ thể Trong thuật toán EM ta liên tục thực hiện các vòng lặp mà vòng lặp bao gồm hai bước huấn luyện chính E-Step và M-Step nhằm tối đa hóa hàm hợp lý (likelihook) cho đến nó hội tụ E-Step và M-Step được thể hiện đơn giản sau: E-Step: Ước lượng phân phối biến ẩn z thể hiện phân phối xác suất các cụm tương ứng với dữ liệu và bộ tham số phân phối M-Step: Tối đa hoá phân phối xác suất đồng thời (join distribution probability) dữ liệu và biến ẩn Hình 7: Ví dụ về biểu diễn E-Step cho hình bên trái và M-Step cho hình bên phải Hình bên trái là bước E-Step Tại bước này ta tính toán phân phối xác suất tại điểm dữ liệu ứng với cụm theo bộ tham số phân phối cụm lúc ban đầu Chẳng hạn tại một điểm hình phía ta tính hai xác suất là P(A)=0.6 và P(B)=0.4 và tại một điểm phía dưới tính xác suất P(A)=0.2 và P(B)=0.8 Tiếp theo hình bên phải là bước M-Step thể hiện cách cập nhật lại tham số để phù hợp với phân phối các cụm dữ liệu Ở tham số trung bình các cụm được cập nhật lại đồng nghĩa với việc dịch chuyển cụm cho giá trị hợp lý phân phối lý thuyết được tối đa hoá và tiến gần tới phân phối thực cụm 10 Để hiểu cụ thể, ta giả sử đặt bài toán có một tập dữ liệu hãy tìm ước lượng hợp lý tối đa các tham số θ cho lớp mô hình được giả định là GMM khớp nhất bộ với dữ liệu Như vậy θ* chính là nghiệm bài toán: Để giải phương trình ta có cách tiếp cận: • Giải trực tiếp phương trình đạo hàm hàm logarith để theo các hệ số để tìm nghiệm tối ưu đã thực hiện đối với phân phối Gaussian đa biến cho cụm Tuy nhiên phương pháp này tỏ bất khả thi đối với bài toán có nhiều cụm thì hàm mất mát trở nên phức tạp nhiều Việc giải phương trình đạo hàm dường là khơng thể • Sử dụng tḥt toán EM (Expectation-Maximization) để cập nhật dần dần nghiệm θ Thuật toán EM là một những phương pháp thường được sử dụng để cập nhật nghiệm theo hàm hợp lý Đây là một phương pháp đơn giản và hiệu quả, phù hợp với các bài toán phức tạp mà lời giải trực tiếp từ đạo hàm không dễ dàng tìm kiếm Để cập nhật tham số, ta xét một hàm auxiliary sau: Như vậy Q(θ,θt) chính là kì vọng logarith xác suất chung X và Z cụm dữ liệu Giá trị kì vọng này tổng theo trọng số xác suất tiên 11 nghiệm p(z|X,θt) cụm Xác suất này có thể tính được dựa tham số θt trước đó (θ là đại diện chung cho cả μ và Σ) Tham số cần cập nhật nằm log likehood xác suất chung log p(X,Z|θ) Để tính xác suất này ta phân tích chúng theo công thức Bayes giữa p(Z|X,θ) và p(X|θ) Cuối cùng ta rút gọn thành tổng giữa logarith hàm hợp lý log p(X|θ) và logarith xác suất hậu nghiệm log p(Z|X,θ) Khi giá trị Q(θ,θt) gia tăng thì kéo theo sự gia tăng hàm hợp lý Như vậy tồn tại một chuỗi vô hạn cho Q(θj′,θt) là một chuỗi tăng và dẫn tới hội tụ về nghiệm cực đại θ* Khi đó giá trị hàm hợp lý log p(X|θ′) cũng là một chuỗi tăng và có nghiệm hội tụ về θ* Như vậy việc tối đa hoá hàm hợp lý có thể thông qua quá trình tìm nghiệm hàm Q(θ,θt) Chứng mình điều đó sau: Dòng thứ được suy là chính là một độ đo Kullback-Leibler Divergence về khoảng cách giữa hai phân phối và giá trị này lớn hoặc Bất đẳng thức cho thấy Q(θ,θt)≥Q(θt,θt) kéo theo log p(X|θ) ≥ log p(X|θt) Như vậy thay vì tối đa hoá hàm mục tiêu là hàm hợp lý thì ta có thể tối đa hoá hàm Q(θ,θt) 2.3.1 E-Step Mục tiêu bước E-Step là tính xác suất điểm dữ liệu dựa vào phân phối Gaussian đa chiều thông qua tham số θt vòng lặp gần nhất Xác suất này được tính sau: 12 Xác suất πj chính là xác suất tiên nghiệm (posteriori probability) với tỷ lệ các quan sát thuộc về cụm j vòng lặp thứ t Trong N(μjt, Σjt|xi) là xác suất xi rơi vào cụm thứ j được tính theo phân phối Gaussian đa chiều Hai xác suất này có thể tính được và sau cùng ta thu được xác suất rơi vào cụm tại một quan sát xi 2.3.2 M-Step Tại bước này cần cập nhật lại tham số phân phối theo hàm auxiliary Q(θ,θt) Cực trị đạt được đạo hàm bậc nhất 0: Ở θ là các tham số Lần lượt giải phương trình đạo hàm theo và 13 Từ đó suy ra: Trong đó p(zj|xi, θt) chính là xác suất tương ứng để xi thuộc về cụm j được tính từ bước E-Step Tiếp theo ta cần tính đạo hàm theo Σj Suy ra: Như vậy tham số tối ưu cụm được cập nhật theo công thức: Để tính ta dựa vào điều kiện ràng buộc Khi đó hàm Lagrange tương ứng với Q(θ,θt) là: 14 Từ đó suy (1): Mặt khác ta có Do đó: Suy λ=N và thế vào công thức (1) ta được: Như vậy ta đã tìm được tham số tối ưu thuật toán GMM sau vòng lặp Thuật toán dần dần hội tụ sau một hữu hạn bước Về lý thuyết thuật toán GMM ta phải trải qua nhiều tính toán đạo hàm tương đối phức tạp 15 Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Chuẩn bị liệu Đầu vào bài toán là các điểm đặc trưng cho ký tự và hệ toạ độ chiều sinh việc sử dụng vẽ tay ứng dụng Sau được chuẩn hoá dữ liệu đầu vào sinh là bộ dữ liệu toạ độ chiều kích thước 400x400 Với tập ký tự và có 20 bộ điểm đặc trưng vậy được sử dụng làm đầu Việc tiền xử lý dữ liệu toạ độ về kích thước 400x400 được thực hiện sau: Kiểm tra giá trị các điểm ngoại biên dữ liệu đã đạt kích thước tối đa (400x400) các chiều hay chưa (chiều x hoặc y) Xác định khả tịnh tiến theo vector hướng tâm ma trận 400x400 để đưa tâm bộ dữ liệu về trùng tâm ma trận (trong trường hợp chưa đạt tối đa các điểm ngoại biên theo kích thước) hoặc tịnh tiến về tâm theo vector hướng tâm một đại lượng phù hợp Tịnh tiến các điểm theo vector hướng biên để mở rộng thành ma trận kích thước phù hợp tối đa 400x400 Như vậy sau bước chuẩn hoá, toàn bộ dữ liệu đã được biến đổi chuyển sang dạng mới có kích thước tương đồng Quá trình huấn luyện: Ban đầu với số, ta khởi tạo bộ dữ liệu toạ độ chiều với 1169 điểm cho số và 1609 điểm cho số Dữ liệu test bao gồm 394 điểm cho số và 368 điểm cho số Sử dụng mô hình GMM và giải thuật EM thực hiện huấn luyện cho bộ dữ liệu train sau đó kiểm tra dữ liệu đó với bộ dữ liệu test 16 • Số cụm: • Số lặp tối đa cho giải thuật EM: 200 • Loại hiệp phương sai: spherical (đường tròn), diag (định hướng theo trục toạ độ), tied (không quy định hình dạng), full (đầy đủ) • Giá trị số sai số cho phép ngừng để vòng lặp lần huấn luyện : e=0.001 17 KẾT LUẬN GMM là một mô hình xác suất, mô hình này thể hiện sự cải tiến so với kMeans đó là các điểm dữ liệu được sinh từ một phân phối hỗn hợp một số hữu hạn các phân phối Gaussian đa chiều và tham số những phân phối này được giả định là chưa biết Để tìm tham số huấn luyện cho các mô hình thì ta cần tìm cách tối đa hoá hàm auxiliary thông qua thuật toán EM, thuật toán này cập nhật nghiệm sau vòng lặp để đến điểm cực trị Ta có thể xem xét GMM là một dạng khái quát thuật toán k-Means clustering nhằm kết hợp với thông tin về hiệp phương sai dữ liệu cũng là tâm các phân phối Gaussian tiềm ẩn Báo cáo này cũng trình bày một thực nghiệm xây dựng chương trình đơn giản để nhận dạng nhóm ký tự và Thông qua quá trình nghiên cứu và những kết quả đạt được, bản thân nhận thấy rằng: ứng dụng mô hình hỗn hợp (GMM) và giải thuật tối đa hoá kỳ vọng (EM) là rất to lớn và là một phần khó thể thiếu các hệ thống thông minh tương lai Tôi xin chân thành cảm ơn thầy Ngô Hữu Phúc đã hướng dẫn tận tình để có thể hoàn thiện bài toán Vì còn nhiều mặt hạn chế nên không tránh khỏi những điểm thiếu sót, mong thầy và các bạn đóng góp ý kiến để có thể hoàn hiện 18 ... Phần I: Mơ hình hỗn hợp (GMM) Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Phần I: Mơ hình hỗn hợp (GMM) Giới thiệu mơ hình hỗn hợp (GMM – Gaussian Mixture models) Mô hình hỗn hợp... tụ sau mô? ?t hữu hạn bước Về lý thuyết thuật toán GMM ta phải trải qua nhiều tính toán đạo hàm tương đối phức tạp 15 Phần II: Ứng dụng giải thuật EM để nhận dạng nhóm ký tự Chuẩn... hình dạng các mô hình KNN và GMM Khi xem xét mô? ?t tập dữ liệu tuỳ ý sau: Hình 2: Tập dữ liệu tuỳ ý được xem xét Đối với dữ liệu được mô tả trên, nếu sử dụng mô hình KNN rõ

Ngày đăng: 08/11/2022, 13:56