Thuật toán EM demo

26 2.9K 65
Thuật toán EM demo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thuật toán EM- Khai phá dữ liệu

Mục lục 2 MỞ ĐẦU Thuật toán EM (Expectation- Maximization) được nghiên cứu từ năm 1958 bởi Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977. Thuật toán EM được sử dụng để tìm ra kỳ vọng tối đa các thông số một mô hình thống kê trong trường hợp các phương trình không thể giải quyết trực tiếp được. Thông thường các mô hình liên quan đến các giá trị tiềm ẩn ngoài không biết các thông số và dữ liệu không quan sát được thông số. Có nghĩa là những giá trị bị thiếu hoặc không quan sát được mô hình bằng sự giả định của các điểm dữ liệu bổ sung. (Ví dụ: một mô hình kết hợp đơn giản có thể được mô tả bằng cách giả định rằng mỗi điểm dữ liệu quan sát được có một điểm tương ứng với dữ liệu không quan sát được, hoặc biến tiềm ẩn, xác định thành phần hỗn hợp cho mỗi điểm dữ liệu.) Việc tìm kiếm một giải pháp hợp lý là lấy các dẫn xuất của các hàm hợp (likehood function) đối với các giá trị không rõ tức là các thông số và các biến tiềm ẩn đồng thời giải quyết các phương trình. Trong một mô hình thống kê với các biến tiềm ẩn thường là không thể. Thay vào đó, kết quả thường là một tập hợp các chương trình đan xem vào đó là giải pháp cho các giá trị của biến tiềm ẩn và ngược lại . Thuật toán EM nhằm tìm ra sự ước lượng về khả năng lớp nhất của các tham số trong mô hình xác suất( các mô hình phụ thuộc vào các biến tiềm ẩn chưa được quan sát), nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán k-means. EM gán các đối tượng của cụm đã cho theo xác suất phân phối thành phần của đối tượng đó. Phân phối xác suất thường được sửa dụng là phân phối xác suất Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mô hình xác suất cho các đối tượng dữ liệu. 3 CHƯƠNG 1: CÁC KIẾN THỨC CƠ SỞ 1.1 .Hàm logarit Cho a là một số dương khác 1 và b là một số dương, số thực α thỏa mãn a α = b được gọi là lôgarit cơ số a của b và kí hiệu log a (b). 1.2 .Công thức xác suất Xác suất là các số trong khoảng [0,1], được gán tương ứng với một biến cố mà khả năng xảy ra hoặc không xảy ra là ngẫu nhiên. Kí hiệu: P(Z) Công thức sử dụng: P(A|B)= P(A). P(B/A)/ P(B) 1.3 .Entropy thông tin Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu. 1.4 .Gom cụm dữ liệu Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hằng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…. Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm. Các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác. Mục tiêu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Quá trình gom cụm dữ liệu Các yêu cầu tiêu biểu về việc gom cụm dữ liệu 4 Khả năng co giãn về tập dữ liệu (scalability). Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes). Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape). Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain knowledge for input parameters). Khả năng xử lý dữ liệu có nhiễu (noisy data). Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records). Khả năng xử lý dữ liệu đa chiều (high dimensionality). Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering). Khả diễn và khả dụng (interpretability and usability). Phân loại các phương pháp gom cụm dữ liệu tiêu biểu. Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào đó. Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó. Dựa trên mật độ (density-based): dựa trên connectivity and density functions. Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure. Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất. CHƯƠNG 2: NỘI DUNG THUẬT TOÁN 2.1.Khái niệm: Thuật toán EM là một phương pháp lặp hiệu quả để ước lượng Maximum Likehood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước lượng các tham số mô hình sao cho dữ liệu đã được quan sát( dữ liệu đã được biết) là tương thích nhất( the most likely). Ví dụ ước lượng kỳ vọng và phương sai của mỗi thành phần Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai bước: 5 Bước E (Expectation step): dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan sát và các tham số mô hình của ước lượng hiện tại. Điều này được thực hiện bằng cách sử dụng kì vọng có điều kiện. Bước M (Maximization step): hàm likehood được cực đại hóa với giả sử dữ liệu ẩn đã biết( sự ước lượng của dữ liệu ẩn trong bước E được sửa dụng thay cho dữ liệu ẩn thực sự.). Thuật toán EM luôn hội tụ vì chắc chắn likehood luôn tăng sau mỗi vòng lặp. Tiến trình tiếp tục cho đến khi likelihood hội tụ, ví dụ như đạt tới cực đại địa phương. EM sử dụng hướng tiếp cận leo đồi, nên chỉ đảm bảo đạt được cực đại địa phương. Khi tồn tại nhiều cực đại, việc đạt tới cực đại toàn cục hay không là phụ thuộc vào điểm bắt đầu leo đồi. Nếu ta bắt đầu từ một đồi đúng (right hill), ta sẽ có khả năng tìm được cực đại toàn cục. Tuy nhiên, việc tìm được right hill thường là rất khó. Có hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta thử nhiều giá trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood hội tụ lớn nhất. Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu cho các mô hình phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm được vùng tồn tại cực đại toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó để tìm kiếm tối ưu chính xác khi sử dụng mô hình phức tạp hơn. Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả nếu dữ liệu có tính phân cụm cao. 2.2.Chi tiết thuật toán EM Thuật toán ước lượng cực đại hay gọi là thuật toán EM là kỹ thuật phổ biến để tìm giải pháp khả năng cực đại cho mô hình xác suất có biến ẩn. Ở đây chúng tôi đưa ra các xử lý rất chung của thuật toán EM và trong quá trình chứng minh thuật toán EM có tính heuristic tại mục 3.2.1 và 3.2.2 đối với hỗn hợp Gaussian thực hiện tối đa hóa hàm khả năng. Xét một mô hình xác suất trong đó chúng ta gọi tất cả các các biến được quan sát là X và tất cả các biến tiềm ẩn là Z. Các phân phối p (X, Z | θ) bị chi phối bởi một tập hợp các tham số ký hiệu là θ. Mục tiêu của chúng tôi là tối đa hóa hàm khả năng được cho bởi: 6 P (X | θ)= Σ z P(X, Z | θ) (1) Ở đây chúng ta giả sử Z là rời rạc, tương tự với Z liên tục hoặc là tập các biến rời rạc và liên tục, với phép tổng được thay thế bởi phép hội. Chúng ta sẽ giả sử tối ưu hóa trực tiếp của P (X | θ) là khó khăn, nhưng tối ưu hóa hàm khả năng của dữ liệu đấy đủ(X, Z | θ) là dễ dàng hơn. Tiếp theo, chúng tôi giới thiệu một phân phối q(Z) được xác định qua các biến ẩn, và chúng tôi quan sát thấy rằng, đối với bất kỳ sự lựa chọn của q (Z), có sự khai triển sau: ln P(X| θ)= L(q, θ) + KL(q||p) (2) Trong đó: L(q, θ) = ∑ z q(Z) ln { } (3) KL(q||p) = -∑ z q(Z) ln { } (4) Hình 1a. Các khai triển từ (2) lựa chọn phân phối q (Z). Bởi vì phân kỳ Kullback- Leibler thỏa mãn KL (q||p), chúng ta thấy rằng L (q, θ) là bé hơn hàm khả năng ln p (X | θ) Lưu ý rằng L (q, θ) là một hàm của phân phối q(Z), và một hàm có tham số θ. Đây là giá trị được nghiên cứu kỹ lưỡng cho các biểu thức (3) và (4), và đặc biệt lưu ý rằng chúng khác nhau khi L (q, θ) chứa các phân phối kết hợp của X và Z và trong khi 7 KL (q||p) chứa các phân phối có điều kiện của Z với điều kiện X. Để xác minh khai triển (2), chúng tôi sử dụng các nguyên tắc nhân của xác suất để cho ln P(X| θ)= ln P(Z|X, θ)+ln P(X| θ) (5) mà chúng tôi sau đó thay thế vào biểu thức cho L (q, θ). Từ (4), chúng tôi thấy rằng KL (q ||p) là phân kỳ Kullback-Leibler giữa q (Z) à phân phối hậu nghiệm p (Z | X, θ). Nhớ lại rằng phân kỳ Kullback-Leibler thỏa mãn KL (q|| p)≥0, với tương đương khi và chỉ khi, q (Z) = P (Z | X, θ). Do đó từ (2), có rằng L (q, θ) ≤ ln p (X | θ), nói cách khác là L (q, θ) bé hơn p ln (X | θ). Các khai triển (2) minh hoạ trong hình 1a. Thuật toán EM là kỹ thuật tối ưu hóa lặp hai giai đoạn cho việc tìm kiếm giải pháp tối đa hóa khả năng. Chúng tôi có thể sử dụng khai triển (2) để xác định thuật toán EM và để chứng minh rằng nó thực sự tối đa hóa khả năng. Giả sử rằng giá trị hiện tại của véc tơ tham số là θ old . Trong bước E, cận bé hơn L (q, θ old ) được tối đa hóa đối với q (Z) trong khi đang cố định θ old . Các giải pháp cho vấn đề tối đa hóa này được dễ dàng nhìn thấy bằng cách ghi nhận rằng giá trị của p ln (X | θ old ) không phụ thuộc vào q (Z) và do đó giá trị lớn nhất của L (q,θ old ) sẽ xảy ra khi không có phân kỳ Kullback-Leibler, nói cách khác khi q (Z) bằng với phân phối hậu nghiệm p(Z | X, θ old ). 8 Hình 1b. Minh họa bước E của thuật toán EM. Các phân phối q được thiết lập bằng phân phối hậu nghiệm cho các tham số hiện tại θ old , dẫn đến cận dưới thấp hơn để dẫn đến cùng một giá trị như hàm log likelihood không có phân kỳ. Trong bước M này, phân phối q (Z) được giữ cố định và L (q, θ) được tối đa hóa đối với θ để đưa đến giá trị mới θ new . Điều này sẽ tăng L (trừ khi nó đã được tối đa một lần), mà sẽ nhất thiết là tăng hàm log likelihood tương ứng. Bởi vì phân phối q được xác định bằng cách sử dụng các giá trị tham số cũ chứ không phải là các giá trị mới và được tổ chức cố định trong bước M, nó sẽ không bằng với phân phối hậu nghiệm mới p (Z | X, θ new ), và do đó sẽ có một phân kỳ KL khác không. Sự gia tăng trong hàm log likelihood do đó lớn hơn sự gia tăng trong cận dưới, như là thể hiện trong hình 1c. Nếu chúng tôi thay thế q (Z) = P (Z | X, θ old ) vào (3), chúng tôi thấy rằng, sau bước E, ràng buộc có dạng: L(q,) = ∑ z p(Z|X, θ old ) ln p(Z|X, θ) - ∑ z p(Z|X, θ old ) ln p(Z|X, θ old ) = Q(θ, θ old ) + const (6) Trong đó, hằng số chỉ đơn giản là entropy âm của phân phối q và do đó độc lập với θ. Vì vậy, trong bước M, đại ượng đang được tối đa là kỳ vọng của hàm likelihood với dữ liệu đầy đủ, như chúng tôi đã thấy trước đó trong trường hợp trộn của Gaussian. Lưu ý rằng biến θ mà chúng tôi tối ưu hóa xuất hiện chỉ trong lôgarit. Nếu phân phối kết hợp p(Z, X | θ) là hàm mũ, chúng ta thấy rằng lôgarit sẽ hủy bỏ mũ và dẫn đến một bước M sẽ đơn giản hơn nhiều hơn so với tối đa hóa hàm log likelihood với dữ liệu không đầy đủ p(X | θ) tương ứng. 9 Hình 1c. Bước M của thuật toán EM. Các phân phối q(Z) được giữ cố định và L (q, θ) được tối đa đối với tham số θ để cho một giá trị mới θ new Hình 1d. Thuật toán EM tính toán thay thế một cận dưới thấp hơn trên hàm log likelihood cho các giá trị tham số hiện thời và sau đó tối đa hóa để có được giá trị tham số mới. Các hoạt động của thuật toán EM cũng có thể được xem xét trong không gian của tham số, như minh họa trong hình 1d. Dưới đây là mô tả các đường cong màu đỏ của hàm log likelihood với dữ liệu không đầy đủ mà chúng tôi mong muốn cực đại hóa. Chúng tôi bắt đầu với một số giá trị tham số ban đầu θ old , và trong bước E đầu tiên chúng tôi đánh giá phân phối hậu nghiệm qua các biến tiềm ẩn, mà cho phép tăng ít hơn L (θ, θ old ), có giá trị bằng log likelihood tại θ old như được hiển thị bằng các đường cong màu xanh lam. Trong bước M, cận được tối đa hóa đưa đến giá trị θ new lớn hơn θ old . Bước E tiếp theo sau đó là xây dựng một cận là tiếp tuyến tại θ new như được hiển thị bằng các đường cong màu xanh lá cây. Đối với những trường hợp cụ thể của tập dữ liệu được phân bố độc lập, X sẽ gồm N dữ liệu điểm (x n ) trong khi Z sẽ gồm N biến tiềm ẩn (z n ) tương ứng, trong đó n = 1 , , N. Từ giả định độc lập, chúng tôi có p(X, Z) =∏ n (x n , z n ), từ đó chúng ta có p(X) =∏ n (x n ). Sử dụng quy tắc tổng và nhân, chúng ta thấy rằng các xác suất hậu nghiệm ở bước E có dạng: 10 p(Z|X, θ) ( x n, z n | θ) p(Z|X, θ) = = = ( x n, z n | θ) (7) ∑ z p(X,Z| θ) ∑ z ( x n, z n | θ) Trong trường hợp của mô hình hỗn hợp Gaussian này, chỉ đơn giản nói rằng đó là trách nhiệm của mỗi thành phần hỗn hợp sẽcho một điểm dữ liệu x n cụ thể chỉ phụ thuộc vào giá trị của x n và trên các tham số θ của những thành phần hỗn hợp, không phải trên các giá trị của dữ liệu khác điểm. Chúng tôi đã thấy rằng cả bước E và M theo các giải thuật EM tăng giá trị của hàm log likelihood và chu trình EM sẽ thay đổi các tham số mô hình (trừ khi nó đã được tối đa, trong trường hợp này các tham số vẫn không thay đổi). Chúng tôi cũng có thể sử dụng thuật toán EM để tối đa hóa phân phối hậu nghiệm p(θ| X) cho các mô hình, trong đó chúng tôi đã giới thiệu một p(θ) qua các tham số. Chúng ta lưu ý rằng, cũng như một hàm của θ, chúng ta có p (θ| X) = P (θ, X) / P (X) và như vậy: ln p(θ| X) = ln p(θ, X)- ln p(X) (8) Sử dụng các khai triển (2), chúng ta có: ln p( θ| X) = L(q, θ) + KL(q||p) + ln p(θ) – ln p(X) L(q, θ) + ln p(θ)- ln p(X) (9) Trong đó ln p (X) là hằng số. Chúng tôi lại có thể tối ưu hóa vế phải đối với q và θ. Việc tối ưu hóa đối với q tăng cho đến cùng bước E như cho các thuật toán EM chuẩn, vì q chỉ xuất hiện trong L (q, θ). Bước M được sửa đổi thông qua việc cho các ln p (θ) trước. Thuật toán EM chia vấn đềkhó khăn của tối đa hóa hàm khả năng làm hai giai đoạn, bước E và M, mỗi trong số đó sẽ thường được chứng minh đơn giản để thực hiện. Tuy nhiên, đối với các mô hình phức tạp nó có thể là trường hợp đó, hoặc là bước E hoặc bước M, hoặc cả hai, vẫn không giải quyết được. Cái này dẫn đến hai phần mở rộng khả năng của thuật toán EM, như sau. Các thuật toán GEM hoặc EM tổng quát thay vì nhằm tối đa hóa L (q, θ) đối với θ, có thể thay đổi các tham số để tăng giá trị của nó. Mỗi EM hoàn tất chu kỳ thuật toán GEM được đảm bảo để tăng giá trị của log likelihood (trừ khi các tham số đã được tối đa của địa phương). Một cách để khai thác GEM sẽ sử dụng một trong những chiến [...]... số kết quả như sau: - Giới thiệu khái quát về thuật toán phân cụm EM và các kiến thức cơ sở Trình bày chi tiết thuật toán EM các sơ đồ và ví dụ thực tế Phân tích được các nội dung kiến thức cơ bản và mối quan hệ giữa thuật toán EM với các thuật toán khác K- - Means, Gaussian Chỉ ra được ưu nhược điểm của thuật toán cũng như tìm hiểu được ứng dụng của thuật toán đối với thực tiễn Do hạn chế về thời gian... một số thuật toán khác Thuật toán phổ Ưu điểm biến Thuật toán cây Cây quyết định dễ hiểu và dễ giải thích quyết định Việc chuẩn bị dữ liệu cho cây quyết định là cơ bản hoặc không cần thiết Có thể sử dụng dữ liệu rời rạc và liên tục Thuật toán Hiệu quả để giải quyết bài toán có dữ SVM liệu có số chiều lớn Hiệu suất tổng hợp tốt và tính toán cao Ứng dụng trong nhiều lĩnh vực Thuật toán K- Thuật toán đơn... kết quả sau 2, 5, và 20 chu kỳ đầy đủ của EM, tương ứng Trong đồ thị (f) thuật toán gần hội tụ Lưu ý rằng các thuật toán EM lặp mất nhiều hơn để đạt được (khoảng) hội tụ so với thuật toán K-Mean, và mỗi chu kỳ yêu cầu tính toán nhiều Do đó, để chạy thuật toán K-Mean tìm một khởi tạo phù hợp với một mô hình hỗn hợp Gaussian, sau đó thích nghi bằng cách sử dụng EM Các ma trận hiệp biến có thể được khởi... dụng đó là 3D (não, cột sống…)dựa trên phân đoạn dùng EM và đã có thành công nhất định Hình 4b: Ảnh chụp 3D não phát hiện tụ máu não 3.2 Ưu, nhược điểm của thuật toán: Ưu điểm: Thuật toán có tính hiệu quả và có tính thực tiễn cao trong nhiều lĩnh vực Tính toán nhanh và giải quyết bài toán có dữ liệu lớn Hiệu quả đối với dữ liệu nhiễu và tiềm ẩn Thuật toán dễ hiểu Nhược điểm: 24 Phụ thuộc vào tham số chọn... được gọi là thuật toán tối đa hóa kì vọng (thuật toán EM) (Dempster et al, 1977.; McLachlan và Krishnan, 1997) Sau đó chúng ta sẽ cung cấp một xử lý chung của EM, và cũng cho thấy cách EM có thể được khái quát hóa để có được khung suy luận biến phân Ban đầu, chúng ta sẽ đưa ra một giải pháp tương đối không chính thức trong bối cảnh của mô hình hỗn hợp Gaussian Tuy nhiên, nhấn mạnh rằng EM được ứng... không thỏa mãn thì quay lại bước hai 22 CHƯƠNG 3 ỨNG DỤNG VÀ ƯU NHƯỢC ĐIỂM CỦA THUẬT TOÁN 3.1.Ứng dụng: Ứng dụng của thuật toán EM thường được ứng dụng trong máy học, thị giác máy tính, tái xây dựng hình ảnh y khoa, biểu hiện gen phân nhóm… Phân đoạn ảnh và nén Như là một minh hoạ của ứng dụng thuật toán EM, chúng ta xem xét các vấn đề liên quan đến các phân đoạn ảnh và nén hình ảnh Mục tiêu của phân...11 lược tối ưu hóa phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước M Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện, hoặc thuật toán ECM, liên quan đến việc tối ưu hóa một số hạn chế trong mỗi bước M (Meng và Rubin, 1993) Ví dụ, các tham số có thể được phân chia... hiểu và dễ cài đặt Độ xử lý cao Thuật toán EM Độ xử lý cao Hiệu quả với nhiễu Ứng dụng nhiều trong thực tế Nhược điểm Dễ xảy ra lỗi khi có quá nhiều lớp Chi phí tính toán đắt để đào tạo Xử lý dữ lệu kiểu số Khó dịch kết quả Phụ thuộc vào tham số k được chọn Chỉ tạo được cụm dạng cầu Phục thuộc vào thông số đầu vào 25 KẾT LUẬN Báo cáo cung cấp một số nội dung về thuật toán EM( ExpectationMaximization),... thấy rằng có một sự tương tự gần gũi Trong khi thuật toán K-mean thực hiện một sự phân bố hard các điểm dữ liệu đến các cụm, trong đó mỗi điểm dữ liệu được liên kết duy nhất với một cụm, thì thuật toán EM tạo ra một sự phân bố mềm dựa trên các xác suất hậu nghiệm Trong thực tế, chúng ta có thể suy diễn giải thuật K-mean như là một giới hạn cụ thể của EM cho hỗn hợp Gaussian như sau Xét một mô hình... dù những thông số này không còn đóng một vai trò tích cực trong thuật toán Cuối cùng, trong giới hạn ϵ →0, hàm log likelihood 18 với dữ liệu đầy đủ Vì vậy, chúng ta thấy rằng trong giới hạn này, việc cực đại hóa hàm log likelihood với dữ liệu đầy đủ tương đương với việc cực tiểu hóa các giá trị J cho thuật toán K-mean Lưu ý rằng các thuật toán K-mean không ước tính phương sai của cụm mà ước tính giá . (f) thuật toán gần hội tụ. Lưu ý rằng các thuật toán EM lặp mất nhiều hơn để đạt được (khoảng) hội tụ so với thuật toán K-Mean, và mỗi chu kỳ yêu cầu tính toán nhiều. Do đó, để chạy thuật toán. Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả nếu dữ liệu có tính phân cụm cao. 2.2.Chi tiết thuật toán EM Thuật toán ước lượng cực đại hay gọi là thuật toán. phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước M. Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện, hoặc thuật toán ECM, liên quan đến việc

Ngày đăng: 04/06/2014, 21:11

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • CHƯƠNG 1: CÁC KIẾN THỨC CƠ SỞ

    • 1.1 .Hàm logarit

    • 1.2 .Công thức xác suất

    • 1.3 .Entropy thông tin

    • 1.4 .Gom cụm dữ liệu

    • CHƯƠNG 2: NỘI DUNG THUẬT TOÁN

      • 2.1.Khái niệm:

      • 2.2.Chi tiết thuật toán EM

      • 2.3.Ví dụ: Thí nghiệm tung đồng xu

      • 2.4.Mở rộng

        • 2.4.1.Quan hệ với K-mean

        • 2.4.2.EM cho hỗn hợp Gaussian

        • CHƯƠNG 3. ỨNG DỤNG VÀ ƯU NHƯỢC ĐIỂM CỦA THUẬT TOÁN

          • 3.1.Ứng dụng:

          • 3.2. Ưu, nhược điểm của thuật toán:

          • KẾT LUẬN

          • Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan