Kỹ thuật phân rã ma trận không âm NMF

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm​ (Trang 40)

6. Ý nghĩa khoa học của luận văn:

2.1. Kỹ thuật phân rã ma trận không âm NMF

2.1.1. Khái niệm

Phân rã ma trận không âm (NMF), hoặc còn gọi là phép xấp xỉ ma trận không âm là một nhóm các thuật toán trong phân tích đa biến và đại số tuyến tính trong đó ma trận V được phân rã thành hai ma trận W và H, với tính chất mà cả ba ma trận không có phần tử âm. Tính chất không âm này làm cho ma trận kết quả dễ kiểm tra hơn. Ngoài ra, trong các ứng dụng như xử lý âm thanh, tính không âm là thuộc tính tự nhiên của dữ liệu. Vì vấn đề không thể giải chính xác nói chung, nên nó thường được tính gần đúng.

NMF có nhiều ứng dụng trong các lĩnh vực như thiên văn học, thị giác máy tính, phân cụm dữ liệu, hóa học, xử lý tín hiệu âm thanh và tin sinh học.

2.1.2. Lịch sử

Trong phép đo nhân tử ma trận không âm có một lịch sử lâu dài dưới cái tên "tự mô hình hóa độ phân giải đường cong". Trong khung này các vectơ trong ma trận bên phải là các đường cong liên tục chứ không phải là các vectơ rời rạc. Ngoài ra, công việc ban đầu về các yếu tố ma trận không âm được thực hiện bởi một nhóm các nhà nghiên cứu Phần Lan vào giữa những năm 1990 dưới tên gọi là phân rã ma trận dương. Nó được biết đến rộng rãi hơn như là phân rã ma trận không âm sau khi Lee và Seung nghiên cứu các thuộc tính của thuật toán và công bố một số thuật toán đơn giản và hữu ích cho hai loại phân rã.

2.1.3. Nền tảng

Đặt ma trận V là tích của ma trận W và H

Phép nhân ma trận có thể được thực hiện khi tính toán các vectơ cột của V dưới dạng tổ hợp tuyến tính của vectơ cột trong W bằng các hệ số được cung cấp bởi các cột của H. Nghĩa là, mỗi cột của V có thể được tính như sau:

𝒗𝒊 = 𝑾 ∗ 𝒉𝒊 (2.2)

Trong đó 𝒗𝒊 là vectơ cột thứ i của ma trận V và 𝒉𝒊 là vectơ cột thứ i của ma trận H.

Khi nhân ma trận, kích thước của ma trận phân rã có thể thấp hơn đáng kể so với ma trận sản phẩm và chính đặc tính này tạo thành nền tảng của NMF. NMF tạo ra các yếu tố với kích thước giảm đáng kể so với ma trận ban đầu. Ví dụ: nếu V là ma trận m × n, W là ma trận m × p và H là ma trận p × n thì p có thể nhỏ hơn đáng kể so với cả m và n.

Dưới đây là một ví dụ dựa trên ứng dụng khai phá văn bản:

Đặt ma trận đầu vào (ma trận được phân rã) là V với 10000 hàng và 500 cột trong đó các từ nằm trong hàng và tài liệu nằm trong các cột. Tức là, chúng ta có 500 tài liệu được lập chỉ mục bởi 10000 từ.Theo sau đó một vectơ cột v trong V đại diện cho một tài liệu.

Giả sử chúng ta yêu cầu thuật toán tìm 10 tính năng để tạo ma trận tính năng W với 10000 hàng và 10 cột và ma trận hệ số H với 10 hàng và 500 cột.

Tích của W và H là một ma trận có 10000 hàng và 500 cột, có hình dạng giống như ma trận đầu vào V và, nếu hệ số hóa hoạt động, đó là một xấp xỉ hợp lý với ma trận đầu vào V.

Từ việc xử lý nhân ma trận ở trên, theo đó mỗi cột trong ma trận tích WH là tổ hợp tuyến tính của 10 vectơ cột trong ma trận tính năng W với các hệ số được cung cấp bởi ma trận hệ số H.

Điểm cuối cùng này là nền tảng của NMF vì chúng ta có thể xem xét từng tài liệu gốc trong ví dụ của mình như được xây dựng từ một tập hợp nhỏ các tính năng ẩn.NMF tạo ra các tính năng này.

Sẽ rất hữu ích khi nghĩ về từng tính năng (vectơ cột) trong ma trận tính năng W dưới dạng nguyên mẫu tài liệu bao gồm một tập hợp các từ trong đó giá trị ô của mỗi từ xác định thứ hạng của từ trong tính năng: Giá trị ô của từ càng cao thì thứ hạng của từ càng cao trong tính năng. Một cột trong ma trận hệ số H đại diện cho một tài liệu gốc có giá trị ô xác định thứ hạng của tài liệu cho một tính năng. Bây giờ chúng ta có thể xây dựng lại một tài liệu (vectơ cột) từ ma trận đầu vào của mình bằng cách kết hợp tuyến tính các tính năng của chúng ta (vectơ cột trong W) trong đó mỗi tính năng được cân bằng giá trị ô của tính năng từ cột của tài liệu trong H

2.1.4. Tính chất phân cụm

NMF có thuộc tính phân cụm vốn có, tức là, nó tự động phân cụm các cột của dữ liệu đầu vào 𝑽 = (𝑣1, … … 𝑣𝑛).

Cụ thể hơn, gần đúng V bởi V≅ 𝑾𝑯 đạt được bằng cách giảm thiểu hàm

lỗi

‖𝑽 − 𝑾𝑯‖𝑭

𝑾,𝑯𝒎𝒊𝒏 tùy thuộc vào W≥ 0, H≥ 0 (2.3)

Hơn nữa, H được tính thành viên của cụm, nghĩa là, nếu 𝐻𝑘𝑗 > 𝐻𝑖𝑗 cho tất cả i ≠ k, điều này cho thấy rằng dữ liệu đầu vào 𝑣𝑗 thuộc về 𝑘𝑡ℎ cụm. W được tính toán cho các cụm trung tâm cụm, nghĩa là cột 𝑘𝑡ℎ cung cấp cho cụm trung

tâm của 𝑘𝑡ℎ. Đại diện của trung tâm này có thể được tăng cường đáng kể bởi

NMF lồi.

Khi tính trực giao 𝑯𝑯𝑻 = 𝑰 không được áp đặt rõ ràng, tính trực giao giữ ở mức độ lớn và thuộc tính phân cụm cũng giữ. Phân cụm là mục tiêu chính của hầu hết các ứng dụng khai thác dữ liệu của NMF.

Khi chức năng lỗi được sử dụng là phân kỳ KullbackTHER Leibler, NMF giống hệt với phân tích ngữ nghĩa tiềm ẩn xác suất, một phương pháp phân cụm tài liệu phổ biến.

2.1.5. Các kỹ thuật phân rã ma trận không âm

Xấp xỉ phân rã ma trận không âm

Thông thường số cột của W và số hàng của H trong NMF được chọn để ma trận tích WH sẽ trở thành xấp xỉ với V. Sự phân tách hoàn toàn của V sau đó lên tới hai ma trận không âm W và H cũng như a U dư, sao cho: V = WH + U. Các phần tử của ma trận dư có thể là âm hoặc dương.

Khi W và H nhỏ hơn V, chúng trở nên dễ dàng hơn để lưu trữ và thao tác. Một lý do khác để phân rã V thành các ma trận nhỏ hơn W và H, là nếu người ta có thể biểu diễn xấp xỉ các phần tử của V bằng dữ liệu ít hơn đáng kể, thì người ta phải suy ra một số cấu trúc tiềm ẩn trong dữ liệu.

Hệ số ma trận không âm

Trong NMF tiêu chuẩn, hệ số ma trận 𝐖 ∈ 𝐑𝐦∗𝐤+ tức là, W có thể là bất cứ

thứ gì trong không gian đó. Convex NMF giới hạn các cột của W để tổ hợp lồi

các vectơ dữ liệu đầu vào(𝑣1, … … 𝑣𝑛). Điều này cải thiện đáng kể chất lượng biểu diễn dữ liệu của W. Hơn nữa, yếu tố ma trận kết quả H trở nên thưa và trực giao hơn.

Hệ số xếp hạng không âm

Trong trường hợp thứ hạng không âm của V bằng với thứ hạng thực tế của nó, V = WH được gọi là hệ số thứ hạng không âm.Vấn đề tìm NRF của V, nếu nó tồn tại, được biết đến là có độ phức tạp NP-hard.

Hàm chi phí khác nhau và tiêu chuẩn hóa

Có nhiều loại phân rã ma trận không âm khác nhau. Các loại khác nhau

phát sinh từ việc sử dụng các hàm chi phí khác nhau để đo độ phân rã giữa V

và WH và có thể bằng cách chính quy hóa ma trận W và/hoặc H.

Hai hàm phân kỳ đơn giản được nghiên cứu bởi Lee và Seung là sai số

bình phương (hoặc chỉ tiêu Frobenius)mvà phần mở rộng của phân kỳ Kullback-Leibler thành ma trận dương (phân kỳ Kullback-Leibler ban đầu

được xác định trên các phân phối xác suất). Mỗi phân kỳ dẫn đến một thuật toán NMF khác nhau, thường giảm thiểu phân kỳ bằng cách sử dụng các quy tắc cập nhật lặp.

Vấn đề phân rã trong phiên bản lỗi bình phương của NMF có thể được nêu là: Đưa ra ma trận V tìm ma trận không âm W và H làm giảm thiểu hàm số

F(W,H)=‖𝑽 − 𝑾𝑯‖𝐹2 (2.4)

Một loại NMF khác cho hình ảnh dựa trên tổng chỉ tiêu biến thể.

Khi chính quy hóa L1 (gần giống với Lasso) được thêm vào NMF với hàm chi phí lỗi bình phương trung bình, vấn đề kết quả có thể được gọi là mã hóa thưa không âm do sự tương tự với vấn đề mã hóa thưa, mặc dù có thể vẫn còn được gọi là NMF.

NMF trực tuyến

Nhiều thuật toán NMF tiêu chuẩn phân tích tất cả các dữ liệu cùng nhau; tức là, toàn bộ ma trận có sẵn từ đầu. Điều này có thể không đạt yêu cầu trong các ứng dụng có quá nhiều dữ liệu phù hợp với bộ nhớ hoặc nơi dữ liệu được cung cấp theo kiểu truyền phát. Một cách sử dụng như vậy là để lọc cộng tác trong các hệ thống khuyến nghị, nơi có thể có nhiều người dùng và nhiều mục để đề xuất, và sẽ không hiệu quả khi tính toán lại mọi thứ khi một người dùng hoặc một mục được thêm vào hệ thống. Hàm chi phí để tối ưu hóa trong những trường hợp này có thể giống hoặc không giống với NMF tiêu chuẩn, nhưng các thuật toán cần phải khá khác nhau.

Thuật toán

Có một số cách có thể tìm thấy W và H: quy tắc cập nhật nhân của Lee và Seung là một phương pháp phổ biến do tính đơn giản của việc thực hiện. Thuật toán này là khởi tạo: W và H không âm.

Sau đó cập nhật các giá trị trong W và H bằng cách tính toán như sau, với n là một chỉ mục của lần lặp. 𝐻[𝑖,𝑗]𝑛+1 ← 𝐻[𝑖,𝑗]𝑛 ((𝑊 𝑛)𝑇𝑉)[𝑖,𝑗] ((𝑊𝑛)𝑇𝑊𝑛𝐻𝑛)[𝑖,𝑗] (2.5) Và 𝑊[𝑖,𝑗]𝑛+1 ← 𝑊[𝑖,𝑗]𝑛 (𝑉(𝐻 𝑛+1)𝑇)[𝑖,𝑗] (𝑊𝑛𝐻𝑛+1(𝐻𝑛+1)𝑇)[𝑖,𝑗] (2.6) Cho đến khi W và H ổn định.

Lưu ý rằng các cập nhật được thực hiện trên một phần tử theo cơ sở phần tử chứ không phải nhân ma trận.

Chúng ta lưu ý rằng hệ số nhân W và H là ma trận danh tính khi V = W H. Gần đây, các thuật toán khác đã được phát triển. Một số cách tiếp cận dựa trên các bình phương tối thiểu không âm xen kẽ: trong mỗi bước của thuật toán như vậy, H đầu tiên được cố định và W được tìm thấy bởi một bộ giải bình phương tối thiểu không âm, sau đó W được cố định và H được tìm thấy tương tự. Các quy trình được sử dụng để giải quyết cho W và H có thể giống nhau hoặc khác nhau, vì một số biến thể NMF thường hóa một trong W và H. Các phương pháp cụ thể bao gồm các phương pháp giảm độ dốc dự kiến,phương pháp thiết lập hoạt động, phương pháp gradient tối ưu, và phương pháp xoay vòng chính trong số nhiều phương pháp khác.

Các thuật toán hiện tại là tối ưu phụ ở chỗ chúng chỉ đảm bảo tìm được mức tối thiểu cục bộ, thay vì mức tối thiểu toàn cầu của hàm chi phí. Một thuật toán tối ưu có thể chứng minh là không thể xảy ra trong tương lai gần vì vấn đề

đã được chứng minh là khái quát hóa bài toán phân cụm k-mean là bài toán NP

– đầy đủ. Tuy nhiên, như trong nhiều ứng dụng khai thác dữ liệu khác, mức tối thiểu cục bộ vẫn có thể chứng minh là hữu ích.

NMF tuần tự

Hình 2.1. NMF tuần tự

Cấu trúc tuần tự của các thành phần NMF (W và H) trước tiên được sử dụng để liên kết NMF với Phân tích thành phần chính (PCA) trong thiên văn học. Sự đóng góp từ các thành phần PCA được xếp hạng theo độ lớn của giá trị tương ứng của chúng; đối với NMF, các thành phần của nó có thể được xếp hạng theo kinh nghiệm khi chúng được xây dựng từng cái một (tuần tự), tức là tìm hiểu (n + 1)- thành phần thứ nhất với n thành phần được xây dựng.

Các phương sai dư phân số (FRV) cho PCA và NMF tuần tự; đối với PCA, các giá trị lý thuyết là sự đóng góp từ các giá trị riêng còn lại. So sánh, các đường cong FRV cho PCA đạt đến một mặt phẳng nơi không có tín hiệu nào được thu một cách hiệu quả; trong khi các đường cong NMF FRV đang giảm liên tục, cho thấy khả năng thu tín hiệu tốt hơn. Các đường cong FRV cho NMF cũng hội tụ ở mức cao hơn PCA, cho thấy đặc tính ít bị quá tải của NMF.

Sự đóng góp của các thành phần NMF tuần tự có thể được so sánh với định lý Karhunen-Loève, một ứng dụng của PCA, sử dụng các giá trị riêng. Một lựa chọn điển hình về số lượng thành phần với PCA dựa trên điểm "khuỷu tay", sau đó sự tồn tại của mặt phẳng cho thấy PCA không thu thập dữ liệu một cách hiệu quả và cuối cùng có sự sụt giảm đột ngột phản ánh việc bắt ngẫu nhiên nhiễu và rơi vào chế độ quá mức. Đối với NMF tuần tự, biểu đồ các giá

trị riêng được xấp xỉ bằng biểu đồ của các đường cong phương sai dư phân đoạn, trong đó các đường cong giảm liên tục và hội tụ ở mức cao hơn PCA, là dấu hiệu của sự phù hợp ít hơn của NMF tuần tự .

NMF chính xác

Các giải pháp chính xác cho các biến thể của NMF có thể được kỳ vọng (trong thời gian đa thức) khi các ràng buộc bổ sung giữ cho ma trận V. Một thuật toán thời gian đa thức để giải quyết hệ số phân rã không âm nếu V chứa ma trận phụ đơn vị có thứ hạng bằng với thứ hạng của nó được đưa ra bởi Campbell và Poole năm 1981. Kalofolias và Gallopoulos (2012) đã giải quyết được đối tác đối xứng của vấn đề này, trong đó V là đối xứng và chứa ma trận phụ chính chéo của cấp r. Thuật toán của họ chạy trong thời gian O(rm^2) trong trường hợp dày đặc. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) đưa ra thuật toán thời gian đa thức cho NMF chính xác hoạt động trong trường hợp một trong các yếu tố W thỏa mãn điều kiện phân tách.

Liên quan đến các kỹ thuật khác

Khi tìm hiểu các bộ phận của các đối tượng bằng hệ số ma trận không âm, Lee và Seung đã đề xuất NMF chủ yếu cho việc phân tách hình ảnh dựa trên các bộ phận. Nó so sánh NMF với lượng tử hóa vector và phân tích thành phần chính, và cho thấy rằng mặc dù ba kỹ thuật có thể được viết dưới dạng các yếu tố, chúng thực hiện các ràng buộc khác nhau và do đó tạo ra các kết quả khác nhau.

Sau đó, người ta đã chứng minh rằng một số loại NMF là một ví dụ của mô hình xác suất tổng quát hơn gọi là "PCA đa phương". Khi thu được NMF bằng cách giảm thiểu phân kỳ KullbackTHER Leibler, thực tế nó tương đương với một trường hợp khác của PCA đa phân tích, phân tích ngữ nghĩa tiềm ẩn xác suất, được đào tạo theo ước tính khả năng tối đa. Phương pháp đó thường

được sử dụng để phân tích và phân cụm dữ liệu văn bản và cũng liên quan đến mô hình lớp tiềm ẩn.

NMF với mục tiêu bình phương nhỏ nhất tương đương với một dạng phân cụm K-mean thoải mái: hệ số ma trận W chứa trọng tâm cụm và H chứa các chỉ số thành viên cụm. Điều này cung cấp một nền tảng lý thuyết cho việc sử dụng NMF để phân cụm dữ liệu. Tuy nhiên, k-mean không thực thi tính không âm trên trọng tâm của nó, do đó, sự tương tự gần nhất thực tế là với "semi-NMF".

NMF có thể được xem như là một mô hình đồ họa hướng hai lớp với một lớp biến ngẫu nhiên quan sát và một lớp biến ngẫu nhiên ẩn.

NMF mở rộng ra ngoài ma trận đến các thang đo của thứ tự tùy ý. Tiện ích mở rộng này có thể được xem như một đối tác không âm đối với, ví dụ: mô hình PARAFAC.

Các phần mở rộng khác của NMF bao gồm hệ số chung của một số ma trận dữ liệu và tenxơ trong đó một số yếu tố được chia sẻ. Những mô hình như vậy rất hữu ích cho phản ứng tổng hợp cảm biến và học tập quan hệ.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm​ (Trang 40)

Tải bản đầy đủ (PDF)

(63 trang)