6. Ý nghĩa khoa học của luận văn:
2.1. Kỹ thuật phân rã ma trận không âm NMF
2.1.5. Các kỹ thuật phân rã ma trận không âm
Xấp xỉ phân rã ma trận không âm
Thông thường số cột của W và số hàng của H trong NMF được chọn để ma trận tích WH sẽ trở thành xấp xỉ với V. Sự phân tách hoàn toàn của V sau đó lên tới hai ma trận khơng âm W và H cũng như a U dư, sao cho: V = WH + U. Các phần tử của ma trận dư có thể là âm hoặc dương.
Khi W và H nhỏ hơn V, chúng trở nên dễ dàng hơn để lưu trữ và thao tác. Một lý do khác để phân rã V thành các ma trận nhỏ hơn W và H, là nếu người ta có thể biểu diễn xấp xỉ các phần tử của V bằng dữ liệu ít hơn đáng kể, thì người ta phải suy ra một số cấu trúc tiềm ẩn trong dữ liệu.
Hệ số ma trận không âm
Trong NMF tiêu chuẩn, hệ số ma trận 𝐖 ∈ 𝐑𝐦∗𝐤+ tức là, W có thể là bất cứ thứ gì trong khơng gian đó. Convex NMF giới hạn các cột của W để tổ hợp lồi các vectơ dữ liệu đầu vào(𝑣1, … … 𝑣𝑛). Điều này cải thiện đáng kể chất lượng biểu diễn dữ liệu của W. Hơn nữa, yếu tố ma trận kết quả H trở nên thưa và trực giao hơn.
Hệ số xếp hạng không âm
Trong trường hợp thứ hạng không âm của V bằng với thứ hạng thực tế của nó, V = WH được gọi là hệ số thứ hạng không âm.Vấn đề tìm NRF của V, nếu nó tồn tại, được biết đến là có độ phức tạp NP-hard.
Hàm chi phí khác nhau và tiêu chuẩn hóa
Có nhiều loại phân rã ma trận không âm khác nhau. Các loại khác nhau phát sinh từ việc sử dụng các hàm chi phí khác nhau để đo độ phân rã giữa V và WH và có thể bằng cách chính quy hóa ma trận W và/hoặc H.
Hai hàm phân kỳ đơn giản được nghiên cứu bởi Lee và Seung là sai số
bình phương (hoặc chỉ tiêu Frobenius)mvà phần mở rộng của phân kỳ Kullback-Leibler thành ma trận dương (phân kỳ Kullback-Leibler ban đầu
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn được xác định trên các phân phối xác suất). Mỗi phân kỳ dẫn đến một thuật toán NMF khác nhau, thường giảm thiểu phân kỳ bằng cách sử dụng các quy tắc cập nhật lặp.
Vấn đề phân rã trong phiên bản lỗi bình phương của NMF có thể được nêu là: Đưa ra ma trận V tìm ma trận khơng âm W và H làm giảm thiểu hàm số
F(W,H)=‖𝑽 − 𝑾𝑯‖𝐹2 (2.4)
Một loại NMF khác cho hình ảnh dựa trên tổng chỉ tiêu biến thể.
Khi chính quy hóa L1 (gần giống với Lasso) được thêm vào NMF với hàm chi phí lỗi bình phương trung bình, vấn đề kết quả có thể được gọi là mã hóa thưa khơng âm do sự tương tự với vấn đề mã hóa thưa, mặc dù có thể vẫn cịn được gọi là NMF.
NMF trực tuyến
Nhiều thuật tốn NMF tiêu chuẩn phân tích tất cả các dữ liệu cùng nhau; tức là, tồn bộ ma trận có sẵn từ đầu. Điều này có thể khơng đạt u cầu trong các ứng dụng có quá nhiều dữ liệu phù hợp với bộ nhớ hoặc nơi dữ liệu được cung cấp theo kiểu truyền phát. Một cách sử dụng như vậy là để lọc cộng tác trong các hệ thống khuyến nghị, nơi có thể có nhiều người dùng và nhiều mục để đề xuất, và sẽ khơng hiệu quả khi tính tốn lại mọi thứ khi một người dùng hoặc một mục được thêm vào hệ thống. Hàm chi phí để tối ưu hóa trong những trường hợp này có thể giống hoặc khơng giống với NMF tiêu chuẩn, nhưng các thuật toán cần phải khá khác nhau.
Thuật tốn
Có một số cách có thể tìm thấy W và H: quy tắc cập nhật nhân của Lee và Seung là một phương pháp phổ biến do tính đơn giản của việc thực hiện. Thuật toán này là khởi tạo: W và H khơng âm.
Sau đó cập nhật các giá trị trong W và H bằng cách tính tốn như sau, với n là một chỉ mục của lần lặp. 𝐻[𝑖,𝑗]𝑛+1 ← 𝐻[𝑖,𝑗]𝑛 ((𝑊 𝑛)𝑇𝑉)[𝑖,𝑗] ((𝑊𝑛)𝑇𝑊𝑛𝐻𝑛)[𝑖,𝑗] (2.5) Và 𝑊[𝑖,𝑗]𝑛+1 ← 𝑊[𝑖,𝑗]𝑛 (𝑉(𝐻 𝑛+1)𝑇)[𝑖,𝑗] (𝑊𝑛𝐻𝑛+1(𝐻𝑛+1)𝑇)[𝑖,𝑗] (2.6) Cho đến khi W và H ổn định.
Lưu ý rằng các cập nhật được thực hiện trên một phần tử theo cơ sở phần tử chứ không phải nhân ma trận.
Chúng ta lưu ý rằng hệ số nhân W và H là ma trận danh tính khi V = W H. Gần đây, các thuật toán khác đã được phát triển. Một số cách tiếp cận dựa trên các bình phương tối thiểu khơng âm xen kẽ: trong mỗi bước của thuật toán như vậy, H đầu tiên được cố định và W được tìm thấy bởi một bộ giải bình phương tối thiểu khơng âm, sau đó W được cố định và H được tìm thấy tương tự. Các quy trình được sử dụng để giải quyết cho W và H có thể giống nhau hoặc khác nhau, vì một số biến thể NMF thường hóa một trong W và H. Các phương pháp cụ thể bao gồm các phương pháp giảm độ dốc dự kiến,phương pháp thiết lập hoạt động, phương pháp gradient tối ưu, và phương pháp xoay vịng chính trong số nhiều phương pháp khác.
Các thuật toán hiện tại là tối ưu phụ ở chỗ chúng chỉ đảm bảo tìm được mức tối thiểu cục bộ, thay vì mức tối thiểu tồn cầu của hàm chi phí. Một thuật tốn tối ưu có thể chứng minh là khơng thể xảy ra trong tương lai gần vì vấn đề đã được chứng minh là khái qt hóa bài tốn phân cụm k-mean là bài toán NP – đầy đủ. Tuy nhiên, như trong nhiều ứng dụng khai thác dữ liệu khác, mức tối thiểu cục bộ vẫn có thể chứng minh là hữu ích.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
NMF tuần tự
Hình 2.1. NMF tuần tự
Cấu trúc tuần tự của các thành phần NMF (W và H) trước tiên được sử dụng để liên kết NMF với Phân tích thành phần chính (PCA) trong thiên văn học. Sự đóng góp từ các thành phần PCA được xếp hạng theo độ lớn của giá trị tương ứng của chúng; đối với NMF, các thành phần của nó có thể được xếp hạng theo kinh nghiệm khi chúng được xây dựng từng cái một (tuần tự), tức là tìm hiểu (n + 1)- thành phần thứ nhất với n thành phần được xây dựng.
Các phương sai dư phân số (FRV) cho PCA và NMF tuần tự; đối với PCA, các giá trị lý thuyết là sự đóng góp từ các giá trị riêng cịn lại. So sánh, các đường cong FRV cho PCA đạt đến một mặt phẳng nơi không có tín hiệu nào được thu một cách hiệu quả; trong khi các đường cong NMF FRV đang giảm liên tục, cho thấy khả năng thu tín hiệu tốt hơn. Các đường cong FRV cho NMF cũng hội tụ ở mức cao hơn PCA, cho thấy đặc tính ít bị quá tải của NMF.
Sự đóng góp của các thành phần NMF tuần tự có thể được so sánh với định lý Karhunen-Loève, một ứng dụng của PCA, sử dụng các giá trị riêng. Một lựa chọn điển hình về số lượng thành phần với PCA dựa trên điểm "khuỷu tay", sau đó sự tồn tại của mặt phẳng cho thấy PCA không thu thập dữ liệu một cách hiệu quả và cuối cùng có sự sụt giảm đột ngột phản ánh việc bắt ngẫu nhiên nhiễu và rơi vào chế độ quá mức. Đối với NMF tuần tự, biểu đồ các giá
trị riêng được xấp xỉ bằng biểu đồ của các đường cong phương sai dư phân đoạn, trong đó các đường cong giảm liên tục và hội tụ ở mức cao hơn PCA, là dấu hiệu của sự phù hợp ít hơn của NMF tuần tự .
NMF chính xác
Các giải pháp chính xác cho các biến thể của NMF có thể được kỳ vọng (trong thời gian đa thức) khi các ràng buộc bổ sung giữ cho ma trận V. Một thuật toán thời gian đa thức để giải quyết hệ số phân rã không âm nếu V chứa ma trận phụ đơn vị có thứ hạng bằng với thứ hạng của nó được đưa ra bởi Campbell và Poole năm 1981. Kalofolias và Gallopoulos (2012) đã giải quyết được đối tác đối xứng của vấn đề này, trong đó V là đối xứng và chứa ma trận phụ chính chéo của cấp r. Thuật toán của họ chạy trong thời gian O(rm^2) trong trường hợp dày đặc. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) đưa ra thuật toán thời gian đa thức cho NMF chính xác hoạt động trong trường hợp một trong các yếu tố W thỏa mãn điều kiện phân tách.
Liên quan đến các kỹ thuật khác
Khi tìm hiểu các bộ phận của các đối tượng bằng hệ số ma trận không âm, Lee và Seung đã đề xuất NMF chủ yếu cho việc phân tách hình ảnh dựa trên các bộ phận. Nó so sánh NMF với lượng tử hóa vector và phân tích thành phần chính, và cho thấy rằng mặc dù ba kỹ thuật có thể được viết dưới dạng các yếu tố, chúng thực hiện các ràng buộc khác nhau và do đó tạo ra các kết quả khác nhau.
Sau đó, người ta đã chứng minh rằng một số loại NMF là một ví dụ của mơ hình xác suất tổng qt hơn gọi là "PCA đa phương". Khi thu được NMF bằng cách giảm thiểu phân kỳ KullbackTHER Leibler, thực tế nó tương đương với một trường hợp khác của PCA đa phân tích, phân tích ngữ nghĩa tiềm ẩn xác suất, được đào tạo theo ước tính khả năng tối đa. Phương pháp đó thường
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn được sử dụng để phân tích và phân cụm dữ liệu văn bản và cũng liên quan đến mơ hình lớp tiềm ẩn.
NMF với mục tiêu bình phương nhỏ nhất tương đương với một dạng phân cụm K-mean thoải mái: hệ số ma trận W chứa trọng tâm cụm và H chứa các chỉ số thành viên cụm. Điều này cung cấp một nền tảng lý thuyết cho việc sử dụng NMF để phân cụm dữ liệu. Tuy nhiên, k-mean khơng thực thi tính khơng âm trên trọng tâm của nó, do đó, sự tương tự gần nhất thực tế là với "semi-NMF".
NMF có thể được xem như là một mơ hình đồ họa hướng hai lớp với một lớp biến ngẫu nhiên quan sát và một lớp biến ngẫu nhiên ẩn.
NMF mở rộng ra ngoài ma trận đến các thang đo của thứ tự tùy ý. Tiện ích mở rộng này có thể được xem như một đối tác khơng âm đối với, ví dụ: mơ hình PARAFAC.
Các phần mở rộng khác của NMF bao gồm hệ số chung của một số ma trận dữ liệu và tenxơ trong đó một số yếu tố được chia sẻ. Những mơ hình như vậy rất hữu ích cho phản ứng tổng hợp cảm biến và học tập quan hệ.
NMF là một ví dụ của lập trình bậc hai khơng âm (NQP), giống như máy vectơ hỗ trợ (SVM).Tuy nhiên, SVM và NMF có liên quan ở mức độ thân mật hơn so với NQP, cho phép áp dụng trực tiếp các thuật toán giải pháp được phát triển cho một trong hai phương pháp cho các vấn đề trong cả hai miền.
Tính duy nhất
Hệ số hóa khơng phải là duy nhất: Một ma trận và nghịch đảo của nó có thể được sử dụng để biến đổi hai ma trận phân rã hóa bằng, ví dụ:
WH=𝑾𝑩𝑩−𝟏𝑯 (2.7)
Nếu hai ma trận mới 𝑾̃=WB và 𝑯̃ = 𝑩−𝟏𝑯 không âm mà chúng tạo thành
Tính khơng phủ định của 𝑾̃ và 𝑯̃ áp dụng ít nhất nếu B là ma trận đơn âm khơng âm. Trong trường hợp đơn giản này, nó sẽ chỉ tương ứng với một tỷ lệ và hoán vị.
Kiểm sốt nhiều hơn đối với tính khơng độc đáo của NMF có được với các ràng buộc về độ thưa.