Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS).
Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MƠ HÌNH CHỦ ĐỀ Bùi Thị Thanh Xn Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn GIỚI THIỆU Mơ hình chủ đề phổ biến có ứng dụng lĩnh vực khai phá liệu văn Khi làm việc với mơ hình chủ đề, việc giải hiệu toán suy diễn hậu nghiệm cho văn đóng vai trị quan trọng Tuy nhiên, toán suy diễn hậu nghiệm thường đưa tốn tối ưu khơng lồi thuộc lớp toán NP-Hard [6] Để giải toán suy diễn hậu nghiệm mơ hình chủ đề, có nhiều phương pháp đề xuất như: phương pháp biến phân Variational Bayes (VB)[1], collapsed variational Bayes (CVB)[3] hay phương pháp collapsed Gibbs sampling (CGS) [4], Tuy nhiên, theo tìm hiểu tác giả, phương pháp thường khơng đảm bảo chất lượng mơ tốc độ hội tụ thuật tốn Chúng tơi tiếp cận giải toán suy diễn hậu nghiệm cách nhìn tối ưu khơng lồi Sử dụng biên ngẫu nhiên phân phối xác suất Bernoulli, đề xuất thuật toán GOP giải hiệu toán suy diễn hậu nghiệm với mơ hình chủ đề, từ phát triển thuật tốn học ngẫu nhiên mơ hình chủ đề từ sưu tập văn lớn Chúng tiến hành thử nghiệm hai liệu lớn New York Times Pubmed với ngôn ngữ lập trình Python Thơng qua kết thực nghiệm cho thấy cách tiếp cận thường hiệu phương pháp trước NỘI DUNG NGHIÊN CỨU Trong mơ hình chủ đề ẩn LDA [1], tác giả Blei đưa giả thuyết cấu trúc ẩn chứa tập văn Mỗi văn trộn lẫn chủ đề ẩn chủ đề phân phối tất từ tập từ điển Mỗi văn tập corpus xem túi từ, từ sinh tổ hợp chủ đề mà tác giả muốn viết Mỗi chủ đề phân phối từ tập từ điển Mô hình sinh mơ tả sau: Với topic tập {1, 2…K}, lấy mẫu k~Dir( Sinh văn có độ dài : - Lấy mẫu ~Dir( - Với từ wn N từ: + Chọn topic zn~Multinomial( + Chọn từ wn với xác suất p(wn| β zn ) Trong [5], làm việc với mô hình LDA, tác giả đưa tốn suy diễn cho văn d là: * argmaxθΔK f(θ) với K K f(θ) = d j log k kj ( ) log k j k 1 k 1 Đặt: K g1( ) = d j log k kj , j k 1 K g ( ) = ( - 1) logk k 1 Như vậy: f(g1 g2 Trong LDA, với liệu thực tế tham số < nên g1 hàm lõm, g2 hàm lồi, nên f( có dạng hàm khơng lồi DC (Difference of Convex Functions) Do tốn tìm cực trị f( tốn NP-khó [6], khơng có thuật tốn lặp xác định giải hiệu toán tối ưu cho f( Do 125 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 ý tưởng phương pháp giải xấp xỉ ngẫu nhiên đưa vào sử dụng để giải toán suy diễn hậu nghiệm Tác giả [5] đề xuất thuật toán OPE để giải toán suy diễn véc tơ tỉ lệ chủ đề d cho văn d, sau OPE sử dụng Online-OPE học mơ hình LDA Tại bước lặp t, thuật toán OPE chọn ngẫu nghiên g1 g2 với xác suất nhau, tính trung bình đại lượng chọn tạo thành chuỗi Ft Ft Ft f t Tại bước lặp t, OPE cập nhật t+1 theo t Khi t t với là điểm dừng (hoặc nghiệm cục bộ) f Tương tự xây dựng dãy hàm chuỗi Ft sử dụng phân phối Becnoulli để thay đổi trọng số đóng góp hai thành phần g1 g2 thông qua tham số xác suất p, tiến hành xây dựng hai dãy hàm ngẫu nhiên Lt g1 xuất phát từ bên dưới, dãy Ut g1 xuất phát từ bên hàm f hội tụ theo xác suất f Với việc xây dựng hai chuỗi hàm ngẫu nhiên Ut Lt phân phối Bernoulli đảm bảo Ut Lt hội tụ f t với xác suất hầu chắn Thuật toán Thuật toán GOP giải tốn suy diễn hậu nghiệm với mơ hình chủ đề Đầu vào: Văn d, tham số Bernoulli p (0,1) tham số mơ hình {, } Đầu ra: nghiệm cực đại hóa hàm f= g1g2 Khởi tạo thuộc f1u : g1( ); f11 : g ( ) For t = 2,3… Lấy ft u có phân phối Bernoulli P( ft u g1 ) p,P( ft u g ) p U t : ht 1 f hu t u e t arg max xK Ut (t ).x eu t ut 1 : t t t l Lấy f t có phân phối Bernoulli P(f tl g1 ) p, P(f tl g ) p t L t : f hl t h 1 l e t arg max xK Lt (t ).x elt t t Lấy t+1 có phân phối từ {lt 1 , lt 1} lt 1 : t end for Hình Hai biên ngẫu nhiên Ut Lt hàm mục tiêu f Với ý tưởng chúng tơi đưa cải tiến thuật toán GOP giải toán suy diễn hậu nghiệm với LDA Chi tiết thuật tốn chúng tơi mơ tả Thuật toán THỬ NGHIỆM Để chứng minh hiệu thuật tốn đề xuất, chúng tơi tiến hành thực nghiệm hai liệu văn dài New York Times (NYT) bao gồm 300000 tin tức thời báo NYT PubMed bao gồm 330000 viết lên quan sức khỏe từ PubbMed Central1 Tham số mơ hình: 1 f K 100 , , , số lần lặp K K T = 50, 0,9 , Chúng sử dụng độ đo Log Predictive Probability (LPP) [2] Normalized Pointwise Mutual Information (NPMI) [7] để đánh giá phương pháp học Thay thuật toán OPE thuật toán Online-OPE [6] thuật toán GOP, Hai liệu lấy từ nguồn http://archive.ics.uci.edu/ml/datasets 126 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 chúng tơi thu Online-GOP để học mơ hình LDA Kết mơ thể Hình 2, Hình Hình với tham số p lựa chọn thích hợp Hình Độ đo LPP and NPMI mơ hình học Online-GOP với tham số Bernoulli p {0,3…, 0,7} kích thước mini-batch |Ct| = 25,000 Độ đo cao chất lượng mơ hình tốt KẾT LUẬN Sử dụng ngẫu nhiên để tạo thuật toán hiệu giải toán tối ưu không lồi, đáp ứng yêu cầu chất lượng tốc độ hội tụ, báo đề xuất GOP sử dụng phân phối Bernoulli với tham số p thích hợp thuật tốn tối ưu tốt cho toán suy diễn hậu nghiệm Kết thử nghiệm cho thấy thuật toán đề xuất hiệu so với kết có TÀI LIỆU THAM KHẢO Thông qua kết thử nghiệm, tham số p lựa chọn thích hợp ta thấy thuật tốn GOP hiệu OPE đánh giá tốt thuật tốn khác có [5] Đặc biệt lựa chọn tham số Becnoulli p phù hợp GOP tốt OPE hai độ đo LPP NPMI với hai liệu New York Time Pubmed Hình Độ đo LPP and NPMI mơ hình học Online-GOP với tham số Bernoulli p {0,1…, 0,9} kích thước mini-batch |Ct| = 5,000 Độ đo cao chất lượng mơ hình tốt [1] D M Blei, A Y Ng, and M I Jordan, 2003, Latent Dirichlet Allocation, Journal of machine Learning research, vol 3, no Jan, pp 993-1022 [2] M Hoffman, D M Blei, and D M Mimno, 2012, Sparse stochastic inference for Latent Dirichlet Allocation, Proceedings of the 29th International Conference on Machine Learning, ACM, pp 1599-1606 [3] Y W Teh, D Newman, and M Welling, 2007, A Collapsed Variational Bayesian inference algorithm for Latent Dirichlet Allocation, Advances in neural information processing systems, pp 1353-1360 [4] T L Griffiths and M Steyvers, 2004, Finding scientific topics, Proceedings of the National academy of Sciences, vol 101, pp 5228–5235 [5] T Khoat and D Tung, 2015, Guaranteed inference in topic models,” arXiv preprint arXiv:1512.03308 [6] D Sontag and D Roy, 2011, Complexity of inference in Latent Dirichlet Allocation, Neural Information Processing System (NIPS) [7] J H Lau, D Newman, and T Baldwin, 2014, Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality, Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp 530–539 Hình So sánh độ đo LPP NPMI mô hình học phương pháp khác Online-GOP thường tốt phương pháp đối sánh 127 ... 978-604-82-5957-0 ý tưởng phương pháp giải xấp xỉ ngẫu nhiên đưa vào sử dụng để giải toán suy diễn hậu nghiệm Tác giả [5] đề xuất thuật toán OPE để giải toán suy diễn véc tơ tỉ lệ chủ đề d cho văn d, sau OPE... xác suất hầu chắn Thuật toán Thuật toán GOP giải toán suy diễn hậu nghiệm với mơ hình chủ đề Đầu vào: Văn d, tham số Bernoulli p (0,1) tham số mơ hình {, } Đầu ra: nghiệm cực đại hóa hàm... tham số p thích hợp thuật toán tối ưu tốt cho toán suy diễn hậu nghiệm Kết thử nghiệm cho thấy thuật toán đề xuất hiệu so với kết có TÀI LIỆU THAM KHẢO Thơng qua kết thử nghiệm, tham số p lựa chọn