Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 145 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
145
Dung lượng
1,74 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN GIÁO VIÊN HƯỚNG DẪN KHOA HỌC: PGS.TS THÂN QUANG KHOÁT HÀ NỘI−2022 LỜI CAM ĐOAN Tôi xin cam đoan kết trình bày luận án cơng trình nghiên cứu thân nghiên cứu sinh thời gian học tập nghiên cứu Đại học Bách khoa Hà Nội hướng dẫn tập thể hướng dẫn khoa học Các số liệu, kết trình bày luận án hoàn toàn trung thực Các kết sử dụng tham khảo trích dẫn đầy đủ theo quy định Hà Nội, ngày tháng năm 2022 Nghiên cứu sinh Ngô Văn Linh GIÁO VIÊN HƯỚNG DẪN KHOA HỌC PGS.TS Thân Quang Khoát i LỜI CẢM ƠN Chặng đường làm nghiên cứu sinh hành trình dài đầy khó khăn thử thách Tôi thực trân trọng muốn gửi lời cảm ơn sâu sắc giúp đỡ, sẻ chia quý nhận suốt khoảng thời gian Đầu tiên, xin gửi lời cảm ơn sâu sắc tới PGS.TS Thân Quang Khoát Người thầy hướng dẫn người anh thân thiết Thầy đồng hành, dẫn động viên tơi nhiều suốt q trình nghiên cứu Tơi xin gửi lời cảm ơn tới thầy cô giảng dạy trường Công nghệ Thông tin Truyền thơng - Đại học Bách khoa Hà Nội, hỗ trợ, giúp đỡ nhiệt tình người Tơi xin gửi lời cảm ơn đến cộng sự, tới em sinh viên tích cực làm việc với dự án nghiên cứu Phịng thí nghiệm Khoa học liệu Tôi thực trân trọng khoảng thời gian mà miệt mài, chăm làm việc Tôi xin cảm ơn Công ty TNHH Đầu tư Phát triển đô thị Gia Lâm thuộc Tập đoàn Vingroup hỗ trợ Quỹ Đổi sáng tạo Vingroup (VINIF) Dự án mã số VINIF.2019.DA18 tài trợ cho thời gian nghiên cứu thực luận án Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình, bạn bè đồng nghiệp động viên, ủng hộ tơi suốt q trình nghiên cứu giúp tơi vượt qua giai đoạn khó khăn để đạt số kết ngày hôm ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ vi DANH MỤC HÌNH VẼ viii DANH MỤC BẢNG xi DANH MỤC KÝ HIỆU TOÁN HỌC xii MỞ ĐẦU CHƯƠNG KIẾN THỨC NỀN TẢNG 15 1.1 Mơ hình Bayes 15 1.1.1 Mơ hình Bayes tổng qt 15 1.1.2 Mơ hình chủ đề ẩn (Latent Dirichlet Allocation (LDA)) 17 1.1.3 Mơ hình Naive Bayes 20 1.2 Tổng quan học mơ hình Bayes luồng liệu 20 1.3 Các phương pháp học mơ hình Bayes luồng liệu 23 1.4 Tập liệu độ đo 28 1.4.1 Các tập liệu 28 1.4.2 Độ đo 30 1.5 Mạng đồ thị tích chập (Graph Convolutional Networks (GCN)) 31 1.6 Kết luận chương 32 CHƯƠNG KHAI THÁC TRI THỨC TIÊN NGHIỆM TRONG LUỒNG DỮ LIỆU 33 2.1 Giới thiệu 33 2.2 Biến đổi tri thức tiên nghiệm môi trường luồng liệu 35 2.2.1 Đề xuất phương pháp 35 2.2.2 Một số tính chất TPS 38 iii 2.3 Khai thác tri thức tiên nghiệm dạng vectơ từ 41 2.4 Khai thác tri thức tiên nghiệm dạng đồ thị 43 2.5 Thử nghiệm 47 2.5.1 Thử nghiệm TPS với Word2vec 49 2.5.2 Thử nghiệm GCTM với đồ thị tri thức 53 2.6 Kết luận chương 63 CHƯƠNG DROPOUT VỚI KHẢ NĂNG TỰ THÍCH NGHI CHO LUỒNG DỮ LIỆU 65 3.1 Giới thiệu 65 3.2 Dropout với khả tự thích nghi cho luồng liệu 67 3.2.1 Dropout vô hạn cho liệu luồng 67 3.2.2 Dropout vơ hạn với với khả tự thích nghi aiDropout 70 3.3 Áp dụng aiDropout cho mơ hình Bayes 72 3.3.1 Áp dụng 1: LDA mô hình sở 73 3.3.2 Áp dụng 2: NB mô hình sở 75 3.4 Một số thảo luận aiDropout 76 3.5 Thử nghiệm 82 3.5.1 Thử nghiệm liệu ngắn nhiễu 82 3.5.2 Đương đầu với thay đổi đột ngột dòng liệu 87 3.6 Kết luận chương 88 CHƯƠNG CÂN BẰNG GIỮA TÍNH ỔN ĐỊNH VÀ MỀM DẺO 90 4.1 Giới thiệu 90 4.2 Cân tính ổn định tính mềm dẻo 92 4.2.1 Mô hình cân tính ổn định mềm dẻo (BSP) 92 4.2.2 Quá trình huấn luyện BSP 94 4.2.3 Một số tính chất BSP 96 4.3 Thử nghiệm 99 4.3.1 Thử nghiệm tập văn ngắn nhiễu 100 4.3.2 Tính ổn định mềm dẻo 105 4.3.3 Đánh giá ảnh hưởng tham số 107 4.4 Kết luận chương 109 iv KẾT LUẬN 111 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 113 TÀI LIỆU THAM KHẢO 114 v DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt aiDropout Adaptive infinite Dropout Phương pháp Dropout vơ hạn với khả thích nghi luồng liệu BSP Balancing stability and plasticity Phương pháp cân tính ổn định tính mềm dẻo ELBO Evidence lower bound Cận chứng EWC Elastic weight consolidation Phương pháp trọng số quan trọng GCN Graph convolutional networks Mạng đồ thị tích chập GCTM Graph convolutional Topic Model Mơ hình chủ đề dựa đồ thị tích chập HPP Hierarchical Power Priors Tri thức tiên nghiệm dạng luỹ thừa phân cấp iDropout Infinite Dropout for Data Phương pháp Dropout vô hạn Streams luồng liệu KL Kullback-Leibler divergence Độ sai khác hai phân phối KPS Keeping Prior for Data Streams Phương pháp giữ tri thức tiên nghiệm học luồng liệu LDA Latent Dirichlet Allocation Mơ hình LDA LPP Log predictive probability Độ đo xác suất phán đoán Mini-batch Mini-batch Tập nhỏ liệu thu khoảng thời gian MLP Multi-layer percepton Mạng lan truyền tiến kết nối đầy đủ NPMI Normalized pointwise mutual in- Độ đo thông tin tương hỗ formation PCA Principal component analysis Phương pháp phân tích thành phần PVB Population Variational Bayes Suy diễn biến phân Bayes quần thể SVB Streaming Variational Bayes Suy diễn biến phân luồng vi SVB-PP Streaming Variational Bayes with Suy diễn biến phân luồng với tri Power Priors thức tiên nghiệm dạng luỹ thừa SVI Stochastic variational inference Suy diễn biến phân ngẫu nhiên TPS Transformation of Prior Knowl- Phương pháp biến đổi tri thức tiên edge for Data Streams nghiệm cho liệu luồng VCL Variational continual learning Phương pháp biến phân liên tục VI Variational inference Suy diễn biến phân Word2vec Word2vec Biểu diễn vector cho từ vii DANH MỤC HÌNH VẼ Tính tổng quát hóa phương pháp làm việc với liệu thưa nhiễu Tính tổng quát hóa phương pháp xảy thay đổi đột ngột dòng liệu 1.1 Biểu diễn đồ thị cho mơ hình Bayes tổng qt B(β, z, x) 16 1.2 Biểu diễn đồ thị mơ hình chủ đề (Latent Dirichlet Allocation (LDA)) 18 1.3 Biểu diễn đồ thị SV B học liệu luồng 23 1.4 Biểu diễn đồ thị KP S 24 2.1 Mô hình đồ thị biểu diễn cho TPS 37 2.2 TPS cho mơ hình LDA Tri thức tiên nghiệm η sử dụng mini-batch thông qua hàm biến đổi tri thức tham số hóa π 41 2.3 Mơ hình đồ thị biểu diễn cho GCTM 44 2.4 Khả tổng quát hóa phương pháp TPS so với phương pháp sở SVB [1], SVB-PP [2], PVB [3] KPS [4] LPP cao tốt 50 2.5 Tính gắn kết chủ đề phương pháp TPS so với phương pháp sở SVB [1], SVB-PP [2], PVB [3] KPS [4] NPMI cao tốt 50 2.6 Phân tích vai trò chế truyền tri thức tri thức tiên nghiệm LPP cao tốt 52 2.7 Phân tích tính nhạy cảm TPS theo σ 52 2.8 Độ nhạy TPS với tham số số chủ đề K 53 2.9 Độ nhạy TPS với kích thước mini-batch 54 2.10 Hiệu phương pháp đề xuất GCTM-WN GCTMW2V so với phương pháp sở SVB [1], SVB-PP [2] PVB [3] xét theo tính tổng quát hóa học từ nhiều liệu LPP cao tốt 56 viii ˇ [26] Gama J., Zliobait˙ e I., Bifet A., Pechenizkiy M., and Bouchachia A (2014) A survey on concept drift adaptation ACM computing surveys (CSUR), 46(4):p 44 [27] Krawczyk B and Cano A (2018) Online ensemble learning with abstaining classifiers for drifting and noisy data streams Applied Soft Computing, 68:pp 677–692 [28] McCloskey M and Cohen N.J (1989) Catastrophic interference in connectionist networks: The sequential learning problem In Psychology of learning and motivation, volume 24, pp 109–165 Elsevier [29] Nguyen C.V., Li Y., Bui T.D., and Turner R.E (2018) Variational continual learning In The International Conference on Learning Representations (ICLR) [30] Kirkpatrick J., Pascanu R., Rabinowitz N., Veness J., Desjardins G., Rusu A.A., Milan K., Quan J., Ramalho T., Grabska-Barwinska A., et al (2017) Overcoming catastrophic forgetting in neural networks Proceedings of the national academy of sciences, 114(13):pp 3521–3526 [31] Phan H., Tuan A.P., Nguyen S., Linh N.V., and Than K (2022) Reducing catastrophic forgetting in neural networks via gaussian mixture approximation In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 106–117 Springer [32] MacKay D.J and Mac Kay D.J (2003) Information theory, inference and learning algorithms Cambridge university press [33] Zhang C., Bă utepage J., Kjellstrăom H., and Mandt S (2018) Advances in variational inference IEEE transactions on pattern analysis and machine intelligence, 41(8):pp 2008–2026 117 [34] Blei D.M., Ng A.Y., and Jordan M.I (2003) Latent dirichlet allocation Journal of machine Learning research, 3(Jan):pp 993–1022 [35] Van Linh N., Anh N.K., Than K., and Dang C.N (2017) An effective and interpretable method for document classification Knowledge and Information Systems, 50(3):pp 763–793 [36] Fei-Fei L and Perona P (2005) A bayesian hierarchical model for learning natural scene categories In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), volume 2, pp 524– 531 IEEE [37] Rogers S., Girolami M., Campbell C., and Breitling R (2005) The latent process decomposition of cdna microarray data sets IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2(2):pp 143–156 [38] Hoffman M and Blei D (2010) Online learning for latent dirichlet allocation In NIPS [39] Wang C., Paisley J.W., and Blei D.M (2011) Online variational inference for the hierarchical dirichlet process In International conference on artificial intelligence and statistics, pp 752–760 [40] Ahn H., Cha S., Lee D., and Moon T (2019) Uncertainty-based continual learning with adaptive regularization In Advances in Neural Information Processing Systems, pp 4392–4402 [41] Powell W.B (2014) Clearing the jungle of stochastic optimization In Bridging data and decisions, pp 109–137 Informs [42] Powell W.B and Meisel S (2015) Tutorial on stochastic optimization in energy—part ii: An energy storage illustration IEEE Transactions on Power Systems, 31(2):pp 1468–1475 118 [43] Wainwright M.J and Jordan M.I (2008) Graphical models, exponential families, and variational inference Foundations and Trends in Machine Learning, 1(1-2):pp 1–305 [44] Tang J., Meng Z., Nguyen X., Mei Q., and Zhang M (2014) Understanding the limiting factors of topic modeling via posterior contraction analysis In Proceedings of The 31st International Conference on Machine Learning (ICML), pp 190–198 [45] Than K and Doan T (2015) Dual online inference for latent dirichlet allocation In Asian Conference on Machine Learning, pp 80–95 [46] Qiang J., Chen P., Wang T., and Wu X (2017) Topic modeling over short texts by incorporating word embeddings In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 363–374 Springer [47] Zhao H., Du L., and Buntine W (2017) A word embeddings informed focused topic model In Asian Conference on Machine Learning, pp 423– 438 [48] Li C., Wang H., Zhang Z., Sun A., and Ma Z (2016) Topic modeling for short texts with auxiliary word embeddings In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval , pp 165–174 [49] Mehrotra R., Sanner S., Buntine W., and Xie L (2013) Improving lda topic models for microblogs via tweet pooling and automatic labeling In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval , pp 889–892 [50] Quan X., Kit C., Ge Y., and Pan S.J (2015) Short and sparse text topic modeling via self-aggregation In Twenty-fourth international joint conference on artificial intelligence Citeseer 119 [51] Bicalho P., Pita M., Pedrosa G., Lacerda A., and Pappa G.L (2017) A general framework to expand short text for topic modeling Information Sciences, 393:pp 66–81 [52] Nguyen V.S., Nguyen D.T., Van L.N., and Than K (2019) Infinite dropout for training bayesian models from data streams In 2019 IEEE International Conference on Big Data (Big Data), pp 125–134 IEEE [53] Kurle R., Cseke B., Klushyn A., van der Smagt P., and Gă unnemann S (2020) Continual learning with bayesian neural networks for non- stationary data In International Conference on Learning Representations [54] Prescott Adams R and MacKay D.J (2007) Bayesian online changepoint detection ArXiv e-prints, pp arXiv–0710 [55] Li A., Boyd A., Smyth P., and Mandt S (2021) Detecting and adapting to irregular distribution shifts in bayesian online learning Advances in Neural Information Processing Systems, 34 [56] Devlin J., Chang M.W., Lee K., and Toutanova K (2019) Bert: Pretraining of deep bidirectional transformers for language understanding In Proceedings of the NAACL-HLT , pp 384–394 [57] Erhan D., Bengio Y., Courville A., Manzagol P.A., Vincent P., and Bengio S (2010) Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11:pp 625–660 [58] Turian J., Ratinov L., and Bengio Y (2010) Word representations: a simple and general method for semi-supervised learning In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics [59] Hinton G.E., Srivastava N., Krizhevsky A., Sutskever I., and Salakhutdinov R.R (2012) Improving neural networks by preventing co-adaptation of feature detectors arXiv preprint arXiv:1207.0580 120 [60] Mou W., Zhou Y., Gao J., and Wang L (2018) Dropout training, datadependent regularization, and generalization bounds In International Conference on Machine Learning, pp 3645–3653 [61] Hara K., Saitoh D., and Shouno H (2016) Analysis of dropout learning regarded as ensemble learning In International Conference on Artificial Neural Networks, pp 72–79 Springer [62] Duc A.N., Linh N.V., Anh N.K., Nguyen C.H., and Than K (2021) Boosting prior knowledge in streaming variational bayes Neurocomputing, 424:pp 143–159 [63] Russell S and Norvig P (2016) Artificial Intelligence: A Modern Approach Always learning Pearson ISBN 9781292153964 [64] Kingma D.P and Ba J (2014) Adam: A method for stochastic optimization In The International Conference on Learning Representations (ICLR) [65] Kingma D.P and Welling M (2014) Auto-encoding variational bayes In The International Conference on Learning Representations (ICLR) [66] Jang E., Gu S., and Poole B (2017) Categorical reparameterization with gumbel-softmax In International Conference on Learning Representation [67] Sontag D and Roy D (2011) Complexity of inference in latent dirichlet allocation In Advances in Neural Information Processing Systems, pp 1008–1016 [68] Zenke F., Poole B., and Ganguli S (2017) Continual learning through synaptic intelligence Proceedings of machine learning research, 70:p 3987 121 [69] Viet H., Phung D., and Venkatesh S (2015) Streaming variational inference for dirichlet process mixtures In Asian Conference on Machine Learning [70] Opper M and Winther O (1999) A bayesian approach to on-line learning Cambridge University Press [71] Bach S and Maloof M (2010) A bayesian approach to concept drift In Advances in Neural Information Processing Systems (NIPS), pp 127–135 [72] Lau J.H., Newman D., and Baldwin T (2014) Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality In EACL, pp 530–539 [73] Kipf T.N and Welling M (2017) Semi-supervised classification with graph convolutional networks In The International Conference on Learning Representations (ICLR) [74] Yao L., Mao C., and Luo Y (2019) Graph convolutional networks for text classification In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pp 7370–7377 [75] Bastings J., Titov I., Aziz W., Marcheggiani D., and Sima’an K (2017) Graph convolutional encoders for syntax-aware neural machine translation EMNLP , pp 1957–1967 [76] Hamilton W., Ying Z., and Leskovec J (2017) Inductive representation learning on large graphs Advances in neural information processing systems, 30 [77] Zhu Q., Feng Z., and Li X (2018) Graphbtm: Graph enhanced autoencoded variational inference for biterm topic model In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp 4663–4672 122 [78] Box G.E.P (1976) Science and statistics Journal of the American Statistical Association, 71(356):pp 791–799 [79] Huang Z., Chen H., and Zeng D (2004) Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering ACM Transactions on Information Systems (TOIS), 22(1):pp 116–142 [80] Liang J., Jiang L., Meng D., and Hauptmann A (2017) Leveraging multimodal prior knowledge for large-scale concept learning in noisy web data In Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval , pp 32–40 ACM [81] Yao L., Zhang Y., Wei B., Jin Z., Zhang R., Zhang Y., and Chen Q (2017) Incorporating knowledge graph embeddings into topic modeling In AAAI , pp 3119–3126 [82] Nguyen D.Q., Billingsley R., Du L., and Johnson M (2015) Improving topic models with latent feature word representations Transactions of the Association for Computational Linguistics, 3:pp 299–313 [83] Ideker T., Dutkowski J., and Hood L (2011) Boosting signal-to-noise in complex biology: prior knowledge is power Cell , 144(6):pp 860–863 [84] Andrzejewski D., Zhu X., and Craven M (2009) Incorporating domain knowledge into topic modeling via dirichlet forest priors In Proceedings of the 26th Annual International Conference on Machine Learning, pp 25–32 ACM [85] Andrzejewski D., Zhu X., Craven M., and Recht B (2011) A framework for incorporating general domain knowledge into latent dirichlet allocation using first-order logic In IJCAI , volume 22, p 1171 [86] Jagarlamudi J., Daumé III H., and Udupa R (2012) Incorporating lexical priors into topic models In EACL, pp 204–213 123 [87] Chen Z., Mukherjee A., Liu B., Hsu M., Castellanos M., and Ghosh R (2013) Leveraging multi-domain prior knowledge in topic models In Twenty-Third International Joint Conference on Artificial Intelligence [88] Faraji M., Preuschoff K., and Gerstner W (2018) Balancing new against old information: The role of puzzlement surprise in learning Neural computation, 30(1):pp 34–83 [89] Averell L and Heathcote A (2011) The form of the forgetting curve and the fate of memories Journal of Mathematical Psychology, 55(1):pp 25– 35 [90] Mikolov T., Sutskever I., Chen K., Corrado G.S., and Dean J (2013) Distributed representations of words and phrases and their compositionality In Advances in neural information processing systems, pp 3111–3119 [91] Pennington J., Socher R., and Manning C (2014) Glove: Global vectors for word representation In EMNLP , pp 1532–1543 [92] Doucet A., De Freitas N., and Gordon N (2001) An introduction to sequential monte carlo methods In Sequential Monte Carlo methods in practice Springer [93] Hong L and Davison B.D (2010) Empirical study of topic modeling in twitter In Proceedings of the first workshop on social media analytics, pp 80–88 ACM [94] Yan X., Guo J., Lan Y., and Cheng X (2013) A biterm topic model for short texts In Proceedings of the 22nd international conference on World Wide Web, pp 1445–1456 [95] Kingma D.P., Salimans T., and Welling M (2015) Variational dropout and the local reparameterization trick In Proceedings of the 28th Interna124 tional Conference on Neural Information Processing Systems - Volume , NIPS’15, p 2575–2583 MIT Press, Cambridge, MA, USA [96] Liu Y., Dong W., Zhang L., Gong D., and Shi Q (2019) Variational bayesian dropout with a hierarchical prior In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 7124–7133 [97] Gal Y., Hron J., and Kendall A (2017) Concrete dropout In Advances in neural information processing systems, pp 3581–3590 [98] Srivastava N., Hinton G., Krizhevsky A., Sutskever I., and Salakhutdinov R (2014) Dropout: a simple way to prevent neural networks from overfitting The Journal of Machine Learning Research, 15(1):pp 1929–1958 [99] Maddison C.J., Mnih A., and Teh Y.W (2017) The concrete distribution: A continuous relaxation of discrete random variables In 5th International Conference on Learning Representations, ICLR 2017 [100] Grathwohl W., Choi D., Wu Y., Roeder G., and Duvenaud D (2018) Backpropagation through the void: Optimizing control variates for black-box gradient estimation In 6th International Conference on Learning Representations, ICLR 2018 OpenReview.net [101] Yin M., Yue Y., and Zhou M (2019) ARSM: augment-reinforce-swapmerge estimator for gradient backpropagation through categorical variables In K Chaudhuri and R Salakhutdinov, editors, Proceedings of the 36th International Conference on Machine Learning, (ICML), volume 97 of Proceedings of Machine Learning Research, pp 7095–7104 PMLR [102] Goodfellow I., Bengio Y., and Courville A (2016) Deep learning MIT press 125 [103] Gupta P., Chaudhary Y., Runkler T., and Schă utze H (2020) Neural topic modeling with continual lifelong learning In International Conference on Machine Learning, pp 3907–3917 PMLR 126 PHỤ LỤC Phụ lục A: Quên tri thức tiên nghiệm SVB Phương pháp suy diễn biến phân luồng (Streaming variational Bayes (SVB)) [1] phương pháp phổ biến để giúp mơ hình Bayes làm việc với luồng liệu Nó giả thiết phân phối hậu nghiệm thời điểm đóng vai trị tiên nghiệm thời điểm Trong phần này, SVB quên nhanh tri thức tiên nghiệm Tốc độ quên O(T −1 ) với T số lượng mini-batch Một điều đáng ý tốc độ quên SVB nhanh tốc độ quên người Θ(T −0.67 ) [89] Chứng minh áp dụng cho LDA Chúng ta dễ dàng thu kết tương tự cho Naive Bayes SVB [1] học LDA luồng liệu thực cập nhật tham số mô hình: λt = (λtkv )K×V mini-batch t học liệu mini-batch Dt Chúng ta có: ˜t λt = λt−1 + λ ˜t = λ kv ϕdkv ndv (7.8) (7.9) d∈Dt k, v số chủ đề số từ từ điển tương ứng, ndv tần suất từ v d ϕdkv ≥ tham số phân phối biến phân để ước lượng xác suất chủ đề cho từ v văn d thỏa mãn điều kiện k ϕdkv = cho văn d từ v Định lý 7.1 Đặt λ0 tham số mô hình thời điểm ban đầu λt tham số mơ hình thu học LDA SVB sau t mini-batch Chúng ta có: ∥λt − λ0 ∥1 ≥ t, ∥λ0 ∥1 = O(t−1 ) · ∥λt ∥1 , (7.10) (7.11) Công thức λ0 bị quên nhanh với tốc độ O(t−1 ) mơ hình học λt Chứng minh Bởi k ˜ t ≥ 0, từ Eq 7.9 có : ϕdkv = λ kv ˜ t ||1 = ||λ ˜t = λ kv k v = ϕdkv ndv d∈Dt ndv d∈Dt v k v nd ≥ ϕdkv = k (7.12) d∈Dt Vì vậy, ∥λt − λ0 ∥1 = ||λ˜ + + λ˜ t || ≥ t Phụ lục B: Đánh giá định tính chất lượng chủ đề học phương pháp Tính diễn giải tiêu chí quan trọng cho mơ hình Kết từ mơ hình nên dễ hiểu với người Trong phần này, xem xét tính rõ ràng, diễn giải chủ đề học từ mơ hình LDA Trong số tình huống, số mơ hình khơng để học chủ đề rõ ràng cho miền cụ thể Để đánh giá tính rõ ràng, diễn giải, chúng tơi sử dụng tập liệu độ dài trung bình Grolier liệu độ dài ngắn NYT-title Chúng thử nghiệm với số lượng chủ đề ẩn K = 50 cho LDA, σ = 1.0 cho TPS, kích thước mini-batch 500 cho Grolier 5000 cho NYT-title Một số cấu hình cài đặt khác trình bày chương Bảng 7.3 trình bày từ quan trọng chủ đề quân đội mà phương pháp học liệu Goriler Bảng 7.4 trình bày từ quan trọng chủ đề kinh doanh liệu Irishtimes Chủ đề học từ TPS rõ ràng, từ liên hệ mật thiết ngữ nghĩa chung chứa từ nhập nhằng, lạc chủ đề Các phương pháp lại làm việc tốt tập liệu độ dài trung bình, làm việc không tốt tập liệu ngắn Rõ ràng, TPS cải thiện đáng kể chất lượng chủ đề tập liệu ngắn Điều chứng tỏ vai trị quan trọng tri thức tiên nghiệm làm việc với liệu ngắn Phụ lục C: TPS cho Naive Bayes Chúng so sánh TPS với SVB KPS áp dụng chúng cho mơ hình phân loại Naive Bayes (NB) với luồng liệu Chúng tơi tìm tham số tốt cho phương pháp Chương Tập liệu: Chúng sử dụng tập liệu Irishtimes với nhãn lớp (business, culture, news, opinion, sport letters) Chúng huấn luyện liên tục mô hình mini-batch đến, sau kiểm tra chất lượng phân loại mini-batch sau Mỗi mini-batch tập hợp liệu tháng Bảng 7.3: Một số chủ đề quân đội học từ liệu Grolier TPS war army naval navy commander command military forces air ship battle british SVB space air world soviet flight satelite war force ft nuclear launched km Accuracy 0.8 PVB war army american york united world military battle british forces civil illinois SVB KPS war king army german france french germany son military battle charles clied KPS SVB-PP war army military forces world naval british battle ship aircraft navy command TPS 0.7 Better than KPS (%) Better than SVB (%) 0.6 50 100 150 200 250 50 100 150 200 250 50 100 150 Minibatch 200 250 12 12 Hình 7.11: Độ xác phân loại phương pháp NB Tri thức tiên nghiệm: Chúng tơi trích xuất vectơ đặc trưng V chiều (bằng kích thước từ điển) cho lớp c Mỗi thành phần j vectơ đặc trưng tính dựa tỉ lệ số lượng văn xuất từ j xuất văn lớp c số lượng văn chứa từ j Sau đó, chúng tơi thu ma trận C × V cho tất lớp Chúng sử dụng vectơ C chiều từ cột Bảng 7.4: Chủ đề kinh doanh học từ liệu Irishtimes TPS sell world paln us stock cut buy rise trade profit china deal SVB world curope profit british unite business chemical consumer chairman magazine editor utility PVB sale profit run net bond series award rise sea human activist n.b.a KPS dollar year fall sale milion market news american stock trade jet drug SVB-PP buy company stake investor expand challenge asset mystery technology oversea telecom confusion ma trận để xây dựng biểu diễn cho từ Ma trận sử dụng làm tri thức tiên nghiệm cho SVB KPS Trong TPS, biểu diễn v ghép vectơ định danh (V chiều có chiều cịn chiều lại 0) vectơ dựa lớp (C chiều) để thu biểu diễn đủ phân tách trước đưa vào hàm chuyển đổi tri thức tiên nghiệm Kết thử nghiệm: Hình 7.11 trình bày độ xác phương pháp Hình nhỏ minh họa độ xác, hình nhỏ cịn lại thể hiệu tương đối TPS so với SVB KPS Sự hiệu tương đối TPS so với phương pháp A tính (T P S − A)/A Một quan sát rõ ràng TPS thu kết tương tự KPS 100 mini-batch đầu, sau tốt từ − 8.3% so với KPS phần cịn lại Chúng ta nhận thấy tri thức tiên nghiệm định nghĩa phù hợp với KPS, điều dẫn đến KPS thu độ xác cao Khoảng cách TPS KPS khác biệt lớn số lượng mini-batch tăng lên Ngược lại, SVB sử dụng tri thức tiên nghiệm bước thu độ xác thấp so với phương pháp lại Chú ý rằng, có số thời điểm liệu thay đổi đặc trưng, KPS SVB giảm sâu TPS TPS giảm tác động xấu từ thay đổi Điều đến từ việc khai thác hiệu tri thức tiên nghiệm môi trường luồng ˆ theo βkj Phụ lục D: Đạo hàm bậc L ˆ: Nhắc lại khai triển L D Nd V ˆ kj ) = L(β ϕdnk I[wdn = j] βkj ρkj d=1 n=1 j=1 D Nd (7.13) V V − exp βkj ρki ϕdnk I[wdn = j] log d=1 n=1 j=1 i=1 Với βkj = (πk η)j , để đơn giản tính tốn, ta tạm thời khơng quan tâm ˆ tham số Ta có: đến số t hàm mục tiêu L D Nd ˆ= ∇βkj L ϕdnk I[wdn = j] ρkj d=1 n=1 D Nd V (7.14) − ϕdnk I[wdn = v] d=1 n=1 v=1 ρkj exp βkj ρkj V i=1 exp (βki ρki ) Vì vậy: D ˆ ∇2βkj L Nd V ϕdnk I[wdn = v] ∇βkj = − d=1 n=1 v=1 ρkj exp βkj ρkj V i=1 exp (βki ρki ) (7.15) Ta định nghĩa: µkj = ∇βkj =− − ρkj exp βkj ρkj V i=1 exp (βki ρki ) ρ2kj exp(βkj ρkj ) ρkj exp(βkj ρkj ) + V i=1 exp (βki ρki ) (7.16) V i=1 exp (βki ρki ) = ρ2kj sof tmax (βk ⊙ ρk )j [sof tmax(βk ⊙ ρk )j − 1] Như vậy: D ˆ ∇2βkj L Nd V = µkj ϕdnk I[wdn = v] d=1 n=1 v=1 đây: µkj = ρ2kj sof tmax (βk ⊙ ρk )j [sof tmax(βk ⊙ ρk )j − 1] (7.17)