Tích hợp mạng đồ thị nhân chập vào mô hình chủ đề cho dữ liệu dòng

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Tích hợp mạng đồ thị nhân chập vào mơ hình chủ đề cho liệu dịng Trần Xn Bách tranxuanbach1412@gmail.com Ngành Khoa học máy tính Giảng viên hướng dẫn: PGS TS Thân Quang Khốt Viện: Viện Cơng nghệ Thơng tin Truyền thông HÀ NỘI, 3/2021 Chữ ký GVHD Lời Cảm Ơn Những năm tháng ngồi học giảng đường đọng lại ký ức sinh viên, học viên Vậy nên, em xin chân thành cảm ơn tới thầy cô giáo thuộc Viện Công Nghệ Thông Tin Truyền Thông người truyền đạt kiến thức quý báu cho chúng em Đặc biệt xin chân thành cảm ơn thầy ThS Ngơ Văn Linh PGS.TS Thân Quang Khốt tận tình hướng dẫn em việc làm luận văn tốt nghiệp việc nghiên cứu lab Và em xin chân thành cảm ơn tới thầy cô thành viên Data Science Lab tạo nhiều điều kiện nhiệt tình giúp đỡ em trình làm việc lab Em xin gửi lời cảm ơn tới gia đình người bạn thân người bên cạnh động viên em gặp khó khăn Nghiên cứu tài trợ Công ty TNHH Đầu tư Phát triển thị Gia Lâm thuộc Tập đồn Vingroup hỗ trợ Quỹ Đổi sáng tạo Vingroup (VINIF) Dự án mã số VINIF.2019.DA18 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 Tóm Tắt Luận Văn Hiện có lượng lớn liệu văn đến liên tục (dòng liệu) từ nhiều nguồn tạp chí, trang mạng Do việc khai phá lượng liệu có vai trò quan trọng số lĩnh vực gợi ý sản phẩm, phân tích xu hướng người dùng Để khai thác phân tích lượng liệu người thường xun sử dụng mơ hình chủ đề để học chủ đề ẩn liên quan đến liệu Tuy nhiên, học chủ đề ẩn từ dòng liệu phải đổi mặt với thách thức concept drift liệu thưa ngắn Do vậy, sử dụng tri thức để làm giàu mơ hình chủ đề giải pháp tiềm để giải vấn đề Nguồn tri thức đến từ người Wordnet từ mơ hình huấn luyện Word2vec, tri thức chứa nhiều thông tin hữu ích có nhiều giá trị việc giúp mơ hình chủ đề hoạt động tốt Hiện nay, mơi trường dịng liệu mà liệu đến liên tục vô hạn, tồn số phương pháp hoạt động môi trường phương pháp bị hạn chế việc khai thác tri thức cách hiệu Đặc biệt, đồ thị tri thức chứa quan hệ từ bị loại bỏ (không sử dụng, khai thác) Trong luận văn này, tập chung vào việc giải thách thức gặp phải môi trường liệu dòng concept drift, liệu thưa ngắn thơng qua việc tích hợp thêm đồ thị tri thức từ đề xuất phương pháp gọi Graph Convolutional Topic Model (GCTM), phương pháp tích hợp mạng đồ thị nhân chập (GCN) vào mơ hình chủ đề phương pháp học đồng thời mạng nơ-ron mơ hình chủ đề mơi trường dịng liệu Tại minibatch GCTM không khai thác đồ thị tri thức mà cân tri thức bên tri thức cũ học từ minibatch trước để hoạt động tốt liệu đến Chúng xây dựng chi tiết kịch thử nghiệm để đánh giá mơ hình đề xuất với đồ thị tri thức (Wordnet) đồ thị xây dựng từ mơ hình huấn luyện (word2vec) Kết thực nghiệm phương pháp đề xuất tốt đáng kể so với phương pháp sở hai độ đo khả dự đốn mơ ngữ nghĩa chủ đề học Phương pháp đề xuất đương đầu tốt với liệu ngắn concept drift Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 Mục lục Giới thiệu Cơ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 sở lý thuyết Một số khái niệm Mơ hình LDA Mơ hình hóa cho phương pháp học dịng Phương pháp học Streaming Variational Bayes Phương pháp học Hierarchical Power Priors Phương pháp học Population Variational Bayes Mạng đồ thị nhân chập 12 12 12 16 17 21 24 27 Graph Convolutional Topic Model (GCTM) 30 3.1 Mơ hình đề xuất 30 3.2 Quá trình học GCTM 32 3.3 Nhận xét 34 Đánh giá kết thực nghiệm 4.1 Dữ liệu 4.2 Đánh giá thực nghiệm liệu khơng có nhãn thời gian 4.3 Đánh giá thực nghiệm liệu có nhãn thời gian 4.4 Đánh giá thực nghiệm liệu nhiễu 4.5 Đánh giá thực nghiêm với concept drift catastrophic forgetting 4.6 Đánh giá thực nghiệm chi tiết 4.6.1 Làm giàu đồ thị Wordnet cách biểu dùng biểu diễn Word2vec cho từ 4.6.2 Đánh giá chi tiết GCTM-WN với tham số 36 36 39 41 42 43 46 Kết luận 50 Tài liệu tham khảo 51 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 47 47 Danh sách từ viết tắt thuật ngữ Concept drift Là tượng chủ đề thay đổi đột ngột mơi trường dịng liệu Catastrophic forgetting Là tượng mơ hình học nhiều liệu quên tri thức cũ học từ lâu LDA Latent Dirichlet Allocation Mult Phân phối đa thức Dir Phân phối Dirichlet VB Variational Bayes Prior knowledge Tri thức bên Topic proportion Tỉ lệ chủ đề Bag of word Cách biểu diễn văn Variational Inference Suy diễn biến phân Variational distribution Phân phối biến phân Minibatch Là tập liệu nhỏ Short text Là văn có độ dài ngắn Origin Nguyên Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 Danh sách kí hiệu dùng đồ án ψ Hàm Digamma Γ Hàm Gamma K Số chủ đề sử dụng mơ hình LDA V Kích thước từ vựng tập văn π Là ma trận biến đổi tuyến tính f Là hàm biến đổi β Ma trận (K,V) hàng xác suất từ chủ đề θ Vectơ tỷ lệ chủ đề văn wn Từ thứ n văn zn Chủ đề từ thứ n văn dj Số lượng từ thứ j văn d η Tri thức bên α Tham số phân phối tiên nghiệm cho θ γ Tham số phân phối biến phân ứng với θ φ Tham số phân phối biến phân ứng với z Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 Danh sách hình vẽ 10 11 12 13 14 15 16 Mơ tả trực quan mơ hình chủ đề Mơ hình đồ thị biểu diễn mơ hình LDA Suy diễn biến phân cho LDA Mơ hình đồ thị tổng qt Mô hình minh họa GCN Mơ hình đồ thị biểu diễn cho GCTM Hiệu phương pháp với độ đo LPP Hiệu phương pháp tập liệu Irishtimes Hình (a) kết với liệu thực tế, Hình (b) kết với liệu mô Hiệu phương pháp liệu nhiễu với độ đo LPP Hiệu phương pháp đương đầu với concept drift (Kịch 1) Hiệu phương pháp đương đầu với concept drift (Kịch 2) Hiệu phương pháp tượng catastrophic forgetting (Kịch 1) Hiệu phương pháp tượng catastrophic forgetting (Kịch 2) Hiệu GCTM-WN-W2V, GCTM-WN GCTM-W2V Hiệu GCTM-WN với giá trị tham số σ Hiệu GCTM-WN với giá trị tham số K Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 12 13 15 17 30 30 39 41 42 44 45 45 46 47 48 48 Giới thiệu Hiện với việc phát triển kinh tế đời sống nâng cao lượng người tiếp cận với Internet gia tăng theo thời gian Song song với việc lượng liệu tăng nhanh theo thời gian theo thống kê từ trang forbes phút Twitter có 456000 đăng, Facebook có 510000 viết bình luận sinh Việc khai thác lượng liệu giúp ích nhiều cho cơng ty để đưa chiến dịch phù hợp Các nhà nghiên cứu liệu phân tích liệu cho mục đích khác như: • Phân tích cảm xúc người khía cạch • Phân loại viết chủ đề • Phân tích xu hướng, quan tâm người Hiện có số hướng tiếp cận để khai thác lượng liệu Trong đó, mơ hình chủ để hướng tiếp cận hiệu để học chủ đề ẩn cấu trúc liệu Latent Dirichlet Allocation (LDA) [Blei et al., 2003] kiến trúc phổ biến sử dụng rộng rãi lĩnh vực khai phá liệu văn [Van Linh et al., 2017], hệ gợi ý [Le et al., 2018], xử lý ảnh [Fei-Fei and Perona, 2005], tin sinh [Rogers et al., 2005], etc Gần đây, việc tích hợp tri thức bên ngồi vào mơ hình LDA phát triển mạnh mẽ cách tiếp cận để cải thiện độ hiệu mơ hình gốc Tri thức sử dụng thường đến từ số nguồn như: tri thức người ( seed word [Lin et al., 2012, Le et al., 2016], Wordnet [Alkhodair et al., 2018]) từ mơ hình huấn luyện từ lượng lớn liệu để học biểu diễn cho từ (Word2vec) [Zhao et al., 2017,Li et al., 2016] Do đó, tri thức làm giàu cải thiện độ hiệu mơ hình chủ đề Do liệu liên tục tăng nhanh, thật khó để phương pháp truyền thống học môi tĩnh (biết tồn liệu khơng thay đổi q trình học) hoạt động Bên cạnh khó biết lượng liệu học có phù hợp để đưa dự đốn hay khơng ví dụ xu hướng thời trang xuất theo mùa năm thật khó để dự đốn mơ hình học từ liệu cũ (không liên quan đến xu hướng tại) Vậy nên việc phát triển phương pháp học cho dòng liệu trở nên cần thiết phải đối mặt với số vấn đề [Than et al., 2019]: https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data-do-we-createevery-day-the-mind-blowing-stats-everyone-should-read/#5075ac0c60ba Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 • Concept drift: Các phương pháp truyền thống giả sử toàn giữ liệu sinh từ mơ hình Giả sử khơng mơi trường dịng liệu mơ hình thay đổi theo thời gian (thời điểm xuất thay đổi gọi concept drift) • Catastrophic forgetting: Là tượng mơ hình qn tri thức học từ đầu (học từ lâu so với hiên tại) học nhiều tri thức từ liệu Hiên tượng khơng thể tránh kể quên tri thức cũ học từ lâu không sử dụng • Overfitting: Là vấn đề nghiêm trọng học máy (học tốt liệu huấn luyện lại khơng tốt việc dự đốn liệu kiểm tra) Một mơ hình Bayes thường bị overfitting đương đầu với liệu thưa nhiễu • Khả cân tri thức cũ Trong luận văn tơi tập trung vào hai thách thức cần giải quyết: • Concept drift khả cân thơng tin: phương pháp học phải thích nghi tốt với liệu không sử dụng liệu cũ Để giải vấn đề cách hiệu cần phải giải vấn đề tính ổn định mềm dẻo mơ hình ( stability-plasticity dilemma) [Mermillod et al., 2013, Nguyen et al., 2018, Kirkpatrick et al., 2017, Ritter et al., 2018, Nguyen et al., 2019] Cụ thể, môi trường dịng liệu (dữ liệu đến liên tục) concept drift xuất Một phương pháp học nên có chế để giữ tri thức học từ liệu khứ Tri thức giúp mơ hình làm việc tốt với liệu có đặc trưng giống với liệu khứ Đồng thời nên mềm dẻo để học concept xuất • Overfitting: liệu thưa nhiễu thường xuất mơi trường dịng liệu gây nên khó khăn cho phương pháp học [Mai et al., 2016, Ha et al., 2019, Tuan et al., 2020] Trong liệu thưa ngắn không cung cấp ngữ cảnh rõ ràng, liệu nhiễu gây nhầm lẫn Dẫn đến khả tổng qt hóa mơ hình học bị giới hạn Hướng giải quyết, khai thác đồ thị tri thức giải pháp khả thi để giải thách thức Có thể thấy đồ thị tri thức đến từ tri thức người (Wordnet) từ mơ hình huấn luyện chứa nhiều thơng tin hữu ích việc làm giàu mơ hình chủ đề Từ giải Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 10 vấn đề liệu ngắn thưa mơi trường dịng liệu Hơn nữa, đồ thị tri thức (Wordnet đồ thị huấn luyện liệu lớn) chứa nhiều quan hệ có ý nghĩa từ dường không thay đổi concept drift xảy Vì thế, tích hợp đồ thị tri thức vào mơ hình chủ đề nên xem xét để giải vấn đề concept drift mơi trường dịng liệu Mặc dù nghiên cứu [Li et al., 2019,Wang et al., 2019,Yao et al., 2017,Chen et al., 2013] khai thác hiệu đồ thị tri thức môi trường tĩnh họ không cân nhắc việc đối mặt với mơi trường dịng liệu phương pháp khơng hoạt động mơi trường dịng liệu liệu đến liên tục vô hạn Trong khi, số phương pháp gần [Broderick et al., 2013, Masegosa et al., 2017, Nguyen et al., 2018] đương đầu với dòng liệu (các phương pháp học liệu lần không lặp lại liệu q khứ) Nhưng phương pháp khơng có chế để khai thác tri thức bên ngồi có chế khai thác khai thác dạng tri thức cụ thể dạng vector Một ý tưởng ẩn sau phương pháp phân phối hậu nghiệm học từ minibatch sử dụng làm tri thức tiên nghiệm cho minibatch Trong minibatch, có hai phân phối tiên nghiệm: phân phối tiên nghiệm gốc khởi tạo minibatch tri thức tiên nghiệm đến từ phân phối hậu nghiệm học từ minibatch trước Hầu hết phương pháp [Broderick et al., 2013, Nguyen et al., 2018, Kirkpatrick et al., 2017, Ritter et al., 2018] sử dụng tri thức tiên nghiệm gốc minibatch loại bỏ minibatch Một số phương pháp [Masegosa et al., 2017, Anh et al., 2017] khai thác tri thức tiên nghiệm cách đồng thời Tuy nhiên, phương pháp không cung cấp cách để khai thác đồ thị tri thức Có hai vấn đề giải để khai thác đồ thị tri thức cách hiệu mơi trường dịng liệu • Thứ nhất, tồn phương pháp loại bỏ tri thức tiên nghiệm [Brod- erick et al., 2013,Kirkpatrick et al., 2017,Nguyen et al., 2018] yêu cầu tri thức tiên nghiệm dạng vetor [Anh et al., 2017, Duc et al., 2021] Trong thực tế, phương pháp khai thác đồ thị tri thức Wordnet đồ thị huấn luyện Đối vấn đề này, mạng đồ thị nhân chập (GCN) [Kipf and Welling, 2017] giải pháp tiềm để nhũng đồ thị tri thức vào không gian chủ đề Nhờ việc GCN má hóa quan hệ cấu trúc đồ thị, nên GCN học đồ thị nhũng tốt để làm giàu mơ hình chủ đề Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 40 Bảng 2: Kết phương pháp với độ đo NMPI Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB Agnews 0.287 0.005 0.263 0.005 0.018 Agnews-title -0.026 -0.067 -0.114 -0.111 -0.107 TMN 0.0791 0.073 -0.015 -0.054 -0.019 TMN-title 0.032 0.021 -0.103 -0.105 -0.090 NYT-title 0.266 0.246 -0.069 -0.065 -0.069 Yahoo-title 0.171 0.173 -0.087 -0.088 -0.076 Do phần lớn tập liệu khơng có nhãn thời gian ngoại trừ tập liệu Irishtimes, nên kịch đánh giá mô dựa theo [Broderick et al., 2013, McInerney et al., 2015] Đánh giá liệu (TMN, TMNtitle, Agnews, Agnews-title, Yahoo-title, and NYT-title) Với liệu chọn ngẫu nhiên tập liệu kiểm tra ( với văn có độ dài lớn từ) văn lại hốn vị chia thành minibatch với kích thước batchsize cố định trình huấn luyện batchsize 500 liệu TMN, TMN-title, 1000 liệu Agnews, Agnews-title, 5000 liệu Yahoo-title, NYT-title Thông tin chi tiết liệu thống kê Bảng Đối với độ đo LPP: Như Hình cho thấy phương pháp đề xuất (GCTMWN GCTM-W2V) cho kết cao nhiều so với phương pháp sở, từ rút số nhận xét sau: Thứ nhất, thấy đồ thị tri thức có chứa nhiều thơng tin giúp phương pháp đề xuất đạt kết tốt phương pháp sở không dùng đồ thị tri thức Thứ hai, phương pháp đề xuất có kết thấp phương pháp sở số minibatch ban đầu số lượng tham số cần học lớn dẫn đến cần thêm nhiều liệu để học khác kích thước minibatch cần số lượng minibatch khác để phương pháp sở Thứ ba, kết phương pháp sở tăng số minibatch đầu sau giảm đáng kể tập liệu ngắn đồng nghĩa với việc phương pháp sở hoạt động tốt trường hợp liệu ngắn có nhiều liệu Tuy nhiên phương pháp đề xuất sử dụng đồ thị tri thức hoạt động tốt trường hợp liệu ngắn Cuối cùng, so với phương pháp sở, cải thiện phương pháp GCTM liệu ngắn (Agnews-title TMN-title) đáng kể liệu bình thường (Agnews TMN) Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 41 Đối với độ đo NPMI kết đưa Bảng phương pháp đề xuất tốt đáng kể so với phương pháp sở dùng đồ thị tri thức từ wordnet word2vec Do Wordnet Word2vec chứa thông tin từ ngữ nghĩa ngữ cảnh giúp mơ hình LDA học chủ đề có nghĩa hơn, gắn kết Bên cạnh với liệu thông thường (Agnews and TMN) thường chữa cặp từ đồng xuất nhiều so với liệu ngắn, phương pháp tốt liệu thông thường Hơn nữa, phương pháp đề xuất tốt nhiều so với phương pháp sở liệu ngắn Đối với đồ thị trị thức khác ảnh hưởng đến hiểu phương pháp đề xuất Trong đồ thị tri thức từ Word2vec tốt Wordnet việc cải thiện khả phán đốn mơ hình mặt ngữ nghĩa đồ thị tri thức từ Wordnet cho hiệu tốt so với word2vec 4.3 Đánh giá thực nghiệm liệu có nhãn thời gian (a) (b) −8.8 LPP LPP −9.0 −9.6 SVB −10.2 100 200 Minibatch SVB-PP −9.6 PVB 100 200 Minibatch GCTM-WN GCTM-W2V Hình 8: Hiệu phương pháp tập liệu Irishtimes Hình (a) kết với liệu thực tế, Hình (b) kết với liệu mơ Do có tập liệu Irishtimes có thơng tin thời gian nên luận văn thực nghiệm thực tế với liệu Về vấn đề cài đặt thực nghiệm, coi văn tháng dùng làm minibatch Trong huấn luyện, mơ hình học liệu theo tháng liên tiếp dùng tháng để đo khả dự đoán mơ hình Bên cạnh luận văn đánh giá liệu mơ với kích thước minibatch cố định 5000 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 42 Bảng 3: Hiệu phương pháp với độ đo NPMI tập liệu Irishtimes Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB Dữ liệu thực 0.127 0.124 -0.068 -0.083 -0.082 Dữ liệu mô 0.002 0.002 -0.068 -0.072 -0.065 tập liệu kiểm tra 10000 văn Kết khả dự đốn mơ hình ghi nhận Hình Trong Hình 8(a) kết với kịch thực tế, Hình 8(b) đưa kết qua với kịch mô Đối với hai kịch phương pháp đề xuất tốt phương pháp sở Trong kịch thực tế kết phương pháp đề xuất bị giao động so với kịch mơ kịch thực tế liệu kiểm tra liên tục thay đổi theo tháng kịch mơ trích số văn để đánh giá suốt trình học.Đối với độ đo mặt ngữ nghĩa Bảng phương pháp đề xuất tốt phương pháp sở đáng kể 4.4 Đánh giá thực nghiệm liệu nhiễu Yahoo-title Twitter −7.5 LPP LPP −8.8 −9.0 −9.6 40 80 Minibatch SVB SVB-PP −10.5 PVB 100 200 Minibatch GCTM-WN GCTM-W2V Hình 9: Hiệu phương pháp liệu nhiễu với độ đo LPP Trong phần đánh giá phương pháp liệu nhiễu Yahootitle Twitter datasets Trong liệu Twitter thu thập mạng Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 43 Bảng 4: Hiệu phương pháp liệu nhiễu với độ đo NPMI Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB Yahoo-title 0.171 0.173 -0.087 -0.088 -0.076 Twitter -0.010 -0.062 -0.060 -0.047 -0.009 xã hội twitter10 , liệu Yahoo-title thu thập từ diễn đàn hỏi trả lời Yahoo11 Vì liệu thường không trang trọng chữa nhiều nhiễu dùng liệu để đánh giá phương pháp đương đầu với liệu nhiễu Hình Bảng đưa hiệu phương pháp khả dự đốn mơ mặt ngữ nghĩa chủ đề học Đối với liệu nhiễu khơng khơng cấp đủ từ đồng xuất thông tin mà cịn gây nhầm lẫn Như kết rằng, LPP phương pháp sở giảm có thêm nhiều liệu Hơn nữa, NPMI phương pháp sở không tốt Bằng cách sử dụng thêm tri thức đồ thị phương pháp đề xuất cho kết tốt phương pháp sở hai độ đo đánh giá Từ thấy việc sử dụng thêm đồ thị tri thức cách hiệu để giải vấn đề đương đầu với liệu ngắn thưa 4.5 Đánh giá thực nghiêm với concept drift catastrophic forgetting Concept drift: Trong luận văn để đánh giá phương pháp đương đầu với concept drift mô concept drift liệu Irishtimes (dữ liệu gồm văn thuộc lớp khác "News", "Opinion", "Sport", "Lifestyle", "Business", "Culture") Dữ liệu concept drift mô thông qua việc chia liệu thành minibatch với điều kiện: văn minibatch phải thuộc lớp minibatch thuộc lớp liên tiếp q trình huấn luyện Do liệu khơng cân giữ lớp nên kích thước minibatch xét cố định 2000 Tương tự kịch với liệu thực liệu minibatch sau dùng làm liệu kiểm tra cho bước Concept drift xuất liệu đến thuộc lớp Do mơ hình cần phải nhanh thích nghi với liệu lớp 10 11 http://twitter.com/ https://answers.yahoo.com/ Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 LPP 44 −8 −9.0 −9 −10.5 90 100 110 120 −10 130 −8 −9 −10 LPP −8.8 −9.6 510 520 530 540 150 540 160 550 170 560 180 570 580 LPP −7.5 −9.0 −10.5 100 SVB 200 300 400 Minibatch SVB-PP 500 GCTM-WN 600 700 PVB Hình 10: Hiệu phương pháp đương đầu với concept drift (Kịch 1) đến Trong luận văn xây dựng kịch với thứ tự lớp khác Số lượng văn lớp "News" nhiều nhiều so với lớp khác Thứ tự lớp là: kịch ( "News", "Opinion", "Sport", "Lifestyle", "Business", "Culture") kịch ("Sport", "Opinion", "News", "Lifestyle", "Business", "Culture") Hình 10 11 hiệu phương pháp kịch Mỗi hình gồm hình nhỏ bảo gồm: hình nhỏ chữa thơng tin concept drift xảy hình kết tồn liệu Hình hai Hình 10 11 phương pháp đề xuất đạt kết cao so với phương pháp sở Do có chế cần nên phương pháp đề xuất SVB-PP làm giảm ảnh hưởng tri thức cũ học từ liệu trước cân với tri thức học từ liệu thuộc lớp Từ kết thấy tri thức đồ thị giúp phương pháp đề xuất cho kết tốt SVB-PP, Hơn từ hình nhỏ thấy phương pháp đề xuất giảm nhỏ phương pháp sở giảm mạnh Sau vài minibatch phương pháp đề xuất đạt kết ổn định Từ thấy phương pháp đề xuất nhanh thích nghi với lớp đương đầu tốt với concept Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 45 LPP −8.0 −8.8 LPP −9.6 340 350 360 370 380 −8 −9 −10 −9 −10 510 520 530 −8 −9 −10 540 400 540 410 550 420 560 430 570 580 LPP −7.5 −9.0 −10.5 100 200 SVB 300 400 Minibatch SVB-PP 500 600 GCTM-WN 700 PVB Hình 11: Hiệu phương pháp đương đầu với concept drift (Kịch 2) Irishtimes LPP −9.0 −9.3 News SVB Opinion SVB-PP Sport Lifestyle Business Culture Class PVB GCTM-WN GCTM-W2V Hình 12: Hiệu phương pháp tượng catastrophic forgetting (Kịch 1) drift Catastrophic forgetting: Trong luận văn kiểm tra tượng catastrophic forgetting vấn đề phương pháp quên tri thức học học nhiều liệu Dựa theo độ đo đánh giá toán continual Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 46 Irishtimes LPP −8.75 −9.00 −9.25 SVB Sport Opinion SVB-PP News Lifestyle Business Culture Class PVB GCTM-WN GCTM-W2V Hình 13: Hiệu phương pháp tượng catastrophic forgetting (Kịch 2) learning [Nguyen et al., 2018,Kirkpatrick et al., 2017,Ritter et al., 2018] để đánh giá vấn đề forgetting Về chi tiết, sử dụng kịch thử nghiệm tương tự kịch concept drift, nhiên lợp trích 2000 văn để làm liệu đánh giá Sau huấn luyện xong tất liệu lớp tính trung bình LPP tất liệu đánh giá lớp học Giá trị trung bình LPP lớn tốt phương pháp đương đầu với vấn đề quên tri thức học Hình 12 Hình 13 giá trị trung bình LPP phương pháp sau lớp huấn luyện Từ kết thấy phương pháp đề xuất đạt kết tốt so với phương pháp đề xuất phần lớn số lần đánh giá Phương pháp đề xuất phương pháp sở số lớp như: lớp "Sport" Hình 12 lớp "News" "Lifestyle" Hình 13 Vì thế, kịch phương pháp đề xuất khơng nhanh thích nghi với concept drift mà giảm tượng catastrophic forgetting so với phương pháp sở Cũng có nghĩa phương pháp đề xuất đương đầu với plasticity-stability dilemma tốt phương pháp sở Tuy nhiên, phương pháp đề xuất đương đầu tốt với concept drift catastrophic forgetting 4.6 Đánh giá thực nghiệm chi tiết Trong phần đánh giá chi tiết ảnh hưởng của tham số phương pháp đề xuất ảnh hưởng phương pháp đề xuất với độ thị tri thức từ wordnet biểu diễn đỉnh word2vec Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 47 4.6.1 Làm giàu đồ thị Wordnet cách biểu dùng biểu diễn Word2vec cho từ LPP −8 −9 −10 150 −8.6 −7.50 −8.8 −7.75 40 300 Yahoo-title −8.0 80 LPP −8.8 Minibatch GCTM-WN 40 TMN −7.8 −8.4 −8.7 80 20 Agnews −8.4 40 TMN-title Agnews-title NYT-title 40 80 Minibatch GCTM-W2V −9.0 20 40 Minibatch 60 GCTM-WN-W2V Hình 14: Hiệu GCTM-WN-W2V, GCTM-WN GCTM-W2V Trong luận văn khai thác đồ thị tri thức wordnet biều diễn đỉnh từ word2vec để tạo GCTM-WN-W2V So sánh giữ GCTM-WN-W2V với GCTM-WN GCTM-W2V không dùng biểu diễn đỉnh Hình 14 GCTM-WN-W2V tốt GCTM-WN GCTM-W2V liệu: Yahoo-title, Agnews, and TMN-title Cũng đạt kết ngang tập liệu khác Từ thấy GCTM-WN-W2V tốt GCTM-WN có nghĩa khai thác tốt biểu diễn đỉnh đồ thị tri thức để thiện độ hiệu GCTM 4.6.2 Đánh giá chi tiết GCTM-WN với tham số Trong phần đánh giá tri tiết tham số phương pháp đề xuất GCTM w.r.t σ số lượng chủ đề K Sử dụng kịch cố đinh batchsize (1000) để đánh giá tập liệu: Agnews and Agnews-title sử dụng độ đo LPP Đánh giá chi tiết GCTM-WN với tham số σ : Hình 15 cho thấy kết đánh giá K cố định 100 σ thay đổi Có thể thấy với giá trị khác σ làm cho kết thay đổi Hơn nữa, ảnh hưởng Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 48 Agnews Agnews-title −8.8 LPP LPP −8.8 −9.6 −10.4 −9.2 −9.6 40 80 Minibatch σ 2=0.01 σ 2=0.1 40 80 Minibatch σ 2=1 σ 2=10 σ 2=100 Hình 15: Hiệu GCTM-WN với giá trị tham số σ Agnews −8.8 −9.0 LPP LPP Agnews-title −8.5 −9.6 −9.5 −10.4 30 60 Minibatch K=50 90 30 K=100 K=150 60 Minibatch 90 K=200 Hình 16: Hiệu GCTM-WN với giá trị tham số K σ lên liệu ngắn bình thường khác GCTM-WN liệu ngắn dao động so với liệu bình thường Tuy nhiên, σ = 0.1 (σ = 0.01) làm cho hiệu GCTM-WN tập liệu Agnews and Agnews-title ˜) thấp σ cung cấp cách để điều chỉnh ảnh hưởng biến toàn cục (β W tới minibatch Với giá tri σ nhỏ ràng buộc biến tới minibatch sau chặt Vì thế, với giá trị σ nhỏ (σ = 0.1) nguyên nhân GCTM-WN tệ việc học thêm tri thức từ minhibatch hiên Đánh giá chi tiết GCTM-WN với tham số K : Hình 16 kết số lượng chủ đề K thay đổi σ = Kết LPP GCTM-WN ổn định tập liệu Agnews K thay đổi Trên tập liệu Agnews-title, K = 50 làm cho kết qủa GCTM-WN giảm Thêm thông tin Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 49 từ đồng xuất làm cho mơ hình LDA giảm nhầm lẫn giữ chủ đề Vì , GCTM-WN bị ảnh hưởng liệu thông thương liệu ngắn Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 50 Kết luận Trong luận văn đề xuất phương pháp tích hợp mạng đồ thị nhân chập vào mơ hình chủ đề để khai thác đồ thị tri thức Hơn nữa, phương pháp học đồng thời mạng đồ thị nhân chập với mơ hình chủ đề mơi trường dịng liệu Đáng ý, phương pháp đề xuất mở rộng áp dụng cho lớp mơ hình xác suất Các kịch đánh giá chi tiết phương pháp đề xuất làm việc tốt với liệu ngắn concept drift Phương pháp đề xuất tốt đáng kể so với phương pháp sở khả dự đoán mạch lạc chủ đề Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 51 Tài liệu tham khảo Tài liệu [Alkhodair et al., 2018] Alkhodair, S A., Fung, B C., Rahman, O., and Hung, P C (2018) Improving interpretations of topic modeling in microblogs Journal of the Association for Information Science and Technology, 69(4):528–540 [Anh et al., 2017] Anh, N D., Linh, N V., Anh, N K., and Than, K (2017) Keeping priors in streaming bayesian learning In Advances in Knowledge Discovery and Data Mining: 21st Pacific-Asia Conference, PAKDD 2017, pages 247–258 [Blei et al., 2003] Blei, D M., Ng, A Y., and Jordan, M I (2003) Latent dirichlet allocation Journal of Machine Learning Research, 3(Jan):993–1022 [Broderick et al., 2013] Broderick, T., Boyd, N., Wibisono, A., Wilson, A C., and Jordan, M I (2013) Streaming variational bayes In Advances in Neural Information Processing Systems, pages 1727–1735 [Chen et al., 2013] Chen, Z., Mukherjee, A., Liu, B., Hsu, M., Castellanos, M., and Ghosh, R (2013) Leveraging multi-domain prior knowledge in topic models In Twenty-Third International Joint Conference on Artificial Intelligence [Duc et al., 2021] Duc, A N., Linh, N V., Anh, N K., Nguyen, C H., and Than, K (2021) Boosting prior knowledge in streaming variational bayes Neurocomputing, 424:143 – 159 [Fei-Fei and Perona, 2005] Fei-Fei, L and Perona, P (2005) A bayesian hierarchical model for learning natural scene categories In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), volume 2, pages 524–531 IEEE [Ha et al., 2019] Ha, C., Tran, V.-D., Van, L N., and Than, K (2019) Eliminating overfitting of probabilistic topic models on short and noisy text: The role of dropout International Journal of Approximate Reasoning, 112:85–104 [Hoffman et al., 2013] Hoffman, M D., Blei, D M., Wang, C., and Paisley, J W (2013) Stochastic variational inference Journal of Machine Learning Research, 14(1):1303–1347 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 52 [Irion and Saito, 2015] Irion, J and Saito, N (2015) Applied and computational harmonic analysis on graphs and networks In Wavelets and Sparsity XVI, volume 9597, page 95971F International Society for Optics and Photonics [Kingma and Ba, 2014] Kingma, D P and Ba, J (2014) Adam: A method for stochastic optimization In The International Conference on Learning Representations (ICLR) [Kipf and Welling, 2017] Kipf, T N and Welling, M (2017) Semi-supervised classification with graph convolutional networks In The International Conference on Learning Representations (ICLR) [Kirkpatrick et al., 2017] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A A., Milan, K., Quan, J., Ramalho, T., GrabskaBarwinska, A., et al (2017) Overcoming catastrophic forgetting in neural networks Proceedings of the National Academy of Sciences, 114(13):3521– 3526 [Lau et al., 2014] Lau, J H., Newman, D., and Baldwin, T (2014) Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 530–539 [Le et al., 2018] Le, H M., Cong, S T., The, Q P., Van Linh, N., and Than, K (2018) Collaborative topic model for poisson distributed ratings International Journal of Approximate Reasoning, 95:62–76 [Le et al., 2016] Le, V., Phung, C., Vu, C., Linh, N V., and Than, K (2016) Streaming sentiment-aspect analysis In RIVF, pages 181–186 [Li et al., 2016] Li, C., Wang, H., Zhang, Z., Sun, A., and Ma, Z (2016) Topic modeling for short texts with auxiliary word embeddings In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval, pages 165–174 [Li et al., 2019] Li, D., Zamani, S., Zhang, J., and Li, P (2019) Integration of knowledge graph embedding into topic modeling with hierarchical dirichlet process In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long and Short Papers), pages 940–950 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 53 [Lin et al., 2012] Lin, C., He, Y., Pedrinaci, C., and Domingue, J (2012) Feature lda: a supervised topic model for automatic detection of web api documentations from the web In International Semantic Web Conference, pages 328–343 [Mai et al., 2016] Mai, K., Mai, S., Nguyen, A., Van Linh, N., and Than, K (2016) Enabling hierarchical dirichlet processes to work better for short texts at large scale In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages 431–442 Springer [Masegosa et al., 2017] Masegosa, A., Nielsen, T D., Langseth, H., RamosLópez, D., Salmerón, A., and Madsen, A L (2017) Bayesian models of data streams with hierarchical power priors In Precup, D and Teh, Y W., editors, Proceedings of the 34th International Conference on Machine Learning, volume 70 of Proceedings of Machine Learning Research, pages 2334–2343 PMLR [McInerney et al., 2015] McInerney, J., Ranganath, R., and Blei, D M (2015) The population posterior and bayesian modeling on streams In Advances in Neural Information Processing Systems 28, pages 1153–1161 [Mermillod et al., 2013] Mermillod, M., Bugaiska, A., and Bonin, P (2013) The stability-plasticity dilemma: Investigating the continuum from catastrophic forgetting to age-limited learning effects Frontiers in psychology, 4:504 [Nguyen et al., 2018] Nguyen, C V., Li, Y., Bui, T D., and Turner, R E (2018) Variational continual learning In The International Conference on Learning Representations (ICLR) [Nguyen et al., 2019] Nguyen, V.-S., Nguyen, D.-T., Van, L N., and Than, K (2019) Infinite dropout for training bayesian models from data streams In 2019 IEEE International Conference on Big Data (Big Data), pages 125–134 IEEE [Ritter et al., 2018] Ritter, H., Botev, A., and Barber, D (2018) Online structured laplace approximations for overcoming catastrophic forgetting In Advances in Neural Information Processing Systems, pages 3738–3748 [Rogers et al., 2005] Rogers, S., Girolami, M., Campbell, C., and Breitling, R (2005) The latent process decomposition of cdna microarray data sets IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2(2):143–156 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 54 [Than et al., 2019] Than, K., Bui, X., Nguyen-Trong, T., Truong, K., Nguyen, S., Tran, B., Van, L N., and Nguyen-Duc, A (2019) How to make a machine learn continuously: a tutorial of the bayesian approach In Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications, volume 11006, page 110060I International Society for Optics and Photonics [Tuan et al., 2020] Tuan, A P., Tran, B., Nguyen, T H., Van, L N., and Than, K (2020) Bag of biterms modeling for short texts Knowledge and Information Systems, 62(10):4055–4090 [Van Linh et al., 2017] Van Linh, N., Anh, N K., Than, K., and Dang, C N (2017) An effective and interpretable method for document classification Knowledge and Information Systems, 50(3):763–793 [Wang et al., 2019] Wang, X., Zhang, Y., Wang, X., and Chen, J (2019) A knowledge graph enhanced topic modeling approach for herb recommendation In International Conference on Database Systems for Advanced Applications, pages 709–724 Springer [Yao et al., 2017] Yao, L., Zhang, Y., Wei, B., Jin, Z., Zhang, R., Zhang, Y., and Chen, Q (2017) Incorporating knowledge graph embeddings into topic modeling In Thirty-First AAAI Conference on Artificial Intelligence [Zhao et al., 2017] Zhao, H., Du, L., and Buntine, W (2017) A word embeddings informed focused topic model In Asian Conference on Machine Learning, pages 423–438 Học viên thực hiện: Trần Xuân Bách, MSHV: CB190204 ... phương pháp tích hợp mạng đồ thị nhân chập (GCN) vào mơ hình chủ đề phương pháp học đồng thời mạng nơ-ron mơ hình chủ đề mơi trường dịng liệu Tại minibatch GCTM không khai thác đồ thị tri thức... λkj end for 2.7 Mạng đồ thị nhân chập Trong phần tơi trình bày mạng đồ thị nhân chập, mạng đồ thị nhân chập chia thành hai lớp là: • Spectral-based: Với hướng tiếp cận đồ thị nhân chập định nghĩa... để khai thác đồ thị tri thức Hơn nữa, phương pháp học đồng thời mạng đồ thị nhân chập với mơ hình chủ đề mơi trường dòng liệu Đáng ý, phương pháp đề xuất mở rộng áp dụng cho lớp mơ hình xác suất

Tiêu đề	Tích Hợp Mạng Đồ Thị Nhân Chập Vào Mô Hình Chủ Đề Cho Dữ Liệu Dòng
Tác giả	Trần Xuân Bách
Người hướng dẫn	PGS. TS. Thân Quang Khoát
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	54
Dung lượng	1,14 MB