Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu nghiệm không lồi trong học máy (tt)

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI THỊ THANH XUÂN MỘT SỐ PHƯƠNG PHÁP NGẪU NHIÊN CHO BÀI TỐN CỰC ĐẠI HĨA XÁC SUẤT HẬU NGHIỆM KHƠNG LỒI TRONG HỌC MÁY TĨM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2020 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: HD1: PGS.TS Thân Quang Khoát HD2: TS Nguyễn Thị Oanh Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội Vào hồi giờ, ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Bối cảnh nghiên cứu Nghiên cứu học máy, nhận thấy q trình giải tốn học máy thường gồm ba bước chính: bước mơ hình hóa, bước học bước suy diễn Trong đó, mơ hình hóa tìm mơ hình thích hợp cho tốn cần giải quyết, học trình tối ưu tham số mơ hình suy diễn bước dự đốn kết đầu mơ hình dựa tham số huấn luyện Ký hiệu x tập tham số mơ hình, bước học qúa trình ước lượng tham số, tức tìm tham số x cho liệu sẵn có mơ hình khớp với Việc tối ưu tham số, hay gọi q trình học tham số, ý tưởng tốn học máy nhằm tìm mối tương quan đầu vào đầu dựa liệu huấn luyện Một phương pháp ước lượng tham số thông dụng sử dụng học máy thống kê phương pháp ước lượng hợp lý cực đại MLE (Maximum Likelihood Estimation) Tuy nhiên, phương pháp MLE biết đến với xu hướng phù hợp với liệu, nên tượng khớp trở nên nghiêm trọng mơ hình phức tạp liên quan đến liệu giới thực với số chiều lớn liệu hình ảnh, tiếng nói văn MLE thường làm việc không hiệu trường hợp có q liệu huấn luyện Khắc phục nhược điểm MLE, sử dụng phương pháp cực đại hóa ước lượng xác suất hậu nghiệm MAP (Maximum A Posteriori Estimation) Khác với MLE, phương pháp MAP dựa liệu huấn luyện mà dựa thơng tin biết tham số Ước lượng MAP tối ưu tham số x theo xác suất có điều kiện: (0.3) x∗ = arg max P (x|D) x Posterior xác suất P (x|D) gọi xác suất hậu nghiệm (posterior) tham số x Thông thường, hàm tối ưu (0.3) khó xác định trực tiếp Vì vậy, để giải toán MAP, thường sử dụng quy tắc Bayes đưa toán MAP (0.3) dạng: x∗ = arg max[P (D|x) × P (x)] x (0.4) xác suất P (x) gọi xác suất tiên nghiệm (prior) tham số x Tận dụng tính chất đơn điệu tăng hàm logarit, người ta thường lấy logarit hàm mục tiêu (0.4) viết lại toán MAP (0.4) dạng: x∗ = arg max[log P (D|x) + log P (x)] (0.5) x Theo hiểu biết chúng tôi, ước lượng MAP sử dụng nhiều mơ hình đồ thị xác suất Có nhiều cách tiếp cận để giải toán MAP suy diễn biến phân hay phương pháp lấy mẫu MCMC, Một hướng tiếp cận khác xem xét toán MAP (0.5) góc nhìn tốn tối ưu toán học: x∗ = arg max[f (x) = log P (D | x) + log P (x)] x (0.6) hàm mục tiêu có dạng f (x) = log P (D|x) + log P (x) Mức độ khó giải toán (0.6) phụ thuộc vào đặc điểm hàm mục tiêu f (x) Trong thực tế, làm việc với mơ hình học máy thống kê, hàm mục tiêu f (x) thường phức tạp, khó phân tích thường hàm khơng lồi tốn mặt tính tốn Mặc dù ước lượng MAP có nhiều ưu so với MLE phương diện làm việc với liệu huấn luyện ít, có khả hiệu chỉnh, nhiên, tìm đến phương pháp hiệu giải toán MAP việc khó khăn Và ngun nhân dẫn đến khó khăn toán MAP nằm chỗ hàm mục tiêu f (x) = log P (D|x) + log P (x) nhiều trường hợp hàm khơng lồi, khó tìm cực đại, dẫn đến giải trực tiếp toán MAP không khả thi Chúng ta phải đối mặt với thách thức lớn: Làm để giải hiệu tốn MAP mơ hình đồ thị xác suất hàm mục tiêu khơng lồi? Khi đó, tốn MAP (0.6) khơng khả thi Do vậy, đề xuất thuật toán hiệu đảm bảo lý thuyết thực nghiệm để giải tốn MAP khơng lồi thu hút quan tâm đồng thời thách thức học máy thống kê 2 Động lực thúc đẩy Nghiên cứu sinh đặt tốn cần nghiên cứu là: Nghiên cứu đề xuất thuật toán ngẫu nhiên hiệu giải tốn MAP khơng lồi xuất mơ hình đồ thị xác suất cho dạng x∗ = arg max[f (x) = log P (D|x) + log P (x)] x hàm mục tiêu f (x) hàm nhiều chiều, không lồi miền ràng buộc Ω Khó khăn tốn đặt hàm mục tiêu f (x) khơng lồi xuất nhiều điểm cực trị địa phương/điểm yên ngựa, đồng thời f (x) hàm nhiều biến có số chiều lớn, gặp khó khăn việc tính trực tiếp đạo hàm cấp, tốn MAP khơng lồi trở thành khó giải Nghiên cứu sinh đặt mục tiêu đề xuất số thuật toán tối ưu ngẫu nhiên để giải hiệu tốn MAP khơng lồi đảm bảo tiêu chí sau: (i) Các thuật toán ngẫu nhiên đảm bảo chất lượng lý thuyết thực nghiệm, (ii) Các thuật tốn có tốc độ hội tụ nhanh, (iii) Các thuật tốn có tính linh hoạt, tính tổng quát khả hiệu chỉnh tốt Từ áp dụng thuật tốn rộng rãi nhiều mơ hình học máy Để triển khai mục tiêu đặt ra, nghiên cứu sinh lựa chọn đề tài "Một số phương pháp ngẫu nhiên cho tốn cực đại hóa xác suất hậu nghiệm không lồi học máy" cho luận án Sự thành cơng đề tài góp phần giải tốt toán ước lượng MAP khơng lồi, đồng thời mở rộng áp dụng để giải tốt tốn tối ưu khơng lồi thường xuất nhiều mơ hình học máy Các đóng góp luận án Với mục tiêu triển khai thành công đề tài, nghiên cứu luận án tập trung vào đề xuất sau đây: • Đề xuất bốn thuật tốn tối ưu ngẫu nhiên OPE1, OPE2, OPE3 OPE4 giải toán suy diễn hậu nghiệm mơ hình chủ đề có chất tốn tối ưu khơng lồi thơng qua việc sử dụng phân phối xác suất kết hợp với dùng hai chuỗi biên ngẫu nhiên xấp xỉ cho hàm mục tiêu ban đầu, đề xuất có đảm bảo sở lý thuyết thực nghiệm • Đề xuất thuật tốn tối ưu ngẫu nhiên GOPE giải tốn MAP khơng lồi mơ hình chủ đề thông qua sử dụng phân phối Bernoulli với tham số p ∈ (0, 1) thích hợp Từ đó, chúng tơi áp dụng GOPE để thiết kế thuật tốn ngẫu nhiên Online-GOPE học mơ hình chủ đề hiệu • Sử dụng ngẫu nhiên Bernoulli với tham số p ∈ (0, 1) thích hợp, kết hợp với dùng hai biên ngẫu nhiên nguyên lý tham lam, đề xuất BOPE giải tốn MAP khơng lồi tổng quát đảm bảo tiêu chí quan trọng: tốc độ hội tụ nhanh, có tính linh hoạt, có tính hiệu chỉnh Chúng áp dụng thành công BOPE vào tốn phân tích văn hệ gợi ý Bố cục luận án Kết cấu thành chương, luận án trình bày trọn vẹn thuật tốn đề xuất giải tốn MAP khơng lồi học máy Như vậy, nội dung luận án đáp ứng mục tiêu mà đề Chương MỘT SỐ KIẾN THỨC NỀN TẢNG 1.1 Tối ưu khơng lồi 1.1.1 Bài tốn tối ưu tổng quát Giả sử tập hợp tham số mơ hình ký hiệu x, hàm đánh giá mơ hình thường ký hiệu f (x) Bài tốn tìm tham số "tốt nhất" đưa tốn tối ưu có dạng minx f (x) maxx f (x) Như vậy, học mơ hình học máy giải tốn tối ưu tốn Do đó, tối ưu tốn học, đặc biệt tối ưu không lồi trở thành trung tâm học máy Xét toán tối ưu tổng quát f (x) (1.1) x∈Ω hàm mục tiêu f (x) hàm trơn khơng lồi miền đóng Ω ⊂ Rp Bài toán tối ưu học máy thường hay sử dụng phương pháp ngẫu nhiên bậc nhất, đảm bảo đủ đơn giản độ xác cần thiết 1.1.2 Tối ưu ngẫu nhiên 1.2 Mô hình đồ thị xác suất 1.2.1 Giới thiệu Mơ hình đồ thị xác suất sử dụng đồ thị để biểu diễn phụ thuộc có điều kiện biến ngẫu nhiên cách trực quan, có đỉnh biến ngẫu nhiên, cạnh biểu diễn phụ thuộc lẫn biến ngẫu nhiên, đồ thị biểu diễn phân phối đồng thời tất biến ngẫu nhiên Mơ hình đồ thị xác suất cơng cụ mạnh mẽ có nhiều ứng dụng học máy, thị giác máy tính, xử lý ngơn ngữ tự nhiên sinh học tính toán 1.2.2 Một số phương pháp suy diễn a Phương pháp suy diễn biến phân b Phương pháp Markov Chain Monte Carlo (MCMC) c Phương pháp Gibbs Sampling 1.3 Bài tốn cực đại hóa xác suất hậu nghiệm 1.3.1 Giới thiệu tốn MAP Bài tốn MAP xem xét dạng toán tối ưu toán học: x∗ = arg max[f (x) = log P (D|x) + log P (x)] x (1.18) Khó khăn tốn MAP hàm mục tiêu f (x) = log P (D|x) + log P (x) hàm không lồi, gặp khó khăn tìm cực đại, dẫn đến giải trực tiếp tốn MAP khơng khả thi 1.3.2 Một số phương pháp tiếp cận Theo hiểu biết chúng tơi, có số cách tiếp cận để giải tốn MAP sau: • Thơng qua phép phân tích, mốt phân phối hậu nghiệm cho dạng "close-form" trường hợp prior liên hợp • Thơng qua phương pháp số phương pháp gradient phương pháp Newton Tuy nhiên, chúng thường yêu cầu đạo hàm bậc bậc hai phải tìm phương pháp giải tích phương pháp số • Thơng qua việc áp dụng thuật tốn Expectation Maximization (EM) • Thơng qua phương pháp Monte Carlo Đặt g1 (x) = log P (D | x) g2 (x) = log P (x) Khi đó, tốn MAP đưa toán tối ưu sau x∗ = arg max[f (x) = g1 (x) + g2 (x)] (1.19) x Chúng ta sử dụng phương pháp tối ưu ngẫu nhiên đại với cải tiến thích hợp để giải chúng 1.4 Mơ hình chủ đề 1.4.1 Giới thiệu mơ hình chủ đề 1.4.2 Mơ hình Latent Dirichlet Allocation 1.4.3 Suy diễn hậu nghiệm mô hình chủ đề Với mơ hình chủ đề LDA, phân phối hậu nghiệm P (θ, z|w, α, β) cho văn d Bài tốn tính phân phối xác suất gọi toán suy diễn Trong mơ hình LDA, phân phối hậu nghiệm biến ẩn cho văn d là: P (θ, z, w|α, β) P (θ, z|w, α, β) = P (w|α, β) a Phương pháp Variational Bayes b Phương pháp Collapsed variational Bayes c Fast collapsed variational Bayes d Phương pháp Collapsed Gibbs sampling 1.5 Thuật toán OPE Xét toán suy diễn hậu nghiệm văn d mơ hình chủ đề Ước lượng tỉ lệ chủ đề θ ∈ ∆K cho văn d, xét toán sau: θ ∗ = arg max P (d, θ|β, α) = arg max [log P (d|θ, β) + log P (θ|α)] (1.22) θ∈∆K θ∈∆K Bài toán (1.22) tương ứng với toán sau: K ∗ θ = arg max θ∈∆K θk βkj + (α − 1) dj log j K k=1 log θk (1.23) k=1 α tham số phân phối tiên nghiệm Dirichlet Trong thực tế, sử dụng mơ hình LDA, người ta thường chọn α < dẫn đến hàm mục tiêu (1.23) khơng lõm Đó lý tốn (1.23) khơng khả thi trường hợp xấu Thuật toán Online Frank-Wolfe (OFW) đề xuất để giải tốn suy diễn MAP khơng lồi với mơ hình LDA Cải tiến OFW, tác giả đề xuất thuật toán cải tiến Online maximum a Posteriori Estimation (OPE) OPE có nhiều ưu điểm so với đề xuất trước Chi tiết OPE trình bày Thuật toán 1.1 Thuật toán 1.1 OPE: Online Maximum a Posteriori Estimation Đầu vào: Văn d mơ hình {β, α} K K Đầu ra: θ cực đại hàm f (θ) = j dj log k=1 θk βkj + (α − 1) k=1 log θk 1: Khởi tạo θ1 thuộc ∆K 2: for t = 1, 2, ∞ K K 3: Lấy ft có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 4: Ft := 2t h=1 fh 5: et := arg maxx∈∆K < Ft (θ t ), x > t 6: θ t+1 := θ t + et −θ t 7: end for 1.6 Một số thuật toán ngẫu nhiên học LDA Sử dụng thuật toán suy diễn Variational Bayes (VB), Collapsed variational Bayes (CVB0), Collapsed Gibbs sampling (CGS), phương pháp học ngẫu nhiên Online-VB, Online-CVB0, Online-CGS đề xuất để học mơ hình LDA Sử dụng OPE làm cốt lõi suy diễn lược đồ học trực tuyến, hai thuật toán ngẫu nhiên học mơ hình LDA, đặt tên ML-OPE Online-OPE phát triển Chi tiết ML-OPE Online-OPE trình bày Thuật tốn 1.2 Thuật tốn 1.3 Thuật toán 1.2 Thuật toán ML-OPE học LDA từ liệu dòng/dữ liệu lớn Đầu vào: Tham số K, α, τ > 0, κ ∈ (0.5, 1] Đầu ra: β 1: Khởi tạo β ngẫu nhiên miền ∆V 2: for t = 1, 2, ∞ 3: Lấy mini-batch Ct tập văn 4: Suy diễn OPE cho văn d ∈ Ct nhận θd , cho β t−1 ˆ t sau: βˆt ∝ 5: Tính tốn β kj d∈Ct dj θdk 6: Thiết lập tốc độ học ρt = (t + τ )−κ ˆt 7: Cập nhật β t := (1 − ρt )β t−1 + ρt β 8: end for Thuật toán 1.3 Thuật toán Online-OPE học LDA từ liệu lớn Đầu vào: Tập huấn luyện C với D văn bản, K, α, η, τ > 0, κ ∈ (0.5, 1] Đầu ra: λ 1: Khởi tạo λ0 ngẫu nhiên 2: for t = 1, 2, ∞ 3: Lấy mẫu nhỏ Ct bao gồm S văn bản, 4: Sử dụng thuật toán OPE để suy diễn hậu nghiệm cho văn d ∈ Ct , với biến toàn cục β t−1 ∝ λt−1 bước trước, nhận chủ đề hỗn hợp θ d Sau tính φd sau: φdjk ∝ θdk βkj ˆ k cho Ct 5: Với k ∈ {1, 2, , K}, biến toàn cục trung gian λ ˆ kj = η + D λ S dj φdjk d∈Ct ˆ ρt = (t + τ )−κ Cập nhật biến toàn cục λt := (1 − ρt )λt−1 + ρt λ 7: end for 6: 1.7 Kết luận chương Chương trình bày khái quát toán MAP số cách tiếp cận giải tốn MAP, trình bày số kiến thức tối ưu ngẫu nhiên giải toán tối ưu không lồi thường hay gặp học máy, mơ hình đồ thị xác suất, phương pháp suy diễn, mơ hình chủ đề, Đây tiền đề cho nghiên cứu thuật toán ngẫu nhiên giải tốn MAP khơng lồi đề xuất chương Chương NGẪU NHIÊN HÓA THUẬT TOÁN TỐI ƯU GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MƠ HÌNH CHỦ ĐỀ 2.1 Giới thiệu Trong chương này, chúng tơi xem xét tốn suy diễn hậu nghiệm mơ hình chủ đề LDA Đây minh họa cho tốn MAP khơng lồi mơ hình đồ thị xác suất, đối tượng nghiên cứu luận án Bài toán MAP văn d mơ hình chủ đề LDA có dạng: K K θ ∗ = arg max θ∈∆K θk βkj + (α − 1) dj log j log θk (2.1) k=1 k=1 tham số Dirichlet α < 2.2 Đề xuất giải toán MAP mơ hình chủ đề Chúng tơi nhận thấy OPE giải hiệu toán (2.1) Nghiên cứu đặc điểm OPE chúng tơi nhận thấy: • Thành phần g1 (θ) = j dj log log prior văn d K k=1 θk βkj < log likelihood g2 (θ) = (α−1) K k=1 log θk >0 • Hàm mục tiêu f (θ) = g1 (θ) + g2 (θ) bị kẹp hai hàm g1 g2 , tức g1 (θ) < f (θ) < g2 (θ) Dựa ý tưởng OPE, đề xuất số thuật toán cải tiến trình bày mục Xuất phát từ thành phần g1 , xây dựng dãy hàm {Lt (θ)}, xuất phát từ thành phần g2 , xây dựng dãy hàm {Ut } dựa vào phân phối Bernoulli với tham số p Hai dãy hàm ngẫu nhiên {Ut } {Lt } tiến hàm mục tiêu f (a) Xây dựng biên biên hàm mục tiêu f (θ) (b) Luôn lựa chọn điểm tốt bước lặp Hình 2.1: Mơ tả ý tưởng cải tiến thuật tốn OPE Để tăng tính ngẫu nhiên cho thuật toán đề xuất, bước lặp, nghiệm gần θ t chọn dựa vào hai dãy {θ ut } {θ lt } phân phối xác suất thích hợp (1) Cải tiến thứ nhất: Sau xây dựng hai dãy {θ ut } {θ lt }, tiến hành lựa chọn nghiệm xấp xỉ θ t lần lặp thứ t theo phân phối từ hai nghiệm xấp xỉ trung gian {θ ut , θ lt }, tức P (θ t = θ ut ) = 1 , P (θ t = θ lt ) = 2 thu thuật tốn OPE1 trình bày Thuật toán 2.1 Thuật toán 2.1 OPE1: Sự lựa chọn từ hai biên ngẫu nhiên Đầu vào: Văn d tham số mơ hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ; f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu 6: eut := arg maxx∈∆K Ut (θ t ), x 7: 8: 9: 10: K k=1 log θk eu −θ θ ut+1 := θ t + t t t Lấy ftl có phân phối từ { t Lt := 2t h=1 fhl elt := arg maxx∈∆K Lt (θ t ), x j dj log K k=1 θk βkj ; (α − 1) K k=1 log θk } el −θ θ lt+1 := θ t + t t t 12: Lấy θ t+1 có phân phối từ {θ ut+1 , θ lt+1 } 13: end for 11: (2) Cải tiến thứ hai: Nghiệm θ t bước lặp thứ t lựa chọn ngẫu nhiên từ θ ut θ lt theo phân phối Bernoulli với xác suất qt , tức là: P (θ t = θ ut ) = qt , P (θ t = θ lt ) = − qt qt := exp f (θ u t) l exp f (θ u t )+exp f (θ t ) Chúng tơi thu thuật tốn cải tiến OPE2 trình bày Thuật tốn 2.2 Cách lựa chọn nghiệm xấp xỉ θ t bước lặp cải tiến OPE2 làm mịn so với biến thể OPE1 sử dụng nhiều thông tin hàm mục tiêu f vào lựa chọn nghiệm θ t Thuật toán 2.2 OPE2: Làm mịn lựa chọn nghiệm từ hai biên ngẫu nhiên Đầu vào: Văn d tham số mô hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ; f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu 6: eut := arg maxx∈∆K Ut (θ t ), x 7: 8: 9: 10: 11: 12: log θk eu −θ θ ut+1 := θ t + t t t Lấy ftl có phân phối từ { t Lt := 2t h=1 fhl elt := arg maxx∈∆K Lt (θ t ), x j dj log K k=1 θk βkj ; (α − 1) K k=1 log θk } el −θ θ lt+1 := θ t + t t t Lấy θ t+1 theo phân phối xác suất {P (θ t+1 = θ ut+1 ) = qt , P (θ t+1 = θ lt+1 ) = − qt } xác suất qt xác định qt := 13: K k=1 exp f (θ u t+1 ) exp f (θ u )+exp f (θ lt+1 ) t+1 end for (3) Cải tiến thứ ba: Sau xây dựng hai dãy {θ ut } {θ lt }, tiến hành lựa chọn nghiệm xấp xỉ bước lặp t là: θ t := arg maxθ∈{θut ,θlt } f (θ) thu thuật tốn OPE3 trình bày Thuật toán 2.3 (4) Cải tiến thứ tư: Chúng tơi có ý tưởng khác, xấp xỉ hàm mục tiêu f (θ) hàm xấp xỉ ngẫu nhiên Ft (θ) Ft (θ) tổ hợp tuyến tính hai biên ngẫu nhiên Ut Lt với tham số tổ hợp ν ∈ (0, 1) lựa chọn thích hợp: Ft (θ) := νUt (θ) + (1 − ν)Lt (θ) tiến hành tìm nghiệm θ t tương tự OPE Chúng thu OPE4 trình bày chi tiết Thuật tốn 2.4 Thuật tốn 2.3 OPE3: Ln lựa chọn nghiệm tốt bước lặp Đầu vào: văn d tham số mơ hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ;f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu 6: eut := arg maxx∈∆K Ut (θ t ), x 7: 8: 9: 10: K k=1 log θk K k=1 log θk eu −θ θ ut+1 := θ t + t t t Lấy ftl có phân phối từ { t Lt := 2t h=1 fhl elt := arg maxx∈∆K Lt (θ t ), x j dj log K k=1 θk βkj ; (α − 1) K k=1 log θk } el −θ θ lt+1 := θ t + t t t 12: Lấy θ t+1 := arg maxθ∈{θut+1 ,θlt+1 } f (θ) 13: end for 11: Thuật tốn 2.4 OPE4: Sử dụng tổ hợp tuyến tính biên ngẫu nhiên Đầu vào: Văn d, tham số tổ hợp ν ∈ (0, 1) tham số mơ hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ; f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu theo phân phối từ tập { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu K K 6: Lấy ftl theo phân phối từ tập { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 7: Lt := 2t h=1 fhl 8: Lập tổ hợp tuyến tính Ft := νUt + (1 − ν)Lt 9: et := arg maxx∈∆K < Ft (θ t ), x > t 10: θ t+1 := θ t + et −θ t 11: end for 2.3 Các thuật tốn học ngẫu nhiên cho mơ hình LDA Chúng tơi tiến hành thay đổi thuật tốn lõi suy diễn OPE cải tiến OPE1, OPE2, OPE3 OPE4 đưa vào thuật tốn học ML-OPE Online-OPE Khi đó, chúng tơi thu thuật tốn ngẫu nhiên để học mơ hình LDA, là: ML-OPE1, ML-OPE2, ML-OPE3, ML-OPE4, Online-OPE1, Online-OPE2, Online-OPE3 Online-OPE4 2.4 Đánh giá thực nghiệm 2.4.1 Các liệu thực nghiệm Chúng tiến hành thực nghiệm cho cải tiến hai liệu lớn: New York Times (NYT) bao gồm 300.000 tin tức PubMed (PUB) bao gồm 330.000 báo từ trung tâm PubMed1 2.4.2 Độ đo đánh giá thực nghiệm Chúng sử dụng hai độ đo thường dùng mơ hình chủ đề, Log Predictive Probability (LPP) Normalised Pointwise Mutual Information (NPMI) Các liệu lấy từ http://archive.ics.uci.edu/ml/datasets 11 Bộ liệu New York Times PubMed Phương pháp học Online-OPE Online-OPE3 Online-OPE4 Online-OPE Online-OPE3 Online-OPE4 Thời gian 1022.21 1737.18 1298.88 402.23 832.69 636.45 Độ đo LPP -9.32 -9.28 -9.30 -8.17 -8.07 -8.15 Độ đo NPMI 10.50 11.44 10.93 6.01 7.09 6.11 Bảng 2.1: Bảng thống kê thời gian thực độ đo thuật toán học Online-OPE, Online-OPE3 Online-OPE4 (ν = 0.3) thực nghiệm hai liệu New York Times PubMed 2.5 Sự hội tụ thuật toán đề xuất Định lý 2.1 (Sự hội tụ thuật toán OPE3) Xem xét hàm mục tiêu f (θ) toán (2.1), cho trước văn d, tham số β α Xét thuật tốn OPE3, với xác suất 1, có: (i) Với θ ∈ ∆K , dãy biên Ut (θ) Lt (θ) hội tụ tới f (θ) t → +∞; (ii) Dãy nghiệm xấp xỉ {θ t } hội tụ tới điểm dừng/điểm cực trị địa phương hàm mục tiêu f (θ) t → +∞ Định lý 2.2 (Sự hội tụ thuật toán OPE4) Xem xét hàm mục tiêu không lồi f (θ) toán (2.1), cho trước văn d, tham số β α Xét thuật toán OPE4, với xác suất 1, có: (i) Với θ ∈ ∆K , dãy hàm xấp xỉ Ft (θ) hội tụ tới f (θ) t → +∞, (ii) Dãy nghiệm xấp xỉ θ t hội tụ tới điểm tối ưu cục bộ/điểm dừng hàm f (θ) 2.6 Mở rộng thuật toán đề xuất cho tốn tối ưu khơng lồi 2.7 Kết luận chương Trong chương đề xuất thuật toán OPE1, OPE2, OPE3 OPE4 để giải tốn suy diễn hậu nghiệm với mơ hình chủ đề, OPE3 OPE4 thường hiệu thuật tốn OPE OPE3 OPE4 chúng tơi nghiên cứu cách nghiêm túc đầy đủ hai mặt lý thuyết thực nghiệm Các kết chương chúng tơi trình bày báo "Stochastic bounds for inference in topic models" kỷ yếu hội thảo quốc tế ICTA 2016 báo "Some methods for posterior inference in topic models" đăng tạp chí RD-ICT Bộ thơng tin truyền thơng 2018 Chương TỔNG QT HĨA THUẬT TỐN TỐI ƯU GIẢI BÀI TỐN MAP KHƠNG LỒI TRONG MƠ HÌNH CHỦ ĐỀ 3.1 Giới thiệu Xem xét toán ước lượng MAP mơ hình đồ thị xác suất: x∗ = arg max [log P (D | x) + log P (x)] (3.1) x Một vís dụ minh họa tốn MAP mơ hình chủ đề LDA: K θ ∗ = arg max θ∈∆K j K θk βkj + (α − 1) dj log k=1 log θk (3.2) k=1 Ký hiệu g1 (x) := log P (D|x) g2 (x) := log P (x), (3.1) đưa toán tối ưu: x∗ = arg max [f (x) = g1 (x) + g2 (x)] x (3.3) Bài toán (3.3) khó giải hàm mục tiêu f (x) khơng lõm 3.2 Thuật tốn GOPE Chúng tơi giới thiệu thuật tốn đặt tên GOPE (viết tắt Generalized Online Maximum a Posteriori Estimation) để giải toán MAP (3.3) GOPE trình bày chi tiết Thuật tốn 3.1 Thuật toán 3.1 GOPE: Generalized Online maximum a Posteriori Estimation Đầu vào: Văn d, tham số mơ hình {β, α} tham số Bernoulli p ∈ (0, 1) Đầu ra: θ ∗ điểm cực đại hàm f (θ) = g1 (θ) + g2 (θ) 1: Khởi tạo θ1 miền ∆K g g2 2: G1 := p1 ; G2 := 1−p 3: for t = 1, 2, , T 4: Lấy ft có phân phối Bernoulli từ {G1 (θ), G2 (θ)} 5: {P (ft = G1 (θ)) = p; P (ft = G2 (θ)) = − p} t 6: Ft (θ) := 1t h=1 fh 7: et := arg maxx∈∆K Ft (θ t ), x t 8: θ t+1 := θ t + et −θ t 9: end for GOPE đóng vai trò bước suy diễn cốt lõi học mơ hình LDA Chúng tơi sử dụng GOPE thay cho OPE thuật toán học Online-OPE nhận thuật toán học ngẫu nhiên đặt tên Online-GOPE 3.3 Sự hội tụ thuật toán GOPE Định lý 3.1 (Sự hội tụ thuật toán GOPE) Xét hàm mục tiêu f (θ) toán (3.2), cho trước văn d, tham số mơ hình {β, α} tham số Bernoulli p ∈ (0, 1) Xét GOPE, với xác suất 1, có: (i) Với θ ∈ ∆K , dãy hàm Ft (θ) hội tụ tới f (θ) t → +∞; (ii) Dãy nghiệm xấp xỉ θ t hội tụ tới điểm dừng/cực đại địa phương hàm mục tiêu f (θ) với tốc độ hội tụ O(1/t) 12 13 3.4 Đánh giá thực nghiệm 3.4.1 Các liệu thực nghiệm Chúng tiến hành thực nghiệm cho cải tiến hai liệu lớn bao gồm tập văn dài: liệu New York Times (NYT) bao gồm 300.000 tin tức PubMed (PUB) bao gồm 330.000 báo từ trung tâm PubMed 3.4.2 Độ đo đánh giá thực nghiệm Chúng sử dụng hai độ đo thường dùng mơ hình chủ đề, Log Predictive Probability (LPP) Normalised Pointwise Mutual Information (NPMI) 3.4.3 Thiết lập tham số • Tham số mơ hình: Chúng tơi thiết lập số chủ đề K = 100, tham số Dirichlet α = số η = K1 K siêu tham • Tham số suy diễn: Chúng chọn số bước lặp thuật toán suy diễn T = 50 tham số Bernoulli p ∈ {0.10, 0.15, , 0.85, 0.90} cho liệu độ đo • Tham số học: Chúng tơi chọn kích thước mini-batch S = |Ct | = 5000, thiết lập tham số κ = 0.9 τ = 3.4.4 Kết thực nghiệm Kết thực thuật toán Online-GOPE thay đổi tham số p mơ tả Hình 3.1 Theo Hình 3.1, thấy Online-GOPE đạt hiệu tốt New York Times với độ đo LPP lựa chọn p = 0.35 với độ đo NPMI lựa chọn p = 0.75, Online-GOPE đạt hiệu tốt PubMed với độ đo LPP lựa chọn p = 0.4, với độ đo NPMI lựa chọn p = 0.45 Chúng so sánh kết thực Online-GOPE với giá trị p lựa chọn tốt với thuật toán Online-VB, Online-CVB0, Online-CGS Online-OPE Các kết mơ tả Hình 3.2 Online-GOPE on Pubmed Online-GOPE on New York Times 08.4 08.7 −9.0 LPP −9.6 −10.0 −10.4 −9.3 −9.6 15 30 45 60 15 30 45 60 15 30 45 60 6.0 NPMI 10 4.5 3.0 1.5 15 30 45 Số văn (x5000) 60 Sốố(ănốbảnố(x5000) p = 0.90 p = 0.80 p = 0.70 p = 0.60 p = 0.50 p = 0.40 p = 0.30 p = 0.20 p = 0.10 p = 0.75 p = 0.65 p = 0.45 p = 0.35 p = 0.25 p = 0.15 Hình 3.1: Kết thực Online-GOPE với tham số Bernoulli p lựa chọn khác hai độ đo LPP NPMI Độ đo cao tốt 14 New York T mes 19.3 Pubmed 18.4 LPP 19.6 18.8 19.9 19.2 110.2 19.6 110.5 15 30 45 60 110.0 6.0 4.5 NPMI 10 15 30 45 60 3.0 Online-OPE 15 30 45 Số văn (x5000) Online-VB 60 1.5 Online-CVB 15 30 45 60 S0 văn ăx5000) Online-CGS Online-GOPE Hình 3.2: Độ đo LPP NPMI thuật toán học Online-OPE, Online-VB, Online-CVB, Online-CGS Online-GOPE liệu New York Times PubMed Độ đo cao tốt 3.5 Mở rộng thuật toán giải tốn tối ưu khơng lồi 3.6 Kết luận chương Chúng đề xuất GOPE giải hiệu tốn MAP khơng lồi mơ hình chủ đề đảm bảo hội tụ nhanh mặt lý thuyết thực nghiệm GOPE đảm bảo tính linh hoạt, tính hiệu chỉnh, mở rộng cho tốn tối ưu DC không lồi Chương NGẪU NHIÊN BERNOULLI CHO BÀI TỐN MAP KHƠNG LỒI VÀ ỨNG DỤNG Trong chương chúng tơi tiếp tục nghiên cứu tốn ước lượng MAP khơng lồi mơ hình đồ thị xác suất Chúng tơi sử dụng ngẫu nhiên hóa Bernoulli với xác suất p ∈ (0, 1) kết hợp với hai biên ngẫu nhiên để thiết kế thuật toán tối ưu ngẫu nhiên BOPE giải hiệu tốn MAP khơng lồi Từ đó, chúng tơi áp dụng thành cơng BOPE vào tốn phân tích văn tốn gợi ý 4.1 Giới thiệu Xét tốn MAP có dạng sau: x∗ = arg max[log P (D|x) + log P (x)] x (4.1) P (D|x) ký hiệu likelihood biến quan sát D, P (x) prior biến ẩn x P (D) xác suất biên D Đóng góp chúng tơi đề xuất thuật toán ngẫu nhiên BOPE sử dụng ngẫu nhiên Bernoulli hai biên ngẫu nhiên Chúng chứng minh BOPE hội tụ với O(1/T ), tốc độ hội tụ tốt cho toán MAP Chúng phát BOPE có vai trò hiệu chỉnh tốt Sử dụng BOPE thuật toán suy diễn thiết kế thuật toán học ngẫu nhiên Online-BOPE học mơ hình chủ đề quy mô lớn Hiệu BOPE mặt thực nghiệm làm rõ thông qua ứng dụng BOPE vào tốn phân tích văn toán hệ gợi ý Với ưu việt BOPE, chúng tơi áp dụng rộng rãi BOPE vào giải cho tốn khơng lồi phức tạp khác xuất học máy Chi tiết BOPE trình bày Thuật tốn 4.1 Thuật tốn 4.1 BOPE giải tốn MAP khơng lồi Đầu vào: Tham số Bernoulli p ∈ (0, 1) Đầu ra: x∗ điểm cực đại hàm số f (x) = log P (D | x) + log P (x) miền Ω 1: Khởi tạo x1 Ω log P (D|x) P (x) ; G2 (x) := log1−p 2: G1 (x) := p 3: f1l := G1 (x) f1u := G2 (x) 4: for t = 2, 3, , ∞ 5: Lấy ftl có phân phối Bernoulli từ {G1 (x), G2 (x)} P (ftl = G1 (x)) = p; P (ftl = G2 (x)) = − p 6: 7: 8: 9: t Lt := 1t h=1 fhl alt := arg maxx∈Ω < Lt (xt ), x > al −x xlt+1 := xt + t t t Lấy ftu có phân phối Bernoulli từ {G1 (x), G2 (x)} P (ftu = G1 (x)) = p; P (ftu = G2 (x)) = − p 10: 11: 12: 13: 14: t Ut := 1t h=1 fhu aut := arg maxx∈Ω < Ut (xt ), x > au −x xut+1 := xt + t t t xt+1 := arg maxx∈{xut+1 , xlt+1 } f (x) end for 15 16 4.2 Thuật toán BOPE giải tốn MAP khơng lồi 4.2.1 Ý tưởng xây dựng thuật toán BOPE 4.2.2 Sự hội tụ thuật toán BOPE Định lý 4.1 (Sự hội tụ BOPE) Giả sử g1 (x) g2 (x) có đạo hàm liên tục miền đóng Ω Cho trước tham số Bernoulli p ∈ (0, 1), với xác suất 1, dãy nghiệm {xt } thu Thuật toán 4.1 đảm bảo hội tụ đến điểm cực đại địa phương điểm dừng x∗ hàm mục tiêu f (x) với tốc độ hội tụ O(1/T ) T số bước lặp thực 4.2.3 Vai trò hiệu chỉnh thuật tốn BOPE Định lý 4.2 (Tính hiệu chỉnh BOPE) Giả sử cho trước tham số Bernoulli p ∈ (0, 1), xét thuật toán BOPE giải toán MAP khơng lồi (4.1) có dạng: x∗ = arg max[f (x) = log P (D|x) + log P (x)] x Khi thuật tốn BOPE kỹ thuật hiệu chỉnh để giải tốn MAP khơng lồi (4.1) tham số Bernoulli p đóng vai trò tham số hiệu chỉnh BOPE 4.2.4 Mở rộng cho toán tối ưu không lồi tổng quát Chúng làm rõ ưu điểm vượt trội BOPE so với thuật toán suy diễn khác VB, CVB, CGS, FW, OPE, Kết đối chiếu tổng kết Bảng 4.1 Phương pháp suy diễn VB, CVB , CVB0 SMM, CCCP CGS PMD HAMCMC OPE Tốc độ hội tụ − − − O(T −1/2 ) O(T −1/3 ) O(1/T ) Ngẫu nhiên − − Có Có Có Phân phối Linh hoạt − − − − − Có Hiệu chỉnh − − − − − − BOPE O(1/T ) Phân phối Bernoulli Có Có Bảng 4.1: So sánh mặt lý thuyết phương pháp suy diễn tiêu chuẩn tốc độ hội tụ, tính ngẫu nhiên, tính linh hoạt tính hiệu chỉnh Ký hiệu T số lần lặp ’-’ biểu thị ’không xác định’ Chúng phát BOPE có ưu vượt trội so với phương pháp suy diễn đương đại khác 4.3 Áp dụng BOPE vào mơ hình LDA cho phân tích văn 4.3.1 Suy diễn MAP cho văn Chúng tiếp tục xem xét toán MAP văn d mơ hình chủ đề: K θ ∗ = arg max θ∈∆K j K θk βkj + (α − 1) dj log k=1 log θk (4.2) k=1 tham số α < Chúng tơi áp dụng BOPE để giải tốt toán (4.2) với hàm mục K tiêu f (θ) = j dj log K k=1 θk βkj + (α − 1) k=1 log θk phân rã thành thành phần g1 (θ) = K K k=1 θk βkj g2 (θ) = (α − 1) k=1 log θk Thay thuật toán OPE thuật toán học j dj log Online-OPE BOPE, chúng tơi thu thuật tốn học Online-BOPE 4.3.2 Đánh giá thực nghiệm • Các thuật tốn suy diễn: Chúng tơi tiến hành so sánh thuật tốn suy diễn BOPE với phương pháp suy diễn đương đại VB, CVB, CVB0, CGS OPE 17 • Các phương pháp học: Chúng tiến hành thực nghiệm để điều tra tính hiệu OnlineBOPE so sánh với phương pháp học ngẫu nhiên khác như: Online-CGS, Online-CVB0, Online-VB, Online-OPE a Các liệu thực nghiệm Chúng sử dụng liệu văn lớn thuộc hai nhóm liệu văn dài liệu văn ngắn Mô tả chi tiết cho tập liệu hiển thị Bảng 4.2 Bộ liệu New York Times PubMed Yahoo Twitter NYT-Titles Kích thước liệu 300,000 330,000 517,770 1,457,687 1,664,127 Độ dài văn TB 325.13 65.12 4.73 10.14 5.15 Từ điển V 102,661 141,044 24,420 89,474 55,488 Bảng 4.2: Bảng mô tả năm liệu thực nghiệm b Thiết lập tham số c Độ đo đánh giá thực nghiệm Chúng tiếp tục sử dụng hai độ đo Log Predictive Probability (LPP) Normalised Pointwise Mutual Information (NPMI) để đánh giá kết thực nghiệm d Kết thực nghiệm Với liệu văn dài: Chúng so sánh Online-BOPE với Online-VB, Online-CVB0, Online-CGS Online-OPE hai liệu New York Times PubMed Kết chi tiết mơ tả Hình 4.1 New York Tim s −9 New 10 NPMI LPP −9.6 −10.0 −10.4 15 30 45 S1ốvănốbảnốăx5000ả 60 P)bmed −8.0 15 30 45 S1 văn b0n (x5000) 60 Pubmed 7.5 NPMI −8.5 LPP −9.0 −9.5 −10.0 York Tim s 6.0 4.5 3.0 Onlin -BOPE 15 30 45 S1 v-n b0n (x5000) Onlin -OPE 60 1.5 Onlin -VB 15 30 45 S1 văn ăx5000) Onlin -CVB0 60 Onlin -CGS Hình 4.1: Kết phương pháp học ngẫu nhiên New York Times PubMed Độ đo cao tốt Chúng nhận thấy Online-BOPE thường cho kết tốt Với liệu văn ngắn: Chúng tiếp tục điều tra tính hiệu Online-BOPE tập văn ngắn Twitter, NYT-Titles, Yahoo Chúng cho thấy BOPE giúp Online-BOPE tốt phương pháp so sánh văn ngắn số khía cạnh tính dự đốn, tính tổng qt ngăn chặn khớp (xem Hình 4.2) 18 LPP NYT-TITLES TWITTER −8.4 −6.6 −8.8 −7.2 −9.2 −7.8 −9.6 −8.4 100 200 300 YAHOO −7.6 −8.0 −8.4 −8.8 100 200 300 30 60 90 10 NPMI −5 0 100 200 300 S văn (x5000) Online-BOPE 100 200 Online-OPE 30 60 90 Sốốvănốb−nố(x5000) Online-CVB0 Online-CGS 300 (x5000) Online-VB Sốốvănốbảnố Hình 4.2: Kết phương pháp học ngẫu nhiên liệu văn ngắn: NYT-Titles, Twitter Yahoo Chúng thấy Online-BOPE thường cho kết tốt hai độ đo LPP NPMI Chúng quan sát thấy khớp Online-VB Online-CVB0 Hình 4.2 Cụ thể thấy độ đo LPP NPMI Online-VB Online-CVB0 bị giảm theo số lượng văn học độ đo LPP NPMI Online-CGS, Online-OPE Online-BOPE tăng theo số lượng văn học Điều có nghĩa khả tổng qt mơ hình giảm học Online-VB Online-CVB ba liệu văn ngắn, đặc biệt NYT-Titles Yahoo TWITTER LPP NYT-TITLES YAHOO −8.4 06.5 07.6 −8.8 07.0 08.0 07.5 −9.2 08.4 08.8 −8 −9.6 400 800 1200 1600 −8.5 400 800 1200 3.0 4 1.5 0.0 −4 NPMI 4.5 400 800 1200 1600 Số văn ăx5000) Online-BOPE-min 400 800 1200 Sốố)ănốb.nốăx5000) Online-BOPE-max Online-VB 150 300 450 150 300 450 Sốốvănốbảnốăx5000) Online-CVB0 Online-CGS Hình 4.3: Kết phương pháp học ngẫu nhiên liệu văn ngắn: NYT-Titles, Twitter Yahoo sau epochs Chúng phát Online-BOPE cho kết tốt Chúng phát chất lượng Online-BOPE tốt sau epoch Tuy nhiên, tượng khớp Online-VB Online-CVB0 xảy tăng Độ đo LPP NPMI Online-VB OnlineCVB0 có xu hướng giảm mạnh theo số văn huấn luyện, độ đo LPP, tức khả tổng qt mơ hình giảm dần theo số văn học số epochs 19 4.4 Áp dụng BOPE cho tốn hệ gợi ý 4.4.1 Mơ hình CTMP Trong q trình học mơ hình CTMP, phải cập nhật véc tơ tỷ lệ chủ đề θj Chúng ta tính ước lượng điểm tỷ lệ chủ đề địa phương θj từ hàm mục tiêu: g(θj ) = (α − 1) cνj log log θjk + ν k θjk βkν − k λ θ j − µj 2 (4.3) hàm mục tiêu g(θj ) không lồi α < Chúng tơi nhận thấy BOPE có nhiều ưu vượt trội OPE Vì vậy, chúng tơi áp dụng BOPE để học tham số θj mơ hình CTMP 4.4.2 Đánh giá thực nghiệm a Các liệu thực nghiệm Chúng sử dụng liệu CiteULike Movielens 1M để thực nghiệm so sánh mơ hình CTMP với thuật tốn suy diễn OPE BOPE Bộ liệu CiteULike MovieLens 1M Số người dùng 5,551 6,040 Số sản phẩm 16,890 3,952 Số xếp hạng 204,986 1,000,209 Độ dài TB mô tả 66.6 4.7 Bảng 4.3: Thống kê liệu thực nghiệm Độ thưa thớt biểu thị tỷ lệ sản phẩm khơng có xếp hạng tích cực ma trận xếp hạng R b Độ đo đánh giá thực nghiệm Các dự đoán đánh giá theo độ đo Precision Recall Để thuận tiện, Precision Recall top-M viết tắt pre@M rec@M định nghĩa: prec@M = U u Muc ; rec@M = M U u Muc Mu Muc số sản phẩm xác xuất đề xuất top −M cho người dùng u Mu số sản phẩm mà người dùng u đánh giá tích cực c Kết thực nghiệm Chúng tơi xem xét tính hiệu BOPE thơng qua việc khảo sát ảnh hưởng tham số tiên nghiệm Dirichlet α, tham số λ số chủ đề K mơ hình CTMP STT Tham số cố định λ = 1000, K = 100 α = 0.01, λ = 1000 λ = 1000, K = 100 α = 1, K = 100 α = 1, λ = 1000 Tham số Bernoulli p p = 0.9 p = 0.9 p = 0.7 p = 0.7 p = 0.7 Tham số khảo sát α ∈ {1, 0.1, 0.01, 0.001, 0.0001} K ∈ {50, 100, 150, 200, 250} α ∈ {1, 0.1, 0.01, 0.001, 0.0001} λ ∈ {1, 10, 100, 1000, 10000} K ∈ {50, 100, 150, 200, 250} Bảng 4.4: Các kịch khảo sát thực nghiệm chúng tơi Mơ hình CTMP phụ thuộc vào tham số tiên nghiệm Dirichlet α, tham số λ số chủ đề K Chúng cố định tham số λ = 1000, số chủ đề K = 100, khảo sát tham số tiên nghiệm Dirichlet α ∈ {1, 0.1, 0.01, 0.001, 0.0001} Kết thực nghiệm mô tả từ Hình 4.4 đến Hình 4.5, chúng tơi thấy sử dụng thuật toán suy diễn BOPE cho kết tốt OPE hai độ đo hai tập liệu Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, số chủ đề K = 100 chọn tham số Bernoulli p = 0.7, sau thay đổi tham số λ ∈ {1, 10, 100, 1000, 10000} Kết thực nghiệm trình bày từ Hình 4.6 4.7 20 Precision (%) 3.5 3.0 2.5 2.0 1.5 Recall (%) 24 18 12 alpha=1 alpha=0.1 alpha=0.01 alpha=0.001 alpha=0.0001 4.0 4.0 3.6 3.6 3.2 3.2 3.0 3.0 2.4 2.4 2.4 2.4 1.8 1.8 1.6 1.6 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 24 20 20 20 20 16 15 15 15 12 10 10 10 5 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 Top Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.4: Ảnh hưởng tham số tiên nghiệm Dirichlet α đến CTMP sử dụng OPE BOPE suy diễn CiteULike Chúng thiết lập tham số λ = 1000, số chủ đề K = 100 tham số Bernoulli p = 0.9 Độ đo cao tốt Precision (%) alpha=1 20 15 10 alpha=0.1 Recall (%) 30 15 alpha=0.001 20 20 20 20 16 16 16 16 12 12 12 12 25 50 75 100 alpha=0.0001 40 40 25 50 75 100 25 50 75 100 40 40 30 30 30 30 20 20 20 20 25 50 75 100 45 alpha=0.01 25 50 75 100 10 10 10 10 25 50 75 100 25 50 75 100 25 50 75 100 25 50 75 100 25 50 75 100 Top Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.5: Ảnh hưởng tham số tiên nghiệm Dirichlet α đến CTMP sử dụng OPE BOPE thuật toán suy diễn MovieLens 1M Chúng thiết lập tham số λ = 1000, số chủ đề K = 100 tham số Bernoulli p = 0.7 Độ đo cao tốt Lưu ý λ tham số đặc trưng cho dao động µ quanh θ Qua Hình 4.6 4.7, chúng tơi thấy tham số α = K = 100, mơ hình CTMP tốt với trường hợp λ = λ = 10, trường hợp λ = 1000 λ = 10000 mơ hình cho kết xấu Đồng thời thấy với λ thực nghiệm CTMP-BOPE ln cho kết tốt CTMP-OPE, chí trường hợp xấu λ = 1000 hay λ = 10000 21 λ=1 λ = 10 6.0 4.5 4.5 3.0 3.0 1.5 1.5 Precision (%) 6.0 25 50 75100 30 20 20 10 10 Recall (%) 30 25 50 75100 Top λ = 100 3.0 25 50 75100 λ = 10000 3.0 2.4 λ = 1000 2.4 1.8 1.8 1.2 25 50 75100 25 50 75100 24 24 16 16 8 25 50 75100 24 18 12 25 50 75100 25 50 75100 25 50 75100 Top Top Top CTMP-OPE CTMP-BOPE 25 50 75100 Top Hình 4.6: Ảnh hưởng tham số λ đến mơ hình CTMP sử dụng OPE BOPE thuật toán suy diễn thực nghiệm CiteULike Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, số chủ đề K = 100 tham số Bernoulli p = 0.7 Độ đo cao tốt λ=1 λ = 10 λ = 100 λ = 1000 20 20 20 16 16 16 15 12 12 12 Precision (%) 20 25 50 75 100 25 50 75 100 40 40 30 30 30 20 20 20 Recall (%) 40 25 50 75 100 Top 20 λ = 10000 16 12 10 25 50 75 100 25 50 75 100 25 50 75 100 45 30 15 40 30 20 10 25 50 75 100 25 50 75 100 25 50 75 100 25 50 75 100 Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.7: Ảnh hưởng tham số λ đến mơ hình CTMP sử dụng OPE BOPE thuật toán suy diễn thực nghiệm MovieLens 1M Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, số chủ đề K = 100 tham số Bernoulli p = 0.7 Độ đo cao tốt Để điều tra ảnh hưởng số chủ đề K đến mơ hình CTMP, chúng tơi thiết lập tham số tiên nghiệm Dirichlet α = 0.01, tham số λ = 1000 chọn tham số Bernoulli p = 0.9, sau thay đổi số chủ đề K ∈ {50, 100, 150, 200} Những kết thực nghiệm mơ tả Hình 4.8 Hình 4.9 Chúng điều tra ảnh hưởng số chủ đề K thiết lập tham số tiên nghiệm Dirichlet α = 1, tham số λ = 1000 chọn tham số Bernoulli p = 0.7 Chúng thay đổi số chủ đề K ∈ {50, 100, 150, 200, 250} Các kết thực nghiệm mô tả Hình 4.10 4.11 22 K=50 Precision (%) Recall (%) 30 24 18 12 20 40 60 80100 K=100 20 40 60 80100 32 32 24 24 16 16 8 20 40 60 80100 20 40 60 80100 Top Top CTMP-OPE K=150 K=200 20 40 60 80100 20 40 60 80100 30 24 18 12 20 40 60 80100 20 40 60 80100 Top Top CTMP-BOPE Hình 4.8: Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE làm phương pháp suy diễn tiến hành CiteULike Chúng thiết lập tham số tiên nghiệm Dirichlet α = 0.01, tham số λ = 1000 tham số Bernoulli p = 0.9 Độ đo cao tốt K=50 Precision (%) 24 20 16 12 20 40 60 80100 Recall (%) 50 40 30 20 20 40 60 80100 Top 24 20 16 12 50 40 30 20 K=100 20 40 60 80100 20 40 60 80100 Top CTMP-OPE 21 18 15 12 48 40 32 24 16 K=150 20 40 60 80100 21 18 15 12 K=200 20 40 60 80100 40 32 24 16 20 40 60 80100 Top CTMP-BOPE 20 40 60 80100 Top Hình 4.9: Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE làm phương pháp suy diễn tiến hành MovieLens 1M Chúng thiết lập tham số tiên nghiệm Dirichlet trước α = 0.01, tham số λ = 1000 tham số Bernoulli p = 0.9 Độ đo cao tốt Thơng qua Hình 4.10 Hình 4.11 thấy ảnh hưởng số chủ đề K rõ ràng so với α λ mơ hình CTMP Số lượng chủ đề ẩn K thể phức tạp mơ hình phụ thuộc vào tập liệu Qua Hình 4.8, 4.9, 4.10 4.11, chúng tơi thấy CTMP-BOPE thường tốt CTMP-BOPE Theo Hình 4.10, CTMP-BOPE đặc biệt tốt CTMP-OPE lựa chọn tham số Bernoulli p = 0.7 số chủ đề K = 200 K = 250 liệu CiteULike 23 Precision (%) K=50 2.5 2.0 1.5 Recall (%) 20 15 10 K=100 6.0 K=150 6.0 K=200 K=250 6.0 4.5 4.5 4.5 3.0 3.0 3.0 1.5 1.5 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 32 32 32 24 24 24 24 16 16 16 16 8 8 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 Top Top Top Top Top CTMP-OPE CTMP-BOPE 3.0 2.4 1.8 Hình 4.10: Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE phương pháp suy diễn tiến hành CiteULike Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, tham số λ = 1000 tham số Bernoulli p = 0.7 Độ đo cao tốt K=50 Precision (%) 24 20 16 12 24 20 16 12 25 50 75100 45 Recall (%) 40 30 20 30 15 25 50 75100 Top K=100 K=150 K=200 20 20 16 16 12 12 25 50 75100 25 50 75100 25 K=250 20 15 10 25 50 75100 25 50 75100 40 40 40 30 30 30 20 20 20 10 10 10 25 50 75100 25 50 75100 25 50 75100 25 50 75100 Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.11: Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE phương pháp suy diễn tiến hành MovieLens 1M Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, tham số λ = 1000 tham số Bernoulli p = 0.7 Độ đo cao tốt 4.5 Kết luận chương Trong chương này, đề xuất thuật tốn BOPE sử dụng tính ngẫu nhiên phân phối Bernoulli để giải toán MAP đảm bảo chất lượng tốc độ hội tụ giống OPE, đặc điểm quan trọng số phương pháp suy diễn đại Chúng chứng minh BOPE có hiệu tốn phân tích văn tốn hệ thống gợi ý, đồng thời tham số Bernoulli p BOPE có vai trò quan trọng giúp BOPE có ưu điểm bật tính hiệu chỉnh tính linh hoạt tốt, giảm hay tránh tượng khớp đặc biệt văn ngắn Chúng xác nhận BOPE ứng cử viên tốt cho tốn MAP khơng lồi hồn tồn mở rộng cho tốn tối ưu không lồi tổng quát KẾT LUẬN Trong luận án, nghiên cứu sinh nghiên cứu toán cực đại hóa xác suất hậu nghiệm khơng lồi thường xuất học máy Trên sở đó, luận án đề xuất số thuật toán ngẫu nhiên giải hiệu tốn MAP khơng lồi số mơ hình xác suất Sự hiệu thuật tốn đề xuất xem xét đầy đủ hai khía cạnh lý thuyết thực nghiệm Các thuật tốn đề xuất chứng minh đảm bảo hội tụ với tốc độ nhanh thông qua công cụ lý thuyết xác suất thống kê lý thuyết tối ưu Thông qua thực nghiệm triển khai toán suy diễn hậu nghiệm mơ hình chủ đề năm liệu lớn triển khai tốn MAP với mơ hình CTMP hệ gợi ý, đảm bảo đề xuất hiệu cao có khả áp dụng tốt so với phương pháp đương đại Thông qua nghiên cứu kỹ lưỡng mặt lý thuyết thực nghiệm chứng minh tính ưu việt thuật toán đề xuất A Kết đạt luận án Các kết đạt luận án tóm tắt sau: (1) Luận án đề xuất nhóm thuật tốn tối ưu ngẫu nhiên đặt tên OPE1, OPE2, OPE3 OPE4 dựa phân phối với kết hợp hai biên ngẫu nhiên để giải toán suy diễn hậu nghiệm với mơ hình chủ đề, OPE3 OPE4 hiệu Sự hội tụ OPE3 OPE4 chứng minh nghiêm túc cơng cụ giải tích, lý thuyết xác suất tối ưu (2) Chúng tiếp tục đề xuất GOPE sử dụng phân phối rời rạc Bernoulli lý thuyết xấp xỉ ngẫu nhiên để giải tốn MAP khơng lồi Thuật tốn GOPE có tính linh hoạt tổng quát có mặt tham số Bernoulli p ∈ (0, 1) đóng vai trò tham số hiệu chỉnh thuật tốn Chúng tơi đánh giá hiệu GOPE áp dụng cho toán MAP với mơ hình chủ đề đầy đủ hai phương diện lý thuyết thực nghiệm với liệu đầu vào lớn cao chiều (3) Đề xuất thuật toán BOPE thuật tốn ngẫu nhiên hiệu có tính tổng quát, linh hoạt cao vượt trội thuật tốn khác, đặc biệt hiệu chỉnh Thơng qua khai thác ngẫu nhiên Bernoulli biên ngẫu nhiên, chúng tơi thu thuật tốn BOPE cho tốn MAP khơng lồi mơ hình đồ thị xác suất Đồng thời BOPE áp dụng thành công vào tốn phân tích văn tốn hệ gợi ý B Định hướng phát triển Các thuật toán tối ưu ngẫu nhiên đề xuất để giải tốn MAP khơng lồi đem đến cách tiếp cận mẻ: sử dụng xấp xỉ ngẫu nhiên, phân phối xác suất ngẫu nhiên, đưa hàm mục tiêu tất định ban đầu trở thành đại lượng ngẫu nhiên tính tốn hiệu Nhận thấy cách tiếp cận phù hợp thực hiệu quả, đặc biệt tốn MAP khơng lồi học máy thống kê thường có hàm mục tiêu phức tạp, xuất mơ hình với liệu lớn, cao chiều Do thời gian tới, chúng tơi tiếp tục tập trung phát triển thuật toán sâu rộng hơn, theo hướng: • Triển khai mở rộng mơ hình khác học máy có dạng khơng lồi hay tốn quy hoạch DC khó giải Nghiên cứu tính chất ưu việt thuật tốn đề xuất tính tổng qt, tính hiệu khả hiệu chỉnh Từ nghiên cứu thuật tốn tồn diện hai mặt lý thuyết thực nghiệm; • Áp dụng thành cơng vào số tốn ứng dụng phân tích văn bản, hệ gợi ý, toán nhận dạng xử lý ảnh, Đồng thời phát triển nghiên cứu không làm việc liệu văn mà mở rộng nhiều loại liệu đa dạng phức tạp đáp ứng tốt nhu cầu toán thực tế 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Xuan Bui, Tu Vu, and Khoat Than (2016) Stochastic bounds for inference in topic models In International Conference on Advances in Information and Communication Technology (pp 582-592) Springer, Cham Bui Thi-Thanh-Xuan, Vu Van-Tu, Atsuhiro Takasu, and Khoat Than (2018) A fast algorithm for posterior inference with latent Dirichlet allocation In Asian Conference on Intelligent Information and Database Systems (pp 137-146) Springer, Cham Tu Vu, Xuan Bui, Khoat Than, and Ryutaro Ichise (2018) A flexible stochastic method for solving the MAP problem in topic models, Computación y Sistemas journal, 22(4), 2018 (Scopus, ESCI) Xuan Bui, Tu Vu, and Khoat Than (2018) Some methods for posterior inference in topic models, Journal Research and Development on Information and Communication Technology (RD-ICT), Vol E-2, No.15 (Tạp chí Cơng nghệ thơng tin truyền thông) Khoat Than, Xuan Bui, Tung Nguyen-Trong, Khang Truong, Son Nguyen, Bach Tran, Linh Ngo, and Anh Nguyen-Duc (2019) How to make a machine learn continuously: a tutorial of the Bayesian approach, Artificial Intelligence and Machine Learning for MultiDomain Operations Applications, 110060I, SPIE 25 ... rãi nhiều mơ hình học máy Để triển khai mục tiêu đặt ra, nghiên cứu sinh lựa chọn đề tài "Một số phương pháp ngẫu nhiên cho tốn cực đại hóa xác suất hậu nghiệm không lồi học máy" cho luận án Sự... tham số, hay gọi q trình học tham số, ý tưởng tốn học máy nhằm tìm mối tương quan đầu vào đầu dựa liệu huấn luyện Một phương pháp ước lượng tham số thông dụng sử dụng học máy thống kê phương pháp. .. thị giác máy tính, xử lý ngơn ngữ tự nhiên sinh học tính tốn 1.2.2 Một số phương pháp suy diễn a Phương pháp suy diễn biến phân b Phương pháp Markov Chain Monte Carlo (MCMC) c Phương pháp Gibbs

Định dạng
Số trang	27
Dung lượng	3,56 MB