Tóm tắt luận án Tiến sĩ Hệ thống thông tin: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu nghiệm không lồi trong học máy

27 17 0
Tóm tắt luận án Tiến sĩ Hệ thống thông tin: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu nghiệm không lồi trong học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận án với mục tiêu đề xuất bốn thuật toán tối ưu ngẫu nhiên OPE1, OPE2, OPE3 và OPE4 giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề có bản chất là bài toán tối ưu không lồi thông qua việc sử dụng phân phối xác suất đều kết hợp với dùng hai chuỗi biên ngẫu nhiên xấp xỉ cho hàm mục tiêu ban đầu, trong đó các đề xuất có đảm bảo về cơ sở lý thuyết và thực nghiệm. Thuật toán tối ưu ngẫu nhiên GOPE giải bài toán MAP không lồi trong mô hình chủ đề thông qua sử dụng phân phối Bernoulli với tham số p ∈ (0, 1) thích hợp. Từ đó, chúng tôi áp dụng GOPE để thiết kế thuật toán ngẫu nhiên Online-GOPE học mô hình chủ đề hiệu quả.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI THỊ THANH XUÂN MỘT SỐ PHƯƠNG PHÁP NGẪU NHIÊN CHO BÀI TỐN CỰC ĐẠI HĨA XÁC SUẤT HẬU NGHIỆM KHƠNG LỒI TRONG HỌC MÁY TĨM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2020 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: HD1: PGS.TS Thân Quang Khoát HD2: TS Nguyễn Thị Oanh Phản biện 1: PGS.TS Nguyễn Phương Thái Phản biện 2: PGS.TS Lương Thế Dũng Phản biện 3: PGS.TS Nguyễn Long Giang Luận án bảo vệ Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội Vào hồi giờ, ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Bối cảnh nghiên cứu Nghiên cứu học máy, chúng tơi nhận thấy q trình giải tốn học máy thường gồm ba bước chính: bước mơ hình hóa, bước học bước suy diễn Trong đó, mơ hình hóa tìm mơ hình thích hợp cho tốn cần giải quyết, học q trình tối ưu tham số mơ hình suy diễn bước dự đốn kết đầu mơ hình dựa tham số huấn luyện Ký hiệu x tập tham số mơ hình, bước học q trình ước lượng tham số, tức tìm tham số x cho liệu sẵn có mơ hình khớp với Việc tối ưu tham số, hay gọi q trình học tham số, ý tưởng tốn học máy nhằm tìm mối tương quan đầu vào đầu dựa liệu huấn luyện Một phương pháp ước lượng tham số thông dụng sử dụng học máy thống kê phương pháp ước lượng hợp lý cực đại Maximum Likelihood Estimation (MLE) Tuy nhiên, phương pháp MLE biết đến với xu hướng phù hợp với liệu, nên tượng khớp trở nên nghiêm trọng mơ hình phức tạp liên quan đến liệu giới thực với số chiều lớn liệu hình ảnh, tiếng nói văn MLE thường làm việc không hiệu trường hợp có q liệu huấn luyện Khắc phục nhược điểm MLE, sử dụng phương pháp cực đại hóa ước lượng xác suất hậu nghiệm Maximum A Posteriori Estimation (MAP) Khác với MLE, MAP khơng dựa liệu huấn luyện mà cịn dựa thông tin biết tham số Ước lượng MAP tối ưu tham số x theo xác suất có điều kiện: x∗ = arg max P (x|D) x (0.3) Posterior xác suất P (x|D) gọi xác suất hậu nghiệm (posterior) tham số x Thông thường, hàm tối ưu (0.3) khó xác định trực tiếp Vì vậy, để giải toán MAP, thường sử dụng quy tắc Bayes đưa toán MAP (0.3) dạng: x∗ = arg max[P (D|x) × P (x)] x (0.4) xác suất P (x) gọi xác suất tiên nghiệm (prior) tham số x Tận dụng tính chất đơn điệu tăng hàm logarit, người ta thường lấy logarit hàm mục tiêu (0.4) viết lại toán MAP (0.4) dạng: x∗ = arg max[log P (D|x) + log P (x)] (0.5) x Theo hiểu biết chúng tôi, ước lượng MAP sử dụng nhiều mơ hình đồ thị xác suất Có nhiều cách tiếp cận để giải toán MAP suy diễn biến phân hay phương pháp lấy mẫu MCMC, Một hướng tiếp cận khác xem xét toán MAP (0.5) góc nhìn tốn tối ưu tốn học: x∗ = arg max[f (x) = log P (D | x) + log P (x)] (0.6) x hàm mục tiêu có dạng f (x) = log P (D|x) + log P (x) Mức độ khó giải toán (0.6) phụ thuộc vào đặc điểm hàm mục tiêu f (x) Trong thực tế, làm việc với mơ hình học máy thống kê, hàm mục tiêu f (x) thường phức tạp, khó phân tích hàm khơng lồi, tốn mặt tính tốn Mặc dù ước lượng MAP có nhiều ưu so với MLE phương diện như: làm việc với liệu huấn luyện ít, có khả hiệu chỉnh, nhiên, tìm đến phương pháp hiệu giải tốn MAP việc khó khăn Ngun nhân dẫn đến khó khăn tốn MAP nằm chỗ hàm mục tiêu f (x) = log P (D|x) + log P (x) nhiều trường hợp hàm khơng lồi, khó tìm cực đại, dẫn đến giải trực tiếp tốn MAP khơng khả thi Chúng ta phải đối mặt với thách thức lớn: Làm để giải hiệu tốn MAP mơ hình đồ thị xác suất hàm mục tiêu khơng lồi? Do vậy, đề xuất thuật tốn hiệu đảm bảo lý thuyết thực nghiệm để giải tốn MAP khơng lồi thu hút quan tâm đồng thời thách thức học máy thống kê Động lực thúc đẩy Nghiên cứu sinh đặt toán cần nghiên cứu là: Nghiên cứu đề xuất thuật tốn ngẫu nhiên hiệu giải tốn MAP khơng lồi xuất mơ hình đồ thị xác suất cho dạng x∗ = arg max[f (x) = log P (D|x) + log P (x)] x hàm mục tiêu f (x) hàm nhiều chiều, không lồi miền ràng buộc Ω Khó khăn tốn đặt hàm mục tiêu f (x) khơng lồi xuất nhiều điểm cực trị địa phương/điểm yên ngựa, đồng thời f (x) hàm nhiều biến có số chiều lớn, gặp khó khăn việc tính trực tiếp đạo hàm cấp, tốn MAP khơng lồi trở thành khó giải Nghiên cứu sinh đặt mục tiêu đề xuất số thuật toán tối ưu ngẫu nhiên để giải hiệu toán MAP khơng lồi đảm bảo tiêu chí sau: (i) Các thuật toán ngẫu nhiên đảm bảo chất lượng lý thuyết thực nghiệm, (ii) Các thuật toán có tốc độ hội tụ nhanh, (iii) Các thuật tốn có tính linh hoạt, tính tổng qt khả hiệu chỉnh tốt Từ áp dụng thuật tốn rộng rãi nhiều mơ hình học máy Để triển khai mục tiêu đặt ra, nghiên cứu sinh lựa chọn đề tài "Một số phương pháp ngẫu nhiên cho toán cực đại hóa xác suất hậu nghiệm khơng lồi học máy" cho luận án Sự thành cơng đề tài góp phần giải tốt tốn ước lượng MAP khơng lồi, đồng thời mở rộng áp dụng để giải tốt toán tối ưu khơng lồi thường xuất nhiều mơ hình học máy Các đóng góp luận án Với mục tiêu triển khai thành công đề tài, nghiên cứu luận án tập trung vào đề xuất sau đây: • Đề xuất bốn thuật tốn tối ưu ngẫu nhiên OPE1, OPE2, OPE3 OPE4 giải tốn suy diễn hậu nghiệm mơ hình chủ đề có chất tốn tối ưu khơng lồi thông qua việc sử dụng phân phối xác suất kết hợp với dùng hai chuỗi biên ngẫu nhiên xấp xỉ cho hàm mục tiêu ban đầu, đề xuất có đảm bảo sở lý thuyết thực nghiệm • Đề xuất thuật tốn tối ưu ngẫu nhiên GOPE giải tốn MAP khơng lồi mơ hình chủ đề thơng qua sử dụng phân phối Bernoulli với tham số p ∈ (0, 1) thích hợp Từ đó, chúng tơi áp dụng GOPE để thiết kế thuật tốn ngẫu nhiên Online-GOPE học mơ hình chủ đề hiệu • Sử dụng ngẫu nhiên Bernoulli với tham số p ∈ (0, 1) thích hợp, kết hợp với dùng hai biên ngẫu nhiên nguyên lý tham lam, chúng tơi đề xuất BOPE giải tốn MAP khơng lồi tổng quát đảm bảo tiêu chí quan trọng: tốc độ hội tụ nhanh, có tính linh hoạt, có tính hiệu chỉnh Chúng tơi áp dụng thành cơng BOPE vào tốn phân tích văn hệ gợi ý Bố cục luận án Kết cấu thành chương, luận án trình bày trọn vẹn thuật tốn đề xuất giải tốn MAP khơng lồi học máy Như vậy, nội dung luận án đáp ứng mục tiêu mà đề Chương MỘT SỐ KIẾN THỨC NỀN TẢNG 1.1 Tối ưu không lồi 1.1.1 Bài toán tối ưu tổng quát Giả sử tập hợp tham số mơ hình ký hiệu x, hàm đánh giá mơ hình thường ký hiệu f (x) Bài tốn tìm tham số "tốt nhất" đưa tốn tối ưu có dạng minx f (x) maxx f (x) Như vậy, học mơ hình học máy giải tốn tối ưu tốn Do đó, tối ưu tốn học, đặc biệt tối ưu không lồi trở thành trung tâm học máy Xét toán tối ưu tổng quát f (x) (1.1) x∈Ω hàm mục tiêu f (x) hàm trơn không lồi miền đóng Ω Bài tốn tối ưu học máy thường hay sử dụng phương pháp ngẫu nhiên bậc nhất, đảm bảo đủ đơn giản độ xác cần thiết 1.1.2 Tối ưu ngẫu nhiên 1.2 Mơ hình đồ thị xác suất 1.2.1 Giới thiệu Mơ hình đồ thị xác suất sử dụng đồ thị để biểu diễn phụ thuộc có điều kiện biến ngẫu nhiên cách trực quan, có đỉnh biến ngẫu nhiên, cạnh biểu diễn phụ thuộc lẫn biến ngẫu nhiên, đồ thị biểu diễn phân phối đồng thời tất biến ngẫu nhiên Mơ hình đồ thị xác suất cơng cụ mạnh mẽ có nhiều ứng dụng học máy, thị giác máy tính, xử lý ngôn ngữ tự nhiên tin sinh học 1.2.2 Một số phương pháp suy diễn a Phương pháp suy diễn biến phân b Phương pháp Markov Chain Monte Carlo (MCMC) c Phương pháp Gibbs Sampling 1.3 Bài toán cực đại hóa xác suất hậu nghiệm 1.3.1 Giới thiệu tốn MAP Bài tốn MAP xem xét dạng toán tối ưu toán học: x∗ = arg max[f (x) = log P (D|x) + log P (x)] x (1.18) Khó khăn tốn MAP hàm mục tiêu f (x) = log P (D|x) + log P (x) hàm khơng lồi, gặp khó khăn tìm cực đại, dẫn đến giải trực tiếp tốn MAP khơng khả thi 1.3.2 Một số phương pháp tiếp cận Theo hiểu biết chúng tơi, có số cách tiếp cận để giải tốn MAP sau: • Thơng qua phép phân tích, mốt phân phối hậu nghiệm cho dạng "close-form" trường hợp prior liên hợp • Thơng qua phương pháp số phương pháp gradient phương pháp Newton Tuy nhiên, chúng thường yêu cầu đạo hàm bậc bậc hai phải tìm phương pháp giải tích phương pháp số • Thơng qua việc áp dụng thuật tốn Expectation Maximization (EM) • Thơng qua phương pháp Monte Carlo Đặt g1 (x) = log P (D | x) g2 (x) = log P (x) Khi đó, tốn MAP đưa tốn tối ưu sau x∗ = arg max[f (x) = g1 (x) + g2 (x)] (1.19) x Chúng ta sử dụng phương pháp tối ưu ngẫu nhiên đại với cải tiến thích hợp để giải chúng 1.4 Mơ hình chủ đề 1.4.1 Giới thiệu mơ hình chủ đề 1.4.2 Mơ hình Latent Dirichlet Allocation 1.4.3 Suy diễn hậu nghiệm mơ hình chủ đề Với mơ hình chủ đề LDA, phân phối hậu nghiệm P (θ, z|w, α, β) cho văn d Bài tốn tính phân phối xác suất gọi tốn suy diễn Trong mơ hình LDA, phân phối hậu nghiệm biến ẩn cho văn d là: P (θ, z|w, α, β) = P (θ, z, w|α, β) P (w|α, β) a Phương pháp Variational Bayes b Phương pháp Collapsed variational Bayes c Fast collapsed variational Bayes d Phương pháp Collapsed Gibbs sampling 1.5 Thuật toán OPE Xét toán suy diễn hậu nghiệm văn d mơ hình chủ đề Ước lượng tỉ lệ chủ đề θ ∈ ∆K cho văn d, xét toán sau: θ ∗ = arg max P (d, θ|β, α) = arg max [log P (d|θ, β) + log P (θ|α)] θ∈∆K θ∈∆K (1.22) Bài toán (1.22) tương ứng với toán sau: K θ ∗ = arg max θ∈∆K j K θk βkj + (α − 1) dj log k=1 log θk (1.23) k=1 α tham số phân phối tiên nghiệm Dirichlet Trong thực tế, sử dụng mơ hình LDA, người ta thường chọn α < dẫn đến hàm mục tiêu (1.23) khơng lõm Đó lý tốn (1.23) khơng khả thi trường hợp xấu Thuật tốn Online Frank-Wolfe (OFW) đề xuất để giải toán suy diễn MAP khơng lồi với mơ hình LDA Cải tiến OFW, tác giả đề xuất thuật toán cải tiến Online maximum a Posteriori Estimation (OPE) OPE có nhiều ưu điểm so với đề xuất trước Chi tiết OPE trình bày Thuật toán 1.7 Thuật toán OPE: Online Maximum a Posteriori Estimation Đầu vào: Văn d mơ hình {β, α} K K Đầu ra: θ cực đại hàm f (θ) = j dj log k=1 θk βkj + (α − 1) k=1 log θk 1: Khởi tạo θ1 thuộc ∆K 2: for t = 1, 2, ∞ K K 3: Lấy ft có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 4: Ft := 2t h=1 fh 5: et := arg maxx∈∆K < Ft (θ t ), x > t 6: θ t+1 := θ t + et −θ t 7: end for 1.6 Một số thuật toán ngẫu nhiên học LDA Sử dụng thuật toán suy diễn Variational Bayes (VB), Collapsed variational Bayes (CVB0), Collapsed Gibbs sampling (CGS), phương pháp học ngẫu nhiên Online-VB, Online-CVB0, Online-CGS đề xuất để học mơ hình LDA Sử dụng OPE làm cốt lõi suy diễn lược đồ học trực tuyến, hai thuật toán ngẫu nhiên học mơ hình LDA, đặt tên ML-OPE Online-OPE phát triển Chi tiết ML-OPE Online-OPE trình bày Thuật tốn 1.8 Thuật tốn 1.9 Thuật toán ML-OPE học LDA từ liệu dòng/dữ liệu lớn Đầu vào: Tham số K, α, τ > 0, κ ∈ (0.5, 1] Đầu ra: β 1: Khởi tạo β ngẫu nhiên miền ∆V 2: for t = 1, 2, ∞ 3: Lấy mini-batch Ct tập văn 4: Suy diễn OPE cho văn d ∈ Ct nhận θd , cho β t−1 ˆ t sau: βˆt ∝ 5: Tính tốn β kj d∈Ct dj θdk 6: Thiết lập tốc độ học ρt = (t + τ )−κ ˆt 7: Cập nhật β t := (1 − ρt )β t−1 + ρt β 8: end for Thuật toán Online-OPE học LDA từ liệu lớn Đầu vào: Tập huấn luyện C với D văn bản, K, α, η, τ > 0, κ ∈ (0.5, 1] Đầu ra: λ 1: Khởi tạo λ0 ngẫu nhiên 2: for t = 1, 2, ∞ 3: Lấy mẫu nhỏ Ct bao gồm S văn bản, 4: Sử dụng thuật toán OPE để suy diễn hậu nghiệm cho văn d ∈ Ct , với biến toàn cục β t−1 ∝ λt−1 bước trước, nhận chủ đề hỗn hợp θ d Sau tính φd sau: φdjk ∝ θdk βkj ˆ k cho Ct 5: Với k ∈ {1, 2, , K}, biến toàn cục trung gian λ ˆ kj = η + D λ S dj φdjk d∈Ct ˆ ρt = (t + τ )−κ Cập nhật biến toàn cục λt := (1 − ρt )λt−1 + ρt λ 7: end for 6: 1.7 Kết luận chương Chương trình bày khái qt tốn MAP số cách tiếp cận giải toán MAP, trình bày số kiến thức tối ưu ngẫu nhiên giải toán tối ưu khơng lồi thường hay gặp học máy, mơ hình đồ thị xác suất, phương pháp suy diễn, mô hình chủ đề, Đây tiền đề cho nghiên cứu thuật toán ngẫu nhiên giải toán MAP không lồi đề xuất chương Chương NGẪU NHIÊN HĨA THUẬT TỐN TỐI ƯU GIẢI BÀI TỐN SUY DIỄN HẬU NGHIỆM TRONG MƠ HÌNH CHỦ ĐỀ 2.1 Giới thiệu Trong chương này, chúng tơi xem xét tốn suy diễn hậu nghiệm mơ hình chủ đề LDA Đây minh họa cho tốn MAP khơng lồi mơ hình đồ thị xác suất, đối tượng nghiên cứu luận án Bài toán MAP văn d mơ hình chủ đề LDA có dạng: K θ ∗ = arg max θ∈∆K j K θk βkj + (α − 1) dj log k=1 log θk (2.1) k=1 tham số Dirichlet α < 2.2 Đề xuất giải tốn MAP mơ hình chủ đề Chúng nhận thấy OPE giải hiệu toán (2.1) Nghiên cứu đặc điểm OPE chúng tơi nhận thấy: • Thành phần g1 (θ) = j dj log log prior văn d K k=1 θk βkj < log likelihood g2 (θ) = (α−1) K k=1 log θk > • Hàm mục tiêu f (θ) = g1 (θ)+g2 (θ) bị kẹp hai hàm g1 g2 , tức g1 (θ) < f (θ) < g2 (θ) Dựa ý tưởng OPE, đề xuất số thuật tốn cải tiến trình bày mục Xuất phát từ thành phần g1 , xây dựng dãy hàm {Lt (θ)}, xuất phát từ thành phần g2 , xây dựng dãy hàm {Ut } dựa vào phân phối Bernoulli với tham số p Hai dãy hàm ngẫu nhiên {Ut } {Lt } tiến hàm mục tiêu f (a) Xây dựng biên biên hàm mục tiêu f (θ) (b) Luôn lựa chọn điểm tốt bước lặp Hình 2.2 Mơ tả ý tưởng cải tiến thuật tốn OPE Để tăng tính ngẫu nhiên cho thuật toán đề xuất, bước lặp, nghiệm gần θ t chọn dựa vào hai dãy {θ ut } {θ lt } phân phối xác suất thích hợp (1) Cải tiến thứ nhất: Sau xây dựng hai dãy {θ ut } {θ lt }, tiến hành lựa chọn nghiệm xấp xỉ θ t lần lặp thứ t theo phân phối từ hai nghiệm xấp xỉ trung gian {θ ut , θ lt }, tức 1 P (θ t = θ ut ) = , P (θ t = θ lt ) = 2 thu thuật tốn OPE1 trình bày Thuật tốn 2.1 Thuật toán OPE1: Sự lựa chọn từ hai biên ngẫu nhiên Đầu vào: Văn d tham số mơ hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ; f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu 6: eut := arg maxx∈∆K Ut (θ t ), x 7: 8: 9: 10: K k=1 log θk eu −θ θ ut+1 := θ t + t t t Lấy ftl có phân phối từ { t Lt := 2t h=1 fhl elt := arg maxx∈∆K Lt (θ t ), x j dj log K k=1 θk βkj ; (α − 1) K k=1 log θk } el −θ θ lt+1 := θ t + t t t 12: Lấy θ t+1 có phân phối từ {θ ut+1 , θ lt+1 } 13: end for 11: (2) Cải tiến thứ hai: Nghiệm θ t bước lặp thứ t lựa chọn ngẫu nhiên từ θ ut θ lt theo phân phối Bernoulli với xác suất qt , tức là: P (θ t = θ ut ) = qt , P (θ t = θ lt ) = − qt qt := exp f (θ u t) l exp f (θ u t )+exp f (θ t ) Chúng tơi thu thuật tốn cải tiến OPE2 trình bày Thuật toán 2.2 Cách lựa chọn nghiệm xấp xỉ θ t bước lặp cải tiến OPE2 làm mịn so với biến thể OPE1 sử dụng nhiều thông tin hàm mục tiêu f vào lựa chọn nghiệm θ t Thuật toán 2 OPE2: Làm mịn lựa chọn nghiệm từ hai biên ngẫu nhiên Đầu vào: Văn d tham số mơ hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ; f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu 6: eut := arg maxx∈∆K Ut (θ t ), x 7: 8: 9: 10: 11: 12: log θk eu −θ θ ut+1 := θ t + t t t Lấy ftl có phân phối từ { t Lt := 2t h=1 fhl elt := arg maxx∈∆K Lt (θ t ), x j dj log K k=1 θk βkj ; (α − 1) K k=1 log θk } el −θ θ lt+1 := θ t + t t t Lấy θ t+1 theo phân phối xác suất {P (θ t+1 = θ ut+1 ) = qt , P (θ t+1 = θ lt+1 ) = − qt } xác suất qt xác định qt := 13: K k=1 exp f (θ u t+1 ) l exp f (θ u t+1 )+exp f (θ t+1 ) end for (3) Cải tiến thứ ba: Sau xây dựng hai dãy {θ ut } {θ lt }, tiến hành lựa chọn nghiệm xấp xỉ bước lặp t là: θ t := arg maxθ∈{θut ,θlt } f (θ) thu thuật tốn OPE3 trình bày Thuật toán 2.3 (4) Cải tiến thứ tư: Chúng tơi có ý tưởng khác, xấp xỉ hàm mục tiêu f (θ) hàm xấp xỉ ngẫu nhiên Ft (θ) Ft (θ) tổ hợp tuyến tính hai biên ngẫu nhiên Ut Lt với tham số tổ hợp ν ∈ (0, 1) lựa chọn thích hợp: Ft (θ) := νUt (θ) + (1 − ν)Lt (θ) Thuật toán OPE3: Luôn lựa chọn nghiệm tốt bước lặp Đầu vào: văn d tham số mô hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ;f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu có phân phối từ { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu 6: eut := arg maxx∈∆K Ut (θ t ), x 7: 8: 9: 10: K k=1 log θk eu −θ θ ut+1 := θ t + t t t Lấy ftl có phân phối từ { t Lt := 2t h=1 fhl elt := arg maxx∈∆K Lt (θ t ), x j dj log K k=1 θk βkj ; (α − 1) K k=1 log θk } el −θ θ lt+1 := θ t + t t t 12: Lấy θ t+1 := arg maxθ∈{θut+1 ,θlt+1 } f (θ) 13: end for 11: tiến hành tìm nghiệm θ t tương tự OPE Chúng tơi thu OPE4 trình bày chi tiết Thuật toán 2.4 Thuật toán OPE4: Sử dụng tổ hợp tuyến tính biên ngẫu nhiên Đầu vào: Văn d, tham số tổ hợp ν ∈ (0, 1) tham số mơ hình {β, α} K Đầu ra: θ ∗ nghiệm cực đại hóa hàm f (θ) = j dj log k=1 θk βkj + (α − 1) 1: Khởi tạo θ thuộc ∆K K K u 2: f1l := j dj log k=1 θk βkj ; f1 := (α − 1) k=1 log θk 3: for t = 2, 3, , ∞ K K 4: Lấy ftu theo phân phối từ tập { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 5: Ut := 2t h=1 fhu K K 6: Lấy ftl theo phân phối từ tập { j dj log k=1 θk βkj ; (α − 1) k=1 log θk } t 7: Lt := 2t h=1 fhl 8: Lập tổ hợp tuyến tính Ft := νUt + (1 − ν)Lt 9: et := arg maxx∈∆K < Ft (θ t ), x > t 10: θ t+1 := θ t + et −θ t 11: end for K k=1 log θk 2.3 Các thuật tốn học ngẫu nhiên cho mơ hình LDA Chúng tơi tiến hành thay đổi thuật tốn lõi suy diễn OPE cải tiến OPE1, OPE2, OPE3 OPE4 đưa vào thuật tốn học ML-OPE Online-OPE Khi đó, chúng tơi thu thuật tốn ngẫu nhiên để học mơ hình LDA, là: ML-OPE1, ML-OPE2, ML-OPE3, ML-OPE4, Online-OPE1, Online-OPE2, Online-OPE3 Online-OPE4 2.4 Đánh giá thực nghiệm 2.4.1 Các liệu thực nghiệm Chúng tiến hành thực nghiệm cho cải tiến hai liệu lớn: New York Times (NYT) bao gồm 300.000 tin tức PubMed (PUB) bao gồm 330.000 báo từ trung tâm PubMed1 Các liệu lấy từ http://archive.ics.uci.edu/ml/datasets 11 tiến hành đo thời gian thực thuật tốn học Chúng tơi tính tổng thời gian thực bước E bước M cho thuật toán học Online-OPE, Online-OPE3 Online-OPE4 Kết chi tiết mô tả Bảng 2.3 Bộ liệu Phương pháp học Thời gian Độ đo LPP Độ đo NPMI Online-OPE 1022.21 -9.32 10.50 New York Online-OPE3 1737.18 -9.28 11.44 Times Online-OPE4 1298.88 -9.30 10.93 Online-OPE 402.23 -8.17 6.01 PubMed Online-OPE3 832.69 -8.07 7.09 Online-OPE4 636.45 -8.15 6.11 Bảng 2.3 Bảng thống kê thời gian thực độ đo thuật toán học Online-OPE, Online-OPE3 Online-OPE4 (ν = 0.3) thực nghiệm hai liệu New York Times PubMed 2.5 Sự hội tụ thuật toán đề xuất Định lý 2.1 (Sự hội tụ thuật toán OPE3) Xem xét hàm mục tiêu f (θ) toán (2.1), cho trước văn d, tham số β α Xét thuật toán OPE3, với xác suất 1, có: (i) Với θ ∈ ∆K , dãy biên Ut (θ) Lt (θ) hội tụ tới f (θ) t → +∞; (ii) Dãy nghiệm xấp xỉ {θ t } hội tụ tới điểm dừng/điểm cực trị địa phương hàm mục tiêu f (θ) t → +∞ Định lý 2.2 (Sự hội tụ thuật toán OPE4) Xem xét hàm mục tiêu khơng lồi f (θ) tốn (2.1), cho trước văn d, tham số β α Xét thuật toán OPE4, với xác suất 1, có: (i) Với θ ∈ ∆K , dãy hàm xấp xỉ Ft (θ) hội tụ tới f (θ) t → +∞, (ii) Dãy nghiệm xấp xỉ θ t hội tụ tới điểm tối ưu cục bộ/điểm dừng hàm f (θ) 2.6 Mở rộng thuật toán đề xuất cho tốn tối ưu khơng lồi 2.7 Kết luận chương Chúng tổng kết số kết đạt chương sau: • Trong chương chúng tơi đề xuất bốn thuật tốn tối ưu OPE1, OPE2, OPE3 OPE4 để giải toán suy diễn hậu nghiệm với mơ hình chủ đề ẩn LDA, OPE3 OPE4 thường hiệu thuật toán OPE Do vậy, OPE3 OPE4 nghiên cứu cách nghiêm túc đầy đủ hai mặt lý thuyết thực nghiệm • Các cải tiến khai thác theo hướng tiếp cận ngẫu nhiên hóa thơng qua việc xem xét hàm mục tiêu xấp xỉ ngẫu nhiên, sử dụng phân phối phù hợp với xu tiếp cận phương pháp ngẫu nhiên giải tốn MAP khơng lồi; • Hơn nữa, OPE3 OPE4 hồn tồn mở rộng dễ dàng để giải toán quy hoạch DC, lớp tốn tối ưu khơng lồi khó giải min[f (x) = g(x) − h(x)] x∈Ω cách đặt tương ứng g1 := g g2 := −h Các kết trình bày chương chúng tơi trình bày báo "Stochastic bounds for inference in topic models" xuất kỷ yếu hội thảo quốc tế ICTA năm 2016 báo "Some methods for posterior inference in topic models" xuất tạp chí RD-ICT Bộ thông tin truyền thông năm 2018 Chương TỔNG QT HĨA THUẬT TỐN TỐI ƯU GIẢI BÀI TỐN MAP KHƠNG LỒI TRONG MƠ HÌNH CHỦ ĐỀ 3.1 Giới thiệu Xem xét toán ước lượng MAP mơ hình đồ thị xác suất: x∗ = arg max [log P (D | x) + log P (x)] (3.1) x Ký hiệu g1 (x) := log P (D|x) g2 (x) := log P (x), (3.1) đưa toán tối ưu: x∗ = arg max [f (x) = g1 (x) + g2 (x)] (3.2) x Bài toán (3.2) khó giải hàm mục tiêu f (x) khơng lõm Một ví dụ minh họa tốn MAP mơ hình chủ đề LDA: K θ ∗ = arg max θ∈∆K j K θk βkj + (α − 1) dj log k=1 log θk (3.3) k=1 3.2 Thuật tốn GOPE Chúng tơi giới thiệu thuật tốn đặt tên GOPE (viết tắt Generalized Online Maximum a Posteriori Estimation) để giải toán MAP (3.2) GOPE trình bày chi tiết Thuật tốn 3.1 Thuật tốn GOPE: Generalized Online maximum a Posteriori Estimation Đầu vào: Văn d, tham số mơ hình {β, α} tham số Bernoulli p ∈ (0, 1) Đầu ra: θ ∗ điểm cực đại hàm f (θ) = g1 (θ) + g2 (θ) 1: Khởi tạo θ1 miền ∆K g2 g 2: G1 := p1 ; G2 := 1−p 3: for t = 1, 2, , T 4: Lấy ft có phân phối Bernoulli từ {G1 (θ), G2 (θ)} 5: {P (ft = G1 (θ)) = p; P (ft = G2 (θ)) = − p} t 6: Ft (θ) := 1t h=1 fh 7: et := arg maxx∈∆K Ft (θ t ), x t 8: θ t+1 := θ t + et −θ t 9: end for GOPE đóng vai trò bước suy diễn cốt lõi học mơ hình LDA Chúng tơi sử dụng GOPE thay cho OPE thuật toán học Online-OPE nhận thuật toán học ngẫu nhiên đặt tên Online-GOPE 3.3 Sự hội tụ thuật toán GOPE Định lý 3.1 (Sự hội tụ thuật toán GOPE) Xét hàm mục tiêu f (θ) toán (3.3), cho trước văn d, tham số mơ hình {β, α} tham số Bernoulli p ∈ (0, 1) Xét GOPE, với xác suất 1, có: (i) Với θ ∈ ∆K , dãy hàm Ft (θ) hội tụ tới f (θ) t → +∞; (ii) Dãy nghiệm xấp xỉ θ t hội tụ tới điểm dừng/cực đại địa phương hàm mục tiêu f (θ) với tốc độ hội tụ O(1/t) 12 13 3.4 Đánh giá thực nghiệm 3.4.1 Các liệu thực nghiệm Chúng tiến hành thực nghiệm cho cải tiến hai liệu lớn bao gồm tập văn dài: liệu New York Times (NYT) bao gồm 300.000 tin tức PubMed (PUB) bao gồm 330.000 báo từ trung tâm PubMed 3.4.2 Độ đo đánh giá thực nghiệm Chúng sử dụng hai độ đo thường dùng mơ hình chủ đề, Log Predictive Probability (LPP) Normalised Pointwise Mutual Information (NPMI) 3.4.3 Thiết lập tham số • Tham số mơ hình: Chúng tơi thiết lập số chủ đề K = 100, tham số Dirichlet α = tham số η = K1 K siêu • Tham số suy diễn: Chúng chọn số bước lặp thuật toán suy diễn T = 50 tham số Bernoulli p ∈ {0.10, 0.15, , 0.85, 0.90} cho liệu độ đo • Tham số học: Chúng tơi chọn kích thước mini-batch S = |Ct | = 5000, thiết lập tham số κ = 0.9 τ = 3.4.4 Kết thực nghiệm Kết thực thuật toán Online-GOPE thay đổi tham số p mơ tả Hình 3.1 Theo Hình 3.1, thấy Online-GOPE đạt hiệu tốt New York Times với độ đo LPP lựa chọn p = 0.35 với độ đo NPMI lựa chọn p = 0.75, Online-GOPE đạt hiệu tốt PubMed với độ đo LPP lựa chọn p = 0.4, với độ đo NPMI lựa chọn p = 0.45 Chúng so sánh kết thực Online-GOPE với giá trị p lựa chọn tốt với thuật toán Online-VB, Online-CVB0, Online-CGS Online-OPE Các kết mô tả Hình 3.2 Online-GOPE on Pubmed Online-GOPE on New York Times 08.4 08.7 −9.0 LPP −9.6 −10.0 −10.4 −9.3 −9.6 15 30 45 60 15 30 45 60 15 30 45 60 6.0 NPMI 10 4.5 3.0 1.5 15 30 45 Số văn (x5000) 60 Sốố(ănốbảnố(x5000) p = 0.90 p = 0.80 p = 0.70 p = 0.60 p = 0.50 p = 0.40 p = 0.30 p = 0.20 p = 0.10 p = 0.75 p = 0.65 p = 0.45 p = 0.35 p = 0.25 p = 0.15 Hình 3.1 Kết thực Online-GOPE với tham số Bernoulli p lựa chọn khác hai độ đo LPP NPMI Độ đo cao tốt 14 New York T mes 19.3 Pubmed 18.4 LPP 19.6 18.8 19.9 19.2 110.2 19.6 110.5 15 30 45 60 110.0 6.0 4.5 NPMI 10 15 30 45 60 3.0 Online-OPE 15 30 45 Số văn (x5000) Online-VB 60 1.5 Online-CVB 15 30 45 60 S0 văn ăx5000) Online-CGS Online-GOPE Hình 3.2 Độ đo LPP NPMI thuật tốn học Online-OPE, Online-VB, Online-CVB, Online-CGS Online-GOPE liệu New York Times PubMed Độ đo cao tốt 3.5 Mở rộng thuật toán giải toán tối ưu khơng lồi Chúng tơi mở rộng thuật tốn GOPE cho tốn tối ưu hóa khơng lồi (3.2): x∗ = arg max [f (x) = g1 (x) + g2 (x)] x Chi tiết thuật toán GOPE mở rộng cho tốn khơng lồi tổng qt trình bày Thuật toán 3.3 Thuật toán 3 GOPE mở rộng cho tốn khơng lồi tổng qt Đầu vào: Tham số Bernoulli p ∈ (0, 1) Đầu ra: x∗ điểm cực đại hàm f (x) = g1 (x) + g2 (x) miền Ω 1: Khởi tạo x1 miền Ω g g2 2: G1 := p1 ; G2 := 1−p 3: for t = 1, 2, , T 4: Lấy ft có phân phối Bernoulli từ {G1 , G2 } {P (ft = G1 ) = p; P (ft = G2 ) = − p} t 5: Ft := 1t h=1 fh 6: at := arg maxx∈Ω Ft (xt ), x t 7: xt+1 := xt + at −x t 8: end for 3.6 Kết luận chương Trong chương thành công việc đề xuất GOPE giải hiệu tốn MAP khơng lồi mơ hình chủ đề đảm bảo hội tụ nhanh đảm bảo sở lý thuyết thực nghiệm Hơn nữa, chúng tơi nhận thấy: • Trong thuật toán GOPE, việc chia hàm mục tiêu f ban đầu thành hai phần g1 g2 tương đối dễ dàng chia theo nhiều cách Điều thể thuật tốn GOPE đảm bảo linh hoạt • Cách thức thực GOPE khơng có q nhiều ràng buộc hàm mục tiêu f nên áp dụng tốt với hàm mục tiêu lồi khơng lồi; • Thuật tốn GOPE áp dụng tốt cho tốn quy hoạch DC có hàm mục tiêu f hiệu hai hàm lồi f = g − h đặt g1 := g g2 := −h, nên hàm f viết lại dạng f = g1 + g2 có dạng thuật tốn GOPE; • Thuật tốn GOPE áp dụng để giải toán hiệu chỉnh θ ∗ = arg L(θ) + λR(θ) R(θ) phần hiệu chỉnh, λ hệ số hiệu chỉnh, thông thường λ ∈ (0, 1) đặt g1 := L(θ) g2 := λR(θ) Chương NGẪU NHIÊN BERNOULLI CHO BÀI TỐN MAP KHƠNG LỒI VÀ ỨNG DỤNG Trong chương tiếp tục nghiên cứu tốn ước lượng MAP khơng lồi mơ hình đồ thị xác suất Chúng tơi sử dụng ngẫu nhiên hóa Bernoulli với xác suất p ∈ (0, 1) kết hợp với hai biên ngẫu nhiên để thiết kế thuật toán tối ưu ngẫu nhiên BOPE giải hiệu tốn MAP khơng lồi Từ đó, chúng tơi áp dụng thành cơng BOPE vào tốn phân tích văn tốn gợi ý 4.1 Giới thiệu Xét tốn MAP có dạng sau: x∗ = arg max[log P (D|x) + log P (x)] x (4.1) P (D|x) ký hiệu likelihood biến quan sát D, P (x) prior biến ẩn x P (D) xác suất biên D Đóng góp chúng tơi đề xuất thuật toán ngẫu nhiên BOPE sử dụng ngẫu nhiên Bernoulli hai biên ngẫu nhiên Chúng chứng minh BOPE hội tụ với O(1/T ), tốc độ hội tụ tốt cho toán MAP Chúng tơi phát BOPE có vai trị hiệu chỉnh tốt Sử dụng BOPE thuật tốn suy diễn thiết kế thuật toán học ngẫu nhiên Online-BOPE học mơ hình chủ đề quy mơ lớn Hiệu BOPE mặt thực nghiệm làm rõ thông qua ứng dụng BOPE vào tốn phân tích văn tốn hệ gợi ý Với ưu việt BOPE, chúng tơi áp dụng rộng rãi BOPE vào giải cho tốn khơng lồi phức tạp khác xuất học máy Chi tiết BOPE trình bày Thuật toán 4.1 Thuật toán BOPE giải tốn MAP khơng lồi Đầu vào: Tham số Bernoulli p ∈ (0, 1) Đầu ra: x∗ điểm cực đại hàm số f (x) = log P (D | x) + log P (x) miền Ω 1: Khởi tạo x1 Ω log P (D|x) P (x) 2: G1 (x) := ; G2 (x) := log1−p p 3: f1l := G1 (x) f1u := G2 (x) 4: for t = 2, 3, , ∞ 5: Lấy ftl có phân phối Bernoulli từ {G1 (x), G2 (x)} P (ftl = G1 ) = p; P (ftl = G2 ) = − p t 6: Lt := 1t h=1 fhl l 7: at := arg maxx∈Ω < Lt (xt ), x > 8: 9: 10: 11: 12: 13: 14: al −x xlt+1 := xt + t t t Lấy ftu có phân phối Bernoulli từ {G1 (x), G2 (x)} P (ftu = G1 ) = p; P (ftu = G2 ) = − p t Ut := 1t h=1 fhu aut := arg maxx∈Ω < Ut (xt ), x > au −x xut+1 := xt + t t t xt+1 := arg maxx∈{xut+1 , xlt+1 } f (x) end for 4.2 Thuật toán BOPE giải toán MAP khơng lồi 4.2.1 Ý tưởng xây dựng thuật tốn BOPE 4.2.2 Sự hội tụ thuật toán BOPE Định lý 4.1 (Sự hội tụ BOPE) Giả sử g1 (x) g2 (x) có đạo hàm liên tục miền đóng Ω Cho trước tham số Bernoulli p ∈ (0, 1), với xác suất 1, dãy nghiệm {xt } thu 15 16 Thuật toán 4.1 đảm bảo hội tụ đến điểm cực đại địa phương điểm dừng x∗ hàm mục tiêu f (x) với tốc độ hội tụ O(1/T ) T số bước lặp thực 4.2.3 Vai trò hiệu chỉnh thuật tốn BOPE Định lý 4.2 (Tính hiệu chỉnh BOPE) Giả sử cho trước tham số Bernoulli p ∈ (0, 1), xét thuật toán BOPE giải toán MAP khơng lồi (4.1) Khi đó, thuật tốn BOPE đưa tối ưu (x) hàm mục tiêu có dạng f (x) + R(g1 , g2 , p) với R(g1 , g2 , p) = h(t, p)( g1 p(x) − g1−p ), h(t, p) → số vòng lặp t → ∞ Như vậy, BOPE kỹ thuật hiệu chỉnh với R(g1 , g2 , p) thành phần hiệu chỉnh tham số Bernoulli p tham số hiệu chỉnh 4.2.4 Mở rộng cho tốn tối ưu khơng lồi tổng qt Chúng tơi làm rõ ưu điểm vượt trội BOPE so với thuật toán suy diễn khác VB, CVB, CGS, FW, OPE, Kết đối chiếu tổng kết Bảng 4.1 Phương pháp suy diễn VB, CVB , CVB0 SMM, CCCP CGS PMD HAMCMC OPE Tốc độ hội tụ − − − O(T −1/2 ) O(T −1/3 ) O(1/T ) Ngẫu nhiên − − Có Có Có Phân phối Linh hoạt − − − − − Có Hiệu chỉnh − − − − − − BOPE O(1/T ) Phân phối Bernoulli Có Có Bảng 4.1: So sánh mặt lý thuyết phương pháp suy diễn tiêu chuẩn tốc độ hội tụ, tính ngẫu nhiên, tính linh hoạt tính hiệu chỉnh Ký hiệu T số lần lặp ’-’ biểu thị ’không xác định’ Chúng phát BOPE có ưu vượt trội so với phương pháp suy diễn đương đại khác 4.3 Áp dụng BOPE vào mơ hình LDA cho phân tích văn 4.3.1 Suy diễn MAP cho văn Chúng tiếp tục xem xét toán MAP văn d mơ hình chủ đề: K θ ∗ = arg max θ∈∆K j K θk βkj + (α − 1) dj log k=1 log θk (4.2) k=1 tham số α < Chúng tơi áp dụng BOPE để giải tốt toán (4.2) với hàm K mục tiêu f (θ) = j dj log K k=1 θk βkj + (α − 1) k=1 log θk phân rã thành thành phần K g1 (θ) = j dj log k=1 θk βkj g2 (θ) = (α − 1) K k=1 log θk Thay thuật toán OPE thuật toán học Online-OPE BOPE, chúng tơi thu thuật tốn học Online-BOPE 4.3.2 Đánh giá thực nghiệm • Các thuật tốn suy diễn: Chúng tơi tiến hành so sánh thuật tốn suy diễn BOPE với phương pháp suy diễn đương đại VB, CVB, CVB0, CGS OPE • Các phương pháp học: Chúng tiến hành thực nghiệm để điều tra tính hiệu Online-BOPE so sánh với phương pháp học ngẫu nhiên khác như: Online-CGS, OnlineCVB0, Online-VB, Online-OPE a Các liệu thực nghiệm Chúng sử dụng liệu văn lớn thuộc hai nhóm liệu văn dài liệu văn ngắn Mô tả chi tiết cho tập liệu hiển thị Bảng 4.2 17 Bộ liệu New York Times PubMed Yahoo Twitter NYT-Titles Kích thước liệu 300,000 330,000 517,770 1,457,687 1,664,127 Độ dài văn TB 325.13 65.12 4.73 10.14 5.15 Từ điển V 102,661 141,044 24,420 89,474 55,488 Bảng 4.2: Bảng mô tả năm liệu thực nghiệm b Thiết lập tham số c Độ đo đánh giá thực nghiệm Chúng tiếp tục sử dụng hai độ đo Log Predictive Probability (LPP) Normalised Pointwise Mutual Information (NPMI) để đánh giá kết thực nghiệm d Kết thực nghiệm Với liệu văn dài: Chúng so sánh Online-BOPE với Online-VB, Online-CVB0, OnlineCGS Online-OPE hai liệu New York Times PubMed Kết chi tiết mơ tả Hình 4.3 New York Tim s −9 New 10 NPMI LPP −9.6 −10.0 −10.4 15 30 45 S1ốvănốbảnốăx5000ả 60 P)bmed −8.0 15 30 45 S1 văn b0n (x5000) 60 Pubmed 7.5 NPMI −8.5 LPP −9.0 −9.5 −10.0 York Tim s 6.0 4.5 3.0 Onlin -BOPE 15 30 45 S1 v-n b0n (x5000) Onlin -OPE 60 1.5 Onlin -VB 15 30 45 S1 văn ăx5000) Onlin -CVB0 60 Onlin -CGS Hình 4.3 Kết phương pháp học ngẫu nhiên New York Times PubMed Độ đo cao tốt Chúng nhận thấy Online-BOPE thường cho kết tốt Với liệu văn ngắn: Chúng tiếp tục điều tra tính hiệu Online-BOPE tập văn ngắn Twitter, NYT-Titles, Yahoo Chúng cho thấy BOPE giúp OnlineBOPE tốt phương pháp so sánh văn ngắn số khía cạnh tính dự đốn, tính tổng quát ngăn chặn khớp (xem Hình 4.4) 18 LPP NYT-TITLES TWITTER −8.4 −6.6 −8.8 −7.2 −9.2 −7.8 −9.6 −8.4 100 200 300 YAHOO −7.6 −8.0 −8.4 −8.8 100 200 300 30 60 90 10 NPMI −5 0 100 200 300 S văn (x5000) Online-BOPE 100 200 Online-OPE 30 60 90 Sốốvănốb−nố(x5000) Online-CVB0 Online-CGS 300 (x5000) Online-VB Sốốvănốbảnố Hình 4.4 Kết phương pháp học ngẫu nhiên liệu văn ngắn: NYT-Titles, Twitter Yahoo Chúng thấy Online-BOPE thường cho kết tốt hai độ đo LPP NPMI Chúng quan sát thấy khớp Online-VB Online-CVB0 Hình 4.4 Cụ thể thấy độ đo LPP NPMI Online-VB Online-CVB0 bị giảm theo số lượng văn học độ đo LPP NPMI Online-CGS, Online-OPE Online-BOPE tăng theo số lượng văn học Điều có nghĩa khả tổng qt mơ hình giảm học Online-VB Online-CVB ba liệu văn ngắn, đặc biệt NYT-Titles Yahoo TWITTER LPP NYT-TITLES YAHOO −8.4 06.5 07.6 −8.8 07.0 08.0 07.5 −9.2 08.4 08.8 −8 −9.6 400 800 1200 1600 −8.5 400 800 1200 3.0 4 1.5 0.0 −4 NPMI 4.5 400 800 1200 1600 Số văn ăx5000) Online-BOPE-min 400 800 1200 Sốố)ănốb.nốăx5000) Online-BOPE-max Online-VB 150 300 450 150 300 450 Sốốvănốbảnốăx5000) Online-CVB0 Online-CGS Hình 4.5 Kết phương pháp học ngẫu nhiên liệu văn ngắn: NYT-Titles, Twitter Yahoo sau epochs Chúng phát Online-BOPE cho kết tốt Chúng phát chất lượng Online-BOPE tốt sau epoch Tuy nhiên, tượng khớp Online-VB Online-CVB0 xảy tăng Độ đo LPP NPMI Online-VB Online-CVB0 có xu hướng giảm mạnh theo số văn huấn luyện, độ đo LPP, tức khả tổng qt mơ hình giảm dần theo số văn học số epochs 19 4.4 Áp dụng BOPE cho tốn hệ gợi ý 4.4.1 Mơ hình CTMP Trong q trình học mơ hình CTMP, phải cập nhật véc tơ tỷ lệ chủ đề θj Chúng ta tính ước lượng điểm tỷ lệ chủ đề địa phương θj từ hàm mục tiêu: g(θj ) = (α − 1) cνj log log θjk + ν k − θjk βkν k λ θj − µj 2 (4.15) hàm mục tiêu g(θj ) không lồi α < Chúng tơi nhận thấy BOPE có nhiều ưu vượt trội OPE Vì vậy, chúng tơi áp dụng BOPE để học tham số θj mơ hình CTMP 4.4.2 Đánh giá thực nghiệm a Các liệu thực nghiệm Chúng sử dụng liệu CiteULike Movielens 1M để thực nghiệm so sánh mơ hình CTMP với thuật tốn suy diễn OPE BOPE Bộ liệu CiteULike MovieLens 1M Số người dùng 5,551 6,040 Số sản phẩm 16,890 3,952 Số xếp hạng 204,986 1,000,209 Độ dài TB mô tả 66.6 4.7 Bảng 4.3: Thống kê liệu thực nghiệm Độ thưa thớt biểu thị tỷ lệ sản phẩm khơng có xếp hạng tích cực ma trận xếp hạng R b Độ đo đánh giá thực nghiệm Các dự đoán đánh giá theo độ đo Precision Recall Để thuận tiện, Precision Recall top-M viết tắt pre@M rec@M định nghĩa: prec@M = U u Muc ; rec@M = M U u Muc Mu Muc số sản phẩm xác xuất đề xuất top −M cho người dùng u Mu số sản phẩm mà người dùng u đánh giá tích cực c Kết thực nghiệm Chúng tơi xem xét tính hiệu BOPE thơng qua việc khảo sát ảnh hưởng tham số tiên nghiệm Dirichlet α, tham số λ số chủ đề K mơ hình CTMP STT Tham số cố định λ = 1000, K = 100 α = 0.01, λ = 1000 λ = 1000, K = 100 α = 1, K = 100 α = 1, λ = 1000 Tham số Bernoulli p p = 0.9 p = 0.9 p = 0.7 p = 0.7 p = 0.7 Tham số khảo sát α ∈ {1, 0.1, 0.01, 0.001, 0.0001} K ∈ {50, 100, 150, 200, 250} α ∈ {1, 0.1, 0.01, 0.001, 0.0001} λ ∈ {1, 10, 100, 1000, 10000} K ∈ {50, 100, 150, 200, 250} Bảng 4.4: Các kịch khảo sát thực nghiệm chúng tơi Mơ hình CTMP phụ thuộc vào tham số tiên nghiệm Dirichlet α, tham số λ số chủ đề K Chúng cố định tham số λ = 1000, số chủ đề K = 100, khảo sát tham số tiên nghiệm Dirichlet α ∈ {1, 0.1, 0.01, 0.001, 0.0001} Kết thực nghiệm mô tả Hình 4.7 Hình 4.10, chúng tơi thấy sử dụng thuật toán suy diễn BOPE cho kết tốt OPE hai độ đo hai tập liệu 20 Precision (%) 3.5 3.0 2.5 2.0 1.5 Recall (%) 24 18 12 alpha=1 alpha=0.1 alpha=0.01 alpha=0.001 alpha=0.0001 4.0 4.0 3.6 3.6 3.2 3.2 3.0 3.0 2.4 2.4 2.4 2.4 1.8 1.8 1.6 1.6 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 24 20 20 20 20 16 15 15 15 12 10 10 10 5 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 Top Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.7 Ảnh hưởng tham số tiên nghiệm Dirichlet α đến CTMP sử dụng OPE BOPE suy diễn CiteULike Chúng thiết lập tham số λ = 1000, số chủ đề K = 100 tham số Bernoulli p = 0.9 Độ đo cao tốt Precision (%) alpha=1 20 15 10 alpha=0.1 Recall (%) 30 15 alpha=0.001 20 20 20 20 16 16 16 16 12 12 12 12 25 50 75 100 alpha=0.0001 40 40 25 50 75 100 25 50 75 100 40 40 30 30 30 30 20 20 20 20 25 50 75 100 45 alpha=0.01 25 50 75 100 10 10 10 10 25 50 75 100 25 50 75 100 25 50 75 100 25 50 75 100 25 50 75 100 Top Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.10 Ảnh hưởng tham số tiên nghiệm Dirichlet α đến CTMP sử dụng OPE BOPE thuật toán suy diễn MovieLens 1M Chúng thiết lập tham số λ = 1000, số chủ đề K = 100 tham số Bernoulli p = 0.7 Độ đo cao tốt Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, số chủ đề K = 100 chọn tham số Bernoulli p = 0.7, sau thay đổi tham số λ ∈ {1, 10, 100, 1000, 10000} Kết thực nghiệm trình bày Hình 4.11 Hình 4.12 21 λ=1 λ = 10 6.0 4.5 4.5 3.0 3.0 1.5 1.5 Precision (%) 6.0 25 50 75100 30 20 20 10 10 Recall (%) 30 25 50 75100 Top λ = 100 3.0 25 50 75100 λ = 10000 3.0 2.4 λ = 1000 2.4 1.8 1.8 1.2 25 50 75100 25 50 75100 24 24 16 16 8 25 50 75100 24 18 12 25 50 75100 25 50 75100 25 50 75100 Top Top Top CTMP-OPE CTMP-BOPE 25 50 75100 Top Hình 4.11 Ảnh hưởng tham số λ đến mơ hình CTMP sử dụng OPE BOPE thuật toán suy diễn thực nghiệm CiteULike Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, số chủ đề K = 100 tham số Bernoulli p = 0.7 Độ đo cao tốt λ=1 λ = 10 λ = 100 λ = 1000 20 20 20 16 16 16 15 12 12 12 Precision (%) 20 25 50 75 100 25 50 75 100 40 40 30 30 30 20 20 20 Recall (%) 40 25 50 75 100 Top 20 λ = 10000 16 12 10 25 50 75 100 25 50 75 100 25 50 75 100 45 30 15 40 30 20 10 25 50 75 100 25 50 75 100 25 50 75 100 25 50 75 100 Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.12 Ảnh hưởng tham số λ đến mơ hình CTMP sử dụng OPE BOPE thuật toán suy diễn thực nghiệm MovieLens 1M Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, số chủ đề K = 100 tham số Bernoulli p = 0.7 Độ đo cao tốt Lưu ý λ tham số đặc trưng cho dao động µ quanh θ Qua Hình 4.11 4.12, chúng tơi thấy tham số α = K = 100, mô hình CTMP tốt với trường hợp λ = λ = 10, trường hợp λ = 1000 λ = 10000 mơ hình cho kết xấu Đồng thời thấy với λ thực nghiệm CTMP-BOPE ln cho kết tốt CTMP-OPE, chí trường hợp xấu λ = 1000 hay λ = 10000 Để điều tra ảnh hưởng số chủ đề K đến mơ hình CTMP, thiết lập tham số tiên nghiệm Dirichlet α = 0.01, tham số λ = 1000 chọn tham số Bernoulli p = 0.9, sau thay đổi số chủ đề K ∈ {50, 100, 150, 200} Những kết thực nghiệm mơ tả Hình 4.13 Hình 4.14 22 K=50 Precision (%) Recall (%) 30 24 18 12 20 40 60 80100 K=100 20 40 60 80100 32 32 24 24 16 16 8 20 40 60 80100 20 40 60 80100 Top Top CTMP-OPE K=150 K=200 20 40 60 80100 20 40 60 80100 30 24 18 12 20 40 60 80100 20 40 60 80100 Top Top CTMP-BOPE Hình 4.13 Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE làm phương pháp suy diễn tiến hành CiteULike Chúng thiết lập tham số tiên nghiệm Dirichlet α = 0.01, tham số λ = 1000 tham số Bernoulli p = 0.9 Độ đo cao tốt K=50 Precision (%) 24 20 16 12 20 40 60 80100 Recall (%) 50 40 30 20 20 40 60 80100 Top 24 20 16 12 50 40 30 20 K=100 20 40 60 80100 20 40 60 80100 Top CTMP-OPE 21 18 15 12 48 40 32 24 16 K=150 20 40 60 80100 21 18 15 12 K=200 20 40 60 80100 40 32 24 16 20 40 60 80100 Top CTMP-BOPE 20 40 60 80100 Top Hình 4.14 Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE làm phương pháp suy diễn tiến hành MovieLens 1M Chúng thiết lập tham số tiên nghiệm Dirichlet trước α = 0.01, tham số λ = 1000 tham số Bernoulli p = 0.9 Độ đo cao tốt Chúng điều tra ảnh hưởng số chủ đề K thiết lập tham số tiên nghiệm Dirichlet α = 1, tham số λ = 1000 chọn tham số Bernoulli p = 0.7 Chúng thay đổi số chủ đề K ∈ {50, 100, 150, 200, 250} Các kết thực nghiệm mơ tả Hình 4.15 4.16 Thơng qua Hình 4.15 4.16 thấy ảnh hưởng số chủ đề K rõ ràng so với α λ mơ hình CTMP Số lượng chủ đề ẩn K thể phức tạp mơ hình phụ thuộc vào tập liệu Qua kết quả, thấy CTMP-BOPE thường tốt CTMP-BOPE Theo Hình 4.15, CTMP-BOPE đặc biệt tốt CTMP-OPE lựa chọn tham số Bernoulli p = 0.7 số chủ đề K = 200 K = 250 liệu CiteULike 23 Precision (%) K=50 2.5 2.0 1.5 Recall (%) 20 15 10 K=100 6.0 K=150 6.0 K=200 K=250 6.0 4.5 4.5 4.5 3.0 3.0 3.0 1.5 1.5 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 32 32 32 24 24 24 24 16 16 16 16 8 8 25 50 75100 25 50 75100 25 50 75100 25 50 75100 25 50 75100 Top Top Top Top Top CTMP-OPE CTMP-BOPE 3.0 2.4 1.8 Hình 4.15 Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE phương pháp suy diễn tiến hành CiteULike Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, tham số λ = 1000 tham số Bernoulli p = 0.7 Độ đo cao tốt K=50 Precision (%) 24 20 16 12 24 20 16 12 25 50 75100 45 Recall (%) 40 30 20 30 15 25 50 75100 Top K=100 K=150 K=200 20 20 16 16 12 12 25 50 75100 25 50 75100 25 K=250 20 15 10 25 50 75100 25 50 75100 40 40 40 30 30 30 20 20 20 10 10 10 25 50 75100 25 50 75100 25 50 75100 25 50 75100 Top Top Top Top CTMP-OPE CTMP-BOPE Hình 4.16 Ảnh hưởng số chủ đề K đến mơ hình CTMP sử dụng OPE BOPE phương pháp suy diễn tiến hành MovieLens 1M Chúng thiết lập tham số tiên nghiệm Dirichlet α = 1, tham số λ = 1000 tham số Bernoulli p = 0.7 Độ đo cao tốt 4.5 Kết luận chương Trong chương này, chúng tơi đề xuất thuật tốn BOPE sử dụng tính ngẫu nhiên phân phối Bernoulli để giải toán MAP đảm bảo chất lượng tốc độ hội tụ giống OPE, đặc điểm quan trọng số phương pháp suy diễn đại Chúng tơi chứng minh BOPE có hiệu tốn phân tích văn toán hệ thống gợi ý, đồng thời tham số Bernoulli p BOPE có vai trị quan trọng giúp BOPE có ưu điểm bật tính hiệu chỉnh tính linh hoạt tốt, giảm hay tránh tượng khớp đặc biệt văn ngắn Chúng xác nhận BOPE ứng cử viên tốt cho tốn MAP khơng lồi hồn tồn mở rộng cho tốn tối ưu khơng lồi tổng quát KẾT LUẬN Trong luận án nghiên cứu tốn cực đại hóa xác suất hậu nghiệm (MAP) không lồi thường xuất học máy Qua chúng tơi tìm hiểu cách tiếp cận giải tốn MAP khơng lồi Trên sở đó, luận án đề xuất số thuật toán ngẫu nhiên giải hiệu toán MAP khơng lồi số mơ hình xác suất Sự hiệu thuật toán đề xuất xem xét đầy đủ hai khía cạnh lý thuyết thực nghiệm Các thuật toán đề xuất chứng minh đảm bảo hội tụ với tốc độ nhanh thông qua công cụ ý thuyết xác suất thống kê lý thuyết tối ưu Thông qua thực nghiệm triển khai tốn suy diễn hậu nghiệm mơ hình chủ đề năm liệu lớn triển khai tốn MAP với mơ hình CTMP hệ gợi ý, đảm bảo đề xuất hiệu cao có khả áp dụng tốt so với phương pháp đương đại Thông qua nghiên cứu kỹ lưỡng mặt lý thuyết thực nghiệm chứng minh tính ưu việt thuật toán đề xuất A Kết đạt luận án (1) Luận án đề xuất nhóm thuật tốn tối ưu ngẫu nhiên đặt tên OPE1, OPE2, OPE3 OPE4 dựa phân phối với kết hợp hai biên ngẫu nhiên để giải toán suy diễn hậu nghiệm với mơ hình chủ đề, OPE3 OPE4 hiệu Sự hội tụ OPE3 OPE4 chứng minh nghiêm túc cơng cụ giải tích, lý thuyết xác suất tối ưu (2) Chúng tiếp tục đề xuất GOPE sử dụng phân phối rời rạc Bernoulli lý thuyết xấp xỉ ngẫu nhiên để giải tốn MAP khơng lồi Thuật tốn GOPE có tính linh hoạt tổng quát có mặt tham số Bernoulli p ∈ (0, 1) đóng vai trị tham số hiệu chỉnh thuật tốn Chúng tơi đánh giá hiệu GOPE áp dụng cho toán MAP với mơ hình chủ đề đầy đủ hai phương diện lý thuyết thực nghiệm với liệu đầu vào lớn cao chiều (3) Đề xuất thuật toán BOPE thuật tốn ngẫu nhiên hiệu có tính tổng quát, linh hoạt cao vượt trội thuật tốn khác, đặc biệt hiệu chỉnh Thơng qua khai thác ngẫu nhiên Bernoulli biên ngẫu nhiên, chúng tơi thu thuật tốn BOPE cho tốn MAP khơng lồi mơ hình đồ thị xác suất Đồng thời BOPE áp dụng thành công vào tốn phân tích văn tốn hệ gợi ý Chúng thấy đề xuất đáp ứng tốt yêu cầu thuật toán tối ưu cho tốn khơng lồi xuất học máy: cách vận hành thuật tốn đơn giản, thích nghi tốt với nhiều mơ hình thực tế, có tốc độ hội tụ nhanh khẳng định thông qua sở lý thuyết so sánh thực nghiệm B Định hướng phát triển Các thuật toán tối ưu ngẫu nhiên đề xuất để giải tốn MAP khơng lồi nghiên cứu đem đến cách tiếp cận mới: sử dụng xấp xỉ ngẫu nhiên, phân phối xác suất ngẫu nhiên, đưa hàm mục tiêu tất định ban đầu trở thành đại lượng ngẫu nhiên tính tốn hiệu Nhận thấy cách tiếp cận phù hợp thực hiệu quả, đặc biệt tốn MAP khơng lồi học máy thống kê thường có hàm mục tiêu phức tạp, xuất mơ hình với liệu lớn, cao chiều Do thời gian tới, chúng tơi tiếp tục tập trung phát triển thuật toán sâu rộng hơn, theo hướng: • Triển khai rộng nhiều mơ hình tốn khác học máy có dạng khơng lồi hay tốn quy hoạch DC khó giải; • Nghiên cứu tính chất ưu việt thuật tốn đề xuất: tính tổng qt, tính hiệu khả hiệu chỉnh Từ nghiên cứu thuật tốn toàn diện hai mặt lý thuyết thực nghiệm; • Áp dụng thành cơng vào số tốn ứng dụng: phân tích văn bản, hệ gợi ý, toán nhận dạng xử lý ảnh, Phát triển nghiên cứu không làm việc liệu văn bản, mở rộng loại liệu đa dạng phức tạp đáp ứng tốt nhu cầu toán thực tế 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Xuan Bui, Tu Vu, and Khoat Than (2016) Stochastic bounds for inference in topic models In International Conference on Advances in Information and Communication Technology (pp 582-592) Springer, Cham Bui Thi-Thanh-Xuan, Vu Van-Tu, Atsuhiro Takasu, and Khoat Than (2018) A fast algorithm for posterior inference with latent Dirichlet allocation In Asian Conference on Intelligent Information and Database Systems (pp 137-146) Springer, Cham Tu Vu, Xuan Bui, Khoat Than, and Ryutaro Ichise (2018) A flexible stochastic method for solving the MAP problem in topic models, Computación y Sistemas journal, 22(4), 2018 (Scopus, ESCI) Xuan Bui, Tu Vu, and Khoat Than (2018) Some methods for posterior inference in topic models, Journal Research and Development on Information and Communication Technology (RD-ICT), Vol E-2, No.15 (Tạp chí Cơng nghệ thơng tin truyền thơng) Khoat Than, Xuan Bui, Tung Nguyen-Trong, Khang Truong, Son Nguyen, Bach Tran, Linh Ngo, and Anh Nguyen-Duc (2019) How to make a machine learn continuously: a tutorial of the Bayesian approach, Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications, 110060I, SPIE ... nhiều mơ hình học máy Để triển khai mục tiêu đặt ra, nghiên cứu sinh lựa chọn đề tài "Một số phương pháp ngẫu nhiên cho tốn cực đại hóa xác suất hậu nghiệm không lồi học máy" cho luận án Sự thành... phân b Phương pháp Markov Chain Monte Carlo (MCMC) c Phương pháp Gibbs Sampling 1.3 Bài tốn cực đại hóa xác suất hậu nghiệm 1.3.1 Giới thiệu toán MAP Bài tốn MAP xem xét dạng toán tối ưu toán học: ... cứu tốn cực đại hóa xác suất hậu nghiệm (MAP) khơng lồi thường xuất học máy Qua chúng tơi tìm hiểu cách tiếp cận giải tốn MAP khơng lồi Trên sở đó, luận án đề xuất số thuật toán ngẫu nhiên giải

Ngày đăng: 04/11/2020, 01:50

Tài liệu cùng người dùng

Tài liệu liên quan