Phương pháp suy diễn nhanh cho bài toán cực đại hóa phân phối hậu nghiệm Phương pháp suy diễn nhanh cho bài toán cực đại hóa phân phối hậu nghiệm Phương pháp suy diễn nhanh cho bài toán cực đại hóa phân phối hậu nghiệm luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Vũ Văn Tú PHƯƠNG PHÁP SUY DIỄN NHANH CHO BÀI TOÁN CỰC ĐẠI HOÁ PHÂN PHỐI HẬU NGHIỆM NGƯỜI HƯỚNG DẪN: TS Thân Quang Khoát Hà Nội – 10/2018 CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Vũ Văn Tú Đề tài luận văn: Phương pháp suy diễn nhanh cho toán cực đại hố phân phối hậu nghiệm Chun ngành: Cơng nghệ thông tin – Thạc sĩ kĩ thuật Mã số SV: CB160544 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/10/2018 với nội dung sau: - Chỉnh sửa lại chương mục luận văn Rút gọn số lượng chương mục luận văn Ngày 30 tháng 10 năm 2018 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Mục lục Trang Lời cam đoan Danh sách từ viết tắt thuật ngữ Danh sách kí hiệu dùng luận văn Danh sách hình vẽ Danh sách bảng MỞ ĐẦU Chương - TỔNG QUAN Chương - CƠ SỞ LÝ THUYẾT LIÊN QUAN 11 2.1 Các kiến thức xác suất thống kê 11 2.1.1 Phân phối Multinomial 11 2.1.2 Phân phối Dirichlet 12 2.2 Mơ hình đồ thị xác suất 12 2.3 Các thuật toán tối ưu học máy .15 2.3.1 Gradient Descent .17 2.3.2 Expectation-Maximization 18 2.3.3 Conditional Gradient Descent (Frank Wolfe) 20 Chương - MƠ HÌNH CHỦ ĐỀ VÀ BÀI TỐN CỰC ĐẠI HỐ PHÂN PHỐI HẬU NGHIỆM TRONG MƠ HÌNH CHỦ ĐỀ 23 3.1 3.2 3.3 Mơ hình chủ đề Latent Diriclet Allocation [1] 23 Bài toán suy diễn mơ hình chủ đề .28 Thuật toán Online Maximum a Posteriori Estimation (OPE) 30 Chương – THUẬT TOÁN CẢI TIẾN GENERALIZED ONLINE MAXIMUM A POSTERIORI ESTIMATION (G-OPE) 34 Chương – KẾT QUẢ THỰC NGHIỆM 37 5.1 Thuật toán Online-OPE 37 5.2 Các độ đo thử nghiệm .38 5.2.1 Độ đo xác suất dự đoán (Log Predictive Probability) .38 5.2.2 Độ đo chất lượng chủ đề (Normalized Pointwise Mutual Information) 39 5.3 Dữ liệu tham số thử nghiệm 40 5.4 G-OPE với tham số 𝑝 khác 41 5.5 So sánh Online-GOPE với thuật toán học khác cho LDA 43 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Lời cam đoan Tôi – Vũ Văn Tú – cam kết luận văn cơng trình nghiên cứu thân tơi hướng dẫn TS Thân Quang Khoát Các kết nghiên cứu luận văn trung thực, khơng phải chép cơng trình cơng bố khác Tất trích dẫn tham chiếu rõ ràng Hà Nội, ngày tháng năm 2018 Tác giả luận văn Vũ Văn Tú Xác nhận người hướng dẫn Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc trường đại học Bách Khoa Hà Nội, đặc biệt thầy cô viện Công nghệ thông tin truyền thông Các thầy cô trang bị cho em kiến thức quý báu thời gian em học tập trường Đồng thời, em xin gửi lời cảm ơn đến thầy cô Data Science Lab, đặc biệt TS Thân Quang Khoát, NCS Bùi Thị Thanh Xuân, tận tình hướng dẫn giúp đỡ em hoàn thành luận văn Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Danh sách từ viết tắt thuật ngữ LDA Dir VB CVB CGS MAP LPP NPMI Latent Dirichlet Allocation Phân phối Dirichlet Variational Bayesian Collapsed Variational Bayesian Collapsed Gibbs Sampling Maxium A Posteriori Log Predictive Probability Normalized Poitwise Mutual Information Danh sách kí hiệu dùng luận văn Hàm Digamma 𝜓 Hàm Gamma Γ Kí hiệu “được cho là” ≜ 𝜌 Tốc độ học hai tham số 𝜅, 𝜏 Vector tỉ lệ chủ đề văn 𝜽 𝜷 Ma trận 𝐾×𝑉, hàng ma trận phân phối chủ đề theo từ Số lượng chủ đề 𝐾 𝑤/ Từ thứ 𝑛 văn 𝑧/ Chủ đề từ thứ 𝑛 văn 𝜼 Tham số phân phối tiên nghiệm cho 𝜷 𝜶 Tham số phân phối tiên nghiệm cho 𝜽 𝜸 Tham số phân phối biến phân ứng với 𝜽 𝝓 Tham số phân phối biến phân ứng với 𝒛 𝝀 Tham số phân phối biến phân ứng với 𝜷 V Tập hợp từ điển, bao gồm từ 𝑗 = 1, 2, 𝑉 𝒅, 𝒘 Văn (bao gồm từ) 𝑑A Số lượng từ thứ 𝑗 văn 𝒅 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Danh sách hình vẽ Trang Hình 1: Ví dụ đồ thị xác suất 13 Hình 2:Ví dụ đồ thị xác suất có hướng 14 Hình 3:Cách biểu diễn thu gọn mơ hình đồ thị xác suất 15 Hình 4:Minh hoạ thuật toán Gradient Descent 18 Hình 5:Minh hoạ thuật tốn Expectation-Maximization 20 Hình 6:Minh họa thuật toán Frank-Wolfe 21 Hình 7:Kết 10 chủ đề học từ mơ hình LDA 24 Hình 8:Tỉ lệ chủ đề văn mẫu mơ hình LDA 25 Hình 9:Biểu diễn mơ hình sinh LDA 27 Hình 10:Minh họa hoạt động thuật toán OPE cách xây dựng dãy hàm xấp xỉ ngẫu nhiên 𝐹C 𝜃 , 𝐹E 𝜃 , 𝐹F (𝜃) … tiến dần 𝑓(𝜃) 32 Hình 11:G-OPE NYT với tham số p khác 42 Hình 12:G-OPE Pubmed với tham số p khác 43 Hình 13:So sánh thuật toán suy diễn NYT 44 Hình 14:So sánh thuật toán suy diễn Pubmed 45 Danh sách bảng Trang Bảng 1: Thống kê tập liệu sử dụng thí nghiệm 40 Bảng 2: Giá trị p tốt cho độ đo liệu 42 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B MỞ ĐẦU Tối ưu tảng quan trọng lĩnh vực học máy Bài toán cốt lõi mơ hình học máy đưa hàm mục tiêu để tối ưu Với tốn tối ưu lồi, ta có nhiều cơng cụ mạnh để giải hiệu Tuy nhiên, toán tối ưu học máy chủ yếu tốn tối ưu khơng lồi, khơng tồn thuật toán hiệu để áp dụng cho hầu hết tốn Thơng thường, người ta sử dụng thuật tốn xấp xỉ ngẫu nhiên để tìm cực trị địa phương cho toán Trong luận văn này, em trình bày phương pháp ngẫu nhiên để giải tốn cực đại hóa phân phối hậu nghiệm Maximum a Posteriori (MAP) Bài toán cực đại hóa phân phối hậu nghiệm tốn thường gặp học máy, dùng để ước lượng tham số cho mơ hình Bài tốn MAP mơ hình học máy thường tốn tối ưu khơng lồi Luận văn đề xuất phương pháp Generalized Online Maximum a Posteriori Estimation (G-OPE) [21], phương pháp cải tiến tổng qt hóa thuật tốn Online Maximum a Posterior Estimation (OPE) OPE [6] áp dụng hiệu mơ hình chủ đề Latent Dirichlet Allocation (LDA) [1] mặt lí thuyết lẫn kết thực tế G-OPE tổng quát OPE, đồng thời kết thực nghiệm chứng minh G-OPE cho kết tốt OPE phương pháp suy diễn khác mơ hình LDA Ngồi ra, ý tưởng thiết kế thuật tốn ngẫu nghiên G-OPE có khả mở rộng áp dụng tốn MAP khác ngồi mơ hình chủ đề Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Chương - TỔNG QUAN Ngày nay, học máy lĩnh vực nghiên cứu phát triển mạnh mẽ ngành khoa học máy tính Các thuật tốn học máy tảng cho tốn xử lí, phân tích liệu lớn Các mơ hình học máy thường đề xuất hàm mục tiêu dựa giả thiết sử dụng công cụ xác suất thống kê, sau sử dụng cơng cụ tối ưu để tìm cực trị cho hàm mục tiêu Với nhiều toán, hàm mục tiêu hàm khơng lồi, ví dụ tốn K-Means [16], hàm mục tiêu mơ hình chủ đề [1, 20] … Các thuật toán thường sử dụng dựa Gradient Descent (GD) hay Coordinate Descent Các thuật tốn phương pháp lặp, khơng có tính ngẫu nhiên kết điểm cực trị địa phương chất lượng thuật toán phụ thuộc lớn vào điểm khởi tạo ban đầu Các tác giả nghiên cứu, cải tiến phương pháp này, cách thêm tính ngẫu nhiên vào thuật toán để làm cho thuật toán vượt khỏi cực trị địa phương, đến cực trị toàn cục Các thuật toán ngẫu nhiên Stochastic Gradient Descent (SGD) làm việc hiệu toán thực tế Tuy nhiên, nhiều thách thức giải tốn tối ưu khơng lồi vấn đề hội tụ thuật toán, vấn đề điểm yên ngựa hay cực trị địa phương Trong lĩnh vực thống kê hay học máy, toán cực đại hóa phân phối hậu nghiệm (Maximum a Posteriori - MAP) quan tâm nhiều mơ hình khác MAP sử dụng để ước lượng tham số đó, dựa giả thiết phân phối tiên nghiệm cho tham số (prior) liệu quan sát (likelihood) Ví dụ, ta quan sát liệu 𝐷 muốn ước lượng tham số 𝜃 từ liệu Đầu tiên, ta giả sử 𝜃 có phân phối tiên nghiệm biết trước 𝑃 𝜃 Ta giả thiết phân phối liệu 𝐷 biết tham số 𝜃 𝑃 𝐷 𝜃 Dựa vào định lí Bayes, ta có phân phối hậu nghiệm (posteriori) 𝑃 𝜃𝐷 = L M ∗ L L O 𝐷𝜃 Khi 𝜃 ước lượng là: 𝜃 ∗ = 𝑎𝑟𝑔𝑚𝑎𝑥M 𝑃 𝜃 𝐷 = 𝑎𝑟𝑔𝑚𝑎𝑥M 𝑃 𝜃 ∗ 𝑃(𝐷|𝜃) Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Ta thấy, hàm mục tiêu MAP bao gồm hai thành phần prior 𝑃 𝜃 likelihood 𝑃(𝐷|𝜃) Thành phần tiên nghiệm 𝑃 𝜃 đại lượng đặc trưng cho tri thức (giả thiết) ta tham số Thành phần likelihood 𝑃(𝐷|𝜃) đại lượng đặc trưng cho tri thức quan sát từ liệu Tham số 𝜃 ước lượng cực đại hóa phân phối hậu nghiệm tri thức ta thu kết hợp từ hai thành phần Trong luận văn này, em nghiên cứu giải toán MAP mơ hình chủ đề phương pháp tối ưu ngẫu nhiên để giải Mơ hình chủ đề sử dụng thành cơng việc phân tích liệu văn Mơ hình chủ đề giúp ta phân tích chủ đề ẩn văn bản, từ liên quan với nói chủ đề ẩn Vấn đề nghiên cứu mơ hình chủ đề toán suy diễn Bài toán suy diễn trả lời hai câu hỏi: chủ đề từ văn nói chủ đề Tuy nhiên, tốn suy diễn cho mơ hình chủ đề tốn NP-khó [24] Do tác giả khơng giải trực tiếp tốn mà giải toán xấp xỉ toán gốc Bài toán MAP mơ hình chủ đề cách để giải toán suy diễn tốn tối ưu khơng lồi Luận văn đưa phương pháp xây dựng thuật toán ngẫu nhiên để giải tốn MAP cho mơ hình chủ đề, đề xuất cách thiết kế thuật tốn ngẫu nhiên có chủ đích, dựa vào cách lấy mẫu ngẫu nhiên phần tiên nghiệm (prior) phần likelihood hàm mục tiêu MAP Bố cục luận văn trình bày sau: phần trình bày kiến thức liên quan đến xác suất, thống kê, cơng cụ đồ thị xác suất, thuật tốn tối ưu Gradient Descent, Frank-Wolfe Phần trình bày mơ hình chủ đề Latent Dirichlet Allocation (LDA) [1] toán suy diễn MAP cho mơ hình LDA Phần trình bày thuật tốn đề xuất Generalized Online Maximum a Posteriori Estimation (G-OPE) Phần kết thực nghiệm Cuối cùng, phần kết luận hướng nghiên cứu tương lai 10 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Thuật toán : G-OPE Generalized Online Maximum a Posterior Estimation Input: document 𝒅 and model {𝜷, 𝛼}, Bernoulli parameter 𝑝 Output: 𝜽 𝑡ℎ𝑎𝑡 𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 𝑓 𝜽 = 𝑔C 𝜽 = A 𝑑A q \cC 𝜃\ 𝛽\A , 𝑔E log A 𝑑A log q \cC 𝜃\ 𝛽\A 𝜽 = (𝛼 − 1) + (𝛼 − 1) q \cC log 𝜃\ q \cC log 𝜃\ Initialize 𝜽C 𝑎𝑟𝑏𝑖𝑡𝑟𝑎𝑟𝑖𝑙𝑦 𝑖𝑛 Δq = 𝒙 ∈ 𝑅 q ∶ 𝑥X ≥ 0 ∀𝑖 = … 𝐾, q \cC 𝑥\ =1 𝑎• = 𝑏• = for 𝑡 = 1, 2, … ∞ Pick 𝑓£ (𝜽) from {𝑔C 𝜽 , 𝑔E (𝜽)} with Bernoulli 𝑝 (Pr [ 𝑓£ ≔ 𝑔C ] = 𝑝; Pr [ 𝑓£ ≔ 𝑔E ] = − 𝑝) if 𝑓£ 𝜽 ≔ 𝑔C (𝜽) 𝑎£ = 𝑎£€C + else 𝑏£ = ÊC + Ê () = C ẻƯ Ê ể 𝑔C 𝜽 + Ϧ C€Ĩ 𝑔E 𝜽 𝒆£ ∶= 𝑎𝑟𝑔𝑚𝑎𝑥𝒙∈Ã~ < 𝐹£Ì 𝜽£ , 𝒙 > 𝜽£”C ≔ 𝜽£ + ¬¦ €𝜽¦ £ end for Thuật tốn G-OPE hoạt động tương tự OPE, khác bước lấy ngẫu nhiên hai thành phần Trong G-OPE, 𝑎£ , 𝑏£ số lần lấy thành phần 𝑔C 𝜽 , 𝑔E 𝜽 sau 𝑡 bước Ô_ 𝜽 Ĩ , Ợ 𝜽 C€Ĩ thành phần likelihood prior hiệu chỉnh 𝐹£ (𝜽) trung bình cộng thành phần hiệu chỉnh để đảm bảo 𝐹£ (𝜽) → 𝑓(𝜽) 𝑡 → ∞ 35 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Giá trị 𝑝 ∈ (0,1) Nếu 𝑝 lớn, tức xác suất lấy phần likelihood lớn, ta suy diễn sử dụng nhiều thành phần quan sát Ngược lại, 𝑝 nhỏ, xác suất lấy thành phần prior lớn, ta suy diễn dựa nhiều vào thành phần tiên nghiệm Như vậy, phân phối Bernoulli công cụ để chọn tỉ lệ hai thành phần này, mà đảm bảo tính ngẫu nhiên thuật tốn Phân phối Bernoulli giúp ta kiểm soát thành phần tri thức (likelihood hay priori) sử dụng nhiều cực đại hóa phân phối hậu nghiệm (MAP) Tỉ lệ likelihood prior tham số quan trọng suy diễn (kết thực nghiệm 5.4), kiểm soát tỉ lệ giúp ta suy diễn tốt Ý tưởng sử dụng phân phối Bernoulli áp dụng tốn MAP mơ hình khác nhau, cách xây dựng hàm xấp xỉ 𝐹£ G-OPE, làm việc với hàm xấp xỉ này, tùy vào toán cụ thể 36 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Chương – KẾT QUẢ THỰC NGHIỆM Trong phần này, em xin trình bày kết thực nghiệm phương pháp đề xuất GOPE việc học mơ hình LDA G-OPE thuật tốn suy diễn, nên em nghiên cứu hoạt động G-OPE thông qua thuật tốn học Online-OPE [6] cho mơ hình LDA, việc thay thuật toán OPE G-OPE 5.1 Thuật toán Online-OPE Online-OPE [6] thuật toán học LDA từ tập văn khơng có nhãn Online-OPE sử dụng thuật toán suy diễn OPE để học tỉ lệ chủ đề cho văn bản, từ cập nhật tham số cho mơ hình Chi tiết thuật tốn Online-OPE trình bày thuật tốn Online-OPE hoạt động tốt so với thuật toán khác VB, CVB, CSG Kết trình bày [5, 6] Trong luận văn này, em đề xuất thuật toán OnlineGOPE, xây dựng từ Online-OPE, cách thay thuật toán suy diễn OPE G-OPE, so sánh hiệu Online-GOPE với thuật toán ban đầu Online-OPE thuật toán học LDA VB, CVB, CGS 37 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Thuật toán 3: Online-OPE for learning LDA from massive data Input: training data 𝐶 with 𝐷 documents, 𝐾, 𝛼, 𝜂, 𝜏 > 0, 𝜅 ∈ (0.5,1] Output: 𝛌 Initialize 𝛌• randomly for 𝑡 = 1, 2, … ∞ Sample a set 𝐶£ consisting of 𝑆 documents Use algorithm OPE to posterior inference for each document 𝒅 ∈ 𝐶£ , given the global variable 𝜷£€C ∝ 𝝀£€C in the last step, to get topic mixture 𝜽« Then compute 𝝓« as : 𝜙«A\ ∝ 𝜃«\ 𝛽\A For each 𝑘 ∈ {1, 2, … 𝐾}, form an intermediate global variable 𝝀\ for 𝐶£ by : 𝜆\A ∶= 𝜂 + 𝐷 𝑆 𝑑A 𝜙«A\ «∈Û¦ Update the global variable by, where 𝜌£ ∶= 𝑡 + 𝜏 €Ü 𝝀£ ≔ − 𝜌£ 𝝀£€C + 𝜌£ 𝝀 end for 5.2 Các độ đo thử nghiệm Với mơ hình chủ đề, ta sử dụng hai độ đo Log Predictive Probability (LPP) Normalized Pointwise Mutual Information (NPMI) LLP [12] đánh giá khả dự đốn, hay khả tổng qt hóa mơ hình Độ đo NPMI [2] đánh giá chất lượng chủ đề mà mơ hình học 5.2.1 Độ đo xác suất dự đoán (Log Predictive Probability) Xác suất dự đốn (Predictive Probability) khả tổng qt hóa mơ hình ℳ liệu Dữ liệu văn 𝒘 Với văn mới, ta 38 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B chia văn thành phần 𝒘©Ï° 𝒘Ê© với tỉ lệ 𝒘©Ï° : 𝒘Ê© = 80 ∶ 20 Tiếp theo ta suy diễn cho phần 𝒘©Ï° để ước lượng 𝐸(𝜃 ©Ï° ) Sau ước lượng Predictive Probability : q 𝐸 𝜃\©Ï° 𝐸 βàá 𝑝(𝒘©Ï° , ℳ) ≈ -∈𝒘âã \cC 𝐿𝑜𝑔 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑒 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 = log p(𝒘Ê© |𝒘©Ï° , ℳ) |𝒘Ê© | ℳlà kí hiệu cho mơ hình Ý nghĩa độ đo là: với văn mới, biết trước phần văn (80% văn bản), khả mơ hình dự đốn phần cịn lại văn Độ đo cao mơ hình tốt 5.2.2 Độ đo chất lượng chủ đề (Normalized Pointwise Mutual Information) Độ đo NPMI nói chất lượng chủ đề học Với mơ hình chủ đề, độ đo NPMI đánh giá tương đối tốt với suy diễn người chủ đề Với chủ đề 𝑡, ta chọn 𝑛 từ có xác suất cao 𝑤C , 𝑤E … 𝑤/ tính độ đo NPMI chủ đề : 𝑁𝑃𝑀𝐼 𝑡 = 𝑛(𝑛 − 1) / A€C AcE XcC 𝑝(𝑤X , 𝑤A ) 𝑝 𝑤X 𝑝(𝑤A ) − log 𝑝(𝑤X , 𝑤A ) log Trong 𝑝 𝑤X , 𝑤A xác suất để từ 𝑤X và 𝑤A xuất văn bản, 𝑝 𝑤X xác suất từ 𝑤X xuất văn Các xác suất ước lượng từ training set Trong kết thực nghiệm ta chọn 𝒏 = 𝟏𝟎 cho chủ đề Với mơ hình ℳ có 𝐾 chủ đề, độ đo NPMI mơ hình tính sau: 39 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B 𝑁𝑃𝑀𝐼 = 𝐾 q 𝑁𝑃𝑀𝐼 𝑡 £cC Chỉ số NPMI cao tức chất lượng chủ đề ta học tốt 5.3 Dữ liệu tham số thử nghiệm Ta sử dụng hai liệu để thử nghiệm: Bộ New York Times bao gồm báo từ tạp chí New York Times, Pubmed liệu bao gồm tóm tắt báo chủ đề y tế Các liệu lấy từ: https://archive.ics.uci.edu/ml/datasets/bag+of+words Bảng 1: Thống kê tập liệu sử dụng thí nghiệm Bộ liệu Số lượng Số lượng văn Số văn New York 300.000 lượng Số lượng term Độ dài văn dùng để văn (tập từ điển) training dùng để test 290.000 10.000 102.661 329 300.000 10.000 141.044 65 trung bình (từ) Times (NYT) Pubmed 310.000 Tham số cho việc thử nghiệm : C C q q • Tham số mơ hình LDA : 𝐾 = 100, 𝛼 = , 𝜂 = • Số lần lặp thuật toán OPE cải tiến : 𝑇 = 50 • Tham số cho việc cập nhật : minibatch size 𝑆 = 𝐶£ = 5000, 𝜅 = 0.9, 𝜏 = Trong đó: • 𝐾 số lượng chủ đề mơ hình LDA Ta chọn 𝐾 = 100 chủ đề 40 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B • S số lượng văn sử dụng vịng lặp cập nhật tham số cho mơ hình • 𝛼, 𝜂, 𝜅, 𝜏 tham số thuật toán Online-OPE Các tham số tham số hay sử dụng giữ nguyên so với thuật toán OPE cài đặt [6] Vì thuật tốn ngẫu nhiên, nên thử nghiệm, thuật toán em chạy lần, sau lấy trung bình kết lần chạy 5.4 G-OPE với tham số 𝑝 khác Trong thử nghiệm này, em chạy thuật toán Online-GOPE với tham số 𝑝 khác Giá trị 𝑝 khoảng [0.1, 0.9], giá trị cách 0.05 Kết thuật toán liệu NYT Pubmed thể hình 11 hình 12 Từ kết ta thấy, với giá trị 𝑝 khác chất lượng thuật tốn học LDA khác Kết chứng minh cho giả thiết tỉ lệ thành phần tri thức suy diễn thay đổi theo tập liệu Như vậy, G-OPE tổng quát OPE cách chọn tỉ lệ thành phần tri thức tùy vào tập liệu khác Giá trị 𝑝 tốt cho liệu, độ đo trình bày chi tiết Bảng Ta thấy, NYT có độ dài trung bình báo lớn độ dài trung bình Pubmed, nên giá trị 𝑝 tốt cho NYT lớn giá trị 𝑝 tốt cho Pubmed Điều chứng tỏ suy diễn, ta nên sử dụng nhiều thành phần quan sát (likelihood) biết nhiều thông tin đối tượng hơn, sử dụng nhiều thành phần tiên nghiệm (prior) biết thơng tin đối tượng Điều phù hợp với giả thiết đưa thiết kế thuật toán G-OPE 41 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Bảng 2:Giá trị p tốt cho độ đo liệu Bộ liệu Độ dài văn trung LPP NPMI bình (từ) New York Times (NYT) 329 0.35 0.8 Pubmed 65 0.4 0.45 Hình 11:G-OPE NYT với tham số p khác 42 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Hình 12:G-OPE Pubmed với tham số p khác 5.5 So sánh Online-GOPE với thuật toán học khác cho LDA Trong thử nghiệm này, ta so sánh phương pháp suy diễn G-OPE với phương pháp suy diễn có: OPE, VB, CVB, CGS G-OPE sử dụng giá trị 𝑝 tốt cho liệu Kết thử nghiệm đưa hình 13 hình 14 Từ kết hình 13 ta thấy, liệu NYT, G-OPE hiệu tất thuật toán nay, độ đo LPP NPMI Từ hình 14 ta thấy, với liệu Pubmed, G-OPE tốt độ đo LPP tốt OPE, VB độ đo NPMI 43 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Hình 13:So sánh thuật toán suy diễn NYT Khi so sánh với thuật toán suy diễn nay, G-OPE cho kết tốt thuật tốn có G-OPE suy diễn tốt so với thuật toán OPE, phân phối Bernulli tổng quát phân phối Uniform, có tham số 𝑝 để hiệu chỉnh G-OPE hoạt động tốt thuật toán khác thuật toán xây dựng dựa tính ngẫu nhiên, lấy mẫu ngẫu nhiên có chủ đích dựa vào tham số 𝑝 Tham số 𝑝 hiệu chỉnh phù hợp với liệu Do đó, G-OPE hoạt động linh hoạt với trường hợp khác thực tế 44 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Hình 14:So sánh thuật tốn suy diễn Pubmed 45 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B KẾT LUẬN Trong luận văn này, em tìm hiểu phương pháp suy diễn cho mơ hình chủ đề LDA, đồng thời đề xuất phương pháp tối ưu ngẫu nhiên cho tốn cực đại hóa phân phối hậu nghiệm (Maximum a Posteriori) dựa tỉ lệ chọn thành phần likelihood prior phân phối Bernoulli Phân phối Bernoulli đưa vào giúp ta có cơng cụ để kiểm soát tỉ lệ thành phần tri thức (likelihood prior) suy diễn đối tượng Kết thực nghiệm cho thấy, tỉ lệ tham số quan trọng, khác liệu, điều chỉnh tỉ lệ làm cho hiệu suy diễn tăng lên đáng kể Với phân phối Bernoulli, ta mở rộng để áp dụng vào xây dựng thuật tốn cực đại hóa phân phối hậu nghiệm mơ hình khác Trong học máy, ta thường phải làm việc với hàm mục tiêu có chứa đại lượng phạt: 𝑓 𝑤 + 𝜆𝑅(𝑤) Trong nhiều mơ hình, ta có - thể coi toán tương đương với toán MAP với 𝑓 𝑤 đại lượng likelihood, 𝑅(𝑤) đại lượng prior 𝜆 tỉ lệ phạt, coi tỉ lệ prior sử dụng để học tham số 𝑤, chọn dựa vào thực nghiệm Bằng cách sử dụng phân phối Bernoulli thuật toán G-OPE, ta có cách khác để lựa chọn tỉ lệ likelihood prior cách tường minh Đây hướng phát triển ý tưởng 46 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B TÀI LIỆU THAM KHẢO [1] David M Blei, Andrew Y Ng, and Michael I Jordan Latent dirichlet allocation Journal of Machine Learning Research, 3(3):993–1022, 2003 [2] Nikolaos Aletras and Mark Stevenson Evaluating topic coherence using distributional semantics In Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013), 13-22, 2013 [3] Léon Bottou Online learning and stochastic approximations Online learning in neural networks, 17(9):142, 1998 [4] Elad Hazan, Satyen Kale Projection-free Online Learning In Proceedings of The 29th International Conference on Machine Learning ICML 2012 [5] Khoat Than, Tung Doan Dual online inference for latent Dirichlet allocation In ACML Journal of Machine Learning Research: W&CP 2014 [6] Khoat Than, Tung Doan Guaranteed algorithms for inference in topic models arXiv preprint arXiv:1512.03308 (2015) [7] Khoat Than, Tu Bao Ho, and Duy Khuong Nguyen An effective framework for supervised dimension reduction Neurocomputing, Springer, vol 139, pages 397-407, 2014 [8] Thomas Hofmann Probabilistic latent semantic indexing In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pages 50 - 57 ACM, 1999 [9] D Blei Probabilistic topic models Communications of the ACM, 55(4):77–84, 2012 [10] D Blei, A Kucukelbir, and J McAuliffe Variational inference: A review for statisticians arXiv:1601.00670, 2016 47 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B [11] http://archive.ics.uci.edu/ml/datasets/ [12] Matthew D Ho_man, David M Blei, Chong Wang, and John Paisley Stochastic variational inference The Journal of Machine Learning Research, 14(1):1303{1347, 2013 [13] https://github.com/Khoat/OPE [14] Martin Jaggi, Revisiting Frank-Wolfe Projection-Free Sparse Convex Optimization In Proceedings of the 30 th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013 [15] Kevin P Murphy, An introduction to graphical models Rap Tech 2011 1-19 [16] Wel Pan, Xlaotong Shen, Binghui Liu Cluster Ananlysis : Unsupervised Learning va Supervised Learning with a Non-convex Penalty The Journal of Machine Learning Research 14.1 (2013): 1865-1889 [17] Zhuolin Qiu, Bin Wu, Bai Wang, Chuan Shi, Le Yu Collapsed Gibs Sampling for Latent Dirichlet Allocation on Spark The Journal of Machine Learning Research 36:1728, 2014 [18] Bottou, Léon, Frank E Curtis, Jorge Nocedal Optimization methods for large-scale machine learning SIAM Review 60.2 (2018): 223-311 [19] Khoat Than and Tu Bao Ho Probable convexity and its application to Correlated Topic Models Technical report, 12/2013 [20] Blei, David M., and John D Lafferty A correlated topic model of science The Annals of Applied Statistics (2007): 17-35 [21] Xuan Bui, Tu Vu, Khoat Than, Ryutaro Ichise A flexible stochastic method for solving the MAP problem in topic models In CICLING 2018 48 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B [22] Dempster, Arthur P., Nan M Laird, and Donald B Rubin Maximum likelihood from incomplete data via the EM algorithm Journal of the royal statistical society Series B (methodological) (1977): 1-38 [23] Griffiths, Thomas L., and Mark Steyvers Finding scientific topics In Proceedings of the National academy of Sciences 101.suppl (2004): 5228-5235 [24] Sontag, David, and Dan Roy Complexity of inference in latent dirichlet allocation Advances in neural information processing systems 2011 [25] Leo Breiman Probability Original edition published by Addison-Wesley, 1968; reprinted by Society for Industrial and Applied Mathematics, 1992 (Sections 3.9, 12.9, and 12.10; Theorem 3.52 specifically) 49 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B ... nhiên để giải tốn cực đại hóa phân phối hậu nghiệm Maximum a Posteriori (MAP) Bài tốn cực đại hóa phân phối hậu nghiệm toán thường gặp học máy, dùng để ước lượng tham số cho mô hình Bài tốn MAP mơ... Tham số phân phối tiên nghiệm cho