Trang 1 B Ộ GIÁO DỤC VÀ ÀO TĐẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --- V V n Túũ ăPHƯƠNG PHÁP SUY DIỄN NHANH CHO BÀI TOÁN CỰC ĐẠI HOÁ PHÂN PHỐI HẬU NGHIỆ M NGƯỜI HƯỚNG D N:Ẫ TS.. Thân Quan
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Vũ Văn Tú PHƯƠNG PHÁP SUY DIỄN NHANH CHO BÀI TOÁN CỰC ĐẠI HOÁ PHÂN PHỐI HẬU NGHIỆM NGƯỜI HƯỚNG DẪN: TS Thân Quang Khoát Hà Nội – 10/2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204937461000000 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Vũ Văn Tú Đề tài luận văn: Phương pháp suy diễn nhanh cho toán cực đại hố phân phối hậu nghiệm Chun ngành: Cơng nghệ thông tin – Thạc sĩ kĩ thuật Mã số SV: CB160544 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/10/2018 với nội dung sau: - Chỉnh sửa lại chương mục luận văn Rút gọn số lượng chương mục luận văn Ngày 30 tháng 10 năm 2018 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Mục lục Trang Lời cam đoan Danh sách từ viết tắt thuật ngữ Danh sách kí hiệu dùng luận văn Danh sách hình vẽ Danh sách bảng MỞ ĐẦU Chương - TỔNG QUAN Chương - CƠ SỞ LÝ THUYẾT LIÊN QUAN 11 2.1 Các kiến thức xác suất thống kê 11 2.1.1 Phân phối Multinomial 11 2.1.2 Phân phối Dirichlet 12 2.2 Mơ hình đồ thị xác suất 12 2.3 Các thuật toán tối ưu học máy .15 2.3.1 Gradient Descent .17 2.3.2 Expectation-Maximization 18 2.3.3 Conditional Gradient Descent (Frank Wolfe) 20 Chương - MƠ HÌNH CHỦ ĐỀ VÀ BÀI TỐN CỰC ĐẠI HỐ PHÂN PHỐI HẬU NGHIỆM TRONG MƠ HÌNH CHỦ ĐỀ 23 3.1 3.2 3.3 Mơ hình chủ đề Latent Diriclet Allocation [1] 23 Bài toán suy diễn mơ hình chủ đề .28 Thuật toán Online Maximum a Posteriori Estimation (OPE) 30 Chương – THUẬT TOÁN CẢI TIẾN GENERALIZED ONLINE MAXIMUM A POSTERIORI ESTIMATION (G-OPE) 34 Chương – KẾT QUẢ THỰC NGHIỆM 37 5.1 Thuật toán Online-OPE 37 5.2 Các độ đo thử nghiệm .38 5.2.1 Độ đo xác suất dự đoán (Log Predictive Probability) .38 5.2.2 Độ đo chất lượ ng chủ đề (Normalized Pointwise Mutual Information) 39 5.3 Dữ liệu tham số thử nghiệm 40 5.4 G-OPE với tham số ! khác 41 5.5 So sánh Online-GOPE với thuật toán học khác cho LDA 43 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Lời cam đoan Tôi – Vũ Văn Tú – cam kết luận văn cơng trình nghiên cứu thân tơi hướng dẫn TS Thân Quang Khốt Các kết nghiên cứu luận văn trung thực, khơng phải chép cơng trình cơng bố khác Tất trích dẫn tham chiếu rõ ràng Hà Nội, ngày tháng năm 2018 Tác giả luận văn Vũ Văn Tú Xác nhận người hướng dẫn Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc trường đại học Bách Khoa Hà Nội, đặc biệt thầy cô viện Công nghệ thông tin truyền thông Các thầy cô trang bị cho em kiến thức quý báu thời gian em học tập trường Đồng thời, em xin gửi lời cảm ơn đến thầy cô Data Science Lab, đặc biệt TS Thân Quang Khoát, NCS Bùi Thị Thanh Xuân, tận tình hướng dẫn giúp đỡ em hoàn thành luận văn Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Danh sách từ viết tắt thuật ngữ LDA Dir VB CVB CGS MAP LPP NPMI Latent Dirichlet Allocation Phân phối Dirichlet Variational Bayesian Collapsed Variational Bayesian Collapsed Gibbs Sampling Maxium A Posteriori Log Predictive Probability Normalized Poitwise Mutual Information Danh sách kí hiệu dùng luận văn " Hàm Digamma # Hàm Gamma Kí hiệu “được cho là” $ Tốc độ học hai tham số &' ( % Vector tỉ lệ chủ đề văn ) * Ma trận +,-, hàng ma trận phân phối chủ đề theo từ Số lượng chủ đề + Từ thứ văn / Chủ đề từ thứ văn 1/ Tham số phân phối tiên nghiệm cho * Tham số phân phối tiên nghiệm cho ) Tham số phân phối biến phân ứng với ) Tham số phân phối biến phân ứng với Tham số phân phối biến phân ứng với * V Tập hợp từ điển, bao gồm từ 89 : 9;' 9999@A Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Danh sách hình vẽ Trang Hình 1: Ví dụ đồ thị xác suất 13! Hình 2:Ví dụ đồ thị xác suất có hướng 14! Hình 3:Cách biểu diễn thu gọn mơ hình đồ thị xác suất 15! Hình 4:Minh hoạ thuật toán Gradient Descent 18! Hình 5:Minh hoạ thuật tốn Expectation-Maximization 20! Hình 6:Minh họa thuật toán Frank-Wolfe 21! Hình 7:Kết 10 chủ đề học từ mơ hình LDA 24! Hình 8:Tỉ lệ chủ đề văn mẫu mơ hình LDA 25! Hình 9:Biểu diễn mơ hình sinh LDA 27! Hình 10:Minh họa hoạt động thuật tốn OPE cách xây dựng dãy hàm xấp xỉ ngẫu nhiên BC D ' BE D ' BFGDH … tiến dần IGDH 32! Hình 11:G-OPE NYT với tham số p khác 42! Hình 12:G-OPE Pubmed với tham số p khác 43! Hình 13:So sánh thuật toán suy diễn NYT 44! Hình 14:So sánh thuật toán suy diễn Pubmed 45! Danh sách bảng Trang Bảng 1: Thống kê tập liệu sử dụng thí nghiệm 40! Bảng 2: Giá trị p tốt cho độ đo liệu 42! Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B MỞ ĐẦU Tối ưu tảng quan trọng lĩnh vực học máy Bài toán cốt lõi mơ hình học máy đưa hàm mục tiêu để tối ưu Với toán tối ưu lồi, ta có nhiều cơng cụ mạnh để giải hiệu Tuy nhiên, toán tối ưu học máy chủ yếu toán tối ưu khơng lồi, khơng tồn thuật toán hiệu để áp dụng cho hầu hết tốn Thơng thường, người ta sử dụng thuật tốn xấp xỉ ngẫu nhiên để tìm cực trị địa phương cho toán Trong luận văn này, em trình bày phương pháp ngẫu nhiên để giải tốn cực đại hóa phân phối hậu nghiệm Maximum a Posteriori (MAP) Bài tốn cực đại hóa phân phối hậu nghiệm toán thường gặp học máy, dùng để ước lượng tham số cho mô hình Bài tốn MAP mơ hình học máy thường tốn tối ưu khơng lồi Luận văn đề xuất phương pháp Generalized Online Maximum a Posteriori Estimation (G-OPE) [21], phương pháp cải tiến tổng qt hóa thuật tốn Online Maximum a Posterior Estimation (OPE) OPE [6] áp dụng hiệu mơ hình chủ đề Latent Dirichlet Allocation (LDA) [1] mặt lí thuyết lẫn kết thực tế G-OPE tổng quát OPE, đồng thời kết thực nghiệm chứng minh G-OPE cho kết tốt OPE phương pháp suy diễn khác mô hình LDA Ngồi ra, ý tưởng thiết kế thuật tốn ngẫu nghiên G-OPE có khả mở rộng áp dụng tốn MAP khác ngồi mơ hình chủ đề Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Chương - TỔNG QUAN Ngày nay, học máy lĩnh vực nghiên cứu phát triển mạnh mẽ ngành khoa học máy tính Các thuật tốn học máy tảng cho toán xử lí, phân tích liệu lớn Các mơ hình học máy thường đề xuất hàm mục tiêu dựa giả thiết sử dụng công cụ xác suất thống kê, sau sử dụng cơng cụ tối ưu để tìm cực trị cho hàm mục tiêu Với nhiều toán, hàm mục tiêu hàm khơng lồi, ví dụ tốn K-Means [16], hàm mục tiêu mơ hình chủ đề [1, 20] … Các thuật toán thường sử dụng dựa Gradient Descent (GD) hay Coordinate Descent Các thuật toán phương pháp lặp, khơng có tính ngẫu nhiên kết điểm cực trị địa phương chất lượng thuật toán phụ thuộc lớn vào điểm khởi tạo ban đầu Các tác giả nghiên cứu, cải tiến phương pháp này, cách thêm tính ngẫu nhiên vào thuật tốn để làm cho thuật toán vượt khỏi cực trị địa phương, đến cực trị toàn cục Các thuật toán ngẫu nhiên Stochastic Gradient Descent (SGD) làm việc hiệu toán thực tế Tuy nhiên, nhiều thách thức giải tốn tối ưu khơng lồi vấn đề hội tụ thuật toán, vấn đề điểm yên ngựa hay cực trị địa phương Trong lĩnh vực thống kê hay học máy, tốn cực đại hóa phân phối hậu nghiệm (Maximum a Posteriori - MAP) quan tâm nhiều mơ hình khác MAP sử dụng để ước lượng tham số đó, dựa giả thiết phân phối tiên nghiệm cho tham số (prior) liệu quan sát (likelihood) Ví dụ, ta quan sát liệu J muốn ước lượng tham số D từ liệu Đầu tiên, ta giả sử D có phân phối tiên nghiệm biết trước K D Ta giả thiết phân phối liệu J biết tham số D K J D Dựa vào định lí Bayes, ta có phân phối hậu nghiệm (posteriori) K DJ : L M 9N9L L O JD Khi D ước lượng là: D N : PQRSPTM 9K D J : PQRSPTM 9K D N KGJUDH Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B Ta thấy, hàm mục tiêu MAP bao gồm hai thành phần prior K D 9và likelihood KGJUDH Thành phần tiên nghiệm K D đại lượng đặc trưng cho tri thức (giả thiết) ta tham số Thành phần likelihood KGJUDH đại lượng đặc trưng cho tri thức quan sát từ liệu Tham số D ước lượng cực đại hóa phân phối hậu nghiệm tri thức ta thu kết hợp từ hai thành phần Trong luận văn này, em nghiên cứu giải tốn MAP mơ hình chủ đề phương pháp tối ưu ngẫu nhiên để giải Mơ hình chủ đề sử dụng thành cơng việc phân tích liệu văn Mơ hình chủ đề giúp ta phân tích chủ đề ẩn văn bản, từ liên quan với nói chủ đề ẩn Vấn đề nghiên cứu mơ hình chủ đề tốn suy diễn Bài toán suy diễn trả lời hai câu hỏi: chủ đề từ văn nói chủ đề Tuy nhiên, tốn suy diễn cho mơ hình chủ đề tốn NP-khó [24] Do tác giả khơng giải trực tiếp tốn mà giải tốn xấp xỉ toán gốc Bài toán MAP mơ hình chủ đề cách để giải toán suy diễn toán tối ưu không lồi Luận văn đưa phương pháp xây dựng thuật toán ngẫu nhiên để giải tốn MAP cho mơ hình chủ đề, đề xuất cách thiết kế thuật toán ngẫu nhiên có chủ đích, dựa vào cách lấy mẫu ngẫu nhiên phần tiên nghiệm (prior) phần likelihood hàm mục tiêu MAP Bố cục luận văn trình bày sau: phần trình bày kiến thức liên quan đến xác suất, thống kê, công cụ đồ thị xác suất, thuật toán tối ưu Gradient Descent, Frank-Wolfe Phần trình bày mơ hình chủ đề Latent Dirichlet Allocation (LDA) [1] tốn suy diễn MAP cho mơ hình LDA Phần trình bày thuật tốn đề xuất Generalized Online Maximum a Posteriori Estimation (G-OPE) Phần kết thực nghiệm Cuối cùng, phần kết luận hướng nghiên cứu tương lai 10 Học viên thực hiện: Vũ Văn Tú, CB160544, Lớp: Thạc sĩ CNTT 2016B