Phương pháp suy diễn nhanh ho bài toán cực đại hóa phân phối hậu nghiệm

Trang 1 B Ộ GIÁO DỤC VÀ ÀO TĐẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --- V V n Túũ ăPHƯƠNG PHÁP SUY DIỄN NHANH CHO BÀI TOÁN CỰC ĐẠI HOÁ PHÂN PHỐI HẬU NGHIỆ M NGƯỜI HƯỚNG D N:Ẫ TS.. Thân Quan

Các kiế n th c v xác su t th ng kê 11 ứ ề ấ ố

Phân phối Multinomial

Giả ử ộ s m t ng i thườ ực hiện thí nghiệm lấy ra qu bóng t0 ả ừ ộ m t túi gồm các quả bóng có

Các quả bóng có màu sắc khác nhau được đặt trong túi, và khi lấy một quả bóng ra, nó sẽ trả lại bóng sau đó Mỗi màu bóng tương đương với một biến ngẫu nhiên Xác suất để lấy được quả bóng màu Y được xác định thông qua hàm phân bố xác suất của các biến ngẫu nhiên này.

Viết d i dướ ạng hàm Gamma:

Kí hiệu #GTH là hàm Gamma với biế n T -jY9T k l9fam9# T : T n ; ]

Tính chất của phân phối Multinomial: o WX : 0 N !X

Phân phối Multinomial được sử dụng để mô hình hóa các thí nghiệm ngẫu nhiên, trong đó kết quả của thí nghiệm là một mẫu có thể thuộc về nhiều lớp khác nhau với xác suất đã được xác định.

Phân phối Dirichlet

Biến ngẫu nhiên \( W \) được gọi là tuân theo phân phối Dirichlet với các tham số \( \alpha_1, \alpha_2, \ldots, \alpha_k \) nếu hàm mật độ của nó có dạng: \[f(W) = \frac{1}{B(\alpha)} \prod_{i=1}^{k} W_i^{\alpha_i - 1}\]trong đó \( B(\alpha) \) là hàm beta và \( \alpha = (\alpha_1, \alpha_2, \ldots, \alpha_k) \) là các tham số dương Phân phối Dirichlet thường được sử dụng trong thống kê và học máy để mô hình hóa các biến ngẫu nhiên có tổng bằng 1, như tỷ lệ trong các phân phối đa biến.

Một sốtính chất của phân phối Dirichlet : Đặt z • : q \cC z \ , ta có : o W X : z X z • 9

Phân phố i Dirichlet thư ờng đượ c sử ụ d ng để làm phân ph i tiên nghiố ệm cho các phân phối Multinomial trong các mô hình thống kê Bayesian.

Mô hình đồ ị th xác su t 12 ấ

Mô hình đồ thị xác suất là công cụ hiệu quả để biểu diễn các biến ngẫu nhiên và sự phụ thuộc lẫn nhau giữa chúng Các nút trong đồ thị đại diện cho các biến ngẫu nhiên, trong khi các cạnh thể hiện mối quan hệ giữa các biến này Đồ thị này mô tả một phân phối đồng thời của tất cả các biến ngẫu nhiên, giúp đơn giản hóa việc phân tích khi số lượng biến lớn Đồ thị xác suất được ứng dụng rộng rãi trong lý thuyết xác suất và thống kê, đặc biệt là trong thống kê Bayesian và học máy.

Hình 1 minh họa mô hình đồ thị xác suất cho hệ thống dự đoán thời tiết, nhằm xác định khả năng có ướt hay không Biến Cloudy biểu diễn trạng thái có mây hay không, với xác suất mây và không mây đều là 0.5 Biến Sprinkler thể hiện khả năng có mưa, phụ thuộc vào biến Cloudy; nếu có mây (Cloudy = True), xác suất có mưa (Sprinkler = True) là 0.9 và không có mưa (Sprinkler = False) là 0.1 Ngược lại, nếu không có mây (Cloudy = False), xác suất cho cả hai trạng thái là bằng nhau Tương tự, biến Rain cũng phụ thuộc vào biến Cloudy Cuối cùng, biến WetGrass xác định xem cỏ có ướt hay không, phụ thuộc vào cả hai biến Sprinkler và Rain như đã nêu trong hình 1.

Hình Ví d1: ụ ề đồ ị v th xác su t ấ

Có hai loại mô hình đồ thị xác suất: đồ thị có hướng và đồ thị vô hướng Đồ thị vô hướng, như Markov networks hay Markov Random Fields, thường được áp dụng trong các lĩnh vực vật lý Trong khi đó, đồ thị có hướng bao gồm nhiều dạng như Bayesian networks, belief networks, các mô hình sinh và mô hình nhân quả, được sử dụng phổ biến trong trí tuệ nhân tạo và học máy Bài luận này sẽ tìm hiểu về các mô hình đồ thị có hướng liên quan đến các mô hình sinh.

Hình 2 minh họa một đồ thị có hướng với 7 đỉnh, biểu diễn các biến ngẫu nhiên Các cạnh trong đồ thị thể hiện mối quan hệ cha con giữa các biến này, cho thấy sự phụ thuộc của chúng Cụ thể, nếu có cạnh nối từ đỉnh A sang đỉnh B, điều này có nghĩa là A sinh ra B, hay B phụ thuộc vào A Trong ví dụ này, biến ngẫu nhiên T … phụ thuộc vào các biến T C', T E', và T F, trong đó T … là đỉnh con, còn T C', T E', và T F là các đỉnh cha của đỉnh A.

Toàn bộ đồ ị th này bi u di n hàm phân phể ễ ối đồng thời của các biến ng u nhiên là :ẫ

Kí hiệu ‰GTH là tập các nh cha cđỉ ủa đỉnh T thì một đồ thị xác suất v i ớ + node

T C ' T E ' Z T q biểu diễn một hàm phân phối đồng thời:

Để thu hút tiền cho việc biểu diễn độc đáo, chúng ta có thể áp dụng các biện pháp gợi cảm và sáng tạo, sử dụng hình ảnh và âm thanh để tạo ra ấn tượng mạnh mẽ Những biện pháp này không chỉ giúp tăng cường sự chú ý của khán giả mà còn tạo ra trải nghiệm đáng nhớ, từ đó nâng cao giá trị của sự kiện biểu diễn.

Hình 3:Cách biểu diễn thu gọn trong mô hình đồ thịxác suất

Mô hình đồ thị xác suất là công cụ hiệu quả để biểu diễn khái niệm độ độc lập có điều kiện trong lý thuyết xác suất Khi xem xét ba biến ngẫu nhiên P', S', và ‹, chúng ta nói rằng P' và S' độc lập với điều kiện ‹ nếu

Trong đồ thị, các biến ngẫu nhiên quan sát được được ký hiệu bằng các hình tròn in đậm, trong khi các biến ẩn (hay các biến không quan sát được) được ký hiệu bằng các hình tròn không in đậm.

Các kiến thức trong mục này được tham khảo trong [15].

2.3Các thuật toán t i u c bố ư ơ ản trong học máy

Trong bài viết này, tôi sẽ trình bày về ý nghĩa tổng quát của một số thuật toán tối ưu hóa thường gặp trong học máy Tối ưu hóa là một trong những lĩnh vực quan trọng của học máy, nơi mỗi mô hình đều giải quyết một bài toán tối ưu thông qua các hàm mục tiêu cụ thể Tùy thuộc vào tính chất của từng hàm mục tiêu, chúng ta sẽ lựa chọn các phương pháp tối ưu hóa khác nhau Do các hàm mục tiêu thường phức tạp, chúng ta không thể tìm ra công thức rõ ràng để tính toán kết quả trực tiếp, mà phải sử dụng các phương pháp lặp để đạt được nghiệm mong muốn.

•k‘IGTH Ph ng pháp lươ ặp để tìm ki m nghi m ế ệ

T N tối u có s ư ơ đồchung nh sau:ư

Bước 1: Khởi tạo giá trị T C k J bất kì

Bước 2: Lặp cho n khi hđế ội tụ

Giá trị T / cuối cùng thu được là giá trịT N xấp xỉ ần tìm c

Các thuật toán tối ưu khác nhau đều có cách xây dựng hàm cập nhật RGTH riêng Công thức cập nhật T/C được tính dựa trên các biến đã tính ở bước trước đó, nhằm giúp dãy số T hội tụ về T_N Thông thường, việc thiết kế thuật toán cập nhật T/C chỉ phụ thuộc vào T/ Để có công thức cập nhật RGT/H, tại mỗi bước lặp, ta xấp xỉ IGTH bằng một hàm dễ tính và có thể tính chất aGT/H, sau đó minimize (hoặc maximize) aGTH bằng công thức tường minh, có thể dựa trên phương trình gradient của aGTH bằng 0 Đây là công thức cho cập nhật RGTH, được minh họa qua các thuật toán tối ưu như Gradient Descent, Expectation-Maximization và Conditional Gradient Descent (Frank-Wolfe) Cách xây dựng các thuật toán này là nền tảng để phát triển nhiều thuật toán tối ưu khác nhau Dưới đây, tôi sẽ trình bày ý tưởng về cách xây dựng các hàm xấp xỉ cho hàm mục tiêu IGTH của các thuật toán tối ưu này.

Các thuật toán t i ố ưu c b n trong h ơ ả ọc máy

Gradient Descent

Bài toán : Cho I T u9t9 / • 9t là hàm lồi, khảvi Tìm T N : •Ž•

Bước 1: Khởi tạo: T • k t / Bước 2: Lặp n khi hđế ội tụ:

Thuật toán này sử dụng hàm RGTH để tính T /”C theo công thức T / = R T / : T / nz™IGT / H, trong đó z là tỷ lệ học (learning rate) và ™IGT l h / H là đạo hàm của hàm IGTH tại điểm T / Để xây dựng hàm RGTH, chúng ta tiến hành tính một xấp xỉ bậc 2 của hàm IGTH dựa trên khai triển Taylor của IGTH.

Chọn ˜ E I T / : ›, ta có hàm xấp xỉ a T : I T / h ˜I T / T n T / h }

E T n T / E a T là một hàm bậc 2 của biến Để tối ưu hóa aGTH, ta chỉ cần tính c T /”C là nghiệm của phương trình ươ 9˜a T : d Từ đó, ta thu được công thức RGTH như trên.

Hình 4 minh họa thuật toán Gradient Descent, trong đó ta xem xét một bài toán đơn giản Tại bước lặp thứ 0, ta bắt đầu từ điểm T / Sau đó, ta xây dựng một parabol aGTH để ước lượng IGTH, với tính chất aGT / H 9 : 9IGT/H Tiếp theo, ta tối ưu hóa aGTH để tính T /”C, dễ thấy rằng với IGTH là hàm lồi, ta có I T /”C • IGT / H Như vậy, dãy rT / hội tụ về điểm cực tiểu của hàm v IGTH.

Expectation-Maximization

Trong thống kê và học máy, Expectation-Maximization (EM) là một thuật toán mạnh mẽ được sử dụng để tìm cực đại của hàm likelihood hoặc cực đại của hàm phân phối hậu nghiệm EM thường được áp dụng trong các mô hình có các biến ngẫu nhiên Thuật toán hoạt động thông qua hai bước chính: Bước Expectation (E) tính toán một hàm xấp xỉ cho hàm mục tiêu hiện tại dựa trên các tham số ước lượng được, và bước Maximization (M) tối đa hóa hàm xấp xỉ đó để cập nhật lại các tham số.

Bài toán đặt ra là giả sử có một mô hình sinh dữ liệu đã quan sát được, với tập các biến ngẫu nhiên và phân phối đồng thời của các biến này Mục tiêu chính là ước lượng tham số từ tập dữ liệu đã có Để thực hiện ước lượng này, ta cần tối đa hóa hàm log likelihood.

Here is the rewritten paragraph:Trong nhiều bài toán, đại lượng Dx thường không thể được viết dưới dạng công thức tường minh Do đó, người ta sẽ đi xấp xỉ đại lượng này bằng một đại lượng dễ tính hơn, và cố gắng tối đa hóa đại lượng đó Thông thường, người ta sử dụng bất đẳng thức Jensen để tính được đại lượng xấp xỉ của Dx.

S ơ đồ thu t toán EM nh sau:ậ ư

Bước 1: Khởi tạo D C bất kì.

Bước 2: Lặp cho n khi hđế ội tụ ớ v i f : ;' )' *H!G)UzH9

\cC z là tham số ủa phân phối tiên nghiệm Dirichlet Với c z v ;, ây là bài toán tđ ối u lư ồi

Bài toán tối ưu không lưới với z • ; là một chủ đề quan trọng trong ứng dụng thực tế Trong luận văn này, tôi sẽ giải quyết bài toán tối ưu với z • ; và phân tích các phương pháp liên quan.

Thuật toán OPE tìm c c ự đại của một hàm không l i trên m t simplexồ ộ + chiều ây là mĐ ở rộng của thuật toán Frank Wolfe [ Chi tiết được trình bày trong thuật toán 1.- 4]

Thuật toán : OPE Online Maximum a Posterior1 i Estimation

Input : document > and model r*' zy

Output : )9faPf SPTYSY1b9 9I ) : 9 A @ A ‚ƒ„ q \cC D \ ³ \A h Gz n ;H q \cC ‚ƒ„D \

Initialize ) C 9PQŠYfQPQYẳẩ Y09 99p q : s k t q œ T X v d9wY : ; Z +' q \cC T \ : ; for f9 : ;' and model r*' zy

Initialize ) C 9PQŠYfQPQYẳẩ Y09 99p q : s k t q œ T X v d9wY : ; Z +' q \cC T \ : ; for f9 : ;' and model r*' zy, Bernoulli parameter !

Pick I Ê G)H from rR C ) ' R E G)Hy with Bernoulli (ẹề! 9Đ I Ê Í R C ă : !x9ẹề9Đ I Ê Í

Thuật toán G-OPE hoạt động dựa trên nguyên tắc của OPE, nhưng khác biệt ở chỗ nó sử dụng phương pháp lấy ngẫu nhiên mẫu một trong hai thành phần Trong G-OPE, P và Š lần lượt đại diện cho số lượng thành phần được lấy.

C€Ó9 lần lượt là thành phần likelihood và prior đã hiệu chỉnh B £ G)H là trung bình cộng của các thành phần đã hi u ch nh này ệ ỉ để đảm b o Bả £ G)H •IG)H khi f • 9É

Giá trị của xác suất trong phân phối Bernoulli cho phép xác định khả năng xuất hiện của các thành phần khác nhau Nếu xác suất lớn, điều này có nghĩa là khả năng lấy được thành phần likelihood cao hơn, cho phép chúng ta dự đoán chính xác hơn Ngược lại, nếu xác suất nhỏ, chúng ta sẽ dựa nhiều vào thành phần prior, dẫn đến việc dự đoán phụ thuộc vào giả định ban đầu Do đó, phân phối Bernoulli đóng vai trò quan trọng trong việc cân bằng giữa hai thành phần này, đồng thời vẫn duy trì tính ngẫu nhiên trong các thuật toán.

Phân phối Bernoulli cho phép kiểm soát thành phần tri thức (likelihood hay prior) trong việc tối ưu hóa phân phối hậu nghiệm (MAP) Tỷ lệ giữa likelihood và prior là tham số quan trọng trong suy diễn, và việc quản lý tỷ lệ này giúp cải thiện khả năng suy diễn Ý tưởng áp dụng phân phối Bernoulli có thể được thực hiện trong các bài toán MAP của nhiều mô hình khác nhau, thông qua việc xây dựng hàm xấp xỉ Bernoulli trong Gư-OPE và làm việc với hàm xấp x này, tùy thuộc vào từng bài toán cụ thể.

Ch ng 5 ươ – KẾT QUẢTHỰC NGHIỆM

Trong bài viết này, tôi sẽ trình bày kết quả thí nghiệm của phương pháp G-OPE trong việc học mô hình LDA G-OPE là một thuật toán suy diễn, vì vậy tôi sẽ nghiên cứu hoạt động của G-OPE thông qua thuật toán học Online-OPE cho mô hình LDA, bằng cách thay thế thuật toán OPE bằng G-OPE.

Thuật toán Online- OPE

Online OPE là một phương pháp thu thập thông tin từ một tập hợp các văn bản không có nhãn bằng cách sử dụng thuật toán suy diễn OPE để xác định tỷ lệ chủ đề cho từng văn bản và cập nhật tham số cho mô hình Thuật toán Online OPE cho thấy hiệu quả vượt trội so với các thuật toán khác như VB, CVB, và CSG Trong nghiên cứu này, tôi đề xuất thuật toán Online GOPE, được phát triển từ Online OPE bằng cách thay thế thuật toán suy diễn OPE bằng G-OPE, và tiến hành so sánh hiệu quả của Online GOPE với thuật toán gốc Online OPE cùng các thuật toán học LDA hiện có như VB, CVB và CGS.

Thuật toán 3: Online-OPE for learning LDA from massive data

Input : training data ệ with documents, J +' z' ạ' ( ± d' & k Gd=é';ă

Sample a set ệ Ê consisting of ỉdocuments

Utilize the OPE algorithm for posterior inference on each document to obtain the topic mixture based on the global variable from the previous step Next, compute the intermediate global variable for the topic mixture Finally, return the results in a coherent format.

Update the global variable by, where % Ê œ: f h ( €ĩ

Các độ đ o th nghi ử ệm

Độ đ o xác su ất dự đ oán (Log Predictive Probability)

Dữ liệu mới được phân tích từ một văn bản, và với bộ dữ liệu này, chúng ta chia văn bản thành hai phần: phần chính và phần phụ, với tỷ lệ nhất định Tiếp theo, chúng ta suy diễn cho phần chính để ước lượng oGD Cuối cùng, từ đó, chúng ta tiến hành ước lượng xác suất dự đoán.

9 eR9KQb@Y‹fY{b KQeŠPŠYẳYfẩ9 :‚ƒ„ 9ọG? ấâ U? âẽ° ' íH

U? Ê© U 9 Ý là ký hiệu cho mô hình Ý nghĩa của độ đo này là: với một tập dữ liệu mới, khi biết trước một phần của văn bản đó (80% văn bản), thì khả năng mô hình dự đoán phần còn lại của văn bản là bao nhiêu Độ đo càng cao thì mô hình càng tốt.

Độ đ o ch ất lượ ng ch ủ đề (Normalized Pointwise Mutual Information)

Độ đo NPMI là chỉ số quan trọng để đánh giá mức độ liên quan của các chủ đề trong mô hình chủ đề NPMI giúp phân tích sự tương tác giữa các từ khóa và phản ánh mức độ liên kết giữa chúng trong một ngữ cảnh cụ thể Việc sử dụng NPMI giúp cải thiện chất lượng và độ chính xác của các mô hình chủ đề, từ đó nâng cao khả năng hiểu biết về nội dung mà con người đang tìm kiếm.

Với mỗi chủ đề f, ta chọ n ra 0 t ừcó xác suất cao nhất C' EZ / và tính độ đo NPMI của chủ đề đó : lKºồ f :

Tiêu đề	Phương Pháp Suy Diễn Nhanh Cho Bài Toán Cực Đại Hóa Phân Phối Hậu Nghiệm
Tác giả	Vũ Văn Tú
Người hướng dẫn	TS. Thân Quang Khoát
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	49
Dung lượng	2,79 MB