Mô hình học máy Maximum Entropy

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 64 - 69)

2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM

2.3.1. Mô hình học máy Maximum Entropy

Mô hình học máy Maximum Entropy viết tắt là ME “cực đại giá trị Entropy” là mô hình học máy dựa trên xác suất có điều kiện [8]. Đối với lớp mô hình dựa trên xác xuất có điều kiện, nếu một mô hình có phân phối đều nhất trong tập dữ liệu mẫu thì mô hình đó “giống” với phân phối thực nhất. Phương pháp Maximum Entropy cho phép tìm ra được mô hình có phân phối đều nhất (gần với phân phối thực nghiệm nhất) [8], [10], [57], [68].

Ý tưởng chính của nguyên lý Maximum Entropy là xác định một mô hình sao cho phân phối của nó tuân theo mọi giả thiết đã quan sát được và không cần bổ sung thêm bất kì giả thiết nào khác. Điều này có nghĩa là phân phối của mô hình phải thoả mãn các ràng buộc quan sát được, và phải gần nhất với phân phối đều.

Trong bài toán phân lớp, gọi Y là tập các lớp (nhãn), và X là tập các thông tin ngữ cảnh, là những thông tin quan trọng sử dụng cho việc phân lớp (gán nhãn) một văn bản vào một lớp thuộc Y một cách chính xác. Nhiệm vụ trong bài toán phân lớp là xây dựng một mô hình thống kê mà dự đoán chính xác lớp của văn bản bất kì. Mô hình như vậy chính là phương pháp ước lượng xác suất có điều kiện p(y|x).

Entropy là độ đo được sử dụng để đo tính đồng đều (hoặc tính không chắc chắn) của một phân phối xác suất. Một phân phối xác suất có entropy càng cao thì phân phối của nó càng gần với phân phối từ tập ví dụ quan sát (tập ví dụ mẫu). Entropy có điều kiện (conditional entropy) là entropy của một phân phối xác suất trên một chuỗi các trạng thái với một điều kiện đã biết từ chuỗi dữ liệu quan sát.

Mô hình Maximum Entropy cung cấp một phương pháp đơn giản để ước lượng xác suất có điều kiện p(y|x) thông qua việc thống kê các thuộc tính quan trọng quan sát được từ tập dữ liệu huấn luyện.

2.3.1.1. Dạng cơ bản

Giả sử quá trình thống kê từ tập dữ liệu huấn luyện sinh ra được n đặc trưng {fi, i=1, 2,..., n}, mỗi đặc trưng này sẽ xác định một ràng buộc. Gọi P là không gian tất cả các phân phối xác suất và C là tập con của P đáp ứng n ràng buộc đã cho (C được gọi là “tập phân phối xác suất chấp nhận được”). Khi đó,

C được mô tả như sau:

𝐶 = { 𝑝 ∈ 𝑃 |𝐸𝑝𝑓𝑖 = 𝐸𝑝̃𝑓𝑖 𝑣ớ𝑖 𝑖 ∈ {1,2 … , 𝑛}} (2.1) Nguyên lý Maximum Entropy phát biểu rằng: “Từ tập các phân phối xác suất chấp nhận được C, sẽ tìm ra được một mô hình p* C thoả mãn điều kiện

làm cực đại độ đo entropy H(p):

𝑝∗ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑝∈𝐶𝐻(𝑝) (2.2)

trong đó, độ đo Entropy có điều kiện (conditional entropy) của một phân phối xác suất được tính toán theo công thức sau đây:

𝐻(𝑝) = − ∑𝑥,𝑦𝑝̃(𝑥) 𝑝(𝑦|𝑥) log 𝑝(𝑦|𝑥) (2.3)

2.3.1.2. Dạng tham số

Như vậy, mục tiêu của bước học mô hình (thường được gọi là bước mã hóa: encoding phase) là tìm ra phân phối xác suất p* C làm cực đại H(p). Với

mỗi một đặc trưng fi ta đưa vào một tham số λi là một nhân tử Lagrange. Hàm Lagrange L(p, λ) được định nghĩa như sau:

𝐿(𝑝, 𝜆) = 𝐻(𝑝) + ∑ 𝜆𝑖 𝑖(𝐸𝑝𝑓𝑖 −𝐸𝑝̃𝑓𝑖) (2.4)

Theo lý thuyết nhân tử Lagrange, phân phối xác suất p(y|x) làm cực đại độ đo entropy H(p) và thoả mãn tập ràng buộc C thì cũng làm cực đại hàm Lagrange L(p, λ) trên không gian phân phối xác xuất P. Gọi pλ là mô hình làm cực đại hàm Lagrange L(p, λ) và Ψ(λ) là giá trị cực đại.

𝑝λ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑝∈𝑃𝐿(𝑝, 𝜆) (2.5)

Ψ(λ)= L (p, λ)

Hàm Ψ(λ) chính là hàm đối ngẫu. Các hàm pλ, Ψ(λ) được tính toán theo hai công thức như sau:

𝑝λ(𝑦|𝑥) = 1

𝑍λexp(∑ 𝜆𝑖 𝑖(𝐸𝑝𝑓𝑖(𝑥, 𝑦)) (2.6) Ψ(λ) = − ∑ 𝑝̃(𝑥)𝑙𝑜𝑔𝑍𝑥 𝜆(𝑥) + ∑ 𝜆𝑖 𝑖𝐸𝑝𝑓𝑖 (2.7) trong đó 𝑍𝜆(𝑥) là thừa số chuẩn hoá để thoả mãn

𝑦

𝑝λ(𝑦|𝑥) = 1 đối với mọi x:

𝑍𝜆(𝑥) = ∑ 𝑦 exp(∑ 𝜆𝑖 𝑖(𝐸𝑝𝑓𝑖(𝑥, 𝑦)) (2.8) Như vậy, thay vì phải tìm phân phối làm cực đại độ đo entropy thoả mãn tập ràng buộc lớn và phức tạp, người ta đưa về bài toán chỉ cần tìm tập tham số λ* làm cực đại hàm đối ngẫu Ψ(λ) không còn ràng buộc. Khi đó, bất kì một thuật toán tìm cực đại λ* cho hàm Ψ(λ) có thể sử dụng được để tìm ra phân phối cực đại p* của H(p) thoả mãn p* C.

Lưu ý rằng, dù đưa về dạng đỗi ngẫu dưới dạng không còn liên quan trực tiếp tới tập ràng buộc dữ liệu, bước huấn luyện mô hình làm cực đại độ đo entropy luôn đòi hỏi một quá trình chọn lọc tập đặc trưng dữ liệu phù hợp từ tập dữ liệu huấn luyện.

2.3.1.3. Mối quan hệ nguyên lý Maximum Entropy với Maximum Likelihood

Maximum likelihood là một phương pháp thống kê cổ điển với ý tưởng chính là làm cực đại độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm.

Hàm log-likelihood Lp(p) của phân phối thực nghiệm 𝑝̃ được định nghĩa: 𝐿𝑝(𝑝) = 𝑙𝑜𝑔 ∏𝑥,𝑦𝑝(𝑦|𝑥)𝑝̃(𝑥,𝑦) = ∑𝑥,𝑦𝑝̃(𝑥, 𝑦) log 𝑝(𝑦|𝑥) (2.9)

Gọi pλ là mô hình làm cực đại hàm likelihood Lp(p). Ta có:

Ψ(λ) = 𝐿𝑝̃(𝑝λ) (2.10)

Như vậy, mô hình p* C với Maximum Entropy là mô hình dưới dạng

tham số 𝑝λ(𝑦|𝑥) làm cực đại likelihood trên mẫu dữ liệu huấn luyện. Do đó, có thể dùng các phương pháp ước lượng tham số cho likelihood cực đại thay vì dùng các phương pháp ước lượng tham số cho các phân phối mô hình dựa trên nguyên lý cực đại entropy.

Tồn tại nhiều thuật toán dùng để ước lượng tham số, điển hình là các thuật toán GIS, IIS, L-BFGS….

2.3.1.4. Bước học mô hình

Tập dữ liệu huấn luyện

Tập dữ liệu huấn luyện T = {(x1, y1), …, (xN, yN)} trong đó {(x1, …, xN)} là tập các thông tin ngữ cảnh đã được phân lớp (gán nhãn) , và {(y1,…, yN)} là tập

các lớp (nhãn) tương ứng.

Với một cặp (xi, yi), phân phối xác suất thực nghiệm của nó được tính bởi: 𝑝̃(𝑥𝑖, 𝑦𝑖̇) = 1

𝑁 × số lần xuất hiện của (𝑥𝑖, 𝑦𝑖̇) trong tập dữ liệu mẫu

Đặc trưng và ràng buộc

Hàm đặc trưng (gọi tắt là đặc trưng) là hàm kiểm tra sự xuất hiện đồng thời của mệnh đề thông tin ngữ cảnh và lớp (nhãn) được dự đoán. Hàm đặc trưng là một hàm có giá trị nhị phân trên các biến cố (events):

𝑓𝑗: ɛ → {0,1}, ɛ = 𝑋 × 𝑌

Gọi pm(x) là một ánh xạ từ cặp (x, y) vào một giá trị trong tập {true,

false}.

pm(x): X → {true, false}

Khi đó, hàm đặc trưng dạng tổng quát được biễu diễn như sau:

𝑓 𝑝𝑚,𝑦′, (𝑥, 𝑦) = {1, 𝑛ế𝑢 𝑦 = 𝑦

′𝑣à 𝑝𝑚(𝑥) = 𝑡𝑟𝑢𝑒

0, ngược lại (2.11)

Một hàm f được biểu diễn như trên được gọi là hàm đặc trưng hay đặc trưng.

Giá trị kì vọng của f đối với phân phối thực nghiệm 𝑝̃(𝑥𝑖, 𝑦𝑖̇) là giá trị thống kê được một cách chính xác, đó chính là số lần xuất hiện của f trong tập dữ liệu huấn luyện, và được biểu diễn như sau:

𝐸𝑝̃𝑓𝑖 = ∑𝑥,𝑦𝑝̃(𝑥, 𝑦)𝑓𝑖(𝑥, 𝑦) (2.12) Phân phối của mô hình phải phù hợp với phân phối trong thực nghiệm khi quan sát tập dữ liệu mẫu:

𝐸𝑝𝑓𝑖 = 𝐸𝑝̃𝑓𝑖

Phương trình này được gọi là phương trình ràng buộc, trong đó 𝐸𝑝𝑓𝑖 chính là kỳ vọng của f đối với mô hình 𝑝(𝑦|𝑥).

Do đó: ∑ 𝑝̃(𝑥) 𝑝(𝑦|𝑥) 𝑓𝑖(𝑦|𝑥) 𝑥,𝑦 = ∑ 𝑝̃ (𝑥, 𝑦)𝑓𝑖(𝑥, 𝑦) 𝑥,𝑦 2.3.1.5. Bước áp dụng mô hình

Mô hình Maximum Entropy nguyên bản sử dụng thuật toán Vietrbi (Vietrbi Search) trong bước áp dụng mô hình. Thuật toán Viterbi sử dụng kỹ thuật quy hoạch động để áp dụng mô hình. Độ phức tạp tính toán là O (NT), trong đó T là số từ trong xâu văn bản đầu vào, N là số nhãn của các thực thể (các khái niệm thuộc ontology).

Bước học mô hình của thuật toán ME-BS hoàn toàn tương tự với bước học mô hình của thuật toán ME, tuy nhiên trong bước áp dụng mô hình (bước giải mã), thuật toán ME-BS sử dụng thuật toán Beam Search thay vì sử dụng thuật toán Vietrbi. Độ phức tạp tính toán của thuật toán Beam Search là O(kT), trong đó k là cỡ phương án (ngưỡng) chọn trong mỗi bước tìm kiếm theo chiều rộng [86].

PubMed

2.3.2. Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực thểbiểu hiện y sinh

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 64 - 69)

Tải bản đầy đủ (PDF)

(150 trang)