2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiệ ny
2.2.3. Thành phần xây dựng kho ngữ liệu MPO_NC
Do tài nguyên thực thể biểu hiện động vật có vú (điển hình là chuột) sẵn có các mối quan hệ giữa chỉ số thực thể biểu hiện với chỉ số tài liệu PubMed có chứa các thực thể biểu hiện này cho nên việc xây dựng kho ngữ liệu MPO_NC đơn giản hơn việc xây dựng kho ngữ liệu HPO_NC. Hình 2.5 trình bày mô hình
hai bước xây dựng kho ngữ liệu MPO_NC.
Hình 2.5. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện động vật có vú
Bước 1 (Trích xuất). Xây dựng bảng quan hệ tài liệu PubMed với thực thể biểu hiện động vật MP
Hai tập tài liệu MGI GenoPheno.rpt và MGI PhenoGenoMP.rpt16 đã được cộng đồng xây dựng mô tả mối quan hệ giữa các tóm tắt Pubmed (PMID) với các thực thể biểu hiện động vật (MPID). Hình 2.6 trình bày cấu trúc bản ghi của
16http://www.informatics.jax.org/downloads/reports/MGI_PhenoGenoMP.rpt ;
http://www.informatics.jax.org/downloads/reports/MGI_GenePheno.rpt
Bộ lọc 1 Unique PMID List
Pubmed
Bộ lọc 2
MPO Tập bài tóm tắt chứa thực thể biểu hiện động vật
Noun Chunking MPO_NC corpus Bước 2
MGI_PhenoGenoMP.rpt MGI_PhenoGeno.rpt
Trích xuất
PMID_MPOID Bước 1
hai tập tài liệu này.
Hình 2.6. Mô hình xây dựng kho ngữ liệu MPO_NC về các thực thể biểu hiện động vật có vú
Tiến hành trích xuất từ hai tập tài liệu này sẽ nhận được bảng quan hệ (PMID, MPID) tương tự như bảng quan hệ (PMID, HPID) như đã được đề cập đối với thực thể biểu hiện người.
Bước 2 (Bộ lọc 1, Bộ lọc 2). Xây dựng kho ngữ liệu MPO_NC
Tương tự như Bước 4 trong thành phân xây dựng kho ngữ liệu HPO_NC, Bước 2 ở đây thực hiện Bộ lọc 1 (như Bộ lọc 2 ở trên), Bộ lọc 2 (như Bộ lọc 3 ở trên) và một thủ tục chunking để xây dựng kho ngữ liệu MPO_NC. Trong trường hợp này, bảng quan hệ (PMID, MPID) đóng vai trò như bảng quan hệ (PMID, HPID), kho ngữ liệu thực thể biểu hiện động vật MPO đóng vai trò như kho ngữ liệu thực thể biểu hiện người HPO.
Kết quả nhận được kho ngữ liệu MPO_NC_corpus chứa các tài liệu PubMed đã được gán nhãn thực thể. Tương tự như kho ngữ liệu HPO_NC_corpus, kho ngữ liệu MPO_NC_corpus đóng vai trò tập dữ liệu huấn luyện xây dựng mô hình nhận dạng thực thể biểu hiện y sinh.
2.2.4. Thành phần phát hiện quan hệ bắc cầu (bổ sung quan hệ) trong ontology kết quả
Thành phần này thực hiện việc ghép nối hai kho ngữ liệu HPO_NC và MPO_NC để có được kho ngữ liệu HPO-MPO_NC với vùng phủ dữ liệu thực thể biểu hiện rộng lớn hơn so với mỗi kho ngữ liệu HPO_NC_corpus và MPO_NC_corpus. Việc kết nối được tiến hành theo kiểu bắc cầu.
thực thể C1 và C2 thuộc kho ngữ liệu O1, chúng có quan hệ với nhau theo mối quan hệ R1 nào đó (ví dụ: is-a, part-of, synonym,…) được ký hiệu: R1(C1, C2). Thực thể C3, C4 thuộc kho ngữ liệu O2, tuy nhiên, C3 và C4 không liên quan với nhau (chưa tồn tại một quan hệ giữa chúng) trong O2.
Hình 2.7. Suy diễn quan hệ giữa các thực thể thông qua kết nối hai kho ngữ liệu
Giả sử bằng một phương thức xác định (hoặc theo phương thức thủ công từ tư vấn chuyên gia miền (xem Chương 4) hoặc theo phương thức bán tự động dựa trên đối sánh từ vựng hay học máy), chúng ta xác định được thực thể C3 thuộc O2 có mối quan hệ R2 (ví dụ: tương đồng) với thực thể C2 thuộc O1, ký hiệu: R2(C3, C2). Tương tự, giả sử thực thể C4 thuộc O2 có quan hệ R3 (tương đồng) với thực thể C1 thuộc O1, ký hiệu R3(C4, C1).
Từ đó, có thể suy ra được thực thể C3 có thể có mối quan hệ R1 với thực thể C1, ký hiệu: R1(C3, C1). Tương tự, qua suy diễn, nhận được C4 có mối quan hệ R1 với thực thể C2, ký hiệu R1(C4, C2).
Nhưng theo trên thì C1 cũng có quan hệ R1 với C2 ở trong O1, nên có thể suy ra, C4 cũng có quan hệ R1 với C3 ở trong O2. Như vậy, nếu chỉ căn cứ vào một kho ngữ liệu O2 ban đầu, không phát hiện ra được các mối quan hệ giữa hai khái niệm C3 và C4. Tuy nhiên, sau khi sử dụng thêm kho ngữ liệu O1 đã phát hiện được C3 và C4 có quan hệ R1 với nhau.
2.2.5. Kết quả tích hợp hai ontology
Bảng 2.2 cung cấp một số thông tin thống kê về ontology mở rộng HPO_MPO_NC và hai ontology thành phần là HPO_NC và MPO_NC theo bốn chỉ số số lượng bài PubMed, số lượng thẻ, số lượng thực thể biểu hiện y sinh xuất hiện trong toàn bộ ontology và số thực thể biểu hiện y sinh đơn nhất. Ngoài trừ chỉ số về số lượng thực thể biểu hiện đơn nhất của ontology kết hợp không bằng tổng số lượng tương ứng của hai ontology thành phần (có 377 (= 1.169 + 3.579 - 4.371) thực thể đơn nhất xuất hiện đồng thời ở các hai ontology HPO_NC và MPO_NC), ba chỉ số còn lại của HPO_MPO_NC đều là tổng tương ứng từ hai ontology HPO_NC và MPO_NC.
Bảng 2.2. Một số thông tin thống kê về các ontology HPO_NC, MPO_NC và HPO_MPO_NC
Kho ngữ liệu biểu hiện Chỉ số thống kê
HPO_NC MP_NC HPO_MPO_NC
Số tài liệu tóm tắt 18.021 4.035 22.056 Số thẻ thực thể 3.387.015 988.598 4.375.613 Số lần xuất hiện thực thể biểu hiện 39.454 6.833 46.287 Số thực thể biểu hiện đơn nhất 3.579 1.169 4.371
Ba kho ngữ liệu này được sử dụng để thiết lập các tập dữ liệu huấn luyện để xây dựng mô hình học máy EM-BS ở pha thứ hai của mô hình giải quyết bài toán.
2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH SEARCH NHẬN DẠNG THỰC THỂ BIỂU HIỆN Y SINH
Thuật toán học máy được áp dụng trong mô hình đề xuất là thuật toán kết hợp Maximum Entropy - Beam Search (sau đây viết tắt là ME-BS). Theo nguyên bản, thành phần áp dụng mô hình (thường được gọi là bước giải mã: decoding phase) trong thuật toán Maximum Entropy là thuật toán Viterbi, một thuật toán hoạt động theo quy hoạch động. Trong nhiều nghiên cứu, thuật toán tìm kiếm xấp xỉ Beam Search được sử dụng thay thế thuật toán Viterbi sẽ đáp ứng yêu cầu áp dụng mô hình được thực hiện với tốc độ cao.
2.3.1. Mô hình học máy Maximum Entropy
Mô hình học máy Maximum Entropy viết tắt là ME “cực đại giá trị Entropy” là mô hình học máy dựa trên xác suất có điều kiện [8]. Đối với lớp mô hình dựa trên xác xuất có điều kiện, nếu một mô hình có phân phối đều nhất trong tập dữ liệu mẫu thì mô hình đó “giống” với phân phối thực nhất. Phương pháp Maximum Entropy cho phép tìm ra được mô hình có phân phối đều nhất (gần với phân phối thực nghiệm nhất) [8], [10], [57], [68].
Ý tưởng chính của nguyên lý Maximum Entropy là xác định một mô hình sao cho phân phối của nó tuân theo mọi giả thiết đã quan sát được và không cần bổ sung thêm bất kì giả thiết nào khác. Điều này có nghĩa là phân phối của mô hình phải thoả mãn các ràng buộc quan sát được, và phải gần nhất với phân phối đều.
Trong bài toán phân lớp, gọi Y là tập các lớp (nhãn), và X là tập các thông tin ngữ cảnh, là những thông tin quan trọng sử dụng cho việc phân lớp (gán nhãn) một văn bản vào một lớp thuộc Y một cách chính xác. Nhiệm vụ trong bài toán phân lớp là xây dựng một mô hình thống kê mà dự đoán chính xác lớp của văn bản bất kì. Mô hình như vậy chính là phương pháp ước lượng xác suất có điều kiện p(y|x).
Entropy là độ đo được sử dụng để đo tính đồng đều (hoặc tính không chắc chắn) của một phân phối xác suất. Một phân phối xác suất có entropy càng cao thì phân phối của nó càng gần với phân phối từ tập ví dụ quan sát (tập ví dụ mẫu). Entropy có điều kiện (conditional entropy) là entropy của một phân phối xác suất trên một chuỗi các trạng thái với một điều kiện đã biết từ chuỗi dữ liệu quan sát.
Mô hình Maximum Entropy cung cấp một phương pháp đơn giản để ước lượng xác suất có điều kiện p(y|x) thông qua việc thống kê các thuộc tính quan trọng quan sát được từ tập dữ liệu huấn luyện.
2.3.1.1. Dạng cơ bản
Giả sử quá trình thống kê từ tập dữ liệu huấn luyện sinh ra được n đặc trưng {fi, i=1, 2,..., n}, mỗi đặc trưng này sẽ xác định một ràng buộc. Gọi P là không gian tất cả các phân phối xác suất và C là tập con của P đáp ứng n ràng buộc đã cho (C được gọi là “tập phân phối xác suất chấp nhận được”). Khi đó,
C được mô tả như sau:
𝐶 = { 𝑝 ∈ 𝑃 |𝐸𝑝𝑓𝑖 = 𝐸𝑝̃𝑓𝑖 𝑣ớ𝑖 𝑖 ∈ {1,2 … , 𝑛}} (2.1) Nguyên lý Maximum Entropy phát biểu rằng: “Từ tập các phân phối xác suất chấp nhận được C, sẽ tìm ra được một mô hình p* ∈C thoả mãn điều kiện
làm cực đại độ đo entropy H(p):
𝑝∗ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑝∈𝐶𝐻(𝑝) (2.2)
trong đó, độ đo Entropy có điều kiện (conditional entropy) của một phân phối xác suất được tính toán theo công thức sau đây:
𝐻(𝑝) = − ∑𝑥,𝑦𝑝̃(𝑥) 𝑝(𝑦|𝑥) log 𝑝(𝑦|𝑥) (2.3)
2.3.1.2. Dạng tham số
Như vậy, mục tiêu của bước học mô hình (thường được gọi là bước mã hóa: encoding phase) là tìm ra phân phối xác suất p* ∈C làm cực đại H(p). Với
mỗi một đặc trưng fi ta đưa vào một tham số λi là một nhân tử Lagrange. Hàm Lagrange L(p, λ) được định nghĩa như sau:
𝐿(𝑝, 𝜆) = 𝐻(𝑝) + ∑ 𝜆𝑖 𝑖(𝐸𝑝𝑓𝑖 −𝐸𝑝̃𝑓𝑖) (2.4)
Theo lý thuyết nhân tử Lagrange, phân phối xác suất p(y|x) làm cực đại độ đo entropy H(p) và thoả mãn tập ràng buộc C thì cũng làm cực đại hàm Lagrange L(p, λ) trên không gian phân phối xác xuất P. Gọi pλ là mô hình làm cực đại hàm Lagrange L(p, λ) và Ψ(λ) là giá trị cực đại.
𝑝λ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑝∈𝑃𝐿(𝑝, 𝜆) (2.5)
Ψ(λ)= L (p, λ)
Hàm Ψ(λ) chính là hàm đối ngẫu. Các hàm pλ, Ψ(λ) được tính toán theo hai công thức như sau:
𝑝λ(𝑦|𝑥) = 1
𝑍λexp(∑ 𝜆𝑖 𝑖(𝐸𝑝𝑓𝑖(𝑥, 𝑦)) (2.6) Ψ(λ) = − ∑ 𝑝̃(𝑥)𝑙𝑜𝑔𝑍𝑥 𝜆(𝑥) + ∑ 𝜆𝑖 𝑖𝐸𝑝𝑓𝑖 (2.7) trong đó 𝑍𝜆(𝑥) là thừa số chuẩn hoá để thoả mãn
∑
𝑦
𝑝λ(𝑦|𝑥) = 1 đối với mọi x:
𝑍𝜆(𝑥) = ∑ 𝑦 exp(∑ 𝜆𝑖 𝑖(𝐸𝑝𝑓𝑖(𝑥, 𝑦)) (2.8) Như vậy, thay vì phải tìm phân phối làm cực đại độ đo entropy thoả mãn tập ràng buộc lớn và phức tạp, người ta đưa về bài toán chỉ cần tìm tập tham số λ* làm cực đại hàm đối ngẫu Ψ(λ) không còn ràng buộc. Khi đó, bất kì một thuật toán tìm cực đại λ* cho hàm Ψ(λ) có thể sử dụng được để tìm ra phân phối cực đại p* của H(p) thoả mãn p* ∈C.
Lưu ý rằng, dù đưa về dạng đỗi ngẫu dưới dạng không còn liên quan trực tiếp tới tập ràng buộc dữ liệu, bước huấn luyện mô hình làm cực đại độ đo entropy luôn đòi hỏi một quá trình chọn lọc tập đặc trưng dữ liệu phù hợp từ tập dữ liệu huấn luyện.
2.3.1.3. Mối quan hệ nguyên lý Maximum Entropy với Maximum Likelihood
Maximum likelihood là một phương pháp thống kê cổ điển với ý tưởng chính là làm cực đại độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm.
Hàm log-likelihood Lp(p) của phân phối thực nghiệm 𝑝̃ được định nghĩa: 𝐿𝑝(𝑝) = 𝑙𝑜𝑔 ∏𝑥,𝑦𝑝(𝑦|𝑥)𝑝̃(𝑥,𝑦) = ∑𝑥,𝑦𝑝̃(𝑥, 𝑦) log 𝑝(𝑦|𝑥) (2.9)
Gọi pλ là mô hình làm cực đại hàm likelihood Lp(p). Ta có:
Ψ(λ) = 𝐿𝑝̃(𝑝λ) (2.10)
Như vậy, mô hình p* ∈C với Maximum Entropy là mô hình dưới dạng
tham số 𝑝λ(𝑦|𝑥) làm cực đại likelihood trên mẫu dữ liệu huấn luyện. Do đó, có thể dùng các phương pháp ước lượng tham số cho likelihood cực đại thay vì dùng các phương pháp ước lượng tham số cho các phân phối mô hình dựa trên nguyên lý cực đại entropy.
Tồn tại nhiều thuật toán dùng để ước lượng tham số, điển hình là các thuật toán GIS, IIS, L-BFGS….
2.3.1.4. Bước học mô hình
Tập dữ liệu huấn luyện
Tập dữ liệu huấn luyện T = {(x1, y1), …, (xN, yN)} trong đó {(x1, …, xN)} là tập các thông tin ngữ cảnh đã được phân lớp (gán nhãn) , và {(y1,…, yN)} là tập
các lớp (nhãn) tương ứng.
Với một cặp (xi, yi), phân phối xác suất thực nghiệm của nó được tính bởi: 𝑝̃(𝑥𝑖, 𝑦𝑖̇) = 1
𝑁 × số lần xuất hiện của (𝑥𝑖, 𝑦𝑖̇) trong tập dữ liệu mẫu
Đặc trưng và ràng buộc
Hàm đặc trưng (gọi tắt là đặc trưng) là hàm kiểm tra sự xuất hiện đồng thời của mệnh đề thông tin ngữ cảnh và lớp (nhãn) được dự đoán. Hàm đặc trưng là một hàm có giá trị nhị phân trên các biến cố (events):
𝑓𝑗: ɛ → {0,1}, ɛ = 𝑋 × 𝑌
Gọi pm(x) là một ánh xạ từ cặp (x, y) vào một giá trị trong tập {true,
false}.
pm(x): X → {true, false}
Khi đó, hàm đặc trưng dạng tổng quát được biễu diễn như sau:
𝑓 𝑝𝑚,𝑦′, (𝑥, 𝑦) = {1, 𝑛ế𝑢 𝑦 = 𝑦
′𝑣à 𝑝𝑚(𝑥) = 𝑡𝑟𝑢𝑒
0, ngược lại (2.11)
Một hàm f được biểu diễn như trên được gọi là hàm đặc trưng hay đặc trưng.
Giá trị kì vọng của f đối với phân phối thực nghiệm 𝑝̃(𝑥𝑖, 𝑦𝑖̇) là giá trị thống kê được một cách chính xác, đó chính là số lần xuất hiện của f trong tập dữ liệu huấn luyện, và được biểu diễn như sau:
𝐸𝑝̃𝑓𝑖 = ∑𝑥,𝑦𝑝̃(𝑥, 𝑦)𝑓𝑖(𝑥, 𝑦) (2.12) Phân phối của mô hình phải phù hợp với phân phối trong thực nghiệm khi quan sát tập dữ liệu mẫu:
𝐸𝑝𝑓𝑖 = 𝐸𝑝̃𝑓𝑖
Phương trình này được gọi là phương trình ràng buộc, trong đó 𝐸𝑝𝑓𝑖 chính là kỳ vọng của f đối với mô hình 𝑝(𝑦|𝑥).
Do đó: ∑ 𝑝̃(𝑥) 𝑝(𝑦|𝑥) 𝑓𝑖(𝑦|𝑥) 𝑥,𝑦 = ∑ 𝑝̃ (𝑥, 𝑦)𝑓𝑖(𝑥, 𝑦) 𝑥,𝑦 2.3.1.5. Bước áp dụng mô hình
Mô hình Maximum Entropy nguyên bản sử dụng thuật toán Vietrbi (Vietrbi Search) trong bước áp dụng mô hình. Thuật toán Viterbi sử dụng kỹ thuật quy hoạch động để áp dụng mô hình. Độ phức tạp tính toán là O (NT), trong đó T là số từ trong xâu văn bản đầu vào, N là số nhãn của các thực thể (các khái niệm thuộc ontology).
Bước học mô hình của thuật toán ME-BS hoàn toàn tương tự với bước học mô hình của thuật toán ME, tuy nhiên trong bước áp dụng mô hình (bước giải mã), thuật toán ME-BS sử dụng thuật toán Beam Search thay vì sử dụng thuật toán Vietrbi. Độ phức tạp tính toán của thuật toán Beam Search là O(kT), trong đó k là cỡ phương án (ngưỡng) chọn trong mỗi bước tìm kiếm theo chiều rộng [86].
PubMed
2.3.2. Mô hình học máy Maximum Entropy - Beam Search nhận dạng thực thểbiểu hiện y sinh biểu hiện y sinh
Thừa kế ý tưởng, kết quả phân tích và thực nghiệm từ công trình nghiên cứu của N. Colier và cộng sự [23], luận án sử dụng phương pháp học máy ME- BS vào mô hình học ontology trên miền ứng dụng y sinh (Hình 2.8). Ngoài lợi điểm cho phép huấn luyện một số lượng lớn các đặc trưng và hội tụ nhanh, việc đánh giá mô hình này cũng khá tốt ngay cả trong trường hợp thiếu thông tin.
2.3.3. Dữ liệu thực nghiệm và công cụ
Các tập dữ liệu huấn luyện và tập dữ liệu kiểm thử
Như đã được giới thiệu, có ba tập dữ liệu huấn luyện (HPO_NC, MPO_NC và HPO_MPO_NC) và ba tập dữ liệu kiểm thử (Phenominer 2012, Phenominer 2013 và Khordad corpus).
Toàn bộ sáu tập dữ liệu này đều được cùng một thành phần trích xuất đặc trưng vào cùng một biểu diễn dữ liệu thống nhất.
Biểu diễn dữ liệu
Luận án sử dụng giải pháp gán nhãn chuỗi để giải quyết bài toán nhận dạng thực thể định danh biểu hiện y sinh. Do thực thể kiểu biểu hiện trong một câu có vai trò cú pháp là cụm danh từ (noun phrase: NP; trường hợp đặc biệt, cụm danh từ chỉ bao gồm một từ) cho nên trước khi được gán nhãn chuỗi câu đầu vào cho bài toán nhận dạng thực thể biểu hiện được chunking (phân tích câu thành các cụm từ) để nhận dạng được các cụm danh từ trong câu đó. Ví dụ, kết quả chunking đối với câu đầu vào “Hereditary pancreatitis and the risk of pancreatic cancer.” là:
Như vậy, phần tử dữ liệu trong bài toán nhận diện thực thể biểu hiện y sinh là một “tiếng” trong các cụm danh từ có trong câu đầu vào. Do tính phổ
biến của thuật ngữ tiếng Anh “token” trong bài toán gán nhãn chuỗi cho nên luận án sử dụng thuật ngữ này để chỉ phần tử dữ liệu thay cho thuật ngữ “tiếng” trong tiếng Việt. Ở ví dụ trên, các token cần được gán nhãn là “Hereditary”, “pancreatitis”, “the”, “risk”, “pancreatic”, “cancer”.
Với câu ví dụ trên đây, một bộ nhận dạng thực thể biểu hiện y sinh cần gán thẻ “B-PH” (“bắt đầu một thực thể biểu hiện y sinh”) cho “pancreatic”, thẻ “E-PH” (“kết thúc một thực thể biểu hiện y sinh”) cho “cancer” và thẻ “NO-PH” (‘không thuộc một thực thể biểu hiện y sinh”) cho các token còn lại. Trong trường hợp một thực thể biểu hiện có quá hai token thì các token ở giữa có nhãn “I-PH” (“ở giữa một thực thể biểu hiện y sinh”). Dạng phổ biến gán nhãn chuỗi là “BIO” trong đó nhãn “B” (begin) chỉ token bắt đầu thực thể, nhãn “I” (in) chỉ