2.3. XÂY DỰNG MÔ HÌNH HỌC MÁY MAXIMUM ENTROPY – BEAM
2.3.3. Dữ liệu thực nghiệm và công cụ
Các tập dữ liệu huấn luyện và tập dữ liệu kiểm thử
Như đã được giới thiệu, có ba tập dữ liệu huấn luyện (HPO_NC, MPO_NC và HPO_MPO_NC) và ba tập dữ liệu kiểm thử (Phenominer 2012, Phenominer 2013 và Khordad corpus).
Toàn bộ sáu tập dữ liệu này đều được cùng một thành phần trích xuất đặc trưng vào cùng một biểu diễn dữ liệu thống nhất.
Biểu diễn dữ liệu
Luận án sử dụng giải pháp gán nhãn chuỗi để giải quyết bài toán nhận dạng thực thể định danh biểu hiện y sinh. Do thực thể kiểu biểu hiện trong một câu có vai trò cú pháp là cụm danh từ (noun phrase: NP; trường hợp đặc biệt, cụm danh từ chỉ bao gồm một từ) cho nên trước khi được gán nhãn chuỗi câu đầu vào cho bài toán nhận dạng thực thể biểu hiện được chunking (phân tích câu thành các cụm từ) để nhận dạng được các cụm danh từ trong câu đó. Ví dụ, kết quả chunking đối với câu đầu vào “Hereditary pancreatitis and the risk of pancreatic cancer.” là:
Như vậy, phần tử dữ liệu trong bài toán nhận diện thực thể biểu hiện y sinh là một “tiếng” trong các cụm danh từ có trong câu đầu vào. Do tính phổ
biến của thuật ngữ tiếng Anh “token” trong bài toán gán nhãn chuỗi cho nên luận án sử dụng thuật ngữ này để chỉ phần tử dữ liệu thay cho thuật ngữ “tiếng” trong tiếng Việt. Ở ví dụ trên, các token cần được gán nhãn là “Hereditary”, “pancreatitis”, “the”, “risk”, “pancreatic”, “cancer”.
Với câu ví dụ trên đây, một bộ nhận dạng thực thể biểu hiện y sinh cần gán thẻ “B-PH” (“bắt đầu một thực thể biểu hiện y sinh”) cho “pancreatic”, thẻ “E-PH” (“kết thúc một thực thể biểu hiện y sinh”) cho “cancer” và thẻ “NO-PH” (‘không thuộc một thực thể biểu hiện y sinh”) cho các token còn lại. Trong trường hợp một thực thể biểu hiện có quá hai token thì các token ở giữa có nhãn “I-PH” (“ở giữa một thực thể biểu hiện y sinh”). Dạng phổ biến gán nhãn chuỗi là “BIO” trong đó nhãn “B” (begin) chỉ token bắt đầu thực thể, nhãn “I” (in) chỉ token tiếp tục thực thể và nhãn “O” (other) chỉ token không thuộc một thực thể.
Nhãn thực thể của một token phụ thuộc vào các đặc trưng (các thông tin liên quan) trong biểu diễn token đó mà thường bao gồm các đặc trưng của bản thân token cùng với các đặc trưng của các từ xung quanh nó.
Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án
STT Đặc trưng Mô tả
Nhóm các đặc trưng thông dụng
1 Lemma Bản gốc của thẻ
2 GENIA POS tagger Thẻ từ loại GENIA
3 GENIA Chunk tagger Thẻ cụm từ (số lượng thẻ trong cụm từ lớn hơn 1).
4 GENIA named entity tagger Đầu ra của phân tích câu theo bộ gán thẻ GENIA.
5 Orthographic tag Thẻ chỉnh sửa của token 6 Domain prefix Tiền tố của token
8 Word length Độ dài của từ
9 In/Out parentheses Trong ngoặc đơn được gán thẻ: Y, ngoài ngoặc đơn được gán thẻ: N
Nhóm các đặc trưng từ điển
10 HPO Thuộc HPO
11 MPO Thuộc MPO
12 PAPT Thuộc PATO
13 FMA Thuộc FMA
14 MA Thuộc MA
15 UMLS_DISEASE Thuộc UMLS_DISEASE
16 45CLUSTERS Thuộc 45CLUSTERS
17 UMLS Thuộc UMLS
C. Nigel và cộng sự [23] đề xuất 26 đặc trưng biểu diễn dữ liệu trong học máy nhận dạng thực thể y sinh (kiểu hình, Gene, hóa chất, bệnh,…). Các đặc trưng này được chia làm hai nhóm, nhóm các đặc trưng thông dụng như: hình thái, từ loại, tiền tố, hậu tố,…và nhóm các đặc trưng đại diện cho miền dữ liệu (đặc trưng từ điển). Từ tập 26 đặc trưng này, luận án giữ lại 17 đặc trưng có liên quan trực tiếp tới nhận dạng thực thể biểu hiện y sinh (Bảng 2.3) để biểu diễn dữ liệu trong bài toán học máy EM-BS. Các đặc trưng lân cận (tiền tố, hậu tố) của token được lấy từ một cửa sổ ± 2 (2-gram) xung quanh token đang được xem xét. Việc gắn thẻ POS đã được thực hiện bằng cách sử dụng thư viện OpenNLP với mô hình Maximum Entropy và Gen Corpus và WSJ Corpus (F: 98.4%), có 44 thẻ Penn Treebank POS được sử dụng.
Công cụ
Công cụ OpenNLP17 viết bằng Java với các tham số mặc định được khai thác để cài đặt Maximum Entropy với Beam Search18.