3 CHƯƠNG
3.2 Thu thập và chuẩn bị dữ liệu
Để sử dụng được công cụ Swirl người dùng cần chuẩn bị hai thư mục tệp chứa các tệp tin tin dữ liệu: dữ liệu huấn luyện và dữ liệu test. Cả hai thư mục đều cần phải có định dạng tương thích với mơi trường làm việc của Swirl.
Các file dữ liệu huấn luyện:
Tệp chứa từ (word file): Tệp chứa danh sách các câu đã tách từ, mỗi từ sẽ trên 1 dòng và mỗi câu được ngăn cách bởi 1 dịng trơng. Hình 3.1 mơ tả ví dụ về một tệp chứa từ huấn luyện:
Hình 3:1 Tệp chứa từ huấn luyện
Tệp chứa nhãn cú pháp ngữ nghĩa (synt-file): Là tệp chứa danh sách các nhãn ngữ nghĩa tương ứng với các từ đã được tách trong tệp chứa từ, thông
thường nhãn ngữ nghĩa sẽ có 3 cột: nhãn ngữ nghĩa từ, nhãn cụm ngữ nghĩa từ, nhãn ngữ pháp. Hình 3.2 mơ tả ví dụ về một tệp chứa nhãn cú pháp ngữ nghĩa huấn luyện:
Hình 3:2 Tệp chứa cú pháp huấn luyện
Tệp chứa nhãn mệnh đề (props-file): Tệp chứa danh sách các nhãn mệnh đề câu tương ứng với các từ được tách trong tệp chứa từ, tệp có cột đầu tiên chứa danh sách các động từ, các cột tiếp theo là phân định các thành phân con trong câu. Hình 3.3 mơ tả ví dụ về một tệp chứa nhãn thuộc tính:
Hình 3:3 Tệp chứa nhãn mệnh đề
Tệp chứa nhãn danh từ riêng (ne-file): Tệp chứa danh sách các nhãn danh từ riêng tương ứng với các từ được tách trong tệp chứa từ, tệp có cột đầu tiên chứa danh sách nhãn từ của danh từ riêng. Hình 3.4 mơ tả ví dụ về một tệp chứa nhãn danh từ riêng:
Hình 3:4 Tệp chứa nhãn danh từ riêng
Dữ liệu dùng cho mơ hình được khai thác từ nhiệm vụ gán nhãn vai trò ngữ nghĩa tại hội nghị CoNLL- 2004 (Conference on Computational Natural
Language Learning, [14]), với dữ liệu huấn luyện gồm 8042 câu, dữ liệu test gồm 1000 câu.
Dữ liệu huấn luyện chứa các thông tin như: Từ, PoS tag, chunks và nhãn vai trò ngữ nghĩa.
Từ: Dữ liệu đầu vào là các câu tiếng Anh hoàn chỉnh, quy ước mỗi câu chỉ xét một động từ (target verb). Các câu được trình bày dưới dạng cột, phân tách với nhau bởi 1 dòng trống. Mỗi từ trong câu được trình bày trên 1 dịng. Kết thúc câu là dấu chấm.
PoS tag: PoS tag (Part of Speech Tag) là các nhãn biểu diễn từ loại của các từ trong câu. Gán nhãn từ loại là xác định chức năng ngữ pháp của các từ trong câu. Một số phương pháp gán nhãn từ loại cho tiếng Anh sử dụng bao gồm: mơ hình Markov ẩn (HMMs), mơ hình CRF, mơ hình entropy cực đại...
Ví dụ:
The dollar posted gains in quiet trading as concerns about ... DT NN VBD NNS IN JJ NN IN NNS IN ...
Trong ví dụ trên, từ dollar được gán nhãn từ loại là NN (Noun, singular) nghĩa là danh từ số ít, từ posted có nhãn từ loại là VBD (Verb, past tense): động từ ở dạng quá khứ, từ in có nhãn từ loại là IN (Preposition): giới từ, từ quiet có nhãn từ loại là JJ (Adjectives): tính từ. Hiện nay có khoảng 36 nhãn từ loại khác nhau được tham khảo trong tài liệu [3].
Chunks: Chunk (cụm từ) là kết quả của quá trình text chunking. Nhiệm
vụ chính của q trình chunking là phân chia văn bản thành những nhóm từ có quan hệ về mặt cú pháp, những từ này được gộp lại thành một cụm từ biểu diễn một chức năng cú pháp nào đó. Những cụm từ này không chồng lên nhau (non-
overlapping), nghĩa là một từ chỉ có thể nằm trong duy nhất một chunk. Ví dụ:
[He] [reckons] [the current account deficit] [will narrow] [to] [$1.8 billion]. NP VP NP VP PP NP
Trong ví dụ trên, các thành phần của câu được tách ra thành các cụm từ, mỗi cụm mang một chức năng cú pháp riêng biệt như He, the current account
deficit, $1.8 billion đóng vai trị là các cụm danh từ (NP- Noun phrase) trong
câu. Tương tự, reckons, will narrow đóng vai trị là cụm động từ (VP- Verb phrase).
Nhãn vai trò ngữ nghĩa: Do gặp nhiều khó khăn trong việc xác định một
tập các vai trị ngữ nghĩa có ý nghĩa phổ qt hết mọi loại vị tố, Treebank đã định nghĩa các vai trò trò ngữ nghĩa dựa trên cơ sở theo từng động từ. Đối với mỗi động từ cụ thể, ARG0 thường biểu diễn đặc trưng Agent (tác nhân), ARG1
thường biểu diễn Patient (đối tượng bị tác động) hoặc Theme (bối cảnh). Đối với những argument ARG2 đến ARG5, vẫn chưa có một quy tắc tổng quát nào xác định chúng thông qua các động từ mặc dù tiêu tốn rất nhiều nỗ lực của giới nghiên cứu trong việc thống nhất vai trò ngữ nghĩa thơng qua các lớp VerbNet.
Ví dụ: Frameset accept.01: "take willingly" (sẵn lòng) A0: Acceptor (người chấp nhận)
A1: Thing accepted (vật được chấp nhận) A2: Accepted from (chấp nhận từ)
[A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about].
Một tập các vai trò tương ứng với mỗi cách sử dụng một động từ được gọi tập các vai trò, tập các vai trò này kết hợp với tập các khung cú pháp chỉ sự thay đổi về mặt cú pháp trong biểu diễn của các tập đó. Sự kết hợp này tạo thành một Frameset. Mơt động từ đa nghĩa có thể có nhiều hơn một Frameset, khi đó, sự khác nhau giữa các nghĩa được hiểu là đủ phân biệt để đòi hỏi các tập vai trò khác nhau, mỗi tập vai trò tương ứng với một Frameset.
Ví dụ: decline.01: "go down incrementally" (giảm từng bước) A1: entity going down (thực thể giảm)
A2: amount gone down by (số lượng giảm), EXT (extent) A3: start point (điểm bắt đầu)
A4: end point (điểm kết thúc)
…[A11its net income] declining [A2-EXT 42%] [A4 to $120 million] [AM-TMP in the first 9 months of 2000].
Ví dụ: decline.02: "reject" (từ chối) A0: agent (tác nhân)
A1: rejected thing (vật bị từ chối) [A0 A spokesman] decline [A1 to elaborate].
Ngồi các vai trị ngữ nghĩa được xác định như trên, một động từ trong câu cịn có những vai trị ngữ nghĩa khác làm nhiệm vụ như trạng ngữ, được ký hiệu là các nhãn chức năng AM-. Dữ liệu huấn luyện sử dụng các nhãn argument thức năng như sau:
AM-LOC location (vị trí) AM-CAU cause (nguyên nhân) AM-EXT extent (mở rộng) AM-TMP temporal (thời gian)
AM-DIS Discourse marker (diễn ngơn) AM-PNC purpose (mục đích) AM-ADV general-purpose (mục đích chung) AM-MNR manner (cách thức) AM-NEG negation marker
(phủ định)
AM-DIR direction (hướng) AM-MOD modal verb
(động từ khuyết thiếu)
AM-PRD predication (dự đoán) AM-REC reciprocal (tương phản)
Ban đầu, dữ liệu huấn luyện có dạng như hình 3.5. Cột 1: Từ, cột 2: PoS tag, cột 3: chunks, cột 4: các mệnh đề (clauses) ở định dạng Start- End, cột 5: động từ mục tiêu (target verb), cột 6 trở đi: nhãn vai trò ngữ nghĩa dưới định dạng Start- End. Ví dụ: bắt đầu một cụm nhãn vai trò ngữ nghĩa là ký hiệu "(A1", các từ cùng nằm trong cụm đó ký hiệu là "*", kết thúc cụm nhãn được ký hiệu là "A1)".
Hình 3:5 Mẫu dữ liệu ban đầu
Dữ liệu được trải qua các bước tiền xử lý về định dạng BIO, phù hợp với mục tiêu nghiên cứu bài tốn gán nhãn vai trị ngữ nghĩa, tức là coi bài toán như nhiệm vụ gán nhãn chuỗi dữ liệu tuần tự. Trong đó một chuỗi được bắt đầu bởi
"B-X", các từ nằm trong chuỗi có cùng vai trị ngữ nghĩa và kết thúc chuỗi được ký hiệu bởi "I-X", X là các nhãn vai trò ngữ nghĩa.