0
Tải bản đầy đủ (.pdf) (51 trang)

Dữ liệu chuẩn đã gán nghĩa

Một phần của tài liệu MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ (Trang 31 -32 )

Dữ liệu chuẩn sử dụng trong khĩa luận này là bộ dữ liệu cho các từ chứa nội dung hay các từ mang nghĩa của câu và văn bản. Trong đĩ các trƣờng hợp xuất hiện của mỗi từ đƣợc gộp vào cùng một file với tên là từ đang cần gán nghĩa cộng với phần đuơi “.pos”. Từ file đĩ, ta cĩ thể lấy đƣợc các thơng tin về nghĩa của từ, các tên của văn bản nguồn chứa trƣờng hợp từ mang nghĩa đĩ và các câu chứa từ đĩ đã đƣợc phân loại từ loại theo chuẩn Penn Treebank . Cụ thể một đoạn văn bản chứa 1 trƣờng hợp từ “line” cĩ nghĩa “cord” đƣợc định dạng nhƣ sau:

<instance id="line-n.w7_010:888:" docsrc="unknown"> <answer instance="line-n.w7_010:888:" senseid="cord"/> <context>

the/DT company/NN argued/VBD that/IN its/PRP$ foreman/NN needn/NN 't/NN have/VBP told/VBN the/DT worker/NN not/RB to/TO move/VB the/DT plank/NN to/TO which/WDT his/PRP$ lifeline/NN was/VBD tied/VBN because/IN ''/'' that/WDT comes/VBZ with/IN common/JJ sense/NN ./. ''/''

Chƣơng 4: Cấu trúc và định dạng của dữ liệu

23

the/DT commission/NN noted/VBD ,/, however/RB ,/, that/IN dellovade/NNP hadn/NN 't/NN instructed/VBD its/PRP$ employees/NNS on/IN how/WRB to/TO secure/VB their/PRP$ lifelines/NNS and/CC didn/VBD 't/NN heed/NN a/DT federal/JJ inspector/NN 's/POS earlier/JJR suggestion/NN that/IN the/DT company/NN install/VB special/JJ safety/NN <head> lines/NNS inside/IN the/DT a-frame/NNP structure/NN it/PRP was/VBD building/VBG ./.

</context>

Trong đĩ id là thơng tin nhận dạng của từ, senseid chứa nghĩa của từ, và nằm giữa hai tag <context> và </context> là các câu chứa từ đang cần gán nghĩa. Từ đang cần gán nghĩa đứng sau tag <head> khi đứng cùng trong câu. Giữa các từ ngăn cách với nhau bởi 1 ký tự trống và trong một từ, phần từ và phần thơng tin từ loại ngăn cách với nhau bởi ký tự “/”

Một phần của tài liệu MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ (Trang 31 -32 )

×