3.2. Lựa chọn dữ liệu
3.2.1. Kho tài liệu MPQA2.0(Multi-Perspective Question Answering)
Tại thời điểm bắt đầu làm luận văn này, phiên bản mới nhất của MPQA là bản 2.0 nên bản MPQA2.0 đƣợc chọn. Kho tài liệu MPQA2.0 gồm 692 tài liệu, 15.802 câu, 21 chủ đề đƣợc bố trí vào 5 tập con khác nhau. Chúng đƣợc thu thập từ các bài báo và các tài liệu text khác nhau, đƣợc đánh dấu thủ cơng ở mức câu và thành phần của câu về các ý kiến và trạng thái cá nhân (nhƣ niềm tin, cảm xúc, cảm nghĩ, …). Wiebe và các cộng sự cĩ mơ tả một chiến lƣợc đánh dấu tổng quát; Wilson và các cộng sự cĩ mơ tả các đánh dấu hƣớng cảm nghĩ theo ngữ cảnh trong các nghiên cứu [8] và [9].
Năm tập con của MPQA2.0 bao gồm:
i. Tập con MPQA ban đầu (MPQA original subset)
Để tiện tham chiếu, từ nay sẽ đƣợc gọi là tập ORI. Những tài liệu trong tập con này đƣợc thu thập từ 187 nguồn tin khác nhau của Mỹ và các nƣớc khác. Chúng đƣợc viết trong khoảng thời gian từ tháng 6 năm 2001 đến tháng 5 năm 2002 và đƣợc thu thập cả bằng thủ cơng lẫn bằng hệ thống thu thập thơng tin. Những bài viết này thuộc 10 chủ đề khác nhau, ngồi ra cịn cĩ một số bài viết đƣợc chọn ngẫu nhiên từ tập gồm 270.000 tài liệu và đƣợc xếp vào tập “misc”.
argentina: sự sụp đổ của nền kinh tế Argentina
axisofevil (trục ma quỷ): phản ứng trƣớc thơng điệp Liên bang của tổng thống Mỹ Bush, năm 2002
guantanamo: việc Mỹ giam giữ tù nhân ở vịnh Guantanamo
humanrights (quyền con ngƣời): phản ứng trƣớc báo cáo của bộ Ngoại Giao Mỹ về nhân quyền
kyoto: sự thơng qua Hiệp Ƣớc Kyoto
mugabe: bầu cử tổng thống Zimbabwe năm 2002
settlements (thiết lập): việc thiết lập của Israel ở dải Gaza và Bờ Tây.
spacestation (trạm khơng gian): sự mệnh khơng gian của các nƣớc khác nhau
taiwan (Đài Loan): quan hệ giữa Đài Loan và Trung Quốc
venezuela: hành động phi thƣờng của Tổng thống Venezuela
ii. Tập con OpQA (Opinion Question Answering subset)
Tập con này gồm cĩ 98 trong tổng số 535 tài liệu thuộc tập ORI. Những tài liệu này đƣợc đánh dấu phục vụ cho nghiên cứu về Opinion Question Answering trong Stoyanov, Cardie, and Wiebe (2005).
iii. Tập con XBank
Tập con Xbank chứa 85 bài báo từ tạp chí Wall Street Journal lấy từ kho Penn TreeBank.
iv. Tập con ULA (Unified Linguistic Annotation)
Gồm 48 tài liệu đƣợc chọn từ kho American National Corpus (ANC), chia thành 6 nhĩm:
hƣớng dẫn du lịch
biên bản hội thoại
thƣ kêu gọi quyên gĩp
một chƣơng trong báo cáo 9/11
một chƣơng trong sách giáo khoa về ngơn ngữ
v. Tập con ULA-LU (Language Understanding subcorpus)
Gồm 24 tài liệu, chia thành những nhĩm chính:
thƣ điện tử liên quan đến phiên xử Enron
biên bản hội thoại
bài báo từ dịch vụ cung cấp tin
bài báo trong tạp chí Wall Street journal (từ kho Penn TreeBank)
bản dịch từ các bài báo bằng tiếng Ả-rập.
MPQA2.0 đƣợc lƣu trữ trong cấu trúc thƣ mục nhƣ Hình 3.2.
Hình 3.2. Cấu trúc lưu trữ của kho dữ liệu MPQA2.0
Các file doclist.* cho biết tập tài liệu theo tập con.
Thƣ mục docs chứa tập tài liệu, trong đĩ mỗi file ở nhánh cuối (ví dụ, file 23.18.15-25073) là một tài liệu dạng file text.
Thƣ mục man_anns chứa các sơ đồ đánh dấu thủ cơng cho các tập tài liệu, mỗi thƣ mục con ở nhánh cuối (ví dụ, thƣ mục 23.18.15-25073) chứa 2 hoặc 3
file: gateman.mpqa.lre.2.0, gatesentences.mpqa.2.0, và đối với những tài liệu thuộc tập con OpQA cĩ thêm file answer.mpqa.2.0.
File gateman.mpqa.lre.2.0 chứa những đánh dấu về ý kiến con ngƣời, bao gồm những đánh dấu mới về thái độ (attitude) và mục tiêu (target) (Wilson, 2008) cho những tài liệu đƣợc đánh dấu theo thuộc tính thái độ và mục tiêu. File
gatesentences.mpqa.2.0 chứa thơng tin về phạm vi của câu, ngoại trừ các câu khơng cĩ giá trị chứa dữ liệu mơ tả hoặc các thơng tin khơng thuộc tài liệu. Những câu này đƣợc xĩa bằng tay.
Tất cả các file này, gateman.mpqa.lre.2.0, gatesentences.mpqa.2.0, và
answer.mpqa.2.0, tuân theo định dạng MPQA.
Theo định dạng MPQA mỗi dịng cĩ thể là một dịng chú thích (bắt đầu bằng #) hoặc là dịng đánh dấu (mỗi đánh dấu trên một dịng).
Dịng đánh dấu bao gồm các trƣờng text cách nhau bởi dấu TAB theo cấu trúc nhƣ sau:
id span data_type ann_type attributes
Mỗi đánh dấu cĩ 1 id duy nhất trong phạm vi file đánh dấu. span là byte bắt đầu và kết thúc của đánh dấu trong tài liệu. data_type của tất cả các đánh dấu đều là 'string'.
ann_type chỉ kiểu đánh dâu. Các kiểu đánh dấu trong các file gateman.mpqa là: GATE_agent, GATE_expressive-subjectivity, GATE_direct- subjective, GATE_objective-speech-event, GATE_attitude, GATE_target, GATE_inside, và GATE_split.
Các đánh dấu câu trong các file gatesentence.mpqa.2.0 đều thuộc kiểu GATE_sentence (ann_type=GATE_sentence).
Mỗi thuộc tính là một cặp tên_thuộc_tính (attribute_name)="giá_trị" (attribute_value).
Một đánh dấu cĩ thể cĩ số thuộc tính bất kỳ (kể cả 0). Trƣờng hợp cĩ nhiều thuộc tính thì chúng cách nhau bởi dấu cách. Tùy thuộc vào kiểu đánh dấu mà giá trị thuộc tính cĩ thể khác nhau.
Dựa trên đánh dấu GATE_sentence (trong file gatesentences.mpqa.2.0) và các đánh dấu khác (trong file gateman.mpqa.lre.2.0) của một tài liệu, thơng qua trƣờng span, ta cĩ thể xác định các đánh dấu cho từng câu riêng biệt. Sau khi cĩ đƣợc tập đánh dấu của một câu, ta cĩ thể xác định đƣợc 2 nhãn về tính
chủ quan và nhãn về tính phân cực cảm nghĩ của câu. Chi tiết về cách xác định 2 nhãn cho câu đƣợc nêu trong các mục 3.3.5 và 3.3.6.
Trong 5 tập con của MPQA2.0 (ORI, ULA, OpQA, ULA-LU, XBANK), ta thấy OpQA là tập con của ORI mà ORI là tập lớn nhất nên tập OpQA sẽ khơng đƣợc chọn cho các xử lý. Ngồi ra, tập con ULA-LU cĩ số tài liệu ít (24 tài liệu) và cĩ chứa một số tài liệu là bản dịch từ tiếng Ả-rập, gồm các câu song ngữ ở tiếng Anh lẫn tiếng Ả-rập, nên cũng sẽ khơng đƣợc chọn làm ứng viên cho việc lựa chọn tập huấn luyện và tập đánh giá. Các xử lý chi tiết trong mơ hình tổng quát của bài tốn chỉ xét đến 3 tập con của MPQA2.0 là ORI, ULA và XBANK.
3.2.2. SentiWordNet
SentiWordNet là nguồn từ vựng đƣợc sử dụng nhiều trong khai phá quan điểm. Trong đĩ, mỗi tập đồng nghĩa (synset) trong WordNet đƣợc gán ba số đo cảm nghĩ, cĩ giá trị từ 0 đến 1: số đo tích cực (Positive Score – Pos.Score), số đo tiêu cực (Negative Score – Neg.Score), số đo khách quan (Objective Score –
Obj.Score). Các chỉ số này phản ảnh mức độ đồng ý giữa các bộ phân lớp thành viên về nhãn phân cực cảm nghĩ (tích cực, tiêu cực) đối với một từ (term), vì vậy một từ (term) cĩ thể cĩ Pos.Score và Neg.Score khác khơng, miễn là phù hợp với cơng thức:
Hình 3.3. Minh họa vị trí của một từ cĩ tính cảm nghĩ tiêu cực trong SentiWordNet.
Nhƣ trong hình 3.3., với 3 giá trị SentiWordNet, ta cĩ thể xác định tính khách quan (SO polarity) và tính phân cực cảm nghĩ (PN polarity) của một từ.