Trích chọn đặc trưng

Một phần của tài liệu Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá (Trang 29 - 32)

Một sốđặc trưng với cụm trạng từ trong tiếng Anh [2]:

Bảng 4. Các đặc trưng của cụm trạng từ

STT Đặc trưng Giá trị Giải thích

1 parent-node {S,VP} Nốt cha thuộc phân cấp trên trong cây cú pháp của cụm trạng từ

2 num-leaves ℵ số từ trong cụm trạng từ

3 adverb {often,strongly..} trạng từ chính trong cụm trạng từ

4 dictionary {yes,no} cụm trạng từ có thuộc từđiển không?

5 ends-with-ly {yes,no} cụm trạng từ có kết thúc với đuôi –ly không?

20

7 POS-tag-aft POStags nhãn của từ loại sau cụm trạng từ

8 verb {assigned,go...} động từ chính mà cụm trạng từ bổ nghĩa

9 distance ℵ số từ nằm giữa cụm trạng từ và động từ

Xét đặc trưng thứ 4, bộ từđiển trạng từ do Girju và cộng sự xây dựng năm 2003

[3] dựa trên WordNet và TreeBank, gồm những trạng từ mà chứa mẫu “in a … manner” trong định nghĩa của chúng. Kết quả thu được 2183 trạng từ. Ví dụ: từ điển chứa “strongly” với định nghĩa là “with strength or in a strong manner”.

Ví dụ: We [work [damn hard]ADVP at what we do for damn little pay]VP and […] thì tập đặc trưng là {parent-node:VP; num-leaves:2; adverb:hard; dictionary:no; ends-with-ly:no; POS-tag-bef:RB; POS-tag-aft:IN; verb:work; distance:1} và đây là một ví dụ dương.

Một sốđặc trưng với cụm giới từ trong tiếng Anh [2]:

Bảng 5. Các đặc trưng của cụm giới từ

STT Đặc trưng Giá trị Giải thích

1 parent-node {S,VP} nốt cha thuộc phân cấp trên trong cây cú pháp của cụm giới từ

2 next-node {NP,SBAR...} nốt ngang hàng ở phía bên phải của cụm giới từ

3 num-pp-bef ℵ số cụm giới từ ngang hàng trước cụm giới từ đang xét

4 num-pp-aft ℵ số cụm giới từ ngang hàng sau cụm giới từ đang xét

5 first-word {with,after…} từđầu tiên trong cụm giới từ

6 first-POS- tag

POStags nhãn từ loại đầu tiên trong cụm giới từ

7 first-prep {by,on…} giới từđầu tiên trong cụm giới từ

21

9 POS-tag-aft POStags nhãn từ loại sau first-word 10 word-aft {one,their…} từ sau first-word

11 has-rb {yes,no} cụm giới từ có chứa trạng từ không? 12 has-quotes {yes,no} cụm giới từ có chứa dấu ngoặc kép không? 13 head-np-

lemma

{amount,year...} danh từ chính trong cụm giới từ

14 head-is-last {yes,no} danh từ chính trong cụm giới từ có phải là từ

cuối cùng của câu không? 15 head-has-

cap

{yes,no} cụm giới từ có từ viết hoa không?

16 verb {approved,fly...} động từ mà cụm giới từ bổ ngữ

17 verb-lemma {approve,be...} động từ nguyên thể mà cụm giới từ bổ ngữ

18 verb-pas {yes,no} động từ có ở dạng bịđộng không?

Xét đặc trưng thứ 3 và 4, đếm số các cụm giới từ ngang hàng trước và sau cụm giới từ đang xét. Bởi vì cụm giới từ thường được sắp xếp theo thứ tự quan hệ phương thức, quan hệđịa điểm, quan hệ thời gian [12].

Xét đặc trưng thứ 12, cụm giới từ có dấu ngoặc kép có nhiều khả năng biểu diễn quan hệ phương thức hơn, phân đoạn text giữa các dấu ngoặc kép để trích chọn

được cụm từ chỉ quan hệ phương thức. Ví dụ: use in “very modest amounts” (sử dụng với số lượng rất vừa phải).

Xét đặc trưng thứ 13, giúp kiểm tra ràng buộc DOMAIN và RANGE. Chỉ có những danh từ nào là đối tượng trừu tượng không chứa thời gian hoặc là trạng thái mới biểu diễn quan hệ phương thức. Các ví dụđúng cho quan hệ phương thức: haul in the guests’ [honor], lift in two [stages].

Xét đặc trưng thứ 18, xét một động từ có ở dạng bị động không? Trong nhiều trường hợp, cụm giới từ bắt đầu bằng “by” – nó có nhiều khả năng biểu diễn quan hệ

tác nhân (AGENT) hơn là biểu diễn quan hệ phương thức.

Ví dụ: “When the fruit is ripe, it [[fall]y from the tree [by itself]PP”, he says.

22

Four of the planes [were purchases]y [by International Lease]PP from Singapore Airline in a transaction [...]

(Bốn chiếc máy bay đã được mua bi International Lease từ Singapore Airline trong một phiên giao dịch.)

=> Câu đầu thể hiện quan hệ phương thức, nhưng câu thứ 2 biểu diễn quan hệ

tác nhân.

Ví dụ: Karipharma is a New Jersey-based pharmaceuticals concern that [sell products [under the Purepac label] PP] VP thì tập đặc trưng là {parent-node:VP; next- node:-; num-pp-bef:0; num-pp-aft:0; first-word:under; first-POS-tag:IN; first- prep:under; POS-tag-bef:NNS; POS-tag-aft:DT; word-aft:the; has-rb:no; has- quotes:no; head-np-lemma:label; head-is-last:yes; head-has-cap:yes; verb:sells; verb- lemma:sell; verb-pas:no} và đây là một ví dụ dương.

Một phần của tài liệu Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(48 trang)