1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá

48 364 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 372,75 KB

Nội dung

Vì thế, bài toán trích chọn mối quan hệ ngữ nghĩa được đặt ra và đã nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên thế giới trong những năm gần đây như: Colli

Trang 1

VÀ THỬ NGHIỆM ĐÁNH GIÁ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ Thông tin

Hà Nội - 2011

Trang 2

VÀ THỬ NGHIỆM ĐÁNH GIÁ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ Thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ

Cán bộ đồng hướng dẫn: ThS Nguyễn Thu Trang

Hà Nội - 2011

Trang 3

i

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo

sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Thu Trang, người đã tận tình chỉ bảo

và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp

Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học

tập, nghiên cứu tại trường Đại Học Công Nghệ và sự hỗ trợ từ đề tài QG.10.38

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm

“Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp

Tôi xin chân thành cảm ơn!

Sinh viên Chu Thị Thủy

Trang 4

ii

Tóm tắt

Trích chọn các mối quan hệ ngữ nghĩa từ văn bản ngày càng trở nên quan trọng đối với các ứng dụng như hệ thống hỏi đáp, trích chọn thông tin, tóm tắt văn bản và hiểu văn bản Khóa luận này đề xuất một phương pháp để tự động trích chọn quan hệ phương thức từ văn bản dựa trên học máy SVM Đưa ra một tập các ký hiệu liên quan tới quan hệ phương thức, bao gồm DOMAIN và RANGE Phân tích sự gắn kết của quan hệ phương thức với những quan hệ khác Đồng thời, chúng tôi cũng trình bày các mẫu từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức Một tập các đặc trưng riêng được trích chọn làm tăng độ chính xác và tính khả thi của mô hình

Thực nghiệm bước đầu trên tập dữ liệu tiếng Việt gồm khoảng 300 câu chứa/không chứa quan hệ phương thức cho thấy phương pháp đề xuất đạt được một kết quả nhất định: độ đo F trong khoảng 60 - 70% Dựa vào đó, chúng tôi nhận thấy phương pháp trích chọn quan hệ phương thức đã đề xuất và triển khai là khả quan

Trang 5

iii

Lời cam đoan

Tôi cam đoan trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá được trình bày trong khóa luận này

do tôi thực hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy và ThS Nguyễn Thu Trang

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ

về tài liệu tham khảo

Trang 6

iv

Mục lục

Tóm tắt ii

Lời cam đoan iii

Mục lục iv

Danh sách các bảng vi

Danh sách các hình vẽ vii

Danh sách các hình vẽ vii

Danh sách các chữ viết tắt viii

Danh sách các chữ viết tắt viii

Mở đầu 1

CHƯƠNG 1 GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 4

1.1 Khái niệm Quan hệ phương thức 4

1.2 Bài toán Trích chọn quan hệ phương thức 5

1.3 Một số ký hiệu 7

1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác 9

CHƯƠNG 2 PHƯƠNG PHÁP TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 11 2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức 11

2.1.1 Các mẫu từ vựng – cú pháp cơ bản 11

2.1.2 Nhập nhằng trong các mẫu từ vựng – cú pháp 15

2.2 Hướng tiếp cận giải quyết vấn đề 15

2.2.1 Mô hình phân lớp SVM nhị phân 15

2.2.2 Trích chọn đặc trưng 19

2.2.3 Quan hệ phương thức trong tiếng Việt 22

CHƯƠNG 3 MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT 24

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 28

4.1 Mô tả thực nghiệm 28

4.1.1 Môi trường thực nghiệm 28

4.1.2 Chun bị dữ liệu 29

Trang 7

v

4.1.3 Quá trình thực nghiệm 29

4.2 Kết quả thực nghiệm và Đánh giá 30

4.2.1 Kết quả thực nghiệm 30

4.2.2 Phân tích lỗi 32

4.2.3 Kết hợp với trích chọn các quan hệ khác 32

Kết luận 34

Phụ lục: Ví dụ 25 câu thuộc tập dữ liệu huấn luyện 35

Tài liệu tham khảo 37

Trang 8

vi

Danh sách các bảng

Bảng 1 Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa

domain(mnr) và range(mnr) 8

Bảng 2 Các mẫu cú pháp biểu diễn quan hệ phương thức trong propbank, số câu xuất hiện và ví dụ (khảo sát với 7852/8037 câu chứa quan hệ phương thức trong propbank) Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm 12

Bảng 3 Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm 13 Bảng 4 Các đặc trưng của cụm trạng từ 19

Bảng 5 Các đặc trưng của cụm giới từ 20

Bảng 6 Một số nhãn từ loại trong jvntextpro 26

Bảng 7 Cấu hình phần cứng sử dụng trong thực nghiệm 28

Bảng 8 Một số phần mềm sử dụng 28

Bảng 9 Đặc trưng cụm trạng từ/cụm giới từ 29

Trang 9

vii

Danh sách các hình vẽ

Hình 1 Quá trình trích chọn các mối quan hệ ngữ nghĩa [4] 6

Hình 2 Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4] 7

Hình 3 Mô hình máy vector hỗ trợ khả tách tuyến tính 16

Hình 4 Phương pháp lề mềm 18

Hình 5 Mô hình trích chọn quan hệ phương thức từ văn bản tiếng việt 25

Trang 10

viii

Danh sách các chữ viết tắt

Trang 11

1

Mở đầu

Các khái niệm có chứa trong một tập câu hay tập tài liệu luôn có liên hệ với nhau thông qua các mối quan hệ ngữ nghĩa Các mối quan hệ này thường được Nn giấu trong các câu, việc tìm ra các mối quan hệ ngữ nghĩa là rất cần thiết, nhằm phục vụ cho quá trình xử lý ngôn ngữ Vì thế, bài toán trích chọn mối quan hệ ngữ nghĩa được đặt ra và đã nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên thế giới trong những năm gần đây như: Colling, ACL, Senseval… Đồng thời, cũng là một phần trong các dự án quan trọng mang tầm cỡ quốc tế trong lĩnh vực khai phá tri thức như: ACE (Automatic Content Extraction)1, DAPRA EELD (Evidence Extraction and Link Discovery)2, ARDA-AQUAINT (Question Answering for Intelligence), ARDA NIMD (Novel Intelligence from Massive Data), Global WordNet3[4]

Một trong những quan hệ ngữ nghĩa có nhiều ứng dụng là quan hệ phương thức

Ví dụ, “phân phát nhanh” biểu diễn mối quan hệ phương thức, với “nhanh” là

phương thức của hành động “phân phát” đã xảy ra Bài toán trích chọn quan hệ

phương thức đòi hỏi phải tìm ra một cặp các thành phần phương thức và hành động

tương ứng Ví dụ, MNR (nhanh, phân phát) Khái niệm quan hệ phương thức xuất

hiện từ thời rất cổ (thời Aristotle) và được học bởi rất nhiều triết gia, nhà logic học, nhà tâm lý học và các nhà ngôn ngữ học, nhưng không nhiều nghiên cứu để tự động trích chọn quan hệ phương thức trong các văn bản Theo [5], Hearst đã phát triển một

phương pháp tự động để trích chọn các quan hệ tổng quát – cụ thể (IS-A) bằng việc xác định một tập các đặc trưng thường xuyên được sử dụng và các mẫu từ vựng – cú pháp rõ ràng Sau đó, đã cố gắng ứng dụng phương pháp này với các mối quan hệ ngữ nghĩa khác, như toàn thể – bộ phận (PART-WHOLE), nhưng không đạt được nhiều thành công do các mẫu được phát hiện còn nhiều nhập nhằng Gần đây, những hướng nghiên cứu để trích chọn các mối quan hệ ngữ nghĩa vẫn tiếp tục tập trung vào các mẫu từ vựng – cú pháp riêng để biểu diễn từng quan hệ trên cả hai hướng tiếp cận là không giám sát và giám sát Một số các nghiên cứu đã được tiến hành trước đó trên những quan hệ riêng biệt [2] như CAUSE-EFFECT (Chang và Choi, 2006), INTENT

Trang 12

2

Xét các nghiên cứu về quan hệ phương thức: Girju và cộng sự (2003) [3] sử dụng mơ hình phân lớp Nạve Bayes và đưa ra một tập các đặc trưng để trích chọn quan hệ phương thức nhưng chưa xét tới những cụm giới từ, hệ thống cho độ chính

xác 0.644, độ hồi tưởng 0.687 và độ đo F là 0.665 Eduardo Blanco và Dan Moldovan

chính xác tới 0.759, độ hồi tưởng 0.626 và độ đo F là 0.686 Nghiên cứu của Gildea và

Jurasky (2002) [6], Giuglea và Moschitti (2006) [7] tập trung vào bài tốn Semantic Role Labeling – yêu cầu gán nhãn ngữ nghĩa (semantic role) cho các thành phần cú pháp trong câu Một semantic role là một mối quan hệ giữa các thành phần cú pháp trong câu và một thuộc tính ngữ nghĩa nào đĩ, và họ xem xét quan hệ phương thức như một semantic role Hệ thống của họ đạt độ đo F là từ 0.527 tới 0.592

Mục tiêu của khố luận này là nghiên cứu và thử nghiệm mơ hình phân lớp SVM để trích chọn quan hệ phương thức Chúng tơi lựa chọn SVM bởi phương pháp này được đánh giá là phương pháp cĩ nhiều ưu điểm như: cĩ khả năng phân lớp với tập dữ liệu cĩ kích thước nhỏ mà vẫn đưa ra được mơ hình phân lớp tốt; giải quyết vấn

đề phân lớp với các tập dữ liệu chứa nhiễu (dữ liệu bị sai) tốt Đồng thời, SVM cĩ khả năng phân lớp dự đốn với sai số ước lượng rất thấp

Nội dung của khố luận được chia thành các chương như sau:

Chương 1: Giới thiệu bài tốn trích chọn quan hệ phương thức Chương

này trình bày khái quát về quan hệ phương thức và bài tốn trích chọn quan hệ phương thức Ngồi ra, cũng đề cập tới một số các ký hiệu xuất hiện trong khái niệm về quan

hệ phương thức như DOMAIN, RANGE; và sự gắn kết của quan hệ phương thức với những quan hệ khác như quan hệ địa điểm (AT-LOCATION), quan hệ thời gian (AT-TIME)

Chương 2: Phương pháp trích chọn quan hệ phương thức Đây là chương

trình bày tất cả các mẫu từ vựng – cú pháp cơ bản nhất để biểu diễn quan hệ phương thức Đồng thời, cũng phân tích sự nhập nhằng trong các mẫu này và một số phương pháp để tránh sự nhập nhằng đĩ Trong chương 2 này, cũng tập trung trình bày mơ hình phân lớp SVM và giới thiệu một tập các đặc trưng để trích chọn quan hệ phương thức

Chương 3: Mơ hình giải quyết bài tốn Từ lý thuyết chương 2, chương 3 này

đưa ra mơ hình đề xuất để giải quyết bài tốn trích chọn quan hệ phương thức và các bước tiến hành trích chọn, tập các đầu vào và đầu ra của hệ thống

Trang 13

3

Chương 4: Thực nghiệm và đánh giá Mô tả thực nghiệm từ quá trình chuNn

bị dữ liệu tới quá trình thực nghiệm Từ đó, thống kê độ chính xác, độ hồi tưởng của

hệ thống và rút ra các đánh giá tổng quan trong quá trình trích chọn quan hệ phương thức

Phần kết luận và hướng phát triển khoá luận: Tóm lược những điểm chính

của khoá luận Chỉ ra những điểm cần khắc phục, đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới

Trang 14

tự nhiên là quan hệ tổng quát – cụ thể (IS-A), quan hệ tổng thể – bộ phận PART), quan hệ phương thức (MANNER), quan hệ nguyên nhân – kết quả (CAUSE-EFFECT)…

(WHOLE-1.1 Khái niệm Quan hệ phương thức

Nói một cách chung nhất, quan hệ phương thức biểu diễn cách thức, nét đặc trưng, phương pháp thực hiện hoặc kiểu cách của một sự vật nào đó đã xảy ra [2]

Theo WordNet4, quan hệ phương thức được định nghĩa như phương pháp thực hiện của hành động hoặc hành vi

Theo PropBank annotation guidelines5, quan hệ phương thức là quan hệ được dùng để chỉ cách thức thực hiện một hành động và được xác định bằng trạng từ/cụm trạng từ/cụm giới từ Quan hệ phương thức nên được trích chọn khi cụm trạng từ hoặc cụm giới từ là câu trả lời cho câu hỏi bắt đầu với “how”

Ví dụ: We want to work together to build our new economy, creating jobs by investing in technology so America can continue to lead the world in growth and opportunity

(from the Democratic response to the President Bush’ 2003 State of the Union Address)

(Chúng tôi muốn làm việc với nhau để xây dựng lên ngành kinh tế mới, tạo nhiều công việc bằng việc đầu tư vào công nghệ, vì vậy Mỹ có thể tiếp tục dẫn đầu thế giới về sự lớn mạnh và cơ hội.)

Trang 15

5

=> Câu trên chứa các quan hệ phương thức: (1) “together” là trạng từ chỉ phương thức ảnh hưởng tới động từ “work”, (2) “by investing in technology” là cụm giới từ chỉ phương thức ảnh hưởng tới động từ “create”, (3) “in growth and opportunity” là cụm giới từ chỉ phương thức ảnh hưởng tới động từ “lead”

Một ứng dụng trong việc trích chọn quan hệ phương thức là hệ thống hỏi đáp, xác định các mối quan hệ ngữ nghĩa và tính toán câu trả lời cho câu hỏi bắt đầu với

“how”

Ví dụ: Q: How do Democrats want to work?

A: work together (with Republicans)

Q: How do Democrats want to create jobs?

A: by investing in technology

Q: How do Democrats want America to lead the world?

A: in growth and opportunity

Quan hệ phương thức xuất hiện thường xuyên trong văn bản và 2 ngân hàng dữ liệu phổ biến chứa quan hệ phương thức là FrameNet http://framenet.icsi.berkeley.edu/

và PropBank http://verbs.colorado.edu/~mpalmer/projects/ace.html Theo thống kê, PropBank chứa 8037 câu chứa quan hệ phương thức (10.7%) trên tổng số 74980 câu chứa các thành phần giống như bổ ngữ (adjunct-like arguments)

Có rất nhiều mẫu từ vựng – cú pháp để biểu diễn một quan hệ phương thức, nhưng chủ yếu là các cụm trạng từ và cụm giới từ

Ví dụ: The company said Mr Stronach will personally direct the restructuring assisted by Manfred Gingl

(Công ty nói rằng ông Stronach sẽ một mình trực tiếp quản lý việc cơ cấu lại được sự giúp đỡ của Manfred Gingl.)

Độ khó trong việc trích chọn tăng lên khi cùng một mẫu từ vựng – cú pháp biểu diễn nhiều quan hệ khác nhau trong các ngữ cảnh khác nhau Một cách có thể để kiểm tra một mẫu biểu diễn quan hệ phương thức hay không là tìm câu trả lời đúng cho câu

hỏi “In what manner/how <to_verb> ?” Ví dụ, “He run quickly” và câu hỏi là “How

to run?” Phân biệt với câu trả lời cho các câu hỏi “Where <verb> ?” hoặc “When

<verb> ?” Ví dụ, “He runs on the field”, “He runs quite often”

1.2 Bài toán Trích chọn quan hệ phương thức

Roxana Girju đã phát biểu bài toán trích chọn các mối quan hệ ngữ nghĩa [4]

như sau: Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu không có

Trang 16

6

cấu trúc như các trang web, các tài liệu, tin tức,…ta cần phải xác định được các mối quan hệ ngữ nghĩa giữa chúng

Sau đây là hình vẽ mô tả quá trình trích chọn các mối quan hệ ngữ nghĩa:

Hình 1 Quá trình trích chọn các mối quan hệ ngữ nghĩa [4]

Phân tích ngữ nghĩa là quá trình đưa một câu ở dạng ngôn ngữ tự nhiên về dạng ngôn ngữ hình thức biểu diễn ý nghĩa của nó, hỗ trợ cho quá trình lập luận tự động

Ví dụ: Colleagues today recall with some humor how meetings would crawl into the early morning hours as Mr Dinkins would quietly march his staff out of board meetings and into his private office to discuss, en masse, certain controversial proposals the way he knows best

(Hôm nay, với sự hóm hỉnh, những cộng sự nhớ lại các buổi họp được tổ chức như thế nào vào sáng sớm khi ông Dinkins lặng lẽ đưa nhân viên của ông rời bàn họp và

đi vào văn phòng riêng của ông để thảo luận toàn thể, nhất định những ý kiến gây tranh cãi sẽ theo hướng mà ông ấy cho là tốt nhất.)

=> Quan hệ phương thức được trích chọn như sau:

MANNER (with some humor, recall) MANNER (how, crawl)

MANNER (quietly, march) MANNER (en masse, discuss) MANNER (the way he knows, discuss) MANNER (best, knows)

Sau đây là kiến trúc cơ bản của bộ phân tích ngữ nghĩa:

Bộ phân tích ngữ nghĩa

-

Tri thức có cấu trúc

Trang 17

7

Hình 2 Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4]

Quá trình phân tích ngữ nghĩa bao gồm các bước:

1. Tiền xử lý văn bản: phân tích từ tố, gán nhãn từ loại, cây cú pháp, phân biệt nhập nhằng giữa các từ đồng nghĩa, nhận diện tên thực thể…

2. Lựa chọn đặc trưng: quyết định một tập các đặc trưng ràng buộc của danh từ và ngữ cảnh dùng để phân lớp các mối quan hệ ngữ nghĩa khác nhau

3. Bộ phân lớp: phân lớp các câu đầu vào vào những lớp quan hệ ngữ nghĩa tương ứng Gần đây, phương pháp thường được sử dụng là mô hình học máy

1.3 Một số ký hiệu

Gọi x là quan hệ phương thức (trạng từ/cụm trạng từ/cụm giới từ); gọi y là hành

động xảy ra Trong các nghiên cứu về quan hệ ngữ nghĩa [2][8][9], người ta thường dùng một số ký hiệu sau đây:

- MNR(x,y): để chỉ một quan hệ phương thức trong đó hành động y xảy ra bằng

phương thức x

- RANGE(MNR): để chỉ thành phần thứ hai của quan hệ MNR(tức là y) là các

từ chỉ tình huống (situations), được định nghĩa là bất cứ cái gì xảy ra ở một thời gian

và địa điểm nào đó khi sử dụng phương thức x Các tình huống này bao gồm sự kiện

và trạng thái được điễn tả bởi các danh từ (chẳng hạn như “conference” - hội nghị,

“race” - cuộc đua), hoặc động từ (chẳng hạn như “mix” - pha trộn, “grow” - trưởng

thay đổi các khái niệm Ví dụ, các cụm từ cụm từ chỉ sự kiện là “walking to the park”

(chạy bộ tới công viên), “pinching him” (làm cậu ấy đau); còn các cụm từ chỉ trạng thái là “standing there” (đứng ở đó), “holding hands” (nắm tay nhau)

Tiền xử lý

Lựa chọn đặc trưng

Trang 18

8

- DOMAIN(MNR): để chỉ thành phần thứ nhất của quan hệ MRN (tức là x) là

các từ chỉ đặc tính (qualities) – thường chính là các cụm trạng từ, các đối tượng trừu

tượng không chứa thời gian (non temporal abstract objects) – thường là các danh từ

chứa trong cụm giới từ, và các trạng thái (states) Các đặc tính biểu diễn các đặc trưng

được gắn liền với các khái niệm khác, như “slowly” (chậm chạp), “abruptly” (đột

ngột) Các đối tượng trừu tượng không chứa thời gian biểu diễn những thực thể vô

hình không thể nhìn thấy, sờ thấy được, như “odor” (mùi thơm), “disease” (bệnh tật),

“mile” (dặm Anh) và không phải là “book” (quyển sách) hoặc “car” (xe ôtô) bởi vì

những thực thể này có thể sờ thấy được Bằng cách này hay cách khác, thì những đối tượng đó là sản phNm từ lập luận của con người và không thể định nghĩa một cách rõ

ràng Chúng không biểu diễn thời gian (thời kỳ hoặc thời điểm) như “week” (tuần),

“yesterday” (ngày hôm qua)

Sau đây là bảng biểu diễn luật phân tích các lớp ngữ nghĩa (tình huống, đặc tính, đối tượng trừu tượng không chứa thời gian, trạng thái) được sử dụng trong định

nghĩa DOMAIN và RANGE, ký hiệu –NE chỉ loại tên thực thể, ký hiệu isHypo(x) của

từ w chỉ ra w có quan hệ tổng quát – cụ thể (IS-A) với x trong WordNet 2.0:

Bảng 1 Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa DOMAIN(MNR) và RANGE(MNR)

situation state || event

state POStag=verb || isHypo(state.n.4)

event POStag=verb && in(verb_events)) || (POStag=noun

&& !animate_object && (isHypo(phenomenon.n.1) || isHypo(event.n.1) || in(noun_events))

animate_object livingNE || (POStag=noun && (isHypo(entity.n.1) &&

!isHypo(thing.n.9) && !isHypo(anticipation.n.4) || isHypo(social_group.n.1)))

livingNE neType=(human | organization | country | town |

province | other-loc

Trang 19

9

quality POStag=(adverb | gerund) || headPP = (with | without)

Non_temporal_abstract_object abstract_object && !temporal

abstract_object neType=money || isHypo(thing.n.9) ||

(!isHypo(social_group.n.1) && (isHypo(abstraction.n.6 | psychological_feature.n.1 | possession.n.2 | event.n.1 | state.n.4 | group.n.1 | act.n.2)))

temporal temporalNE || isHypo(time_period.n.1) ||

isHypo(time.n.5)

temporalNE neType=(date | time)

1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác

Quan hệ phương thức rất gần gũi với những quan hệ khác, đặc biệt là quan hệ công cụ (INSTRUMENT), quan hệ địa điểm (AT-LOCATION), và quan hệ thời gian (AT-TIME) Vì vậy, trong nhiều trường hợp, câu hỏi với “how” không xác định quan

hệ phương thức

Ví dụ: John broke the window with a hammer

(John đập vỡ cửa kính với một cái búa.)

Q: How did John break the window?

A: With the hammer

=> Cái búa không chỉ quan hệ phương thức, mà nó là công cụ gây ra sự kiện đập vỡ cửa kính

Ví dụ với các quan hệ địa điểm và quan hệ thời gian:

[The dog jumped]y [over the fence]x

(Con chó nhảy qua hàng rào.)

[John used to go]y [regularly]x

(John có thói quen chạy đều đặn.)

Một cách để giải quyết nhập nhằng là xét độ ưu tiên giữa các mối quan hệ ngữ nghĩa Tuy nhiên, tồn tại một khó khăn lớn là quan hệ phương thức có độ ưu tiên thấp hơn quan hệ địa điểm và quan hệ thời gian Vì vậy, trong rất nhiều trường hợp thì cách giải quyết này không đạt hiệu quả

Trang 20

10

Một cách giải quyết khác ở đây là sử dụng các định nghĩa mở rộng ở trên Ví dụ: cái búa không phải là một từ chỉ đặc tính, không phải là từ chỉ đối tượng trừu tượng không chứa thời gian, cũng không phải là từ chỉ trạng thái, mà nó là một đối tượng sờ thấy được Do đó, xét theo mục 1.3 thì các ký hiệu MNR(with a hammer,y), MNR(over the fence,y), MNR(every other week,y) không có ý nghĩa sử dụng và các câu đó cũng không phải là câu biểu diễn quan hệ phương thức

Một mối quan hệ khác cũng liên quan tới quan hệ phương thức là quan hệ nguyên nhân – kết quả (CAUSE-EFFECT) và độ ưu tiên cũng không giải quyết được nhập nhằng trong trường hợp này

Ví dụ: The legislation itself noted that it [was introduced]y [“by request”] x

(Tự pháp luật lưu ý rằng nó đã được xây dựng bởi yêu cầu.)

=> Cụm giới từ “by request” chỉ ra mối quan hệ nguyên nhân – kết quả (CAUSE-EFFECT), mà không phải là mối quan hệ phương thức bởi vì “request” chính là nguyên nhân ảnh hưởng tới sự xây dựng pháp luật Theo định nghĩa mở rộng trong mục 1.3, “request” là một sự kiện – nó ngụ ý một sự thay đổi nên MNR(by request,y) bị loại bỏ do vi phạm điều kiện về DOMAIN

Trang 21

Trong một số ít các nghiên cứu liên quan về trích chọn quan hệ phương thức

[2][3], các giải pháp nhằm giải quyết vấn đề này tập trung vào việc phát hiện các mẫu

từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức bao gồm chủ yếu là các cụm trạng từ và cụm giới từ Đồng thời, chương này cũng đề cập tới việc sử dụng các phương pháp học máy để trích chọn dựa vào các đặc trưng như: mơ hình học phân lớp Nạve Bayes, k-người láng giềng gần nhất, cây quyết định (decision tree), máy vector

hỗ trợ (SVM) Trong các phương pháp đĩ, SVM được xem như một phương pháp cĩ rất nhiều ưu điểm và nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tế SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel)

để tối thiểu hĩa rủi ro ước lượng Các thử nghiệm trên thực tế cho thấy, phương pháp SVM cĩ khả năng phân loại khá tốt đối với bài tốn phân lớp cũng như trong nhiều ứng dụng khác (trích chọn quan hệ tương tác protein/gen, khai phá quan điểm, nhận dạng hình ảnh, chữ viết tay,…)

2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức

Trang 22

12

Bảng 2 Các mẫu cú pháp biểu diễn quan hệ phương thức trong PropBank, số câu xuất hiện và ví dụ (Khảo sát với 7852/8037 câu chứa quan hệ phương thức trong PropBank) Trong tất cả các ví dụ về MNR(x,y), x đã được in đậm

3559 45.3% This story line might [resonate]y [more

strongly]ADVP if Mr.Lane has as strong as presence in front of the camera as he does behind it

(Câu chuyện có thể tạo tiếng vang hơn nếu như

ông Lane xuất hiện trước máy quay cũng mạnh

mẽ như ông ấy ngoài đời.)

PP (cụm

giới từ)

3499 44.6% NBC may yet find a way to [take]y a passive,

minority interest in a program-maker [without violating the rules]PP

(NBC vẫn có thể tìm ra một cách để tạo sự hững hờ, ít quan tâm tới những nhà sản xuất

chương trình mà không vi phạm luật.)

RB 286 3.6% Backe is [a [closely]RB [held]y] media firm]NP

run by former CBS Inc President Jon Backe

(Backe là một hãng truyền thông được tổ chức

chặt chẽ điều hành bởi người sáng lập cựu chủ

tịch tập đoàn CBS Jon Backe.)

S (mức

câu)

148 1.9% Salomon [posted]y an unexpectedly big gain in

quarterly earnings, [aided by its securities trading and investments banking activities]S

(Salomon đã công khai sự thành công ngoài

sức mong đợi trong doanh thu hàng quý, được

hỗ trợ bởi các hoạt động an ninh thương mại

và đầu tư ngân hàng.)

NP (cụm

danh từ)

120 1.5% He [graduated]y [Phi Beta Kappa]NP from the

University of Kentucky at age 18, after spending only 2 ½ years in college

(Anh ấy đã tốt nghiệp Phi Beta Kappa từ

trường đại học Kentucky ở tuổi 18 chỉ sau 2 ½ năm học.)

Trang 23

13

Mẫu khác 240 3.1% Tokyo stocks [closed]y [firmer]ADJP Monday,

with the Nikkei index making its fifth consecutive daily gain

(Thứ 2, Giá cổ phiếu Tokyo đã khép lại một cách mạnh mẽ hơn với chỉ số Nikkei tăng 5

ngày liên tiếp.)

Cụm trạng từ và cụm giới từ biểu diễn tới 90% số câu chứa quan hệ phương thức Vì vậy, họ chỉ tập trung vào 2 cụm này và với dữ liệu tiếng Việt, chúng tôi cũng

dự định chỉ trích chọn đặc trưng cho những cụm này

Tiếp theo, họ xét tới nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ, thu được kết quả sau:

Bảng 3 Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ Trong tất cả các ví dụ về MNR(x,y), x đã được in đậm

3306 ADVP The company [was [officially]ADVP [merged]y with

Bristol-Myers Co earlier this month]VP

(Công ty [được chính thức sát nhập với Công ty

3107 PP This is something P&G [would [do]

y [with or without Kao]PP]VP, says Mr Zurkuhlen

(Ông Zurkuhlen nói rằng một vài hoạt động P&Q

S (mức

câu)

215 ADVP [[Virtually word by word]ADVP, the notes

[matched]y questions and answers on the studies section of the test the student was taking.]S

social-([Hầu như tất cả từ, gợi ý nối câu hỏi và câu trả

lời trong phần xã hội học của bài kiểm tra sinh viên đã làm.] S )

Trang 24

14

339 PP [[Under the laws of the land]PP, the ANC

[remains]y an illegal organization, and its headquarters are still in Lusaka, Zambia.]S

([Nằm dưới sự quản lý của luật pháp địa phương, ANC vẫn tồn tại một tổ chức bất hợp

ADJP

(cụm tính

từ)

17 ADVP Two former ministers [were]y [[so heavily]ADVP

implicated]ADJP in the Koskotas affair that PASOK members of Parliament voted

đến vấn đề những thành viên POSOK của quốc hội được bầu cử ở Koskotas)

4 PP ABC touted “Call to Glory.” But the military

drama was [[missing]y [in action]PP]ADJP within weeks

(ABC đã giới thiệu “Call to Glory” Nhưng bộ phim truyền hình quân sự này đang bị [lãng quên

trong hành động] ADJP của tuần.)

PP (cụm

giới từ)

9 ADVP London share prices were [influenced]y

[[largely]ADVP by declines on Wall Street and weakness in the British pound]PP

(Giá cổ phiếu của Luân Đôn chịu phần lớn ảnh

hướng [bởi sự suy giảm ở Phố Wall và điểm yếu

9 PP In Japan, by contrast, companies tend to develop

their talent and [promote]y [from [within]PP]PP

(Trái lại, ở Nhật Bản, các công ty có xu hướng

phát triển tài năng của họ và thúc đy [từ bên trong] PP )

Như vậy, các nốt cha thuộc phân cấp trên của những cụm này chủ yếu là những cụm động từ VP hoặc mức câu S, chiếm tới 98%

Ngày đăng: 20/08/2014, 09:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4]. Roxana Girju. Semantic Relation Extraction and its Applications. Course Material. 20 th European Summer School in Logic, Language and Information (ESSLLI 2008), Freie und Hansestadt Hamburg, Germany, 4- 15 August 2008 Sách, tạp chí
Tiêu đề: Course Material. 20"th
[14]. W. N. Francis and H. Kucera (1964). A Standard Corpus of Present-Day Edited American English, for use with Digital Computers. Department of Linguistics, Brown University Providence, Rhode Island, USA.http://www.archive.org/details/BrownCorpus Sách, tạp chí
Tiêu đề: (1964)". A Standard Corpus of Present-Day Edited American English, for use with Digital Computers. "Department of Linguistics, Brown University Providence, Rhode Island, USA
Tác giả: W. N. Francis and H. Kucera
Năm: 1964
[15]. Nguyen Cam Tu. “JVnTextPro: A Java-based Vietnamese Text Processing Toolkit”. (2008) Sách, tạp chí
Tiêu đề: JVnTextPro: A Java-based Vietnamese Text Processing Toolkit”
[16]. Chih-Chung Chang and Chih-Jen Lin. LIBSVM – A library for Support Vector Machines. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Link
[1]. Chu Thị Thủy, Đào Minh Tùng, Hà Thị Oanh, Trần Phi Dũng (2011). Mô hình trích chọn quan hệ tương tác protein/gen dựa trên kỹ thuật bootstrapping và học máy SVM, Công trình SVNCKH, Trường ĐHCN năm 2011 Khác
[2]. Eduardo Blanco and Dan Moldovan. Automatic Discovery of Manner Relations and its Applications. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 315-324 Khác
[3]. Roxana Girju, Manju Putcha and Dan Moldovan. Discovery of Manner Relations and their Applicability to Question Answering. Proceedings of the ACL 2003 Workshop on Multilingual summarization and question answering – Volume 12 Khác
[5]. M. Hearst. Automated Discovery of WordNet Relations, An Electronic Lexical Database and Some of its Applications. MIT Press, Cambridge MA, 1998 Khác
[6]. Daniel Gildea and Daniel Jurafsky. Automatic Labeling of Semantic Roles, Journal Computational Linguistics, Volume 28 Issue 3, September 2002 Khác
[7]. Ana-Maria Giuglea and Alessandro Moschitti. Semantic Role Labeling via FrameNet, VerbNet and PropBank. Proceeding ACL-44 Proceeding of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics Khác
[8]. Eduardo Blanco, Hakki C. Cankaya and Dan Moldovan. Composition of Semantic Relations: Model and Applications. Coling 2010, Poster Volume, pages 72-80, Beijing, August 2010 Khác
[9]. Hermann Helbig. Knowledge Representation and the Semantics of Natural Language. Springer – Verlag New York, Inc. Secaucus, NJ, USA, 2005 Khác
[10]. Corinna Cortes, Vladimir Vapnik (1995). Support-Vector Networks, Machine Learning, 20(3): 273-297 Khác
[12]. John A. Hawkins. The relative order of prepositional phrases in English Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa  [4] - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa [4] (Trang 16)
Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa  [4] - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4] (Trang 17)
Bảng  1.  Phân  tích  các  lớp  ngữ  nghĩa  được  sử  dụng  trong  định  nghĩa  DOMAIN(MNR) và RANGE(MNR) - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
ng 1. Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa DOMAIN(MNR) và RANGE(MNR) (Trang 18)
Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm  trạng từ và cụm giới từ - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ (Trang 23)
Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính (Trang 26)
Hình 4. Phương pháp lề mềm - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 4. Phương pháp lề mềm (Trang 28)
Bảng 4. Các đặc trưng của cụm trạng từ  STT  Đặc trưng  Giá trị  Giải thích - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 4. Các đặc trưng của cụm trạng từ STT Đặc trưng Giá trị Giải thích (Trang 29)
Bảng 5. Các đặc trưng của cụm giới từ  STT  Đặc trưng  Giá trị  Giải thích - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 5. Các đặc trưng của cụm giới từ STT Đặc trưng Giá trị Giải thích (Trang 30)
Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt (Trang 35)
Bảng 6. Một số nhãn từ loại trong JVnTextPro - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 6. Một số nhãn từ loại trong JVnTextPro (Trang 36)
Bảng 8. Một số phần mềm sử dụng  STT  Tên phần - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 8. Một số phần mềm sử dụng STT Tên phần (Trang 38)
Bảng 7. Cấu hình phần cứng sử dụng trong thực nghiệm - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 7. Cấu hình phần cứng sử dụng trong thực nghiệm (Trang 38)
Bảng 9. Đặc trưng cụm trạng từ - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 9. Đặc trưng cụm trạng từ (Trang 39)
Bảng 10. Đặc trưng cụm giới từ  STT  Miêu tả đặc trưng - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 10. Đặc trưng cụm giới từ STT Miêu tả đặc trưng (Trang 40)
Bảng 11. Kết quả đạt được với 92 câu dữ liệu - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 11. Kết quả đạt được với 92 câu dữ liệu (Trang 41)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w