Vì thế, bài toán trích chọn mối quan hệ ngữ nghĩa được đặt ra và đã nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên thế giới trong những năm gần đây như: Colli
Trang 1VÀ THỬ NGHIỆM ĐÁNH GIÁ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Hà Nội - 2011
Trang 2VÀ THỬ NGHIỆM ĐÁNH GIÁ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ
Cán bộ đồng hướng dẫn: ThS Nguyễn Thu Trang
Hà Nội - 2011
Trang 3i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Thu Trang, người đã tận tình chỉ bảo
và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học
tập, nghiên cứu tại trường Đại Học Công Nghệ và sự hỗ trợ từ đề tài QG.10.38
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm
“Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn!
Sinh viên Chu Thị Thủy
Trang 4ii
Tóm tắt
Trích chọn các mối quan hệ ngữ nghĩa từ văn bản ngày càng trở nên quan trọng đối với các ứng dụng như hệ thống hỏi đáp, trích chọn thông tin, tóm tắt văn bản và hiểu văn bản Khóa luận này đề xuất một phương pháp để tự động trích chọn quan hệ phương thức từ văn bản dựa trên học máy SVM Đưa ra một tập các ký hiệu liên quan tới quan hệ phương thức, bao gồm DOMAIN và RANGE Phân tích sự gắn kết của quan hệ phương thức với những quan hệ khác Đồng thời, chúng tôi cũng trình bày các mẫu từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức Một tập các đặc trưng riêng được trích chọn làm tăng độ chính xác và tính khả thi của mô hình
Thực nghiệm bước đầu trên tập dữ liệu tiếng Việt gồm khoảng 300 câu chứa/không chứa quan hệ phương thức cho thấy phương pháp đề xuất đạt được một kết quả nhất định: độ đo F trong khoảng 60 - 70% Dựa vào đó, chúng tôi nhận thấy phương pháp trích chọn quan hệ phương thức đã đề xuất và triển khai là khả quan
Trang 5iii
Lời cam đoan
Tôi cam đoan trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá được trình bày trong khóa luận này
do tôi thực hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy và ThS Nguyễn Thu Trang
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo
Trang 6iv
Mục lục
Tóm tắt ii
Lời cam đoan iii
Mục lục iv
Danh sách các bảng vi
Danh sách các hình vẽ vii
Danh sách các hình vẽ vii
Danh sách các chữ viết tắt viii
Danh sách các chữ viết tắt viii
Mở đầu 1
CHƯƠNG 1 GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 4
1.1 Khái niệm Quan hệ phương thức 4
1.2 Bài toán Trích chọn quan hệ phương thức 5
1.3 Một số ký hiệu 7
1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác 9
CHƯƠNG 2 PHƯƠNG PHÁP TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 11 2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức 11
2.1.1 Các mẫu từ vựng – cú pháp cơ bản 11
2.1.2 Nhập nhằng trong các mẫu từ vựng – cú pháp 15
2.2 Hướng tiếp cận giải quyết vấn đề 15
2.2.1 Mô hình phân lớp SVM nhị phân 15
2.2.2 Trích chọn đặc trưng 19
2.2.3 Quan hệ phương thức trong tiếng Việt 22
CHƯƠNG 3 MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT 24
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 28
4.1 Mô tả thực nghiệm 28
4.1.1 Môi trường thực nghiệm 28
4.1.2 Chun bị dữ liệu 29
Trang 7v
4.1.3 Quá trình thực nghiệm 29
4.2 Kết quả thực nghiệm và Đánh giá 30
4.2.1 Kết quả thực nghiệm 30
4.2.2 Phân tích lỗi 32
4.2.3 Kết hợp với trích chọn các quan hệ khác 32
Kết luận 34
Phụ lục: Ví dụ 25 câu thuộc tập dữ liệu huấn luyện 35
Tài liệu tham khảo 37
Trang 8vi
Danh sách các bảng
Bảng 1 Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa
domain(mnr) và range(mnr) 8
Bảng 2 Các mẫu cú pháp biểu diễn quan hệ phương thức trong propbank, số câu xuất hiện và ví dụ (khảo sát với 7852/8037 câu chứa quan hệ phương thức trong propbank) Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm 12
Bảng 3 Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm 13 Bảng 4 Các đặc trưng của cụm trạng từ 19
Bảng 5 Các đặc trưng của cụm giới từ 20
Bảng 6 Một số nhãn từ loại trong jvntextpro 26
Bảng 7 Cấu hình phần cứng sử dụng trong thực nghiệm 28
Bảng 8 Một số phần mềm sử dụng 28
Bảng 9 Đặc trưng cụm trạng từ/cụm giới từ 29
Trang 9vii
Danh sách các hình vẽ
Hình 1 Quá trình trích chọn các mối quan hệ ngữ nghĩa [4] 6
Hình 2 Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4] 7
Hình 3 Mô hình máy vector hỗ trợ khả tách tuyến tính 16
Hình 4 Phương pháp lề mềm 18
Hình 5 Mô hình trích chọn quan hệ phương thức từ văn bản tiếng việt 25
Trang 10viii
Danh sách các chữ viết tắt
Trang 111
Mở đầu
Các khái niệm có chứa trong một tập câu hay tập tài liệu luôn có liên hệ với nhau thông qua các mối quan hệ ngữ nghĩa Các mối quan hệ này thường được Nn giấu trong các câu, việc tìm ra các mối quan hệ ngữ nghĩa là rất cần thiết, nhằm phục vụ cho quá trình xử lý ngôn ngữ Vì thế, bài toán trích chọn mối quan hệ ngữ nghĩa được đặt ra và đã nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên thế giới trong những năm gần đây như: Colling, ACL, Senseval… Đồng thời, cũng là một phần trong các dự án quan trọng mang tầm cỡ quốc tế trong lĩnh vực khai phá tri thức như: ACE (Automatic Content Extraction)1, DAPRA EELD (Evidence Extraction and Link Discovery)2, ARDA-AQUAINT (Question Answering for Intelligence), ARDA NIMD (Novel Intelligence from Massive Data), Global WordNet3[4]
Một trong những quan hệ ngữ nghĩa có nhiều ứng dụng là quan hệ phương thức
Ví dụ, “phân phát nhanh” biểu diễn mối quan hệ phương thức, với “nhanh” là
phương thức của hành động “phân phát” đã xảy ra Bài toán trích chọn quan hệ
phương thức đòi hỏi phải tìm ra một cặp các thành phần phương thức và hành động
tương ứng Ví dụ, MNR (nhanh, phân phát) Khái niệm quan hệ phương thức xuất
hiện từ thời rất cổ (thời Aristotle) và được học bởi rất nhiều triết gia, nhà logic học, nhà tâm lý học và các nhà ngôn ngữ học, nhưng không nhiều nghiên cứu để tự động trích chọn quan hệ phương thức trong các văn bản Theo [5], Hearst đã phát triển một
phương pháp tự động để trích chọn các quan hệ tổng quát – cụ thể (IS-A) bằng việc xác định một tập các đặc trưng thường xuyên được sử dụng và các mẫu từ vựng – cú pháp rõ ràng Sau đó, đã cố gắng ứng dụng phương pháp này với các mối quan hệ ngữ nghĩa khác, như toàn thể – bộ phận (PART-WHOLE), nhưng không đạt được nhiều thành công do các mẫu được phát hiện còn nhiều nhập nhằng Gần đây, những hướng nghiên cứu để trích chọn các mối quan hệ ngữ nghĩa vẫn tiếp tục tập trung vào các mẫu từ vựng – cú pháp riêng để biểu diễn từng quan hệ trên cả hai hướng tiếp cận là không giám sát và giám sát Một số các nghiên cứu đã được tiến hành trước đó trên những quan hệ riêng biệt [2] như CAUSE-EFFECT (Chang và Choi, 2006), INTENT
Trang 122
Xét các nghiên cứu về quan hệ phương thức: Girju và cộng sự (2003) [3] sử dụng mơ hình phân lớp Nạve Bayes và đưa ra một tập các đặc trưng để trích chọn quan hệ phương thức nhưng chưa xét tới những cụm giới từ, hệ thống cho độ chính
xác 0.644, độ hồi tưởng 0.687 và độ đo F là 0.665 Eduardo Blanco và Dan Moldovan
chính xác tới 0.759, độ hồi tưởng 0.626 và độ đo F là 0.686 Nghiên cứu của Gildea và
Jurasky (2002) [6], Giuglea và Moschitti (2006) [7] tập trung vào bài tốn Semantic Role Labeling – yêu cầu gán nhãn ngữ nghĩa (semantic role) cho các thành phần cú pháp trong câu Một semantic role là một mối quan hệ giữa các thành phần cú pháp trong câu và một thuộc tính ngữ nghĩa nào đĩ, và họ xem xét quan hệ phương thức như một semantic role Hệ thống của họ đạt độ đo F là từ 0.527 tới 0.592
Mục tiêu của khố luận này là nghiên cứu và thử nghiệm mơ hình phân lớp SVM để trích chọn quan hệ phương thức Chúng tơi lựa chọn SVM bởi phương pháp này được đánh giá là phương pháp cĩ nhiều ưu điểm như: cĩ khả năng phân lớp với tập dữ liệu cĩ kích thước nhỏ mà vẫn đưa ra được mơ hình phân lớp tốt; giải quyết vấn
đề phân lớp với các tập dữ liệu chứa nhiễu (dữ liệu bị sai) tốt Đồng thời, SVM cĩ khả năng phân lớp dự đốn với sai số ước lượng rất thấp
Nội dung của khố luận được chia thành các chương như sau:
Chương 1: Giới thiệu bài tốn trích chọn quan hệ phương thức Chương
này trình bày khái quát về quan hệ phương thức và bài tốn trích chọn quan hệ phương thức Ngồi ra, cũng đề cập tới một số các ký hiệu xuất hiện trong khái niệm về quan
hệ phương thức như DOMAIN, RANGE; và sự gắn kết của quan hệ phương thức với những quan hệ khác như quan hệ địa điểm (AT-LOCATION), quan hệ thời gian (AT-TIME)
Chương 2: Phương pháp trích chọn quan hệ phương thức Đây là chương
trình bày tất cả các mẫu từ vựng – cú pháp cơ bản nhất để biểu diễn quan hệ phương thức Đồng thời, cũng phân tích sự nhập nhằng trong các mẫu này và một số phương pháp để tránh sự nhập nhằng đĩ Trong chương 2 này, cũng tập trung trình bày mơ hình phân lớp SVM và giới thiệu một tập các đặc trưng để trích chọn quan hệ phương thức
Chương 3: Mơ hình giải quyết bài tốn Từ lý thuyết chương 2, chương 3 này
đưa ra mơ hình đề xuất để giải quyết bài tốn trích chọn quan hệ phương thức và các bước tiến hành trích chọn, tập các đầu vào và đầu ra của hệ thống
Trang 133
Chương 4: Thực nghiệm và đánh giá Mô tả thực nghiệm từ quá trình chuNn
bị dữ liệu tới quá trình thực nghiệm Từ đó, thống kê độ chính xác, độ hồi tưởng của
hệ thống và rút ra các đánh giá tổng quan trong quá trình trích chọn quan hệ phương thức
Phần kết luận và hướng phát triển khoá luận: Tóm lược những điểm chính
của khoá luận Chỉ ra những điểm cần khắc phục, đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới
Trang 14tự nhiên là quan hệ tổng quát – cụ thể (IS-A), quan hệ tổng thể – bộ phận PART), quan hệ phương thức (MANNER), quan hệ nguyên nhân – kết quả (CAUSE-EFFECT)…
(WHOLE-1.1 Khái niệm Quan hệ phương thức
Nói một cách chung nhất, quan hệ phương thức biểu diễn cách thức, nét đặc trưng, phương pháp thực hiện hoặc kiểu cách của một sự vật nào đó đã xảy ra [2]
Theo WordNet4, quan hệ phương thức được định nghĩa như phương pháp thực hiện của hành động hoặc hành vi
Theo PropBank annotation guidelines5, quan hệ phương thức là quan hệ được dùng để chỉ cách thức thực hiện một hành động và được xác định bằng trạng từ/cụm trạng từ/cụm giới từ Quan hệ phương thức nên được trích chọn khi cụm trạng từ hoặc cụm giới từ là câu trả lời cho câu hỏi bắt đầu với “how”
Ví dụ: We want to work together to build our new economy, creating jobs by investing in technology so America can continue to lead the world in growth and opportunity
(from the Democratic response to the President Bush’ 2003 State of the Union Address)
(Chúng tôi muốn làm việc với nhau để xây dựng lên ngành kinh tế mới, tạo nhiều công việc bằng việc đầu tư vào công nghệ, vì vậy Mỹ có thể tiếp tục dẫn đầu thế giới về sự lớn mạnh và cơ hội.)
Trang 155
=> Câu trên chứa các quan hệ phương thức: (1) “together” là trạng từ chỉ phương thức ảnh hưởng tới động từ “work”, (2) “by investing in technology” là cụm giới từ chỉ phương thức ảnh hưởng tới động từ “create”, (3) “in growth and opportunity” là cụm giới từ chỉ phương thức ảnh hưởng tới động từ “lead”
Một ứng dụng trong việc trích chọn quan hệ phương thức là hệ thống hỏi đáp, xác định các mối quan hệ ngữ nghĩa và tính toán câu trả lời cho câu hỏi bắt đầu với
“how”
Ví dụ: Q: How do Democrats want to work?
A: work together (with Republicans)
Q: How do Democrats want to create jobs?
A: by investing in technology
Q: How do Democrats want America to lead the world?
A: in growth and opportunity
Quan hệ phương thức xuất hiện thường xuyên trong văn bản và 2 ngân hàng dữ liệu phổ biến chứa quan hệ phương thức là FrameNet http://framenet.icsi.berkeley.edu/
và PropBank http://verbs.colorado.edu/~mpalmer/projects/ace.html Theo thống kê, PropBank chứa 8037 câu chứa quan hệ phương thức (10.7%) trên tổng số 74980 câu chứa các thành phần giống như bổ ngữ (adjunct-like arguments)
Có rất nhiều mẫu từ vựng – cú pháp để biểu diễn một quan hệ phương thức, nhưng chủ yếu là các cụm trạng từ và cụm giới từ
Ví dụ: The company said Mr Stronach will personally direct the restructuring assisted by Manfred Gingl
(Công ty nói rằng ông Stronach sẽ một mình trực tiếp quản lý việc cơ cấu lại được sự giúp đỡ của Manfred Gingl.)
Độ khó trong việc trích chọn tăng lên khi cùng một mẫu từ vựng – cú pháp biểu diễn nhiều quan hệ khác nhau trong các ngữ cảnh khác nhau Một cách có thể để kiểm tra một mẫu biểu diễn quan hệ phương thức hay không là tìm câu trả lời đúng cho câu
hỏi “In what manner/how <to_verb> ?” Ví dụ, “He run quickly” và câu hỏi là “How
to run?” Phân biệt với câu trả lời cho các câu hỏi “Where <verb> ?” hoặc “When
<verb> ?” Ví dụ, “He runs on the field”, “He runs quite often”
1.2 Bài toán Trích chọn quan hệ phương thức
Roxana Girju đã phát biểu bài toán trích chọn các mối quan hệ ngữ nghĩa [4]
như sau: Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu không có
Trang 166
cấu trúc như các trang web, các tài liệu, tin tức,…ta cần phải xác định được các mối quan hệ ngữ nghĩa giữa chúng
Sau đây là hình vẽ mô tả quá trình trích chọn các mối quan hệ ngữ nghĩa:
Hình 1 Quá trình trích chọn các mối quan hệ ngữ nghĩa [4]
Phân tích ngữ nghĩa là quá trình đưa một câu ở dạng ngôn ngữ tự nhiên về dạng ngôn ngữ hình thức biểu diễn ý nghĩa của nó, hỗ trợ cho quá trình lập luận tự động
Ví dụ: Colleagues today recall with some humor how meetings would crawl into the early morning hours as Mr Dinkins would quietly march his staff out of board meetings and into his private office to discuss, en masse, certain controversial proposals the way he knows best
(Hôm nay, với sự hóm hỉnh, những cộng sự nhớ lại các buổi họp được tổ chức như thế nào vào sáng sớm khi ông Dinkins lặng lẽ đưa nhân viên của ông rời bàn họp và
đi vào văn phòng riêng của ông để thảo luận toàn thể, nhất định những ý kiến gây tranh cãi sẽ theo hướng mà ông ấy cho là tốt nhất.)
=> Quan hệ phương thức được trích chọn như sau:
MANNER (with some humor, recall) MANNER (how, crawl)
MANNER (quietly, march) MANNER (en masse, discuss) MANNER (the way he knows, discuss) MANNER (best, knows)
Sau đây là kiến trúc cơ bản của bộ phân tích ngữ nghĩa:
Bộ phân tích ngữ nghĩa
-
Tri thức có cấu trúc
Trang 177
Hình 2 Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4]
Quá trình phân tích ngữ nghĩa bao gồm các bước:
1. Tiền xử lý văn bản: phân tích từ tố, gán nhãn từ loại, cây cú pháp, phân biệt nhập nhằng giữa các từ đồng nghĩa, nhận diện tên thực thể…
2. Lựa chọn đặc trưng: quyết định một tập các đặc trưng ràng buộc của danh từ và ngữ cảnh dùng để phân lớp các mối quan hệ ngữ nghĩa khác nhau
3. Bộ phân lớp: phân lớp các câu đầu vào vào những lớp quan hệ ngữ nghĩa tương ứng Gần đây, phương pháp thường được sử dụng là mô hình học máy
1.3 Một số ký hiệu
Gọi x là quan hệ phương thức (trạng từ/cụm trạng từ/cụm giới từ); gọi y là hành
động xảy ra Trong các nghiên cứu về quan hệ ngữ nghĩa [2][8][9], người ta thường dùng một số ký hiệu sau đây:
- MNR(x,y): để chỉ một quan hệ phương thức trong đó hành động y xảy ra bằng
phương thức x
- RANGE(MNR): để chỉ thành phần thứ hai của quan hệ MNR(tức là y) là các
từ chỉ tình huống (situations), được định nghĩa là bất cứ cái gì xảy ra ở một thời gian
và địa điểm nào đó khi sử dụng phương thức x Các tình huống này bao gồm sự kiện
và trạng thái được điễn tả bởi các danh từ (chẳng hạn như “conference” - hội nghị,
“race” - cuộc đua), hoặc động từ (chẳng hạn như “mix” - pha trộn, “grow” - trưởng
thay đổi các khái niệm Ví dụ, các cụm từ cụm từ chỉ sự kiện là “walking to the park”
(chạy bộ tới công viên), “pinching him” (làm cậu ấy đau); còn các cụm từ chỉ trạng thái là “standing there” (đứng ở đó), “holding hands” (nắm tay nhau)
Tiền xử lý
Lựa chọn đặc trưng
Trang 188
- DOMAIN(MNR): để chỉ thành phần thứ nhất của quan hệ MRN (tức là x) là
các từ chỉ đặc tính (qualities) – thường chính là các cụm trạng từ, các đối tượng trừu
tượng không chứa thời gian (non temporal abstract objects) – thường là các danh từ
chứa trong cụm giới từ, và các trạng thái (states) Các đặc tính biểu diễn các đặc trưng
được gắn liền với các khái niệm khác, như “slowly” (chậm chạp), “abruptly” (đột
ngột) Các đối tượng trừu tượng không chứa thời gian biểu diễn những thực thể vô
hình không thể nhìn thấy, sờ thấy được, như “odor” (mùi thơm), “disease” (bệnh tật),
“mile” (dặm Anh) và không phải là “book” (quyển sách) hoặc “car” (xe ôtô) bởi vì
những thực thể này có thể sờ thấy được Bằng cách này hay cách khác, thì những đối tượng đó là sản phNm từ lập luận của con người và không thể định nghĩa một cách rõ
ràng Chúng không biểu diễn thời gian (thời kỳ hoặc thời điểm) như “week” (tuần),
“yesterday” (ngày hôm qua)
Sau đây là bảng biểu diễn luật phân tích các lớp ngữ nghĩa (tình huống, đặc tính, đối tượng trừu tượng không chứa thời gian, trạng thái) được sử dụng trong định
nghĩa DOMAIN và RANGE, ký hiệu –NE chỉ loại tên thực thể, ký hiệu isHypo(x) của
từ w chỉ ra w có quan hệ tổng quát – cụ thể (IS-A) với x trong WordNet 2.0:
Bảng 1 Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa DOMAIN(MNR) và RANGE(MNR)
situation state || event
state POStag=verb || isHypo(state.n.4)
event POStag=verb && in(verb_events)) || (POStag=noun
&& !animate_object && (isHypo(phenomenon.n.1) || isHypo(event.n.1) || in(noun_events))
animate_object livingNE || (POStag=noun && (isHypo(entity.n.1) &&
!isHypo(thing.n.9) && !isHypo(anticipation.n.4) || isHypo(social_group.n.1)))
livingNE neType=(human | organization | country | town |
province | other-loc
Trang 199
quality POStag=(adverb | gerund) || headPP = (with | without)
Non_temporal_abstract_object abstract_object && !temporal
abstract_object neType=money || isHypo(thing.n.9) ||
(!isHypo(social_group.n.1) && (isHypo(abstraction.n.6 | psychological_feature.n.1 | possession.n.2 | event.n.1 | state.n.4 | group.n.1 | act.n.2)))
temporal temporalNE || isHypo(time_period.n.1) ||
isHypo(time.n.5)
temporalNE neType=(date | time)
1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác
Quan hệ phương thức rất gần gũi với những quan hệ khác, đặc biệt là quan hệ công cụ (INSTRUMENT), quan hệ địa điểm (AT-LOCATION), và quan hệ thời gian (AT-TIME) Vì vậy, trong nhiều trường hợp, câu hỏi với “how” không xác định quan
hệ phương thức
Ví dụ: John broke the window with a hammer
(John đập vỡ cửa kính với một cái búa.)
Q: How did John break the window?
A: With the hammer
=> Cái búa không chỉ quan hệ phương thức, mà nó là công cụ gây ra sự kiện đập vỡ cửa kính
Ví dụ với các quan hệ địa điểm và quan hệ thời gian:
[The dog jumped]y [over the fence]x
(Con chó nhảy qua hàng rào.)
[John used to go]y [regularly]x
(John có thói quen chạy đều đặn.)
Một cách để giải quyết nhập nhằng là xét độ ưu tiên giữa các mối quan hệ ngữ nghĩa Tuy nhiên, tồn tại một khó khăn lớn là quan hệ phương thức có độ ưu tiên thấp hơn quan hệ địa điểm và quan hệ thời gian Vì vậy, trong rất nhiều trường hợp thì cách giải quyết này không đạt hiệu quả
Trang 2010
Một cách giải quyết khác ở đây là sử dụng các định nghĩa mở rộng ở trên Ví dụ: cái búa không phải là một từ chỉ đặc tính, không phải là từ chỉ đối tượng trừu tượng không chứa thời gian, cũng không phải là từ chỉ trạng thái, mà nó là một đối tượng sờ thấy được Do đó, xét theo mục 1.3 thì các ký hiệu MNR(with a hammer,y), MNR(over the fence,y), MNR(every other week,y) không có ý nghĩa sử dụng và các câu đó cũng không phải là câu biểu diễn quan hệ phương thức
Một mối quan hệ khác cũng liên quan tới quan hệ phương thức là quan hệ nguyên nhân – kết quả (CAUSE-EFFECT) và độ ưu tiên cũng không giải quyết được nhập nhằng trong trường hợp này
Ví dụ: The legislation itself noted that it [was introduced]y [“by request”] x
(Tự pháp luật lưu ý rằng nó đã được xây dựng bởi yêu cầu.)
=> Cụm giới từ “by request” chỉ ra mối quan hệ nguyên nhân – kết quả (CAUSE-EFFECT), mà không phải là mối quan hệ phương thức bởi vì “request” chính là nguyên nhân ảnh hưởng tới sự xây dựng pháp luật Theo định nghĩa mở rộng trong mục 1.3, “request” là một sự kiện – nó ngụ ý một sự thay đổi nên MNR(by request,y) bị loại bỏ do vi phạm điều kiện về DOMAIN
Trang 21Trong một số ít các nghiên cứu liên quan về trích chọn quan hệ phương thức
[2][3], các giải pháp nhằm giải quyết vấn đề này tập trung vào việc phát hiện các mẫu
từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức bao gồm chủ yếu là các cụm trạng từ và cụm giới từ Đồng thời, chương này cũng đề cập tới việc sử dụng các phương pháp học máy để trích chọn dựa vào các đặc trưng như: mơ hình học phân lớp Nạve Bayes, k-người láng giềng gần nhất, cây quyết định (decision tree), máy vector
hỗ trợ (SVM) Trong các phương pháp đĩ, SVM được xem như một phương pháp cĩ rất nhiều ưu điểm và nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tế SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel)
để tối thiểu hĩa rủi ro ước lượng Các thử nghiệm trên thực tế cho thấy, phương pháp SVM cĩ khả năng phân loại khá tốt đối với bài tốn phân lớp cũng như trong nhiều ứng dụng khác (trích chọn quan hệ tương tác protein/gen, khai phá quan điểm, nhận dạng hình ảnh, chữ viết tay,…)
2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức
Trang 2212
Bảng 2 Các mẫu cú pháp biểu diễn quan hệ phương thức trong PropBank, số câu xuất hiện và ví dụ (Khảo sát với 7852/8037 câu chứa quan hệ phương thức trong PropBank) Trong tất cả các ví dụ về MNR(x,y), x đã được in đậm
3559 45.3% This story line might [resonate]y [more
strongly]ADVP if Mr.Lane has as strong as presence in front of the camera as he does behind it
(Câu chuyện có thể tạo tiếng vang hơn nếu như
ông Lane xuất hiện trước máy quay cũng mạnh
mẽ như ông ấy ngoài đời.)
PP (cụm
giới từ)
3499 44.6% NBC may yet find a way to [take]y a passive,
minority interest in a program-maker [without violating the rules]PP
(NBC vẫn có thể tìm ra một cách để tạo sự hững hờ, ít quan tâm tới những nhà sản xuất
chương trình mà không vi phạm luật.)
RB 286 3.6% Backe is [a [closely]RB [held]y] media firm]NP
run by former CBS Inc President Jon Backe
(Backe là một hãng truyền thông được tổ chức
chặt chẽ điều hành bởi người sáng lập cựu chủ
tịch tập đoàn CBS Jon Backe.)
S (mức
câu)
148 1.9% Salomon [posted]y an unexpectedly big gain in
quarterly earnings, [aided by its securities trading and investments banking activities]S
(Salomon đã công khai sự thành công ngoài
sức mong đợi trong doanh thu hàng quý, được
hỗ trợ bởi các hoạt động an ninh thương mại
và đầu tư ngân hàng.)
NP (cụm
danh từ)
120 1.5% He [graduated]y [Phi Beta Kappa]NP from the
University of Kentucky at age 18, after spending only 2 ½ years in college
(Anh ấy đã tốt nghiệp Phi Beta Kappa từ
trường đại học Kentucky ở tuổi 18 chỉ sau 2 ½ năm học.)
Trang 2313
Mẫu khác 240 3.1% Tokyo stocks [closed]y [firmer]ADJP Monday,
with the Nikkei index making its fifth consecutive daily gain
(Thứ 2, Giá cổ phiếu Tokyo đã khép lại một cách mạnh mẽ hơn với chỉ số Nikkei tăng 5
ngày liên tiếp.)
Cụm trạng từ và cụm giới từ biểu diễn tới 90% số câu chứa quan hệ phương thức Vì vậy, họ chỉ tập trung vào 2 cụm này và với dữ liệu tiếng Việt, chúng tôi cũng
dự định chỉ trích chọn đặc trưng cho những cụm này
Tiếp theo, họ xét tới nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ, thu được kết quả sau:
Bảng 3 Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ Trong tất cả các ví dụ về MNR(x,y), x đã được in đậm
3306 ADVP The company [was [officially]ADVP [merged]y with
Bristol-Myers Co earlier this month]VP
(Công ty [được chính thức sát nhập với Công ty
3107 PP This is something P&G [would [do]
y [with or without Kao]PP]VP, says Mr Zurkuhlen
(Ông Zurkuhlen nói rằng một vài hoạt động P&Q
S (mức
câu)
215 ADVP [[Virtually word by word]ADVP, the notes
[matched]y questions and answers on the studies section of the test the student was taking.]S
social-([Hầu như tất cả từ, gợi ý nối câu hỏi và câu trả
lời trong phần xã hội học của bài kiểm tra sinh viên đã làm.] S )
Trang 2414
339 PP [[Under the laws of the land]PP, the ANC
[remains]y an illegal organization, and its headquarters are still in Lusaka, Zambia.]S
([Nằm dưới sự quản lý của luật pháp địa phương, ANC vẫn tồn tại một tổ chức bất hợp
ADJP
(cụm tính
từ)
17 ADVP Two former ministers [were]y [[so heavily]ADVP
implicated]ADJP in the Koskotas affair that PASOK members of Parliament voted
đến vấn đề những thành viên POSOK của quốc hội được bầu cử ở Koskotas)
4 PP ABC touted “Call to Glory.” But the military
drama was [[missing]y [in action]PP]ADJP within weeks
(ABC đã giới thiệu “Call to Glory” Nhưng bộ phim truyền hình quân sự này đang bị [lãng quên
trong hành động] ADJP của tuần.)
PP (cụm
giới từ)
9 ADVP London share prices were [influenced]y
[[largely]ADVP by declines on Wall Street and weakness in the British pound]PP
(Giá cổ phiếu của Luân Đôn chịu phần lớn ảnh
hướng [bởi sự suy giảm ở Phố Wall và điểm yếu
9 PP In Japan, by contrast, companies tend to develop
their talent and [promote]y [from [within]PP]PP
(Trái lại, ở Nhật Bản, các công ty có xu hướng
phát triển tài năng của họ và thúc đy [từ bên trong] PP )
Như vậy, các nốt cha thuộc phân cấp trên của những cụm này chủ yếu là những cụm động từ VP hoặc mức câu S, chiếm tới 98%