Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1,6 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phí Văn Thủy
TRÍCH CHỌNSỰKIỆNYSINHPHỨCHỢP
DỰA VÀOMÔHÌNHPHÂNTÍCHCÂYPHỤTHUỘC
TRONG VĂNBẢNVỀBỆNHUNGTHƯDITRUYỀN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phí Văn Thủy
TRÍCH CHỌNSỰKIỆNYSINHPHỨCHỢP
DỰA VÀOMÔHÌNHPHÂNTÍCHCÂYPHỤTHUỘC
TRONG VĂNBẢNVỀBỆNHUNGTHƯDITRUYỀN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Phan Xuân Hiếu
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Phi Van Thuy
A COMPLEX EVENT EXTRACTION METHOD
BASED ON DEPENDENCY PARSING
FOR CANCER GENETICS DATASET
Major: Information Technology
Supervisor: Dr. Xuan-Hieu Phan
Co-Supervisor: MSc. Mai-Vu Tran
HA NOI - 2013
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Tiến sĩ Phan Xuân Hiếu, và Thạc sĩ Trần Mai Vũ – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi xin gửi lời cảm ơn chân thành tới Phó Giáo sư Tiến sĩ Nigel H. Collier,
thuộc Viện Thông tin quốc gia Nhật Bản (NII), người đã tận tình hỗ trợ vềkiến thức
chuyên môn, giúp đỡ tôi hoàn thành khóa luận.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ
đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạnsinh viên trong phòng thí
nghiệm KT-Lab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 15 tháng 5 năm 2013
Sinh viên
Phí Văn Thủy
i
TRÍCH CHỌNSỰKIỆNYSINHPHỨCHỢP
DỰA VÀOMÔHÌNHPHÂNTÍCHCÂYPHỤTHUỘC
TRONG VĂNBẢNVỀBỆNHUNGTHƯDITRUYỀN
Phí Văn Thủy
Khóa QH-2009-I/CQ , ngành Công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp:
Thuật ngữ trích chn s kiệnysinh hc được sử dụng đ đề cập đến bài toán trích
chọn sựmô tả về các hoạt động và quan hệ giữa một hoc nhiều thực th t tài liệu ysinh học.
Việc tự động nhận dạng bất kì đối tượng của một lớp sựkiện riêng, tríchchọn các tham số
liên quan của chúng và biu diễn thông tin được tríchchọnvào một dạng có cấu trúc t các
công trình khoa học giúp cộng đồng nghiên cứu ysinh học nhanh chóng thu nhận được các
kết quả nghiên cứu mới nhất trong lĩnh vực liên quan mật thiết tới việc đảm bảo sức khe con
người.
Các kết quả mới nhất cho thấy hiệu năng khi tríchchọn các sựkiệnphứchợp (sự kiện
có th nhận tham số là thực th hoc sựkiện khác) chỉ đạt khoảng 40-50% F1 tại BioNLP
Shared Task 2011. Khóa luận này đề xuất một môhình học máy cho bài toán trích chn s
kiện ysinhphứchợp và áp dụng vào Cancer Genetics (CG) task – một bài toán tríchchọn
thông tin trong BioNLP Shared Task (ST) 2013. Mục đích của CG task là tríchchọn thông tin
tự động t các vănbảnvề quá trình sinh học, liên quan đến sự phát trin và tiến trin của bệnh
ung thư. Môhình của chúng tôi gồm ba thành phần chính: (1) nhận diện trigger; (2) tríchchọn
ứng viên sự kiện; (3) xếp hạng và đưa ra kết quả. Khi đánh giá trên tập dữ liệu phát trin được
cung cấp bi BioNLP-ST 2013, với khoảng 1000 câu lấy t PubMed, chúng tôi thu được kết
quả bước đầu khá khả quan: độ đo F1 khi tríchchọn các sựkiệnphứchợp đạt t 50% đến
70%. Môhình mới phùhợp với miền dữ liệu vềbệnhungthưditruyền và cho hiệu năng tốt
hơn môhình cơ s chúng tôi đưa ra.
Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task.
ii
A COMPLEX EVENT EXTRACTION METHOD
BASED ON DEPENDENCY PARSING
FOR CANCER GENETICS DATASET
Phi Van Thuy
Course: QH-2009-I/CQ , major: Information technology
Abstract:
The term biomedical event extraction is used to refer to the task of extracting
descriptions of actions and relations among one or more entities from the biomedical
literature. Generally, event extraction is to identify any instance of a particular class of events
in a biomedical text, to extract the relevant arguments of the event, and to represent the
extracted information into a structured form. This helps the community of biomedical
researchers to quickly get the latest research results in the fields closely related to ensuring
human health.
The final results enabled to observe the state-of-the-art performance of the community
on the bio-event extraction task, which showed that the automatic extraction of complex
events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared
Task 2011. In this thesis, we propose a machine learning model for complex event extraction
task and apply to Cancer Genetics (CG) task – the information extraction task in BioNLP-ST
2013. The CG task aims to advance the automatic extraction of information from statements
on the biological processes relating to the development and progression of cancer. Our model
consists of three modules: (1) trigger detection; (2) candidate event extraction; (3) ranking and
returning output. Our approach obtains competitive results in the extraction of complex events
from the BioNLP-ST Shared Task 2013 with a F1-score of 50-70% in development. The new
model fits the data domain of cancer genetics and perform better than the base model we
proposed.
Keywords: Event extraction, Dependency tree, Cancer Genetics Task.
iii
Lời cam đoan
Em xin cam đoan rằng đây là công trình nghiên cứu của mình, có sự giúp đỡ t
giáo viên hướng dẫn là Tiến sĩ Phan Xuân Hiếu và Thạc sĩ Trần Mai Vũ. Các nội dung
nghiên cứu và kết quả trong đề tài này là trung thực, không sao chép t bất cứ nguồn
nào có sẵn. Tất cả những tham khảo t các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng t danh mục tài liệu tham khảo trong khóa luận. Trong khóa
luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo.
Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm
trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình.
Sinh viên
Phí Văn Thủy
iv
Mục lục
Tóm tắt nội dung i
Lời cam đoan ii
Mục lục iv
Danh sách bảng vi
Danh sách hìnhvẽ vii
Bảng các ký hiệu viii
Mở đầu 1
Chương 1. Bài toán tríchchọnsựkiện liên quan đến bệnhungthưditruyền
trong vănbảnysinh học 3
1.1. Giới thiệu chung 3
1.2. Các khái niệm liên quan đến bài toán 5
1.3. Phát biu bài toán 7
1.4. Khó khăn và thách thức 8
1.5. Phương pháp đánh giá 9
1.5.1. Khớp nhau hoàn toàn 10
1.5.2. Khớp biên xấp xỉ 10
Chương 2. Các hướng tiếp cận giải quyết bài toán tríchchọnsựkiệntrong
văn bảnysinh học 11
2.1. Tríchchọnsựkiệndựavàophântíchphụthuộc cú pháp 11
2.2. Tríchchọnsựkiệndựavào hệ thống đường ống 12
2.3. Môhình học máy đã đề xuất cho bài toán tríchchọnsựkiện liên quan
đến bệnhungthưditruyền 14
2.3.1. Thành phần nhận diện trigger 15
2.3.2. Thành phầntríchchọnsựkiện đơn 16
2.3.3. Thành phầntríchchọnsựkiệnphức 17
Chương 3. Môhình giải quyết bài toán tríchchọnsựkiệnysinhphứchợp
dựa vàomôhìnhphântíchcâyphụthuộc 19
v
3.1. Cơ s lý thuyết 19
3.1.1. Chuyn đổi cấu trúc sựkiện sang dạng biu diễn câyphụthuộc 19
3.1.2. Giải thuật Earley paresr 21
3.2. Môhình đề xuất giải quyết bài toán 23
3.2.1. Thành phần nhận diện trigger 24
3.2.2. Thành phầntríchchọnứng viên sựkiện 25
3.2.3. Thành phần xếp hạng và đưa ra kết quả 26
Chương 4. Thực nghiệm và đánh giá 28
4.1. Môi trường và dữ liệu thực nghiệm 28
4.1.1. Môi trường thực nghiệm 28
4.1.2. Dữ liệu thực nghiệm 28
4.2. Giới thiệu phần mềm thực nghiệm 31
4.3. Thực nghiệm 32
4.3.1. Hướng tiếp cận thực nghiệm 32
4.3.2. Thực nghiệm nhận diện trigger 32
4.3.3. Thực nghiệm tríchchọnsựkiệnphứchợp 34
4.4. Nhận xét và thảo luận 36
Kết luận và định hướng 39
Tài liệu tham khảo 40
Tiếng Anh 40
vi
Danh sách bảng
Bảng 1: Các kiu thc th trong CG task 5
Bảng 2: Các kiu s kiệntrong CG task 6
Bảng 3: Kt quả vi tp kim th theo các lp s kiện 12
Bảng 4: Phân loại các kiu s kiệntrong CG task 17
Bảng 5: Kt quả vi trích chn các s kiệnphứchợp liên quan đn bệnhungthưdi
truyền 18
Bảng 6: Các loại đặc trưng trong thành phần nhn diện trigger 26
Bảng 7: Môi trường thc nghiệm 30
Bảng 8: Thng kê chung về d liệu thc nghiệm 33
Bảng 9: Thng kê các s kiệntrong tp d liệu 33
Bảng 10: Các loại đặc trưng trong nhn diện trigger 35
Bảng 11: Kt quả vi trích chn các s kiệnphứchợp liên quan đn bệnhungthưdi
truyền da vàomôhìnhphântíchcâyphụthuộc 36
Bảng 12: Một s kiu lỗi nhn diện thiu s kiện 36
Bảng 13: Thng kê các kiu thc th/s kiện là tham s cho s kiện Regulation 37
Bảng 14: Mẫu các s kiệnphứchợptrong CG task 38
Bảng 15: So sánh kt quả gia môhình cơ sở và môhình mi đề xuất (dạng bảng) 38
[...]... lượng đề tài nghiên cứu khoa học sinh viên 2012 – 2013 (“Một môhình học m ytrích chọn sự kiệnysinhtrongvănbảnvềbệnhungthưditruyền ), khóa luận chọn bài toán tríchchọnsựkiệnysinhphứchợptrongvănbảnvềbệnhungthưdi truyền, là nội dung tập trung nghiên cứu và x y dựng môhình giải quyết Tríchchọnsựkiệnphứchợp liên quan đến bốn kiểu sựkiệntrong CG Task: Regulation, Positive... vào mô hìnhphântích c yphụthuộc là cơ sở của việc giải quyết bài toán tríchchọnsựkiệnysinhphứchợp Nội dung chính của chương n y trình b y một số đặc trưng của vănbảnysinh học vềbệnhungthưdi truyền, bài toán tríchchọnsựkiệnysinhphứchợp và môhình đề xuất Chương 4: Thực nghiệm, kết quả và đánh giá Tiến hành thực nghiệm nhận di n trigger và tríchchọn các sựkiệnphứchợp dựa. .. https://sites.google.com/site/bionlpst/home/entity-relations 1 Dựa trên những hướng tiếp cận n y cùng với một môhình học m y đã đề xuất trong đề tài nghiên cứu khoa học sinh viên, chúng tôi đề xuất một mô hìnhphântích c yphụthuộc cho việc giải quyết bài toán tríchchọnsựkiệnysinhphứchợptrongvănbảnvềbệnhungthưditruyền Kết quả thực nghiệm bước đầu cho th ymôhình mới phùhợp với miền dữ liệu ysinh và cho hiệu năng tốt hơn mô hình. .. Hình 7: Môhình giải quyết bài toán Trích chọn sự kiện liên quan đến bệnhungthưditruyền .14 Hình 8a: Câu gốc với các sự kiện 20 Hình 8b: Sau khi chuyển đổi sang sự phụthuộc sự kiện .20 Hình 9: Môhình giải quyết bài toán Trích chọn sự kiệnysinhphứchợptrongvănbảnvềbệnhungthưditruyền 25 Hình 10: Minh họa dạng biểu di n hai c y. .. biến trong các hệ thống tríchchọnsựkiệnysinh học gần đ y Chúng tôi cũng phântích một số thuận lợi và khó khăn đối với hai hướng tiếp cận n y Cuối cùng chúng tôi giới thiệu một môhình học m y đã được đề xuất để giải quyết cho bài toán tríchchọnsựkiện liên quan đến bệnhungthưditruyền 2.1 Tríchchọnsựkiệndựavàophântíchphụthuộc cú pháp Trong công trình của David McClosky và cộng sự. .. liệu kiểm thử được cung cấp bởi BioNLP-ST 2013, hệ thống do chúng tôi x y dựng đã đạt kết quả đứng thứ 5 tại CG Task Chúng tôi cũng dùng môhình n y là môhình cơ sở cho bài toán tríchchọn các sựkiện phức hợp, và so sánh kết quả với môhình mới được đề xuất trong chương 3 18 Chương 3 Môhình giải quyết bài toán tríchchọnsựkiệnysinhphứchợpdựavào mô hìnhphântích c yphụthuộc Từ quá trình... cận dựavàophântíchphụthuộc cú pháp và hướng tiếp cận dựavào hệ thống đường ống Đ y là cơ sở lý thuyết, phương pháp luận quan trọng để khóa luận đưa ra môhìnhtríchchọn các sựkiện y sinhphứchợp ở chương 3 Chương 3: Trên cơ sở những hướng tiếp cận trình b y ở chương 2 và thông qua khảo sát miền dữ liệu vănbảnysinh học vềbệnhungthưdi truyền, khóa luận đã lựa chọn phương pháp dựa vào. ..Danh sách hìnhvẽHình 1: Trang chủ BioNLP-ST 2013 4 Hình 2: Ví dụ vềtrích chọn sự kiện liên quan đến bệnhungthưditruyền .5 Hình 3: Minh họa đầu vào và đầu ra của bài toán trích chọn sự kiện liên quan đến bệnhungthưditruyền .8 Hình 4: Cấu trúc sự kiệnysinh học 8 Hình 5: Môhình của hướng tiếp cận dựa vàophântíchphụthuộc cú pháp 11 Hình 6:... thủ công Môhình đề xuất giải quyết bài toán Trích chọn sự kiệnysinhphứchợptrongvănbảnvềbệnhungthưditruyền gồm 3 thành phần chính: Thành phần nhận di n trigger Thành phầntríchchọnứng viên sựkiện Thành phần xếp hạng và đưa ra kết quả 3.2.1 Thành phần nhận di n trigger Thành phần n y tương tự như trongmôhình chúng tôi đã đề xuất cho bài toán tríchchọn 40 kiểu sựkiệntrong CG... miền ysinh học vềbệnhungthưdi truyền, cũng như tìm hiểu một số hướng tiếp cận liên quan tới bài toán tríchchọnsựkiệnysinh nói chung trong chương trước Chúng tôi nhận th y việc chuyển đổi dạng biểu di n ban đầu của sựkiện (standoff format – được mô tả trong chương 4) sang c yphụthuộc (chứa các thực thể và trigger trong câu) cho kết quả khá tốt, đặc biệt với các kiểu sựkiệnphứchợp .
Sinh viên
Phí Văn Th y
i
TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP
DỰA VÀO MÔ HÌNH PHÂN TÍCH C Y PHỤ THUỘC
TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN.
Phí Văn Th y
TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP
DỰA VÀO MÔ HÌNH PHÂN TÍCH C Y PHỤ THUỘC
TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN
KHÓA