Thực nghiệm 4: ứng dụng mơ hình đề xuất đểnhận dạngthực thểy sinh trong cuộc thi BioCreAtIvE V CDR Task

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 96 - 98)

Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH

3.3.4. Thực nghiệm 4: ứng dụng mơ hình đề xuất đểnhận dạngthực thểy sinh trong cuộc thi BioCreAtIvE V CDR Task

Bên cạnh việc đánh giá trên hai tập dữ liệu Phenominer A và B, mơ hình đề xuất cũng đƣợc áp dụng trong việc nhận dạng thực thể bệnh (disease) và hóa chất (chemical)tạicuộc thi phát hiện mối quan hệhóa chất gây ra bệnh (chemical-induced disease) tại hội thảo BioCreAtIvE VCDR Task20. Tập dữ liệu tại cuộc thi này gồm 1500 bài báo y sinh học đƣợc lấy từ Pubmed, dữ liệu đƣợc chia thành 3 tập dữ liệu

20BioCreative VTrack 3- CDR http://www.biocreative.org/tasks/biocreative-v/track-3-cdr/

95

bằng nhau, mỗi tập 500 bài viết gồm: tập huấn luyện (Training set), tập phát triển (Development set) và tập kiểm thử (Testing set).

Trong q trình thi, tập kiểm thử khơng đƣợc cơng bố, các đội thi sử dụng tập huấn luyện và tập phát triển để xây dựng mơ hình học và tối ƣu tham số mơ hình. Mơ hình huấn luyện của các đội thi sẽ đƣợc đánh giá trên tập kiểm thử thông qua việc kết nối với hệ thống máy chủ của ban tổ chức tại thời điểm cuối của cuộc thi để đảm bảo tính cơng bằng giữa các đội. Các đội thi cần thực hiện hai nhiệm vụ chính là nhận dạng các thực thể bệnh, hóa chất và sử dụng các thực thể đã nhận dạng đƣợc để trích xuất các mối quan hệ giữa hóa chất gây ra bệnh. Mặc dù việc nhận dạng thực thể đƣợc thực hiện trên cả hai loại thực thể là bệnh và hóa chất tuy nhiên việc đánh giá ở mức nhận dạng thực thể chỉ đƣợc đánh giá trên thực thể bệnh.

Bảng 3.7. Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15]

Tập dữ liệu Số lƣợng bài báo Thực thể hóa chất Thực thể bệnh

Huấn luyện 500 5203 4182

Phát triển 500 5347 4244

Kiểm thử 500 5385 4424

Nghiên cứu sinh sử dụng mơ hình đƣợc đề xuất ở mục 3.2.3 để xây dựng mơ hình nhận dạng thực thể trên tập dữ liệu CDR. Mơ hình đƣợc xây dựng dựa trên việc học trên tập huấn luyện và tối ƣu tham số bằng tập phát triển. Kết quả của mơ hình đề xuất đƣợc so sánh với các kết quả do ban tổ chức BioCreAtIvE V CDR Task cung cấp [WPL15], bao gồm:

- Dictionary: Nhận dạng dựa trên đối sánh từ điển (Dictionary look-up) - DNorm: Công cụ nhận dạng thực thể bệnh DNorm21

- Average: Kết quả trung bình của các đội thi - Best: Kết quả của đội thi đạt kết quả cao nhất

21https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/dnorm/

96

Bảng 3.8. Kết quả mơ hình nhận dạng trên tập dữ liệu kiểm thử

Phƣơng pháp P R F Dictionary 42,71 67,46 52,30 DNorm 81,15 80,13 80,64 Average 78,99 74,81 76,03 Best 89,63 83,50 86,47 Mơ hình đề xuất 79,90 85,16 82,44

Kết quả của mơ hình nhận dạng thực thể đề xuất đứng thứ 10 trên 16 đội tham gia và đứng thứ 4 trên 16 đội đối với bài tốn trích xuất quan hệ hóa chất gây ra bệnh.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 96 - 98)