Xây dựng tự động ơ sở dữ liệu về ộng đồng nghiên ứu ông nghệ thông tin

Nhiệm vụ trích rút từ chỗ chỉ tập trung vào việc nhận dạng tên của thực thể nhƣ tên ngƣời, tên công ty và mối quan hệ giữa chúng trong văn bản ngôn ngữ tự nhiên, giờ đây đã gia tăng một

Trang 1

XÂY DỰNG TỰ ĐỘNG CƠ SỞ DỮ LIỆU VỀ

LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

NGƯỜI HƯỚNG DẪN KHOA HỌC :

TS Lê Thanh Hương

Hà Nội – 2011

Trang 3

i

MỤC LỤC

Lời cam đoan iv

Lời cảm ơn v

Danh mục các kí hiệu, các chữ viết tắt vi

Danh mục các hình vẽ vii

Danh mục các bảng ix

I MỞ ĐẦU 1

I.1 Lý do chọn đề tài 1

I.2 Lịch sử nghiên cứu 2

I.3 Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 3

I.4 Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả 3

I.5 Phương pháp nghiên cứu 3

II NỘI DUNG 5

CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN TRÍCH RÚT THÔNG TIN 5

1.1 Giới thiệu chung 5

1.1.1 Các ứng dụng 6

1.1.2 Phân loại bài toán trích rút thông tin 8

1.1.3 Các thách thức 13

1.2 Trích rút thực thể: các phương pháp dựa trên luật 15

1.2.1 Cách biểu diễn của luật 15

1.2.2 Tổ chức tập luật 19

Trang 4

ii

1.3 Trích rút thực thể: các phương pháp thống kê 20

1.3.1 Các mô hình mức token 21

1.3.2 Các mô hình mức phân đoạn 23

1.3.3 Các mô hình dựa trên văn phạm 23

1.4 Trích rút quan hệ 25

1.4.1 Dự đoán quan hệ giữa cặp thực thể được đưa ra 26

1.4.2 Trích rút cặp thực thể cho một loại quan hệ đưa ra 29

CHƯƠNG 2 XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ CỘNG ĐỒNG NGHIÊN CỨU CNTT 34

2.1 Tìm hiểu hệ thống ArnetMiner 34

2.2 Tìm hiểu hệ thống CiteSeerX 39

2.3 Tìm hiểu hệ thống DBLP 43

2.4 C ơ sở lý thuyết xây dựng hệ thống ITVN 47

2.4.1 Gán nhãn dữ liệu 48

2.4.2 Giải quyết trùng lặp tên trong mỗi file cá nhân 58

2.4.3 Cập nhật dữ liệu từ file đã gán nhãn 61

2.4.4 Cập nhật dữ liệu từ hệ thống DBLP 62

CHƯƠNG 3 CÀI ĐẶT VÀ THỬ NGHIỆM 65

3.1 Kiến trúc chung của hệ thống 65

3.2 Thu thập dữ liệu 66

3.3 Gán nhãn dữ liệu 67

3.4 Cập nhật dữ liệu 82

Trang 5

iii

III KẾT LUẬN 85

III.1 Kết luận chung 85

III.1.1 Đóng góp của luận văn 85

III.1.2 Những hạn chế 85

III.2 Hướng phát triển 86

TÀI LIỆU THAM KHẢO 87

Trang 6

iv

Lời cam đoan

Tôi – Đỗ Bá Lâm – cam kết Luận văn tốt nghiệp Cao học là công trình nghiên cứu của bản thân tôi, dưới sự hướng dẫn của TS Lê Thanh Hương Các kết quả nêu trên luận văn là trung thực, không phải là sao chép toàn văn của bất cứ công trình nào khác

Trang 7

v

Lời cảm ơn

Để có được thành quả như ngày hôm nay, tôi muốn gửi những lời cảm ơn chân thành nhất của mình đến tập thể các thầy giáo, cô giáo Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách Khoa Hà Nội đã nuôi dưỡng niềm đam mê , học tập, tìm tòi, nghiên cứu khoa học của tôi Các thầy, cô với sự tận tụy, tâm huyết

và tài năng của mình là những tấm gương sáng cho tôi học tập và noi theo Tôi cũng xin gửi cảm ơn của mình tới cô giáo TS Lê Thanh Hương đã hướng dẫn tôi thực hiện đề tài này từ việc xác định định hướng tới nội dung luận văn

Tôi muốn gửi lời cảm ơn của mình tới TS Nguyễn Thị Oanh đã cho tôi nhiều góp ý, cảm ơn các bạn Nguyễn Thành Trung, Trần Thị Hương đã luôn chia sẻ, giúp

đỡ tôi trong thời gian thực hiện luận văn

Lời cuối cùng, con xin cảm ơn gia đình Gia đình luôn là nguồn động viên, quan tâm vô bờ bến đối với bản thân con

Hà Nội, ngày 11 tháng 11 năm 2011

Đỗ Bá Lâm

Trang 8

vi

Danh mục các kí hiệu, các chữ viết tắt

Extraction

Một chương trình phát triển các công nghệ trích rút nội dung tự động

CRF Conditional Random Field– Trường ngẫn nhiên có điều kiện

IE Information Extraction– Trích rút thông tin

MCU - Message Understanding

Conference

Một hội thảo về trích rút thông tin

MEMM – Maximum Entropy Markov

Model

Mô hình Markov với Entropy lớn nhất

Trang 9

vii

Danh mục các hình vẽ

Hình 1.1 Trích rút quan hệ và tên thực thể từ một văn bản 9

Hình 1.2 Phân chia văn bản từ các bản ghi địa chỉ 9

Hình 1.3 Một số luật để xác định tên công ty từ bộ nhận dạng tên thực thể 18

trong GATE 18

Hình 1.4 Phân tách hai câu thành chuỗi các token 21

Hình 1.5 Một sự phân đoạn của câu 23

Hình 1.6 Một cây phân tích cú pháp 28

Hình 1.7 Đồ thị phụ thuộc của một câu 28

Hình 2.1 Lƣợc đồ Profile của nhà nghiên cứu 36

Hình 2.2 Trang cá nhân của nhà nghiên cứu 37

Hình 2.3 Thông tin nhà nghiên cứu trên trang DBLP 38

Hình 2.4 Profile thu đƣợc 38

Hình 2.5 Kiến trúc hệ thống CiteSeerX 40

Hình 2.6 Một số bảng dữ liệu trong hệ thống CiteSeerX 42

Hình 2.7 Ví dụ mô hình Markov ẩn về thời tiết 50

Hình 2.8 Mô hình Markov ẩn 50

Hình 2.9 Đồ thị phụ thuộc của mô hình HMM (a) và MEMM (b) 52

Trang 10

viii

Hình 2.10 Vấn đề label bias 53Hình 3.1 Kiến trúc chung của hệ thống 65Hình 3.2 Mối liên hệ giữa các bảng trong hệ thống 82

Trang 11

ix

Danh mục các bảng

Bảng 1.1 Ví dụ về trích rút quan hệ 30

Bảng 2.1 Độ chính xác trong gán nhãn khi sử dụng một số mô hình 57

Bảng 3.1 Thống kê số lượng trang cá nhân thu thập được 67

Bảng 3.2 Một số hàm cơ bản trong bước 2 71

Bảng 3.3 Danh sách các nhãn cần xác định 73

Bảng 3.4 Danh sách các đặc trưng sử dụng 74

Bảng 3.5 Ví dụ về file text đầu vào 75

Bảng 3.6 File token sau khi đã tách thành từng đơn vị 76

Bảng 3.7 File đặc trưng tương ứng 79

Bảng 3.8 Kết quả đánh giá gán nhãn qua các lần thử 81

Bảng 3.9 Bảng Paper 83

Bảng 3.10 Bảng Name 83

Bảng 3.11 Bảng Author 84

Bảng 3.12 Bảng P_A 84

Trang 12

đã theo đuổi việc tìm hiểu về lĩnh vực trích rút thông tin và thực hiện một bài toán

cụ thể

Các công bố khoa học là kết quả của một quá trình làm việc miệt mài, nghiêm túc của các tác giả Theo thời gian, với sự tìm tòi, nghiên cứu của mình cùng với nhu cầu đặt ra trong thực tiễn và lý thuyết, các nhà nghiên cứu đưa ra ngày càng nhiều những công bố kết quả của mình trong các hội thảo, tạp chí…trong và ngoài nước Những công bố này là một nguồn tài liệu tham khảo quý giá cho cả cộng đồng để tiếp tục tìm tòi, phát hiện và đưa ra những tri thức mới Chính vì vậy Google – hãng tìm kiếm hàng đầu thế giới đã xây dựng máy tìm kiếm trong lĩnh vực học thuật là Google Scholar1, với khẩu hiệu “Tiếp tục thành tựu của các bậc vĩ nhân” như một lời tri ân, nhắc nhở về tầm quan trọng của bài báo khoa học đã có Hiện nay cũng có những thư viện số khác trên thế giới thực hiện thu thập các công

bố của các nhà nghiên cứu như thư viện DBLP2, ArnetMiner3 Tuy nhiên không phải tất cả các hội thảo, tạp chí đều được thống kê trong các CSDL trên Với các

Trang 13

2

nhà nghiên cứu ở Việt Nam, họ có thể công bố nhiều bài báo, nhưng khi truy vấn tại các CSDL trên chỉ có một số ít bài báo được tìm thấy Trong khi đó các thông tin về hướng nghiên cứu, bài báo khoa học lại có thể dễ dàng tìm thấy trên trang web cá nhân của họ

Theo thống kê từ ArnetMiner có khoảng 70.6% các nhà nghiên cứu trên thế giới

có các trang cá nhân hoặc trang web giới thiệu về họ Trong các trang này thường

có các thông tin cá nhân như cơ quan công tác, địa chỉ làm việc, email, và các thông tin về hoạt động nghiên cứu của như hướng nghiên cứu, các bài báo công bố…Đây

là những thông tin tin cậy, giúp chúng ta có thể xác định được đầy đủ hơn những công bố khoa học của họ

Xuất phát từ lý do trên, học viên thực hiện đề tài này với mong muốn xây dựng một CSDL về cộng đồng nghiên cứu CNTT, đặc biệt là các nhà nghiên cứu Việt Nam trên hai nguồn dữ liệu là trang web cá nhân và thư viện số DBLP – một thư viện nổi tiếng trên thế giới CSDL xây dựng được, sẽ cung cấp cho các nhà nghiên cứu, các sinh viên, học viên, nghiên cứu sinh trong ngành CNTT tại Việt Nam, nguồn dữ liệu tin cậy và đầy đủ về hoạt động và kết quả nghiên cứu khoa học của các giảng viên, nghiên cứu viên…cùng những thông tin cơ bản về họ Để từ đó các

cá nhân này có thể đưa ra các hoạt động hợp tác, hướng dẫn khoa học phù hợp

I 2 Lịch sử nghiên cứu

Trên thế giới đã có những hệ thống thu thập thông tin về các nhà nghiên cứu Có thể kể tới như Google Scholar, DBLP cung cấp thông tin về các bài báo khoa học tại các hội nghị, workshop, tạp chí…CiteSeerX4 cung cấp thêm những thông tin trích dẫn của mỗi bài báo ArnetMiner xây dựng mạng lưới các nhà nghiên cứu với mối liên hệ giữa các tác giả…Các hệ thống ArnetMiner, CiteSeerX, DBLP được chọn để nghiên cứu và tìm hiểu Nội dung chi tiết sẽ được trình bày trong chương 3

4 http://citeseerx.ist.psu.edu

Trang 14

I.4 Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả

Những luận điểm cơ bản và đóng góp mới của luận văn bao gồm:

 Hoàn thiện hơn việc thống kê bài báo trong điều kiện thực tế ở Việt Nam Các bài báo của các nhà nghiên cứu Việt Nam sẽ được thống kê một cách đầy đủ nhất

 Hệ thống đã đưa ra được một kiến trúc có tính mềm dẻo để có thể áp dụng không chỉ trong điều kiện ở Việt Nam mà còn có thể áp dụng tại các nước khác để xây dựng CSDL về cộng đồng nghiên cứu CNTT tại nước này với nguồn dữ liệu tương tự

 CSDL được xây dựng sẽ có ích đối với cộng đồng nghiên cứu và những người có nguyện vọng nghiên cứu tại Việt Nam

I.5 Phương pháp nghiên cứu

CSDL được xây dựng dựa trên hai nguồn dữ liệu Xuất phát từ trang cá nhân của nhà nghiên cứu, thực hiện trích rút ra những thông tin liên hệ, thông tin hướng nghiên cứu và danh sách công bố khoa học của tác giả Danh sách bài báo này có thể không được cập nhật, do vậy cần tiến hành xác định danh sách bài báo của nhà nghiên cứu này trên CSDL DBLP Dữ liệu tổng hợp từ hai nguồn này cho chúng ta một danh sách đầy đủ hơn các bài báo của nhà nghiên cứu

Trang 15

4

Luận văn sẽ phải đối mặt với những khó khăn Trước hết là xác định được chính xác trang cá nhân của nhà nghiên cứu, để từ đó trích rút ra được các thông tin mong muốn bằng một phương pháp có độ chính xáccao và thời gian hợp lý Tiếp theo đó,

do một bài báo có thể lặp lại trên các trang cá nhân của những tác giả đã viết bài; và một người có thể sử dụng nhiều tên viết bài khác nhau, có sự trùng lặp với người khác nên luận văn phải giải quyết vấn đề trùng lặp tên bài báo, tên tác giả Ở bước cuối cùng khi cập nhật dữ liệu bài báo của nhà nghiên cứu đó từ DBLP, cũng cần đưa ra các giải pháp phù hợp để giải quyết vấn đề trùng lặp

Để giải quyết những vấn đề trên, học viên tiến hành tìm hiểu, nghiên cứu ba hệ thống tiêu biểu hiện có với những đặc điểm, thành phần quan trọng của mỗi hệ thống như việc thu thập dữ liệu, nguồn dữ liệu, phương pháp trích rút và gán nhãn thông tin, phương pháp tổng hợp thông tin từ nhiều nguồn dữ liệu đa dạng…Để từ

đó căn cứ vào mục đích và điều kiện cụ thể, hệ thống đưa ra cách tiếp cận phù hợp

và có hiệu quả

Luận văn được bố cục gồm 5 chương

 Chương 1. Giới thiệu khái quát về nội dung đề tài và phương pháp thực

hiện

 Chương 2 Trình bày tổng quan về bài toán trích rút thông tin trong khoảng

30 năm vừa qua

 Chương 3 Trình bày các nghiên cứu về một số hệ thống trên thế giới, từ đó

phân tích đưa ra phương pháp xây dựng hệ thống phù hợp

 Chương 4 Trình bày về việc xây dựng các thành phần của hệ thống và đánh

giá kết quả thu được

 Chương 5 Tổng kết lại nội dung luận văn đã thực hiện và đề ra hướng phát

triển tiếp theo

Trang 16

5

II NỘI DUNG

RÚT THÔNG TIN

Chương này trình bày về:

 Giới thiệu chung về bài toán trích rút thông tin: các khó khăn, các ứng dụng, và phân loại bài toán trích rút thông tin

 Trình bày hai bài toán cơ bản trong trích rút thông tin là bài toán nhận dạng thực thể và bài toán phát hiện quan hệ giữa các thực thể

 Trong hai bài toán cụ thể, trình bày các phương pháp, mô hình được sử dụng

1.1 Giới thiệu chung

Trích rút thông tin đề cập tới việc trích rút tự động các thông tin có cấu trúc như các thực thể, mối quan hệ giữa các thực thể và các thuộc tính mô tả các thực thể từ nguồn không có cấu trúc Cũng cần phải nhấn mạng rằng, trích rút thông tin không phải là việc hiểu một tài liệu Nó được sử dụng để phân tích văn bản và xác định các phần đặc biệt trong văn bản Miền ứng dụng cho các hệ thống trích rút thông tin là

đa dạng và phong phú Để giải quyết các đòi hỏi đó, các kỹ thuật trích rút cấu trúc

đã phát triển mạnh mẽ Các hệ thống ban đầu sử dụng các luật tạo ra thủ công Khi luật thủ công trở nên thiếu hấp dẫn, các giải thuật cho các luật học tự động từ các ứng dụng được phát triển Khi các hệ thống trích rút được tập trung vào các nguồn không cấu trúc nhiễu, các luật được tạo ra là thiếu hiệu quả Khi đó dẫn tới sự ra đời của việc học thống kê nơi mà hai loại kỹ thuật được đề cập: mô hình sinh sản dựa trên mô hình Markov ẩn (HMM) và các mô hình điều kiện dựa trên entropy lớn nhất Khi phạm vi của các hệ thống trích rút được mở rộng để yêu cầu một phân tích toàn diện hơn về một cấu trúc của tài liệu, các kĩ thuật từ việc xây dựng ngữ pháp

Trang 17

6

đã được phát triển Tuy nhiên, không có kĩ thuật nào thể hiện sự vượt trội rõ ràng Các phương pháp dựa trên luật và các phương pháp thống kê tiếp tục được sử dụng song song phụ thuộc vào mục đích trích rút Cũng có nhưng mô hình lai tồn tại để kết hợp những ưu điểm của các phương pháp trên

1.1.1 Các ứng dụng

Trích rút thông tin rất hữu ích trong đa dạng các ứng dụng Ở đây, chúng ta sẽ liệt kê các ứng dụng kinh doanh, khoa học hay hướng web

1 1.1.1 Các ứng dụng kinh doanh

Tìm kiếm tin tức (News Tracking): là một ứng dụng cổ điển của trích rút thông tin

mà đã được nghiên cứu sớm trong cộng đồng NLP Đó là việc tự động đi tìm các loại sự kiện đặc biệt từ các nguồn tin tức Phổ biến là dựa trên việc trích rút các thực thể có cấu trúc giống như tên người và tên công ty, cùng mối quan hệ như“is-CEO-of” giữa chúng Những yêu cầu khác như đi tìm các sự kiện về thảm họa, khủng bố

từ các tin tức

Chăm sóc khách hàng: bất kì một doanh nghiệp hướng người dùng đều tập hợp rất

nhiều các dạng của thông tin không cấu trú trong tương tác với khách hàng Điều c này nảy sinh rất nhiều vấn đề trích rút thú vị giống như xác định các tên và thuộc tính sản phẩm từ emails khách hàng, liên kết giữa các email khách hàng tới một giao dịch cụ thể trong cơ sở dữ liệu bán hàng, việc trích rút các tên người và địa chỉ người bán từ hóa đơn bán, trích rút thái độ khách hàng từ kịch bản trao đổi điện thoại và trích rút các cặp giá trị thuộc tính sản phẩm từ các mô tả sản phẩm

1 1.1 Các ứng dụng khoa học 2

Sự gia tăng gần đây của lĩnh vực tin sinh học đã mở rộng phạm vi của các trích rút

từ trích rút tên thực thể tới các việc trích rút đối tượng sinh học giống như protein

và gen Một vấn đề trọng tâm là trích rút từ nguồn bài báo như Pubmed, các tên

Trang 18

7

protein và tương tác của chúng Vì các dạng thực thể giống như tên gen, và protein

là rất khác biệt với các thực thể truyền thống giống như người và công ty, các kỹ thuật đã được mở rộng để đáp ứng yêu cầu này

1 1.1 Các ứng dụng hướng web 3

Cơ sở dữ liệu trích dẫn: rất nhiều cơ sở dữ liệu trích dẫn trên web đã được tạo ra

thông qua các bước trích rút cấu trúc phức tạp từ các nguồn như các website hội thảo cho đến các trang cá nhân Phổ biến trong chúng là Citeseer, Google Scholar Việc tạo các cơ sở dữ liệu như vậy đòi hỏi việc trích rút cấu trúc ở rất nhiều mức khác nhau từ tìm ra các website chứa các trang có bài báo công bố, trích rút các bài báo từ một trang HTML, trích rút tiêu đề, tác giả và các tham khảo từ các file PDF

và tách chuỗi trích dẫn thành từng tác giả, tiêu đề riêng và năm xuất bản Cơ sở dữ liệu thu được có ý nghĩa to lớn trong việc tham chiếu thống kê và tham chiếu

Các website cộng đồng: một ví dụ khác về việc tạo ra các cơ sở dữ liệu cấu trúc từ

các tài liệu web là các website cộng đồng giống như DBLife5 tìm ra các thông tin về các nhà nghiên cứu, các hội thảo, các buổi nói chuyện, các dự án và sự kiện liên quan tới một cộng đồng xác định Việc trích rút như vậy đòi hỏi rất nhiều bước trích rút: xác định các thông báo nói chuyện từ các trang bộ môn, trích rút tên của người nói, tiêu đề từ chúng, trích rút các bản ghi cấu trúc về một hội thảo từ một website

So sánh hàng hóa: có rất nhiều quan tâm trong việc tạo ra các trang web so sánh sản

phẩm mà tự động thu thập sản phẩm và giá của chúng từ các trang web bán hàng Những thông tin này sẽ được sử dụng để so sánh như trang Biztate6 Khi công nghệ web phát triển, phần lớn các trang web được xây dựng dựa trên các form và các ngôn ngữ kịch bản Do vậy, trọng tâm này dịch chuyển thành thu thập và trích rút thông tin từ các website dạng form

5 http://dblife.cs.wisc.edu/

6 http://www.bizrate.com

Trang 19

8

1.1.2 Phân loại bài toán trích rút thông tin

Bài toán trích rút thông tin có thể được phân chia theo 5 hướng sau:

 Loại của thông tin được trích rút (thực thể, quan hệ, danh sách, bảng, thuộc tính…)

 Đặc điểm của nguồn không cấu trúc (đơn vị trích rút, tính đa dạng trong định dạng…)

 Loại của nguồn đầu vào có mặt cho trích rút (cơ sở dữ liệu cấu trúc, dữ liệu không cấu trúc được gán nhãn, các thẻ ngữ nghĩa…)

 Phương thức được sử dụng cho trích rút (dựa trên luật hay thống kê, thủ công hay huấn luyện từ ví dụ)

 Đầu ra của trích rút (văn bản không cấu trúc được chú giải hay một cơ sở dữ liệu)

1.1.2.1 Phân loại theo loại của cấu trúc được trích rút

Hai loại được trích rút phổ biến là thực thể và quan hệ giữa các thực thể

1.1.2.1.1 Thực thể

Dạng phổ biến nhất của thực thể là tên của người, địa điểm, công ty Việc nhận dạng tên thực thể được giới thiệu lần đầu tiên trong MUC lần thứ 6 và bao gồm 3 nhiệm vụ: tên riêng và viết tắt của người; địa điểm, tổ chức (ENAMEX); các thuật ngữ thời gian thuần túy (TIMEX) và các biểu thức số học, tiền tế (NUMEX) Hiện nay các thực thể thuật ngữ được mở rộng để bao gồm nhiều phạm vi hơn như tên các bệnh tật, tên protein, tiêu đề bài báo và tên các tạp chí Cộng đồng ACE cho trích rút quan hệ thực thể từ văn bản ngôn ngữ tự nhiên đã liệt kê hơn 100 loại thực thể khác nhau

Hình 1.1 và 1.2 trình bày các ví dụ về trích rút thực thể Hình 1 chỉ ra các nhiệm 1

vụ trích rút thông tin truyền thống là trích rút tên người, tổ chức, và địa điểm từ các

Trang 20

9

bài báo Hình 1.2 chỉ ra một ví dụ trong đó trích rút thực thể đƣợc xem nhƣ một vấn

đề của phân tách một bản ghi thành các thực thể có cấu trúc Trong ví dụ này, một

xâu địa chỉ đƣợc phân tách để xác định 6 thực thể có cấu trúc

Hình 1.1 Trích rút quan h và tên th c th t m ệ ự ể ừ ột văn ả b n

Hình 1.2 P hân chia văn bả ừ n t các b ản ghi địa ch ỉ

Trang 21

10

cập tới một chuỗi các từ trong nguồn, thì quan hệ biểu diễn sự kết hợp giữa hai phần của văn bản mà biểu diễn các thực thể đó

1.1.2.2 Phân loại theo đặc điểm của nguồn không cấu trúc

Đặc điểm của nguồn trích rút có thể đƣợc thể hiện ở 2 yếu tố đơn vị trích rút : và tính đa dạng trong định dạng

1.1.2.2.1 Đơn vị trích rút

Bản ghi hay câu: dạng phổ biến nhất trong trích rút là từ các đoạn văn bản nhỏ

mà là các bản ghi không cấu trúc giống nhƣ địa chỉ, trích dẫn hoặc các câu đƣợc trích rút từ các đoạn văn bản ngôn ngữ tự nhiên

Đoạn văn hay tài liệu: Rất nhiều yêu cầu trích rút khiến cần thiết xem xét nội

dung của một đoạn văn bản hay toàn bộ tài liệu cho việc trích rút ngữ nghĩa Các ví

dụ phổ biến bao gồm trích rút các sự kiện từ các bài báo trích rút tiêu đề, địa điểm ,

và thời gian của một bài nói chuyện từ thông báo nói chuyện, và trích rút tiêu đề bài báo và trích dẫn từ một công bố khoa học

1.1.2.2.2 Tính đa dạng của các nguồn không cấu trúc

Một mối quan tâm lớn đến độ phức tạp và độ chính xác của bộ trích rút là xem xét tính đa dạng trong định dạng và loại của các tài liệu không cấu trúc Một số loại nhƣ:

Các trang tạo ra theo mẫu ( Machine Generated Pages : đây là các trang đƣợc )

khởi tạo bằng máy theo mẫu Một nguồn phổ biến trong trích rút là các tài liệu HTML đƣợc tạo ra tự động từ cơ sở dữ liệu Bộ trích rút cho các tài liệu này đƣợc biết đến nhƣ các wrapper Chúng đã đƣợc nghiên cứu trong nhiều cộng đồng khi mà thách thức chính là làm thế nào tự động tìm ra bố cục của trang bằng việc khám phá các thẻ HTML có trong trang

Các nguồn miền cụ thể có cấu trúc không hoàn chỉnh (Partially Structured Domain Speciﬁc Sources): phần lớn các nghiên cứu trong trích rút thông tin tập

Trang 22

1.1.2.3 Phân loại theo nguồn đầu vào cho trích rút

Đặc điểm cơ bản của một nhiệm vụ trích rút bao gồm loại của cấu trúc được trích rút và các nguồn không cấu trúc Chúng ta có một số loại đầu vào khác nhau.1.1.2.3.1 Cơ sở dữ liệu có cấu trúc

Các cơ sở dữ liệu có cấu trúc về các thực thể và các quan hệ đã có một nguồn giá trị để cải tiến độ độ chính xác của trích rút Nói chung, có một vài cơ sở dữ liệu như vậy có mặt trong quá trình trích rút Trong nhiều ứng dụng, các dữ liệu không có cấu trúc cần được tích hợp với các cơ sở dữ liệu có cấu trúc Xem xét về các hệ thống như DBLife, Citeseer và Google Scholar Ngoài cơ sở dữ liệu của các công

bố được trích rút của riêng họ, họ cũng có thể khai thác các cơ sở dữ liệu bên ngoài như thư viện số ACM hay DBLP Những ví dụ khác bao gồm việc sử dụng một cơ

sở dữ liệu giao dịch bán hàng và cơ sở dữ liệu sản phẩm cho trích rút các trường giống như id khách hàng và tên sản phẩm trong một email khách hàng; việc sử dụng một cơ sở dữ liệu bưu điện để nhận dạng các thực thể trong các bản ghi địa chỉ.1.1.2.3.2 Văn bản không cấu trúc được gán nhãn

Nhiều hệ thống trích rút thông tin được thực hiện thông qua văn bản không cấu trúc được gán nhãn Việc tập hợp các văn bản này đòi hỏi công việc gán nhãn mệt mỏi Tuy nhiên, nỗ lực này là không thể tránh được hoàn toàn bởi với một hệ thống trích rút, cần phải đánh giá độ chính xác của nó thông qua thực tế Một nguồn không cấu trúc được gán nhãn cung cấp thông tin ngữ cảnh về một thực thể, đồng sẽ thời dạng trong đó một thực thể xuất hiện thường rất nhiễu so với sự xuất hiện của

nó trong cơ sở dữ liệu

Trang 23

12

1.1.2.3.3 Các thư viện tiền xử lý cho văn bản không cấu trúc

Các thư viện này làm hỗ trợ các hệ thống trích rút trong thông tin về bố cục và ngôn ngữ để phục vụ cho việc nhận dạng cấu trúc Chúng bao gồm:

Bộ phân tích câu và tách từ: xác định biên của câu và phân chia thành các token:

từ, số hay dấu câu

Bộ gán nhãn: gán mỗi từ trong câu với một nhãn ngữ pháp như danh từ, động từ,

tính từ, trạng từ Các tập gán nhãn nổi tiếng như tập nhãn Brown có 179 nhãn, Penn Treebank có 45 nhãn…

cú pháp

Bộ phân tích : nhóm các từ trong câu thành các loại cụm từ như cụm danh từ, cụm động từ, cụm tính từ…Đầu ra của bộ phân tích là một cây cú pháp Các cây cú pháp rất hiệu quả trong trích rút thực thể bởi vì các thực thể thường là các cụm danh từ Trong trích rút quan hệ, chúng cung cấp liên kết có giá trị giữa các động từ và các tham số của chúng

1.1.2.4 Phân loại theo các phương pháp trích rút

1.1.2.4.1 Phương pháp thủ công hay dựa trên việc học

Một hệ thống thực hiện thủ công đòi hỏi các chuyên gia xác định các luật hoặc biểu thức chính quy để thực thi việc trích rút Người đó nên là một chuyên gia trong miền trích rút và là một lập trình viên để có thể phát triển các luật trích rút hiệu quả Trái lại, các hệ thống dựa trên học đòi hỏi các ví dụ không cấu trúc được gán nhãn thủ công để huấn luyện các mô hình học máy trong trích rút Thậm chí trong các hệ thống này, các tri thức miền là cần thiết trong việc xác định và gán nhãn ví dụ

Trang 24

13

Đồng thời họ cũng cần hiểu về học máy để lựa chọn giữa rất nhiều mô hình khác nhau, cũng như xác định các đặc điểm quan trọng đối với dữ liệu

1.1.2.4.2 Phương pháp dựa trên luật hay thống kê

Phương pháp dựa trên luật là dễ dàng hơn để thực thi và phát triển, trong khi đó phương pháp thống kê rất hữu hiệu đối với các dữ liệu không cấu trúc có nhiễu Do vậy, các hệ thống dựa trên luật hiệu quả hơn trong các miền đóng nơi sự tham gia của con người là cần thiết và có mặt Trong các miền mở giống như trích rút sự thật

từ kịch bản nói chuyện hay trích rút quan điểm từ blog, phương pháp thống kê là phù hợp hơn

1.1.2.5 Phân loại theo đầu ra của hệ thống trích rút

Có hai hướng chính trong đó một hệ thống trích rút được triển khai Hướng đầu tiên có mục tiêu là xác định tất cả các đề cập của thông tin có cấu trúc trong văn bản không cấu trúc Hướng thứ hai có mục tiêu là tạo ra một cơ sở dữ liệu của các thực thể có cấu trúc

1.1.3 Các thách thức

1.1.3.1 Độ chính xác

Thách thức đầu tiên phải đối mặt là thiết kế các mô hình đem lại độ chính xác cao trong trích rút Một vài yếu tố khiến cho việc này khó được thực hiện:

Sự đa dạng của đầu vào: sự phức tạp vốn có của nhiệm vụ nhận dạng khiến nó

kết hợp nguồn từ một tập đa dạng các đầu vào Thậm chí nhiệm vụ đơn giản nhất và cũng được nghiên cứu nhiều nhất, nhận dạng các tên thực thể, phụ thuộc vào vô số tập đầu vào bao gồm thuộc tính của các từ, nhãn của từ, độ tương tự với cơ sở dữ liệu về thực thể, sự có mặt của các từ dấu hiệu xác định…Một bằng chứng đó là việc có một số lượng lớn các tài liệu nghiên cứu cho riêng nhiệm vụ này trong khoảng 30 năm qua Tuy nhiên, vấn đề này còn rất khó để giải quyết với tất cả các nhiệm vụ trích rút khác nhau đã được đề cập ở trên

Trang 25

14

Khó khăn trong việc phát hiện các trích rút bị bỏ qua: độ chính xác trong trích

rút bao gồm hai yếu tố: precision đánh giá tỉ lệ các thực thể được trích rút chính xác trong kết quả trích rút; và recall đánh giá tỉ lệ các thực thể này so với các thực thể chính xác có mặt Trong rất nhiều trường hợp, precision là cao bởi bởi vì thật dễ dàng để phát hiện một cách thủ công các lỗi trong trích rút và chỉnh sửa lại mô hình

để loại bỏ các lỗi này Thách thức lớn hơn là thu được recall cao bởi vì nếu thiếu dữ liệu được gán nhãn phạm vi lớn thì nó thậm chí không thể phát hiện những gì đã bị

bỏ qua trong một số lượng lớn thông tin không cấu trúc

Độ phức tạp được gia tăng trong các cấu trúc được trích rút: các yêu cầu mới

đòi hỏi việc trích rút trên các kiểu thực thể phức tạp ngày càng tăng Sẽ trích rút như thế nào đối với các thực thể dài như bình luận về một nhà hàng trong một blog Một trong các thách thức của nhiệm vụ này chính là giới hạn của thực thể không được định nghĩa rõ ràng

1.1.3.2 Thời gian chạy

Việc triển khai thực tế các kĩ thuật trích rút trên một hệ điều hành cũng đưa ra rất nhiều thách thức về hiệu năng thực thi Đầu tiên, chúng ta cần các kĩ thuật để lọc một cách hiệu quả các phần phù hợp của các tài liệu Thứ hai, chúng ta cần tìm xác định phần nhỏ trong tài liệu mà chứa thông tin liên quan Cuối cùng chúng ta cũng

lo lắng về độ chính xác của rất nhiều bước xử lý mà phần được lựa chọn cần trải qua

1.1.3.3 Những vấn đề hệ thống khác

Nguồn dữ liệu thay đổi nhanh: các mô hình trích rút cần nhiều thời gian và công

sức để xây dựng và thích ứng với các nguồn không cấu trúc cụ thể Khi những nguồn này thay đổi, một thách thức cho bất kì một hệ thống là phát hiện và chỉnh sửa mô hình tự động

Trang 26

15

Tích hợp dữ liệu: Việc trích rút thông tin luôn đi cùng với việc tích hợp các

thông tin có được vào các tập dữ liệu đã có Một vấn đề thách thức lớn là quyết định liệu hai thông tin có cùng đề cập đến một thực thể hay không Vấn đề này còn được gọi là phân giải đồng tham chiếu, trùng lặp, liên kết bản ghi…Rất nhiều nhà nghiên cứu đã theo đuổi vấn đề tích hợp và trích rút với hy vọng rằng sẽ đem lại một độ chính xác cao hơn so với việc thực thi các bước một cách trực tiếp

Các lỗi trích rút: không thể đảm bảo hiệu quả việc trích rút là hoàn hảo khi triển

khai thực tế Vấn đề này trở nên tồi hơn khi các nguồn là đa dạng Một phương pháp khắc phục vấn đề này là yêu cầu mỗi thực thể được trích rút phải được đi kèm với một độ tin cậy như xác suất trích rút là đúng Tuy vậy, đây cũng là một mục tiêu khó thu được

1.2 Trích rút thực thể: các phương pháp dựa trên luật

Rất nhiều nhiệm vụ trích rút thực tế có thể được thực hiện thông qua một tập hợp các luật, có thể là thủ công hay học từ ví dụ Các hệ thống trích rút thông tin ban đầu đều dựa trên luật và tiếp tục được nghiên cứu và triển khai để đối mặt với những thách thức trong trích rút hiện tại Luật là đặc biệt hiệu quả khi các nhiệm

vụ là cụ thể và có thể thực thi tốt như trích rút số điện thoại và mã vùng từ các email Các hệ thống dựa trên luật cũng nhanh hơn và dễ dàng hơn trong việc tối ưu [4 ]

Một hệ thống dựa trên luật điển hình bao gồm hai phần: một tập các luật và một tập các quy tắc để điều khiển thực thi luật

1.2.1 Cách biểu diễn của luật

Các hệ thống dựa trên luật có một lịch sử dài trong việc sử dụng và đưa ra các định dạng biểu diễn luật khác nhau Chúng bao gồm biểu thức chính quy, biểu thức Datalog như trong DBLife

Trang 27

16

Một luật cơ bản có dạng: “Contextual Pattern → Action” Phần mẫu ngữ cảnh bao gồm một hay nhiều mẫu được gán nhãn để thể hiện ngữ cảnh trong đó chúng xuất hiện.Mẫu được gán nhãn thường là biểu thức chính quy được định nghĩa thông qua các đặc điểm của các token trong văn bản cùng với một nhãn tùy ý Các đặc điểm điển hình được liệt kê trong mục 1.1, còn các nhãn sử dụng để đối sánh các 1.token trong thực thi luật

Phần action của luật được sử dụng để đề cập tới các loại khác nhau của hành động gán nhãn: gán một nhãn thực thể tới một chuỗi các từ, chèn thẻ bắt đầu hay kết thúc của một thực thể hay gán thẻ cho nhiều thực thể

1.2.1.1 Các đặc điểm của token

Một token trong một câu thì thường được kết hợp với nhiều đặc điểm sau

 Câu biểu diễn token

 Loại chính tả (như chữ hoa, chữ thường, kết hợp, số, kí tự đặc biệt, dấu cách, dấu cấu…) của token

 Nhãn từ loại của token

 Danh sách các từ điển mà trong đó token có mặt Các thuộc tính cho phép đối sánh từ này là bắt đầu, kết thúc, hay ở giữa một từ trong từ điển Ví dụ một token như “New” khi được đối sánh là từ đầu tiên trong từ điển tên thành phố thì được kết hợp với thuộc tính

“Dictionary Lookup = start of city”

 Các chú thích thu được thông qua các bước tiền xử lý trước đó

1.2.1.2 Luật để xác định một thực thể đơn

Các luật để nhận dạng một thực thể đơn bao gồm 3 loại mẫu

 Một mẫu (không bắt buộc) để thu được ngữ cảnh xuất hiện trước thực thể

 Một mẫu đối sánh các từ trong thực thể

 Một mẫu (không bắt buộc) để thu được nội dung xuất hiện sau thực thể

Trang 28

17

Ví dụ một mẫu để xác định tên người có dạng “Dr Yair Weiss” bao gồm một từ chỉ tước hiệu, nghề nghiệp được liệt kê trong một từ điển tước hiệu, nghề nghiệp (như Prof, Dr, Mr), một dấu chấm và hai từ được viết hoa là:

({DictionaryLookup = Titles} {String = “.”} {Orthograph type = capitalized word} {2}) → Person Names

Ví dụ về một luật để đánh dấu tất cả các số theo sau bởi từ “by” và “in” như thực thể Year là:

({String=”by”|String=”in”}) ({Orthography type = Number}):y→Year=:y

Ví dụ về việc tìm một công ty có dạng “The XYZ Corp.” hay “ABC Ltd” là:({String = “The”}? {Orthography type = All capitalized} {Orthography type = Capitalized word, DictionaryType = Company end}) → Compnay name

1.2.1.3 Luật để đánh dấu biên thực thể

Trong thực tế với một số loại thực thể dài như tiêu đề sách, sẽ là hiệu quả hơn khi đưa ra các luật đánh dấu vị trí bắt đầu và kết thúc của một biên thực thể Tất cả các từ ở giữa đánh dấu bắt đầu và kết thúc được coi là thực thể Ví dụ một luật để chèn một thẻ <journal> để đánh dấu bắt đầu của một tên journal trong một bản ghi trích dẫn là:

({String = “to”} {String =”appear”} {String=”in”}):jstart ({Orthography type = Capitalized word} {2-5}) → insert <journal> after:jstart

Rất nhiều hệ thống trích rút dựa trên luật thành công dựa trên các luật như vậy, bao gồm LP2

Trang 29

18

Hình 1.3 Mộ ố luật để xác đị t s nh tên công ty t b ừ ộ nhậ n d ng tên th c th ạ ự ể

trong GATE

1.2.1.4 Các luật cho nhiều thực thể

Một số luật ở dạng biểu thức chính quy với rất nhiều phần, mỗi phần biểu diễn một thực thể khác nhau do vậy chúng đưa ra sự nhận dạng của nhiều thực thể cùng một lúc Những luật này là rất hiệu quả trong dữ liệu hướng bản ghi Ví dụ, hệ thống dựa trên luật WHISK [1 ] có mục tiêu trích rút từ các bản ghi cấu trúc như 8các bản ghi y tế, các file nhật kí bảo trì thiết bị, và các quảng cáo được phân loại Ví

dụ một luật trích rút hai thực thể, số lượng giường nằm và giá từ quảng cáo cho thuê căn hộ

({Orthography type = Digit}):Bedrooms ({String = “BR”}) ({}*) ({String = “$”}) ({Orthography type = Number}): Price → Number of Bedrooms =: Bedroom, Rent

=: Price

Trang 30

1.2.2.1 Tổ chức các luật không có thứ tự để giải quyết mâu thuẫn

Một biện pháp phổ biến là coi các luật như một tập không có thứ tự Mỗi luật có

sự độc lập với các luật khác Một cách giải quyết được lập trình để giải quyết mâu thuẫn như sau: ưu tiên các luật mà có khả năng bao phủ đoạn văn bản lớn hơn khi xác định một thực thể Biện pháp này đã được áp dụng trong GATE [6], trong trường hợp bằng nhau, ưu tiên luật có xác suất lớn hơn

Phương thức này là phổ biến bởi vì nó cho phép người sử dụng linh động hơn trong định nghĩa luật mà không lo lắng về quá nhiều trùng lặp với các luật hiện có

1.2.2.2 Tổ chức các luật có thứ tự để giải quyết mâu thuẫn

Một biện pháp khác là định nghĩa một thứ tự ưu tiên trên tất cả các luật và khi một cặp luật mâu thuẫn, hệ thống sẽ lựa chọn luật với độ ưu tiên cao hơn Trong các

hệ thống dựa trên học, độ ưu tiên của luật được đưa ra bởi một vài hàm về độ chính xác và độ bao phủ của luật trong dữ liệu huấn luyện Một thực thi phổ biến là sắp xếp các luật theo thứ tự giảm dần của độ chính xác của luật trong dữ liệu huấn luyện

Một ưu điểm của việc định nghĩa thứ tự là vì một luật tạo sau có thể định nghĩa trên các hành động của các luật trước đó Điều này thực sự hiệu quả trong chỉnh sửa lỗi của các thẻ không được gán nhãn trong các luật mà hành động là việc chèn một thẻ bắt đầu hay kết thúc của một loại thực thể Ví dụ về hai luật sau, trong đó luật

Trang 31

20

thứ hai có độ ưu tiên thấp hơn chèn một </journal> vào kết quả của luật trước đó chèn một thẻ <journal>

R1: ({String = “to”} {String =”appear”} {String = “in”}):jstart ({Orthography type

= Capitalized word} {2-5}) → insert <journal> after:jstart

R2: {tag = <journal>} ({Orthography type = word} + ):jend {String = “vol”} → insert </journal> after:end

LP2 là một ví dụ về một giải thuật học luật mà theo chiến lược này LP2 đầu tiên sử dụng các luật chính xác cao để nhận dạng một cách độc lập biên bắt đầu hoặc kết thúc của một thực thể rồi sau đó xử lý các trường hợp chưa được gán nhãn thông qua các luật được định nghĩa trong biên được chèn và các đặc điểm độ tin cậy thấp khác của các token

1.3 Trích rút thực thể: các phương pháp thống kê

Các phương pháp thống kê trong trích rút thực thể chuyển nhiệm vụ trích rút thành việc đưa ra một sự phân tách trong văn bản không cấu trúc và sau đó gán nhãn các phần phân tách cùng nhau hoặc độc lập

Dạng phổ biến nhất của phân tách là bên trong một chuỗi của các token, thu được bằng việc tách một văn bản không cấu trúc theo tập các dấu hiệu phân chia (như dấu cách, phẩy, chấm…) Trong pha gán nhãn, mỗi token được gán một nhãn thực thể hoặc một nhãn bộ phận thực thể như chỉ ra trong 1.3.1 Một khi các token được gán nhãn, các thực thể được gán nhãn bởi các token liền kề nhau với cùng nhãn thực thể Đây được gọi là phương pháp mức token

Dạng thứ hai của phân tách là trong các chuỗi từ Phương thức chung nhất để tạo chuỗi từ là thông qua các kĩ thuật phân tích ngôn ngữ tự nhiên để xác định các chuỗi danh từ trong câu Trong gán nhãn, thay vì gán nhãn các token, chúng ta gán nhãn các chuỗi Phương pháp này là rất hiệu quả cho các câu ngôn ngữ tự nhiên có định dạng tốt Tuy nhiên, nó thất bại với nguồn không cấu trúc không có định dạng tốt,

ví dụ địa chỉ, quảng cáo Một phương pháp tổng quát hơn trong xử lý các thực thể

Trang 32

Chú thích: đầu vào không cấu trúc x gồm các token x1…xn với n là số lượng token trong xâu Tập các loại thực thể muốn trích rút từ x là E.

1.3.1 Các mô hình mức token

Đây là phương pháp trích rút thống kê phổ biến nhất trong các dữ liệu văn bản Các văn bản không cấu trúc được coi như một chuỗi các token và vấn đề trích rút là gán nhãn thực thể cho mỗi token Hình 1.4 chỉ ra hai câu ví dụ gồm 11 và 9 token Kí hiệu một câu gồm các token là x = x1…xn, tại thời điểm trích rút mỗi xi phải được phân loại trong một trong tập nhãn Y Điều này đưa ra chuỗi nhãn y = y1…yn

Hình 4 1 Phân tách hai câu thành chu các token ỗi

Tập nhãn Y bao gồm tập các loại thực thể E và một nhãn đặc biệt “Other” (khác) cho các token mà không thuộc về bất kì một loại thực thể nào Ví dụ, phân tách một bản ghi địa chỉ vào các trường của nó chúng ta sử dụng Y = {HouseNo, Street, City, State, Zip, Country, Other} Vì các thực thể nói chung bao gồm rất nhiều token, nên thông thường người ta sử dụng các nhãn thực thể như “Entity_Begin”,

“Entity_End” , và “Entity_Continue” Điều này được biết như BCEO (B=Begin, C=Continue, E=End, O=Other) Ví dụ, trong câu thứ 2 nhãn đúng cho 9 token trong

Trang 33

Word Features (Các đặc điểm từ): bản thân các từ cung cấp cơ sở mạnh cho việc

gán nhãn

Orthographic Features (Các đặc điểm chính tả): nhiều đặc điểm có ý nghĩa

trong trích rút thực thể là từ thuộc tính chính tả của các từ, ví dụ cách viết hoa, các

kí hiệu đặc biệt, kiểu chữ số của các kí tự trong token…

Dictionary Lookup Features (Các đặc điểm trong từ điển): như đã đề cập,

thường xuyên có một cơ sở dữ liệu về thực thể trong thực hiện trích rút Đối sánh với các từ trong từ điển là một cơ sở quan trọng trong trích rút thực thể

1.3.1.2 Các mô hình trong gán nhãn token

Một số lượng các mô hình khác nhau đã được đề xuất để gán nhãn chuỗi các token trong một câu Một mô hình đơn giản là gán độc lập nhãn yi cho token xi sử dụng các đặc điểm của token xi và các token liền kề với nó trong x Bất kì bộ phân lớp hiện có như Support Vector Machine (SVM) có thể được sử dụng để phân chia mỗi token đến một loại thực thể mà nó thuộc vào Tuy nhiên, trong nhiệm vụ trích rút thông tin điển hình, nhãn của các token liền kề là ít khi độc lập với các token khác Như trong ví dụ hình 1.4, thật khó để phân lớp “last” là tiêu đề sách Tuy nhiên, khi từ này ở bên trái và phải của một từ được gán nhãn là tiêu đề cách, có thể nghĩ nhãn của “last” cũng là một tiêu đề sách Điều này dẫn tới một số lượng các

mô hình khác nhau trong việc thu được sự phụ thuộc giữa các nhãn của các từ liền

kề Đơn giản nhất trong số chúng là phương pháp phân lớp có thứ tự mà gán các nhãn tới các token theo một thứ tự cố định từ trái sang phải khi nhãn của một từ được cho xem là phụ thuộc vào nhãn của từ bên trái nó Lựa chọn phổ biến khác là

Trang 34

23

Hidden Markov Models (HMM – mô hình Markov ẩn) bộ gán nhãn Maximum , entropy (Entropy cực đại) mô hình Markov entropy cực đại (MEMM) và mô hình , Markov có điều kiện (CMM) Phương pháp tốt nhất để gán nhãn chuỗi token là Conditional Random Fields (CRFs) CRFs cung cấp một cơ chế mạnh và linh động

để sử dụng các tập đặc điểm tùy ý cùng với sự phụ thuộc trong các nhãn của các từ lân cận CRF được khái quát cho tất cả các phương pháp đã đề xuất trước đây cho gán nhãn chuỗi

1.3.2 Các mô hình mức phân đoạn

Trong các phương pháp mức phân đoạn, đầu ra là một chuỗi các phân đoạn với mỗi đoạn định nghĩa một thực thể, thay vì một chuỗi các nhãn như mô hình mức token ở trên Cụ thể hơn, một sự phân đoạn s của một chuỗi đầu vào có độ dài n là một chuỗi các đoạn s1 sp mà đoạn cuối cùng kết thúc ở n, đoạn thứ nhất bắt đầu ở 1

và đoạn sj+1 bắt đầu bên phải ngay sau khi đoạn sj kết thúc Mỗi đoạn sj bao gồm một vị trí bắt đầu lj, và một vị trí kết thúc uj, và một nhãn yj Y Hình 1.5, thể hiện một sự phân đoạn của câu thứ hai trong hình 1.4 Sự phân đoạn này xác định ba thực thể: hai tác giả và một tiêu đề

Hình 5 M 1 ột sự phân đoạ n c a câu ủ

Trong một mô hình mức phân đoạn, các đặc điểm được định nghĩa trên các đoạn bao gồm nhiều token hình thành nên một thực thể Giống như trong trường hợp các

mô hình chuỗi, nhãn của một đoạn phụ thuộc vào nhãn của đoạn trước đó và thuộc tính của các token kết hợp nên đoạn này

1.3.3 Các mô hình dựa trên văn phạm

Một vài hệ thống trích rút thực thể yêu cầu một sự biểu diễn tốt hơn trong cấu trúc của nguồn đầu vào so với các mô hình phân đoạn Ví dụ, chúng ta đòi hỏi các

Trang 35

24

tên tác giả từ một trích dẫn phải đƣợc định dạng giống nhau; hoặc tất cả tên đầu tiên của tác giả đƣợc viết tắt hoặc ở cùng ở dạng đầy đủ Một cấu trúc nhƣ vậy không thể đƣợc phân tích trong bất kì mô hình ở trên vì chúng chỉ có thể thu đƣợc sự phụ thuộc về nhãn từ các từ lân cận

Một mô hình dựa trên văn phạm sử dụng một tập các luật cú pháp để biểu diễn cấu trúc tổng quát của thực thể Các luật đƣợc định nghĩa trên kí hiệu kết thúc là các token của nguồn không cấu trúc và các kí hiệu không kết thúc các nhãn thực thể là

và những nhãn khác để thể hiện nhãn của một cụm Ví dụ, để thu đƣợc tính đồng nhất tên tác giả trong một trích dẫn, chúng ta có thể định nghĩa tập luật cùng với một mô hình điểm nhƣ sau:

Đầu ra của quá trình trích rút là một cây cú pháp Tuy nhiên có thể có nhiều cây hợp lệ cho một chuỗi token đầu vào Xem xét xâu “Peter Haas, George John” gồm 5 token Bộ phân tích có thể là:

Trang 36

Vấn đề trích rút quan hệ đã được nghiên cứu nhiều trong văn bản ngôn ngữ tự nhiên, bao gồm các bài báo, công bố khoa học, blogs, email, và các nguồn như Wikipedia và web nói chung Như trong trích rút thực thể, rất nhiều sự thúc đẩy trong nghiên cứu trích rút quan hệ đã được đưa ra như trong MUC và các nhiệm vụ ACE sau này Ví dụ ACE định nghĩa 5 quan hệ: “located at”, “near”, “part”, “role”

và “social” từ 5 loại thực thể: “person”, “organization”, “facility”, “location”, “geopolitical entity” Quan hệ “located at” liên kết “person” hoặc “organization” với

-“location” Quan hệ “role” liên kết một “person” đến một “organization” Trong tài liệu y tế-sinh học, 3 loại trích rút quan hệ phổ biến là: quan hệ gene-disease (gen-bệnh), tương tác protein protein và các quy tắc tế bào.-

Trong phần này, chúng ta tập trung vào trích rút các quan hệ nhị phân, mặc dù trong quan hệ nói chung có chứa quan hệ đa chiều bao gồm 3 hoặc nhiều thực thể Hai ví dụ phổ biến nhất về quan hệ đa chiều là: Event Extraction và Semantic Role Labelling

Vấn đề trích rút quan hệ nhị phân có thể được chia ra ba mức khác nhau Trường hợp đầu tiên là các thực thể được xác định trước trong văn bản không cấu trúc và chúng ta cần tìm loại quan hệ tồn tại giữa các cặp thực thể Trường hợp thứ hai là khi chúng ta đưa ra một quan hệ r và một thực thể e, mục tiêu là trích rút các thực thể có quan hệ r với e Trường hợp thứ ba là ở các corpus không cấu trúc lớn

Trang 37

26

như web nơi mà chúng ta không thể giả sử rằng các cặp thực thể là được đánh dấu Đưa ra một quan hệ xác định r, mục tiêu của chúng ta trích rút tất cả các cặp thực thể mà có quan hệ r giữa chúng thông qua các kĩ thuật nhận dạng và lọc phù hợp Phần lớn các nghiên cứu trước đây thực thi trên trường hợp đầu tiên được trình bày trong mục 4.1 Trong mục 4.2, trình bày các kĩ thuật trong trường hợp thứ ba Đây

là chủ đề gần đây để xây dựng cơ sở tri thức từ các nguồn mở như web

1.4.1 Dự đoán quan hệ giữa cặp thực thể được đưa ra

Đưa ra một tập cố định R các loại quan hệ, mục tiêu của chúng ta là xác định tất

cả các quan hệ trong R từ một tài liệu ngôn ngữ tự nhiên đầu vào với tất cả các thực thể đã được đánh dấu Nói chung, trong trích rút quan hệ từ văn bản ngôn ngữ tự nhiên, có thể giả sử rằng hai thực thể tham số là gần nhau hoặc cùng ở một câu Do vậy, vấn đề nhận dạng cơ bản là như sau: đưa ra một đoạn văn bản x với hai thực thể E1 và E2 trong x, xác định xem liệu có quan hệ nào trong Y giữa E1 và E2 không Tập Y xác định tất cả loại quan hệ R và một thành phần đặc biệt “other” trong trường hợp không có quan hệ nào cho cặp thực thể này

Trích rút quan hệ được xem là một vấn đề khó hơn trích rút thực thể bởi vì để xác định quan hệ giữa hai thực thể trong một câu đòi hỏi một sự kết hợp khéo léo các nguồn dữ liệu có thể có nhiễu do các cấu trúc ngữ nghĩa và ngữ pháp đa dạng trong một câu Sau đây là một số các nguồn hiệu quả cho trích rút quan hệ

Surface Tokens (token xung quanh): các token xung quanh và giữa hai thực thể

thường nắm giữ một cơ sở mạnh cho trích rút quan hệ Ví dụ một quan hệ “is situated” giữa một thực thể Company và một thực thể Location được chỉ ra rõ ràng bởi sự có mặt của một token “located” hoặc hai token “located in” giữa hai thực thể như

<Company> Kosmix </Company> is located in the

<Location> Bay area </Location>

Trang 38

<Location> Zaire </Location>

Thông thường, một token có thể được biến đổi từ dạng gốc của nó, như từ “located”

là xuất phát từ “locate”

Part of Speech Tags (nhãn từ loại): các nhãn POS đóng vai trò quan trọng hơn trong

trích rút quan hệ so với trích rút thực thể Các động từ trong một câu là chìa khóa để xác định quan hệ giữa các thực thể mà thường là các danh từ hay cụm danh từ Ví

dụ, trong câu

<Location> The University of Helsinki </Location> hosts <Conference> ICML

</Conference> this year

Việc trích rút là đáng tin cậy của quan hệ “held in” giữa conference và location nếu

từ “hosts” được gán nhãn là động từ (VBZ) thay vì là một danh từ

Syntactic Parse Tree Structure (Cấu trúc cây cú pháp): một cây cú pháp bao gồm

các từ trong một câu mà phân chia thành các loại cụm từ như cụm danh từ, cụm động từ, cụm giới từ và do đó có nhiều ý nghĩa hơn nhãn POS trong việc hiểu quan

hệ giữa các thực thể trong câu Ví dụ trong câu

<Location> Haifa </Location>, located 53 miles from <Location> Tel Aviv

</Location> will host <Conference> ICML </Conference> in 2010

“Tel Aviv, ICML” dường như được ưa thích hơn “Haifa, ICML” như một thể hiện

của quan hệ “held in” dựa trên sự gần gũi vị trí của chúng đến ICML Nhưng xem xét cây cú pháp của câu trong hình 1.6 Cây này gắn “ICML” gần “Haifa” hơn “Tel Aviv” bởi vì “Haifa” là trung tâm của cụm danh từ “Haifa, located 53 miles from Tel Aviv” mà tạo thành chủ ngữ của cụm động từ “will host ICML in 2010”

Trang 39

28

Hình 6 M t cây phân tích cú pháp 1 ộ

Hình 1.7 Đồ thị phụ thu c c a m t câu ộ ủ ộ Dependency Graph (Đồ thị phụ thuộc): Cây phân tích cú pháp là rất tốn kém để tạo

ra Một đồ thị phụ thuộc liên kết từ này tới các từ khác mà nó phụ thuộc vào cũng

có vai trò tương tự như cây cú pháp Ví dụ cho câu trên, đồ thị phụ thuộc được chỉ

ra trong hình 1.7 Như trong đồ thị, rõ ràng rằng động từ “host” được liên kết bởi cả

“Haifa” một thực thể vị trí và “ICML” một thực thể hội thảo Điều này thiết lập một cách trực tiếp một liên kết gần giữa chúng Trái lại, đường dẫn giữa ICML và Tel Aviv thông qua “Haifa” và “Located”

Các phương pháp được sử dụng trong trích rút quan hệ có thể được phân chia thành một trong ba loại chính:

Trang 40

29

 Các phương pháp dựa trên đặc điểm: trích rút một tập các thuộc tính

từ đầu vào và sau đó sử dụng một bộ phân loại như cây quyết định hoặc SVM

 Các phương pháp dựa trên hạt nhân: thiết kế các hạt nhân đặc biệt để thu được sự tương tự giữa các cấu trúc giống như cây và đồ thị

 Các phương pháp dựa trên luật: tạo các luật trên các cấu trúc của hai thực thể

1.4.2 Trích rút cặp thực thể cho một loại quan hệ đưa ra

Một nhiệm vụ khác là đưa ra một hay nhiều loại quan hệ, mục tiêu của chúng ta

là tìm tất cả các thể hiện của những quan hệ đó trong corpus Phần lớn các công việc đã được thực hiện trên các tập hợp tài liệu mở như web, nơi mà không thể giả

sử rằng các thực thể đã được đánh dấu rồi Nói chung, không có dữ liệu không cấu trúc được gán nhãn cho huấn luyện, không giống như nội dung ở trên Thay vì đó, nhân của những hệ thống này được thực hiện bởi xác định cho mỗi loại quan hệ r những loại đầu vào như sau:

 Loại của cặp thực thể là tham số của r Loại của thực thể thường được xác định ở mức khái quát, ví dụ như tham số thực thể là một danh từ chung hay danh từ riêng hay một số như năm hoặc tiền tệ Nhiều loại

cụ thể hơn như “Person name” và “Company names” chỉ có ý nghĩa nếu chúng đi cùng các mẫu được sử dụng để nhận dạng

 Một cơ sở dữ liệu nhân S gồm các cặp thực thể mà thể hiện quan hệ Trong các trường hợp ít xảy ra, các ví dụ xấu của các cặp thực thể không thỏa mãn quan hệ cũng được đưa ra

 Đôi khi, nhân S này được thực hiện thủ công Điều này dễ dàng hơn nhiều cho các loại quan hệ khái quát như quan hệ chung (vẹt là một con chim), hoặc quan hệ thành phần hay bộ phận (bánh xe là một bộ phận của ô tô)

Tiêu đề	Xây Dựng Tự Động Cơ Sở Dữ Liệu Về Cộng Đồng Nghiên Cứu Công Nghệ Thông Tin
Tác giả	Đỗ Bá Lâm
Người hướng dẫn	TS. Lê Thanh Hương
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn thạc sĩ khoa học công nghệ thông tin
Năm xuất bản	2011
Thành phố	Hà Nội

Định dạng
Số trang	99
Dung lượng	5,16 MB