1. Trang chủ
  2. » Công Nghệ Thông Tin

Trích rút thực thể trong văn bản tiếng việt

64 264 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1 MB

Nội dung

Trước nhu cầu đó, tác giả đã lựa chọn đề tài này với mong muốn xây dựng hệ thống có thể trích rút các thông tin quan trọng về bất động sản phục vụ nhu cầu tìm kiếm theo mô hình hỏi đáp t

Trang 1

1

MỤC LỤC

MỤC LỤC 1

LỜI CAM ĐOAN 4

LỜI CẢM ƠN 5

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

DANH MỤC HÌNH VẼ 8

CHƯƠNG I: TỔNG QUAN 9

1.1 Lý do chọn đề tài 9

1.2 Mục đích nghiên cứu 10

1.3 Nội dung nghiên cứu 10

1.4 Bố cục luận văn 11

1.5 Ý nghĩ của luận văn 12

CHƯƠNG II TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ 13

2.1 Tổng quan về trích rút thông tin 13

2.1.1 Bài toán trích rút thông tin 13

2.1.2 Khái niệm trích rút thông tin 14

2.1.3 Các phương pháp trích rút thông tin 15

2.1.4 Thành phần hệ thống trích rút thông tin 18

Trang 2

2

2.1.5 Các ứng dụng liên quan 23

2.1.6 Phương pháp đánh giá 27

2.2 Trích rút thực thể trong văn bản tiếng Việt 29

2.2.1 Bài toán trích rút thực thể 29

2.2.2 Kiến trúc hệ thống trích rút thực thể 31

2.2.3 Hướng tiếp cận giải quyết bài toán NER 33

2.2.4 Một số ứng dụng thực tế 35

2.3 Ứng dụng trích rút thực thể vào bài toán hỏi đáp 36

2.3.1 Bài toán hỏi đáp 36

2.3.2 Hướng tiếp cận cho bài toán hỏi đáp 38

CHƯƠNG III BÀI TOÁN TRÍCH RÚT THÔNG TIN BẤT ĐỘNG SẢN 39

3.1 Bài toán trích rút thông tin bất động sản 39

3.1.1 Mô tả bài toán 39

3.1.2 Phương pháp giải quyết 41

3.2 Ứng dụng trích rút thông tin vào bài toán hỏi đáp thông tin bất động sản 49 3.2.1 Bài toán hỏi đáp thông tin BĐS 49

3.2.2 Phương pháp giải quyết 50

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 55

4.1 Tập dữ liệu 55

Trang 3

3

4.2 Đánh giá kết quả hệ thống trích rút thông tin 56

4.3 Đánh giá kết quả hệ thống hỏi đáp 57

4.4 Các khó khăn 58

CHƯƠNG V TỔNG KẾT 60

5.1 Các kết quả đạt được 60

5.2 Hướng nghiên cứu tiếp theo 60

TÀI LIỆU THAM KHẢO 62

Trang 4

4

LỜI CAM ĐOAN

Tôi xin cam đoan Luận Văn là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS TS Lê Thanh Hương Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác Tôi xin chịu hoàn toàn trách nhiệm về nội dung quyển luận văn này

Tác giả

Đặng Thị Phương

Trang 5

5

LỜI CẢM ƠN

Để hoàn thành luận văn này, tác giả đã nhận được sự hướng dẫn tận tình cũng như những yêu cầu nghiêm khắc của PGS.TS Lê Thanh Hương, người đã truyền đạt rất nhiều kiến thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận văn này Tác giả xin gửi lời cảm ơn chân thành tới cô

Xin gửi lời cảm ơn chân thành tới tất cả các thầy cô Viện Công nghệ Thông tin, Ban lãnh đạo Viện Công nghệ Thông tin, Viện đào tạo Sau đại học và Bộ môn Hệ thống Thông tin thuộc trường Đại học Bách Khoa Hà Nội đã giảng dạy và tạo điều kiện thuận lợi trong quá trình nghiên cứu và hoàn thành luận văn

Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và khách quan, luận văn không tránh khỏi những thiếu sót Tác giả rất mong được sự góp

ý của quý thầy cô, các bạn bè và đồng nghiệp để luận văn được hoàn thiện hơn

Tác giả

Đặng Thị Phương

Trang 6

6

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

CRF Conditional Random Field

GATE General Architecture for Text Engineering

IE Information Extraction

MUC Message Understanding Conference

NER Named Entity Recognition

NLP Natural Language Processing

Trang 7

7

DANH MỤC CÁC BẢNG

Bảng 1 Bảng gợi ý hướng tiếp cận xây dựng hệ thống IE 18

Bảng 2 Độ chính xác các module IE 23

Bảng 3 Độ chính xác hệ thống NER trong các ngôn ngữ 31

Bảng 4: Môi trường cài đặt 55

Bảng 5 Danh sách công cụ phần mềm 56

Bảng 6 Bảng đo độ chính xác 57

Trang 8

8

DANH MỤC HÌNH VẼ

Hình 1 Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức 16

Hình 2 Mô hình xây dựng IE theo học máy 17

Hình 3 Các thao tác chính của hệ thống trích rút 19

Hình 4 Ví dụ trích rút thông tin theo quy trình 22

Hình 5 Ứng dụng IE trong tìm kiếm thông tin 24

Hình 6 Ứng dụng IE trong hệ thống hỏi đáp 26

Hình 7 Hệ thống tìm kiếm bài báo khoa học Citeseer 27

Hình 8 Kiến trúc hệ thống NER 31

Hình 9 Ví dụ hệ thống hỏi đáp 37

Hình 10 Ví dụ thông tin rao vặt bán cấu trúc 40

Hình 11 Mô hình trích rút thông tin BĐS 42

Hình 12 Mô hình trích rút LOC sử dụng NER Stanford 45

Hình 13 Hệ thống hỏi đáp thông tin BĐS 50

Hình 14 Mô hình hệ thống hỏi đáp BĐS 51

Hình 15 Sơ đồ khối trích rút thông tin từ câu hỏi 52

Hình 16 Mô hình bộ trích rút kêt quả 54

Trang 9

có cấu trúc phục vụ nhu cầu tìm hiểu thông tin của người dùng

Thời gian vừa qua, các nghiên cứu về trích rút thông tin đã có rất nhiều thành tựu có

ý nghĩa vô cùng to lớn phục vụ cuộc sống Đã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Cùng với sự phát triển như vũ bão của thị trường bất động sản trong thời gian gần đây, nhu cầu tìm kiếm và trích rút các thông tin bất động sản ngày càng cần thiết và có ý nghĩa lớn phục vụ cuộc sống

Thông tin về bất động sản tồn tại dưới dạng bản tin trên các trang web khác nhau

có cấu trúc không giống nhau Các thông tin này chủ yếu là bán cấu trúc hoặc không có cấu trúc Vì vậy quá trình tổng hợp, thống kê và tìm kiếm thông tin bất động sản là một khó khăn đối người dùng Trước nhu cầu đó, tác giả đã lựa chọn đề tài này với mong muốn xây dựng hệ thống có thể trích rút các thông tin quan trọng về bất động sản phục

vụ nhu cầu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng

Trang 10

- Dựa trên các kết quả được trích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhu cầu tìm kiếm thông tin bất động sản

1.3 Nội dung nghiên cứu

Luận văn này sẽ tập trung vào việc trích rút thực thể từ văn bản bán và phi cấu trúc thuộc lĩnh vực bất động sản trên môi trường Web Các tập dữ liệu thử nghiệm được thu thập từ các trang web giao bán bất động sản phổ biến hiện nay

Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp trích rút dựa trên luật, từ điển và trích rút dựa trên học máy Tùy từng đối tượng trích rút cụ thể sẽ có phương pháp riêng cho phù hợp để thu được kết quả tốt nhất Đã có rất nhiều kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác cao, cũng như các công cụ hỗ trợ quá trình trích rút, nên hệ thống này được xây dựng dựa trên một số các kết quả và công cụ đó

Trang 11

11

1.4 Bố cục luận văn

Bố cục luận văn cụ thể như sau:

Chương I: Tổng quan

Chương này giới thiệu tổng quan lý do chọn để tài, mục tiêu, bố cục, nội dung và

ý nghĩ của luận văn

Chương II: Tổng quan về trích rút thông tin

Trong trương này, tác giả giới thiệu tổng quan về cơ sở lý thuyết trích rút thông tin, trích rút thực thể: các phương pháp tiếp cận, kiến trúc hệ thống và nghiên cứu ứng dụng thực tế

Chương III: Bài toán trích rút thực thể trong văn bản tiếng Việt

Chương này giới thiệu bài toán trích rút thông tin bất động sản, mô hình xây dựng

hệ thống, các phương pháp áp dụng

Chương IV: Thực nghiệm và đánh giá

Mô tả hệ thống thực nghiệm, đánh giá kết quả thực nghiệm, khó khăn hạn chế của ứng dụng

Chương V: Tổng kết

Tổng kết một số kết quả đạt được và định hướng phát triển luận văn trong tương lai

Trang 12

12

1.5 Ý nghĩ của luận văn

Sau đây là một số kết quả đạt được trong luận văn:

- Luận văn đã tập trung tìm hiểu về trích rút thông tin và trích rút thực thể trong văn bản tiếng Việt, các phương pháp và kiến trúc chung của hệ thống

- Áp dụng bài toán trích rút thực thể vào lĩnh vực bất động sản để trích rút các thông tin cơ bản từ các bản tin bán cấu trúc và phi cấu trúc trên web, phục vụ nhu cầu tìm kiếm của người dùng

- Xây dựng mô hình hỏi đáp thân thiện với người dùng để phục vụ việc tìm kiếm thông tin của người dùng

Với những kết quả đã đạt được, luận văn đã mang lại một số kết quả nghiên cứu nhất định, đồng thời mở ra hướng nghiên cứu cho nhiều lĩnh vực khác

Trang 13

13

CHƯƠNG II: TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ

Trong chương này, luận văn sẽ trình bày lý thuyết về trích rút thông tin, trích rút thực thể, áp dụng trích rút thực thể vào bài toán hỏi đáp, kiến trúc hệ thống, các hướng tiếp cận và ứng dụng thực tế

2.1 Tổng quan về trích rút thông tin

2.1.1 Bài toán trích rút thông tin

Đứng trước một kho dữ liệu mà thông tin quan tâm nằm rải rác trên các văn bản, bài toán đặt ra là làm thế nào để lấy được hết các thông tin quan tâm một cách nhanh nhất, phù hợp nhất phục vụ nhu cầu người dùng? Đây chính là lý do chính cho bài toán trích rút thông tin ra đời nhằm trích rút ra các thông tin có cấu trúc từ các nguồn dữ liệu khác nhau Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu toàn bộ nội dung của văn bản, nhưng phải có khả năng phân tích văn bản và tìm kiếm các thông tin liên quan mà hệ thống mong muốn được tìm thấy

Việc trích rút thông tin là việc khó khăn và thu hút sự quan tâm đông đảo của cộng đồng các nhà nghiên cứu trong suốt hơn hai thập kỉ vừa qua Đầu tiên là sự quan tâm của cộng đồng các nhà xử lý ngôn ngữ tự nhiên, sau đó là đông đảo các nhà nghiên cứu về truy vấn thông tin, cơ sở dữ liệu, phân tích văn bản, Hai hội nghị quan trọng đối với các nghiên cứu về trích rút thông tin là: Automatic Content Extraction (ACE)

và Messge Understanding Conference (MUC)

Bài toán trích rút thông tin được áp dụng trong nhiều lĩnh vực nhằm trích rút dữ liệu từ nhiều nguồn khác nhau, có thể là từ thư viện các tài liệu, các mẫu tin trên web,

từ email, Dữ liệu chủ yếu ở dạng bán cấu trúc hoặc không cấu trúc và thường được lấy từ các trang web trên internet, qua các kỹ thuật phân tích, khai thác dữ liệu để trích

Trang 14

14

rút các mẫu thông tin hữu ích Ví dụ với việc cấu trúc lại thông tin từ tin quảng cáo, tin bán hàng trên internet có thể giúp hỗ trợ tư vấn, định hướng người dùng khi mua sắm Việc trích rút và cấu trúc lại các mẫu tin tìm người, tìm việc sẽ giúp cho quá trình phân tích thông tin nghề nghiệp, xu hướng công việc hỗ trợ cho người tìm việc cũng như nhà tuyển dụng

2.1.2 Khái niệm trích rút thông tin

Hiện nay có rất nhiều định nghĩa khác nhau về trích rút thông tin Sau đây là các định nghĩa được dùng phổ biến trên internet liên quan đến trích rút thông tin:

- Theo những chuyên gia về trích rút thông tin của GATE [16] thì những hệ thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng được định nghĩa trước Các thông tin có thể

là sự kiện, các thực thể hay các mối quan hệ

- Theo Eikvil(1999) [12]: Trích rút thông tin là việc xác định và trích rút các đối tượng, sự kiện hay mối quan hệ trong một văn bản ngôn ngữ tự nhiên và chuyển đổi nó thành đối tượng có cấu trúc

- Theo tiến sĩ Alexander Yates [1] ở trường đại học Washington thì trích rút thông tin là quá trình truy vấn những thông tin cấu trúc từ những văn bản không cấu trúc

Như vậy có thể hiểu trích rút thông tin là quá trình phát hiện các thông tin có cấu trúc từ văn có cấu trúc, bán cấu trúc hay phi cấu trúc sau đó lưu trữ dưới dạng dữ liệu

có cấu trúc (ví dụ: cơ sở dữ liệu, file xml, file text có định dạng, ) Trích rút thông tin

là một kỹ thuật, lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin, khai thác dữ liệu, cũng như xử lý ngôn ngữ tự nhiên

Các nghiên cứu hiện nay liên quan đến trích rút thông tin văn bản tập trung vào:

Trang 15

15

- Trích rút thực thể có tên (Named Entity Recognition): việc trích rút ra các thực thể có tên tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một địa danh, nơi chốn

- Trích rút quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa các thực thể đã nhận biết từ tài liệu

2.1.3 Các phương pháp trích rút thông tin

Để giải quyết bài toán trích rút thông tin, có rất nhiều hướng xử lý nhưng có thể chia thành hai phương pháp chính [5,8] là dựa vào tri thức và dựa vào học máy

a Hướng tiếp cận dựa trên tri thức

Có rất nhiều hệ thống trích rút trên thế giới được xây dựng dựa trên hướng tiếp cận này, ví dụ [8]: AutoSlog(Riloff, 1993), Crystal (Soderland, 1995), iASA(Tang, 2005b), Hướng tiếp cận này mang dấu ấn bới những chuyên gia về ngôn ngữ, họ chính là một thành phần của hệ thống IE và được gọi là “knowlegde engineer “ [5] Đặc điểm của việc xây dựng hệ thống theo hướng tiếp cận này là hệ thống luật được xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng của từng người trong từng lĩnh vực, các mẫu hay các luật được tạo ra và được kiểm duyệt một cách kỹ lưỡng

có quy mô bởi các “knowlegde engineer” Với các hệ thống xây dựng theo hướng này, ngoài việc đòi hỏi phải có kiến thức cụ thể và kỹ năng cần thiết về lĩnh vực, hệ thống còn yêu cầu những kiến thức đó phải đủ lớn bao trùm miền tri thức để có thể trích rút được đầy đủ và chính xác

Để xây dựng một hệ thống có hiệu suất cao thường những quy tắc luôn được kiểm định nhiều lần, được sửa lặp đi lặp lại để tối ưu hệ thống Có thể mô hình hóa việc xây dựng này theo hình sau:

Trang 16

16

Tập luật ban đầu (R)

Cập nhật tập luật

(Thêm, sửa xóa)

Kho tài liệu chưa gán nhãn

knowlegde engineer Xây dựng

Kiểm soát

NER Áp dụng luật thủ công

Hình 1 Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức

Với cách tiếp cận này thì hệ thống hoạt động theo một chu trình Để xây dựng một hệ thống hoạt động tốt đòi hỏi luôn luôn có sự tương tác giữa người viết luật và hệ thống cùng với kho tài liệu huấn luyện và tập luật luôn luôn được cập nhật để cho hệ thống có thể hoạt động tốt nhất

b Hướng tiếp cận dựa trên mô hình học máy

Với hệ thống IE được xây dựng theo hướng tiếp cận dựa trên tri thức thì chu trình kiểm tra và sửa lỗi gặp rất nhiều khó khăn và phụ thuộc vào nhiều yếu tố như: loại ngôn ngữ, thời gian và khả năng viết luật

Để khắc phục giới hạn trên, phải xây dựng một mô hình bằng cách nào đó có thể

tự học được Với mô hình này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính linh hoạt cho hệ thống Phương pháp này chủ yếu dựa vào học máy thống kê Có rất nhiều phương pháp học máy như mô hình Markov ẩn (Hidden

Trang 17

17

Markov Models-HMM), các mô hình Markov cực đại hóa Entropy (Maximum Markov Models – MEMM), mô hình các trường ngẫu nhiên có điều kiện ( Conditional Random Fields – CRF), phương pháp máy vector hỗ trợ ( Support Vector Machine –SVM)

Các đặc điểm phải kể đến của việc xây dựng hệ thống IE theo hướng học máy là không cần một người nào đó hiểu biết về việc viết luật như thế nào Điều cần thiết ở đây là một người nào đó biết được miền ứng dụng và hiểu được những thông tin cần trích rút Khi dữ liệu huấn luyện được chú thích, thuật toán huấn luyện chạy và sinh ra những thông tin học được hay còn gọi là model để phục vụ cho quá trình trích chọn tự động sau này Các thuật học sẽ dựa trên dữ liệu để tự học và thu được một model, dựa trên model này nó sẽ trích chọn các thông tin trên dữ liệu mới Mô hình với hướng tiếp cận này được mô tả như sau:

Dữ liệu huấn

Model

Hình 2 Mô hình xây dựng IE theo học máy

Với hệ thống IE xây dựng hướng này phải tập trung vào việc tạo ra dữ liệu huấn luyện Khi đó thông qua việc quy định thuật toán học, hệ thống có thể tự học mà không cần sự can thiệp của bất kỳ chuyên gia nào Tuy vậy việc xây dựng và lưu trữ tập dữ liệu huấn luyện rất khó và chi phí cao vì để hệ thống có thể thực hiện tốt thì yêu cầu tập

Trang 18

Sau đây là một so sánh giữa hai phương pháp [5]:

 Cần bộ DL huấn luyện được gán nhãn

 Khi bộ DL huấn luyện có kích thước lớn (đủ tốt) thì hệ thống có

Trang 19

19

Hình 3 Các thao tác chính của hệ thống trích rút

Qua mô hình trên có thể thấy, hệ thống trích rút bao gồm các khối cơ bản: tiền xử

lý, trích rút thực thể, giải quyết đồng tham chiếu, xây dựng mẫu phần tử, xây dựng mẫu quan hệ, đƣa ra mẫu kịch bản Tùy thuộc vào từng ngôn ngữ, từng bài toán cụ thể mà

có thể thêm hoặc bớt một vài khối trên

a Tiền xử lý

Quá trình tiền xử lý gồm nhiều thao thác, sau đây là một số thao tác cụ thể Với mỗi hệ thống có thể bao gồm toàn bộ hoặc một số thao tác sau [5]:

- Nhận biết định dạng văn bản: Với một văn bản đầu vào nói chung, hệ thống

phải nhận biết định dạng tài liệu là gì: file word, file dạng html,

Văn bản đầu vào Tiền xử lý Trích rút thực thể Giải quyết đồng tham chiếu

Xây dựng mẫu phần tử Xây dựng mẫu quan hệ Đƣa ra mẫu kịch bản

Mẫu trích rút

Hệ thống trích rút thông tin

Trích rút quan hệ

Trang 20

20

- Tách câu: Một văn bản đầu vào qua module này sẽ được tách thành các câu

Có thể dựa vào các dấu hiệu kết thúc câu để tách, ví du như dấu “.”, dấu “?”, dầu “!”

- Tách từ: Mỗi câu lại được tách thành các từ Với các ngôn ngữ như tiếng

Anh, tiếng Pháp việc tách từ đơn giản dựa vào khoảng kí tự trắng Ví dụ

với một chuỗi đầu vào là “ công nghệ thông tin “, khi quy định khoảng trắng

là để phân tách các từ, thì qua module này chuỗi câu trên sẽ được tách thành

4 từ như sau [công, nghệ, thông, tin]

- Phân đoạn từ: Với một số ngôn ngữ như tiếng Trung hay tiếng Nhật, không

có ranh giới rõ ràng phân tách giữa các từ, nên việc tách từ khá phức tạp, vì vậy phải có module phân đoạn từ để tách được rõ ràng và chính xác các từ

- Gán nhãn từ loại: Các từ sau khi được phân tích hình thái sẽ được gán nhãn

từ loại dựa vào từ điển từ Mỗi từ sẽ được gán một nhãn về từ loại bằng cách

sử dụng từ điển nhãn được định nghĩa sẵn Thông thường nhất sẽ có các nhãn sau: N(danh từ), V(động từ), Adj(tính từ), Pre(giới từ),

Ví dụ: Với đầu vào là câu đã được tách thành các từ:

Steve/Job/introduces/the/ Iphone/6/

Sau khi gán nhãn sẽ có dạng

Steve –N /Job – N /introduces - V/the - N/ Iphone- N /6- N /

b Trích rút thực thể ( Named Entity Recognition – NER)

Hay còn gọi là nhận dạng thực thể có tên ( NER) Module này thực hiện nhận dạng và trích rút các lớp thực thể như: tên người (PER), địa điểm(LOC), ngày(DATE), Việc nhận dạng thực thể có thể có độ chính xác lên tới 97% với tiếng Anh

Trang 21

21

c Giải quyết đồng tham chiếu ( Co reference – CO)

Một đối tượng có thể xuất hiện trong một văn bản với nhiều tên khác nhau Vì vậy bài toán đặt ra là cần xác định chính xác các trường hợp cùng tham chiếu tới một đối tượng Nhận dạng đồng tham chiếu giữa các thực thể bằng cách kết hợp những thông tin mô tả nằm rải rác trên văn bản tới các thực thể mà nó tham chiếu tới Các quan hệ đồng tham chiếu được phân loại như sau:

Camry và Inova là hai dòng xe nổi tiếng của Toyota

d Xây dựng mẫu phần từ (Template Element – TE)

Xây dựng các mẫu thông tin mô tả tới thực thể đã được trích rút Module này được xây dựng dựa trên quá trình trích rút thực thể và giải quyết đồng tham chiếu, từ

đó sẽ đưa ra một khuôn mẫu thông tin chung cho các thực thể Về cơ bản đó cũng như các bản ghi trong cơ sở dữ liệu

e Xây dựng mẫu quan hệ ( Templete Relation - TR)

Trang 22

22

Module này thực hiện tìm và trích rút ra quan hệ giữa các thực thể

f Đƣa ra mẫu kịch bản ( Scenario Template - ST)

ST là nguyên mẫu định dạng đầu ra của hệ thống IE Chúng ràng buộc các thực thể TE với nhau trong sự kiện hay mối quan hệ Điều chỉnh các kết quả TE và TR cho phù hợp với các kịch bản sự việc cụ thể Đây là môt nhiệm vụ khó của IE

Sau đây là một ví dụ cụ thể về quá trình trích rút thông tin từ một đoạn tin:

We Build Rockets Inc

Hình 4 Ví dụ trích rút thông tin theo quy trình

Với mỗi module trong quá trình trích rút lại có khó khăn riêng và độ chính xác cũng khác nhau tùy thuộc vào miền dữ liệu, ngôn ngữ Sau đây là một số thống kê trung bình về độ chính xác tối đa của mỗi module theo J H Wang [10] thực hiện vào năm 2008:

NE: Trích rút ra các thực thể: “rocket”,

“Tuesday”, “Dr Head”, “We Build Rockets” Inc

The shiny red

rocket was fired on

Tuesday It is the

brainchild of Dr Big

Head Dr Head is a

staff scientist at We

Build Rockets Inc

CO: “It” - “rocket”, “Dr.Head”- “Dr.Big

Head” có quan hệ đồng tham chiếu cũng có

ham

TE: “rocket” có thuộc tính là “shiny red” và

Head „s "brainchild"

ST: Sự kiện phóng tên lửa

TR: Quan hệ giữa các thực thể: “Dr Head”

làm việc cho “We Build Rockets”

Trang 23

23

IE được áp dụng nhiều trong quá trình tìm kiếm thông tin phục vụ việc tối ưu kết quả tìm kiếm Ví dụ với hệ thống hỗ trợ việc làm, khi người dùng có nhu cầu tìm kiếm một công việc dùng Goolge Search thì rõ ràng công cụ Google Search Engine không thật sự hiểu và đáp ứng được các yêu cầu tìm kiếm của người dùng Những thông tin người dùng thực sự quan tâm như: các công ty nào có tuyển dụng chức danh hay một nghề nghiệp nào đó, thông tin về các công ty cần tuyển dụng, liên hệ với ai, chế độ chính sách của mỗi công ty như thế nào, những thông tin phản hồi, ý kiến nhận xét từ các nhân viên đã và đang làm tại các công ty ra sao Tất cả những thông tin như vậy cần thiết phải được trích rút, tổng hợp và tư vấn cho người dùng một cách có hệ thống Hay trong lĩnh vực du lịch, ví dụ, một người dùng muốn tìm kiếm thông tin về các nhà hàng trên đường Nguyễn Du ở Hà nội, kết quả tìm kiếm sẽ cho ra rất nhiều nhà hàng trên đường Nguyễn Du ở Hà nội, Sài Gòn, Đà Nẵng, Do hệ thống tìm theo các từ

Trang 24

24

khóa trong đó có 2 từ khóa “Nhà hàng”, “Nguyễn Du” Để cải thiện kết quả chúng ta tích hợp thêm hệ thống trích rút mối quan hệ vào hệ thống tìm kiếm để loại bỏ đi kết quả không mong muốn Trong trường hợp này, thông tin về nhà hàng trên đường Nguyễn Du ở Sài Gòn, Đà Nẵng sẽ không được hiển thị trên kết quả tìm kiếm Do đó kết quả tìm kiếm sẽ chính xác hơn

Hình 5 Ứng dụng IE trong tìm kiếm thông tin

IE là công cụ hỗ trợ của Web ngữ nghĩa Web ngữ nghĩa là các trang Web có thể biểu diễn dữ liệu có khả năng kết hợp, phân lớp và khả năng suy diễn trên dữ liệu đó

Sự thành công của các Web ngữ nghĩa phụ thuộc vào khả năng của các ontology cũng như sự phát triển của các trang Web được chú giải bởi các siêu dữ liệu tuân theo các ontology này Trong khi những lợi ích mà Web ngữ nghĩa đem lại rất lớn thì việc xây dựng các ontology một cách thủ công là hết sức khó khăn Vì lý do này, các công cụ trích rút thông tin tự động từ các trang Web để “làm đầy” các ontology như hệ thống nhận biết các loại thực thể là hết sức cần thiết

Trang 25

25

IE ứng dụng vào các hệ thống hỏi đáp QA (Question Answering) tự động dựa vào kết quả trả về của máy tìm kiếm IE hỗ trợ hệ thống trả lời câu hỏi tự động Trong hệ thống hỏi đáp tự động, việc sử dụng hệ thống trích rút mối quan hệ giữa các thực thể đóng vai trò quan trọng Hệ thống hỏi đáp có thể biết tên của một người và đưa ra các thông tin liên quan đến người đó (địa chỉ, chức vụ, cơ quan làm việc….), hệ thống hỏi đáp có thể cho biết các thông tin về các địa danh du lịch và đưa ra các thông tin liên quan về địa danh đó như các bãi biển, khu nghỉ dưỡng… Xem xét một ví dụ dưới đây:

Ví dụ người dùng cần hỏi “Ai là người sáng lập Facebook? ”, kết quả trả về từ các search engine rất nhiều và hệ thống phải tìm cách trích ra câu trả lời mà người dùng mong chờ, đó là “Mark Zuckerberg” Khi người dùng gửi một câu hỏi đến hệ thống

có dạng như: “Quảng Ninh có những đảo nào? “ Hệ thống sẽ phân tích câu hỏi và đưa

ra thực thể “Quảng Ninh”, mối quan hệ “có_đảo” giữa một địa điểm và một hay nhiều bãi biển nào đó Dựa trên những thông tin này hệ thống sẽ trích rút tất cả mối quan hệ

“có_đảo” có liên quan đến thực thể địa điểm ”Quảng Ninh” trong tập các văn bản lưu trữ trong hệ thống Câu trả lời mà hệ thống đưa ra cho người dùng chính là tên các hòn đảo có trong mối quan hệ “có_đảo” đã được trích rút ở trên

Trang 26

26

Hình 6 Ứng dụng IE trong hệ thống hỏi đáp

IE ứng dụng trong các hệ thống hỗ trợ, tư vấn mua hàng dưới dạng hệ gợi ý Ví

dụ khi người dùng cần mua một món hàng, những thông tin mà người dùng quan tâm đến như: thông tin sản phẩm (giá cả từ các cửa hàng, chất lượng sản phẩm, thông tin phản hồi từ người dùng), thông tin nhà cung cấp (chế độ hậu mãi, chất lượng dịch vụ, ), thông tin các sản phẩm cùng loại, Người dùng phải tốn nhiều thời gian đề tìm kiếm và tự động trích xuất, tổng hợp thông tin theo kiểu của mình để có thể quyết định cho việc mua hàng

IE dùng cho việc trích rút thông tin từ các bài báo khoa học như tên tác giả, tiêu

đề từ mục “header của bài báo” cũng như những thông tin từ mục “reference” ứng dụng xây dựng các hệ thống tổ chức chỉ mục, tìm kiếm bài báo khoa học Một hệ thống tìm kiếm bài báo khoa học được dùng rộng rãi đó là Citeseer tại hình sau:

Trang 27

đo đƣợc sử dụng trong lĩnh vực truy vấn thông tin (IR) đó là độ chính xác

“Precision”(P) và độ phủ “Recall”(R) [9,11]

Trang 28

28

Độ chính xác Precision (P): là độ đo thể hiện khả năng tin cậy của thông tin được trích xuất Được tính là tỷ lệ giữa tổng số câu trả lời đúng tìm thấy với tổng số câu trả lời tìm thấy

Độ phủ Recall (R): Thể hiện tỷ lệ thông tin được rút trích đúng Bao nhiêu phần trăm thông tin được rút là đúng Tỷ lệ giữa số lượng câu trả lời đúng tìm thấy với tổng

số câu trả lời đúng

tn tp

tp P

Trong đó

tp: Số kết quả đúng được tìm thấy

tn: Số kết quả đúng không được tìm thấy

fp: Số kết quả tìm thấy không đúng

P và R thuộc khoảng [0,1], kết quả tốt nhất là 1 P và R có liên quan và ảnh

hưởng lẫn nhau Khi so sánh, đánh giá một hệ thống hay một phương pháp nên so sánh

và đánh giá dựa trên cả P và R Theo Line Eikvil, việc so sánh, xem xét cả hai thông số cùng lúc không phải đơn giản, và dễ dàng Vì thế người ta đã tìm cách kết hợp hai độ

đo này và đề xuất một độ đo mới, đó là F-Measure (F)

Thông số β xác định mức độ tương quan giữa độ chính xác R (Recall) và độ tin cậy P (Precision) Các chuyên gia về trích rút thông tin thường sử dụng β = 1 để đánh

Trang 29

R P

R P F

Nhận dạng thực thể tên là một nhiệm vụ cơ bản của hệ thống trích rút thông tin, đồng thời cũng là thành phần cốt lõi của hệ thống xử lý ngôn ngữ tự nhiên Nhận dạng thực thể đã được quan tâm và nghiên cứu từ rất lâu Năm 1996, tại hội thảo MUC lần thứ 6 đã định nghĩa nhận dạng thực thể có tên là xác định và trích rút thực thể

Việc nhận dạng những đối tượng có tên tương đối đơn giản tuy nhiên vẫn tồn tại rất nhiều nhập nhằng làm cho việc nhận biết các loại thực thể trở nên khó khăn Ví dụ

“Hồ Chí Minh” có lúc được sử dụng như tên người nhưng có lúc được sử dụng như tên địa danh, Đặc biệt trong Tiếng Việt thì các nhập nhằng đó lại nhiều hơn do sự phức tạp của ngữ pháp ( cụm động từ, cụm danh từ, ) cũng như không có nguồn từ điển đầy đủ để tra cứu

Trang 30

30

Ta tìm hiểu một ví dụ: “Hồ Chí Minh là một nhà cách mạng, người sáng lập Đảng Cộng sản Việt Nam, một trong những người đặt nền móng và lãnh đạo công cuộc đấu tranh giành độc lập, toàn vẹn lãnh thổ cho Việt Nam trong thế kỷ 20, một chiến sỹ cộng sản quốc tế.”

Với ví dụ trên, sau quá trình nhận dạng thực thể, ta mong muốn đánh dấu được

như sau: “<PER>Hồ Chí Minh</PER> là một nhà cách mạng, người sáng lập<ORG> Đảng Cộng sản Việt Nam</ORG>, một trong những người đặt nền móng

và lãnh đạo công cuộc đấu tranh giành độc lập, toàn vẹn lãnh thổ cho <LOC>Việt Nam</LOC> trong thế kỷ 20, một chiến sỹ cộng sản quốc tế”

Với ví dụ trên, trong hệ thống nhận biết thực thể tiếng Việt, quá trình gán nhãn cho dữ liệu sẽ gặp khó khăn cho cụm từ “Đảng Cộng sản Việt Nam”, đây là tên của một tổ chức nhưng không phải chữ cái nào cũng viêt hoa

Có rất nhiều những nghiên cứu về NER trong những năm gần đây mà phần lớn hướng đến là giải quyết nhập nhằng của các đối tượng Tiềm năng của việc xây dựng một hệ thống nhận dạng thực thể có tên trong ngôn ngữ một cách chính xác là nhằm hỗ trợ các hệ thống khác trong xử lý ngôn ngữ tự nhiên như:

- Hệ thống tìm kiếm trên Internet

- Tóm tắt văn bản, bài báo bằng cách trước khi đọc bài báo, người đọc có thể lướt qua danh sách người, địa điểm, hay tổ chức được đề cập đến trong nội dung của bài báo

- Lập chỉ mục tự động Rất nhiều cuốn sách việc lập chỉ mục đa phần là dựa trên các đối tượng có tên mà chúng đề cập đến

Nhận dạng thực thể tên có thể thực hiện với độ chính xác tới 96%, các ngôn ngữ khác nhau bài toán NER có độ chính xác khác nhau Sau đây là một số thống kê:

Trang 31

Tiếng Trung Quốc 84.51%

Bảng 3 Độ chính xác hệ thống NER trong các ngôn ngữ

Trang 32

32

một số trường hợp thì nguyên tắc này không đúng, ví dụ như sự xuất hiện của dấu “.” trong thông tin số

- Đầu vào: Một đoạn văn bản

- Đầu ra: Danh sách các câu

Bước 2: Tách từ (token)

Với một chuỗi văn bản đầu vào, qua bước này sẽ tách thành các Token Có thể sử dụng khoảng trắng để tách giữa các Token Ví dụ một chuỗi “công nghệ thông tin” sẽ được tách thành 4 Token như sau: [ công, nghệ, thông, tin]

- Đầu vào: Đoạn văn bản, câu văn bản

- Đầu ra: Danh sách Token

Bước 3: Gán nhãn từ loại

Được sử dụng sau khi tách từ trong câu Mỗi từ sẽ được gán một nhãn về từ loại bằng cách sử dụng từ điển nhãn được định nghĩa sẵn Trong tiếng Việt, thông thường nhất sẽ có các nhãn sau: danh từ(N), động từ(V), tính từ(A), đại từ(P), số từ (M), định

từ (D), phụ từ (R), giới từ (E), cảm từ(O), Cụ thể hơn ta có một số phân loại như trong danh từ lại có các loại: danh từ riêng (Np), danh từ chỉ loại (Nc), danh từ vị trí (Nl),

Ví dụ:

Ta có câu sau : Anh Nam đang chơi đàn Piano

Sau khi gán nhãn từ loại : Anh/ N Nam /N đang/ R chơi /V đàn/ Nc Piano /N

Ngày đăng: 25/07/2017, 21:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Arshdeep Singh, Jyoti Rani, Kuljot Singh. (2013), Name Entity Recognition: A Review, International Journal of Computer Science and Communication Engineering IJCSCE Special issue on ICETE 2013 Sách, tạp chí
Tiêu đề: Name Entity Recognition: A Review
Tác giả: Arshdeep Singh, Jyoti Rani, Kuljot Singh
Năm: 2013
5. Douglas E. Appelt, David J. Israel, (1999), Introduction to Information Extraction Technology, A Tutorial Prepared for IJCAI-99 Sách, tạp chí
Tiêu đề: Introduction to Information Extraction Technology
Tác giả: Douglas E. Appelt, David J. Israel
Năm: 1999
10. J. H. Wang. (2008). Text Retrieval and Applications – More Advanced Topics 11. Katharina Kaiser and Silvia MikschVienna University of Technology Institute of Sách, tạp chí
Tiêu đề: Text Retrieval and Applications – More Advanced Topics
Tác giả: J. H. Wang
Năm: 2008
13. Mónica Marrero, Julián Urbano, Sonia Sánchez-Cuadrado, Jorge Morato, Juan Miguel Gómez-Berbís () ” Named Entity Recognition: Fallacies, Challenges and Opportunities” Sách, tạp chí
Tiêu đề: ” Named Entity Recognition: Fallacies, Challenges and Opportunities
1. Alexander Yates. (2007), Techniques and Applications Khác
3. Arun D Panicker, Athira U, Sreesha Venkitakrishnan. (2012), Question Classification using Machine Learning Approaches Khác
4. Artem Boldyrev, Prof. Dr. Gerhard Weikum. (2013), Dictionary-Based Named Entity Recognition Khác
7. Jenny Rose Finkel.(2007), Named Entity Recognition and the Stanford NER Software Khác
8. Jie Tang, Mingcai Hong, Duo Zhang, Bangyong Liang, and Juanzi Li. Information Extraction: Methodologies and Applications Khác
9. Ziqi Zhang. (2013), Named Entity Recognition – Chanllenges In Document Annotation, Gazetter Construction And Disambiguation Khác
12. Line Eikvil. (1999), Information Extraction from World Wide Web Khác
14. Rohini Srihari and Wei Li. (1999), Information Extraction Supported Question Answering Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w