Trước nhu cầu đó, tác giả đã lựa chọn đề tài này với mong muốn xây dựng hệ thống có thể trích rút các thông tin quan trọng về bất động sản phục vụ nhu cầu tìm kiếm theo mô hình hỏi đáp t
Trang 11
MỤC LỤC
MỤC LỤC 1
LỜI CAM ĐOAN 4
LỜI CẢM ƠN 5
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 6
DANH MỤC CÁC BẢNG 7
DANH MỤC HÌNH VẼ 8
CHƯƠNG I: TỔNG QUAN 9
1.1 Lý do chọn đề tài 9
1.2 Mục đích nghiên cứu 10
1.3 Nội dung nghiên cứu 10
1.4 Bố cục luận văn 11
1.5 Ý nghĩ của luận văn 12
CHƯƠNG II TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ 13
2.1 Tổng quan về trích rút thông tin 13
2.1.1 Bài toán trích rút thông tin 13
2.1.2 Khái niệm trích rút thông tin 14
2.1.3 Các phương pháp trích rút thông tin 15
2.1.4 Thành phần hệ thống trích rút thông tin 18
Trang 22
2.1.5 Các ứng dụng liên quan 23
2.1.6 Phương pháp đánh giá 27
2.2 Trích rút thực thể trong văn bản tiếng Việt 29
2.2.1 Bài toán trích rút thực thể 29
2.2.2 Kiến trúc hệ thống trích rút thực thể 31
2.2.3 Hướng tiếp cận giải quyết bài toán NER 33
2.2.4 Một số ứng dụng thực tế 35
2.3 Ứng dụng trích rút thực thể vào bài toán hỏi đáp 36
2.3.1 Bài toán hỏi đáp 36
2.3.2 Hướng tiếp cận cho bài toán hỏi đáp 38
CHƯƠNG III BÀI TOÁN TRÍCH RÚT THÔNG TIN BẤT ĐỘNG SẢN 39
3.1 Bài toán trích rút thông tin bất động sản 39
3.1.1 Mô tả bài toán 39
3.1.2 Phương pháp giải quyết 41
3.2 Ứng dụng trích rút thông tin vào bài toán hỏi đáp thông tin bất động sản 49 3.2.1 Bài toán hỏi đáp thông tin BĐS 49
3.2.2 Phương pháp giải quyết 50
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 55
4.1 Tập dữ liệu 55
Trang 33
4.2 Đánh giá kết quả hệ thống trích rút thông tin 56
4.3 Đánh giá kết quả hệ thống hỏi đáp 57
4.4 Các khó khăn 58
CHƯƠNG V TỔNG KẾT 60
5.1 Các kết quả đạt được 60
5.2 Hướng nghiên cứu tiếp theo 60
TÀI LIỆU THAM KHẢO 62
Trang 44
LỜI CAM ĐOAN
Tôi xin cam đoan Luận Văn là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS TS Lê Thanh Hương Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác Tôi xin chịu hoàn toàn trách nhiệm về nội dung quyển luận văn này
Tác giả
Đặng Thị Phương
Trang 55
LỜI CẢM ƠN
Để hoàn thành luận văn này, tác giả đã nhận được sự hướng dẫn tận tình cũng như những yêu cầu nghiêm khắc của PGS.TS Lê Thanh Hương, người đã truyền đạt rất nhiều kiến thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận văn này Tác giả xin gửi lời cảm ơn chân thành tới cô
Xin gửi lời cảm ơn chân thành tới tất cả các thầy cô Viện Công nghệ Thông tin, Ban lãnh đạo Viện Công nghệ Thông tin, Viện đào tạo Sau đại học và Bộ môn Hệ thống Thông tin thuộc trường Đại học Bách Khoa Hà Nội đã giảng dạy và tạo điều kiện thuận lợi trong quá trình nghiên cứu và hoàn thành luận văn
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và khách quan, luận văn không tránh khỏi những thiếu sót Tác giả rất mong được sự góp
ý của quý thầy cô, các bạn bè và đồng nghiệp để luận văn được hoàn thiện hơn
Tác giả
Đặng Thị Phương
Trang 66
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
CRF Conditional Random Field
GATE General Architecture for Text Engineering
IE Information Extraction
MUC Message Understanding Conference
NER Named Entity Recognition
NLP Natural Language Processing
Trang 77
DANH MỤC CÁC BẢNG
Bảng 1 Bảng gợi ý hướng tiếp cận xây dựng hệ thống IE 18
Bảng 2 Độ chính xác các module IE 23
Bảng 3 Độ chính xác hệ thống NER trong các ngôn ngữ 31
Bảng 4: Môi trường cài đặt 55
Bảng 5 Danh sách công cụ phần mềm 56
Bảng 6 Bảng đo độ chính xác 57
Trang 88
DANH MỤC HÌNH VẼ
Hình 1 Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức 16
Hình 2 Mô hình xây dựng IE theo học máy 17
Hình 3 Các thao tác chính của hệ thống trích rút 19
Hình 4 Ví dụ trích rút thông tin theo quy trình 22
Hình 5 Ứng dụng IE trong tìm kiếm thông tin 24
Hình 6 Ứng dụng IE trong hệ thống hỏi đáp 26
Hình 7 Hệ thống tìm kiếm bài báo khoa học Citeseer 27
Hình 8 Kiến trúc hệ thống NER 31
Hình 9 Ví dụ hệ thống hỏi đáp 37
Hình 10 Ví dụ thông tin rao vặt bán cấu trúc 40
Hình 11 Mô hình trích rút thông tin BĐS 42
Hình 12 Mô hình trích rút LOC sử dụng NER Stanford 45
Hình 13 Hệ thống hỏi đáp thông tin BĐS 50
Hình 14 Mô hình hệ thống hỏi đáp BĐS 51
Hình 15 Sơ đồ khối trích rút thông tin từ câu hỏi 52
Hình 16 Mô hình bộ trích rút kêt quả 54
Trang 9có cấu trúc phục vụ nhu cầu tìm hiểu thông tin của người dùng
Thời gian vừa qua, các nghiên cứu về trích rút thông tin đã có rất nhiều thành tựu có
ý nghĩa vô cùng to lớn phục vụ cuộc sống Đã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Cùng với sự phát triển như vũ bão của thị trường bất động sản trong thời gian gần đây, nhu cầu tìm kiếm và trích rút các thông tin bất động sản ngày càng cần thiết và có ý nghĩa lớn phục vụ cuộc sống
Thông tin về bất động sản tồn tại dưới dạng bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin này chủ yếu là bán cấu trúc hoặc không có cấu trúc Vì vậy quá trình tổng hợp, thống kê và tìm kiếm thông tin bất động sản là một khó khăn đối người dùng Trước nhu cầu đó, tác giả đã lựa chọn đề tài này với mong muốn xây dựng hệ thống có thể trích rút các thông tin quan trọng về bất động sản phục
vụ nhu cầu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng
Trang 10- Dựa trên các kết quả được trích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhu cầu tìm kiếm thông tin bất động sản
1.3 Nội dung nghiên cứu
Luận văn này sẽ tập trung vào việc trích rút thực thể từ văn bản bán và phi cấu trúc thuộc lĩnh vực bất động sản trên môi trường Web Các tập dữ liệu thử nghiệm được thu thập từ các trang web giao bán bất động sản phổ biến hiện nay
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp trích rút dựa trên luật, từ điển và trích rút dựa trên học máy Tùy từng đối tượng trích rút cụ thể sẽ có phương pháp riêng cho phù hợp để thu được kết quả tốt nhất Đã có rất nhiều kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác cao, cũng như các công cụ hỗ trợ quá trình trích rút, nên hệ thống này được xây dựng dựa trên một số các kết quả và công cụ đó
Trang 1111
1.4 Bố cục luận văn
Bố cục luận văn cụ thể như sau:
Chương I: Tổng quan
Chương này giới thiệu tổng quan lý do chọn để tài, mục tiêu, bố cục, nội dung và
ý nghĩ của luận văn
Chương II: Tổng quan về trích rút thông tin
Trong trương này, tác giả giới thiệu tổng quan về cơ sở lý thuyết trích rút thông tin, trích rút thực thể: các phương pháp tiếp cận, kiến trúc hệ thống và nghiên cứu ứng dụng thực tế
Chương III: Bài toán trích rút thực thể trong văn bản tiếng Việt
Chương này giới thiệu bài toán trích rút thông tin bất động sản, mô hình xây dựng
hệ thống, các phương pháp áp dụng
Chương IV: Thực nghiệm và đánh giá
Mô tả hệ thống thực nghiệm, đánh giá kết quả thực nghiệm, khó khăn hạn chế của ứng dụng
Chương V: Tổng kết
Tổng kết một số kết quả đạt được và định hướng phát triển luận văn trong tương lai
Trang 1212
1.5 Ý nghĩ của luận văn
Sau đây là một số kết quả đạt được trong luận văn:
- Luận văn đã tập trung tìm hiểu về trích rút thông tin và trích rút thực thể trong văn bản tiếng Việt, các phương pháp và kiến trúc chung của hệ thống
- Áp dụng bài toán trích rút thực thể vào lĩnh vực bất động sản để trích rút các thông tin cơ bản từ các bản tin bán cấu trúc và phi cấu trúc trên web, phục vụ nhu cầu tìm kiếm của người dùng
- Xây dựng mô hình hỏi đáp thân thiện với người dùng để phục vụ việc tìm kiếm thông tin của người dùng
Với những kết quả đã đạt được, luận văn đã mang lại một số kết quả nghiên cứu nhất định, đồng thời mở ra hướng nghiên cứu cho nhiều lĩnh vực khác
Trang 1313
CHƯƠNG II: TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ
Trong chương này, luận văn sẽ trình bày lý thuyết về trích rút thông tin, trích rút thực thể, áp dụng trích rút thực thể vào bài toán hỏi đáp, kiến trúc hệ thống, các hướng tiếp cận và ứng dụng thực tế
2.1 Tổng quan về trích rút thông tin
2.1.1 Bài toán trích rút thông tin
Đứng trước một kho dữ liệu mà thông tin quan tâm nằm rải rác trên các văn bản, bài toán đặt ra là làm thế nào để lấy được hết các thông tin quan tâm một cách nhanh nhất, phù hợp nhất phục vụ nhu cầu người dùng? Đây chính là lý do chính cho bài toán trích rút thông tin ra đời nhằm trích rút ra các thông tin có cấu trúc từ các nguồn dữ liệu khác nhau Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu toàn bộ nội dung của văn bản, nhưng phải có khả năng phân tích văn bản và tìm kiếm các thông tin liên quan mà hệ thống mong muốn được tìm thấy
Việc trích rút thông tin là việc khó khăn và thu hút sự quan tâm đông đảo của cộng đồng các nhà nghiên cứu trong suốt hơn hai thập kỉ vừa qua Đầu tiên là sự quan tâm của cộng đồng các nhà xử lý ngôn ngữ tự nhiên, sau đó là đông đảo các nhà nghiên cứu về truy vấn thông tin, cơ sở dữ liệu, phân tích văn bản, Hai hội nghị quan trọng đối với các nghiên cứu về trích rút thông tin là: Automatic Content Extraction (ACE)
và Messge Understanding Conference (MUC)
Bài toán trích rút thông tin được áp dụng trong nhiều lĩnh vực nhằm trích rút dữ liệu từ nhiều nguồn khác nhau, có thể là từ thư viện các tài liệu, các mẫu tin trên web,
từ email, Dữ liệu chủ yếu ở dạng bán cấu trúc hoặc không cấu trúc và thường được lấy từ các trang web trên internet, qua các kỹ thuật phân tích, khai thác dữ liệu để trích
Trang 1414
rút các mẫu thông tin hữu ích Ví dụ với việc cấu trúc lại thông tin từ tin quảng cáo, tin bán hàng trên internet có thể giúp hỗ trợ tư vấn, định hướng người dùng khi mua sắm Việc trích rút và cấu trúc lại các mẫu tin tìm người, tìm việc sẽ giúp cho quá trình phân tích thông tin nghề nghiệp, xu hướng công việc hỗ trợ cho người tìm việc cũng như nhà tuyển dụng
2.1.2 Khái niệm trích rút thông tin
Hiện nay có rất nhiều định nghĩa khác nhau về trích rút thông tin Sau đây là các định nghĩa được dùng phổ biến trên internet liên quan đến trích rút thông tin:
- Theo những chuyên gia về trích rút thông tin của GATE [16] thì những hệ thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng được định nghĩa trước Các thông tin có thể
là sự kiện, các thực thể hay các mối quan hệ
- Theo Eikvil(1999) [12]: Trích rút thông tin là việc xác định và trích rút các đối tượng, sự kiện hay mối quan hệ trong một văn bản ngôn ngữ tự nhiên và chuyển đổi nó thành đối tượng có cấu trúc
- Theo tiến sĩ Alexander Yates [1] ở trường đại học Washington thì trích rút thông tin là quá trình truy vấn những thông tin cấu trúc từ những văn bản không cấu trúc
Như vậy có thể hiểu trích rút thông tin là quá trình phát hiện các thông tin có cấu trúc từ văn có cấu trúc, bán cấu trúc hay phi cấu trúc sau đó lưu trữ dưới dạng dữ liệu
có cấu trúc (ví dụ: cơ sở dữ liệu, file xml, file text có định dạng, ) Trích rút thông tin
là một kỹ thuật, lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin, khai thác dữ liệu, cũng như xử lý ngôn ngữ tự nhiên
Các nghiên cứu hiện nay liên quan đến trích rút thông tin văn bản tập trung vào:
Trang 1515
- Trích rút thực thể có tên (Named Entity Recognition): việc trích rút ra các thực thể có tên tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một địa danh, nơi chốn
- Trích rút quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa các thực thể đã nhận biết từ tài liệu
2.1.3 Các phương pháp trích rút thông tin
Để giải quyết bài toán trích rút thông tin, có rất nhiều hướng xử lý nhưng có thể chia thành hai phương pháp chính [5,8] là dựa vào tri thức và dựa vào học máy
a Hướng tiếp cận dựa trên tri thức
Có rất nhiều hệ thống trích rút trên thế giới được xây dựng dựa trên hướng tiếp cận này, ví dụ [8]: AutoSlog(Riloff, 1993), Crystal (Soderland, 1995), iASA(Tang, 2005b), Hướng tiếp cận này mang dấu ấn bới những chuyên gia về ngôn ngữ, họ chính là một thành phần của hệ thống IE và được gọi là “knowlegde engineer “ [5] Đặc điểm của việc xây dựng hệ thống theo hướng tiếp cận này là hệ thống luật được xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng của từng người trong từng lĩnh vực, các mẫu hay các luật được tạo ra và được kiểm duyệt một cách kỹ lưỡng
có quy mô bởi các “knowlegde engineer” Với các hệ thống xây dựng theo hướng này, ngoài việc đòi hỏi phải có kiến thức cụ thể và kỹ năng cần thiết về lĩnh vực, hệ thống còn yêu cầu những kiến thức đó phải đủ lớn bao trùm miền tri thức để có thể trích rút được đầy đủ và chính xác
Để xây dựng một hệ thống có hiệu suất cao thường những quy tắc luôn được kiểm định nhiều lần, được sửa lặp đi lặp lại để tối ưu hệ thống Có thể mô hình hóa việc xây dựng này theo hình sau:
Trang 1616
Tập luật ban đầu (R)
Cập nhật tập luật
(Thêm, sửa xóa)
Kho tài liệu chưa gán nhãn
knowlegde engineer Xây dựng
Kiểm soát
NER Áp dụng luật thủ công
Hình 1 Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức
Với cách tiếp cận này thì hệ thống hoạt động theo một chu trình Để xây dựng một hệ thống hoạt động tốt đòi hỏi luôn luôn có sự tương tác giữa người viết luật và hệ thống cùng với kho tài liệu huấn luyện và tập luật luôn luôn được cập nhật để cho hệ thống có thể hoạt động tốt nhất
b Hướng tiếp cận dựa trên mô hình học máy
Với hệ thống IE được xây dựng theo hướng tiếp cận dựa trên tri thức thì chu trình kiểm tra và sửa lỗi gặp rất nhiều khó khăn và phụ thuộc vào nhiều yếu tố như: loại ngôn ngữ, thời gian và khả năng viết luật
Để khắc phục giới hạn trên, phải xây dựng một mô hình bằng cách nào đó có thể
tự học được Với mô hình này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính linh hoạt cho hệ thống Phương pháp này chủ yếu dựa vào học máy thống kê Có rất nhiều phương pháp học máy như mô hình Markov ẩn (Hidden
Trang 1717
Markov Models-HMM), các mô hình Markov cực đại hóa Entropy (Maximum Markov Models – MEMM), mô hình các trường ngẫu nhiên có điều kiện ( Conditional Random Fields – CRF), phương pháp máy vector hỗ trợ ( Support Vector Machine –SVM)
Các đặc điểm phải kể đến của việc xây dựng hệ thống IE theo hướng học máy là không cần một người nào đó hiểu biết về việc viết luật như thế nào Điều cần thiết ở đây là một người nào đó biết được miền ứng dụng và hiểu được những thông tin cần trích rút Khi dữ liệu huấn luyện được chú thích, thuật toán huấn luyện chạy và sinh ra những thông tin học được hay còn gọi là model để phục vụ cho quá trình trích chọn tự động sau này Các thuật học sẽ dựa trên dữ liệu để tự học và thu được một model, dựa trên model này nó sẽ trích chọn các thông tin trên dữ liệu mới Mô hình với hướng tiếp cận này được mô tả như sau:
Dữ liệu huấn
Model
Hình 2 Mô hình xây dựng IE theo học máy
Với hệ thống IE xây dựng hướng này phải tập trung vào việc tạo ra dữ liệu huấn luyện Khi đó thông qua việc quy định thuật toán học, hệ thống có thể tự học mà không cần sự can thiệp của bất kỳ chuyên gia nào Tuy vậy việc xây dựng và lưu trữ tập dữ liệu huấn luyện rất khó và chi phí cao vì để hệ thống có thể thực hiện tốt thì yêu cầu tập
Trang 18Sau đây là một so sánh giữa hai phương pháp [5]:
Cần bộ DL huấn luyện được gán nhãn
Khi bộ DL huấn luyện có kích thước lớn (đủ tốt) thì hệ thống có
Trang 1919
Hình 3 Các thao tác chính của hệ thống trích rút
Qua mô hình trên có thể thấy, hệ thống trích rút bao gồm các khối cơ bản: tiền xử
lý, trích rút thực thể, giải quyết đồng tham chiếu, xây dựng mẫu phần tử, xây dựng mẫu quan hệ, đƣa ra mẫu kịch bản Tùy thuộc vào từng ngôn ngữ, từng bài toán cụ thể mà
có thể thêm hoặc bớt một vài khối trên
a Tiền xử lý
Quá trình tiền xử lý gồm nhiều thao thác, sau đây là một số thao tác cụ thể Với mỗi hệ thống có thể bao gồm toàn bộ hoặc một số thao tác sau [5]:
- Nhận biết định dạng văn bản: Với một văn bản đầu vào nói chung, hệ thống
phải nhận biết định dạng tài liệu là gì: file word, file dạng html,
Văn bản đầu vào Tiền xử lý Trích rút thực thể Giải quyết đồng tham chiếu
Xây dựng mẫu phần tử Xây dựng mẫu quan hệ Đƣa ra mẫu kịch bản
Mẫu trích rút
Hệ thống trích rút thông tin
Trích rút quan hệ
Trang 2020
- Tách câu: Một văn bản đầu vào qua module này sẽ được tách thành các câu
Có thể dựa vào các dấu hiệu kết thúc câu để tách, ví du như dấu “.”, dấu “?”, dầu “!”
- Tách từ: Mỗi câu lại được tách thành các từ Với các ngôn ngữ như tiếng
Anh, tiếng Pháp việc tách từ đơn giản dựa vào khoảng kí tự trắng Ví dụ
với một chuỗi đầu vào là “ công nghệ thông tin “, khi quy định khoảng trắng
là để phân tách các từ, thì qua module này chuỗi câu trên sẽ được tách thành
4 từ như sau [công, nghệ, thông, tin]
- Phân đoạn từ: Với một số ngôn ngữ như tiếng Trung hay tiếng Nhật, không
có ranh giới rõ ràng phân tách giữa các từ, nên việc tách từ khá phức tạp, vì vậy phải có module phân đoạn từ để tách được rõ ràng và chính xác các từ
- Gán nhãn từ loại: Các từ sau khi được phân tích hình thái sẽ được gán nhãn
từ loại dựa vào từ điển từ Mỗi từ sẽ được gán một nhãn về từ loại bằng cách
sử dụng từ điển nhãn được định nghĩa sẵn Thông thường nhất sẽ có các nhãn sau: N(danh từ), V(động từ), Adj(tính từ), Pre(giới từ),
Ví dụ: Với đầu vào là câu đã được tách thành các từ:
Steve/Job/introduces/the/ Iphone/6/
Sau khi gán nhãn sẽ có dạng
Steve –N /Job – N /introduces - V/the - N/ Iphone- N /6- N /
b Trích rút thực thể ( Named Entity Recognition – NER)
Hay còn gọi là nhận dạng thực thể có tên ( NER) Module này thực hiện nhận dạng và trích rút các lớp thực thể như: tên người (PER), địa điểm(LOC), ngày(DATE), Việc nhận dạng thực thể có thể có độ chính xác lên tới 97% với tiếng Anh
Trang 2121
c Giải quyết đồng tham chiếu ( Co reference – CO)
Một đối tượng có thể xuất hiện trong một văn bản với nhiều tên khác nhau Vì vậy bài toán đặt ra là cần xác định chính xác các trường hợp cùng tham chiếu tới một đối tượng Nhận dạng đồng tham chiếu giữa các thực thể bằng cách kết hợp những thông tin mô tả nằm rải rác trên văn bản tới các thực thể mà nó tham chiếu tới Các quan hệ đồng tham chiếu được phân loại như sau:
Camry và Inova là hai dòng xe nổi tiếng của Toyota
d Xây dựng mẫu phần từ (Template Element – TE)
Xây dựng các mẫu thông tin mô tả tới thực thể đã được trích rút Module này được xây dựng dựa trên quá trình trích rút thực thể và giải quyết đồng tham chiếu, từ
đó sẽ đưa ra một khuôn mẫu thông tin chung cho các thực thể Về cơ bản đó cũng như các bản ghi trong cơ sở dữ liệu
e Xây dựng mẫu quan hệ ( Templete Relation - TR)
Trang 2222
Module này thực hiện tìm và trích rút ra quan hệ giữa các thực thể
f Đƣa ra mẫu kịch bản ( Scenario Template - ST)
ST là nguyên mẫu định dạng đầu ra của hệ thống IE Chúng ràng buộc các thực thể TE với nhau trong sự kiện hay mối quan hệ Điều chỉnh các kết quả TE và TR cho phù hợp với các kịch bản sự việc cụ thể Đây là môt nhiệm vụ khó của IE
Sau đây là một ví dụ cụ thể về quá trình trích rút thông tin từ một đoạn tin:
We Build Rockets Inc
Hình 4 Ví dụ trích rút thông tin theo quy trình
Với mỗi module trong quá trình trích rút lại có khó khăn riêng và độ chính xác cũng khác nhau tùy thuộc vào miền dữ liệu, ngôn ngữ Sau đây là một số thống kê trung bình về độ chính xác tối đa của mỗi module theo J H Wang [10] thực hiện vào năm 2008:
NE: Trích rút ra các thực thể: “rocket”,
“Tuesday”, “Dr Head”, “We Build Rockets” Inc
The shiny red
rocket was fired on
Tuesday It is the
brainchild of Dr Big
Head Dr Head is a
staff scientist at We
Build Rockets Inc
CO: “It” - “rocket”, “Dr.Head”- “Dr.Big
Head” có quan hệ đồng tham chiếu cũng có
ham
TE: “rocket” có thuộc tính là “shiny red” và
Head „s "brainchild"
ST: Sự kiện phóng tên lửa
TR: Quan hệ giữa các thực thể: “Dr Head”
làm việc cho “We Build Rockets”
Trang 2323
IE được áp dụng nhiều trong quá trình tìm kiếm thông tin phục vụ việc tối ưu kết quả tìm kiếm Ví dụ với hệ thống hỗ trợ việc làm, khi người dùng có nhu cầu tìm kiếm một công việc dùng Goolge Search thì rõ ràng công cụ Google Search Engine không thật sự hiểu và đáp ứng được các yêu cầu tìm kiếm của người dùng Những thông tin người dùng thực sự quan tâm như: các công ty nào có tuyển dụng chức danh hay một nghề nghiệp nào đó, thông tin về các công ty cần tuyển dụng, liên hệ với ai, chế độ chính sách của mỗi công ty như thế nào, những thông tin phản hồi, ý kiến nhận xét từ các nhân viên đã và đang làm tại các công ty ra sao Tất cả những thông tin như vậy cần thiết phải được trích rút, tổng hợp và tư vấn cho người dùng một cách có hệ thống Hay trong lĩnh vực du lịch, ví dụ, một người dùng muốn tìm kiếm thông tin về các nhà hàng trên đường Nguyễn Du ở Hà nội, kết quả tìm kiếm sẽ cho ra rất nhiều nhà hàng trên đường Nguyễn Du ở Hà nội, Sài Gòn, Đà Nẵng, Do hệ thống tìm theo các từ
Trang 2424
khóa trong đó có 2 từ khóa “Nhà hàng”, “Nguyễn Du” Để cải thiện kết quả chúng ta tích hợp thêm hệ thống trích rút mối quan hệ vào hệ thống tìm kiếm để loại bỏ đi kết quả không mong muốn Trong trường hợp này, thông tin về nhà hàng trên đường Nguyễn Du ở Sài Gòn, Đà Nẵng sẽ không được hiển thị trên kết quả tìm kiếm Do đó kết quả tìm kiếm sẽ chính xác hơn
Hình 5 Ứng dụng IE trong tìm kiếm thông tin
IE là công cụ hỗ trợ của Web ngữ nghĩa Web ngữ nghĩa là các trang Web có thể biểu diễn dữ liệu có khả năng kết hợp, phân lớp và khả năng suy diễn trên dữ liệu đó
Sự thành công của các Web ngữ nghĩa phụ thuộc vào khả năng của các ontology cũng như sự phát triển của các trang Web được chú giải bởi các siêu dữ liệu tuân theo các ontology này Trong khi những lợi ích mà Web ngữ nghĩa đem lại rất lớn thì việc xây dựng các ontology một cách thủ công là hết sức khó khăn Vì lý do này, các công cụ trích rút thông tin tự động từ các trang Web để “làm đầy” các ontology như hệ thống nhận biết các loại thực thể là hết sức cần thiết
Trang 2525
IE ứng dụng vào các hệ thống hỏi đáp QA (Question Answering) tự động dựa vào kết quả trả về của máy tìm kiếm IE hỗ trợ hệ thống trả lời câu hỏi tự động Trong hệ thống hỏi đáp tự động, việc sử dụng hệ thống trích rút mối quan hệ giữa các thực thể đóng vai trò quan trọng Hệ thống hỏi đáp có thể biết tên của một người và đưa ra các thông tin liên quan đến người đó (địa chỉ, chức vụ, cơ quan làm việc….), hệ thống hỏi đáp có thể cho biết các thông tin về các địa danh du lịch và đưa ra các thông tin liên quan về địa danh đó như các bãi biển, khu nghỉ dưỡng… Xem xét một ví dụ dưới đây:
Ví dụ người dùng cần hỏi “Ai là người sáng lập Facebook? ”, kết quả trả về từ các search engine rất nhiều và hệ thống phải tìm cách trích ra câu trả lời mà người dùng mong chờ, đó là “Mark Zuckerberg” Khi người dùng gửi một câu hỏi đến hệ thống
có dạng như: “Quảng Ninh có những đảo nào? “ Hệ thống sẽ phân tích câu hỏi và đưa
ra thực thể “Quảng Ninh”, mối quan hệ “có_đảo” giữa một địa điểm và một hay nhiều bãi biển nào đó Dựa trên những thông tin này hệ thống sẽ trích rút tất cả mối quan hệ
“có_đảo” có liên quan đến thực thể địa điểm ”Quảng Ninh” trong tập các văn bản lưu trữ trong hệ thống Câu trả lời mà hệ thống đưa ra cho người dùng chính là tên các hòn đảo có trong mối quan hệ “có_đảo” đã được trích rút ở trên
Trang 2626
Hình 6 Ứng dụng IE trong hệ thống hỏi đáp
IE ứng dụng trong các hệ thống hỗ trợ, tư vấn mua hàng dưới dạng hệ gợi ý Ví
dụ khi người dùng cần mua một món hàng, những thông tin mà người dùng quan tâm đến như: thông tin sản phẩm (giá cả từ các cửa hàng, chất lượng sản phẩm, thông tin phản hồi từ người dùng), thông tin nhà cung cấp (chế độ hậu mãi, chất lượng dịch vụ, ), thông tin các sản phẩm cùng loại, Người dùng phải tốn nhiều thời gian đề tìm kiếm và tự động trích xuất, tổng hợp thông tin theo kiểu của mình để có thể quyết định cho việc mua hàng
IE dùng cho việc trích rút thông tin từ các bài báo khoa học như tên tác giả, tiêu
đề từ mục “header của bài báo” cũng như những thông tin từ mục “reference” ứng dụng xây dựng các hệ thống tổ chức chỉ mục, tìm kiếm bài báo khoa học Một hệ thống tìm kiếm bài báo khoa học được dùng rộng rãi đó là Citeseer tại hình sau:
Trang 27đo đƣợc sử dụng trong lĩnh vực truy vấn thông tin (IR) đó là độ chính xác
“Precision”(P) và độ phủ “Recall”(R) [9,11]
Trang 2828
Độ chính xác Precision (P): là độ đo thể hiện khả năng tin cậy của thông tin được trích xuất Được tính là tỷ lệ giữa tổng số câu trả lời đúng tìm thấy với tổng số câu trả lời tìm thấy
Độ phủ Recall (R): Thể hiện tỷ lệ thông tin được rút trích đúng Bao nhiêu phần trăm thông tin được rút là đúng Tỷ lệ giữa số lượng câu trả lời đúng tìm thấy với tổng
số câu trả lời đúng
tn tp
tp P
Trong đó
tp: Số kết quả đúng được tìm thấy
tn: Số kết quả đúng không được tìm thấy
fp: Số kết quả tìm thấy không đúng
P và R thuộc khoảng [0,1], kết quả tốt nhất là 1 P và R có liên quan và ảnh
hưởng lẫn nhau Khi so sánh, đánh giá một hệ thống hay một phương pháp nên so sánh
và đánh giá dựa trên cả P và R Theo Line Eikvil, việc so sánh, xem xét cả hai thông số cùng lúc không phải đơn giản, và dễ dàng Vì thế người ta đã tìm cách kết hợp hai độ
đo này và đề xuất một độ đo mới, đó là F-Measure (F)
Thông số β xác định mức độ tương quan giữa độ chính xác R (Recall) và độ tin cậy P (Precision) Các chuyên gia về trích rút thông tin thường sử dụng β = 1 để đánh
Trang 29R P
R P F
Nhận dạng thực thể tên là một nhiệm vụ cơ bản của hệ thống trích rút thông tin, đồng thời cũng là thành phần cốt lõi của hệ thống xử lý ngôn ngữ tự nhiên Nhận dạng thực thể đã được quan tâm và nghiên cứu từ rất lâu Năm 1996, tại hội thảo MUC lần thứ 6 đã định nghĩa nhận dạng thực thể có tên là xác định và trích rút thực thể
Việc nhận dạng những đối tượng có tên tương đối đơn giản tuy nhiên vẫn tồn tại rất nhiều nhập nhằng làm cho việc nhận biết các loại thực thể trở nên khó khăn Ví dụ
“Hồ Chí Minh” có lúc được sử dụng như tên người nhưng có lúc được sử dụng như tên địa danh, Đặc biệt trong Tiếng Việt thì các nhập nhằng đó lại nhiều hơn do sự phức tạp của ngữ pháp ( cụm động từ, cụm danh từ, ) cũng như không có nguồn từ điển đầy đủ để tra cứu
Trang 3030
Ta tìm hiểu một ví dụ: “Hồ Chí Minh là một nhà cách mạng, người sáng lập Đảng Cộng sản Việt Nam, một trong những người đặt nền móng và lãnh đạo công cuộc đấu tranh giành độc lập, toàn vẹn lãnh thổ cho Việt Nam trong thế kỷ 20, một chiến sỹ cộng sản quốc tế.”
Với ví dụ trên, sau quá trình nhận dạng thực thể, ta mong muốn đánh dấu được
như sau: “<PER>Hồ Chí Minh</PER> là một nhà cách mạng, người sáng lập<ORG> Đảng Cộng sản Việt Nam</ORG>, một trong những người đặt nền móng
và lãnh đạo công cuộc đấu tranh giành độc lập, toàn vẹn lãnh thổ cho <LOC>Việt Nam</LOC> trong thế kỷ 20, một chiến sỹ cộng sản quốc tế”
Với ví dụ trên, trong hệ thống nhận biết thực thể tiếng Việt, quá trình gán nhãn cho dữ liệu sẽ gặp khó khăn cho cụm từ “Đảng Cộng sản Việt Nam”, đây là tên của một tổ chức nhưng không phải chữ cái nào cũng viêt hoa
Có rất nhiều những nghiên cứu về NER trong những năm gần đây mà phần lớn hướng đến là giải quyết nhập nhằng của các đối tượng Tiềm năng của việc xây dựng một hệ thống nhận dạng thực thể có tên trong ngôn ngữ một cách chính xác là nhằm hỗ trợ các hệ thống khác trong xử lý ngôn ngữ tự nhiên như:
- Hệ thống tìm kiếm trên Internet
- Tóm tắt văn bản, bài báo bằng cách trước khi đọc bài báo, người đọc có thể lướt qua danh sách người, địa điểm, hay tổ chức được đề cập đến trong nội dung của bài báo
- Lập chỉ mục tự động Rất nhiều cuốn sách việc lập chỉ mục đa phần là dựa trên các đối tượng có tên mà chúng đề cập đến
Nhận dạng thực thể tên có thể thực hiện với độ chính xác tới 96%, các ngôn ngữ khác nhau bài toán NER có độ chính xác khác nhau Sau đây là một số thống kê:
Trang 31Tiếng Trung Quốc 84.51%
Bảng 3 Độ chính xác hệ thống NER trong các ngôn ngữ
Trang 3232
một số trường hợp thì nguyên tắc này không đúng, ví dụ như sự xuất hiện của dấu “.” trong thông tin số
- Đầu vào: Một đoạn văn bản
- Đầu ra: Danh sách các câu
Bước 2: Tách từ (token)
Với một chuỗi văn bản đầu vào, qua bước này sẽ tách thành các Token Có thể sử dụng khoảng trắng để tách giữa các Token Ví dụ một chuỗi “công nghệ thông tin” sẽ được tách thành 4 Token như sau: [ công, nghệ, thông, tin]
- Đầu vào: Đoạn văn bản, câu văn bản
- Đầu ra: Danh sách Token
Bước 3: Gán nhãn từ loại
Được sử dụng sau khi tách từ trong câu Mỗi từ sẽ được gán một nhãn về từ loại bằng cách sử dụng từ điển nhãn được định nghĩa sẵn Trong tiếng Việt, thông thường nhất sẽ có các nhãn sau: danh từ(N), động từ(V), tính từ(A), đại từ(P), số từ (M), định
từ (D), phụ từ (R), giới từ (E), cảm từ(O), Cụ thể hơn ta có một số phân loại như trong danh từ lại có các loại: danh từ riêng (Np), danh từ chỉ loại (Nc), danh từ vị trí (Nl),
Ví dụ:
Ta có câu sau : Anh Nam đang chơi đàn Piano
Sau khi gán nhãn từ loại : Anh/ N Nam /N đang/ R chơi /V đàn/ Nc Piano /N