1. Trang chủ
  2. » Công Nghệ Thông Tin

Trích rút thực thể trong văn bản tiếng việt

64 264 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1 MB

Nội dung

Trích rút thực thể văn tiếng Việt MỤC LỤC MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ CHƢƠNG I: TỔNG QUAN 1.1 Lý chọn đề tài 1.2 Mục đích nghiên cứu 10 1.3 Nội dung nghiên cứu 10 1.4 Bố cục luận văn 11 1.5 Ý nghĩ luận văn 12 CHƢƠNG II TỔNG QUAN VỀ TRÍCH RÚT THỰC THỂ 13 2.1 Tổng quan trích rút thông tin 13 2.1.1 Bài toán trích rút thông tin 13 2.1.2 Khái niệm trích rút thông tin 14 2.1.3 Các phƣơng pháp trích rút thông tin 15 2.1.4 Thành phần hệ thống trích rút thông tin 18 Trích rút thực thể văn tiếng Việt 2.1.5 Các ứng dụng liên quan 23 2.1.6 Phƣơng pháp đánh giá 27 2.2 Trích rút thực thể văn tiếng Việt 29 2.2.1 Bài toán trích rút thực thể 29 2.2.2 Kiến trúc hệ thống trích rút thực thể 31 2.2.3 Hƣớng tiếp cận giải toán NER 33 2.2.4 Một số ứng dụng thực tế 35 2.3 Ứng dụng trích rút thực thể vào toán hỏi đáp 36 2.3.1 Bài toán hỏi đáp 36 2.3.2 Hƣớng tiếp cận cho toán hỏi đáp 38 CHƢƠNG III BÀI TOÁN TRÍCH RÚT THÔNG TIN BẤT ĐỘNG SẢN 39 3.1 Bài toán trích rút thông tin bất động sản 39 3.1.1 Mô tả toán 39 3.1.2 Phƣơng pháp giải 41 3.2 Ứng dụng trích rút thông tin vào toán hỏi đáp thông tin bất động sản 49 3.2.1 Bài toán hỏi đáp thông tin BĐS 49 3.2.2 Phƣơng pháp giải 50 THỰC NGHIỆM VÀ ĐÁNH GIÁ 55 4.1 Tập liệu 55 Trích rút thực thể văn tiếng Việt 4.2 Đánh giá kết hệ thống trích rút thông tin 56 4.3 Đánh giá kết hệ thống hỏi đáp 57 4.4 Các khó khăn 58 CHƢƠNG V TỔNG KẾT 60 5.1 Các kết đạt đƣợc 60 5.2 Hƣớng nghiên cứu 60 TÀI LIỆU THAM KHẢO 62 Trích rút thực thể văn tiếng Việt LỜI CAM ĐOAN Tôi xin cam đoan Luận Văn công trình nghiên cứu thân dƣới hƣớng dẫn PGS TS Lê Thanh Hƣơng Các kết nêu Luận Văn trung thực, chép toàn văn công trình khác Tôi xin chịu hoàn toàn trách nhiệm nội dung luận văn Tác giả Đặng Thị Phƣơng Trích rút thực thể văn tiếng Việt LỜI CẢM ƠN Để hoàn thành luận văn này, tác giả nhận đƣợc hƣớng dẫn tận tình nhƣ yêu cầu nghiêm khắc PGS.TS Lê Thanh Hƣơng, ngƣời truyền đạt nhiều kiến thức nhƣ kinh nghiệm trình nghiên cứu hoàn thành luận văn Tác giả xin gửi lời cảm ơn chân thành tới cô Xin gửi lời cảm ơn chân thành tới tất thầy cô Viện Công nghệ Thông tin, Ban lãnh đạo Viện Công nghệ Thông tin, Viện đào tạo Sau đại học Bộ môn Hệ thống Thông tin thuộc trƣờng Đại học Bách Khoa Hà Nội giảng dạy tạo điều kiện thuận lợi trình nghiên cứu hoàn thành luận văn Với lực hạn chế thân nhƣ nguyên nhân chủ quan khách quan, luận văn không tránh khỏi thiếu sót Tác giả mong đƣợc góp ý quý thầy cô, bạn bè đồng nghiệp để luận văn đƣợc hoàn thiện Tác giả Đặng Thị Phƣơng Trích rút thực thể văn tiếng Việt DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT BĐS Bất động sản CO Co-reference CRF Conditional Random Field GATE General Architecture for Text Engineering IE Information Extraction MUC Message Understanding Conference NE Named Entity NER Named Entity Recognition NLP Natural Language Processing QA Question Answering ST Scenario TemPlates SVM Support Vector Machines TE Template Elements TR Template Relations Trích rút thực thể văn tiếng Việt DANH MỤC CÁC BẢNG Bảng Bảng gợi ý hƣớng tiếp cận xây dựng hệ thống IE 18 Bảng Độ xác module IE 23 Bảng Độ xác hệ thống NER ngôn ngữ 31 Bảng 4: Môi trƣờng cài đặt 55 Bảng Danh sách công cụ phần mềm 56 Bảng Bảng đo độ xác 57 Trích rút thực thể văn tiếng Việt DANH MỤC HÌNH VẼ Hình Mô hình xây dựng IE theo hƣớng tiếp cận dựa tri thức 16 Hình Mô hình xây dựng IE theo học máy 17 Hình Các thao tác hệ thống trích rút 19 Hình Ví dụ trích rút thông tin theo quy trình 22 Hình Ứng dụng IE tìm kiếm thông tin 24 Hình Ứng dụng IE hệ thống hỏi đáp 26 Hình Hệ thống tìm kiếm báo khoa học Citeseer 27 Hình Kiến trúc hệ thống NER 31 Hình Ví dụ hệ thống hỏi đáp 37 Hình 10 Ví dụ thông tin rao vặt bán cấu trúc 40 Hình 11 Mô hình trích rút thông tin BĐS 42 Hình 12 Mô hình trích rút LOC sử dụng NER Stanford 45 Hình 13 Hệ thống hỏi đáp thông tin BĐS 50 Hình 14 Mô hình hệ thống hỏi đáp BĐS 51 Hình 15 Sơ đồ khối trích rút thông tin từ câu hỏi 52 Hình 16 Mô hình trích rút kêt 54 Trích rút thực thể văn tiếng Việt CHƢƠNG I: TỔNG QUAN 1.1 Lý chọn đề tài Ngày nay, với phát triển nhanh chóng hệ thống công nghệ thông tin nói chung internet nói riêng sinh khối lƣợng khổng lồ liệu dƣới dạng siêu văn Việc khai thác thông tin từ nguồn liệu vừa hội nhƣng đầy thách thức Trích rút thông tin nói chung trích rút thực thể nói riêng giải pháp để khai thác, chuyển thông tin văn bán hay không cấu trúc dạng có cấu trúc phục vụ nhu cầu tìm hiểu thông tin ngƣời dùng Thời gian vừa qua, nghiên cứu trích rút thông tin có nhiều thành tựu có ý nghĩa vô to lớn phục vụ sống Đã có nhiều giải pháp đƣợc áp dụng nhiều lĩnh vực khác Cùng với phát triển nhƣ vũ bão thị trƣờng bất động sản thời gian gần đây, nhu cầu tìm kiếm trích rút thông tin bất động sản ngày cần thiết có ý nghĩa lớn phục vụ sống Thông tin bất động sản tồn dƣới dạng tin trang web khác có cấu trúc không giống Các thông tin chủ yếu bán cấu trúc cấu trúc Vì trình tổng hợp, thống kê tìm kiếm thông tin bất động sản khó khăn đối ngƣời dùng Trƣớc nhu cầu đó, tác giả lựa chọn đề tài với mong muốn xây dựng hệ thống trích rút thông tin quan trọng bất động sản phục vụ nhu cầu tìm kiếm theo mô hình hỏi đáp thân thiện với ngƣời dùng Trích rút thực thể văn tiếng Việt 1.2 Mục đích nghiên cứu Thông qua đề tài “Trích rút thực thể văn tiếng Việt”, tác giả mong muốn đạt đƣợc số mục đích nhƣ sau: - Tìm hiểu tổng quan trích rút thông tin nói chung cụ thể trích rút thực thể tiếng Việt - Xây dựng hệ thống trích rút thông tin bất động sản từ tin trang web khác Hệ thống với mục đích trích rút nhanh chóng thông tin bất động sản thị trƣờng phục vụ nhu cầu tìm kiếm thông tin ngƣời dùng - Dựa kết đƣợc trích rút, xây dựng hệ thống hỏi đáp thân thiện với ngƣời dùng đáp ứng nhu cầu tìm kiếm thông tin bất động sản 1.3 Nội dung nghiên cứu Luận văn tập trung vào việc trích rút thực thể từ văn bán phi cấu trúc thuộc lĩnh vực bất động sản môi trƣờng Web Các tập liệu thử nghiệm đƣợc thu thập từ trang web giao bán bất động sản phổ biến Để thực trích rút thông tin, luận văn sử dụng kết hợp phƣơng pháp trích rút dựa luật, từ điển trích rút dựa học máy Tùy đối tƣợng trích rút cụ thể có phƣơng pháp riêng cho phù hợp để thu đƣợc kết tốt Đã có nhiều kết việc xử lý ngôn ngữ Tiếng Việt đạt đƣợc thành tựu với độ xác cao, nhƣ công cụ hỗ trợ trình trích rút, nên hệ thống đƣợc xây dựng dựa số kết công cụ 10 Trích rút thực thể văn tiếng Việt Với toán hỏi đáp thông tin BĐS, ngƣời dùng tìm kiếm thông tin nhanh xác thông qua câu hỏi Sau giao diện hệ thống hỏi đáp thông tin BĐS: Hình 13 Hệ thống hỏi đáp thông tin BĐS 3.2.2 Phƣơng pháp giải Trong phần này, tác giả giới thiệu mô hình xử lý phân hệ hỏi đáp thông tin bất động sản 50 Trích rút thực thể văn tiếng Việt Cơ sở liệu Câu hỏi Bộ xử lý câu hỏi Bộ trích rút câu trả lời Kết Hình 14 Mô hình hệ thống hỏi đáp BĐS Trong mô hình gồm có hai thành phần Bộ xử lý câu hỏi Bộ trích rút câu trả lời Dƣới đây, chi tiết thành phần: a Bộ xử lý câu hỏi Với ứng dụng hỏi đáp thông tin tin BĐS, ngƣời dùng có nhiều loại câu hỏi, ví dụ nhƣ: hỏi giá, hỏi diện tích, hỏi địa điểm hay hỏi thông tin nói chung Tuy nhiên phạm vi luận văn này, tác giả tập trung xử lý câu hỏi dạng thông tin Tức từ điều kiện trích rút từ câu hỏi tìm toàn tin BĐS liên quan phù hợp với điều kiện hỏi Ví dụ loại câu hỏi: Tìm thông tin cc quận Hoàng Mai 70m2 giá tỷ? Mua nhà tỷ quận Hoàn Kiếm? 51 Trích rút thực thể văn tiếng Việt Sau mô hình xử lý câu hỏi: Start Câu hỏi Stanford NER Từ điền Rules Bộ tổng hợp kết trích rút Kết trích rút câu hỏi Hình 15 Sơ đồ khối trích rút thông tin từ câu hỏi Mục tiêu xử lý câu hỏi trích rút đƣợc thông tin cần thiết từ câu hỏi nhƣ thông tin giá, địa chỉ, loại hình bất động sản, diện tích có Các thông tin đƣợc trích rút theo phƣơng pháp giống nhƣ module trích rút thông tin, sử dụng kết hợp phƣơng pháp: sử dụng từ điền, luật, học máy Tuy nhiên để việc tìm kiếm đƣợc xác, “Bộ tổng hợp kết trích rút” tác giả có trích rút thêm thông tin tìm kiếm tƣơng đối kèm theo điều kiện giá 52 Trích rút thực thể văn tiếng Việt diện tích kiểu nhƣ: giá dƣới 25tr/m2, giá khoảng tỷ, diện tích 70m2, Bằng phƣơng pháp sử dụng luật dựa theo dõi trực quan kiểu câu hỏi thực tế Sau ví dụ: Câu hỏi: Tìm thông tin cc quận Hoàng Mai 70m2 giá tỷ? Kết trích rút: Loại hình: chung cư Địa điểm: Hoàng Mai Diện tích: 70m2 Giá: tỷ Nhƣ xử lý câu hỏi thực hiện:  Đầu vào: Câu hỏi  Đầu ra: Các thông tin nhƣ địa chỉ, giá, diện tích, loại hình( có) b Bộ trích rút câu trả lời Bộ thực nhận thông tin trích rút phận trích rút câu hỏi để chuyển thành điều kiện tìm kiếm, thực tìm kiếm kho liệu module trích rút thông tin Kết tìm kiếm đƣợc thông báo cho ngƣời dùng Dƣới mô hình xử lý: 53 Trích rút thực thể văn tiếng Việt Kết trích rút câu hỏi CSDL Bộ xử lý điều kiện hỏi Các thông tin BĐS phù hợp Hình 16 Mô hình trích rút kêt  Đầu vào: Các điều kiện trích rút (kết từ phần trích rút câu hỏi), sở liệu (của module trích rút) Cơ sở liệu: Thông tin BĐS đƣợc trích rút lƣu dƣới dạng file đƣợc gán nhãn  Bộ xử lý điều kiện: Bộ làm nhiệm vụ so khớp lựa chọn thông tin từ sở liệu khớp với thông tin từ câu hỏi ngƣời dùng: - Lọc theo loại hình bất động sản: Thực so khớp nội dung - Lọc theo thông tin địa chỉ: Thực so khớp nội dung - Lọc theo thông tin giá: Chia loại so sánh Nếu hỏi tìm thông tin BĐS có giá x: Tìm toàn thông tin BĐS thỏa mãn: giá ≤ x 54 Trích rút thực thể văn tiếng Việt Nếu hỏi tìm thông tin BĐS có giá lớn x: Tìm toàn thông tin BĐS thỏa mãn: x≤ giá Nếu hỏi tìm thông tin BĐS có giá khoảng x: Tìm toàn thông tin BĐS thỏa mãn: 80%x≤ giá ≤ 120%x (Tác giả tự đặt khoảng thông tin 20%) - Lọc theo thông tin diện tích: tƣơng tự thông tin giá  Đầu ra: Các thông tin bất động sản phù hợp với thông tin ngƣời dùng hỏi THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Tập liệu môi trƣờng cài đặt  Tập liệu Tập liệu thông tin bất động sản, đƣợc thu thập thủ công từ trang rao vặt thông tin bất động sản nhƣ rongbay.com, muabannhadat.vn bao gồm 100 tin  Môi trường cài đặt STT Thành phần Thông số CPU Intel(R) Core(TM) i3-2310M@ 2.10 GHz RAM 4GB OS Win7 64 bit Bảng 4: Môi trƣờng cài đặt  Công cụ phần mềm 55 Trích rút thực thể văn tiếng Việt STT Phần mềm Nguồn Eclipse https://eclipse.org/downloads/ Java https://java.com/en/download/ VnTokenizer http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer Ner Stanford http://nlp.stanford.edu/software/CRFNER.shtml#Download Bảng Danh sách công cụ phần mềm 4.2 Đánh giá kết hệ thống trích rút thông tin Để đánh giá kết trích rút, tác giả gán nhãn thủ công 100 tin với nhãn: loại hình bất động sản, địa điểm, giá, diện tích, số điện thoại liên hệ Sau ví dụ kết gán nhãn thủ công: Nội dung tin: Bán gấp CC khu đô thị Xa la, Hà Đông 52.3m Thông tin hộ: - Diện tích: 52,3 m2, tòa CT4C khu đô thị Xa la - Ban công hướng Đông Nam, cửa hướng Tây Bắc - phòng ngủ, phòng khách, Bếp, WC, Ban công - Nội thất đầy đủ gồm: Tủ bếp, sàn gỗ, nóng lạnh, điều hòa, máy giặt, sofa - Sổ đỏ chủ Thông tin thêm: - Nhà tầng nên lại thuận tiện đợi thang máy lo cố 56 Trích rút thực thể văn tiếng Việt - Ban công hướng Đông Nam nên mùa hè mát - Tòa nhà có tầng hầm rộng, tầng hầm để xe máy, tầng hầm để ô tô Nhiều khu có tầng hầm nên đa phần tải chỗ để xe Giá tỷ (có thương lượng) Liên hệ: Dũng - 0988.641.582 Sau gán nhãn: type: chung cư location: Xa la, Hà Đông area: 52.3 m2 price: tỷ phone: 0988.641.582 Sau thực trích rút tự động, tác giả so khớp kết trích rút kết sau gán nhãn để đánh giá kêt hay sai Sau kết đánh giá đối tƣợng trích rút tổng thể hệ thống theo độ đo P, R, F: STT Đối tƣợng Độ đo P(%) Độ đo R(%) Độ đo F(%) trích rút type 93.0 56.9 71.2 phone 82.5 82.5 82.5 price 76.0 76.0 76.0 location 60.1 66.0 63.2 area 88.0 88.0 88.0 Hệ thống 78.1 71.8 75.0 Bảng Bảng đo độ xác 57 Trích rút thực thể văn tiếng Việt Đánh giá kết hệ thống hỏi đáp Đánh giá hiệu hệ thống hỏi đáp dựa hành vy ngƣời dùng thông qua việc kết khảo sát độ hài lòng ngƣời dùng thông qua số lƣợng click mà ngƣời dùng sử dụng để xem kết Trong phạm vy toán tác giả không tập trung vào việc khảo sát độ hài lòng ngƣời dùng hệ thống thực nghiệm 4.4 Các khó khăn - Thông tin nhiễu Ví dụ: Thông thƣờng thông tin dự án bất động sản có nhiều tin giá Có thể giá dự án BĐS, giá khuyến Do khả bị nhiễu trích rút - Cách viết không thống Thông tin rao vặt thƣờng cấu trúc, cách viết tùy thuộc vào ngƣời đăng tin, việc trích rút gặp khó khăn không đầy đủ Ví dụ với cách viết đơn vị giá có nhiều cách viết khác nhau: tỉ, tỷ, triệu, tr/m2, triệu/m2, tr/m cách viết kết hợp 4tỷ 300tr Giá có nhiều cách viết khác nhau: giá tỷ, giá bốn tỷ, - Công cụ core nlp chưa thực tốt cho miền liệu BĐS liệu không chuẩn Ví dụ: “Bán nhà Phố Hai Bà Trưng” Kết từ công cụ tách từ: Bán nhà Phố_Hai_Bà_Trưng Kết đúng: Bán nhà Phố Hai_Bà_Trưng 58 Trích rút thực thể văn tiếng Việt Ngoài nhiều trƣờng hợp khác bị sai: Bán nhà phố hai Bà Trƣng, Nhƣ với cách viết hoa liên tiếp từ, viết không xác tên riêng, công cụ tách từ không xác Đây ví dụ số nhiều trƣờng hợp mà công cụ tách từ hỗ trợ chƣa [13,20] 59 Trích rút thực thể văn tiếng Việt CHƢƠNG V TỔNG KẾT 5.1 Các kết đạt đƣợc Luận văn tìm hiểu để có nhìn tổng quan trích rút thông tin, trích rút thực thể đồng thời trình bày, đánh giá số hƣớng tiếp cận cho toán Một số vấn đề giải pháp toán nhận dạng thực thể có tên dựa mô hình học luật CRF đƣợc đề xuất, thực nghiệm thu đƣợc số kết định Sau số vấn đề mà luận văn tâp trung giải - Tìm hiểu trích rút thông tin dựa luật, từ điển - Tìm hiểu cách áp dụng học máy theo phƣơng pháp Stanford NER vào trích rút địa điểm - Tìm hiểu xây dựng cho toán hỏi đáp thông tin bất động sản thân thiện với ngƣời dùng 5.2 Hƣớng nghiên cứu Hiện luận văn dừng lại việc trả lời toàn thông tin chung bất động sản mà chƣa thể trả lời theo chi tiết Vì hƣớng nghiên cứu mở rộng loại câu hỏi để trả lời xác nội dung hỏi ngƣời dùng Để xây dựng đƣợc hệ thống phục vụ thực tế, cần tự động hóa bƣớc crawling liệu từ internet Khi liệu đƣợc cập nhật thƣờng xuyên đẩy đủ từ nguồn khác Do thời gian có hạn nên hệ thống thực nghiệm tập liệu nhỏ, nội dung tin chƣa phong phú, độ xác đánh giá chƣa xác Vì để đánh 60 Trích rút thực thể văn tiếng Việt giá phƣơng pháp áp dụng luận văn cách xác hơn, cần xây dựng tập liệu lớn 61 Trích rút thực thể văn tiếng Việt TÀI LIỆU THAM KHẢO Alexander Yates (2007), Techniques and Applications Arshdeep Singh, Jyoti Rani, Kuljot Singh (2013), Name Entity Recognition: A Review, International Journal of Computer Science and Communication Engineering IJCSCE Special issue on ICETE 2013 Arun D Panicker, Athira U, Sreesha Venkitakrishnan (2012), Question Classification using Machine Learning Approaches Artem Boldyrev, Prof Dr Gerhard Weikum (2013), Dictionary-Based Named Entity Recognition Douglas E Appelt, David J Israel, (1999), Introduction to Information Extraction Technology, A Tutorial Prepared for IJCAI-99 Jeena Mathew1, Shine N Das (2015), Question Classification using Naive Bayes Classifier and Creating Missing Classes using Semantic Similarity in Question Answering System, International Journal of Engineering Trends and Technology (IJETT) Jenny Rose Finkel.(2007), Named Entity Recognition and the Stanford NER Software Jie Tang, Mingcai Hong, Duo Zhang, Bangyong Liang, and Juanzi Li Information Extraction: Methodologies and Applications 62 Trích rút thực thể văn tiếng Việt Ziqi Zhang (2013), Named Entity Recognition – Chanllenges In Document Annotation, Gazetter Construction And Disambiguation 10 J H Wang (2008) Text Retrieval and Applications – More Advanced Topics 11 Katharina Kaiser and Silvia MikschVienna University of Technology Institute of Software Technology & interactive Systems (2005), Information Extraction 12 Line Eikvil (1999), Information Extraction from World Wide Web 13 Mónica Marrero, Julián Urbano, Sonia Sánchez-Cuadrado, Jorge Morato, Juan Miguel Gómez-Berbís () ” Named Entity Recognition: Fallacies, Challenges and Opportunities” 14 Rohini Srihari and Wei Li (1999), Information Extraction Supported Question Answering 15 http://batdongsan.com.vn/ 16 https://gate.ac.uk/ie/ 17.http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_toc.ht ml 18 http://rongbay.com/ 19 http://vlsp.vietlp.org:8080/demo/?page=seg_pos_chunk 20 http://www.tutorialspoint.com/java/java_regular_expressions.htm 63 Trích rút thực thể văn tiếng Việt 64 ... luận văn tƣơng lai 11 Trích rút thực thể văn tiếng Việt 1.5 Ý nghĩ luận văn Sau số kết đạt đƣợc luận văn: - Luận văn tập trung tìm hiểu trích rút thông tin trích rút thực thể văn tiếng Việt, ...  2 P R ( P  R) 2.2 Trích rút thực thể văn tiếng Việt 2.2.1 Bài toán trích rút thực thể Trích rút thực thể hay gọi nhận dạng thực thể có tên (NER) toán đơn giản trích rút thông tin nhƣng lại... trung vào: 14 Trích rút thực thể văn tiếng Việt - Trích rút thực thể có tên (Named Entity Recognition): việc trích rút thực thể có tên tập trung vào phƣơng pháp nhận diện đối tƣợng, thực thể nhƣ:

Ngày đăng: 25/07/2017, 21:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w