1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích rút thông tin cá nhân từ văn bản tiếng việt

70 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 3,08 MB

Nội dung

Trích rút thơng tin cá nhân từ văn tiếng Việt MỤC LỤC LỜI CAM ĐOAN .4 LỜI CẢM ƠN BẢNG TỪ VIẾT TẮT DANH MỤC CÁC BẢNG .7 DANH MỤC CÁC HÌNH CHƢƠNG 1: MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục đích phạm vi 1.2.1 Mục đích nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Nội dung nghiên cứu 1.4 Bố cục luận văn 10 1.5 Ý nghĩa luận văn 10 CHƢƠNG 2: MƠ TẢ BÀI TỐN VÀ HƢỚNG GIẢI QUYẾT .12 2.1 Khái qt trích rút thơng tin .12 2.1.1 Bài tốn trích rút thơng tin .12 2.1.2 Kiến trúc hệ thống trích rút thơng tin 13 2.2 Bài tốn trích rút thơng tin cá nhân 15 2.3 Phƣơng pháp giải tốn trích rút thơng tin cá nhân .18 2.3.1 Bài tốn trích rút thực thể 19 2.3.2 Bài tốn trích rút mối quan hệ 21 2.4 Ứng dụng tốn trích rút thơng tin cá nhân 22 2.5 Phƣơng pháp đánh giá kết 23 CHƢƠNG 3: TRÍCH RÚT THỰC THỂ VÀ TRÍCH RÚT QUAN HỆ 25 3.1 Trích rút thực thể 25 3.1.1 Một số hướng tiếp cận giải tốn trích rút thực thể 25 Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt 3.1.2 Mơ hình trường ngẫu nhiên có điều kiện 31 3.2 TRÍCH RÚT QUAN HỆ 36 3.2.1 Một số hướng tiếp cận giải tốn trích rút thực thể 36 3.2.2 Các đặc trưng sử dụng trích rút quan hệ 37 3.2.3 Biểu thức qui 37 3.2.4 Ứng dụng biểu thức qui để trích rút quan hệ 39 CHƢƠNG 4: THIẾT KẾ VÀ XÂY DỰNG CHƢƠNG TRÌNH .45 4.1 Kiến trúc hệ thống 45 4.2 Tiền xử lý 46 4.3 Bộ trích rút thực thể dựa mơ hình CRF 46 4.4 Các đặc trƣng cho trình học máy .47 4.4.1 4.4.2 4.4.3 4.4.4 4.5 Đặc trưng ngữ cảnh 47 Đặc trưng từ điển 48 Đặc trưng tả 49 Đặc trưng quy từ loại 50 Hậu xử lý 50 4.5.1 Xử lý đồng tham chiếu đến thực thể người 51 4.5.2 Chỉnh sửa nhãn 57 4.6 Trích rút quan hệ .57 4.7 Quản lý thông tin cá nhân 58 4.8 Cài đặt, thử nghiệm đánh giá 58 4.8.1 Một số t y ch n công cụ FlexCRFs 58 4.8.2 Kết trích rút thơng tin 59 4.8.3 Nhận xét 60 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 61 5.1 Các kết đạt đƣợc luận văn 61 5.1.1 Về lý thuyết 61 5.1.2 Về thực nghiệm 61 5.1.3 Nhận xét 61 Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt 5.2 Hƣớng phát triển .62 PHỤ LỤC 1: TẬP DỮ LIỆU 63 PHỤ LỤC 2: MỘT SỐ GIAO DIỆN CHƢƠNG TRÌNH 65 TÀI LIỆU THAM KHẢO .68 Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt LỜI CAM ĐOAN Tôi xin cam đoan, luận văn tốt nghiệp Thạc sỹ cơng trình nghiên cứu thân tơi hướng dẫn PGS TS Lê Thanh Hương Các kết luận văn tốt nghiệp trung thực, chép tồn văn cơng trình khác Tơi xin chịu hồn tồn trách nhiệm nội dung luận văn Tác giả Nguyễn Cao Cường Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thông tin cá nhân từ văn tiếng Việt LỜI CẢM ƠN Luận văn hoàn thành trường Đại h c Bách khoa Hà Nội Để hoàn thành luận văn này, tác giả nhận bảo tận tình, c ng yêu cầu nghiêm khắc PGS TS Tiến sĩ Lê Thanh Hương, người truyền đạt nhiều kiến thức quí báu kinh nghiệm nghiên cứu khoa h c suốt thời gian tác giả theo h c nghiên cứu Tác giả xin chân thành gửi lời biết ơn đến Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Viện Đào tạo Sau đại h c Bộ môn Hệ thống Thông tin, thuộc trường Đại h c Bách khoa Hà Nội tạo điều kiện thuận lợi q trình h c tập, nghiên cứu hồn thành luận văn Với lực hạn chế thân nguyên nhân chủ quan, khách quan, luận văn khơng tránh thiếu sót Tác giả mong góp ý q thầy cơ, bạn bè đồng nghiệp để luận văn hoàn thiện Cuối c ng, tác giả muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt trình thực luận văn Tác giả Nguyễn Cao Cường Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt BẢNG TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CRFs Conditional Random Fields Các trường ngẫu nhiên có điều kiện HMM Hidden Markov Model Mơ hình Markov n Maximum Entropy Markov Mơ hình Markov cực đại hóa Model entropy IE Information Extraction Trích rút thơng tin RE Relation Extraction Trích rút quan hệ SVM Support Vector Machine Máy véctơ hỗ trợ SDS Single-Document Sumarization Tóm tắt đơn văn MDS Multi-Document Summarization Tóm tắt đa văn Noun Phrase Cụm danh từ MEMM NP Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt DANH MỤC CÁC BẢNG Bảng 2-1: Các giá trị đánh giá hệ thống trích rút thực thể 24 Bảng 4-1: Mẫu ngữ cảnh từ vựng: 47 Bảng 4-2: Các từ điển đƣợc sử dụng .48 Bảng 4-3: Các đặc trƣng tả 49 Bảng 4-4: Đặc trƣng qui từ loại 50 Bảng 4-5: Định dạng tên thực thể 51 Bảng 4-6: Các tham số trình hu n luyện nhận dạng thực thể 58 Bảng 4-7: Đánh giá mức nhãn – Lần thực nghiệm cho kết tốt nh t 59 Bảng 4-8: Đánh giá mức cụm từ – Lần thực nghiệm cho kết tốt nh t 59 Bảng 4-9: Kết trích rút quan hệ .60 DANH MỤC CÁC HÌNH Hình 2-1: Ví dụ trích rút thơng tin 13 Hình 2-2: Kiến trúc hệ thống trích rút thơng tin 14 Hình 2-3: Trích rút thơng tin cá nhân từ văn tiểu sử phi c u trúc .16 Hình 2-4: Phân c p câu theo tác giả Sérgio Flipe 18 Hình 3-1: Đồ thị có hƣớng mơ tả mơ hình HMM 27 Hình 3-2: V n đề “label bias” 30 Hình 3-3: Đồ thị vơ hƣớng mô tả CRFs 32 Hình 4-1: Kiến trúc hệ thống trích rút thông tin cá nhân 45 Hình 4-2: Trích rút thực thể sử dụng CRF 47 Hình 4-3: Quá trình hậu xử lý .51 Hình 4-4: Xử lý đồng tham chiếu 56 Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thông tin cá nhân từ văn tiếng Việt CHƢƠNG 1: MỞ ĐẦU 1.1 Lý chọn đề tài Hiện nay, b ng nổ Internet phát triển mạnh mẽ công nghệ thông tin – truyền thơng, khả tiếp cận thơng qua máy tính kết nối Internet với khối lượng lớn kho liệu văn khắp nơi giới lớn Tuy nhiên, khối lượng liệu lớn làm người d ng bị “chìm ngập” thơng tin q nhiều thời gian để có thông tin mong muốn Vấn đề quan tâm giải hệ thống trích rút thơng tin theo miền ứng dụng cụ thể Một lượng lớn tài liệu chứa thông tin cá nhân tiếp tục tạo xuất hàng ngày internet Các thông tin chiếm vị trí quan tr ng máy tìm kiếm liệu trang web thu hút quan tâm người d ng, nhà nghiên cứu nhà phát triển dịch vụ web Nếu thơng tin trích rút tự động lưu trữ sở liệu có cấu trúc chúng hỗ trợ tốt cho nghiên cứu người lĩnh vực liên quan quảng cáo, nghiên cứu thị trường, thiết kế sản ph m đánh giá thói quen người d ng Ý thức lợi ích mà tốn trích rút thơng tin cá nhân, đồng thời phát triển cho ngôn ngữ tiếng Việt, tác giả ch n hướng nghiên cứu nhằm giải tốn trích rút thông tin cá nhân từ văn tiếng Việt làm đề tài luận văn 1.2 Mục đích phạm vi 1.2.1 Mục đích nghiên cứu Thơng qua nghiên cứu đề tài “Trích rút thơng tin cá nhân từ văn tiếng Việt”, tác giả mong muốn đạt số kết quả: Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt  Nghiên cứu phương pháp trích rút thơng tin từ lựa ch n phương pháp ph hợp với toán  Xây dựng hệ thống trích thơng tin cá nhân từ văn tiếng Việt lấy từ trang web wikipedia (http://vi.wikipedia.org) 1.2.2 Phạm vi nghiên cứu Luận văn tập trung vào việc trích rút thơng tin cá nhân từ văn phi cấu trúc tiếng Việt trang web http://vi.wikipedia.org, với giả định 01 văn đề cập đến thông tin người Các văn tiền xử lý trước thực trích rút thơng tin Hệ thống trích rút từ văn phi cấu trúc 04 thực thể: tên người, tên tổ chức, tên địa điểm, ngày tháng từ đó, tìm mối quan hệ thực thể người với thực thể lại: ngày sinh (tên người-ngày tháng), nơi sinh (tên người – địa điểm), công việc (tên người-tên tổ chức), sống (tên ngườitên địa điểm), quan hệ gia đình (tên người-tên người) Cuối c ng, hệ thống trích đưa bảng liệu gồm mẫu thông tin cá nhân lưu sở liệu Ví dụ: Lê Cơng Vinh (sinh ngày 10 tháng 12 năm 1985) Quỳnh Lâm, Quỳnh Lưu, Nghệ An, cầu thủ bóng đá Việt Nam thi đấu cho câu lạc Sông Lam Nghệ An Sẽ trích rút sau: 1.H tên: Lê Công Vinh Ngày sinh: 10 tháng 12 năm 1985 Nơi sinh: Quỳnh Lâm, Quỳnh Lưu, Nghệ An Cơng việc: Cầu thủ bóng đá, Câu lạc Sông Lam Nghệ An 1.3 Nội dung nghiên cứu Trong luận văn này, để giải tốn trích rút thông tin cá nhân, tác giả nghiên cứu phương pháp trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện Nguyễn Cao Cường Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt Đồng thời nghiên cứu áp dụng phương pháp trích rút mối quan hệ dựa luật biểu thức quy Bên cạnh đó, tác giả nghiên cứu kiến trúc, mơ hình hệ thống, phương pháp kỹ thuật để xây dựng hệ thống trích rút thông tin cá nhân lấy từ trang web wikipedia 1.4 Bố cục luận văn Bố cục luận văn gồm chương phụ lục: Chương giới thiệu động cơ, mục tiêu phạm vi nghiên cứu, đóng góp cấu trúc luận văn Chương giới thiệu tổng quan tốn trích rút thơng tin, tốn trích rút thơng tin cá nhân toán liên quan toán trích rút thực thể tốn trích rút mối quan hệ, đề xuất phương pháp giải toán trích rút thơng tin cá nhân ứng dụng toán phương pháp đánh giá kết Chương trình bày số phương pháp trích rút thực thể trích rút quan hệ từ ch n phương pháp thích hợp áp dụng cho tốn trích rút thực thể từ văn tiếng Việt Luận văn sử dụng phương pháp tiếp cận sử dụng CRF Trình bày khái qt biểu thức qui (Regulary Expression) ứng dụng để trích rút quan hệ thực thể Chương trình bày thiết kế xây dựng hệ thống trích rút thơng tin cá nhân từ trang web tiếng Việt wikipedia Trình bày kết đạt cài đặt thử nghiệm đánh giá Chương tổng kết lại kết đạt luận văn đề xuất hướng nghiên cứu tương lai luận văn 1.5 Ý nghĩa luận văn Với kết đạt được, luận văn mang lại số kết nghiên cứu định việc trích rút thực thể, trích rút quan hệ đặc biệt kết phương pháp CRF, luật đồng tham chiếu tên biểu thức qui để giải toán cụ thể Nguyễn Cao Cường 10 Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt Hình 4-4: Xử lý đồng tham chiếu Với giả định văn đầu vào tập trung nói cá nhân nên kiểu thực thể tên người xuất nhiều lần văn với tên khác Do đó, trước tiên tác giả xác tên thực thể người cần quan tâm, sau sử dụng tên để tạo tên khác thực thể Đối với trang web tiếng Việt wikipedia, thực thể tên người cần quan tâm nhắc đến câu Những tên tham chiếu đến c ng thực thể người sau tìm kiếm văn gán nhãn thực thể để tìm xuất (dưới hình thức khác) thực thể hiệu chỉnh Ví dụ: Trong hậu xử lý, ta xác định từ “Lê Công Vinh” thực thể tên người Do đó, theo luật đồng tham chiếu mục cụm từ “Cơng Vinh”, “Vinh” “Lê Vinh” có khả đồng tham chiếu đến thực thể tên người “Lê Công Vinh” Đến đây, mặc d ta tìm ứng cử viên thực thể, ta t y tiện đ y ứng cử viên thực thể Do nhập nhằng ngôn ngữ tiếng Việt nên trong trình phát hiện, hiệu chỉnh thực thể xảy nhập nhằng: Tên ứng cử viên thực thể tên thực thể khác Tuy nhiên tìm thấy từ “Vinh” cụm từ “xứ Vinh”, không xử lý ta đưa nhầm từ “Vinh” tên người Thực tế, thực thể trường hợp “Vinh” với kiểu tên địa điểm Để giải trường hợp nhập nhằng này, tác giả sử dụng thêm cụm danh từ nhỏ chứa ứng cử viên thực thể Với cụm danh từ chứa ứng cử viên thực thể tìm được, hệ thống xác định xem tiền tố có nằm trong hai từ điển tiền tố tên thực thể (tên địa điểm - LOC-INDICATE-NOUNDICT, tên tổ chức -ORG- INDICATE-NOUN-DICT) hay không Nếu tiền tố nằm từ điển tập này, ứng cử viên thực thể ban đầu bị thay cụm danh từ nhỏ chứa với kiểu thực thể cụm danh từ xác định theo loại từ điển mà tiền tố thuộc vào Nguyễn Cao Cường 56 Luận văn Thạc sỹ Trích rút thông tin cá nhân từ văn tiếng Việt 4.5.2 Chỉnh sửa nhãn Trong trình hậu xử lý, thực thể tên người đại từ tham chiếu đến thực thể tên người mà quan tâm gán nhãn nhãn tên người (), thực thể tên người khác chỉnh sửa thành nhãn Điều thuận tiện cho trình nhận dạng quan hệ biểu thức qui VD: [Lê Công Vinh] [sinh] [tại] [Nghệ An] [Anh] [đang] [chơi] [cho] [câu lạc bộ] [SLNA] [Bố] [của] [Vinh] [là] [Lê Công Duệ] Sau hậu xử lý trở thành: [Lê Công Vinh] [sinh] [tại] [Nghệ An] [Anh] [là] [một] [cầu thủ] [bóng đá] [Việt Nam] [Bố] [của] [Vinh] [là] [Lê Công Duệ] 4.6 Trích rút quan hệ Từ văn nhận dạng thực thể, hệ thống trích rút quan hệ dựa vào biểu thức qui trình bày chương Các quan hệ trích rút liên quan đến thực thể người quan tâm lưu vào sở liệu để quản lý Các thơng tin trích rút lưu bao gồm: Tên, ngày sinh, ngày mất, nơi sinh, công việc, quan hệ gia đình, văn ban đầu đưa vào trích rút Cụ thể sau:  Tên: Tên thực thể người cần quan tâm  Ngày sinh: Tên thực thể thời gian  Ngày mất: Tên thực thể thời gian  Nơi sinh: Tên thực thể vị trí  Quan hệ gia đình: Từ quan hệ (bố, mẹ, em, ) + tên thực thể người  Công việc: Từ người làm việc (thi đấu, đội trưởng, ) + tên tổ chức Nguyễn Cao Cường 57 Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt 4.7 Quản lý thông tin cá nhân Hệ thống cung cấp cho người d ng chức thêm, sửa, xóa tìm kiếm thơng tin cá nhân người lưu sở liệu Chức tìm kiếm kết hợp tìm kiếm theo trường thơng tin tên, ngày sinh, công việc Kết trả danh sách người đáp ứng tiêu chí tìm kiếm 4.8 Cài đặt, thử nghiệm đánh giá FlexCRFs công cụ xây dựng lý thuyết CRFs để giải toán gán nhãn liệu liệu dạng chuỗi POS tagger, Noun Phrase Chunking, Đây công cụ mã nguồn mở phát triển tác giả Phan Xuân Hiếu Nguyễn Lê Minh [20] Hệ thống trích rút thông tin cá nhân xây dựng cơng cụ này, cụ thể q trình huấn luyện trích rút thực thể Quá nhận dạng thực thể, hậu xử lý trích rút quan hệ thực thể quản lý thông tin cá nhân phát triển ngơn ngữ Java Dữ liệu sau trích rút lưu hệ quản trị sở liệu mySQL Dữ liệu cho thực nghiệm gồm 50 báo thu thập trang web tiếng Việt wikepedia, vnexpress.net dantri.com thuộc nhiều lĩnh vực thể thao, kinh tế, xã hội… phần tập trung vào thể thao Do việc xử lý văn tiếng Việt (tách câu, tách từ, gán nhãn từ loại, phân cụm) đạt độ xác cao (> 93%), nên luận văn sử dụng lại công cụ sẵn vnTagger tác giả Lê Hồng Phương [12] để tiền xử lý liệu đầu vào 4.8.1 Một số t y chọn công cụ FlexCRFs Một số t y ch n công cụ FlexCRF cho trình huấn luyện nhận dạng thực thể sau: Bảng 4-6: Các tham số trình hu n luyện nhận dạng thực thể Tham số Nguyễn Cao Cường Giá trị Ý nghĩa 58 Luận văn Thạc sỹ Trích rút thơng tin cá nhân từ văn tiếng Việt init_lamda_val 0.05 num_iterations 50 f_rare_threshold Giá trị khởi tạo cho tham số mơ hình Số bước lặp huấn luyện Chỉ có thuộc tính có tần số xuất lớn giá trị tích hợp vào mơ hình CRF Chỉ có mẫu vị từ ngữ cảnh có tần số xuất cp_rare_threshold eps_log_likelihood 0.01 lớn giá trị tích hợp vào mơ hình CRF FlexCRF sử dụng phương pháp L-BFGs để ước lượng tham số mơ hình Giá trị cho ta điều kiện dừng vịng lặp huấn luyện, |loglikelihood(t)-log-likelihood(t-1)|

Ngày đăng: 28/02/2021, 00:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w