1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỀ tài PHÂN BIỆT NHẬP NHẰNG tên NGƯỜI TRONG hệ THỐNG tìm KIẾM THỰC THỂ

50 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,01 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đạo Thái PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đạo Thái PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PSG.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Trần Mai Vũ HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá liệu” phịng thí nghiệm KT-Sislab giúp nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt khố luận Cuối cùng, muốn gửi lời cảm vô hạn tới gia đình bạn bè, người thân u ln bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn ! Sinh viên Nguyễn Đạo Thái LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt nội dung Một lĩnh vực tìm kiếm Internet người dùng quan tâm tìm kiếm thơng tin thực thể người Thực thể người loại thực thể có độ nhập nhằng cao nhất, tên ứng với thực thể người khác nhau, tên khác ứng với thực thể người Tuy nhiên máy tìm kiếm thao thác văn chứa tên người giống văn bình thường khác dẫn đến kết tìm kiếm khơng người dùng mong đợi Khóa luận tập trung nghiên cứu phương pháp giải nhập nhằng tên người tập văn miền liệu báo điện tử tiếng Việt dựa đặc trưng từ vựng mạng xã hội đề xuất áp dụng xây dựng hệ thống tìm kiếm thực thể người Thực nghiệm ban đầu với tập tên người có độ nhập nhằng cao cho thấy mơ hình phân biệt nhập nhằng tên người tập văn có độ xác cao đạt độ đo F mức tốt (F0.5 = 0.791 F0.2 = 0.773) Kết cho thấy phương pháp phân biệt nhập nhằng tên người đề xuất triển khai khả quan cho ngôn ngữ tiếng Việt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Chương Bài toán phân biệt nhập nhằng tên người hệ thống tìm kiếm thực thể 1.1 Hệ thống tìm kiếm thực thể 1.1.1 Những thuận lợi khó khăn việc khai thác thông tin WWW 1.1.2 Hệ thống tìm kiếm thực thể 1.1.3 Vấn đề giải nhập nhằng tên hệ thống tìm kiếm thực thể người 1.2 Bài toán phân biệt nhập nhằng tên người tập văn 1.2.1 Phát biểu toán 1.2.3 Mối quan hệ với toán phân biệt nhập nhằng nghĩa từ 1.2.3 Phương pháp đánh giá 10 Tóm tắt chương 11 Chương Phương pháp giải toán nhập nhằng tên người tập văn 12 2.1 Tiếp cận dựa thực thể định danh 12 2.2 Tiếp cận dựa từ khóa 14 2.3 Tiếp cận dựa kỹ thuật trích xuất thơng tin 18 2.4 Một số cách tiếp cận khác 20 Tóm tắt chương hai 21 Chương 3: Mơ hình hệ thống phân biệt nhập nhằng tên người 22 3.1 Cơ sở thực tiễn 22 3.2 Cơ sở lý thuyết 24 3.2.1 Mơ hình khơng gian vector 24 3.2.2 Thuật toán phân cụm HAC 26 3.3 Mơ hình hệ thống phân biệt nhập nhằng tên người tập văn 31 3.4 Áp dụng toán phân biệt nhập nhằng tên người hệ thống tìm kiếm thực thể người 33 Tóm tắt chương ba 34 Chương Thực nghiệm đánh giá 35 4.1 Môi trường công cụ sử dụng thực nghiệm 35 4.2 Xây dựng tập liệu 36 4.3 Thực nghiệm 37 Thực nghiệm phân biệt nhập nhằng tên người tập văn 37 Kết luận 41 Tài liệu tham khảo 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ Hình - Kết tìm kiếm từ Google với truy vấn “nokia 6030” Hình - Đồ thị trang Web góc nhìn thực thể Hình - Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa kỹ thuật trích xuất thông tin Hình - Hệ thống tìm kiếm nơi nghỉ mát Cazoodle Hình - Danh sách top 10 từ khóa tìm kiếm Google, Bing Yahoo năm 2009 Hình - Các mẫu trích xuất sinh tự động cho ngày sinh 19 Hình - Đoạn trích từ báo “Năm 2010: ĐH Quốc gia Hà Nội tuyển sinh 5.500 tiêu” .22 Hình - Đoạn trích từ báo “Cá ngừ độc chứa histamin tự do” 23 Hình 10 - Trích từ báo “11 giám đốc bưu điện đồng loạt hầu tòa” từ trang vnexpress.net 23 Hình 11 - Trích từ báo “Siêu lừa Nguyễn Lâm Thái có dấu hiệu tâm thần” từ trang vnexpress.net 24 Hình 13 - Quy trình phân cụm .26 Hình 14 - Ví dụ thuật toán K-means .27 Hình 15 - Hình vẽ minh họa cho phân cụm liệu dựa mật độ .27 Hình 16 - Sơ đồ phân tử trước phân cụm 28 Hình 17 - Sơ đồ phần tử sau phân cụm phân cấp .28 Hình 18 - Phân cụm với Single-linkage 30 Hình 19 - Phân cụm với Complete-linkage 30 Hình 20 - Trung bình khoảng cách GAAC 31 Hình 22 - Trích từ viết “Lê Thị Thanh Nhàn – nữ PGS toán học trẻ VN” -báo dantri.com.vn 39 Hình 23 - Trích từ viết “Kịch tính vịng chung khảo Nhân tài đất Việt CNTT 2008!” – báo dantri.com.vn 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách từ viết tắt HAC Hierarchical agglomerative clustering GAAC Group-average agglomerative clustering WSD Word Sense Disambiguation WWW World Wide Web LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Sự đời máy tìm kiếm giúp ích cho người nhiều hoạt động khai thác thơng tin Tuy nhiên, chất lượng tìm kiếm thơng tin cịn nhiều hạn chế, đặc biệt tìm kiếm thơng tin người, lĩnh vực có truy vấn lớn máy tìm kiếm Mặt khác, thực thể người loại thực thể có độ nhập nhằng cao nhất, mà kết trả máy tìm kiếm bao gồm tất người có tên giống người dùng cần phải đọc để tìm kết mong muốn Vì mà cần thiết phải có hệ thống có khả gom cụm kết cho trang Web thuộc cụm nói người, trang Web thuộc cụm khác nói người khác Bài toán cốt lõi cho vấn đề toán giải nhập nhằng tên người tập văn Bài toán nhận quan tâm từ nhà nghiên cứu hội nghị lớn năm gần Colling, ACL, Senseval…Đặc biệt hội nghị WebPS1, hội nghị dành riêng cho vấn đề giải nhập nhằng tên người kết tìm kiếm Web Trong năm gần đây, có nhiều nghiên cứu ý tưởng đề xuất giới để giải toán này, Tuy nhiên, tiếng Việt thi nghiên cứu tốn cịn hạn chế Các nghiên cứu tập trung chủ yếu vào việc thể tốt ngữ cảnh riêng biệt cho người, tìm độ đo tương đồng ngữ cảnh phù hợp phân cụm ngữ cảnh, hay phân cụm văn chứa ngữ cảnh Và phương pháp thường thao tác miền liệu tương đối đặc thù, khơng có phương pháp khả thi nhiều miền liệu Việc tìm phương pháp tốt cho tiếng Việt vấn đề khó khăn, tiếng Việt giải số toán sở (thuộc đề tài KC 01.01/06-10), nhiên so với nhu cầu toán giải nhập nhằng tên người chưa đủ Mục tiêu khóa luận khảo sát, nghiên cứu để đưa phương pháp đủ tốt giải toán phân biệt nhập nhằng tên người miền liệu báo điện tử tiếng Việt Để đạt mục tiêu này, khóa luận khảo sát số phương pháp tiêu biểu giải toán giới Từ đó, khóa luận đưa phương pháp giải toán phân biệt nhập nhằng tên người tập văn tiếng Việt Đầu tiên, khảo sát miền liệu báo điện tử để tìm đặc trưng tốt (dựa từ vựng đặc điểm mạng xã hội) thể riêng biệt cho người, phân biệt người với người khác tên Tiếp đó, thực việc gom cụm văn chứa tên http://nlp.uned.es/weps/ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com người thuật tốn HAC Khóa luận thực nghiệm với kết độ đo F đạt mức tốt so với kết giới (F 0.5 = 0.791 F 0.2 = 0.773); đồng thời, đề xuất mơ hình hệ thống tìm kiếm thực thể người dựa kết toán Nội dung khóa luận chia thành chương sau: Chương 1: Khóa luận giới thiệu khái quát hệ thống tìm kiếm thực thể tốn giải nhập nhằng tên người tập tài liệu, vai trị tốn hệ thống tìm kiếm thực thể người Khóa luận trình bày mối liên hệ toán với toán phân biệt nhập nhằng nghĩa từ, phương pháp đánh giá cho toán phân biệt nhập nhằng tên người tập văn Chương 2: Khóa luận giới thiệu chi tiết phương pháp tiêu biểu để giải vấn đề phân biệt nhập nhằng tên người tập văn Chương 3: Khoá luận giới thiệu đặc trưng miền liệu báo điện tử để từ đề xuất mơ hình giải tốn nhập nhằng tên người tập văn ứng dụng tốn việc đề xuất mơ hình hệ thống tìm kiếm thực thể người Chương 4: Thực nghiệm, kết đánh giá Tiến hành thực nghiệm việc việc phân biệt nhập nhằng miền liệu báo điện tử tiếng Việt với tập liệu kiểm thử tên người có độ nhập nhằng cao Phần kết luận: Tóm lược kết đạt khóa luận định hướng phát triển tương lai LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Bài toán phân biệt nhập nhằng tên người hệ thống tìm kiếm thực thể Tìm kiếm thơng tin nhu cầu thiết yếu sống người Con người có thơng tin mong muốn từ nhiều nguồn tài liệu khác sách vở, tạp chí, đặc biệt Internet Internet kho liệu đồ sộ, nhiên khai thác thách thức lớn liệu Internet đa dạng khơng có cấu trúc Con người mong muốn có thơng tin dạng thực thể, ghi (thơng tin có cấu trúc) việc phải đọc trang Web để tìm thơng tin mong muốn Một đối tượng tìm kiếm quan tâm tìm kiếm người Tuy nhiên, thực thu thập thông tin người, vấp phải thách thức người khác có tên người mong muốn tìm kiếm số họ Vì hệ thống tìm kiếm thực thể người, giải tốn nhập nhằng tên có ý nghĩa quan trọng Chương giới thiệu số khái niệm vấn đề liên quan đến toán phân biệt nhập nhằng tên người máy tìm kiếm thực thể 1.1 Hệ thống tìm kiếm thực thể 1.1.1 Những thuận lợi khó khăn việc khai thác thông tin WWW Khối lượng liệu khổng lồ WWW nguồn tài quyên quý giá cho người dùng việc khai thác tìm kiếm thông tin phục vụ cho nhu cầu hiểu biết Người dùng truy cập nguồn tài nguyên lúc, nơi cách thuận tiện; họ có nhiều hội tìm kiếm, tổng hợp tri thức để tạo giá trị Tuy nhiên, khai khác nguồn tri thức cho hiệu vấn đề lớn Đặc biệt lượng thông tin WWW ngày nhiều, thay đổi hàng ngày hàng tiêu biểu tờ báo điện tử tin tức cập nhật trang tin, website thị trường chứng khốn Hình thức thông tin ngày đa dạng từ văn đến âm thanh, hình ảnh làm cho người cảm giác ngập tri thức, khó khăn việc tìm tri thức cần Do đó, cần phải có cách thức tổ chức, quản lý, điều hành, cập nhật thông tin từ WWW phù hợp để thuận lợi cho việc khai thác Máy tìm kiếm đời cơng cụ hữu ích trợ giúp việc khai thác thông tin WWW, phần đáp ứng nhu cầu người dùng Máy tìm kiếm có cách tổ chức tương đối phức tạp nhằm mục tiêu cải thiện chất lượng khai thác thông tin, bao gồm thành phần [10]: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com G tập hợp cụm S tập phân hợp trang Web cần phân cụm k tham số để dừng thuật tóan số lượng cụm mong muốn tạo q tham số ngưỡng dừng thuật toán độ tương tự cụm nhỏ ngưỡng G

Ngày đăng: 01/11/2022, 15:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w