1. Trang chủ
  2. » Tất cả

Nghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụng

54 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 275,37 KB

Nội dung

Microsoft Word KLTN Chu Anh Minh 0906 doc ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHOÁ TỪ TRANG WEB VÀ ỨNG DỤNG LUẬN VĂN THẠC SỸ CÔN[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ TỪ TRANG WEB VÀ ỨNG DỤNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ TỪ TRANG WEB VÀ ỨNG DỤNG Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: T.S NGUYỄN VĂN VINH HÀ NỘI - 2017 LỜI CAM ÐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết qủa trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Học Viên Nguyễn Vũ Chi Loan i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc đến T.S Nguyễn Văn Vinh, người tận tình bảo hướng dẫn tơi suốt q trình thực luận văn Tơi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy suốt hai năm học qua, cho nhiều kiến thức quý báu để vững bước đường học tập Tơi xin gửi lời cảm ơn tới bạn khố K21- ngành Cơng nghệ thơng tin ủng hộ khuyến khích tơi suốt q trình học tập trường Và cuối cùng, xin bày tỏ niềm biết ơn vơ hạn tới gia đình người bạn thân bên cạnh, động viên suốt trình thực luận văn tốt nghiệp Hà Nội, ngày 12 tháng 04 năm 2017 Học Viên Nguyễn Vũ Chi Loan i TĨM TẮT NỘI DUNG Trích rút từ khoá từ trang web toán hay hệ t hống tốn trích rút từ khố cho văn Ở mức cao hơn, tốn hệ thống trích xuất thơng tin (Information Retrieval) Trong nhiều năm qua, toán đề cập, quan tâm nhiều hội nghị quốc tế cơng ty lớn Bài tốn trích rút từ khố từ trang web việc trích rút từ khóa văn nội dung trang web Đây vấn đề mẻ áp dụng nhiều lĩnh vực khác như: Hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong luận văn này, tác giả nghiên cứu phương pháp trích rút từ khố từ trang web tập trung chủ yếu vào phương pháp TextRank Ngoài ra, tìm hiểu phương pháp trích rút từ khố khác nhằm nâng cao chất lượng từ khoá Luận văn áp dụng số miền liệu cụ thể trang web tiếng Anh cho kết khả quan i BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu IR SE SEM SEO TF IDF Diễn giải Information Retrieval Search Engine Search Engine Marketing Search Engine Optimization Term Frequency Inverse Document Frequency i MỤC LỤC LỜI CAM ÐOAN i LỜI CẢM ƠN .ii TÓM TẮT NỘI DUNG .iii BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ vii DANH MỤC CÁC BẢNG BIỂU viii MỞ ĐẦU .1 CHƯƠNG I GIỚI THIỆU BÀI TỐN TRÍCH RÚT TỪ KHỐ TU NOI DUNG VAN BAN TREN TRANG WEB 1.1 Đặt vấn đề .3 1.2 Khái niệm đặc trưng từ khóa 1.3 Đánh giá từ khoá 1.4 Thách thức tốn sinh từ khóa cho trang web 1.4.1 Đối với trang có nội dung tập trung .7 1.4.2 Đối với trang có nội dung tổng hợp 1.4.3 Các vấn đề khác .8 1.5 Ứng dụng từ khóa lĩnh vực .8 1.6 Tổng kết chương CHƯƠNG CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ 10 TỪ TRANG WEB 10 2.1 Tần số từ .11 2.2 Phương pháp TextRank để trích rút từ khố cho trang web 14 2.2.1 Mơ hình TextRank 15 2.2.2 Đồ thị vô hướng 16 2.2.3 Đồ thị có trọng số 17 2.2.4 Đồ thị hoá văn 17 2.2.5 Sử dụng TextRank để trích rút từ khố 18 2.4 Tổng kết chương 24 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 25 3.1 Yêu cầu thử nghiệm tập liệu thử nghiệm 26 3.2 Cài đặt thử nghiệm ứng dụng 26 3.2.1 Yêu cầu phần cứng phần mềm .26 3.2.2 Giới thiệu cấu trúc chương trình 27 3.3 Phương pháp đánh giá 27 3.4 Một số kết thu 29 3.5 Đánh giá kết thực nghiệm .35 KẾT LUẬN .37 TÀI LIỆU THAM KHẢO .38 v DANH MỤC HÌNH VẼ Bảng 2.1: Các đơn vị từ vựng có điểm số cao áp dụng TextRank 23 Bảng 3.1 : Danh sách chủ đề số lượng văn tương ứng 26 Bảng 3.2: Danh sách chủ đề số lượng văn tương ứng 26 Bảng 3.3: Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình .26 Bảng 3.4: Danh mục phần mềm sử dụng thực nghiệm 27 Bảng 3.5: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia 29 Bảng 3.6: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia 31 Bảng 3.7: So sánh kết từ khoá TextRank từ khoá trang web phim phim hoạt hình .32 v DANH MỤC CÁC BẢNG BIỂU Hình 2.1 – Quá trình khai phá văn Web .10 Hình 2.2: Hệ thống để thực thuật toán xếp hạng dựa đồ thị 16 Hình 2.3: Đường cong hội tụ phương pháp xếp hạng dựa đồ thị với đồ thị có hướng – vơ hướng, có trọng số - khơng có trọng số, 250 đỉnh 250 cạnh 16 Hình 2.4 : Hình minh hoạ biểu đồ hình thành dựa 23 phương pháp textrank 23 Hình 3.1: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập liệu mẫu kết đánh giá với chủ đề “ Khoa học” 30 Hình 3.2: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập liệu mẫu 32 Kết đánh giá với liệu chủ đề “ phim phim hoạt hình” 32 v MỞ ĐẦU Hiện việc trích rút từ khố từ trang web việc quan trọng với lượng thông tin khổng lồ ngày bùng nổ tăng theo cấp số nhân Internet Bài tốn trích rút từ khố từ trang web giúp giải nhiều tốn thực tế như: Tìm kiếm thơng tin, tóm tắt văn bản…Rất nhiều người có nhu cầu tổng hợp tóm tắt lại thơng tin để thuận lợi cho việc tổng hợp thông tin Vậy từ khố gì? Từ khóa từ câu, đoạn, văn bản, mang ý nghĩa quan trọng có mục đích nhấn mạnh theo ý người viết Từ khóa (Keyword) sử dụng rộng rãi thuật ngữ Internet việc xác định từ ngữ thể sản phẩm, dịch vụ, thông tin mà chủ website hướng đến người dùng Internet hay dùng để tìm kiếm thơng tin liên quan Việc đọc tóm tắt nội dung văn Internet khó khăn tốn nhiều thời gian cho người, đến mức gần đạt với nguồn nhân lực hạn chế kích thước thơng tin tăng lên Kết hệ thống tự động thường sử dụng để thực nhiệm vụ Sự đời máy tìm kiếm phần giải vấn đề tràn ngập thông tin trang web Các máy tìm kiếm chủ yếu sử dụng từ khố tìm trang có chứa từ khoá cho kết phù hợp Việc trích chọn từ khóa ứng dụng quan trọng engine tìm kiếm Vì engine chủ yếu tìm kiếm dựa vào từ khóa Đó động lực để phát triển tốn trích rút từ khố từ trang web Nhiệm vụ tốn đặt cần tìm tập từ khoá cho từ khoá phải sát với nội dung tài liệu văn bản.Vì phương pháp tóm tắt tự động nghiên cứu phát triển Bài tốn trích rút từ khố khơng dừng lại trích rút từ khố mà cịn mở rộng trích rút câu loại liệu đa phương tiện hình ảnh, âm video Một ứng dụng điển hình cho việc ứng dụng tóm tắt liệu ... nhiều ứng dụng thực tế, nên tác giả định chọn đề tài “ Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng? ?? Đề tài nghiên cứu phương pháp trích rút từ khoá tập trung chủ yếu vào phương pháp. .. đề xuất phương pháp giải tốn trích rút từ khố từ trang web tiếng Anh qua đề tài ? ?Nghiên cứu phương pháp trích rút từ khoá từ trang web ứng dụng? ?? Mục tiêu đề tài nghiên cứu giải toán sinh từ khố... lý văn nghiên cứu phương pháp, kĩ thuật trích rút từ khoá từ trang web Ở tác giả nghiên cứu phương pháp phổ biến để trích rút từ khoá từ nội dung văn trang web là: Tần số từ phương pháp TextRank

Ngày đăng: 29/03/2023, 08:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w