Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
869 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ TỪ TRANG WEB VÀ ỨNG DỤNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ TỪ TRANG WEB VÀ ỨNG DỤNG Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: T.S NGUYỄN VĂN VINH HÀ NỘI - 2017 LỜI CAM ÐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết qủa trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Học Viên Nguyễn Vũ Chi Loan i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc đến T.S Nguyễn Văn Vinh, người tận tình bảo hướng dẫn tơi suốt q trình thực luận văn Tơi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy suốt hai năm học qua, cho nhiều kiến thức quý báu để vững bước đường học tập Tơi xin gửi lời cảm ơn tới bạn khố K21- ngành Cơng nghệ thơng tin ủng hộ khuyến khích tơi suốt q trình học tập trường Và cuối cùng, xin bày tỏ niềm biết ơn vơ hạn tới gia đình người bạn thân bên cạnh, động viên suốt trình thực luận văn tốt nghiệp Hà Nội, ngày 12 tháng 04 năm 2017 Học Viên Nguyễn Vũ Chi Loan ii TĨM TẮT NỘI DUNG Trích rút từ khoá từ trang web toán hay h ệ t h ố n g tốn trích rút từ khoá cho văn Ở mức cao hơn, tốn hệ thống trích xuất thơng tin (Information Retrieval) Trong nhiều năm qua, toán đề cập, quan tâm nhiều hội nghị quốc tế công ty lớn Bài tốn trích rút từ khố từ trang web việc trích rút từ khóa văn nội dung trang web Đây vấn đề mẻ áp dụng nhiều lĩnh vực khác như: Hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong luận văn này, tác giả nghiên cứu phương pháp trích rút từ khố từ trang web tập trung chủ yếu vào phương pháp TextRank Ngồi ra, tìm hiểu phương pháp trích rút từ khố khác nhằm nâng cao chất lượng từ khoá Luận văn áp dụng số miền liệu cụ thể trang web tiếng Anh cho kết khả quan iii BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu IR SE SEM SEO TF IDF Diễn giải Information Retrieval Search Engine Search Engine Marketing Search Engine Optimization Term Frequency Inverse Document Frequency iv MỤC LỤC LỜI CAM ÐOAN i LỜI CẢM ƠN ii TÓM TẮT NỘI DUNG iii BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ .vii DANH MỤC CÁC BẢNG BIỂU viii MỞ ĐẦU CHƯƠNG I GIỚI THIỆU BÀI TỐN TRÍCH RÚT TỪ KHỐ TU NOI DUNG VAN BAN TREN TRANG WEB .3 1.1 Đặt vấn đề 1.2 Khái niệm đặc trưng từ khóa 1.3 Đánh giá từ khoá 1.4 Thách thức tốn sinh từ khóa cho trang web 1.4.1 Đối với trang có nội dung tập trung 1.4.2 Đối với trang có nội dung tổng hợp 1.4.3 Các vấn đề khác 1.5 Ứng dụng từ khóa lĩnh vực .8 1.6 Tổng kết chương CHƯƠNG CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ 10 TỪ TRANG WEB 10 2.1 Tần số từ .11 2.2 Phương pháp TextRank để trích rút từ khoá cho trang web 14 2.2.1 Mơ hình TextRank 15 2.2.2 Đồ thị vô hướng .16 2.2.3 Đồ thị có trọng số 17 2.2.4 Đồ thị hoá văn 17 2.2.5 Sử dụng TextRank để trích rút từ khoá 18 2.4 Tổng kết chương 24 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 25 3.1 Yêu cầu thử nghiệm tập liệu thử nghiệm 26 3.2 Cài đặt thử nghiệm ứng dụng 26 3.2.1 Yêu cầu phần cứng phần mềm 26 3.2.2 Giới thiệu cấu trúc chương trình 27 3.3 Phương pháp đánh giá 27 3.4 Một số kết thu 29 3.5 Đánh giá kết thực nghiệm 35 KẾT LUẬN 37 TÀI LIỆU THAM KHẢO 38 v DANH MỤC HÌNH VẼ Bảng 2.1: Các đơn vị từ vựng có điểm số cao áp dụng TextRank 23 Bảng 3.1 : Danh sách chủ đề số lượng văn tương ứng 26 Bảng 3.2: Danh sách chủ đề số lượng văn tương ứng 26 Bảng 3.3: Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình .26 Bảng 3.4: Danh mục phần mềm sử dụng thực nghiệm 27 Bảng 3.5: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia 29 Bảng 3.6: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia 31 Bảng 3.7: So sánh kết từ khoá TextRank từ khoá trang web phim phim hoạt hình 32 vii DANH MỤC CÁC BẢNG BIỂU Hình 2.1 – Quá trình khai phá văn Web 10 Hình 2.2: Hệ thống để thực thuật tốn xếp hạng dựa đồ thị 16 Hình 2.3: Đường cong hội tụ phương pháp xếp hạng dựa đồ thị với đồ thị có hướng – vơ hướng, có trọng số - khơng có trọng số, 250 đỉnh 250 cạnh .16 Hình 2.4 : Hình minh hoạ biểu đồ hình thành dựa 23 phương pháp textrank 23 Hình 3.1: Biểu đồ phân bố điểm đánh giá trích rút từ khoá từ tập liệu mẫu kết đánh giá với chủ đề “ Khoa học” 30 Hình 3.2: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập liệu mẫu 32 Kết đánh giá với liệu chủ đề “ phim phim hoạt hình” 32 viii MỞ ĐẦU Hiện việc trích rút từ khoá từ trang web việc quan trọng với lượng thông tin khổng lồ ngày bùng nổ tăng theo cấp số nhân Internet Bài tốn trích rút từ khố từ trang web giúp giải nhiều toán thực tế như: Tìm kiếm thơng tin, tóm tắt văn bản…Rất nhiều người có nhu cầu tổng hợp tóm tắt lại thông tin để thuận lợi cho việc tổng hợp thơng tin Vậy từ khố gì? Từ khóa từ câu, đoạn, văn bản, mang ý nghĩa quan trọng có mục đích nhấn mạnh theo ý người viết Từ khóa (Keyword) sử dụng rộng rãi thuật ngữ Internet việc xác định từ ngữ thể sản phẩm, dịch vụ, thơng tin mà chủ website hướng đến người dùng Internet hay dùng để tìm kiếm thơng tin liên quan Việc đọc tóm tắt nội dung văn Internet khó khăn tốn nhiều thời gian cho người, đến mức gần đạt với nguồn nhân lực hạn chế kích thước thông tin tăng lên Kết hệ thống tự động thường sử dụng để thực nhiệm vụ Sự đời máy tìm kiếm phần giải vấn đề tràn ngập thơng tin trang web Các máy tìm kiếm chủ yếu sử dụng từ khố tìm trang có chứa từ khố cho kết phù hợp Việc trích chọn từ khóa ứng dụng quan trọng engine tìm kiếm Vì engine chủ yếu tìm kiếm dựa vào từ khóa Đó động lực để phát triển tốn trích rút từ khoá từ trang web Nhiệm vụ toán đặt cần tìm tập từ khố cho từ khoá phải sát với nội dung tài liệu văn bản.Vì phương pháp tóm tắt tự động nghiên cứu phát triển Bài tốn trích rút từ khố khơng dừng lại trích rút từ khố mà mở rộng trích rút câu loại liệu đa phương tiện hình ảnh, âm video Một ứng dụng điển hình cho việc ứng dụng tóm tắt liệu mềm hỗ trợ trình thực thực nghiệm: Bảng 3.4: Danh mục phần mềm sử dụng thực nghiệm STT Tên phần mềm Tác giả Nguồn Package index Owner: Federico Barries, http://pypi.python.org/pypi/summa/0.0.7 summanlp Federico lopez 3.2.2 Giới thiệu cấu trúc chương trình Các bước chương trình bao gồm: - Thu thập file text cần trích rút từ khố đầu vào tốn trích rút - Trích rút từ khố file dựa vào thuật tốn TextRank trình bày chương - Đánh giá chung kết thu 3.3 Phương pháp đánh giá Số lượng từ khoá tuỳ thuộc vào độ dài, ngắn văn trích rút, thơng thường từ - 10 - 15 từ theo báo Rada Mihalcea Paul Tarau[13] Dữ liệu dùng để đánh giá hiệu chương trình tập liệu thực thủ công nhà khoa học, chuyên gia đánh giá Mặc dù kết trích rút từ khố từ chuyên gia có độ tin cậy cao, nhiên để đảm bảo tính khách quan kết tóm tắt để khẳng định tính ưu việt phương pháp mà tơi đề xuất tơi xin trình bày cách đánh sau: Độ xác kết tóm tắt định nghĩa sau: (Số lượng từ khoá trùng lặp kết thuật toán kết chun gia)/ ( số lượng từ khố trích rút cần chọn) Tôi đề xuất phương pháp đo sau: Sử dụng phương pháp bầu chọn(voting) để chọn chuẩn vàng (gold – standard) Gold – standard tập hợp gồm từ khố nằm trích rút từ khoá nhiều người bầu chọn Gọi A tập từ khố trích rút từ văn thứ i chuyên 27 gia,và B tập từ khố rút trích từ văn thứ i phương pháp TextRank Cơng thức tính độ xác (precision) độ nhớ lại (recall) phương pháp áp dụng văn thứ i sau: Precision(i) = AB B Recall(i) = AB A Một hệ thống IR (Information Retrieval – Trích xuất thơng tin) cần phải cân đối recall precision, độ đo khác thường sử dụng F – score xây dựng dựa recall precision Fscore = Re callx Pr ecision ( recall precision) / Precision, recall F- score độ đo tập tài liệu trích rút Trên thực tế, đơi ta sử dụng trực tiếp độ đo để so sánh hai danh sách có xếp tài liệu trả về, chúng không quan tâm đến thứ tự nội tài liệu[7] Để đo chất lượng danh sách có xếp tài liệu, thơng thường người ta tính tốn giá trị trung bình precision(AP) tất thứ tự tài liệu trả Chúng tơi giả định cụm từ khóa tạo tự động cung cấp theo thứ tự từ khố có liên quan Các từ khoá top-5, top-10 top-15 sau so sánh với tiêu chuẩn vàng để đánh giá.[12] Ví dụ: so sánh tập hợp 15 cụm từ khóa hàng đầu tạo phương pháp sử dụng đệm Porter: grid comput, grid, grid servic discoveri, web servic, servic discoveri, grid servic, uddi, distribut hash tabl, discoveri of grid, uddi registri, rout, proxi registri, web servic discoveri, qos, discoveri Với tiêu chuẩn vàng tương đương với 19 cụm từ (một tập hợp định tác giả độc giả): 28 grid servic discoveri, uddi, distribut web-servic discoveri architectur, dht base uddi registri hierarchi, deploy issu, bamboo dht code, case-insensit search, queri, longest avail prefix, qo-base servic discoveri, autonom control, uddi registri, scalabl issu, soft state, dht, web servic, grid comput, md, discoveri Hệ thống xác định xác cụm từ chính, dẫn đến độ xác 40% (6/15) độ hồi tưởng lại 31,6% (6/19) Với kết cho tài liệu riêng lẻ, tơi tính tốn độ xác, hồi tưởng trung bình điểm F đạt qua cụm từ khóa kết hợp khoảng 75%, khơng phải tất cụm từ khóa thực xuất tài liệu Tác giả lấy ví dụ chủ đề tác giả thực nghiệm phim ảnh, cụ thể phim ““ Gone With The Wind” Từ khoá sử dụng phương pháp Textrank là: war,Atlanta,begins,burning Từ khoá chuyên gia đưa là: Atlanta, gallantry, honesty, indifference, scandal Hệ thống xác định xác từ chính, dẫn đến độ xác 25%(1/4) độ hồi tưởng 20%(1/5) Đây kết tốt cho phương pháp hoàn toàn không giám sát 3.4 Một số kết thu Kết đánh giá với chủ đề “ Hệ thống phân tán” Bảng 3.5: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia STT Tên file C-1 Từ khoá chun gia 42 Từ khố Từ khố Recall trích rút chung TextRank 50 21 0.5 C-3 40 50 20 C-4 47 50 18 29 Precision F- score 0.42 0.456 0.5 0.4 0.44 0.383 0.36 0.371 C-6 29 50 15 0.517 0.3 0.379 C-8 38 50 18 0.474 0.36 0.41 C-9 23 50 18 0.783 0.36 0.49 C-17 37 50 13 0.351 0.26 0.3 C-18 27 50 15 0.56 0.3 0.39 C-19 19 50 16 0.84 0.32 0.46 10 C-20 20 50 0.4 0.16 0.23 0.53 0.324 0.393 TB Từ liệu bảng 3.5, ta có biểu đồ hình Biểu đồ thể điểm đánh giá độ đo F-score tập liệu Biểu đồ phân bố điểm đánh giá trích rút từ khố 0.6 0.5 0.4 0.3 0.2 0.1 C-1 C-3 C-4 C-6 C-8 C-9 C-17 C-18 C-19 C-20 Hình 3.1: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập liệu mẫu 30 kết đánh giá với chủ đề “ Khoa học” Bảng 3.6: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia STT Tên file Từ Từ khoá Từ khoá khoá TextRank chung chuyên gia 9307 10 20 Recall Precision F- score 0.6 0.3 0.4 7502 20 0.89 0.4 0.55 7183 20 0.75 0.3 0.43 43032 11 20 10 0.9 0.5 0.64 40879 14 20 0.5 0.35 0.41 39955 12 20 11 0.92 0.55 0.69 39172 14 20 11 0.79 0.55 0.65 37632 10 20 0.7 0.35 0.47 287 10 20 0.7 0.35 0.47 10 25473 12 20 0.33 0.2 0.25 0.71 0.39 0.5 TB Từ liệu bảng 3.6, ta có biểu đồ hình Biểu đồ thể điểm đánh giá độ đo F- score tập liệu 31 Biểu đồ phân bố điểm đánh giá trích rút từ khố 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 9307 7502 7183 43032 40879 39955 39172 37632 287 25473 Hình 3.2: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập liệu mẫu Kết đánh giá với liệu chủ đề “ phim phim hoạt hình” Bảng 3.7: So sánh kết từ khoá TextRank từ khoá trang web phim phim hoạt hình STT Tên file A1 Từ khố web Từ khố Từ khố trích rút chung từ TextRank 2 A2 0.2 0.17 0.18 A3 12 0.6 0.25 0.35 A4 0.4 0.5 0.45 A5 0.2 0.5 0.29 A6 0.4 0.33 0.36 A7 0.4 0.33 0.36 A8 0.2 0.25 0.22 32 Recall Precision F- score 0.4 0.33 0.36 A9 13 0.6 0.23 0.33 10 A10 5 0.4 0.4 0.4 11 A11 0.4 0.33 0.36 12 A12 5 0.4 0.4 0.4 13 A13 5 0.4 0.4 0.4 14 A14 5 0.2 0.2 0.2 15 A15 0.6 0.33 0.43 16 A16 0.6 0.33 0.43 17 A17 0.4 0.33 0.36 18 A18 11 0.2 0.1 0.13 19 A19 0.4 0.33 0.36 20 A20 0.2 0.25 0.22 21 A21 0.2 0.33 0.25 22 A22 0.2 0.25 0.22 23 A23 0.2 0.25 0.22 24 A24 0.6 0.33 0.43 25 A25 0.6 0.38 0.47 26 A26 0.4 0.29 0.34 27 A27 0.4 0.33 0.36 28 A28 0.4 0.33 0.36 29 A29 0.4 0.29 0.34 30 A30 0.4 0.33 0.36 31 A31 1 0.2 0.33 32 A32 2 0.4 0.57 33 A33 5 0.2 0.2 0.2 33 34 A34 5 0.2 0.2 0.2 35 A35 5 0.2 0.2 0.2 36 A36 0.2 0.17 0.18 37 A37 11 0.2 0.18 0.19 38 A38 0.2 0.25 0.22 39 A39 0.2 0.25 0.22 40 A40 0.4 0.22 0.28 41 A41 0.4 0.33 0.36 42 A42 5 0.4 0.4 0.4 43 A43 0.2 0.25 0.22 44 A44 1 0.2 0.2 0.2 45 A45 0.2 0.25 0.22 46 A46 0.2 0.5 0.29 47 A47 0.2 0.33 0.25 48 A48 0.2 0.5 0.29 49 A49 0.4 0.33 0.36 50 A50 5 0.4 0.4 0.4 0.33 0.33 0.31 TB Từ liệu bảng 3.7, ta có: Nhận xét: Độ đo F-score phương pháp TextRank cho kết tốt, điểm đánh giá toàn tập liệu 0.31 Tập liệu cho kết tốt tập file 39955 với điểm số đạt 0.92 Tuy nhiên có vài tập liệu cho kết thấp so với tập lại C-20, C-17, C-4, C-6, 25473 Biểu đồ hình cho thấy khác biệt rõ điểm đánh giá tập liệu Đó thể rõ 34 mức độ xác, chất lượng phương pháp TextRank tập liệu với đặc điểm khác Từ bảng 6, 7, phân tích liệu thực nghiệm, tác giả nhận thấy tốc độ trích rút từ khố phụ thuộc vào độ dài văn Điều phù hợp với thuật tốn TextRank Thuật tốn TextRank tính tốn đệ quy tồn văn bản, độ dài văn lớn thời gian chạy lâu Đây nhược điểm thuật toán Từ đặc điểm mà thuật tốn khó áp dụng miền ứng dụng mà độ dài liệu lớn Như vậy, phương pháp trích rút phù hợp với loại hình văn dạng tin tức, văn có nội dung ngắn gọn Theo tác giả thực trích rút tập liệu thử nghiệm thời gian trích rút ngắn khoảng vài giây cho văn tuỳ thuộc vào độ dài ngắn văn Đây số ấn tượng, cho thấy tiềm áp dụng phương pháp TextRank vào thực tế Đặc biệt ứng dụng thời gian thực Tuy nhiên, theo biểu đồ hình 5,6 có số văn có điểm đánh giá thấp Vì tác giả loại bỏ văn khó trích rút trích rút có điểm đánh giá thấp, kết điểm đánh giá toàn tập liệu tăng lên đáng kể Điểm đánh giá cao thuộc tập số 3955 đạt 0.92 Đây điểm chứng tỏ phương pháp TextRank cho kết tốt văn có độ nhiễu ít, khả trích rút chung tập đặc trưng: độ dài văn ngắn, độ dài câu ngắn, chứa từ nối, từ quan hệ 3.5 Đánh giá kết thực nghiệm Đánh giá xác kết danh sách từ khố việc làm khó khăn thực phương pháp mà tác giả ứng dụng luận văn hồn tồn khơng giám sát Từ khố sinh tự động, cách đánh giá từ khố chun gia khác cho tài liệu văn Chủ yếu việc đánh giá dựa vào ý kiến đánh giá chuyên gia người Những từ khoá phải mang ý nghĩa cao, nói lên nội dung tài liệu văn Với lượng từ khố trích rút nhiều phương pháp TextRank tất nhiên khống chế lượng từ khoá sinh dùng thuật toán, từ khoá 35 bị lặp lại nhiều, số từ khố khơng có ý nghĩa quan trọng, khơng nêu đặc trưng văn nhược điểm phương pháp Tuy nhiên ưu điểm phương pháp thời gian trích rút từ khố nhanh, khơng cần kiến thức chun sâu ngơn ngữ học tốn có tính ứng dụng thực tế cao 36 KẾT LUẬN Những vấn đề giải luận văn - Luận văn nghiên cứu phương pháp trích rút từ khoá từ nội dung văn trang web ứng dụng Đặc biệt sâu nghiên cứu phương pháp trích rút từ khố phương pháp TextRank - Đồng thời, luận văn đề xuất sử dụng công cụ xây dựng sẵn để trích rút từ khố văn tiếng Anh Thực nghiệm liệu tiếng anh liệu xây dựng chuyên gia - Tác giả sưu tầm liệu Internet cho tập liệu với chủ đề phim ảnh so sánh kết trích rút phương pháp TextRank với kết từ khoá trang web xây dựng chuyên gia - Khảo sát phương pháp trích rút từ khố sử dụng Textrank cho kết khả quan ứng dụng tốn thực tế tìm kiếm thơng tin, hay tóm tắt văn Và tơi trình bày ưu điểm, nhược điểm tồn phương pháp Hướng phát triển Mặc dù kết thu luận văn đáng khích lệ tốt thời gian có hạn việc ước lượng trọng số cho phương pháp chưa tối ưu Trong thời gian tới, tiến hành thu thập thêm liệu hồn thiện thiếu sót phương pháp mà đề xuất Cũng sở đạt luận văn, dự định cải tiến chương trình để thực tập liệu văn Tiếng Việt Bài toán trích rút từ khố từ trang web tốn nhiều phần liên quan đến ngữ nghĩa, xử lý ngôn ngữ tự nhiên Tôi cố gắng tìm hiểu thêm lĩnh vực liên quan tóm tắt văn tự động, nâng cao chất lượng tìm kiếm trang web với từ khoá… 37 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi(2008), “Mơ hình biểu diễn văn thành đồ thị”, tạp ch ph t tri n t p số 07 năm 009 [2] Nguyễn Quang Châu, Lê Trọng Ngọc, Tôn long Phước, Nguyễn Văn Tân(2011), “Một hướng tiếp cận xây dựng Ontology Tiếng Việt”, tạp ch ại h c ng ghi p T năm [3] Trương Quốc Định(2015), “Phân loại văn dựa rút trích tự động tóm tắt văn bản”, ếu i nghị uốc gia ề nghi n c u c n ng d ng c ng ngh th ng tin năm 2015 [4] Trương Quốc Định, Nguyễn Quang Dũng(2012), “Một giải pháp tóm tắt văn Tiếng Việt tự động”, h i th ch n l c c a c ng ngh thông tin o uốc gia l n th tru ền thông năm [5] Chu Anh Minh(2009), B i to n tr ch xuất từ phư ng ph p phân t ch thẻ TML ề m t số ấn đề ho cho trang we p d ng đồ thị we , Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia Hà Nội [6] Nguyễn Văn Nghiệp(2015), Tóm tắt ăn n Tiếng i t sử d ng phư ng pháp TextRank, Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia Hà Nội [7] Lê Hoàng Thanh(2012) Text mining – ỹ thu t tr ch xuất th ng tin từ ăn n [8] Trần Ngọc Phúc(2012), Phân loại n i dung t i li u we , Luận văn thạc sĩ, Trường đại học Lạc Hồng, Đồng Nai [9] Nguyễn Trọng Phúc, Lê Thanh Hương(2008), “Tóm tắt văn Tiếng Việt sử dụng cấu trúc diễn ngôn” [10] Website: http://vietseo.net Tiếng Anh [11] J Han and M Kamber, Data mining concepts and techniques San 38 Francisco: Morgan Kawfmann Publishers, 2006 [12] Su Nam Kim, Olena Medelyan, Min-Yen Kan & Timothy Baldwin.Automatic keyphrase extraction from scientific articles;2010 [13] Rada Mihalcea and Paul Tarau TextRank: Bringing Order into Texts; 2004 [14] Kazi Saidul Hasan and Vincent Ng Automatic Keyphrase Extraction: A Survey of the State of the Art; 2014 [15] Simone Teufel, Marc Moens Sentence extraction as a classification task; 2002 [16] Brian Loff Survey of Keyword Extraction Techniques; 2012 [17] Gonenc Ercan, Ilyas Cicekli Using Lexical Chains for Keyword Extraction Inf; 2007 Process Manage., Vol 43, No (November 2007), pp 1705-1714 [18] H.Edmundson(1969) New methods in automatic abstracting, Journal of ACM; 1969 [19] HPLuhn(1958) The automatic creation of literature abstracts IBM journal of research development [20] J Kleinberg Authoritative sources in a hyperlinked environment J of the ACM , 1999, to appear Also appears as IBM Research Report RJ 10076 91892 May 1997 [21] P D Turney, Learning Algorithms for Keyphrase Extraction, Information Retrieval; 1999 [22] Qiang Yang, Advertising keyword suggestion based on concept hierarchy presented by Qiang Yang, HongKong Univ of Science and Technology [23] S Brin and L Page The anatomy of a large-scale hypertextual Web search engine.Proc 7th WWW Conf; 1998 [24] Y MATSUO,M Ishizuka.Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information.International Journal on Artificial Intelligence Tools; 2003 [25] Yasin Uzun Keyword Extraction Using Naive Bayes Bilkent University, Department of Computer Science, Turkey; 2015 [26] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction 39 Of Chinese Document Using Small World Structure Department of Computer Science, University of Science and Technology of China; 2014 [27] Soumen Chakrabarti, Data mining for hypertext: A tutorial survey Volume ACM – 2000 [28] Yi-fang Brook Wu, Quanzhi Li, Razvan Stefan Bot, Xin Chen, Domanin – specific keyphrase extraction, Proceedings of the 14 th ACM international conference on information and knowledge management, October 31- November 05, 2005, Bremen, Germany [29] Vibhanshu Abhishek, Kartik Hosanagar, Keyword generation for search engine advertising using semantic similarity between terms, Proceeding of the ninth international conference on Electronic commerce, August 19-22, 2007, Mineapolis, MN, USA [30] M Sahami and T Heilman A web-based kernel function for matching short text snippets In International Conference on Machine Learning, 2005 [31] Python http://pypi.python.org/pypi/summa/0.07 [32] Tf,IDF http://en.wikipedia.org/wiki/Tf-idf [33] Website: http://searchengineguide.com Công cụ liệu sử dụng [34] Website : http://pypi.python.org/pypi/summa/0.07 [35] Website: http://www.imdb.com [36] Website: http://google.com 40 ... xuất phương pháp giải tốn trích rút từ khố từ trang web tiếng Anh qua đề tài Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng Mục tiêu đề tài nghiên cứu giải tốn sinh từ khố theo phương. .. nhiều ứng dụng thực tế, nên tác giả định chọn đề tài “ Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng Đề tài nghiên cứu phương pháp trích rút từ khố tập trung chủ yếu vào phương pháp. .. từ loại( POS tagging) Sau tiền xử lý văn nghiên cứu phương pháp, kĩ thuật trích rút từ khoá từ trang web Ở tác giả nghiên cứu phương pháp phổ biến để trích rút từ khoá từ nội dung văn trang web