Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 49 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
49
Dung lượng
1,14 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊNCỨUCÁCPHƯƠNGPHÁPTRÍCHRÚTTỪKHOÁTỪTRANGWEBVÀỨNGDỤNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊNCỨUCÁCPHƯƠNGPHÁPTRÍCHRÚTTỪKHOÁTỪTRANGWEBVÀỨNGDỤNG Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: T.S NGUYỄN VĂN VINH HÀ NỘI - 2017 LỜI CAM ÐOAN Tôi xin cam đoan công trình nghiêncứu thân Các số liệu, kết qủa trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Học Viên Nguyễn Vũ Chi Loan i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc đến T.S Nguyễn Văn Vinh, người tận tình bảo hướng dẫn suốt trình thực luận văn Tôi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy suốt hai năm học qua, cho nhiều kiến thức quý báu để vững bước đường học tập Tôi xin gửi lời cảm ơn tới bạn khoá K21- ngành Công nghệ thông tin ủng hộ khuyến khích suốt trình học tập trường Và cuối cùng, xin bày tỏ niềm biết ơn vô hạn tới gia đình người bạn thân bên cạnh, động viên suốt trình thực luận văn tốt nghiệp Hà Nội, ngày 12 tháng 04 năm 2017 Học Viên Nguyễn Vũ Chi Loan ii TÓM TẮT NỘI DUNGTríchrúttừkhoátừtrangweb toán hay h ệ t h ố n g toán tríchrúttừkhoá cho văn Ở mức cao hơn, toán hệ thống trích xuất thông tin (Information Retrieval) Trong nhiều năm qua, toán đề cập, quan tâm nhiều hội nghị quốc tế công ty lớn Bài toán tríchrúttừkhoátừtrangweb việc tríchrúttừkhóa văn nội dungtrangweb Đây vấn đề mẻ áp dụng nhiều lĩnh vực khác như: Hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong luận văn này, tác giả nghiêncứuphươngpháptríchrúttừkhoátừtrangweb tập trung chủ yếu vào phươngpháp TextRank Ngoài ra, tìm hiểu phươngpháptríchrúttừkhoá khác nhằm nâng cao chất lượng từkhoá Luận văn áp dụng số miền liệu cụ thể trangweb tiếng Anh cho kết khả quan iii BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu IR SE SEM SEO TF IDF Diễn giải Information Retrieval Search Engine Search Engine Marketing Search Engine Optimization Term Frequency Inverse Document Frequency iv MỤC LỤC LỜI CAM ÐOAN i LỜI CẢM ƠN ii TÓM TẮT NỘI DUNG iii BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ vii DANH MỤC CÁC BẢNG BIỂU .viii MỞ ĐẦU CHƯƠNG I GIỚI THIỆU BÀI TOÁN TRÍCHRÚTTỪKHOÁTU NOI DUNG VAN BAN TREN TRANGWEB 1.1 Đặt vấn đề 1.2 Khái niệm đặc trưng từkhóa 1.3 Đánh giá từkhoá 1.4 Thách thức toán sinh từkhóa cho trangweb 1.4.1 Đối với trang có nội dung tập trung 1.4.2 Đối với trang có nội dung tổng hợp 1.4.3 Các vấn đề khác 1.5 Ứngdụngtừkhóa lĩnh vực 1.6 Tổng kết chương CHƯƠNG CÁCPHƯƠNGPHÁPTRÍCHRÚTTỪKHOÁ 10 TỪTRANGWEB 10 2.1 Tần số từ 11 2.2 Phươngpháp TextRank để tríchrúttừkhoá cho trangweb 14 2.2.1 Mô hình TextRank 15 2.2.2 Đồ thị vô hướng 16 2.2.3 Đồ thị có trọng số 17 2.2.4 Đồ thị hoá văn 17 2.2.5 Sử dụng TextRank để tríchrúttừkhoá 18 2.4 Tổng kết chương 24 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 25 3.1 Yêu cầu thử nghiệm tập liệu thử nghiệm 26 3.2 Cài đặt thử nghiệm ứngdụng 26 3.2.1 Yêu cầu phần cứng phần mềm 26 3.2.2 Giới thiệu cấu trúc chương trình 27 3.3 Phươngpháp đánh giá 27 3.4 Một số kết thu 29 3.5 Đánh giá kết thực nghiệm 35 KẾT LUẬN 37 TÀI LIỆU THAM KHẢO 38 v DANH MỤC HÌNH VẼ Bảng 2.1: Các đơn vị từ vựng có điểm số cao áp dụng TextRank 23 Bảng 3.1 : Danh sách chủ đề số lượng văn tương ứng 26 Bảng 3.2: Danh sách chủ đề số lượng văn tương ứng 26 Bảng 3.3: Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình 26 Bảng 3.4: Danh mục phần mềm sử dụng thực nghiệm 27 Bảng 3.5: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia 29 Bảng 3.6: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia 31 Bảng 3.7: So sánh kết từkhoá TextRank từkhoátrangweb phim phim hoạt hình 32 vii DANH MỤC CÁC BẢNG BIỂU Hình 2.1 – Quá trình khai phá văn Web 10 Hình 2.2: Hệ thống để thực thuật toán xếp hạng dựa đồ thị 16 Hình 2.3: Đường cong hội tụphươngpháp xếp hạng dựa đồ thị với đồ thị có hướng – vô hướng, có trọng số - trọng số, 250 đỉnh 250 cạnh 16 Hình 2.4 : Hình minh hoạ biểu đồ hình thành dựa 23 phươngpháp textrank 23 Hình 3.1: Biểu đồ phân bố điểm đánh giá tríchrúttừkhoátừ tập liệu mẫu kết đánh giá với chủ đề “ Khoa học” 30 Hình 3.2: Biểu đồ phân bố điểm đánh giá tríchrúttừkhoátừ tập liệu mẫu 32 Kết đánh giá với liệu chủ đề “ phim phim hoạt hình” 32 viii MỞ ĐẦU Hiện việc tríchrúttừkhoátừtrangweb việc quan trọng với lượng thông tin khổng lồ ngày bùng nổ tăng theo cấp số nhân Internet Bài toán tríchrúttừkhoátừtrangweb giúp giải nhiều toán thực tế như: Tìm kiếm thông tin, tóm tắt văn bản…Rất nhiều người có nhu cầu tổng hợp tóm tắt lại thông tin để thuận lợi cho việc tổng hợp thông tin Vậy từkhoá gì? Từkhóatừ câu, đoạn, văn bản, mang ý nghĩa quan trọng có mục đích nhấn mạnh theo ý người viết Từkhóa (Keyword) sử dụng rộng rãi thuật ngữ Internet việc xác định từ ngữ thể sản phẩm, dịch vụ, thông tin mà chủ website hướng đến người dùng Internet hay dùng để tìm kiếm thông tin liên quan Việc đọc tóm tắt nội dung văn Internet khó khăn tốn nhiều thời gian cho người, đến mức gần đạt với nguồn nhân lực hạn chế kích thước thông tin tăng lên Kết hệ thống tự động thường sử dụng để thực nhiệm vụ Sự đời máy tìm kiếm phần giải vấn đề tràn ngập thông tin trangwebCác máy tìm kiếm chủ yếu sử dụngtừkhoá tìm trang có chứa từkhoá cho kết phù hợp Việc trích chọn từkhóaứngdụng quan trọng engine tìm kiếm Vì engine chủ yếu tìm kiếm dựa vào từkhóa Đó động lực để phát triển toán tríchrúttừkhoátừtrangweb Nhiệm vụ toán đặt cần tìm tập từkhoá cho từkhoá phải sát với nội dung tài liệu văn bản.Vì phươngpháp tóm tắt tự động nghiêncứu phát triển Bài toán tríchrúttừkhoá không dừng lại tríchrúttừkhoá mà mở rộng tríchrút câu loại liệu đa phương tiện hình ảnh, âm video Một ứngdụng điển hình cho việc ứngdụng tóm tắt liệu 3.1 Yêu cầu thử nghiệm tập liệu thử nghiệm Tập liệu thực nghiệm Dữ liệu thực nghiệm tác giả sử dụng luận văn lấy từ tập liệu tải trang web: https://github.com/zelandiya/keyword-extractiondatasets chuyên gia tổng hợp đánh giá thuộc chủ đề khác có độ dài khác Chi tiết sau: Bảng 3.1 : Danh sách chủ đề số lượng văn tương ứng Chủ đề STT Dung lượng Hệ thống phân tán 300KB Khoa học 300KB Cùng với tập liệu tác giả sưu tầm chủ đề phim ảnh diễn viên Chi tiết sau: Bảng 3.2: Danh sách chủ đề số lượng văn tương ứng STT Chủ đề Số văn Phim 50 Phim hoạt hình 50 3.2 Cài đặt thử nghiệm ứngdụng 3.2.1 Yêu cầu phần cứng phần mềm Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình: Bảng 3.3: Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình Thành phần Chỉ số CPU Intel® Core™ i5 CPU RAM 2.00 GB OS Windows Ultimate Bộ nhớ 300GB Danh mục phần mềm sử dụng thực nghiệm: Chương trình thực nghiệm viết ngôn ngữ python phiên 2.7 thư viện Numpy Scipy Trong luận văn có sử dụng công cụ phần 26 mềm hỗ trợ trình thực thực nghiệm: Bảng 3.4: Danh mục phần mềm sử dụng thực nghiệm STT Tên phần mềm Tác giả Package index Federico Owner: Barries, summanlp Federico Nguồn http://pypi.python.org/pypi/summa/0.0.7 lopez 3.2.2 Giới thiệu cấu trúc chương trình Các bước chương trình bao gồm: - Thu thập file text cần tríchrúttừkhoá đầu vào toán tríchrút - Tríchrúttừkhoá file dựa vào thuật toán TextRank trình bày chương - Đánh giá chung kết thu 3.3 Phươngpháp đánh giá Số lượng từkhoá tuỳ thuộc vào độ dài, ngắn văn trích rút, thông thường từ - 10 - 15 từ theo báo Rada Mihalcea Paul Tarau[13] Dữ liệu dùng để đánh giá hiệu chương trình tập liệu thực thủ công nhà khoa học, chuyên gia đánh giá Mặc dù kết tríchrúttừkhoátừ chuyên gia có độ tin cậy cao, nhiên để đảm bảo tính khách quan kết tóm tắt để khẳng định tính ưu việt phươngpháp mà đề xuất xin trình bày cách đánh sau: Độ xác kết tóm tắt định nghĩa sau: (Số lượng từkhoá trùng lặp kết thuật toán kết chuyên gia)/ ( số lượng từkhoátríchrút cần chọn) Tôi đề xuất phươngpháp đo sau: Sử dụngphươngpháp bầu chọn(voting) để chọn chuẩn vàng (gold – standard) Gold – standard tập hợp gồm từkhoá nằm tríchrúttừkhoá nhiều người bầu chọn Gọi A tập từkhoátríchrúttừ văn thứ i chuyên 27 gia,và B tập từkhoárúttríchtừ văn thứ i phươngpháp TextRank Công thức tính độ xác (precision) độ nhớ lại (recall) phươngpháp áp dụng văn thứ i sau: Precision(i) = Recall(i) = A B B A B A Một hệ thống IR (Information Retrieval – Trích xuất thông tin) cần phải cân đối recall precision, độ đo khác thường sử dụng F – score xây dựng dựa recall precision Fscore = Re callx Pr ecision (recall precision) / Precision, recall F- score độ đo tập tài liệu tríchrút Trên thực tế, ta sử dụng trực tiếp độ đo để so sánh hai danh sách có xếp tài liệu trả về, chúng không quan tâm đến thứ tự nội tài liệu[7] Để đo chất lượng danh sách có xếp tài liệu, thông thường người ta tính toán giá trị trung bình precision(AP) tất thứ tự tài liệu trả Chúng giả định cụm từkhóa tạo tự động cung cấp theo thứ tựtừkhoá có liên quan Cáctừkhoá top-5, top-10 top-15 sau so sánh với tiêu chuẩn vàng để đánh giá.[12] Ví dụ: so sánh tập hợp 15 cụm từkhóa hàng đầu tạo phươngpháp sử dụng đệm Porter: grid comput, grid, grid servic discoveri, web servic, servic discoveri, grid servic, uddi, distribut hash tabl, discoveri of grid, uddi registri, rout, proxi registri, web servic discoveri, qos, discoveri Với tiêu chuẩn vàng tương đương với 19 cụm từ (một tập hợp định tác giả độc giả): 28 grid servic discoveri, uddi, distribut web-servic discoveri architectur, dht base uddi registri hierarchi, deploy issu, bamboo dht code, case-insensit search, queri, longest avail prefix, qo-base servic discoveri, autonom control, uddi registri, scalabl issu, soft state, dht, web servic, grid comput, md, discoveri Hệ thống xác định xác cụm từ chính, dẫn đến độ xác 40% (6/15) độ hồi tưởng lại 31,6% (6/19) Với kết cho tài liệu riêng lẻ, tính toán độ xác, hồi tưởng trung bình điểm F đạt qua cụm từkhóa kết hợp khoảng 75%, tất cụm từkhóa thực xuất tài liệu Tác giả lấy ví dụ chủ đề tác giả thực nghiệm phim ảnh, cụ thể phim ““ Gone With The Wind” Từkhoá sử dụngphươngpháp Textrank là: war,Atlanta,begins,burning Từkhoá chuyên gia đưa là: Atlanta, gallantry, honesty, indifference, scandal Hệ thống xác định xác từ chính, dẫn đến độ xác 25%(1/4) độ hồi tưởng 20%(1/5) Đây kết tốt cho phươngpháp hoàn toàn không giám sát 3.4 Một số kết thu Kết đánh giá với chủ đề “ Hệ thống phân tán” Bảng 3.5: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia STT Tên file C-1 Từkhoá chuyên gia 42 TừkhoáTừkhoá Recall tríchrút chung TextRank 50 21 0.5 C-3 40 50 20 C-4 47 50 18 29 Precision F- score 0.42 0.456 0.5 0.4 0.44 0.383 0.36 0.371 C-6 29 50 15 0.517 0.3 0.379 C-8 38 50 18 0.474 0.36 0.41 C-9 23 50 18 0.783 0.36 0.49 C-17 37 50 13 0.351 0.26 0.3 C-18 27 50 15 0.56 0.3 0.39 C-19 19 50 16 0.84 0.32 0.46 10 C-20 20 50 0.4 0.16 0.23 0.324 0.393 0.53 TB Từ liệu bảng 3.5, ta có biểu đồ hình Biểu đồ thể điểm đánh giá độ đo F-score tập liệu Biểu đồ phân bố điểm đánh giá tríchrúttừkhoá 0.6 0.5 0.4 0.3 0.2 0.1 C-1 C-3 C-4 C-6 C-8 C-9 C-17 C-18 C-19 C-20 Hình 3.1: Biểu đồ phân bố điểm đánh giá tríchrúttừkhoátừ tập liệu mẫu 30 kết đánh giá với chủ đề “ Khoa học” Bảng 3.6: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia STT Tên file TừTừkhoáTừkhoákhoá TextRank chung chuyên gia 9307 10 20 Recall Precision F- score 0.6 0.3 0.4 7502 20 0.89 0.4 0.55 7183 20 0.75 0.3 0.43 43032 11 20 10 0.9 0.5 0.64 40879 14 20 0.5 0.35 0.41 39955 12 20 11 0.92 0.55 0.69 39172 14 20 11 0.79 0.55 0.65 37632 10 20 0.7 0.35 0.47 287 10 20 0.7 0.35 0.47 10 25473 12 20 0.33 0.2 0.25 0.71 0.39 0.5 TB Từ liệu bảng 3.6, ta có biểu đồ hình Biểu đồ thể điểm đánh giá độ đo F- score tập liệu 31 Biểu đồ phân bố điểm đánh giá tríchrúttừkhoá 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 9307 7502 7183 43032 40879 39955 39172 37632 287 25473 Hình 3.2: Biểu đồ phân bố điểm đánh giá tríchrúttừkhoátừ tập liệu mẫu Kết đánh giá với liệu chủ đề “ phim phim hoạt hình” Bảng 3.7: So sánh kết từkhoá TextRank từkhoátrangweb phim phim hoạt hình STT Tên file A1 TừkhoáwebTừkhoáTừkhoátríchrút chung từ TextRank Recall Precision F- score 0.4 0.33 0.36 A2 0.2 0.17 0.18 A3 12 0.6 0.25 0.35 A4 0.4 0.5 0.45 A5 0.2 0.5 0.29 A6 0.4 0.33 0.36 A7 0.4 0.33 0.36 A8 0.2 0.25 0.22 32 A9 13 0.6 0.23 0.33 10 A10 5 0.4 0.4 0.4 11 A11 0.4 0.33 0.36 12 A12 5 0.4 0.4 0.4 13 A13 5 0.4 0.4 0.4 14 A14 5 0.2 0.2 0.2 15 A15 0.6 0.33 0.43 16 A16 0.6 0.33 0.43 17 A17 0.4 0.33 0.36 18 A18 11 0.2 0.1 0.13 19 A19 0.4 0.33 0.36 20 A20 0.2 0.25 0.22 21 A21 0.2 0.33 0.25 22 A22 0.2 0.25 0.22 23 A23 0.2 0.25 0.22 24 A24 0.6 0.33 0.43 25 A25 0.6 0.38 0.47 26 A26 0.4 0.29 0.34 27 A27 0.4 0.33 0.36 28 A28 0.4 0.33 0.36 29 A29 0.4 0.29 0.34 30 A30 0.4 0.33 0.36 31 A31 1 0.2 0.33 32 A32 2 0.4 0.57 33 A33 5 0.2 0.2 0.2 33 34 A34 5 0.2 0.2 0.2 35 A35 5 0.2 0.2 0.2 36 A36 0.2 0.17 0.18 37 A37 11 0.2 0.18 0.19 38 A38 0.2 0.25 0.22 39 A39 0.2 0.25 0.22 40 A40 0.4 0.22 0.28 41 A41 0.4 0.33 0.36 42 A42 5 0.4 0.4 0.4 43 A43 0.2 0.25 0.22 44 A44 1 0.2 0.2 0.2 45 A45 0.2 0.25 0.22 46 A46 0.2 0.5 0.29 47 A47 0.2 0.33 0.25 48 A48 0.2 0.5 0.29 49 A49 0.4 0.33 0.36 50 A50 5 0.4 0.4 0.4 0.33 0.33 0.31 TB Từ liệu bảng 3.7, ta có: Nhận xét: Độ đo F-score phươngpháp TextRank cho kết tốt, điểm đánh giá toàn tập liệu 0.31 Tập liệu cho kết tốt tập file 39955 với điểm số đạt 0.92 Tuy nhiên có vài tập liệu cho kết thấp so với tập lại C-20, C-17, C-4, C-6, 25473 Biểu đồ hình cho thấy khác biệt rõ điểm đánh giá tập liệu Đó thể rõ 34 mức độ xác, chất lượng phươngpháp TextRank tập liệu với đặc điểm khác Từ bảng 6, 7, phân tích liệu thực nghiệm, tác giả nhận thấy tốc độ tríchrúttừkhoá phụ thuộc vào độ dài văn Điều phù hợp với thuật toán TextRank Thuật toán TextRank tính toán đệ quy toàn văn bản, độ dài văn lớn thời gian chạy lâu Đây nhược điểm thuật toán Từ đặc điểm mà thuật toán khó áp dụng miền ứngdụng mà độ dài liệu lớn Như vậy, phươngpháptríchrút phù hợp với loại hình văn dạng tin tức, văn có nội dung ngắn gọn Theo tác giả thực tríchrút tập liệu thử nghiệm thời gian tríchrút ngắn khoảng vài giây cho văn tuỳ thuộc vào độ dài ngắn văn Đây số ấn tượng, cho thấy tiềm áp dụngphươngpháp TextRank vào thực tế Đặc biệt ứngdụng thời gian thực Tuy nhiên, theo biểu đồ hình 5,6 có số văn có điểm đánh giá thấp Vì tác giả loại bỏ văn khó tríchrúttríchrút có điểm đánh giá thấp, kết điểm đánh giá toàn tập liệu tăng lên đáng kể Điểm đánh giá cao thuộc tập số 3955 đạt 0.92 Đây điểm chứng tỏ phươngpháp TextRank cho kết tốt văn có độ nhiễu ít, khả tríchrút chung tập đặc trưng: độ dài văn ngắn, độ dài câu ngắn, chứa từ nối, từ quan hệ 3.5 Đánh giá kết thực nghiệm Đánh giá xác kết danh sách từkhoá việc làm khó khăn thực phươngpháp mà tác giả ứngdụng luận văn hoàn toàn không giám sát Từkhoá sinh tự động, cách đánh giá từkhoá chuyên gia khác cho tài liệu văn Chủ yếu việc đánh giá dựa vào ý kiến đánh giá chuyên gia người Những từkhoá phải mang ý nghĩa cao, nói lên nội dung tài liệu văn Với lượng từkhoátríchrút nhiều phươngpháp TextRank tất nhiên khống chế lượng từkhoá sinh dùng thuật toán, từkhoá 35 bị lặp lại nhiều, số từkhoá ý nghĩa quan trọng, không nêu đặc trưng văn nhược điểm phươngpháp Tuy nhiên ưu điểm phươngpháp thời gian tríchrúttừkhoá nhanh, không cần kiến thức chuyên sâu ngôn ngữ học toán có tính ứngdụng thực tế cao 36 KẾT LUẬN Những vấn đề giải luận văn - Luận văn nghiêncứuphươngpháptríchrúttừkhoátừ nội dung văn trangwebứngdụng Đặc biệt sâu nghiêncứuphươngpháptríchrúttừkhoáphươngpháp TextRank - Đồng thời, luận văn đề xuất sử dụng công cụ xây dựng sẵn để tríchrúttừkhoá văn tiếng Anh Thực nghiệm liệu tiếng anh liệu xây dựng chuyên gia - Tác giả sưu tầm liệu Internet cho tập liệu với chủ đề phim ảnh so sánh kết tríchrútphươngpháp TextRank với kết từkhoátrangweb xây dựng chuyên gia - Khảo sát phươngpháptríchrúttừkhoá sử dụng Textrank cho kết khả quan ứngdụng toán thực tế tìm kiếm thông tin, hay tóm tắt văn Và trình bày ưu điểm, nhược điểm tồn phươngpháp Hướng phát triển Mặc dù kết thu luận văn đáng khích lệ tốt thời gian có hạn việc ước lượng trọng số cho phươngpháp chưa tối ưu Trong thời gian tới, tiến hành thu thập thêm liệu hoàn thiện thiếu sót phươngpháp mà đề xuất Cũng sở đạt luận văn, dự định cải tiến chương trình để thực tập liệu văn Tiếng Việt Bài toán tríchrúttừkhoátừtrangweb toán nhiều phần liên quan đến ngữ nghĩa, xử lý ngôn ngữ tự nhiên Tôi cố gắng tìm hiểu thêm lĩnh vực liên quan tóm tắt văn tự động, nâng cao chất lượng tìm kiếm trangweb với từ khoá… 37 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi(2008), “Mô hình biểu diễn văn thành đồ thị”, tạp ch ph t tri n t p số 07 năm 009 [2] Nguyễn Quang Châu, Lê Trọng Ngọc, Tôn long Phước, Nguyễn Văn Tân(2011), “Một hướng tiếp cận xây dựng Ontology Tiếng Việt”, tạp ch ại h c ng ghi p T năm [3] Trương Quốc Định(2015), “Phân loại văn dựa rúttríchtự động tóm tắt văn bản”, ếu i nghị uốc gia ề nghi n c u c n ng d ng c ng ngh th ng tin năm 2015 [4] Trương Quốc Định, Nguyễn Quang Dũng(2012), “Một giải pháp tóm tắt văn Tiếng Việt tự động”, h i th o ch n l c c a c ng ngh thông tin uốc gia l n th ề m t số ấn đề tru ền thông năm [5] Chu Anh Minh(2009), B i to n tr ch xuất từ ho cho trang we phư ng ph p phân t ch thẻ TML p d ng đồ thị we , Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia Hà Nội [6] Nguyễn Văn Nghiệp(2015), Tóm tắt ăn n Tiếng i t sử d ng phư ng pháp TextRank, Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia Hà Nội [7] Lê Hoàng Thanh(2012) Text mining – ỹ thu t tr ch xuất th ng tin từ ăn n [8] Trần Ngọc Phúc(2012), Phân loại n i dung t i li u we , Luận văn thạc sĩ, Trường đại học Lạc Hồng, Đồng Nai [9] Nguyễn Trọng Phúc, Lê Thanh Hương(2008), “Tóm tắt văn Tiếng Việt sử dụng cấu trúc diễn ngôn” [10] Website: http://vietseo.net Tiếng Anh [11] J Han and M Kamber, Data mining concepts and techniques San 38 Francisco: Morgan Kawfmann Publishers, 2006 [12] Su NamKim, Olena Medelyan, Min-Yen Kan & Timothy Baldwin.Automatic keyphrase extraction from scientific articles;2010 [13] Rada Mihalcea and Paul Tarau TextRank: Bringing Order into Texts; 2004 [14] Kazi Saidul Hasan and Vincent Ng Automatic Keyphrase Extraction: A Survey of the State of the Art; 2014 [15] Simone Teufel, Marc Moens Sentence extraction as a classification task; 2002 [16] Brian Loff Survey of Keyword Extraction Techniques; 2012 [17] Gonenc Ercan, Ilyas Cicekli Using Lexical Chains for Keyword Extraction Inf; 2007 Process Manage., Vol 43, No (November 2007), pp 1705-1714 [18] H.Edmundson(1969) New methods in automatic abstracting, Journal of ACM; 1969 [19] HPLuhn(1958) The automatic creation of literature abstracts IBM journal of research development [20] J Kleinberg Authoritative sources in a hyperlinked environment J of the ACM , 1999, to appear Also appears as IBM Research Report RJ 10076 91892 May 1997 [21] P D Turney, Learning Algorithms for Keyphrase Extraction, Information Retrieval; 1999 [22] Qiang Yang, Advertising keyword suggestion based on concept hierarchy presented by Qiang Yang, HongKong Univ of Science and Technology [23] S Brin and L Page The anatomy of a large-scale hypertextual Web search engine.Proc 7th WWW Conf; 1998 [24] Y MATSUO,M Ishizuka.Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information.International Journal on Artificial Intelligence Tools; 2003 [25] Yasin Uzun Keyword Extraction Using Naive Bayes Bilkent University, Department of Computer Science, Turkey; 2015 [26] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction 39 Of Chinese Document Using Small World Structure Department of Computer Science, University of Science and Technology of China; 2014 [27] Soumen Chakrabarti, Data mining for hypertext: A tutorial survey Volume ACM – 2000 [28] Yi-fang Brook Wu, Quanzhi Li, Razvan Stefan Bot, Xin Chen, Domanin – specific keyphrase extraction, Proceedings of the 14th ACM international conference on information and knowledge management, October 31- November 05, 2005, Bremen, Germany [29] Vibhanshu Abhishek, Kartik Hosanagar, Keyword generation for search engine advertising using semantic similarity between terms, Proceeding of the ninth international conference on Electronic commerce, August 19-22, 2007, Mineapolis, MN, USA [30] M Sahami and T Heilman A web-based kernel function for matching short text snippets In International Conference on Machine Learning, 2005 [31] Python http://pypi.python.org/pypi/summa/0.07 [32] Tf,IDF http://en.wikipedia.org/wiki/Tf-idf [33] Website: http://searchengineguide.com Công cụ liệu sử dụng [34] Website : http://pypi.python.org/pypi/summa/0.07 [35] Website: http://www.imdb.com [36] Website: http://google.com 40 ... xuất phương pháp giải toán trích rút từ khoá từ trang web tiếng Anh qua đề tài Nghiên cứu phương pháp trích rút từ khoá từ trang web ứng dụng Mục tiêu đề tài nghiên cứu giải toán sinh từ khoá. .. ứng dụng thực tế, nên tác giả định chọn đề tài “ Nghiên cứu phương pháp trích rút từ khoá từ trang web ứng dụng Đề tài nghiên cứu phương pháp trích rút từ khoá tập trung chủ yếu vào phương pháp. .. xử lý văn nghiên cứu phương pháp, kĩ thuật trích rút từ khoá từ trang web Ở tác giả nghiên cứu phương pháp phổ biến để trích rút từ khoá từ nội dung văn trang web là: Tần số từ phương pháp TextRank