Nghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụngNghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụng
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ TỪ TRANG WEB VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SỸ Ngành: Kỹ thuật phần mềm HÀ NỘI - 2017 MỞ ĐẦU Hiện việc trích rút từ khố từ trang web việc quan trọng với lượng thông tin khổng lồ ngày bùng nổ tăng theo cấp số nhân Internet Bài toán trích rút từ khố từ trang web giúp giải nhiều tốn thực tế như: Tìm kiếm thơng tin, tóm tắt văn bản…Rất nhiều người có nhu cầu tổng hợp tóm tắt lại thơng tin để thuận lợi cho việc tổng hợp thông tin Việc trích chọn từ khóa ứng dụng quan trọng engine tìm kiếm Vì engine chủ yếu tìm kiếm dựa vào từ khóa Đó động lực để phát triển tốn trích rút từ khố từ trang web Nhiệm vụ toán đặt cần tìm tập từ khố cho từ khoá phải sát với nội dung tài liệu văn bản.Vì phương pháp tóm tắt tự động nghiên cứu phát triển Bài tốn trích rút từ khố khơng dừng lại trích rút từ khố mà mở rộng trích rút câu loại liệu đa phương tiện hình ảnh, âm video Một ứng dụng điển hình cho việc ứng dụng tóm tắt liệu tự động máy tìm kiếm, bật máy tìm kiếm Google Với thực tế nêu trên, luận văn đề xuất phương pháp giải tốn trích rút từ khố từ trang web tiếng Anh qua đề tài “Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng” Mục tiêu đề tài nghiên cứu giải toán sinh từ khoá theo phương pháp là: đồ thị web Qua thực nghiệm cho thấy hướng tiếp cận khả quan có triển vọng với độ xác tốt, kết hợp với từ khố chun gia tập từ khố sinh đầy đủ xác Ngồi phần MỞ ĐẦU KẾT LUẬN, kết cấu luận văn bao gồm chương sau: - Chương 1: Giới thiệu toán Nêu khái niệm toán Các ứng dụng toán Những thách thức đặt cho tốn - Chương 2: Các phương pháp trích rút từ khoá từ trang web Giới thiệu phương pháp TextRank áp dụng để trích rút từ khố từ trang web - Chương 3: “Kết thực nghiệm đánh giá” Đưa kết làm, đánh giá kết CHƯƠNG I GI I THIỆU BÀI TOÁN TRÍCH RÚT TỪ KHỐ TỪ NỘI DUNG VĂN B N TRÊN TRANG WEB 1.1 Đặt vấn đề Sự phát triển nhanh chóng Internet đặc biệt bùng nổ thơng tin làm cho thơng tin ngày khó kiểm sốt, trùng lặp nhiều Tìm kiếm thơng tin nhu cầu thiết yếu nhiều người nhiều lĩnh vực khác Sự đột phá cơng nghệ cho máy tìm kiếm phần giải ngập lụt thông tin Vì nhu cầu sử dụng máy tìm kiếm lớn.Tìm kiếm tổng hợp thơng tin khơng thuận lợi gây khó khăn để có kết tìm kiếm mục đích tốn thời gian Hiện máy tìm kiếm (Google, Bing, Coccoc, …) chủ yếu dựa vào từ khố để tìm kiếm trang web Vì trang web mà ta biết trước tập từ khoá giúp tìm kiếm xác Trích rút từ khoá tự động nội dung văn web toán đặt trước nhu cầu thực tế Ứng dụng quan trọng trích chọn từ khố sử dụng phương pháp TextRank tìm kiếm Các từ khóa từ, cụm từ nhằm miêu tả nội dung trang web, văn cách ngắn gọn nhất, xác Nhận thấy đề tài mới, có tính khoa học tảng nhiều ứng dụng thực tế, nên tác giả định chọn đề tài “ Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng” Đề tài nghiên cứu phương pháp trích rút từ khố tập trung chủ yếu vào phương pháp TextRank để trích rút từ khố tự động từ nội dung văn web 1.2 Khái niệm đặc trưng từ khóa Từ khóa từ hay cụm từ dùng để mơ tả cách xác, ngắn gọn nội dung tài liệu (văn bản, hay trang web) Trong tiếng Anh, từ khóa thể nhiều thuật ngữ khác như: keywords, term, query term, hay tags; ý nghĩa chúng giống Tập từ khóa coi tóm tắt đơn giản văn Tập từ khóa nói lên rõ ý nghĩa văn hay trang web Một số đặc điểm, tiêu chí ảnh hưởng đến q trình rút trích từ khóa: Từ dừng, loại từ, từ có lien quan đến tiêu đề, số lượng… Đánh giá từ khố ựa vào a Tính phổ biến b.Tính đặc trưng c.Hướng ngư ời sử dụng 1.4.Thách thức tốn sinh từ khóa cho trang web 1.4.1 Đối với trang có nội dung tập trung Các kĩ thuật trích xuất từ khóa văn áp dụng tần số từ, vị trí từ đoạn văn, độ tương đồng từ Nói chung, việc lọc nhiễu cho trang có nội dung tập trung điều quan trọng giúp tăng chất lượng việc trích xuất từ khóa Với viết dài thời gian chạy lâu 1.4.2 Đối với trang có nội dung tổng hợp Các trang web muốn thông tin cập nhật hiển thị trang đầu mà người dùng tới trang họ Những trang đầu gọi trang chủ Ngồi thỏa mãn cơng cụ tìm kiếm, web portal cung cấp thơng tin dịch vụ khác báo tin tức, chứng khoán, giải trí Ví dụ web portal như: AOL, MSN, yahoo, iGoogle Nếu áp dụng việc trích xuất từ khóa áp dụng nội dung trang web dẫn đến kết khơng xác Cần có phương pháp khác để sinh từ khóa cho loại trang này, luận văn áp dụng phương pháp dùng đồ thị Web log hỗ trợ 1.5 Ứng dụng từ khóa lĩnh vực Phạm vi ứng dụng: Các kho liệu văn lớn thư viện số phát triển nhanh dẫn đến gia tăng giá trị thơng tin tóm tắt Hỗ trợ người dùng nhận biết nội dung tài liệu kho tài liệu Ứng dụng truy vấn thông tin cho phép mô tả tài liệu trả từ kết truy vấn Đính hướng tìm kiếm cho người dùng Nền tảng cho mục tìm kiếm Là đặc trưng dùng kỹ thuật phân loại, gom cụm tài liệu 1.6 Tổng kết chương Chương trình bày khái niệm từ khóa, tốn trích xuất từ khóa cho trang web, thách thức tài liệu web Và qua đây, thấy tầm quan trọng việc sinh từ khóa lĩnh vực khác CHƯƠNG CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ TỪ TRANG WEB 2.1 Phương pháp tần số từ - Cách tiếp cận TF x IDF ước lượng độ quan trọng từ văn danh sách tập tài liệu văn cho trước Nguyên lý TF x I F là: “ Độ quan trọng từ tăng lên với số lần xuất văn giảm xuống từ xuất nhiều văn khác - Lý đơn giản từ xuất nhiều văn khác có nghĩa từ thơng dụng , khả từ khố giảm xuống( Ví dụ từ “ Vì thế”, “ Tuy nhiên”, “ Nhưng”, “ và” - o độ đo quan trọng từ tài liệu f tính = tf x idf Với tf: độ phổ biến từ t tài liệu f idf : nghịch đảo độ phổ biến từ t tài liệu lại Cơng thức tính tổng qt: Weightwi = tf * idf Với tf = Ns(t)/ Idf = log ( w d/( d: t d) Ns(t) : Số lần xuất từ t tài liệu f w: Tổng số từ tài liệu f d : Tổng số văn d: t d: số tài liệu có chứa t Ví dụ: văn có 100 từ, từ “ máy tính” xuất 10 lần độ phổ biến: tf(“ máy tính”) = 10/100 = 0.1 Giả sử có 1000 tài liệu, có 200 tài liệu chứa từ “ máy tính” Idf = log( 1000/200) = 0.699 Như ta tính độ đo tf x idf = 0.1x 0.699 = 0.0699 Nếu tf x idf vượt ngưỡng xác định, cụm từ khoá tìm thấy gán trọng số Những từ có trọng số cao chọn 2.2 Phương pháp TextRank để trích rút từ khố cho trang web Phương pháp TextRank đề xuất phương pháp xử lý văn ngôn ngữ tự nhiên sử dụng đồ thị 2.2.1 Mơ hình TextRank Như ta thấy thuật toán xếp hạng dựa đồ thị cách đưa cách chọn đỉnh quan trọng đồ thị dựa thơng tin tồn cục đỉnh đồ thị Ý tưởng thuật toán dựa hai yếu tố: bỏ phiếu đề cử " Khi đỉnh liên kết với đỉnh thứ hai, ví dụ thơng qua mối quan hệ kết nối cạnh biểu đồ Mỗi liên kết đến đỉnh xét phiếu bầu Như vậy, nhiều phiếu bầu đỉnh quan trọng Từ cách xác định trọng số đỉnh số phiếu bầu cho đỉnh Ta có đồ thị G = (V, E) đồ thị có hướng Trong đó: V: tập đỉnh E: tập cạnh đồ thị, E tập V x V( E V xV) Với đỉnh Vi ta có: - In (Vi) tập đỉnh trỏ đến Vi - Out(Vi) tập đỉnh mà Vi trỏ đến Trọng số đỉnh Vi xác định sau:( Brin and Page, 1998): S(Vj) = ( – d) + d* jln(V j S (V j ) Out (V j ) (1) Trong d nhân tố giảm, có giá trị từ đến Nó xác suất mà đỉnh có liên kết đến đỉnh đồ thị Đối với trang web d xác suất người dùng nhấn vào liên kết xác suất để người dùng vào trang web hoàn toàn – d Theo PageRank d = 0.85 Đây xác suất sử dụng TextRank 2.2.2 Đồ thị vơ hướng Việc áp dụng thuật tốn TextRank vào đồ thị vô hướng giống với đồ thị có hướng Có điểm cần lưu ý, đồ thị vơ hướng số đỉnh vào số đỉnh Ta có hình vẽ sau: Hình 2.2: Đường cong hội tụ phương pháp xếp hạng dựa đồ thị với đồ thị có hướng – vơ hướng, có trọng số - khơng có trọng số, 250 đỉnh 250 cạnh Trong hình 10 đường cong hội tụ cho đồ thị sinh ngẫu nhiên với 250 đỉnh 250 cạnh, với ngưỡng dừng 10-5(ngưỡng xác định đủ nhỏ để thuật tốn dừng tính tốn) cho thấy số lần lặp q trình tính tốn khơng cao số lượng đỉnh cạnh lớn 2.2.3 Đồ thị có trọng số Vì thuật tốn Pagerank ban đầu sử dụng đồ thị khơng trọng số gần khơng có tình trang web có nhiều liên kết đến trang mơi trường web Tuy nhiên văn ngơn ngữ tự nhiên việc văn có nhiều thành phần tham chiếu đến văn khác hoàn toàn xảy o đó, để cải tiến Pagerank cho phù hợp với ngơn ngữ tự nhiên, thuật tốn Textrank sử dụng đồ thị có trọng số Trọng số định nghĩa độ dài kết nối hai đỉnh V i Vj kí hiệu wij Từ suy công thức (1) phải thay đổi để phù hợp với đồ thị có trọng số thuật tốn Textrank Ta cơng thức sau: S(Vj) = (1 – d) + d* jln(V j w ij vk Out (V j ) w jk WS (V j ) (2) Như vậy, theo hình (1) ỏ số lần lặp lại tính tốn để có độ tụ đạt ngưỡng 10-5 đồ thị có trọng số đồ thị khơng có trọng số tương đương 2.2.4 Đồ thị hoá văn Tuỳ vào loại đặc trưng để đưa vào đồ thị mà có cách thức làm việc cách thức hoạt động thuật toán xếp hạng dựa đồ thị áp dụng cho ngơn ngữ tự nhiên có bước sau: Xác định đơn vị văn dùng tốt cho công việc, thêm vào đỉnh đồ thị Xác định quan hệ kết nối đơn vị văn xác định để vẽ cạnh đỉnh đồ thị Các cạnh vơ hướng có hướng, có trọng số khơng có trọng số Lặp lại thuật toán xếp hạng độ tụ thoả mãn ngưỡng Sắp xếp đỉnh dựa trọng số tính toán bước Như vậy, thuật toán giúp cho làm hai việc: Trích rút từ khố trích rút câu văn ngơn ngữ tự nhiên Vấn đề đề cập sau 2.2.5 Sử dụng TextRank để trích rút từ khố Thuật tốn trích rút từ khố TextRank thuật tốn hồn tồn khơng giám sát Cách thức hoạt động sau: Tách từ gán nhãn, có lọc ngữ nghĩa Để tránh gia tăng kích thước đồ thị áp dụng đơn vị từ vựng phái có độ dài định( n- gram) Đưa tất đơn vị từ vựng có bước vào đồ thị Các cạnh đưa vào để liên kết đơn vị từ vựng đồng xuất với khoảng cách N từ Sau dựng xong đồ thị( vô hướng, khơng trọng số) khởi tạo trọng số cho đỉnh giá trị Và theo hình 10 số lần lặp lại từ 20-30 thuật tốn cho kết đạt ngưỡng 10-5 Sau có kết cho đỉnh thực trình xếp ngược trọng số T đỉnh đưa vào trình tiếp theo, T 20 Ở T lấy theo kích thước văn đầu vào Sau bước ta tập đơn vị từ vựng Các đơn vị liền kế ghép lại với để tạo thành từ khoá dài Thuật toán TextRank gồm giai đoạn sau: Bước 1: - Phần xử lý ngơn ngữ tự nhiên sử dụng thuật tốn Stanford (open source) Kết trả tập terms Một term danh 10 từ, tính từ Ví dụ: câu: “the cars are loaded onto a train car with the help of Wrench” term là: cars| train| car| help|Wrench Bước 2: - Tiếp theo sử dụng thuật toán TextRank để đánh trọng số cho term bước Ý tưởng sau: ( Theo báo Rada Mihalcea and Paul Tarau, 2004) a Tất term biểu diễn đỉnh graph, term nối với chúng thuộc sentence cách từ terms.10 terms Ví dụ: Từ term cars liên kết với train, car Term train liên kết với term cars, car, help Như graph xây dựng Để đánh trọng số cho đỉnh graph, sử dụng thuật toán phát triển từ thuật toán PageRank báo b Giả sử đỉnh vi , gọi S (vi ) trọng số Vậy phương trình quan hệ đỉnh đỉnh kề là: Trong d = 0.85 số thuật tốn, freq(vi )là tần số xuất từ 11 attr (vi , v j ) vi văn freq(vi ) xfreq(v j ) freq(vi ) freq(v j ) freq(v j ) tần xuất từ v j văn Giải hệ thống phương trình hàm cách đưa vào giá trị khởi tạo số vòng lặp, đạt trọng số cho đỉnh Sau bước b) lấy 5% đỉnh có giá trị trọng số cao Một đỉnh có trọng số cao đỉnh xuất nhiều lần văn có nhiều liên kết đến đỉnh khác có liên kết đến đỉnh có trọng số cao khác Chúng ta coi đỉnh topic phim Bước 4: Sử dụng thuật tốn n-gram để tìm keword phrase từ term tìm bước Trọng số phrase tổng số term mà chứa tính bước Ví dụ: câu: “the cars are loaded onto a train car with the help of Wrench” term là: cars| train| car| help|Wrench Các term phrases là: cars| train car|help|Wrench 2.3 Tổng kết chương Chương giới thiệu phương pháp để giải tốn trích rút từ khóa n ộ i d u n g văn trang Web Các phương pháp hiệu số miền, áp dụng nhiều tốn khác Trong chương tiếp, tơi xin trình bày thực nghiệm đánh giá 12 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ Trong chương tập trung vào thực nghiệm đánh giá cho phương pháp TextRank, lí tác giả nhận thấy phương pháp mới, có tính ứng dụng cao thực tế Tại nói phương pháp có tính phổ biến cao luận văn hướng nghiên cứu tác giả dựa vào báo tác giả Rada Mihalcea and Paul Tarau năm 2004 có đến 16 lượt trích dẫn chuyên gia xây dựng riêng Package thực nghiệm ngơn ngữ khác có ava python Các phương pháp lại có cá nhân, tổ chức hay cơng ty nghiên cứu áp dụng Để đánh giá độ tốt giải pháp đề xuất, thực đánh giá theo cách: Thu thập liệu văn thô thuộc nhiều chủ đề khác chuyên gia đánh giá trích rút từ khố, so sánh kết trích rút từ khố chuyên gia với hệ thống trích rút TextRank Thu thập liệu văn thơ thuộc chủ đề phim ảnh có từ khố trích rút sẵn trang web cho văn So sánh kết trích rút từ khoá web chuyên gia đánh giá với hệ thống trích rút từ khố thực Textrank Yêu cầu thử nghiệm tập liệu thử nghiệm Tập liệu thực nghiệm Dữ liệu thực nghiệm tác giả sử dụng luận văn lấy từ tập liệu tải trang web: https://github.com/zelandiya/keywordextraction-datasets chuyên gia tổng hợp đánh giá thuộc chủ đề khác có độ dài khác Chi tiết sau: Bảng : Danh sách chủ đề số lượng văn tương ứng Chủ đề STT ung lượng Hệ thống phân tán 300KB 13 Khoa học 300KB Cùng với tập liệu tác giả sưu tầm chủ đề phim ảnh diễn viên Chi tiết sau: Bảng 2: Danh sách chủ đề số lượng văn tương ứng STT Chủ đề Số văn Phim 50 Phim hoạt hình 50 Cài đặt thử nghiệm ứng dụng 3.2.1 Yêu cầu phần cứng phần mềm Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình: Bảng 3: Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình Thành phần Chỉ số CPU Intel® Core™ i5 CPU RAM 2.00 GB OS Windows Ultimate Bộ nhớ 300GB Danh mục phần mềm sử dụng thực nghiệm: Chương trình thực nghiệm viết ngơn ngữ python phiên 2.7 thư viện Numpy Scipy Trong luận văn có sử dụng cơng cụ phần mềm hỗ trợ trình thực thực nghiệm: Bảng 4: Danh mục phần mềm sử dụng thực nghiệm STT Tên phần Tác giả Nguồn mềm Package Federico http://pypi.python.org/pypi/summa/0.0.7 index Owner: Barries, summanlp Federico 14 lopez 3.2.2 Giới thiệu cấu trúc chương trình Các bước chương trình bao gồm: - Thu thập file text cần trích rút từ khố đầu vào tốn trích rút - Trích rút từ khố file dựa vào thuật tốn TextRank trình bày chương - Đánh giá chung kết thu 3 Phương pháp đánh giá Công thức tính độ xác (precision) độ nhớ lại (recall) phương pháp áp dụng văn thứ i sau: Precision(i) = Recall(i) = A B B A B A Một hệ thống IR (Information Retrieval – Trích xuất thơng tin) cần phải cân đối recall precision, độ đo khác thường sử dụng F – score xây dựng dựa recall precision Fscore = Re callx Pr ecision (recall precision) / Precision, recall F- score độ đo tập tài liệu trích rút Trên thực tế, ta sử dụng trực tiếp độ đo để so sánh hai danh sách có xếp tài liệu trả về, chúng không quan tâm đến thứ tự nội tài liệu[7] Ví dụ: so sánh tập hợp 15 cụm từ khóa hàng đầu tạo phương pháp sử dụng đệm Porter: grid comput, grid, grid servic discoveri, web servic, servic 15 discoveri, grid servic, uddi, distribut hash tabl, discoveri of grid, uddi registri, rout, proxi registri, web servic discoveri, qos, discoveri Với tiêu chuẩn vàng tương đương với 19 cụm từ (một tập hợp định tác giả độc giả): grid servic discoveri, uddi, distribut web-servic discoveri architectur, dht base uddi registri hierarchi, deploy issu, bamboo dht code, caseinsensit search, queri, longest avail prefix, qo-base servic discoveri, autonom control, uddi registri, scalabl issu, soft state, dht, web servic, grid comput, md, discoveri Hệ thống xác định xác cụm từ chính, dẫn đến độ xác 0% (6/15) độ hồi tưởng lại 31,6% (6/19) Với kết cho tài liệu riêng lẻ, tơi tính tốn độ xác, hồi tưởng trung bình điểm F đạt qua cụm từ khóa kết hợp khoảng 75%, khơng phải tất cụm từ khóa thực xuất tài liệu Một số kết thu Kết đánh giá với chủ đề “ Hệ thống phân tán” Bảng 5: So sánh kết đánh giá hệ thống tóm tắt tự động sử dụng Textrank chuyên gia STT Tên file C-1 C-3 C-4 C-6 C-8 C-9 Từ khoá chuyê n gia 42 40 47 29 38 23 Từ Từ khố khố trích chung rút TextR ank 50 21 50 20 50 18 50 15 50 18 50 18 16 Recall Precisi on 0.5 0.5 0.383 0.517 0.474 0.783 0.42 0.4 0.36 0.3 0.36 0.36 Fscore 0.456 0.44 0.371 0.379 0.41 0.49 C-17 37 50 13 0.351 0.26 0.3 C-18 27 50 15 0.56 0.3 0.39 C-19 19 50 16 0.84 0.32 0.46 10 C-20 20 50 0.4 0.16 0.23 0.53 0.324 0.393 TB Từ liệu bảng 3.5, ta có biểu đồ hình Biểu đồ thể điểm đánh giá độ đo F-score tập liệu Biểu đồ phân bố điểm đánh giá trích rút từ khoá 0.6 0.5 0.4 0.3 0.2 0.1 C-1 C-3 C-4 C-6 C-8 C-9 C-17 C-18 C-19 C-20 Hình 3.1: Biểu đồ phân bố điểm đánh giá trích rút từ khoá từ tập liệu mẫu 17 STT Tên file Từ khoá chuyê n gia 10 11 14 12 14 10 10 12 Từ khoá TextR ank 20 20 20 20 20 20 20 20 20 20 Từ khoá chung 9307 7502 7183 43032 10 40879 39955 11 39172 11 37632 287 10 25473 TB kết đánh giá với chủ đề “ Khoa học” Recall Precisi on 0.6 0.89 0.75 0.9 0.5 0.92 0.79 0.7 0.7 0.33 0.71 0.3 0.4 0.3 0.5 0.35 0.55 0.55 0.35 0.35 0.2 0.39 Fscore 0.4 0.55 0.43 0.64 0.41 0.69 0.65 0.47 0.47 0.25 0.5 Từ liệu bảng 3.6, ta có biểu đồ hình Biểu đồ thể điểm đánh giá độ đo F- score tập liệu Biểu đồ phân bố điểm đánh giá trích rút từ khố 0.8 0.6 0.4 0.2 Hình 3.2: Biểu đồ phân bố điểm đánh giá trích rút từ khoá từ tập liệu mẫu 18 Kết đánh giá với liệu chủ đề “ phim phim hoạt hình” Bảng 7: So sánh kết từ khoá TextRank từ khoá trang web phim phim hoạt hình STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Tên file A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 A26 A27 Từ khoá web 5 5 5 5 5 5 5 5 5 5 5 5 5 Từ khố trích rút từ TextRank 6 12 6 13 5 5 9 11 4 Từ khoá chung Recall Precision Fscore 2 2 3 2 1 1 3 2 0.4 0.2 0.6 0.4 0.2 0.4 0.4 0.2 0.6 0.4 0.4 0.4 0.4 0.2 0.6 0.6 0.4 0.2 0.4 0.2 0.2 0.2 0.2 0.6 0.6 0.4 0.4 0.33 0.17 0.25 0.5 0.5 0.33 0.33 0.25 0.23 0.4 0.33 0.4 0.4 0.2 0.33 0.33 0.33 0.1 0.33 0.25 0.33 0.25 0.25 0.33 0.38 0.29 0.33 0.36 0.18 0.35 0.45 0.29 0.36 0.36 0.22 0.33 0.4 0.36 0.4 0.4 0.2 0.43 0.43 0.36 0.13 0.36 0.22 0.25 0.22 0.22 0.43 0.47 0.34 0.36 19 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 T B A28 A29 A30 A31 A32 A33 A34 A35 A36 A37 A38 A39 A40 A41 A42 A43 A44 A45 A46 A47 A48 A49 A50 5 5 5 5 5 5 5 5 5 5 5 5 11 4 4 2 2 1 1 1 2 1 1 1 2 0.4 0.4 0.4 0.2 0.4 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2 0.2 0.4 0.4 0.33 0.33 0.29 0.33 1 0.2 0.2 0.2 0.17 0.18 0.25 0.25 0.22 0.33 0.4 0.25 0.2 0.25 0.5 0.33 0.5 0.33 0.4 0.33 Từ liệu bảng 3.7, ta có: Nhận xét: - Độ đo F1 cho kết tốt, điểm đánh giá toàn tập liệu 0.31 Tập liệu cho kết tốt tâp file 39955 với điểm số đạt 0.92 Tuy nhiên có vài tập liệu cho kết thấp so với tập lại C-20, C-17, C-4, C-6, 25473 - Các biểu đồ thể khác biệt rõ điểm đánh giá tập 20 0.36 0.34 0.36 0.33 0.57 0.2 0.2 0.2 0.18 0.19 0.22 0.22 0.28 0.36 0.4 0.22 0.2 0.22 0.29 0.25 0.29 0.36 0.4 0.31 liệu Đó thể mức độ xác, chất lượng phương pháp TextRank tập liệu với đặc điểm khác - Từ bảng phân tích liệu thực nghiệm tốc độ trích rút từ khoá phụ thuộc vào độ dài văn - Thời gian trích rút cho văn khoảng vài giây tuỳ thuộc độ dài ngắn văn Đây số ấn tượng nói lên tiểm áp dụng phương pháp TextRank vào thực tế - Vì có số văn có điểm đánh giá thấp Vì tác giả loại bỏ văn khó trích rút trích rút có điểm đánh giá thấp, kết điểm đánh giá toàn tập liệu tăng lên đáng kể Phương pháp TextRank cho kết tốt văn có độ nhiễu ít, độ dài văn ngắn, chứa từ nối, từ quan hệ Đánh giá kết thực nghiệm Đánh giá xác kết danh sách từ khoá việc làm khó khăn thực phương pháp mà tác giả ứng dụng luận văn hoàn tồn khơng giám sát Từ khố sinh tự động, cách đánh giá từ khoá chuyên gia khác cho tài liệu văn Chủ yếu việc đánh giá dựa vào ý kiến đánh giá chuyên gia người Những từ khoá phải mang ý nghĩa cao, nói lên nội dung tài liệu văn Với lượng từ khố trích rút nhiều phương pháp TextRank tất nhiên khống chế lượng từ khoá sinh dùng thuật toán, từ khoá bị lặp lại nhiều, số từ khoá khơng có ý nghĩa quan trọng, khơng nêu đặc trưng văn nhược điểm phương pháp Tuy nhiên ưu điểm phương pháp thời gian trích rút từ khố nhanh, khơng cần kiến thức chun sâu ngơn ngữ học tốn có tính ứng dụng thực tế cao 21 KẾT LUẬN Những vấn đề giải luận văn - Luận văn nghiên cứu phương pháp trích rút từ khố từ nội dung văn trang web ứng dụng Đặc biệt sâu nghiên cứu phương pháp trích rút từ khố phương pháp TextRank - Đồng thời, luận văn đề xuất sử dụng cơng cụ xây dựng sẵn để trích rút từ khoá văn tiếng Anh Thực nghiệm liệu tiếng anh liệu xây dựng chuyên gia - Tác giả sưu tầm liệu Internet cho tập liệu với chủ đề phim ảnh so sánh kết trích rút phương pháp TextRank với kết từ khoá trang web xây dựng chuyên gia - Khảo sát phương pháp trích rút từ khố sử dụng Textrank cho kết khả quan ứng dụng toán thực tế tìm kiếm thơng tin, hay tóm tắt văn Và tơi trình bày ưu điểm, nhược điểm tồn phương pháp Hướng phát triển Mặc dù kết thu luận văn đáng khích lệ tốt thời gian có hạn việc ước lượng trọng số cho phương pháp chưa tối ưu Trong thời gian tới, tiến hành thu thập thêm liệu hồn thiện thiếu sót phương pháp mà tơi đề xuất Cũng sở đạt luận văn, tơi dự định cải tiến chương trình để thực tập liệu văn Tiếng Việt 22 TÀI LIỆU THAM KH O Tiếng Việt [1] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi(2008), “Mơ hình biểu diễn văn thành đồ thị”, t p ch phát triển tập s 07 năm 009 [2] Nguyễn Quang Châu, Lê Trọng Ngọc, Tôn long Phước, Nguyễn Văn Tân(2011), “Một hướng tiếp cận xây dựng Ontology Tiếng Việt”, t p ch h c i ng ghiệp T năm [3] Trương Quốc Định(2015), “Phân loại văn dựa rút trích tự động tóm tắt văn bản”, u ội nghị u c gia nghi n c u c ng d ng c ng nghệ th ng tin năm 2015 [ ] Trương Quốc Định, Nguyễn Quang văn Tiếng Việt tự động”, hội thảo ch n l c c ng nghệ th ng tin ũng(2012), “Một giải pháp tóm tắt u c gia l n th s nđ tru n th ng năm 2012 [5] Chu Anh Minh(2009), B i toán tr ch xu t từ hoá cho trang web áp d ng phư ng pháp phân t ch thẻ TML đồ thị web, Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia Hà Nội [6] Nguyễn Văn Nghiệp(2015), Tóm tắt ăn Ti ng iệt sử d ng phư ng pháp TextRank, Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia Hà Nội [7] Lê Hoàng Thanh(2012) Text mining – ỹ thuật tr ch xu t th ng tin từ ăn [8] Trần Ngọc Phúc(2012), Phân lo i nội dung t i liệu web, Luận văn thạc sĩ, Trường đại học Lạc Hồng, Đồng Nai [9] Nguyễn Trọng Phúc, Lê Thanh Hương(2008), “Tóm tắt văn Tiếng Việt sử dụng cấu trúc diễn ngôn” [10] Website: http://vietseo.net Tiếng Anh [11] J Han and M Kamber, Data mining concepts and techniques San Francisco: Morgan Kawfmann Publishers, 2006 [12] SuNamKim,OlenaMedelyan,Min-Yen Kan&TimothyBaldwin.Automatic 23 keyphrase extraction from scientific articles;2010 [13] Rada Mihalcea and Paul Tarau TextRank: Bringing Order into Texts; 2004 [14] Kazi Saidul Hasan and Vincent Ng Automatic Keyphrase Extraction: A Survey of the State of the Art; 2014 [15] Simone Teufel, Marc Moens Sentence extraction as a classification task; 2002 [16] Brian Loff Survey of Keyword Extraction Techniques; 2012 [17] Gonenc Ercan, Ilyas Cicekli Using Lexical Chains for Keyword Extraction Inf; 2007 Process Manage., Vol 43, No (November 2007), pp 1705-1714 [18] H.Edmundson(1969) New methods in automatic abstracting, Journal of ACM; 1969 [19] HPLuhn(1958) The automatic creation of literature abstracts IBM journal of research development [20] J Kleinberg Authoritative sources in a hyperlinked environment J of the ACM , 1999, to appear Also appears as IBM Research Report RJ 10076 91892 May 1997 [21] P D Turney, Learning Algorithms for Keyphrase Extraction, Information Retrieval; 1999 [22] Qiang Yang, Advertising keyword suggestion based on concept hierarchy presented by Qiang Yang, HongKong Univ of Science and Technology [23] S Brin and L Page The anatomy of a large-scale hypertextual Web search engine.Proc 7th WWW Conf; 1998 [24] Y MATSUO,M Ishizuka.Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information.International Journal on Artificial Intelligence Tools; 2003 [25] Yasin Uzun Keyword Extraction Using Naive Bayes Bilkent University, Department of Computer Science, Turkey; 2015 [26] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction Of Chinese Document Using Small World Structure Department of Computer Science, University of Science and Technology of China; 2014 24 [27] Soumen Chakrabarti, Data mining for hypertext: A tutorial survey Volume ACM – 2000 [28] Yi-fang Brook Wu, Quanzhi Li, Razvan Stefan Bot, Xin Chen, Domanin – specific keyphrase extraction, Proceedings of the 14th ACM international conference on information and knowledge management, October 31- November 05, 2005, Bremen, Germany [29] Vibhanshu Abhishek, Kartik Hosanagar, Keyword generation for search engine advertising using semantic similarity between terms, Proceeding of the ninth international conference on Electronic commerce, August 19-22, 2007, Mineapolis, MN, USA [30] M Sahami and T Heilman A web-based kernel function for matching short text snippets In International Conference on Machine Learning, 2005 [31] Python http://pypi.python.org/pypi/summa/0.07 [32] Tf,IDF http://en.wikipedia.org/wiki/Tf-idf [33] Website: http://searchengineguide.com Công cụ liệu sử dụng [34] Website : http://pypi.python.org/pypi/summa/0.07 [35] Website: http://www.imdb.com [36] Website: http://google.com 25 ... tài “ Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng Đề tài nghiên cứu phương pháp trích rút từ khố tập trung chủ yếu vào phương pháp TextRank để trích rút từ khố tự động từ nội... giải tốn trích rút từ khố từ trang web tiếng Anh qua đề tài Nghiên cứu phương pháp trích rút từ khố từ trang web ứng dụng Mục tiêu đề tài nghiên cứu giải toán sinh từ khoá theo phương pháp là:... niệm toán Các ứng dụng toán Những thách thức đặt cho tốn - Chương 2: Các phương pháp trích rút từ khoá từ trang web Giới thiệu phương pháp TextRank áp dụng để trích rút từ khố từ trang web - Chương