1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu cải tiến hiệu quả tóm tắt văn bản dựa trên đồ thị

45 183 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 1,32 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC TÂY BẮC BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ NGHIÊN CỨU CẢI TIẾN HIỆU QUẢ TĨM TẮT VĂN BẢN DỰA TRÊN ĐỒ THỊ Mã số: TB2017 - 14 CHỦ NHIỆM ĐỀ TÀI: PHAN TRUNG KIÊN SƠN LA, NĂM 2017 MỤC LỤC MỤC LỤC DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH .5 MỞ ĐẦU Tính cấp thiết đề tài Mục tiêu đề tài Đối tượng, phạm vi nghiên cứu Phương pháp nghiên cứu Nội dung CHƯƠNG TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1 Giới thiệu tóm tắt văn .8 1.2 Phân loại hệ thống tóm tắt văn .9 1.3 Tình hình nghiên cứu ngồi nước 11 1.3.1 Ngoài nước 11 1.3.2 Trong nước 14 1.4 Mơ hình biểu diễn văn 15 CHƯƠNG BIỂU DIỄN VĂN BẢN BẰNG ĐỒ THỊ 16 2.1 Tổng quan đồ thị 16 2.1.1 Khái niệm sở 16 2.1.2 Các độ đo đồ thị 18 2.2 Mơ hình biểu diễn văn đồ thị .23 2.2.1 Mơ hình đồ thị khái niệm 24 2.2.2 Mô hình đồ thị hình 25 2.2.3 Mơ hình đồ thị tần số vô hướng 26 2.2.4 Mơ hình đồ thị đơn giản .27 2.2.5 Mô hình đồ thị khoảng cách n đơn giản .28 2.2.5 Mơ hình đồ thị đỉnh câu 29 2.2.6 Mơ hình đồ thị lưỡng phần 30 CHƯƠNG TÓM TẮT VĂN BẢN DỰA TRÊN ĐỒ THỊ .32 3.1 Tiền xử lý văn .33 3.2 Mô hình hóa văn thành đồ thị .34 3.3 Xếp hạng câu .36 3.4 Tạo tóm tắt 38 3.5 Kết thử nghiệm 39 3.5.1 Dữ liệu thử nghiệm .39 3.5.2 Kết thử nghiệm 40 KẾT LUẬN 42 Kết luận 42 Hướng phát triển đề tài 42 TÀI LIỆU THAM KHẢO 43 DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU, CHỮ VIẾT TẮT Average link liên kết trung bình Bag of words model mơ hình túi từ Clustering gom cụm Complete link liên kết đầy đủ Cue ngữ thị Cross-validation đánh giá chéo Data mining khai thác liệu Dendrograms sơ đồ nhánh Document tài liệu Graph-based model mơ hình biểu diễn đồ thị Heading tiêu đề Hyperplane siêu phẳng Information extraction trích chọn thơng tin Information retrieval truy vấn thơng tin Single link liên kết đơn Title nhan đề Text mining khai thác liệu văn (khai thác văn bản) CGs mơ hình đồ thị khái niệm - Conceptual Graphs CSDL sở liệu DC-Tree gom cụm tài liệu – Document Clustering Tree DF tần suất xuất tài liệu – Document frequency DIG đồ thị mục tài liệu - Document Index Graph DUC Document Understanding Conference HAC gom cụm phân cấp tích tụ - Hierachical Agglomerative Clustering ICG gom cụm động dựa đồ thị - Incremental Clustering based on Graph IDF nghịch đảo tần suât xuât tài liệu - Inverse Document Frequency IG độ lợi thông tin - Information gain KDD khám phá tri thức sở liệu - Knowledge discovery in databases k-NN k - láng giềng gần nhât - k- Nearest Neighbor KTTL kích thước văn bản/email KTLOP kích thước thư mục /lớp MCS đồ thị chung cực đại - Maximal Common Subgraph MDL độ dài mô tả cực tiểu - Minimum description length MMR mức độ cực đại tương ứng - Maximal Marginal Relevance NB Naïve Bayes ROUGE Recall Oriented Understudy for Gisting Evaluation SOM đồ tự tổ chức - Self Organizing Map SVM máy vectơ hỗ trợ - Support Vector Machine STC gom cụm dựa tiền tố - Suffix Tree Clustering TF tần suất xuất thuật ngữ - Term Frequency TTVB tóm tắt văn VSM mơ hình khơng gian vectơ - Vector Space Model log logarit số 10 DANH MỤC CÁC HÌNH Hiǹ h 1.1 Framework chung cho hệ thống TTVB phương pháp học máy 13 Hiǹ h 2.1 Ví dụ mơ hình đồ thị khái niệm 25 Hiǹ h 2.2 Ví dụ mơ hình đồ thị hình biểu diễn văn 26 Hiǹ h 2.3 Ví dụ mơ hình đồ thị hình biểu diễn email .26 Hình 2.4 Ví dụ mơ hình đồ thị tần số vô hướng 27 Hình 2.5 Ví dụ mơ hình đồ thị đơn giản 28 Hình 2.6 Ví dụ mơ hình đồ thị khoảng cách n đơn giản 29 Hình 2.7 Ví dụ mơ hình đồ thị với đỉnh câu 30 Hiǹ h 2.8 Minh họa mơ hình đồ thị lưỡng phần với đỉnh câu từ 31 Hiǹ h 3.1 Mơ hình tóm tắt văn tiếng Việt 32 Hiǹ h 3.2 Qui trình tóm tắt văn đơn 33 Hiǹ h 3.3 Đồ thị biểu diễn văn .35 Hiǹ h 3.4 Thuật toán xếp hạng câu .37 Hình 3.5 Kết đánh giá tóm tắt văn đơn theo ROUGE-1 41 Hình 3.6 Kết đánh giá tóm tắt văn đơn theo ROUGE-2 41 MỞ ĐẦU Tính cấp thiết đề tài Một ứng dụng phổ biến liệu đồ thị biểu diễn văn bản, thường dạng XML Ngày nay, với phát triển bùng nổ Internet, lượng thông tin văn sinh ngày vơ lớn mang lại nhiều lợi ích cho người Tuy nhiên, với lượng lớn thông tin người ta khơng thể có đủ thời gian sức lực để đọc hết chúng khiến cho khó khăn việc tìm kiếm, phân loại tổng hợp thông tin Một giải pháp cho vấn đề tóm tắt văn tự động Đặc điểm liệu văn thường khơng có cấu trúc bán cấu trúc, sở liệu lớn, đa chiều Những năm gần đây, mơ hình biểu diễn văn đồ thị đề xuất sử dụng toán khác khai thác văn cho kết tốt tận dụng thơng tin quan trọng cấu trúc văn Tóm tắt văn tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu đánh mục cho máy tìm kiếm Tại trường Đại học Tây Bắc chưa có nghiên cứu nhiều tóm tắt văn Do chúng tơi chọn đề tài nhằm nghiên cứu, khảo sát, đánh giá đề xuất phương pháp tóm tắt văn hiệu Qua nâng cao trình độ giúp cho giảng viên, sinh viên có thêm tài liệu để tham khảo, nghiên cứu sâu lĩnh vực khai phá liệu Mục tiêu đề tài Nghiên cứu đồ thị, dạng biểu diễn văn dựa đồ thị Nghiên cứu phương pháp tóm tắt văn dựa đồ thị Đề xuất giải pháp nâng cao hiệu tóm tắt văn dựa đồ thị Thử nghiệm đánh giá Đối tượng, phạm vi nghiên cứu - Đối tượng nghiên cứu Bài tốn tóm tắt văn tự động - Phạm vi nghiên cứu Biểu diễn văn dựa đồ thị số phương pháp tóm tắt văn theo hướng tiếp cận học máy Phương pháp nghiên cứu - Phương pháp phân tích, tổng hợp tài liệu - Phương pháp thực nghiệm Nội dung Ngoài phần mở đầu kết luận, đề tài có nội dung sau: Chương Tổng quan tóm tắt văn Chương Tóm tắt văn dựa đồ thị Chương Thực nghiệm đánh giá CHƯƠNG TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1 Giới thiệu tóm tắt văn Tóm tắt văn thức nghiên cứu lần vào năm 1958 Luhn (1958) [1], Edmundson (1969) [2] Tóm tắt văn quan tâm nghiên cứu tích cực năm gần với bùng nổ thơng tin web Tóm tắt văn q trình chắt lọc thơng tin quan trọng từ nguồn (hoặc nhiều nguồn) tạo ngắn gọn đáp ứng nhiệm vụ cụ thể, cho người dùng cụ thể Tóm tắt văn áp dụng cho văn lẫn tập văn (các văn chung chủ đề) Tóm tắt tập văn có độ phức tạp cao nhiều so với tóm tắt văn phải giải nhiều vấn đề như: chi phí thuật tốn, thơng tin phải tổng hợp, chọn lọc từ nhiều văn phải đảm bảo tính súc tích, đọng, khơng trùng lắp thơng tin Nội dung tóm tắt phụ thuộc vào nhu cầu người dùng Bản tóm tắt theo truy vấn tập trung vào câu truy vấn người dùng rút trích thơng tin liên quan đến câu truy vấn từ văn Ngược lại tóm tắt tổng quát cố gắng bao quát đầy đủ nội dung bảo toàn cấu trúc chung văn gốc Bản tóm tắt có dạng trích lược (extract) tóm lược (abstract) [3] Bản tóm tắt dạng trích lược gồm tập câu từ văn gốc Trong tóm tắt dạng tóm lược, nội dung văn gốc viết lại, chứa câu hoàn toàn so với văn gốc, câu ngắn gọn hơn, trau chuốt chuyển tải đầy đủ nội dung tài liệu Mặc dù tóm tắt người dùng biên soạn thường khơng dạng trích lược, phần lớn nghiên cứu tập trung vào tóm tắt theo dạng trích lược Tóm lược văn đòi hỏi nhiều tri thức chuyên sâu liên quan đến ngôn ngữ học, mà đặc biệt thành tựu lĩnh vực xử lý ngôn ngữ tự nhiên Đó lý khiến tóm lược chưa đạt kết tốt trích lược Thật tốn tóm tắt dạng trích lược chưa đạt đến mức độ hoàn chỉnh nghiên cứu theo hướng hạn chế Các cơng cụ tóm lược thường dựa thành phần trích lược xử lý trước Kết đầu q trình trích lược cắt, dán hay tổng hợp tạo tóm lược [4] Bài tốn tóm tắt văn thường có khuynh hướng nghiêng dạng trích lược trình bày kỹ phần Mục đích tóm tắt dạng trích lược xác định lựa chọn câu quan trọng văn để tạo thành tóm tắt Có thể phân loại phương pháp tóm tắt dạng trích lược theo tiếp cận [5]: sử dụng đặc trưng ngôn ngữ, đặc trưng Heuristic, thống kê kết hợp phương pháp Trong tiếp cận này, phương pháp sử dụng đặc trưng Heuristic nghiên cứu từ năm 50 ý tưởng sử dụng rộng rãi thời điểm Từ năm 90 đến nay, hướng tiếp cận khác dựa thống kê, phương pháp máy học lý thuyết đồ thị trở thành tiêu điểm nghiên cứu, đạt nhiều kết khả quan trở thành hướng tiếp cận cho tốn tóm tắt dạng trích lược Đánh giá chất lượng tóm tắt vấn đề khó khăn phức tạp Một tóm tắt đạt yêu cầu thỏa điều kiện sau: chuyển tải toàn nội dung văn cách gãy gọn, thể phải mạch lạc, không bị trùng lắp hay dư thừa thông tin Nhưng đánh giá tiêu chí câu hỏi khó Một số phương pháp đánh giá đề xuất đánh giá dựa độ tương tự nội dung (độ đo cosine), đánh giá dựa độ xác (Precision), độ bao phủ (Recall) Độ xác phần trăm số câu tóm tắt cần đánh giá trùng với tóm tắt chuẩn, độ bao phủ tỷ lệ số câu trùng với số câu tóm tắt chuẩn Gần đây, tác giả [6] xây dựng công cụ ROUGE (Recall Oriented Understudy for Gisting Evaluation), công cụ đánh giá tóm tắt sử dụng phương pháp n-gram Ý tưởng xác định tương tự tóm tắt dựa số lượng n-gram trùng Đây phương pháp đánh giá tự động có độ xác cao, độc lập ngôn ngữ gần tương đồng với đánh giá người Công cụ ROUGE sử dụng phổ biến nghiên cứu tóm tắt văn giới 1.2 Phân loại hệ thống tóm tắt văn Có nhiều tiêu chí để phân loại phương pháp tóm tắt văn bản, sau Trong đó: Ví dụ 2.6: Ta có văn gồm câu sau: S = Thủ thành số Barcelona, Victor Valdes đồng ý đặt bút kỷ vào hợp đồng có thời hạn tới năm 2014 với đội bóng chủ sân Nou Camp S2= Với việc Valdes đồng ỷ lại, Barcelona chạy đôn chạy đáo tìm kiếm thủ mơn bắt cho mùa giải năm sau S3= Theo thông tin tờ Marca, giám đốc kỹ thuật Txiki Begiristain có buổi nói chuyện với người đại diện Valdes đôi bên đạt thoả thuận việc gia hạn hợp đồng S4 = ”Cuộc đàm phán khép lại ”, lời Gines Carvajal, người đại diện Valdes, sau bước khỏi văn phòng Hình 2.7 đồ thị vô hướng biểu diễn văn sử dụng độ đo tương tự Wordoverlap Giá trị cạnh nối hai đỉnh độ tương tự câu tương ứng Ngưỡng tạo cạnh 0.2 Hình 2.7 Ví dụ mơ hình đồ thị với đỉnh câu 2.2.6 Mơ hình đồ thị lưỡng phần Mơ hình đồ thị lưỡng phần mơ hình sử dụng kết hợp thành phần khác văn 30 Định nghĩa 2.23: Mơ hình đồ thị lưỡng phần Mơ hình đồ thị lưỡng phần mơ hình sử dụng hai loại đỉnh tương ứng với thành phần khác văn Cạnh nối hai loại đỉnh thể mối quan hệ chúng văn Các thành phần khác văn từ, nhóm từ, câu, đoạn hay tồn văn Trong đó, thành phần sử dụng phổ biến câu từ Trong mơ hình đỉnh câu từ, đỉnh loại biểu diễn câu văn bản, đỉnh loại biểu diễn từ văn Cạnh nối đỉnh loại với đỉnh loại thể mối quan hệ hai đỉnh hay xác định xuất từ câu Nhãn cạnh xác định mối liên hệ từ với câu thường tần suất xuất từ câu tương ứng Ví dụ 2.7: Ta có văn gồm câu sau: S1 = Việc sử dụng hệ thống điều hành điện tử khơng q phức tạp, khơng muốn nói đơn giản S2 = Có thể nói, ai, biết đọc, biết viết cần cầu thị có chút tâm sử dụng, khai thác hệ thống Từ văn bản, ta có tập hợp từ T = {t1, t2, , tn} với t1= “ai”; t2= “biết”; t3= “điện tử”; t4= “hệ thống”; t5= “khai thác”; tn= “việc” Hình 2.8 minh họa đồ thị lưỡng phần kết hợp từ câu cho văn trên, tj đại diện cho từ Si đại diện cho câu văn Nhãn cạnh tần suất xuất từ câu tương ứng Hình 2.8 Minh họa mơ hình đồ thị lưỡng phần với đỉnh câu từ 31 CHƯƠNG TÓM TẮT VĂN BẢN DỰA TRÊN ĐỒ THỊ Phần trình bày mơ hình tóm tắt văn tiếng Việt dựa tiếp cận đồ thị kỹ thuật xếp hạng đỉnh Ưu điểm phương pháp đề xuất không cần liệu huấn luyện kết tóm tắt phụ thuộc vào liệu lĩnh vực Độ đo MMR hạn chế trùng lắp thơng tin tóm tắt Bằng cách chia để trị, tiếp cận thực tóm tắt văn thay gộp tất văn thành văn lớn dẫn đến độ phức tạp thời gian không gian thuật toán xếp hạng văn trở nên nhỏ Hình 3.1 Mơ hình tóm tắt văn tiếng Việt Hình 3.1 sơ đồ mơ hình tóm tắt văn dùng cho văn (gọi văn đơn) lẫn tập văn Lõi mô hình tóm tắt tóm tắt cho văn đơn Hình 3.2 Đầu tiên, ta thực bước tiền xử lý văn Sau đó, chuyển đổi văn thành dạng đồ thị với đỉnh biểu diễn câu Tiếp theo, độ quan trọng câu xác định thuật toán xếp hạng đỉnh đồ thị Sau xếp câu theo độ quan trọng, để hạn chế trùng lắp thông tin, phiên độ đo MMR dùng để lọc lại câu có độ quan trọng cao đưa vào tóm tắt Khi thực tóm tắt tập văn bản, ta 32 thực trình cho văn tập văn Sau đó, tóm tắt văn tổng hợp lại thành văn Qui trình tóm tắt hình 3.2 áp dụng tiếp lên văn tạo tóm tắt hồn chỉnh cho tập văn Hình 3.2 Qui trình tóm tắt văn đơn Chi tiết thành phần sau: 3.1 Tiền xử lý văn Trước chuyển đổi văn thành đồ thị, ta cần thực bước tiền xử lý Trong mơ hình tóm tắt văn dựa đồ thị tách câu đóng vai trò yếu câu yếu tố cấu thành đồ thị Việc tách câu thực phương pháp thống kê sử dụng Maximum Entropy Trong dấu câu kiểm tra có thực điểm phân cách câu hay không Trên thực tế nội dung văn nhỏ so với độ dài toàn văn nên văn thường chứa nhiều câu không quan trọng, điển hình câu có độ dài q ngắn chứa thơng tin Việc loại bỏ câu không ảnh hưởng tới chất lượng tóm tắt lại giảm chi phí lưu trữ, xây dựng khai thác đồ thị Vì đề tài áp dụng luật loại bỏ câu có độ dài thấp ngưỡng cho trước Qua thực nghiệm liệu T1 với ngưỡng từ, kết đạt theo độ đo ROUGE tốt chưa áp dụng luật Bên cạnh đó, hư từ từ khơng mang nhiều ý nghĩa, ví dụ vì, và, thế, cũng, như, Hư từ thường xuất với tần suất cao ảnh hưởng tới độ tương tự câu, nên cần phải loại bỏ Để loại bỏ từ hư, đề tài sử dụng từ điển chứa danh sách hư từ cần loại bỏ 33 3.2 Mơ hình hóa văn thành đồ thị Dựa mục tiêu trích chọn câu cho tóm tắt, đề tài sử dụng mơ hình đồ thị có gán nhãn biểu diễn văn Văn mơ hình hóa thành đồ thị với đỉnh biểu diễn câu văn Cạnh nối hai đỉnh thể mối quan hệ câu Khi độ tương tự câu lớn ngưỡng a cho trước hai đỉnh thiết lập cạnh nối Độ tương tự giá trị nhãn (hay trọng số) cạnh nối hai đỉnh Có nhiều cách xác định độ tương tự câu sử dụng trùng lắp, độ đo cosine, TF x IDF, mơ hình ngơn ngữ, mơ hình kết hợp cú pháp ngữ nghĩa Đề tài sử dụng phương pháp xác định trùng lắp câu nhằm xác định độ tương tự theo công thức (3.1) tiếp cận đơn giản hiệu (qua thử nghiệm với độ đo tương tự khác) có độ phức tạp tính tốn thấp Ví dụ 3.1: Ta có văn gồm câu sau: S1= Ăn xồi ngày giúp ngừa bệnh tiểu đường chứng cholesterol cao S2= Kết nghiên cứu ban đầu Đại học Queensland (Úc) cho thấy số hợp chất xồi có tác dụng chữa bệnh tương tự loại thuốc trị tiểu đường làm giảm cholesterol S3= Các hợp chất quercetin, norathyriol, có tác dụng ức chế hoạt động quan PPAR, vốn tác nhân dẫn đến tiểu đường làm tăng cholesterol S4=PPAR xem có liên hệ tới bệnh ung thư vú ruột kết S5= Nhóm chun gia tìm hiểu xem liệu hợp chất kể tiêu diệt tế bào ung thư hay không Sau tiền xử lý văn bản, loại bỏ hư từ, tính độ tương tự câu xây dựng đồ thị, ta có ma trận biểu diễn cho đồ thị Bảng 3.1 Hình 3.3 đồ thị biểu diễn văn 34 Bảng 3.1 Ma trận biểu diễn đồ thị văn Hình 3.3 Đồ thị biểu diễn văn Bên cạnh đó, dựa nhận xét: từ câu nhan đề (title) thường quan trọng, thể nội dung nên đề tài sử dụng thêm heuristic câu nhan đề Cụ thể bổ sung thêm thông tin cho từ nằm câu nhan đề tham số ưu tiên Câu nhan đề câu thứ đoạn Các từ nằm câu nhan đề gán trọng số p cao so với từ khác Khi cơng thức tính độ tương tự câu trọng số cho cạnh đồ thị hai đỉnh tương ứng với hai câu Si Sj văn sau Định nghĩa 3.1: Độ đo tương tự hai câu Cho hai câu Si Sj, độ đo tương tự hai câu định nghĩa sau: a k wij  Sim( Si , S j )  Wk log ( Si )  log ( S j ) (3.1) Với Wk từ chung hai câu Si, Sj   , if Wk Title ak    1, if Wk Title 35 (3.2) 3.3 Xếp hạng câu Nếu muốn tạo tóm tắt dạng trích lược, ta cần chọn câu quan trọng, mang thông tin văn Đầu tiên, xác định độ quan trọng câu sau xếp hạng, trích chọn câu có giá trị cao Độ quan trọng câu xác định thông qua trọng số đỉnh tương ứng đồ thị thuật toán xếp hạng đỉnh đồ thị Các thuật toán xếp hạng đồ thị tiếp cận thích hợp để xác định độ quan trọng đỉnh đồ thị Phương pháp dựa thơng tin rút trích từ cấu trúc đồ thị Một số thuật toán tiêu biểu cho tiếp cận HITS, PageRank [19] Đầu tiên, người ta áp dụng thuật toán vào việc đánh giá trang web, hệ thống mạng xã hội Tuy nhiên, xét đồ thị hệ thống mạng, đỉnh ứng với trang web ta hồn tồn áp dụng thuật tốn vào đồ thị biểu diễn văn PageRank HITS thuật toán xếp hạng đỉnh cho kết tốt áp dụng váo tốn tóm tắt văn Trong đó, PageRank thuật tốn sử dụng phổ biến nhiều phương pháp tóm tắt khác Chính đề tài sử dụng thuật toán tương tự PageRank kết hợp trọng số cạnh nhằm xếp hạng câu văn hay đỉnh đồ thị PageRank thuật toán phân tích liên kết, xác định trọng số cho thành phần tập hợp tài liệu liên kết với Trọng số xác định cho yếu tố E gọi PageRank E kí hiệu PR(E) PageRank dựa vào đặc điểm tự nhiên trang web có liên kết vào, xếp hạng trang web dựa đặc điểm chất ta xem liên kết từ trang A đến trang B phiếu bầu trang A dành cho trang B Số phiếu bầu trang làm tăng trọng số đồng thời giúp cho trang khác tăng độ quan trọng (trọng số) PageRank tích hợp ảnh hưởng liên kết vào lẫn liên kết tạo nên trọng số theo công thức [19]: PR( A)   PR( B) PR(C ) PR( D)  1 d d      N L(C ) L( D)  L( B )  (3.3) Với N tổng số trang web, d - số  [0,1] , L(E) số liên kết từ trang E PR(A) - PageRank trang A 36 Khi áp dụng lên biểu diễn đồ thị văn bản, đề tài nhận thấy độ tương tự câu không đóng vai trò tạo cạnh nối hay mối liên kết đỉnh (khi độ tương tự câu lớn ngưỡng s tạo cạnh) mà có vai trò quan trọng việc xác định câu mang nội dung văn Đề tài đề xuất thuật tốn tương tự PageRank có kết hợp thêm trọng số cạnh (độ tương tự câu) Cơng thức tính độ quan trọng đỉnh hay xếp hạng câu văn sau: PRW (Vi )  PRW (V j ) 1 d  d  w ji N V j In (Vi )  wki (3.4) Vk Out (Vi ) Trong đó: PRW trọng số đỉnh, In(Vi) tập cạnh nối vào đỉnh thứ i, Out(Vi) tập cạnh nối từ đỉnh thứ i, Wji trọng số cạnh nối từ đỉnh j đến i N tổng số đỉnh đồ thị Hằng số d gán giá trị 0.85 Thuật toán xếp hạng sử dụng thông tin liên kết đồ thị để đánh giá độ quan trọng đỉnh Vì độ quan trọng đỉnh thay đổi làm thay đổi độ quan trọng đỉnh khác đồ thị Do thuật tốn xếp hạng thực theo quy trình lặp với điều kiện dừng ngưỡng hội tụ Trong Hình 3.4 thuật tốn xếp hạng câu hay tính độ quan trọng đỉnh đồ thị mà đề tài đề xuất Thuật tốn tính độ quan trọng đỉnh: Hình 3.4 Thuật toán xếp hạng câu 37 Kết trình độ quan trọng tất câu với giá trị PRW tương ứng Tất câu xếp theo thứ tự giảm dần độ quan trọng Độ phức tạp tính tốn thuật tốn xếp hạng câu Để tính tốn giá trị độ quan trọng PRW(Vi) bước thuật toán, ta cần thực hai vòng for lồng Trong trường hợp xấu đỉnh có liên kết với độ phức tạp thời gian bước O(N2) với N số đỉnh đồ thị (cũng số câu văn bản) Như độ phức tạp thời gian thuật toán O(k.N3) với k số vòng lặp để đạt hội tụ Qua thực nghiệm, giá trị k

Ngày đăng: 03/01/2018, 22:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w