BÁO cáo môn PROJECT i đề tài tìm HIỂU về WORD2VEC và TEXTRANK

I HỌC BÁCH KHOA HÀ NỘI HOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO MÔN: PROJECT I ĐỀ TÀI TÌM HIỂU VỀ WORD2VEC VÀ TEXTRANK GVHD: PGS.TS Nguyễn Thị Kim Anh Sinh viên thực hiện: 20173100 20173041 20175653 Hà Nội, tháng 12 năm 2019 Hoàng Thị Hảo Nguyễn Đình Đức Khuất Thị Qun MỤC LỤC PHÂN CƠNG CÔNG VIỆC LỜI MỞ ĐẦU WORD2VEC 1.1 Khái quát nội dung Word2Vec .5 1.1.1 Mơ hình skip-gram .5 1.1.2 Cbow .7 1.1.3 Hierarchical softmax .7 1.1.4 Negative Sampling .8 1.1.5 Minh họa kết 1.2 Tiền xử lý liệu 10 POS_TAG .12 2.1 Các bước gãn nhãn từ loại: .13 2.1.1 Gán nhãn từ loại cho từ -POS .13 2.1.2 Lemmatization 14 2.1.3 Loại bỏ StopWords .14 2.1.4 Tách câu 15 2.1.5 Tách từ 15 2.2 Kết sau gán nhãn .16 BIGRAMS 17 3.1 Nhận biết bigrams .17 3.2 Chiết xuất bigrams từ corpus .18 3.3 Ví dụ minh hoạ 18 3.4 Nhúng bigrams Word2Vec 20 TEXTRANK 21 4.1 Đôi nét TextRank 21 4.2 Ví dụ minh hoạ 23 DANH MỤC TÀI LIỆU THAM KHẢO 24 TẬP DỮ LIỆU 25 PHÂN CƠNG CƠNG VIỆC Nguyễn Đình Đức Hồng Thị Hảo Khuất Thị Quyên - Xử lý liệu - Viết báo cáo mục - Nhúng bigrams, xây dựng pha thuật toán TextRank - Viết báo cáo mục - Nhúng POS_TAG, xử lý liệu - Viết báo cáo mục lời mở đầu, ghép báo cáo LỜI MỞ ĐẦU Một quan trọng khiến người phát triển vượt bậc so với loài động vật khác ngơn ngữ Do đó, ngơn ngữ phức tạp Một đứa trẻ năm để bắt đầu nhận thức suy nghĩ ngôn ngữ, muốn dạy cho máy tính hiểu ngơn ngữ ta phải làm gì? Như biết máy tính cấu tạo từ số đọc liệu số mà Trước đây, người ta mã hóa theo kiểu one hot encoding tức tạo từ điển cho liệu mã hóa từ văn thành vector, từ có văn mã hóa cịn khơng có Kết tạo ma trận thưa, tức ma trận hầu hết Các mã hóa có nhiều nhược điểm, là: thứ số chiều lớn, thứ hai từ khơng có quan hệ với Điều dẫn đến người ta nghĩ mơ hình có tên Word embebding, từ có quan hệ với ngữ nghĩa, tức cặp từ như: “paris-tokyo”, “man-women”, “boy-girl” có khoảng cách gần Word embebding space, ưu điểm thứ hai số chiều giảm Word embebding có hai mơ hình tiếng Word2Vec GloVe Nhìn chung hai phương pháp có ưu nhược điểm riêng, báo cáo tìm hiểu phương pháp Word2Vec Không vậy, thời đại mà công nghệ thông tin ngày phát triển bùng nổ Internet mang đến lượng thông tin vơ lớn cho người Vì vậy, nhu cầu người tóm tắt thơng tin nhằm thuận tiện cho việc tổng hợp cao Tóm tắt liệu tự động trở thành lĩnh vực quan trọng, phương pháp tóm tắt tự động có nhiều ưu TextRank WORD2VEC 1.1 Khái quát nội dung Word2Vec Word2Vec tạo năm 2013 Tomas Mikolov, mơ hình Từ Embedding Trong đó, từ chuyển dạng vector để xử lý Word2Vec có mơ hình Cbow (Continous bag of words) Skip-gram Cbow mơ hình dự đốn từ đích dựa vào từ xung quanh Skip-gram ngược lại với Cbow, dự đoán từ xung quanh dựa vào từ cho trước Cbow huấn luyện nhanh khơng xác Skipgram 1.1.1 Mơ hình skip-gram Cấu trúc mơ hình skip-gram: Đầu vào one-hot-vector, từ có dạng {x1, x2,…xv}trong V số chiều từ điển, phần tử xk có giá trị tương đương với mục từ từ điển, phần tử lại 0, Ma trận trọng số lớp input lớp ẩn ma trận W (có số chiều VxN, N số chiều lớp ẩn) có hàm phát động tuyến tính, ma trận trọng số lớp ẩn lớp output W′ (có số chiều NxV), hàm phát động lớp output softmax Mỗi hàng W vector N chiều đại diện cho vw từ lớp input Mỗi hàng W Lưu ý input one-hot-vector có phần tử nên  Từ lớp ẩn đến lớp output ma trận Ta tính score ui cho từ từ điển Trong vector cột j W′ Tiếp ta sử dụng hàm softmax Trong vector đại diện cho từ w đến từ ma trận W W′ Gradient descent dùng để giải toán từ điển có kích thước lớn, tính tốn mẫu số phải tính tồn từ điển phí tính tốn lớn Do người ta dùng phương pháp giải Hierarchical Softmax Negative Sampling 1.1.2 Cbow Cbow ngược lại so với Skip-gram, có mơ hình vẽ đây: 1.1.3 Hierarchical softmax Hierarchical softmax sử dụng nhị phân để biểu diễn tất từ từ điển Mỗi từ Với lá, tồn đường từ gốc tới này, đường sử dụng để ước lượng xác suất từ biểu diễn Thay phải đánh giá V nút output mạng nơron để có phân phối xác suất, ta cần đánh giá từ 1.1.4 Negative Sampling Ý tưởng negative sampling rõ ràng hierarchial softmax: để giải khó khăn việc có nhiều output vector mà cần cập nhật vòng lặp, cần cập nhật mẫu chúng Rõ ràng từ output nên giữ mẫu (sample) cập nhật, cần lấy mẫu vài từ mẫu âm (negative sampling) Một phân bố xác suất cần cho việc lấy mẫu (sampling process), chọn tuỳ tiện, ta gọi phân bố phân bố nhiễu (nosie distribution), ký hiệu Pn(w) Ví dụ, giả sử bạn có tập văn danh sách từ, bạn chọn từ âm cách lấy ngẫu nhiên từ danh sách Trong trường hợp này, xác suất cho việc chọn từ ‘couch’ với số lần từ ‘couch’ xuất tập văn chia cho tổng số từ xuất tập văn 1.1.5 Minh họa kết Chúng ta sử dụng thư viện gensim để huấn luyện liệu với tập liệu [1] Cụ thể, mục trình huấn luyện sử dụng Cbow với min_count = 1, window=5, size=200, sample=0,001, alpha=0,01, min_alpha=0,00001, epoch=30 Trong đó: min_count số lần xuất nhỏ từ để giữ lại window khoảng cách lớn từ từ đích câu size số chiều vector từ sample: từ có tần suất cao sample ghép ngẫu nhiên alpha tốc độ học ban đầu min_alpha: tốc độ học giảm tuyến tính xuống min_alpha q trình huấn luyện epoch số chu kì huấn luyện Một số ví dụ minh họa kết có sau trình huấn luyện: So sánh tương đồng nghĩa từ: Tính khoảng cách từ: Biểu diễn trực quan khoảng cách nghĩa từ đồ thị chiều: 1.2 Tiền xử lý liệu Tập liệu [1] sử dụng báo cáo liệu thô, chưa xử lý Do đó, cần phải tiền xử lý liệu Để làm điều đó, sử dụng Wikipedia Extractor – công cụ Wikipedia xây dựng sẵn Wikipedia Extractor1 công cụ tạo file văn đơn giản từ file Wikipedia dump, loại bỏ thơng tin, thích khác có trang Wikipedia, chẳng hạn hình ảnh, bảng, tài liệu tham khảo, danh sách Nội dung liệu đầu có dạng: Nội dung trang wikipedia Link github: https://github.com/attardi/wikiextractor 10 Ví dụ minh họa kết quả: Input: Armonium 2 2008-06-22T21:48:55Z Nemo bis italiano [[Immagine:Harmonium2.jpg|thumb| right|300 px]] L''''armonium'''' (in francese, ''harmonium'') è uno [[strumenti musicali| strumento musicale]] azionato una [[tastiera (musica)|tastiera]], detta manuale Sono stati costruiti anche alcuni armonium due manuali ==Armonium occidentale== Come l'[[organo (musica)|organo]], l'armonium è utilizzato tipicamente in [[chiesa (architettura)|chiesa]], per l'esecuzione di [[musica sacra]], ed è fornito di pochi registri, quando addirittura in certi casi non ne possiede nemmeno uno: il suo [[timbro (musica)|timbro]] è molto meno ricco di quello organistico e così pure la sua estensione ==Armonium indiano== {{S sezione}} == Voci correlate == *[[Musica]] *[[Generi musicali]] Output: 11 Armonium L'armonium (in francese, “harmonium”) è uno strumento musicale azionato conuna tastiera, detta manuale Sono stati costruiti anche alcuni armonium due manuali Armonium occidentale Come l'organo, l'armonium è utilizzato tipicamente in chiesa, per l'esecuzione di musica sacra, ed è fornito di pochi registri, quando addirittura in certicasi non ne possiede nemmeno uno: il suo timbro è molto meno ricco di quello organistico e così pure la sua estensione Tuy nhiên, kết trả chưa thể đưa vào huấn luyện Chúng ta cần thêm số bước xử lý sau:  Bỏ tab  Thay dấu câu khoảng trắng (trừ dấu câu “.”, “?”, “!”)  Bỏ dấu xuống dòng  Bỏ chữ số POS_TAG Mỗi từ ngơn ngữ nói chung gắn với nhiều từ loại việc giải thích nghĩa từ phụ thuộc vào việc xác định từ loại hay không Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Khi hệ thống văn gán nhãn, hay nói cách khác thích từ loại ứng dụng rộng rãi hệ thống tìm kiếm thơng tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy Trong xử lý ngơn ngữ tự nhiên gán nhãn từ loại coi sở 12 2.1 Các bước gãn nhãn từ loại: Ví dụ ta có đoạn văn ngắn sau: Anarchism is an anti authoritarian political and social philosophy that rejects hierarchies deemed unjust and advocates their replacement with self managed self governed societies based on voluntary cooperative institutions These institutions are often described as stateless societies although several authors have defined them more specifically as distinct institutions based on non hierarchical or free associations 2.1.1 Gán nhãn từ loại cho từ -POS Ở bước ta cần xem xét từ gãn nhãn cho từ, gán nhãn đơn giản cho từ là: danh từ, động từ, tính từ trạng từ, từ không nằm loại hay từ tên địa danh hay tên người danh từ Việc xác định loại từ từ câu giúp ta hiểu rõ ý nghĩa câu, để làm điều cần xây dựng mơ hình gán nhãn cho từ, Trong đó, từ dự đốn gán nhãn từ trước gán nhãn đưa vào làm thuộc tính cho mơ hình Quy trình gán nhãn từ sau ( ví dụ ta có từ London): Mơ hình gán nhãn huấn luyện cách cung cấp liệu đầu vào gồm câu Tiếng Anh với từ gán nhãn trước Mơ hình thực dựa phương pháp thống kê, máy tính khơng thể hiểu ý nghĩa xác người, mơ hình xác định nhãn giống với từ trước thuật tốn nhìn qua Trong này, từ danh từ (Noun) gán nhãn ký hiệu là:_n, động từ (Verb) là:_v, tính từ (adj) là: _j trạng từ (adv):_r, từ địa danh hay tên người từ không nằm từ loại đưa danh từ ký hiệu là:_noun 13 Sau chạy câu văn ví dụ có kết sau: anarchism_n anti_a authoritarian_a political_a social_a philosophy_n reject_v hierarchy_n deem_v unjust_a advocate_v replacement_n self_n manage_v self_n govern_v society_n base_v voluntary_a cooperative_a institution_n institution_n often_r describe_v stateless_a society_n although_None several_a author_n define_v specifically_r distinct_a institution_n base_v non_a hierarchical_a free_a association_n Ở mơ hình sử dụng công cụ NLTK (Natural Language Toolkit) công cụ hàng đầu để xây dựng chương trình Python hoạt động với liệu ngơn ngữ người 2.1.2 Lemmatization Trong Tiếng Anh từ có hình dạng khác nhau, từ khứ thêm _ed, từ thời tiếp diễn có _ing hay từ bất quy tắc Tuy cách biểu diễn khác mang ý nghĩa, ta cần đưa từ định dạng gốc nó, khơng máy tính hiểu từ từ khác (Ví dụ: “going”, “goes”, ”went”, “gone” từ đưa từ ban đầu “go”) Trong NLP trình gọi Lemmetization Điều tương tự với động từ, ta chuyển đổi dạng động từ thành định dạng gốc Do ta viết: “I going to school” thành “I go to school” Đối với từ bất quy tắc ta có danh sách riêng chứa từ bất quy tắc để văn xuất từ bất quy tắc đưa từ gốc từ 2.1.3 Loại bỏ StopWords StopWords từ xuất nhiều ngôn ngữ tự nhiên, nhiên lại không mang nhiều ý nghĩa đoạn văn, tiếng Anh từ như: is, that, this,… có nhiều cách để loại bỏ StopWords có cách là: dùng từ điển dựa theo tần suất xuất từ Trong cách thấy biệc sử dụng từ điển có nhiều ưu cả, nên project chúng em sử dụng cách loại bỏ StopWords dùng từ điển cách liệt kê hết tất StopWords Tiếng Anh xuất văn bị loại bỏ Ví dụ sau tách từ ta tiến hành loại bỏ StopWords ta có Output sau: “anarchism”, “anti”, “authoritarian”, “political”, “social”, “philosophy”, “ reject”, “hierarchy”, “deem”, “unjust”, “advocate”, 14 “replacement”, “self”, “manage”, “self”, “govern”, “society”, “base”, “voluntary”, “cooperative”, “institution” 2.1.4 Tách câu Bước trình ta cần tách đoạn văn thành câu nhỏ thông qua kí tự kết thúc câu ( dấu ‘.’,’!’,’?’…) Kết đầu sau: “Anarchism is an anti authoritarian political and social philosophy that rejects hierarchies deemed unjust and advocates their replacement with self managed self governed societies based on voluntary cooperative institutions” “These institutions are often described as stateless societies although several authors have defined them more specifically as distinct institutions based on non hierarchical or free associations” Giả định câu có ý nghĩa riêng biệt Vì chúng có dễ dàng viết chương trình để hiểu câu đoạn văn Xây dựng chương trình tách câu đơn giản Cứ ta thấy dấu chấm câu, câu coi kết thúc 2.1.5 Tách từ Sau tách thành câu riêng ta cần tách từ bên câu ra, giai đoạn gọi Tokenization Việc đơn giản Tiếng Anh Tiếng Anh ngôn ngữ đơn âm tiết nên cần tách từ gặp khoảng trống không giống tiếng Việt khó khăn nhiều ngơn ngữ đa âm tiết Ví dụ tách từ: Input: Anarchism is an anti authoritarian political and social philosophy that rejects hierarchies deemed unjust and advocates their replacement with self managed self governed societies based on voluntary cooperative institutions Output: ”Anarchism”, “is”, “an”, “anti”, “authoritarian”, “political”, “and”, “social”, “philosophy”, “that”, “rejects”, “hierarchies”, “deemed”, “unjust”, “and”, “advocates”, “their”, “replacement”, “with”, “self”, “managed”, “self”, “governed”, “societies”, “based”, “on”, “voluntary”, “cooperative”, “institutions” 15 2.2 Kết sau gán nhãn Sau gán nhãn từ loại, dễ thấy kích thước từ điển tăng lên Cụ thể với số lượng từ trước huấn luyện 23 triệu từ, không gán nhãn từ loại kích thước từ điển sau huấn luyện 400 nghìn từ sau gán nhãn 500 nghìn từ với tham số cài đặt Kích thước từ điển tăng sau huấn luyện gán nhãn từ loại do: Trong câu văn, ngữ cảnh từ loại câu văn khác từ đóng vai trị từ loại khác Ví dụ ta có câu văn sau: (a) Please write your address on an envelope (b) Now, I am hosting a summit with President Xi of China at the Southern White House to address the many critical issues affecting our Trong tường hợp không gán nhãn cho từ từ đa nghĩa coi từ dù chúng có ý nghĩa hồn tồn khác nhau, nhúng câu điển hình không xử lý vấn đề đa việc gán nhãn cho từ thực điều này: từ gắn nhãn loại từ tạo nên cặp từ lưu từ điển Trong câu (a), “address” danh từ nhiên câu (b) “address” động từ, lúc bên từ điển lưu với hai cặp từ là: address_n address_v cịn khơng gán nhãn cho từ từ điển lưu address Kích thước từ điển lớn số lượng nhãn gán cho từ nhiều, nhiên gán nhãn năm loại là: danh từ (_n), động từ (_v), tính từ (_j) trạng từ (_r) từ loại khác đưa nhãn danh từ (_None) Từ play play_n play_v Kết từ gần ('playing'), ('played'), ('reprise'), ('player'), ('chorus'), ('sing'), ('soloist'), ('perform'), ('audition') ('othello_n'), ('skit_n'), ('shakespeare_n'), ('chorus_n'), ('ball_n'), ('aeschylus_n'), ('sophocles_n'), ('game_n'), ('player_n'), ('opera_n') ('playing_n'), ('playing_v'), ('played_a'), ('audition_v'), ('reprise_v'), ('perform_v'), ('sing_v'), ('played_n'), ('starring_a') 16 BIGRAMS Một hạn chế thuật toán Word2Vec mục nhúng cho từ hay cịn gọi unigram Điều làm cho cụm từ “take place”, “come true", giữ lại tồn vẹn ý nghĩa đưa vào nhúng Vì vậy, phần trình bày cách nhận biết n-grams để áp dụng thuật toán Word2Vec cho n-grams Cụ thể nhận biết bigrams, n-grams lớn nhận biết tương tự bigrams 3.1 Nhận biết bigrams Chúng ta tạo bigrams đơn giản cách ghép cặp unigram câu Ví dụ, với câu “I love playing with cats” sau chuyển hoá ta được: “I_love love_playing playing_with with_cats”; bugrams đưa vào Word2Vec để học unigram Tuy nhiên, lại có số rắc rối với việc nhúng bigrams Thứ nhất, nhúng cho bigrams, bigrams có ý nghĩa (ví dụ “playing_with”) nhúng cho unigram “love” Thứ hai, nhúng cho bigrams làm cho tập corpus thưa Quay trở lại ví dụ trên, bigrams “playing_with" khơng thường xun xuất tập corpus chúng ta, khơng có nhiều từ ngữ cảnh để học nhúng cho bigrams Để giải vấn đề này, sử dụng Normalized Pointwise Mutual Information (NPMI)1 phép đo xem bigrams có nghĩa hay khơng Trong đó: x từ bigrams y từ thứ hai bigrams p(a) = count(a) / count(total) NPMI(x;y) có giá trị khoảng từ -1 đến Giá trị NPMI(x;y) gần -1 bigrams khơng có ý nghĩa, ngược lại NPMI(x;y) gần khả hai từ x, y tạo thành bigrams cao 17 3.2 Chiết xuất bigrams từ corpus Chúng ta chiết xuất bigrams từ corpus theo sơ đồ sau: Sau có tần suất xuất unigram bigrams có corpus, tính NPMI bigrams, bigrams có NPMI cao threshold (ngưỡng) đưa vào từ điển bigrams Tiếp đó, dùng từ điển bigrams vừa có để tạo bigrams tập corpus 3.3 Ví dụ minh hoạ Chúng ta sử dụng class Phrases thư viện gensim để tạo bigrams trình bày mục 3.1 3.2 Áp dụng cho đoạn văn sau: The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced "no evidence" that any irregularities took place The jury further said in term-end presentments that the City Executive Committee, which had over-all charge of the election, "deserves the praise and thanks of the City of Atlanta" for the manner in which the election was conducted The September-October term jury had been charged by Fulton Superior Court Judge Durwood Pye to investigate reports of possible "irregularities" in the hard-fought primary which was won by Mayornominate Ivan Allen Jr& "Only a relative handful of such reports was received", the jury said, "considering the widespread interest in the election, the number of voters and the size of this city" 18 The jury said it did find that many of Georgia's registration and election laws "are outmoded or inadequate and often ambiguous" It recommended that Fulton legislators act "to have these laws studied and revised to the end of modernizing and improving them" The grand jury commented on a number of other topics, among them the Atlanta and Fulton County purchasing departments which it said "are well operated and follow generally accepted practices which inure to the best interest of both governments" Sau lemmanize, loại bỏ stopword punctuation làm mục 2, ta bigrams sau: - Với threshold bàng 0.79 ta có 37 bigrams: fulton_county friday_investigation recent_primary judge_durwood pye_investigate report_possible irregularity_hard fought_primary win_mayor modernizing_improve comment_number topic_among purchasing_department well_operate produce_evidence irregularity_take end_presentment executive_committee deserve_praise september_october superior_court follow_generally accept_practice inure_best interest_government nominate_ivan relative_handful report_receive consider_widespread number_voter find_many georgia_registration law_outmode inadequate_often legislator_act law_study revise_end - Với threshold 0.89 ta có 28 bigrams: friday_investigation executive_committee superior_court hard_fought relative_handful find_many often_ambiguous modernizing_improve well_operate inure_best produce_evidence deserve_praise judge_durwood win_mayor consider_widespread georgia_registration legislator_act topic_among follow_generally take_place september_october pye_investigate nominate_ivan voter_size outmode_inadequate study_revise purchasing_department accept_practice Nhìn kết trên, ta thấy threshold lớn, số bigrams Tuy nhiên số bigrams trên, số bigrams vô nghĩa chiếm số lượng không nhỏ Nguyên nhân đoạn văn sử sụng 19 nhỏ (chỉ có 85 từ riêng biệt), khơng đủ để học bigrams có nghĩa Để khắc phục điều này, phải tăng kích thước từ điển lên hàng triệu từ để việc học trở nên tốt hơn, đồng thời tăng threshold nhằm lấy bigrams thật có nghĩa chấp nhận rủi ro có khả loại bỏ bigrams có nghĩa xuất 3.4 Nhúng bigrams Word2Vec Tập liệu sử dụng phần liệu [11] - Tìm bigrams: Với min_cont = 1, threshold = 0.7, thu 169.185 bigrams từ tập liệu gồm 23.448.535 từ 1.849.642 câu - Huấn luyện mơ hình Word2Vec – CBOW: tham số truyền vào min_count=1, window=5, size=300, sample=0.001, alpha=0.01, min_alpha=0.00001, negative=5, epochs = 30 Tập từ điển gồm 463841 từ - So sánh với nhúng unigram: Khi nhúng unigram tên thành phố San Francisco bị tách làm hai từ “san” “francisco”, từ gần với hai từ nhúng theo unigram là: + san : liriano, danconia, balagtas, reiguera, orellana, badiale, ban-goy, labastida… + francisco: diego, jose, remo, jacinto, joaquin, mateo, sazae, ildef-onso,… Khi nhúng bigram, từ gần với từ “san_francisco”: los_angeles, san_diego, seattle, miami, chicago, oakland, philadelphia, minneapolis, new_york, boston,… Ta thấy từ “los_angeles”, “san_diego” có quan hệ ngữ nghĩa quan trọng với từ “san_francisco” lại bị bỏ qua nhúng unigram Như vậy, việc nhúng bigram giúp giữ lại nghĩa bigrams 20 TEXTRANK Như giới thiệu phần mở đầu, TextRank thuật tốn dùng để tìm câu mang nội dụng đoạn văn TextRank dùng vector nhúng từ câu để tính vector nhúng cho câu Trong phần áp dụng thuật tốn TextRank trình bày [2] để xây dựng đồ thị tích hợp cho câu đoạn văn 4.1 Đôi nét TextRank Chúng ta tiến hành thực thuật toán TextRank theo sơ đồ sau:  Đầu tiên thu thập tất đoạn văn có báo  Sau chia thành câu riêng lẻ  Tính biểu diễn vector cho câu Ở bước này, nhúng từ theo hai cách Thứ nhúng theo từ loại trình bày mục Thứ hai nhúng theo bigrams, không nhúng bigram mục mà thực theo tác giả tức ghép đôi cặp từ đứng kề câu để tạo thành bigrams, bigrams đưa vào nhúng từ đơn Khi có nhúng từ, ta tính nhúng câu theo phương trình sau: 21 Trong đó: Ewp(wpt)là vector biểu diễn từ thứ t theo POS-TAG Ebi(bit) vector biểu diễn theo bigram bigram thứ t câu T số từ câu  Tiếp đến ta tính độ tương tự Cosine vector câu đơi theo loại nhúng thước đo độ giống ngữ nghĩa cặp câu Khi đấy, ta xây dựng xong hai đồ thị vơ hướng có trọng số cho câu văn với câu coi nút, cạnh độ tương tự Mỗi đồ thị có ma trận kề A = ( aij) với aij tính độ tương tự Cosine câu thứ i câu thứ j văn  Hai đồ thị tích hợp với đồ thị cuối cùng, điều làm cho độ tin cậy cao lấy độ liên kết ngữ nghĩa từ nguồn khác độc lập với Ma trận kề đồ thị tích hợp tính theo cơng thức sau: Trong đó: ma trận có kích thước với ma trận A i phần tử Ai ma trận kề thứ i Phép nhân ∏i (1 − Ai) phép nhân Hadamard Các phần tử ma trận A thường lớn phần tử tương ứng hai ma trận thành viên Chúng ta kiểm nghiệm lại đánh giá phần xây dựng đồ thị  Cuối cùng, nút đồ thị hay câu xếp hạng Tuỳ vào người sử dụng, chọn K câu có hạng cao câu mang nội dung văn 22 4.2 Ví dụ minh hoạ Chúng ta sử dụng tập liệu [1] để huấn luyện mô hình Word2Vec, hai mục Introduction Definition tập liệu [2] cho phần biểu diễn đồ thị tích hợp thuật toán TextRank Đoạn văn gồm 11 câu Sau tải mơ hình huấn luyện trước đó, cho mơ hình học tiếp đoạn văn nhằm đạt nhúng từ xác Khi đó, ta ma trận kề đồ thị tương ứng Hình đồ thị nhúng bigrams, hình đồ thị nhúng từ kèm từ loại, hình đồ thị tích hợp hai đồ thị Để đồ thị dễ nhìn thể mối quan hệ câu, vẽ cạnh có trọng số lớn 0.7 Có thể thấy hai đồ thị thưa, số nút không kết nối tới nút lại Nhưng sang đồ thị thứ ba, nút có liên kết với nút lại, trọng số cách cạnh lớn lớn trọng số cạnh tương ứng hai đồ thị Như vậy, đánh giá nêu mục 4.1 xác, đồ thị tích hợp thường có trọng số lớn đồ thị thành viên 23 Hình Bigram Hình POS_TAG Graph Hình iGraph DANH MỤC TÀI LIỆU THAM KHẢO Bouma, G (2009) Normalized ( Pointwise ) Mutual Information in Collocation Extraction Yang, K.; Al-Sabahi, K.; Xiang, Y.; Zhang, Z An Integrated Graph Model for Document Summarization Information 2018, 9, 232 http://ahogrammer.com/2017/03/22/why-is-word-embeddingsimportant-for-natural-language-processing/ https://github.com/magizbox/undert0hesea/wiki/Vietnamese-NLPTools#text-classification https://www.crummy.com/software/BeautifulSoup/bs4/doc/ https://datascience.stackexchange.com/questions/11402/preprocessi ng-text-before-use-rnn TẬP DỮ LIỆU Dữ liệu sử dụng báo cáo lấy từ wikipedia 24 enwiki-20191101-pages-articles-multistream1.xml-p10p30302 với kích thước 251.8MB Neo-Nazism – Wikiwand https://www.wikiwand.com/en/Neo-Nazism 25 ... tipicamente in chiesa, per l'esecuzione di musica sacra, ed è fornito di pochi registri, quando addirittura in certicasi non ne possiede nemmeno uno: il suo timbro è molto meno ricco di quello organistico... fornito di pochi registri, quando addirittura in certi casi non ne possiede nemmeno uno: il suo [[timbro (musica)|timbro]] è molto meno ricco di quello organistico e così pure la sua estensione... ==Armonium indiano== {{S sezione}} == Voci correlate == *[[Musica]] *[[Generi musicali]] Output: 11 Armonium L'armonium (in

Định dạng
Số trang	25
Dung lượng	1,01 MB