Luận văn thạc sĩ phát hiện kế thừa văn bản trên dữ liệu twitter

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG NGỌC TÚ PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2019 e HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG NGỌC TÚ PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI – 2019 e i LỜI CAM ĐOAN Để có kết học tập đến ngày hôm nay, em xin chân thành gửi đến thầy cô giáo khoa Công Nghệ Thông Tin – Học Viện Công Nghệ Bưu Chính Viễn Thơng nói riêng thầy giáo trường Học Viện Cơng Nghệ Bưu Chính Viễn Thơng nói chung lời cảm ơn chân thành Các thầy cô luôn nhiệt huyết truyền đạt cho em kiến thức môn kinh nghiệm thực tế Và đặc biệt để hoàn thành luận văn này, em xin chân thành cảm ơn thầy TS Ngô Xuân Bách tận tâm hướng dẫn em thực tìm hiểu vấn đề Nếu khơng có dẫn thầy khó để em tự hồn thành luận văn Một lần em xin gửi lời cảm ơn chân thành tới thầy Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình người bạn ln tạo điều kiện tốt hỗ trợ giúp đỡ em gặp khó khăn Luận văn thực khoảng tháng Đây bước đầu em sâu tìm hiểu, nghiên cứu thực nghiệm đề tài ngành công nghệ thông tin xử lý ngơn ngữ tự nhiên Do vậy, cịn nhiều thiếu sót, em mong nhận ý kiến đóng góp q Thầy Cơ bạn để em hồn thiện luận văn cách tốt Em xin chân thành cảm ơn! Hà Nội, ngày 13 tháng 02 năm 2019 Đặng Ngọc Tú e ii LỜI CẢM ƠN Trước tiên, xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo khoa sau Đại Học nói riêng thầy giáo trường Học Viện Cơng Nghệ Bưu Chính Viễn Thơng nói chung lời cảm ơn chân thành Đặc biệt, xin gửi lời cảm ơn sâu sắc tới TS Ngơ Xn Bách người tận tình bảo, hướng dẫn tơi suốt q trình tìm hiểu, nghiên cứu để hoàn thành luận văn tốt nghiệp Nếu khơng có hỗ trợ kiến thức chun mơn thầy chắn tơi khơng thể hồn thành thời hạn Đồng thời, tơi xin cảm ơn tới gia đình, người thân u ln bên cạnh, động viên, giúp đỡ tơi suốt q trình học tập Bên cạnh tơi xin gửi lời cảm ơn đến anh chị bạn lớp M17CQIS01-B chia sẻ kinh nghiệm, kiến thức q báu cho tơi q trình nghiên cứu thực luận văn Thời gian thực luận văn ngắn, kinh nghiệm lĩnh vực xử lý ngôn ngữ tự nhiên thân hạn chế, luận văn cịn nhiều thiếu sót mong nhận ý kiến đóng góp q Thầy Cơ bạn để tơi hồn thiện luận văn cách tốt Xin trân trọng cảm ơn! Hà Nội, ngày 13 tháng 02 năm 2019 Tác giả Đặng Ngọc Tú e iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH v BẢNG DANH SÁCH TỪ VIẾT TẮT vi MỤC LỤC HÌNH ẢNH vii MỤC LỤC BẢNG BIỂU viii LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER Error! Bookmark not defined 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.2 Khát quát kế thừa văn 1.2.1 Khái niệm kế thừa văn 1.2.2 Khái niệm kế thừa văn 1.2.3 Phát biểu toàn phát kế thừa văn 1.3 Phát kế thừa văn liệu Twitter 1.3.1 Khái niệm 1.3.2 Phát biểu toàn phát kế thừa văn liệu Twitter 1.4 Các nghiên cứu liên quan 11 1.5 Kết luận chương 12 CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG THUẬT TOÁN PHÂN LỚP 13 2.1 Giải pháp phát kế thừa văn liệu Twitter 13 2.2 Tiền xử lý liệu 17 2.3.1 Jaro-Winkler distance 18 2.3.2 Levenshtein distance 19 2.3.3 Euclidean distance 20 2.3.4 Cosine similarity 20 2.3.5 N-gram distance 21 e iv 2.3.6 Matching coefficient 23 2.3.7 Dice coefficient 23 2.3.8 Jaccard coefficient 23 3.1 Các phương pháp học máy 24 3.1.1 Máy vector hỗ trợ SVM (Support Vector Machine) 24 3.1.2 Thuật toán IBK 28 3.1.3 Các phương pháp định 29 4.1 Kết luận chương 32 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 33 3.1 Dữ liệu thực nghiệm 33 3.1.1 Mô tả liệu thực nghiệm 33 3.1.2 Trích chọn đặc trưng 36 3.2 Thiết lập thực nghiệm 37 3.2.1 Yêu cầu cho thực nghiệm 37 3.2.3 Phương pháp đánh giá tập liệu 38 3.2.3 Chọn công cụ thực nghiệm 41 3.2.4 Giới thiệu chuẩn liệu đầu vào cho thực nghiệm (ARFF) 45 3.3 Tiến hành thực nghiệm đánh giá kết thực nghiệm 47 3.3.1 Kết thực nghiệm với thuật toán cho ba nhãn 47 3.3.2 Thực nghiệm với kết hợp đặc trưng 49 3.3.3 Thực nghiệm so sánh thuật toán J48 với phương pháp học máy khác 50 3.4 Kết luận chương 51 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO 54 DANH MỤC WEBSITE THAM KHẢO 56 PHỤ LỤC 57 e v BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH Tư tiếng anh Ý nghĩa Accuracy Mức độ dự đốn (phân lớp) xác hệ thống Atrribute Regation File Format IBK Định dạng tập tin thuộc tính liên quan ID3 Thuật tốn Decision Tree Natural Language Processing Xử lý ngôn ngữ tự nhiên Là tần suất xuất n kí tự ( từ ) liên tiếp có liệu Độ xác tập liệu tìm (phân loại) Thuật toán Random forest Độ hồi tưởng số tồn tại, tìm (phân loại) N-grams Precision Random Forest Recall Thuật toán K-nearest nèighbors Support Vector Machine Máy vector hỗ trợ (SVM) Tweets Twitter Trạng thái người dùng mạng xã hội Twitter Mạng xã hội twitter Weka Bộ phần mềm học máy e vi BẢNG DANH SÁCH TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CD Comparison Documents Tài liệu so sánh CON Contradiction Mẫu thuẫn DUC Document Understanding Conference Hiểu tài liệu ENT Entailment Liên quan H Hypothesis Giả thuyết IE Information Extraction Trích xuất thơng tin IR Information Retrieval Thu thập thông tin KKN K-Nearest Neighbors algorithm Thuật toán láng giềng MT Machine Translation Dịch máy NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PP Paraphrase Acquisition Thu thập diễn giải QA Question Answering Hệ hỏi đáp RC Reading Comprehension Đọc hiểu RTE Recognizing Textual Entailment Phát kế thừa văn SUM Summarization Tóm tắt SVM Support vector machine Máy hỗ trợ vector T Text Văn TAC Text Analysis Conference Phân tích tài liệu TE Textual Entailment Kế thừa văn UNK Unknown Khơng liên quan e vii MỤC LỤC HÌNH ẢNH Hình 1.1: Số lượng người sử dụng số mạng xã hội lớn Hình 1.2 Sơ đồ giả thiết toán 11 Hình 2.1: Mơ hình giai đoạn huấn luyện 14 Hình 2.2: Mơ hình giai đoạn phân lớp 16 Hình 2.3: Ánh xạ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia liệu siêu phẳng 25 Hình 2.4: Siêu phẳng với lề cực đại cho phép phân chia hình vng khỏi hình trịn khơng gian đặc trọng 25 Hình 2.5: Minh họa tốn phân lớp phương pháp SVM 27 Hình 2.6: Ví dụ định 30 Hình 2.7: Mã giải thuật tốn phân lớp dựa định 31 Hình 3.1: Dữ liệu thực nghiệm lấy file XML liệu Twitter 34 Hình 3.2: Dữ liệu bóc tách thành cặp văn bản(T) giả thuyết(H) 35 Hình 3.3: Hình ảnh stopword 35 Hình 3.4: Trích chọn đặc trưng theo 08 phương pháp 36 Hình 3.5: Minh họa K-fold cross validation 39 Hình 3.6: Giao diện weka ver 3.8.3 43 Hình 3.7 Màn hình Weka Explorer 43 Hình 3.9: Giao diện weka tiến hành thực nghiệm 45 Hình 3.10: Khuân dạng tập liệu dạng chuẩn Arff 46 Hình 3.11: Ví dụ minh họa phần biểu diễn ARFF linh hoạt 47 e viii MỤC LỤC BẢNG BIỂU Bảng 1.1: Ví dụ kế thừa văn Bảng 1.2: Ví dụ kế thưa với ba nhãn 10 Bảng 3.1: Bộ liệu thực nghiệm 37 Bảng 3.2: Bảng ma trận nhầm lẫn 41 Bảng 3.3: Kết thực nghiệm độ đo chạy thuật toán tree J48 48 Bảng 3.4: Kết thực nghiệm độ đo thuật toán chạy tree J48 48 Bảng 3.5: Bảng kết thực nghiệm với kết hợp đặc trưng 49 Bảng 3.6: Bảng kết thực nghiệm sử dụng cơng cụ weka với thuật tốn 50 Bảng 3.7: Bảng biểu đồ so sánh phương pháp SVM 51 e 43 Hình 3.6: Giao diện weka ver 3.8.3 Dưới hình thao tác Weka Explorer Hình 3.7 Màn hình Weka Explorer e 44 - Simple CLI Giao diện đơn giản kiểu dòng lệnh (như MS-DOS) Để sử dụng tính việc thực nghiệm chọn “Explorer” nhấn “Open file” để chọn tập tin liệu Tập tin phải đảm bảo đưa định dạng mà Weka hiểu csv, arff, v.v Weka đưa hiển thị thống số như: số câu, số nhãn số thuộc tính, cụ thể mơ tả hình 3.8 sau đây: Hình 3.8: Giao diện chọn tập tin để thực nghiệm e 45 Hình 3.9: Giao diện weka tiến hành thực nghiệm Việc lựa chọn thuật tốn để có model tốt phụ thuộc nhiều yếu tố, cấu trúc dataset có ý nghĩa quan trọng đến việc lựa chọn thuật toán 3.2.4 Giới thiệu chuẩn liệu đầu vào cho thực nghiệm (ARFF) Để tiến hành thực nghiệm Weka điều bắt buộc phải đưa liệu định dạng Weka quy định sẵn : csv, arff Trong luận văn này, sử dụng tập tin mơ hình ARFF (Atrribute-Regation File Format) [27], tất liệu chuyển sang chuẩn liệu ARFF trước tiến hành thực nghiệm e 46 Hình 3.10: Khuân dạng tập liệu dạng chuẩn Arff [27] Mơ hình ARFF có hai phần riêng biệt thơng tin header, theo sau thông tin liệu Header file ARFF chưa tên mối quan hệ, danh sách thuộc tính loại chúng Các kiểu liệu: Numeric: liệu dạng số Nominal: liệu rời rạc count} Ví dụ: @ATTRIBUTE name numeric Ví dụ: @ATTRIBUTE class {sport, String: liệu chuỗi Ví dụ: @ATTRIBUTE name string Date: liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date e 47 Hình 3.11: Ví dụ minh họa phần biểu diễn ARFF linh hoạt 3.3 Tiến hành thực nghiệm đánh giá kết thực nghiệm 3.3.1 Kết thực nghiệm với thuật toán cho ba nhãn Trong luận văn này, chúng tơi tiến hành tìm hiểu 04 thuật toán phân lớp: Support vector machine (SVM), IBK, Decision tree (J48, Random forest ) Để kiểm tra xem thuật toán cho kết dự đoán tốt nhất, sử dụng liệu biến đổi áp dụng với 08 độ đo: Jaro-Winkler distance, Levenshtein distance, Manhattan distance, Euclidean distance, Cosine similarity, N-gram distance (n=3), Matching coefficient, Dice coefficient, Jaccard coefficient Sau tiến hành thực nghiệm thuật toán định thuật toán J48 với độ đo để đưa độ xác thuật tốn phần mềm đánh e 48 giá Weka lập biểu đồ đánh giá kết phân loại 03 nhãn để có nhìn tổng quát phương pháp Cụ thể kết sau: Thuật toán Tree J48 Độ đo N-gram Cosin similarity Levenshtein Jaccard coefficient Dice coefficient Euclidean Jaro_Winkler Matching coefficient Acc(%) 51.87 61.09 42.70 61.23 61.23 55.93 50.11 56.40 Precision(%) 52.90 62.50 41.90 60.00 60.00 52.10 56.10 54.20 Recall(%) 51.90 61.10 42.70 61.20 61.20 55.90 50.10 56.40 F(%) 48.60 56.80 37.40 58.50 58.50 49.10 46.00 48.90 Bảng 3.3: Kết thực nghiệm độ đo chạy thuật toán tree J48 Chúng tơi tiến hành thực nghiệm thuật tốn hỗ trợ vector với phương pháp tree J48 mức độ xác độ đo cúng tơi tập hợp biểu đồ đây, cụ thể: Bảng 3.4: Kết thực nghiệm độ đo thuật toán chạy tree J48 Kết thực nghiệm cho thấy dự đoán với tập liệu từ cho kết cao với độ đo Jaccard conefficient 61.23 %, thấp dự đoán tập liệu với độ đo Levenshtein 42.70% e 49 3.3.2 Thực nghiệm với kết hợp đặc trưng Đề đánh giá cach xác hơn, chúng tơi tiền hành thực nghiệm với kết hợp đặc trưng Với đặc trưng, chúng tơi có kết thực nghiệm phần trước, tiến hành kết hợp đặc trưng có độ xác xác (Accurracy %) từ cao xuống thấp Dưới bảng kết thực nghiệm với kết hợp đặc trưng  Xét đặc trưng Jaccard conefficient (1)  Xét đặc trưng Dice conefficient (2)  Xét đặc trưng Cosin similarity (3)  Xét đặc trưng Matching coefficient (4)  Xét đặc trưng Euclidean (5)  Xét đặc trưng N-Gram (6)  Xét đặc trưng Jaro-Winkler (7)  Xét đặc trưng Levenshtein (8) Độ xác (%) 61.23 62.02 70.53 75.41 75.83 77.42 79.05 79.88 (1) (1)+(2) (1)+(2)+(3) (1)+(2)+(3)+(4) (1)+(2)+(3)+(4)+(5) (1)+(2)+(3)+(4)+(5)+(6) (1)+(2)+(3)+(4)+(5)+(6)+(7) (1)+(2)+(3)+(4)+(5)+(6)+(7)+(8) Bảng 3.5: Bảng kết thực nghiệm với kết hợp đặc trưng Từ bảng kết quả, chúng tơi thấy kết dự đốn với kết hợp đặc trưng khả quan Đặc biệt với kết hợp đặc trưng (1)+(2)+(3)+(4)+(5)+(6)+(7)+(8) cho kết cao 79.88%, thấp kết hợp (1) đặc trưng với kết 61.23% Từ kết ta thấy kết hợp nhiều đặc trưng độ xác cao e 50 3.3.3 Thực nghiệm so sánh thuật toán J48 với phương pháp học máy khác Trong phần trước tiến hành thực nghiệm kết hợp đặc trưng với độ xác giảm dần, cịn phần thực so sánh phương pháp J48 với số phương pháp học máy khác : SVM, Random forest, IBK với k=5, k=10 Do phần kết hợp 08 đặc trưng (1)+(2)+(3)+(4)+(5)+(6)+(7)+(8) có độ xác cao nên phần này, tiến hành với 08 đặc trưng Dưới bảng kết thực nghiệm sử dụng phần mềm Weka với số phương pháp phân lớp: SVM, IBK, Random forest Độ xác (%) Sử dụng Weka với thuật tốn J48 79.88 Sử dụng Weka với thuật toán SVM 64.39 Sử dụng Weka với thuật toán IBK với k=5 61.78 Sử dụng Weka với thuật toán IBK với k=10 67.77 Sử dụng Weka với thuật toán Random forest 76.52 Bảng 3.6: Bảng kết thực nghiệm sử dụng công cụ weka với thuật toán e 51 Bảng 3.7: Bảng biểu đồ so sánh phương pháp Từ bảng kết quả, chúng tối thấy phương pháp J48 có dự đốn xác cao 79.88%, phương pháp IBK với k=5 có dự đốn xác thấp 61.78% với độ đo chênh lệch 18.10% Điều chứng tỏ, độ chệnh lệch phương pháp không cao 3.4 Kết luận chương Nội dung chương trình trình thực phát kế thừa liệu Twitter Trên sở kết thực nghiệm chương luận văn đưa phân tích đánh giá phương pháp thực Các kết cho thấy việc sử dụng đặc trưng mang lại hiệu độ xác khơng cao Khi tăng dần việc kết hợp đặc trưng, độ xác phân lớp cải thiện Điều chứng tỏ tầm quan trọng việc trích chọn đặc trưng sử dụng kết hợp đặc trưng toán phân lớp e 52 KẾT LUẬN Khai phá liệu nói chung đặc biệt phát kế thừa văn nói riêng ngày đóng vai trị quan trọng hoạt động tóm tắt văn bản, văn hệ hỏi đáp, trích xuất thơng tin Trong luận văn này, tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phát kế thừa văn bản, cụ thể cải thiện độ xác cho tốn phát kế thừa văn mạng xã hội Twitter qua dịng tweets họ Bài tốn xác định tốn có độ phức tạp cao có nhiều ứng dụng thực tế Phương pháp giải luận văn tập trung vào việc nâng cao độ xác việc phân loại kế thừa văn thơng qua dịng tweets Bằng việc sử dụng mơ hình phân lớp quen thuộc là: Support Vector Machine (SVM), IBK Decision Tree ( J48, Random forest ) với tập liệu thu từ Twitter, luận văn đưa số phương pháp để giải cho tốn đề Q trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Nghiên cứu xử lý ngơn ngữ tự nhiên nói chung, tốn khai phá quan điểm nói riêng với chúng tơi cơng nghệ mới, thời gian nghiên cứu ngắn nên nhiều vấn đề chưa thực nắm bắt tốt Tuy nhiên qua q trình nghiên cứu luận văn, chúng tơi thu số kết nhận thấy số hạn chế sau: Nhìn chung, luận văn đạt số kết như:  Trình bày cách khái quát, tổng quan nêu lên ý nghĩa, vai trò quan trọng toán xác định phát kế thừa văn mạng xã hội Twitter  Nghiên cứu 08 loại đặc trưng khác cho toán phát kế thừa văn  Nghiên cứu làm thực nghiệm với 04 thuật toán học máy khác e 53  So sánh phân tích kết thực nghiệm, đưa kết tốt Luận văn số hạn chế như:  Nghiên cứu dựa số lượng liệu cịn chưa đầy đủ  Kết thực nghiệm đạt chưa thực cao  Chỉ thử nghiệm tập liệu tiếng anh  Chưa xét tới mặt cú pháp câu thông qua cú pháp nhận dạng thực thể câu để đưa kết xác trường hợp mà có nhập nhằng tên thực thể  Đối với cặp văn giải thuyết có độ nhập nhằng ngữ nghĩa độ xác kết không cao Hướng phát triển  Trong thời gian tới, tiếp tục nghiên cứu phương pháp khác để nâng cao chất lượng kết việc phát kế thừa văn  Xây dựng ứng dụng thực tế với toán phát kế thừa khác nhiều nguồn liệu khác Ngoài ra, cần nâng cao tốc độ xử lý, hoàn thiện hệ thống  Xây dựng phát triển toán nguồn liệu tiếng việt e 54 DANH MỤC TÀI LIỆU THAM KHẢO [1] Octavia-Maria Sulea Recognizing Textual Entailment in Twitter Using Word Embeddings, Proceedings of the 2nd Workshop on Evaluating Vector-Space Representations for NLP, page 31-35,Copenhagen, Denmark, September 7–11, 2017 c 2017 Association for Computational Linguistics [2] PiroskaLendvai, IsabelleAugenstein, Kalina Bontcheva, Thierry Declerck Monolingual Social Media Datasets for Detecting Contradiction and Entailment, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), Portoroz, Slovenia, ELRA, ELRA, 9, rue des Cordelières, 75013 Paris, 5/2016, 5/2016 [3].Eamonn Newman, NicolaStokes, John Dunnion, and JoeCarthy, “Textual Entailment Recognition Using aLinguistically–Motivated Decision Tree Classifier”, Springer Berlin Heidelberg, 2006: 372-384 [4] Từ Minh Phương Giáo trình nhập mơn trí tuệ nhân tạo Nhà xuất Thông tin Truyền thông, 2016 [5] Joseph Lilleberg, Yun Zhu, and Yanqing Zhang 2015 Support vector machines and word2vec for text classification with semantic features In Ning Ge, Jianhua Lu, , July 6-8, 2015 IEEE Computer Society, pages 136–140 [6] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U.Aberathne, “Sentiment Analysis for Social Media”, 2014 [7] P Hiroshi Shimodaira, “Text Classification using Naive Bayes”, 2015 [8] Steve R Gunn, “Support Vector Machines for Classification and Regression”, 1998 [9] Nguyễn Minh Thành, Phân loại văn bản, Luận văn môn học Xử lý ngôn ngữ tự nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 e 55 [10] Mihalcea, R., Corley, C., Strapparava, C.: Corpus-based and Knowledge-based Measures of Text Semantic Similarity In: Proceedings of AAAI, pp.775–780 (2006) [11] Malakasiotis and I Androutsopoulos 2007 Learning textual entailment using svms and string similarity measures In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing, pages 42–47, Prague, June Association for Computational Linguistics [12] Ngo Xuan Bach, Minh Le Nguyen, Akira Shimazu: Exploiting discourse information to identify paraphrases Expert Syst Appl 41(6): 2832-2841 (2014) [13] Prodromos Malakasiotis and Ion Androutsopoulos Learning Textual Entailment using SVMs and String Similarity Measures, Proceedings of the ACLIJCNLP 2009 Student Research Workshop, pages 27–35 [14] Madnani, N., Tetreault, J., & Chodorow, M (2012) Re-examining machine translation metrics for paraphrase identification In Proceedings of the 2012 conference of the north american chapter of the association for computational linguistics: Human language technologies (NAACL-HLT) (pp 182–190) e 56 DANH MỤC WEBSITE THAM KHẢO [15] Nguồn liệu pheme_rte_datasets_2016 Twitter https://www.pheme.eu/2016/04/12/pheme-rte-dataset/ [16] Glove : Global Vectors for Word Representation: http://nlp.stanford.edu/projects/glove/ [17] Google : https://www.google.com [19] TF-IDF : Term frequency – inverse document frequency https://guendouz.wordpress.com/2015/02/17/implementation-of-tf-idf-in-java/ [20] Chia sẻ kiến kiến thức TF-IDF (Term frequency – inverse document frequency) https://viblo.asia/p/tf-idf-term-frequency-inverse-document-frequencyQVkVZgKkyd [21] http://www.ranks.nl/stopwords [22].Chia sẻ kiến thức thông tin Machine learning : https://ongxuanhong.wordpress.com/about/ [23] Mơ hình ngơn ngữ n-gram ứng dụng https://www.slideshare.net/kimdinhsonict/ngram-29611724 [24] http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [25] Cơng cụ weka : http://www.cs.waikato.ac.nz/ml/weka/ [26] Tìm hiểu weka phần mềm khai phá liệu http://gizteam.com/tim-hieu-ve-weka-mot-phan-mem-tuyet-voi-danh-cho-khai-phadu-lieu/ [27] Tìm hiểu Arff linh hoạt sparse ARFF file http://geekswithblogs.net/razan/archive/2011/11/08/creating-a-simple-sparse-arfffile.aspx [28] Wikipedia: http://www.wikipedia.org [29] http://www.nist.gov/tac/2009/RTE/RTE5 Pilot Guidelines.pdf [30] https://machinelearningcoban.com/2018/01/14/id3/ [31] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/mo-hinhngon-ngu e 57 PHỤ LỤC Các công cụ sử dụng Công cụ Trang chủ Java SE JDK 7u21 http://www.java.sun.com Visual studio 2015 https://visualstudio.microsoft.com Notepad++ http://notepad-plus-plus.org/ Weka http://www.cs.waikato.ac.nz/ml/weka/ StringSimilarity.NET https://github.com/feature23/StringSimilarity.NET SimMetrics.Net https://www.nuget.org/packages/SimMetrics.Net/ codebeautify.org https://codebeautify.org/xmlviewer e ... giới thiệu khái niệm kế thừa văn bản, phát biểu tốn phát kế thừa văn bản, sau đó, luận văn giới thiệu toán phát kế thừa văn liệu Twitter e Chương 2: Phương pháp phát kế thừa văn sử dụng thuật tốn... một, luận văn trình bày số nội dung liên quan đến kế thừa văn khái niệm phát kế thừa văn bản, khái niệm phát kế thừa văn liệu Twitter phát biểu toán, cuối luận văn trình bày ứng dụng phát kế thừa. .. Jones NO Bảng 1.1: Ví dụ kế thừa văn 1.2.3 Phát biểu toán phát kế thừa văn Bài toán phát kế thừa văn toán xác định quan hệ kế thừa văn T giả thuyết H Việc phân loại mối quan hệ kế thừa văn giả

Luận văn thạc sĩ phát hiện kế thừa văn bản trên dữ liệu twitter

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan