Phát hiện kế thừa văn bản trên dữ liệu twitter (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG NGỌC TÚ PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER CHUYÊN NGHÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2019 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Ngô Xuân Bách Phản biện 1: ………………………………………………… Phản biện 2: ………….…………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng LỜI MỞ ĐẦU Trong năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên thu hút quan tâm đặc biệt nhà nghiên cứu đạt nhiều thành tựu đáng kể Trong đó, thành cơng nhiều ứng dụng ngôn ngữ tự nhiên tự động hiểu xác ngữ nghĩa văn dự theo cấu trúc cú phát cách sử dụng máy tính Điều trở thành thách thức với văn diễn đạt ý nghĩa sử dụng cấu trúc từ ngữ khác Các ứng dụng ngôn ngữ tự nhiên tự động tận dụng thành phần làm mịn để xử lý hiệu văn có cấu trúc phức tạp Một toán xử lý văn việc suy luận ngữ nghĩa đoạn văn từ đoạn trích văn tiềm khác Bài toán trở thành hướng nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên biết đến toán phát kế thừa văn (Recognixing Textual Entailment: RTE) Bài toán phát kế thừa văn lần Degan Glickman đề xuất [3] Cho hai đoạn văn tốn phát kế thừa văn có mục định xác định xem nghĩa văn suy luận (kế thừa) từ văn lại hay không Từ nhu cầu thực tế lĩnh vực khác xử lý ngôn ngữ tự nhiên, toán phát kế thừa văn nhận quan tâm nhà khoa học nhóm nghiên cứu giới Từ năm 2004 đến này, hội nghị RTE tổ chức thường niên hàng năm nhằm mục đích so sánh tổng hợp lại phương pháp phát kế thừa văn tốt Hội nghị RTE tiến hành khuôn khổ hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007) Phân tích xử lý văn (TAC: Text Analysis Conference, từ năm 2008 tới nay) Với phát triển nhanh chóng mạnh mẽ mạng xã hội đại ngày như: facebook, google +, twitter, v.v Việc ứng dụng phát kế thừa văn hệ hỏi đáp (QA), trích xuất thơng tin (IE), tóm tắt văn (Summarization), đánh giá dịch máy MT) cần mơ hình cho tượng biến đổi để phát xem ý nghĩa cụ thể có suy luận từ biến thể văn khác Đã có nhiều cơng trình nghiên cứu liên quan đến tốn phát kế thừa văn theo phương pháp khác từ nhiều nguồn liệu mà Twitter nguồn liệu phổ biến Vì lý trên, với mong muốn làm chủ công nghệ, làm chủ mở rộng nghiên cứu học máy ứng dụng vào toán phát kế thừa văn bản, hướng dẫn TS Ngô Xuân Bách thơng qua tìm hiểu, phương pháp kế thừa văn tập liệu Twitter, tơi mạnh dạn tìm hiểu đề tài “Phát kế thừa văn liệu Twitter” nhằm mục đích sử dụng học máy để đưa phát kế thừa văn việc tự động trả lời người dạng ngôn ngữ tự nhiên cách truy suất thông tin từ tập hợp liệu Luận văn tập trung vào toán phát kế thừa văn liệu Twitter, phân loại làm ba nhãn là: liên quan(Entailment), mâu thuẫn(Contradiction), không liên quan (Unknown) Các đặc trưng biểu diễn dạng vector làm đầu vào cho thuật toán Sau thu kết mơ hình phân lớp: Decision tree (J48, Random forest) [30] , Support vector machine(SVM) [8] IBK [4], luận văn sử dụng phương pháp lập sơ đồ để kiểm tra lựa chọn kết tốt Kết thực nghiệm tốt đạt sử dụng thuật toán Decision tree (J48) Cụ thể kết thực nghiệm cho kết tốt với toán “ Phát kế thừa văn liệu Twitter ” Nội dung luận văn gồm 03 chương: Chương 1: Giới thiệu tổng quát khái quát toán phát kế thừa văn Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu toán phát kế thừa văn bản, sau đó, luận văn giới thiệu tốn phát kế thừa văn liệu Twitter Chương 2: Phương pháp phát kế thừa văn sử dụng thuật tốn phân lớp Nội dung chương trình bày số phương pháp trích chọn lấy đặc trưng để giải toán, phương pháp học máy thống kê sử dụng để tiến hành thực nghiệm cho toán phát kế thừa văn dựa liệu mạng xã hội Twitter Chương 3: Thực nghiệm đánh giá Nội dung chương nhằm nêu rõ chi tiết bước trình giải tốn Trong chương trình bày q trình thực thực nghiệm, đưa số đánh giá, nhận xét kết thu Kết luận định hướng phát triển tiếp theo: Tóm lược kết đạt luận văn, khuyết điểm cần khắc phục đưa định hướng nghiên cứu CHƯƠNG TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER Chương luận văn trình bày nội dung là: Giới thiệu chung lĩnh vực xử lý ngôn ngữ tự nhiên ứng dụng thực tế Giới thiệu toán phát kế thừa văn phát kế thừa văn liệu Twitter Giới thiệu mạng xã hội Twitter tổng quan toán phát kế thừa văn liệu Twitter 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) [4] [9] lĩnh vực nghiên cứu trí tuệ nhân tạo, tập trung vào nghiên cứu phương pháp, kỹ thuật cho phép xử lý ngôn ngữ tự nhiên máy tính, từ xây dựng chương trình, hệ thống máy tính xử lý ngơn ngữ người Xử lý ngôn ngữ tự nhiên áp dụng nhiều toán ứng dụng thực tế, nhiều lĩnh vực: Nhận dạng chữ viết, Nhận dạng tiếng nói, Tổng hợp tiếng nói, Dịch máy (machine translate, Tìm kiếm truy xuất thơng tin, Tóm tắt văn bản, Khai phá liệu 1.2 Khát quát kế thừa văn Trong sống ngày, việc sử dụng ngôn ngữ tự nhiên, diễn đạt vấn đề theo nhiều cách khác với từ ngữ cấu trúc cú pháp khác Vấn đề biến đổi biểu diễn ngữ nghĩa xem vấn đề nhập nhằng ngôn ngữ tự nhiên Các ứng dụng xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thơng tin (IE), tóm tắt văn (Summarization), đánh giá dịch máy MT) cần mơ hình cho tượng biến đổi để phát xem ý nghĩa cụ thể có suy luận từ biến thể văn khác hay không Vào năm 2004, phát kế thừa văn (RTE) đề xuất toán tổng quát để thu thập nhu cầu liên quan đến suy luận ngữ nghĩa nhiều ứng dụng xử lý 1.2.2 Khái niệm kế thừa văn Hiện nay, khái niệm kế thừa văn định nghĩa theo nhiều cách khác Theo Glickman Dagan [3], kế thừa văn mối quan hệ văn T quán T với thể ngôn ngữ – giả thuyết H (H hệ T), ký hiệu T → H ý nghĩa H, đặt vào ngữ cảnh T suy ý nghĩa H Một cách chung văn T gọi kế thừa giả thuyết H thật H suy luận từ T Điều có nghĩa T bao hàm ý nghĩa H đọc hai Do vậy, ta nói T kế thừa H số biểu diễn H trùng khớp (qua số bước chuyển đổi bảo toàn ngữ nghĩa) với số (hoặc phần của) biểu diễn T, cấp độ chi tiết trừu tượng định Dưới số ví dụ minh họa để giải thích khái niệm kế thừa văn Văn STT Bountiful tới saiu chiến tranh kết thúc, cập vịnh San Francisco vào ngày 21 tháng năm 1945.Bountiful sau định làm tài bệnh viện Yokosuka, khởi hành từ San Francisco vào ngày tháng 11 năm 1945 Tập đoàn Boeing đặt Chicago hủy bỏ ba đơn hang vào năm 2006 mà Air Canada đặt Dưới tiêu đề “Greed instead of quanlity”, Die Tageszeitung Đưucs nói chẳng có điều tốt đẹp việc thâu tóm xuất Berliner Verlag hai quỹ đầu tư Anh Mỹ Scott Island thuyền trưởng William Colbeck người huy Morning, tài cứu viện cho viễn chinh thuyền trưởng Robert F.Scott, tìm vào tháng 12 năm 1902 Chiếc xe vào hòm thư thuộc James Clark, 68 tuổi, người quen gia đình James Jones Giả thuyết Kế thừa Bountiful tới San Francisco vào tháng năm 1945 YES Trụ sở tập đoàn Boeing năm Canada NO Hai quỹ đầu tư Anh Mỹ thâu tóm Berliner Verlag YES Thuyền trưởng Scott đặt chân tới đảo Scott Island vào tháng 12 năm 1902 NO Clark người họ hang Jones NO Bảng 1.1: Ví dụ kế thừa văn 1.2.3 Phát biểu toàn phát kế thừa văn Bài toán phát kế thừa văn toán xác định quan hệ kế thừa văn T giả thuyết H Việc phân loại mối quan hệ kế thừa văn giả thuyết theo cách dựa số nhãn kế thừa mà hệ thống gán cho cặp văn giả thuyết Phân loại kế thừa lớp bao gồm nhãn :  Kế thừa: Khi T kế thừa H  Mâu thuẫn: Khi T không kế thừa H  Khơng xác định: Khi khơng có đủ điều kiện để xác định xem T kế thừa H hay không Phân loại kế thừa lớp: Trong phân loại lớp, mối quan hệ mâu thuẫn không xác định phân vào lớp “Không kế thừa” lớp sử dụng là:  Kế thừa: Khi T kế thừa H  Không kế thừa: Khi nội dung T mẫu thuẫn với nội dung H không xác định quan hệ T H Dựa tiếp cận quan hệ kế thừa trên, toán phát biểu sau: Đầu vào: Tập cặp câu văn T giả thuyết H thuộc chủ đề Đầu ra: Gán nhãn kế thừa YES/NO với cặp 1.3 Phát kế thừa văn liệu Twitter 1.3.1 Khái niệm Sự bùng nổ thông tin viết ngôn ngữ khác web giúp cho người sử dụng có hội tiếp cận truyền tải thơng tin chủ đề ngôn ngữ họ Với phát triển nhanh chóng mạnh mẽ mạng xã hội đại ngày như: facebook, google +, twitter, v.v Việc ứng dụng phát kế thừa văn hệ hỏi đáp (QA), trích xuất thơng tin (IE), tóm tắt văn (Summarization), đánh giá dịch máy MT) cần mơ hình cho tượng biến đổi để phát xem ý nghĩa cụ thể có suy luận từ biến thể văn khác Đã có nhiều cơng trình nghiên cứu liên quan đến toán phát kế thừa văn theo phương pháp khác từ nhiều nguồn liệu mà Twitter nguồn liệu phổ biến Hình 1.1: Số lượng người sử dụng số mạng xã hội lớn Bài toán kế thừa văn liệu mạng xã hội Twitter toán nhằm phát kế thừa thực thể mạng xã hội Twitter Tuy nhiên, việc kế thừa văn với liệu Twitter gặp nhiều khó khăn thách thức Khác với văn truyền thống, tweet ngắn (tối đa 140 ký tự) 1.3.2 Phát biểu toàn phát kế thừa văn liệu Twitter Phát kế thừa văn toán phát mối quan hệ kế thừa văn T giả thuyết H.[2] Bài toán phát biểu sau:  Đầu vào: Tập cặp văn – giả thuyết thuộc chủ đề  Đầu ra: Tập cặp văn – giả thuyết gán nhãn kế thừa “Entailment” / “Contradiction”/“Unknown” - “Entailment”: tương ứng với trường hợp văn T kế thừa giả thuyết H - “Contradiction”: tương ứng với trường hợp văn T mâu thuẫn kế thừa giả thuyết H - “Unknown”: tương ứng với trường hợp văn T không liên quan tới giả thuyết H Văn STT Giả thuyết 12 người chết tay súng 11 người chết cơng Paris HQ tạp chí Charlie Hebdo vụ cơng URL Tạp chí Paris URL Kế thừa Contradiction CharlieHebdo URL Tạp chí Charlie 12 người chết tay súng Hebdo URL đưa cơng Paris HQ tạp chí Charlie Hebdo số 12 người URL chết vụ bổ Entailment súng Vụ nổ đánh bom 12 người chết tay súng cơng Paris HQ tạp chí Charlie Hebdo URL Paris làm nhiều người chết bị thương khủng bố IS Bảng 1.2: Ví dụ kế thừa với ba nhãn Unknown Văn T (Đoạn văn thứ nhất) Văn H (Đoạn văn thứ hai) Liên quan, mâu thuẫn, không liên quan Hình 1.2 Sơ đồ giả thiết tốn 1.4 Các nghiên cứu liên quan Kế thừa văn giúp việc hiểu ngơn ngữ tự nhiên tốt Ngồi ra, phát kế thừa văn ứng dụng rộng rãi nhiều lĩnh vực xử lý ngơn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thơng tin, tự động tóm tắt văn bản, đánh giá dịch máy, so sánh tài liệu (Comparable Documents), đọc hiểu (Reading omprehension), đồng hóa nội dung tự động (Automatic Content Synchronization) 1.5 Kết luận chương Trong chương một, luận văn trình bày số nội dung liên quan đến kế thừa văn khái niệm phát kế thừa văn bản, khái niệm phát kế thừa văn liệu Twitter phát biểu tốn, cuối luận văn trình bày ứng dụng phát kế thừa văn lĩnh vực xử lý ngôn ngữ tự nhiên Chương trình bày chi tiết hướng tiếp cận cho toán kế thừa văn liệu Twitter CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG THUẬT TOÁN PHÂN LỚP Chương vào trình bày phân tích tốn, phương pháp phân lớp phát kế thừa văn dựa học máy nói chung áp dụng vào phát kế thừa văn liệu Twitter nói riêng Chương nói phương pháp trích chọn đặc trưng sử dụng luận văn Cuối cùng, chương trình bày thuật tốn học máy SVM cách áp dụng vào toán phân lớp 2.1 Giải pháp phát kế thừa văn liệu Twitter Qua trình nghiên cứu, tập hợp liệu Twitter [15] 500 viết 70 tuyên bố bao gồm 21836 paris, phân phối bốn kiện gần báo cáo báo chí.Những cặp đơi dán nhãn tay quan hệ liên quan( Entailment), quan hệ mâu thuẫn (Contradiction), quan hệ không liên quan( Unknow) Với cặp văn – giả thuyết (T, H), tác giả coi câu túi từ tính tốn trọng số tương tự câu Hệ thống đưa phán kế thừa cách so sánh trọng số tương tự với ngưỡng kế thừa cho trước Đầu tiên, câu văn giả thuyết tiến hành tiền xử lý: tách câu, tách từ Sau đó, tác giả sử dụng chuỗi từ làm đầu vào cho thuật toán Độ xác thuật tốn phần lớn phụ thuộc vào việc xác định tham số như: độ đo tương tự Để giải tốn trên, q trình phát kế thừa văn liệu Twitter gồm giai đoạn:  Giai đoạn huấn luyện  Giai đoạn phân lớp a) Giai đoạn huấn luyện Giai đoạn nhận dầu vào tập liệu huấn luyện gồm nội dung dạng văn gán nhãn, sau xử lý liệu áp dụng thuật toán huấn luyện cho đầu mơ hình Các bước thực giai đoạn huấn luyện biểu diễn hình 2.1 dưới: 10  Trích chọn đặc trưng: Trích xuất đặc trưng từ cặp văn sau liệu xử lý liệu văn (T) giả thuyết (H)  Chuyển đổi thành vector đặc trưng: Mã hóa cặp văn bao gồm: văn (T) giả thuyết (H) mơ hình trọng số  Thuật toán huấn luyện: Thủ tục huấn luyện để tìm phương pháp tối ưu, sử dụng thuật toán khác nhau, phạm vi luận văn chúng tơi sử dụng 04 thuật tốn học máy gồm: Máy vector hỗ trợ (SVM), K-Nearest neighbors( IBK ), Decision tree ( J48, Randoom forest) b) Giai đoạn phân lớp Nhận đầu vào cặp văn dạng ngơn ngữ tự nhiên, sau q trình xử lý áp dụng mơ hình cho nhãn phân loại văn đầu vào, cụ thể biểu diễn dạng sơ đồ sau: Văn T (Đoạn văn thứ nhất) Giả thuyết H (Đoạn văn thứ hai) Tiền xử lý liệu Trích chọn đặc trưng Mơ hình Nhãn kế thừa Hình 2.2: Mơ hình giai đoạn phân lớp Tương tự bước huấn giai đoạn huấn luyện, giai đoạn phân lớp có nhiệm vụ cụ thể sau: 11  Tiền xử lý liệu: Chuyển đổi cặp văn văn (T) giả thuyết (H) tập liệu thành hình thức phù hợp như: lọc nhiễu, loại bỏ từ không mang ý nghĩa  Trích chọn đặc trưng: Trích xuất đặc trưng lấy độ đo cặp văn là: văn (T) giả thuyết (H) đặc trưng 08 độ đo: JaroWinkler distance, Levenshtein distance, Manhattan distance, Euclidean distance, Cosine similarity, N-gram distance (n=3), Matching coefficient, Dice coefficient, Jaccard coefficient  Mơ hình phân lớp: Sử dụng thuật toán khác : máy vector hỗ trợ (SVM), Nearest neighbors( IBK ), Decision tree(J48, Radom forest) để tiến hành phân lớp nhãn kế thừa Dựa vào sơ đồ 2.1 2.2 ta dễ dàng nhận thấy: Mơ hình kiến trúc hệ thống tổng quát cho toán phát kế thừa văn liệu Twitter gồm ba bước Sau chúng tơi giới thiệu chi tiết thành phần quan trọng toàn phát kế thừa văn nói riêng phát kế thừa văn liệu Twitter nói chung cho tập liệu thu thập mạng xã hội Twitter 2.2 Tiền xử lý liệu Quá trình xử lý liệu thơ/gốc nhằm cải thiện chất lượng liệu đó, cải thiện chất lượng kết phân loại Khơng có liệu tốt khơng thể có kết khai phá tốt Phần lớn công việc xây dựng kho liệu trích chọn, làm chuyển đổi liệu 2.3 Trích xuất đặc trưng vector hóa liệu Để xác định hai văn có kế thừa hay không, sử dụng 08 độ đo tương đồng câu Dưới 08 độ đo đánh giá tương đồng 12  Jaro-Winkler distance  Levenshtein distance  Euclidean distance  Cosine similarity  N-gram distance  Matching coefficient  Dice coefficient  Jaccard coefficient 3.1 Các phương pháp học máy Trong toán phát kế thừa văn liệu Twitter, thuật tốn học máy đóng vai trị quan trọng phương pháp để giải tốn Do vậy, nhiệm vụ tìm thuật tốn học máy hiệu có tính xác cao Vì vậy, luận văn thực với phương pháp học máy SVM (Support Vector Machine) Ngồi ra, chúng tơi cịn sử dụng số phương pháp học máy khác như: IBK, J48, Random forest để có so sánh phương pháp học máy  Thuật toán Support vector machine(SVM)  Thuật toán IBK  Các phương pháp định (J48, Random forest) 4.1 Kết luận chương Chương giới thiệu hướng tiếp cận, cơng trình nghiên cứu, kỹ thuật liên quan để phục vụ giải toán Chương sâu áp dụng phương pháp học máy phân lớp phương pháp biểu diễu đặc trưng với 08 độ đo toán phát kế thừa văn liệu Twitter Chương trình bày hệ thống phát kế thừa văn liệu Twitter, mơ hình giải toán, tập liệu sử dụng, cách thức tiến hành thực nghiệm, kết thực nghiệm 13 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ Dựa vào thuật toán áp dụng cho toán phân loại văn tìm hiểu phương pháp giải tốn, chương này, luận văn trình bày chi tiết trình thực nghiệm gồm có q trình thu thập, thiết lập thực nghiệm, phương pháp làm thực nghiệm, kết đánh giá sau thực nghiệm 3.1 Dữ liệu thực nghiệm 3.1.1 Mô tả liệu thực nghiệm Bộ liệu tiến hành thực nghiệm liệu Twitter với liệu “pheme_rte_datasets_2016” [15] bao gồm 500 viết tiếng anh Tweet liên quan đến 70 tun bố biên soạn tính tốn thành 5.4k RTE pair thu thập từ tảng truyền thơng mạng xã hội Twitter Nó bao gồm lượng lớn tweets báo cáo số kiện giới, có bốn kiện: Charlie hebdo shooting2(chebdo), Ottawa shooting3(ottawa), Sydney siege4(ssiege) Germanwings crash5(gwings) Tweets thu thập cách lọc từ khóa liên quan đến kiện hashtags Twitter API truyền trực tuyến Trên tập liệu Twitter có chứa cặp văn có gán nhãn: Entailment, Contradiction, Unknown 3.1.2 Tiền xử lý liệu Dữ liệu thực nghiệm sử dụng 21836 cặp câu văn bản-giả thuyết trích lọc từ liệu “pheme_rte_datasets_2016” [15] Cả liệu huấn luyện kiểm tra gán nhãn kế thừa đánh số cặp câu Các cặp câu văn –giả thuyết có bao nhiều chủ đề, lĩnh vực nên đa dạng phong phú nội dung Dữ liệu dùng thực nghiệm liệu chuẩn nên việc đánh giá kết chương trình xác khách quan Dữ liệu gán nhãn dạng file XML 14 Hình 3.1: Dữ liệu thực nghiệm lấy file XML liệu Twitter Việc tiền xử lý liệu việc quan trọng thiếu trình thực nghiệm Các tuyên bố tập liệu Twitter cặp văn định dạng XML có gán nhãn Vì vậy, để tiền xử lý liệu, chúng tơi lập trình cơng cụ bóc tách xử lý liệu để tách văn bản(T) giả thuyết (H) nhãn có sẵn cặp liệu Đầu tiên, thực tách file XML 3.1.2 Trích chọn đặc trưng Trong phương pháp học máy, số lượng đặc trưng (features) nhiều độ xác cao ngược lại, lượng đặc trưng nhiều khiến trình huấn luyện , q trình phân lớp thời gian Ngồi ra, cịn khiến chương trình chiếm nhiều dung lương nhớ đĩa cứng nhiều Các đặc trưng sử dụng 08 phương pháp lấy độ đo cặp văn  N-gram distance  Jaro-Winkler distance  Levenshtein distance  Euclidean distance  Cosin similarity  Matching coefficient  Dice coefficient  Jaccard coefficient 15 Sau biến đổi thành cặp văn (T) giả thuyết (H) ta tiến hành thực biến đổi cặp văn áp dụng 08 độ đo lấy đặc trưng hai văn Hình 3.2: Trích chọn đặc trưng theo 08 phương pháp 3.2 Thiết lập thực nghiệm 3.2.1 Yêu cầu cho thực nghiệm  Môi trường cài đặt cài đặt cần thiết JRE (Java Runtime Enviroment) phiên 1.6 trở lên  Phần mềm sử dụng: Weka phiên 3.8  Chương trình bóc tách liệu XML thành cặp văn bản(T) giả thuyết(H) có gán nhãn theo nhãn: Entailment, Contradiction, Unknown  Dữ liệu chuẩn bị: file định dạng đuôi arff tính tốn dựa vào phương pháp đặc trựng: N-gram distance, Jaro-Winkler, Levenshtein distance, Cosine similarity, Match coeficient, Dice conefficient, Jaccard coefficient 3.2.2 Cách thức thực nghiệm 3.2.2.1 Thiết lập thực nghiệm Từ tập liệu thu thập bao gồm kiện thu thập liệu Twitter, luận văn chọn liệu “test_training_splits” [15] bốn kiện tập liệu bao gồm 21836 bao gồm: văn bản(T) giả thuyết(H) thống kê số lượng 16 STT Nhãn tiếng Anh Nhãn tiếng Việt Số lượng(Cặp) Entailment Liên quan 7980 36% Contradiction Mâu thuẫn 5672 26% Unknown Không liên quan 8184 38% 21836 100% Tổng Tỉ lệ (%) Bảng 3.1: Bộ liệu thực nghiệm  Tập tồn dịng “tweets” chia thành k tập không giao (gọi “fold”) có kích thước xấp xỉ  Mỗi lần (trọng số k lần) lặp, tập sử dụng làm tập kiểm thử, (k-1) tập lại dùng làm tập huấn luyện  Với k giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị lỗi tổng thể „  Các lựa chọn thông thường k: 10, luận văn chọn k=10  Thông thường, tập (fold) lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước áp dụng trình đánh giá.„ 3.2.3 Phương pháp đánh giá tập liệu Đánh giá độ xác phân lớp quan trọng, cho phép dự đốn độ xác kết phân lớp liệu tương lai Độ xác cịn giúp so sánh mơ hình phân lớp khác Một số phương pháp đánh giá phổ biến Holdout, K-fold cross validation Leave-one-out cross validation sử dụng kết hợp độ xác Precision, độ bao phủ Recall độ điều hòa F a Phương pháp K-fold Cross Validation Do tập liệu sử dụng bao gồm 21836 cặp câu, sử dụng phương pháp Kfold cross validation cho việc đánh giá tập liệu để tránh việc trùng lặp tập kiểm thử (một số ví dụ xuất tập kiểm thử khác nhau) 17 Hình 3.3: Minh họa K-fold cross validation K-fold cross validation có đặc điểm sau: - Tập tồn ví dụ D chia ngẫu nhiên thành k tập khơng giao (gọi “fold”) có kích thước xấp xỉ - Mỗi lần (trong số k lần) lặp, tập sử dụng làm tập kiểm thử, (k-1) tập lại dùng làm tập huấn luyện - k giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị lỗi tổng thể Độ xác dự báo giá trị trung bình k lần dự đoán tương ứng với k lần lặp Các lựa chọn thông thường k= 10 Ở luận văn, thử k với nhiều trường hợp khác cuối sử dụng 10-fold để đánh giá độ xác phân lớp tốn b Độ xác Precision, độ bao phủ Recall độ điều hịa F Để đánh giá xác chất lượng mơ hình ta sử dụng thêm độ đo Precision Recall Precision cho biết phân loại đốn xác phần trăm với nhãn phân loại (ví dụ phân loại kết luận phản hồi tích cực khả phản hồi thật tích cực chiếm phần trăm) Recall ngược lại, cho biết câu phản hồi tích cực, khả phân loại đoán phần trăm Thực tế hai độ đo khơng phải lúc tăng giảm tương ứng với nhau, có trường hợp Recall cao cịn Precision thấp ngược lại, đánh giá tổng quát ta dùng độ đo F-measure trung bình điều hịa độ đo với hệ số 0.5 (tầm quan trọng hệ số ngang nhau): Precision hay gọi Độ xác lớp : 18 Recall hay gọi Độ bao phủ lớp : Trung bình điều hịa F: Trong đó: : Số lượng ví dụ thuộc lớp phân loại xác vào lớp : Số lượng ví dụ khơng thuộc lớp bị phân loại nhầm xác vào lớp : Số lượng ví dụ khơng thuộc lớp phân loại xác : Số lượng ví dụ thuộc lớp bị phân loại nhầm Được phân lớp hệ thống Lớp Thuộc Phân lớp thực (đúng) Không thuộc Thuộc Không thuộc Bảng 3.2: Bảng ma trận nhầm lẫn 3.2.3 Chọn công cụ thực nghiệm Công cụ WEKA Chúng sử dụng thêm tool Weka với số phương pháp phân lớp khác như: Support vector machine( SVM ), IBK, Decision tree (J48, Random forest ) để so sánh với thực nghiệm tiến hành với phương pháp SVM Công cụ Weka [25] công cụ phần mềm viết Java phục vụ lĩnh vực học máy khai phá liệu Weka cung cấp: Một tập công cụ tiền xử lý liệu, giải thuật học máy, khai phá liệu, phương pháp thí nghiệm đánh giá; giao diện đồ họa 19 dễ dàng thực hiện; môi trường cho phép so sánh giải thuật học máy khai phá liệu Hình 3.4: Giao diện weka ver 3.8.3 3.3 Tiến hành thực nghiệm đánh giá kết thực nghiệm 3.3.1 Kết thực nghiệm với thuật toán cho ba nhãn Trong luận văn này, tiến hành tìm hiểu 04 thuật tốn phân lớp: Support vector machine (SVM), IBK, Decision tree (J48, Random forest ) Để kiểm tra xem thuật toán cho kết dự đốn tốt nhất, chúng tơi sử dụng liệu biến đổi áp dụng với 08 độ đo: Jaro-Winkler distance, Levenshtein distance, Manhattan distance, Euclidean distance, Cosine similarity, N-gram distance (n=3), Matching coefficient, Dice coefficient, Jaccard coefficient Sau tiến hành thực nghiệm thuật toán định thuật toán J48 với độ đo để đưa độ xác thuật toán phần mềm đánh giá Weka lập biểu đồ đánh giá kết phân loại 03 nhãn để có nhìn tổng qt phương pháp Cụ thể kết sau: Thuật toán Tree J48 Độ đo N-gram Cosin similarity Levenshtein Jaccard coefficient Dice coefficient Euclidean Jaro_Winkler Matching coefficient Acc(% ) 51.87 61.09 42.70 61.23 61.23 55.93 50.11 56.40 Precision(%) 52.90 62.50 41.90 60.00 60.00 52.10 56.10 54.20 Recall(%) 51.90 61.10 42.70 61.20 61.20 55.90 50.10 56.40 Bảng 3.3: Kết thực nghiệm độ đo chạy thuật toán tree J48 F(%) 48.60 56.80 37.40 58.50 58.50 49.10 46.00 48.90 20 Chúng tiến hành thực nghiệm thuật toán hỗ trợ vector với phương pháp tree J48 mức độ xác độ đo cúng tập hợp biểu đồ đây, cụ thể: Bảng 3.4: Kết thực nghiệm độ đo thuật toán chạy tree J48 Kết thực nghiệm cho thấy dự đoán với tập liệu từ cho kết cao với độ đo Jaccard conefficient 61.23 %, thấp dự đoán tập liệu với độ đo Levenshtein 42.70% 3.3.2 Thực nghiệm với kết hợp đặc trưng Đề đánh giá cach xác hơn, chúng tơi tiền hành thực nghiệm với kết hợp đặc trưng Với đặc trưng, có kết thực nghiệm phần trước, chúng tơi tiến hành kết hợp đặc trưng có độ xác xác (Accurracy %) từ cao xuống thấp Dưới bảng kết thực nghiệm với kết hợp đặc trưng  Xét đặc trưng Jaccard conefficient (1)  Xét đặc trưng Dice conefficient (2)  Xét đặc trưng Cosin similarity (3)  Xét đặc trưng Matching coefficient (4)  Xét đặc trưng Euclidean (5)  Xét đặc trưng N-Gram (6)  Xét đặc trưng Jaro-Winkler (7)  Xét đặc trưng Levenshtein (8) 21 Accurracy (%) (1) 61.23 (1)+(2) 62.02 (1)+(2)+(3) 70.53 (1)+(2)+(3)+(4) 75.41 (1)+(2)+(3)+(4)+(5) 75.83 (1)+(2)+(3)+(4)+(5)+(6) 77.42 (1)+(2)+(3)+(4)+(5)+(6)+(7) 79.05 (1)+(2)+(3)+(4)+(5)+(6)+(7)+(8) 79.88 Bảng 3.5: Bảng kết thực nghiệm với kết hợp đặc trưng Từ bảng kết quả, chúng tơi thấy kết dự đốn với kết hợp đặc trưng khả quan Đặc biệt với kết hợp đặc trưng (1)+(2)+(3)+(4)+(5)+(6)+(7)+(8) cho kết cao 79.88%, thấp kết hợp (1) đặc trưng với kết 61.23% 3.3.3 Thực nghiệm so sánh thuật toán J48 với phương pháp học máy khác Trong phần trước tiến hành thực nghiệm kết hợp đặc trưng với độ xác giảm dần, cịn phần thực so sánh phương pháp J48 với số phương pháp học máy khác : SVM, Random forest, IBK với k=5, k=10 Do phần kết hợp 08 đặc trưng (1)+(2)+(3)+(4)+(5)+(6)+(7)+(8) có độ xác cao nên phần này, tiến hành với 08 đặc trưng Dưới bảng kết thực nghiệm sử dụng phần mềm Weka với số phương pháp phân lớp: SVM, IBK, Random forest Accurracy (%) Sử dụng Weka với thuật toán J48 79.88 Sử dụng Weka với thuật toán SVM 64.39 Sử dụng Weka với thuật toán IBK với k=5 61.78 Sử dụng Weka với thuật toán IBK với k=10 67.77 Sử dụng Weka với thuật toán Random forest 76.52 Bảng 3.6: Bảng kết thực nghiệm sử dụng công cụ weka với thuật toán 22 Bảng 3.7: Bảng biểu đồ so sánh phương pháp Từ bảng kết quả, chúng tối thấy phương pháp J48 có dự đốn xác cao 79.88%, phương pháp IBK với k=5 có dự đốn xác thấp 61.78% với độ đo chênh lệch 18.10% Điều chứng tỏ, độ chệnh lệch phương pháp không cao 3.4 Kết luận chương Nội dung chương trình trình thực phát kế thừa liệu Twitter Trên sở kết thực nghiệm chương luận văn đưa phân tích đánh giá phương pháp thực Các kết cho thấy việc sử dụng đặc trưng mang lại hiệu độ xác khơng cao Khi tăng dần việc kết hợp đặc trưng, độ xác phân lớp cải thiện Điều chứng tỏ tầm quan trọng việc trích chọn đặc trưng sử dụng kết hợp đặc trưng toán phân lớp 23 KẾT LUẬN Khai phá liệu nói chung đặc biệt phát kế thừa văn nói riêng ngày đóng vai trị quan trọng hoạt động tóm tắt văn bản, văn hệ hỏi đáp, trích xuất thơng tin Trong luận văn này, tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phát kế thừa văn bản, cụ thể cải thiện độ xác cho tốn phát kế thừa văn mạng xã hội Twitter qua dòng tweets họ Bài toán xác định tốn có độ phức tạp cao có nhiều ứng dụng thực tế Phương pháp giải luận văn tập trung vào việc nâng cao độ xác việc phân loại kế thừa văn thơng qua dịng tweets Bằng việc sử dụng mơ hình phân lớp quen thuộc là: Support Vector Machine (SVM), IBK Decision Tree ( J48, Random forest ) với tập liệu thu từ Twitter, luận văn đưa số phương pháp để giải cho tốn đề Q trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hoàn thiện Nghiên cứu xử lý ngôn ngữ tự nhiên nói chung, tốn khai phá quan điểm nói riêng với công nghệ mới, thời gian nghiên cứu ngắn nên nhiều vấn đề chưa thực nắm bắt tốt Tuy nhiên qua trình nghiên cứu luận văn, chúng tơi thu số kết nhận thấy số hạn chế sau: Nhìn chung, luận văn đạt số kết như:  Trình bày cách khái quát, tổng quan nêu lên ý nghĩa, vai trị quan trọng tốn xác định phát kế thừa văn mạng xã hội Twitter  Nghiên cứu 08 loại đặc trưng khác cho toán phát kế thừa văn  Nghiên cứu làm thực nghiệm với 04 thuật toán học máy khác  So sánh phân tích kết thực nghiệm, đưa kết tốt Luận văn số hạn chế như:  Nghiên cứu dựa số lượng liệu cịn chưa đầy đủ  Kết thực nghiệm đạt chưa thực cao  Chỉ thử nghiệm tập liệu tiếng anh  Chưa xét tới mặt cú pháp câu thông qua cú pháp nhận dạng thực thể câu để đưa kết xác trường hợp mà có nhập nhằng tên thực thể 24  Đối với cặp văn giải thuyết có độ nhập nhằng ngữ nghĩa độ xác kết khơng cao Hướng phát triển Trong thời gian tới, tiếp tục nghiên cứu phương pháp khác để nâng cao chất lượng kết việc phát kế thừa văn Cùng với đó, xây dựng ứng dụng thực tế với toán phát kế thừa khác nhiều nguồn liệu khác Ngoài ra, cần nâng cao tốc độ xử lý, hoàn thiện hệ thống ... giới thiệu khái niệm kế thừa văn bản, phát biểu toán phát kế thừa văn bản, sau đó, luận văn giới thiệu tốn phát kế thừa văn liệu Twitter Chương 2: Phương pháp phát kế thừa văn sử dụng thuật tốn... luận văn trình bày số nội dung liên quan đến kế thừa văn khái niệm phát kế thừa văn bản, khái niệm phát kế thừa văn liệu Twitter phát biểu tốn, cuối luận văn trình bày ứng dụng phát kế thừa văn. .. Jones NO Bảng 1.1: Ví dụ kế thừa văn 1.2.3 Phát biểu toàn phát kế thừa văn Bài toán phát kế thừa văn toán xác định quan hệ kế thừa văn T giả thuyết H Việc phân loại mối quan hệ kế thừa văn giả

Định dạng
Số trang	26
Dung lượng	735,47 KB