Báo cáo đề tài nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram – ứng dụng nâng cao hiệu quả phân loại văn bản tiếng việt tự động

34 5 0
Báo cáo đề tài nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram – ứng dụng nâng cao hiệu quả phân loại văn bản tiếng việt tự động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị d[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ2015-02-132 Chủ nhiệm đề tài: TS Phạm Minh Tuấn Đà Nẵng, 09/2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TÓM TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động Mã số: Đ2015-02-132 Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) Chủ nhiệm đề tài (ký, họ tên) TS Phạm Minh Tuấn Đà Nẵng, 09/2016 MỞ ĐẦU Tính cấp thiết đề tài Ngày nay, việc trao đổi thông tin hầu hết dạng văn : thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học … Cùng với việc phát triển tri thức toàn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, q trình lan truyền cập nhật thơng tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trính trị, giáo dục, thể thao,…) khác Việc tìm kiếm thơng tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiều thời gian chi phí làm cách thủ cơng Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định, mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động cách hiệu Các phương pháp phân loại thông thường sử dụng mơ hình khơng gian vector (Vector space model - VSM) nhằm trích chọn đặc tính cho văn huấn luyện văn cần phân loại Đặc trưng phương pháp tìm mối tương quan văn hay văn câu truy vấn dựa vector thuộc tính Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự khơng giống Dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngồi ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao loại Dẫn tới việc học phân loại văn khơng hiệu Vì cần phải có phương pháp phân loại văn hiệu quả, đủ thông minh để tránh trường hợp đa dạng cách biểu diễn Trong đề tài này, “Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram - Ứng dụng nâng cao hiệu phân loại văn tiếng Việt tự động” Mục tiêu nhiệm vụ đề tài Mục tiêu: Để tránh tường hợp đa dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, nhóm nghiên cứu đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang, đoạn hay câu Wikipedia tiếng Việt (số trang, số đoạn hay số câu Wikipedia có chứa đồng thời từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Mục tiêu nghiên cứu đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị dendrogram việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu + Các thuật tốn phân tích nhóm + Các thuật tốn phân loại sử dụng học máy Phạm vi nghiên cứu + Phân cụm từ Tiếng Việt liên quan gần nghĩa + Phân loại văn Tiếng Việt Cách tiếp cận, phương pháp nghiên cứu Cách tiếp cận + Tìm hiểu phương pháp chuyển đổi cự ly thành ma trận nhân máy véc tơ hỗ trợ + Tìm hiểu loại máy học liên quan đến việc phân loại + Thu thập liệu bao gồm tất trang Wikipedia tiếng Việt cập nhật + Thu thập văn Tiếng Việt báo điện tử Phương pháp nghiên cứu + Nghiên cứu tổng quan  Học máy  Phương pháp phân cụm Dendrogram  Phương pháp phân loại  Phương pháp phân loại văn + Thu thập sở liệu (CSDL) khoảng gần triệu trang Wikipedia tiếng Việt để phục vụ cho viện phân tích nhóm; gom cụm từ liên quan gần nghĩa + Xây dựng ma trận tần số xuất cặp từ:  Trên trang  Trên đoạn  Trên câu + Xây dựng chương trình huấn luyện phân loại văn tiếng Việt theo chủ đề + Triển khai xây dựng hệ thống thử nghiệm, đánh giá phân tích Ý nghĩa khoa học thực tiễn + Thống kê so sánh ưu nhược điểm phương pháp phân loại học máy phổ biến + Hiểu mơ hình trắc địa áp dụng máy vector hỗ trợ Cấu trúc đề tài Báo cáo gồm có chương: + Chương 1: Trình bày vấn đề liên quan đến nghiên cứu tổng quan sở lý thuyết gồm: - Bối cảnh đề tài Các phương pháp học máy - Phương pháp phân cụm Dendrogram - Các phương pháp phân loại + Chương 2: Trình bày phương pháp đề xuất phân tích thiết kế hệ thống bao gồm: - Mơ tả tốn - Cấu trúc hệ thống - Các chức - Phân tích thiết kế chương trình - Tổ chức liệu chương trình + Chương 3: Triển khai đánh giá kết - Phân cụm - Áp dụng phân cụm từ vào phân loại văn + Kết luận hướng phát triển CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Bối cảnh đề tài Ngày nay, việc trao đổi thông tin hầu hết dạng văn : thời sự, tư liệu, tài liệu, kết nghiên cứu khoa học … Cùng với việc phát triển tri thức tồn cầu hóa internet, số lượng văn ngày gia tăng lan truyền rộng rãi cách nhanh chóng Tuy nhiên, q trình lan truyền cập nhật thơng tin cách nhanh chóng này, thông tin lưu trữ (dưới dạng tài liệu số) ngày tăng khó khăn việc xếp hay truy vấn tài liệu không phân loại cách hợp lý Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn phân loại tài liệu vào nhóm chủ đề cho trước Đây toán thường gặp thực tế phân loại tài liệu theo chủ đề (pháp luật, trị, giáo dục, thể thao, …) khác Việc tìm kiếm thơng tin dễ dàng nhanh chóng văn phân loại Tuy nhiên trình phân loại tiêu tốn thiếu thời gian chi phí làm cách thủ cơng Vì vậy, thực việc phân loại tự động văn số vấn đề cấp thiết Để giải vấn đề trên, có nhiều phương pháp học máy định[1], mạng nơron nhân tạo hay máy vector hỗ trợ áp dụng vào toán phân loại văn tự động[1][2][3][4][5] cách hiệu Vì chúng tơi tiến hành tìm hiểu phương pháp học máy để phân loại văn bản, từ xây dựng chương trình phân loại văn tiếng Việt Các phương pháp phân loại định, mạng nơron nhân tạo hay máy vector hỗ trợ thông thường sử dụng mô hình khơng gian vector (Vector space model)[2][6][7][8] nhằm trích chọn đặt tính cho văn huấn luyện văn cần phân loại Đặc trưn phương pháp tìm mối tương quan văn hay văn câu truy vấn dựa vector thuộc tính Ví dụ, thuộc tính vector tính tần số xuất từ văn Phương pháp sử dụng hàm Cosine hay TF-IDF (term frequency – inverse document frequency)[1] số phương pháp mơ hình khơng gian vector thơng dụng kể đến Từ kết phương pháp mơ hình khơng gian vector này, mơ hình xác suất xây dựng thơng qua học máy (Machine Learning) nhằm mục đích phân loại văn cách tự động Thơng qua việc tìm hiểu phương pháp học máy phân loại văn bản, trọng vào vấn đề trích chọn đặc tính phân loại văn tiếng Việt[2][3][9] Vấn đề đặt tiếng Việt có nhiều từ đồng nghĩa cách viết ký tự lại khác văn số Ví dụ như, nghĩa từ “khủng khiếp”, “kinh khủng” “kinh hoàng” tương đồng so sánh mặt ký tự không giống Dẫn tới văn nghĩa khác cách viết có hệ số hàm tương quan thấp Ngồi ra, tiếng Việt có nhiều nhóm từ thường xuất kèm văn Ví dụ từ “nhồi máu” thường với từ “cơ tim” văn Đối với văn có nhóm từ dễ có hệ số tương quan cao khơng thể loại Dẫn tới việc học phân loại văn không hiệu Để tránh tường hợp da dạng cách biểu diễn từ đồng nghĩa hay tồn nhóm từ thường kèm văn bản, đề xuất phương pháp phân cụm từ tiếng Việt dựa vào tần số xuất cặp từ trang Wikipedia[10] tiếng Việt (số trang Wikipedia có chứa đồng thời hai từ) Các từ nằm cụm coi thuộc tính văn Nhờ có rút gọn vector thuộc tính văn so với cách thức sử dụng từ cho thuộc tính Luận văn đồng thời đề xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị Dendrogram[11][12] việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt, từ tiến hành phân tích đánh giá kết thực nghiệm 1.2 CÁC PHƯƠNG PHÁP HỌC MÁY Học máy (Machine learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính “học” Học máy xem phương pháp tạo chương trình máy tính sử dụng kinh nghiệm, quan sát liệu khứ để cải thiện công việc tương lai Các phương pháp học máy trình bày cụ thể sau 1.2.1 Học khơng giám sát Học khơng có giám sát (Unsupervised learning) phương pháp ngành học máy sử dụng cho tốn phân cụm, gom cụm (Clustering) Trong học khơng giám sát, tập liệu huấn luyện gồm mẫu khơng có nhãn giá trị hàm đích kèm Có 18 CHƯƠNG TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 TRIỂN KHAI THỰC NGHIỆM 3.1.1 Xử lý liệu Wikipedia Vì liệu Wikipedia lưu trữ file xml lớn (91.8 Gbytes), nên để đọc file đề xuất sử dụng lớp XmlTextReader C# Ưu điểm lớp XmlTextReader đọc trực tiếp từ Stream nút tiêu tốn nhớ nhỏ nên thích hợp với việc đọc file Wikipedia Vấn đề đặt liệu Wikipedia có nhiều phiên cập nhật chứa Chúng ta khơng biết trước ước chừng độ dài phần nội dung phiên (version) phiên lại lưu trữ không theo thứ tự thời gian việc lưu trữ chương trình hồn tồn khơng thể Do đó, nội dung trang wikipedia lưu trữ file tạm trước lưu trữ vào file rút gọn Sau rút gọn, file rút gọn chứa 1.184.476 trang Wikipedia tiếng Việt File tiếp tục rút gọn cách:  Chuyển tất kí tự thành kí tự thường  Xóa tất dịng trống  Xóa bỏ dãy kí tự nằm liên tiếp  Kết cuối kích thước file rút gọn 3.2GBytes 3.1.2 Xử lý từ điển Từ điển sau lấy lấy phần từ, khơng lấy phần nghĩa nội dung khác, đồng thời từ giống loại bỏ Sau tất từ từ điển chuyển thành kí tự thường Để thuận tiện cho việc tìm kiếm xử lý, từ điển ... TẮT BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram – Ứng dụng nâng cao hiệu phân loại. .. loại văn hiệu quả, đủ thông minh để tránh trường hợp đa dạng cách biểu diễn Trong đề tài này, ? ?Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa đồ thị dendrogram - Ứng dụng. .. xuất sử dụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ thị Dendrogram[ 11][12] việc phân cụm từ Tiếng Việt Sau sử dụng vector thuộc tính rút gọn vào việc phân loại văn tiếng Việt, từ

Ngày đăng: 22/02/2023, 12:56

Tài liệu cùng người dùng

Tài liệu liên quan