1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Xử lý ngôn ngữ tự nhiên: Phân loại tin tự động cho báo điện tử - Lê Thanh Hương

4 80 1

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 348,11 KB

Nội dung

Bài giảng Xử lý ngôn ngữ tự nhiên: Phân loại tin tự động cho báo điện tử trình bày các ứng dụng của Phân loại văn bản, các phương pháp thực hiện, chương trình thực nghiệm, đánh gái kết quả. Mời các bạn cùng tham khảo nội dung chi tiết.

1 Tổng quan Ứng dụng Phân loại văn „ „ PHÂN LOẠI TIN TỰ ĐỘNG CHO BÁO ĐIỆN TỬ „ „ Phân loại tài liệu thư viện Phân loại trình tác nghiệp báo điện tử Phân chia xếp lại luận văn, đồ án trường Đại học Bộ máy tìm kiếm muốn phân chia tài liệu trả thành chun mục Ỉ người đọc dễ nắm bắt nội dung ban đầu kết tìm Tổng quan „ Tổng quan Sơ đồ minh họa trình phân loại Ứng dụng “Phân loại tin tự động cho báo điện tử” nhằm tìm hiểu thử nghiệm phương pháp phân loại văn áp dụng Tiếng Việt Mơ hình hóa VB Document Vector VB cần ầ phân lớp „ Tính độ Kết hợp hai phương pháp chứng minh có hiệu cao để giải hai tốn khác Phân loại Lập nhóm văn Ỉ đề xuất mơ hình cải tiến, phù hợp với toán tương tự Kết luận phân nhóm Pha lập nhóm Vector trọng tâm nhóm Các VB mẫu phân lớp Kết luận phân loại Các phương pháp thực Các phương pháp thực (tiếp) Pha lập nhóm Các VB mẫu phân lớp „ Pha lập nhóm Tại cần sử dụng phương pháp lập nhóm văn dựa thuật ngữ xuất thường xuyên ? „ Vector trọng tâm ỗi nhóm hó „ Pha lập nhóm thực trước, cách “offline” Ỉđể xác định vector trọng tâm cho nhóm thơng tin truy hồi „ „ Kỹ thuật lập nhóm phù hợp với yêu cầu “offline”, thuật toán áp dụng cho phương pháp có độ xác cao thời gian xử lý chậm hậ chi hi phí hí lớn, lớ h khơ cần khơng ầ thiết lắ xử lý offline ffli Thuật ngữ thường xuyên thuật ngư xuất nhiều lần văn tập văn bản, thuật ngữ phải có ý nghĩa, chúng đại diện cho nội dung toàn văn Các thuật ngữ thường xuyên tạo tảng việc khai thác quy tắc kết hợp Làm giảm số chiều vector biểu diễn tài liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt Apriori: Loại bỏ dựa độ hỗ trợ Giảm bớt số lượng tập mục cần xét „ Nguyên tắc giải thuật Apriori – Loại bỏ (prunning) dựa độ hỗ trợ „ „ „ null A Nếu tập mục thường xuyên, tất tập (subsets) tập mục thường xuyên Nếu tập mục khơng thường xun (not frequent), tất tập cha (supersets) tập mục không thường xuyên Tập mục không thường xuyên D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ∀X ,Y : ( X ⊆ Y ) ⇒ s( X ) ≥ s(Y ) Các tập cha tập mục (AB) bị loại bỏ ABCE ABDE ACDE BCDE „ Độ hỗ trợ tập mục nhỏ độ hỗ trợ tập Khai Phá Dữ Liệu C „ Nguyên tắc giải thuật Apriori dựa đặc tính khơng đơn điệu (anti-monotone) độ hỗ trợ „ B ABCDE Khai Phá Dữ Liệu Các phương pháp thực (tiếp) Các phương pháp thực (tiếp) Bước : Giải thuật Apriori – tính tốn tập thuật ngữ thường xuyên „ Giải thuật Apriori Biến Ck: Các tập thuật ngữ ứng cử mức k Biến Lk: Các tập thuật ngữ thường xuyên mức k L1 = {Các thuật ngữ thường xuyên mức 1}; For (k=1; Lk!=Ø; k++) Begin // Lặp lại khơng có thêm tập mục thường xun //Bước kết hợp: Kết hợp Lk với thân để tạo Ck+1 //Bước cắt tỉa: Loại bỏ (k+1)-itemsets từ Ck+1 chứa k-itemsets không thường xuyên Ck+1 = ứng cử viên tạo từ Lk For tài liệu t tập văn Tăng số lượng tất ứng cử viên Ck+1 có chứa t Lk+1 = ứng cử viên Ck+1 có GS > min_support End Return Lk Bước : sử dụng thuât toán FIHC để phân nhóm tập thuật ngữ thường xuyên (Frequent Item-based Hierarchical Clustering) Thuật toán FIHC bao gồm hai giai đoạn : „ Xây dựng Cluster khởi tạo „ Dựng Cluster 10 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm Mơ hình „ „ „ Phần tiền xử lý văn Phần tiền xử lý văn làm cơng việc tách thuật ngữ, phân tích tổ chức liệu, tổ chức từ điển „ Pha lập nhóm văn bản, sử dụng thuật tốn Apriori FIHC Tách thuật ngữ tiếng Việt : Sử dụng thuật toán đối sánh thuật ngữ dài từ bên phải qua Ví dụ : Ban cơng tác xác định vấn đề Khi sử dụng thuật toán từ phải qua, ta tách xác câu Kết sau : vấn đề, được, xác định, đã, công tác, ban Và ta cần đảo ngược lại thứ tự Khi phân loại văn ứng dụng việc đọc thông tin vector trọng tâm, so sánh với văn đầu vào vector hóa Ỉ định phân loại 11 12 CuuDuongThanCong.com https://fb.com/tailieudientucntt 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm Phần tiền xử lý văn „ Phân tích tổ chức liệu: Xây dựng File đầu vào Phân tích tổ chức liệu: (1) Tổ chức từ điển dạng cấu trúc sau: Ví dụ nội dung file ClassID.txt 1 File ClassID.txt file chứa ID tên class, tạo cách duyệt qua tất thư mục thư mục chứa tập văn mẫu 0: Dulich 1: Giaoduc 2: Oto xe may 3: Suckhoe 4: The thao 5: Vitinh 6: Kinhdoanh 13 14 3.Chương trình thực nghiệm „ 3.Chương trình thực nghiệm File ThreeLine.txt chứa thơng số chung q trình lập nhóm, gồm dòng: „ Tổng số nhóm phân từ tập văn mẫu „ Số lớp ( số thư mục ) tập văn mẫu mẫu „ Số lượng nhóm phân bổ vào lớp tương ứng bên file ClassID.txt Ví dụ nội dung file ThreeLine.txt : 174 20 22 22 16 27 14 14 39 File InputForYou.txt chứa vectơ trọng tâm tất nhóm, vectơ / dòng Thơng tin dòng „ „ „ „ „ Số văn ăn th thuộc ộc nhóm/vectơ nhóm/ ectơ trọng tâm đó; ID lớp mà nhóm thuộc về; ID nhóm lớp; Các cặp (Term ID – Trọng số) thể cho chiều vector trọng tâm 15 16 Đánh giá kết Đánh giá kết Xây dựng mẫu kiểm thử „ „ „ „ Tập kiểm thử xây dựng từ báo thuộc lĩnh vực khác báo điện tử VnExpress (http://www.vnexpress.net) (http://www vnexpress net) Dữ liệu kiểm thử 56 tin VNExpress thuộc chủ đề Giáo dục, Du lịch, Kinh doanh, Ơ tơ xe máy, Thể Thao, Pháp luật, Vi Tính, Sức khoẻ (theo phân chia chủ đề báo) ghi lại theo chủ đề từ trước „ „ „ Mơ hình cải tiến đạt độ xác cao Dữ liệu nói chung tối ưu Các chức g ợ phân p tách rõ ràng g làm g giảm chi phí p tài nguyên tăng tốc độ phân lớp lên nhiều Hai thuật toán Apriori, FIHC đạt độ xác cao chưa ổn định Độ xác : 94,64% 17 18 CuuDuongThanCong.com https://fb.com/tailieudientucntt Hướng phát triển „ „ Các thuật toán Apriori, FIHC cài đặt để sử dụng thời gian xử lý “offline” chi phí tính tốn lớn Ỉ cải tiến thuật tốn để giảm chi phí lập nhóm Việc tiền ề xử lý văn xử lý thống ố ấ font chữ, định dạng file đầu vào đặc biệt q trình tách thuật ngữ có ảnh hưởng quan trọng hệ thống xử lý văn nói chung ứng dụng phân loại tin tự động nói riêng Đây vấn đề cần nghiên cứu sâu đưa giải thuật tốt 19 CuuDuongThanCong.com https://fb.com/tailieudientucntt ... Cluster 10 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm Mơ hình „ „ „ Phần tiền xử lý văn Phần tiền xử lý văn làm công việc tách thuật ngữ, phân tích tổ chức liệu, tổ chức từ điển „... thứ tự Khi phân loại văn ứng dụng việc đọc thông tin vector trọng tâm, so sánh với văn đầu vào vector hóa Ỉ định phân loại 11 12 CuuDuongThanCong.com https://fb.com/tailieudientucntt 3.Chương... gian xử lý “offline” chi phí tính tốn lớn Ỉ cải tiến thuật tốn để giảm chi phí lập nhóm Việc tiền ề xử lý văn xử lý thống ố ấ font chữ, định dạng file đầu vào đặc biệt q trình tách thuật ngữ có

Ngày đăng: 11/01/2020, 20:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w