1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Một số thuật toán phân loại văn bản

29 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 287,97 KB

Nội dung

Bài giảng Một số thuật toán phân loại văn bản giới thiệu bài toán phân loại văn bản, các mô hình xác suất, một số mô hình phân loại (mô hình Bayes đơn giản, mô hình Bernoulli, mô hình TF-IDF), thiết kế. Mời các bạn tham khảo.

một số thuật toán phân loại văn Lê Hồng Phương Đại học Quốc gia Hà Nội Trường Đại học Khoa học Tự nhiên Viện Nghiên cứu Công nghệ FPT 6/2013 Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Nội dung Giới thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Nội dung Giới thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Nội dung Giới thiệu Bài tốn phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Bài toán phân loại văn Bài toán Cho x văn Biết x thuộc loại y ∈ {1, 2, , K} Hãy tìm loại văn x Ví dụ: Giả sử x báo phóng viên viết, gửi đăng trang tin điện tử vnExpress Biên tập viên cần định xem x thuộc thể loại thích hợp nhất: “chính trị – xã hội ”, “quốc tế ”, “thể thao” Giả sử x văn ngắn có mục tiêu điều khiển tivi Mỗi thể loại tương ứng với hành động điều khiển: “tắt”, “bật”, “chuyển kênh”, : x = “hãy bật tivi” ⇒ y = “bật ” x = “chuyển sang kênh HBO ” ⇒ y = “chuyển kênh” Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Bài toán phân loại văn Gọi y = hθ (x) hàm phân loại x θ tham số hàm Ta cần tìm hθ (·) có khả phân loại tốt Để tìm hθ , ta sử dụng phương pháp học có hướng dẫn từ liệu mẫu: Dữ liệu học gồm N mẫu: (x1 , y1 ), (x2 , y2 ), , (xN , yN ) Hàm hθ xây dựng cho khớp với liệu huấn luyện Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Bài toán phân loại văn Mỗi văn x đối tượng cần phân loại, thông thường x chuyển thành biểu diễn véc-tơ thực D chiều: x = (x1 , x2 , , xD ), xj ∈ R Các thành phần xj , j = 1, 2, , D gọi đặc trưng hay thuộc tính x Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Nội dung Giới thiệu Bài tốn phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Mơ hình xác suất Có nhiều phương pháp phân loại văn phương pháp phân loại cho kết tốt sử dụng mơ hình xác suất Gọi hθ (x) = P (y| x; θ) mơ hình xác suất có điều kiện dự báo khả hay xác suất thuộc loại y đối tượng x Đối tượng x xếp vào loại có xác suất lớn theo mơ hình: y = arg max P (y = k| x; θ) k=1,2, ,K Chú ý mơ hình xác suất P (y = k| x; θ) = k=1,2, ,K Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Nội dung Giới thiệu Bài tốn phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 10 / 29 Mơ hình Bayes đơn giản dạng đa thức Trong mơ hình Bayes dạng đa thức, ta xét tần số xuất từ x thay xét từ có xuất hay khơng mơ hình Bayes nhị phân Tham số mơ hình: θk xác suất tiên nghiệm văn thuộc lớp k; θj|k xác suất từ j xuất lớp k Gọi f (k, j) số lần từ j xuất loại văn k Khi ước lượng hợp lí cực đại tham số θk = θj|k = Lê Hồng Phương (HUS, VNU) N i=1 δ(yi = k) N f (k, j) , D j=1 f (k, j) Một số thuật toán phân loại văn 6/2013 15 / 29 Quy tắc phân loại Với đối tượng x, ta phân vào loại y với y := k = arg max P (y = k| x) k=1,2, ,K D = arg max k=1,2, ,K j=1 θj|k θk Nếu sử dụng hàm loga, ta có quy tắc phân loại tuyến tính:   D y := k = arg max  k=1, ,K Lê Hồng Phương (HUS, VNU) j=1 log θj|k + log θk  Một số thuật toán phân loại văn 6/2013 16 / 29 Quy tắc phân loại Với văn x, gọi V tập từ thuộc x Thuật tốn phân loại x mơ hình Bayes đơn giản sau: Algorithm 1: Thuật toán phân loại Bayes đơn giản Data: x, θk , θj|k , k = 1, 2, , K, j = 1, 2, , D for k = 1, 2, , K s[k] ← log θk ; for j ∈ V s[k] ← s[k] + log θj|k ; return arg maxk s[k]; Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 17 / 29 Làm trơn mơ hình Ta cần làm trơn mơ hình để xử lí trường hợp θj|k = Nếu θj|k = 0, ∀k = 1, 2, , K K P (x) = k=1 Từ  θk P (y = k| x) = , D j=1  θj|k  = ∀k = 1, 2, , K nên ta phân loại x Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 18 / 29 Làm trơn mơ hình Ta sử dụng phương pháp làm trơn Laplace: θj|k = θj|k + α θk + D × α α hệ số làm trơn Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 19 / 29 Nội dung Giới thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 20 / 29 Mơ hình Bernoulli Trong mơ hình Bayes đơn giản trên, θj|k tần suất từ hay tần suất vị trí văn thuộc lớp k có chứa từ j Mơ hình Bernoulli sử dụng tham số theo cách khác, tần suất văn thuộc lớp k có chứa từ j Như vậy, mơ hình Bernoulli sử dụng thơng tin từ j có xuất văn lớp k hay khơng, khơng quan tâm từ xuất lần Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 21 / 29 Mơ hình Bernoulli Gọi f (k, j) số lần văn thuộc loại k chứa từ j Khi θj|k = f (k, j) D j=1 f (k, j) Làm trơn mơ hình: θj|k = θj|k + α θk + D × α α hệ số làm trơn Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 22 / 29 Quy tắc phân loại Với văn x, gọi V tập từ thuộc x Thuật toán phân loại x mơ hình Bernoulli sau: Algorithm 2: Thuật toán phân loại Bernoulli Data: x, θk , θj|k , k = 1, 2, , K, j = 1, 2, , D for k = 1, 2, , K s[k] ← log θk ; for j = 1, 2, , D if j ∈ V then s[k] ← s[k] + log θj|k ; else s[k] ← s[k] + log(1 − θj|k ); return arg maxk s[k]; Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 23 / 29 Nội dung Giới thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 24 / 29 Mơ hình TF-IDF Gọi tf(j, x) số lần từ j xuất văn x df(j) số văn có chứa từ j tập huấn luyện Ta tính nghịch đảo tần số văn chứa từ j sau: idf(j) = log N df(j) Về mặt trực quan, idf(j) nhỏ từ j xuất nhiều văn lớn xuất văn Mỗi văn biểu diễn dạng véc-tơ x = (x1 , x2 , , xD ), xj = tf(j, x) × idf(j), ∀j = 1, 2, , D Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 25 / 29 Mơ hình TF-IDF Tiếp theo, ta tính tham số mơ hình: ck = xi , ∀k = 1, 2, , K i:yi =k Quy tắc phân loại cho văn x là: y = arg max cos(x, ck ) k = arg max k Lê Hồng Phương (HUS, VNU) D j=1 xj D j=1 xj × ckj × Một số thuật toán phân loại văn D j=1 ckj 6/2013 26 / 29 Quy tắc phân loại Với văn x, gọi V tập từ thuộc x Thuật tốn phân loại x mơ hình TF-IDF sau: Algorithm 3: Thuật toán phân loại TF-IDF Data: x, ck , k = 1, 2, , K for k = 1, 2, , K s[k] ← cos(x, ck ); return arg maxk s[k]; Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 27 / 29 Nội dung Giới thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 28 / 29 Thiết kế Xem tài liệu thiết kế chi tiết lớp gói phần mềm com.fpt.nao.text Các lớp cài đặt thuật tốn phân loại: NBTextClassifier BernoulliClassifier TFIDFClassifier Lớp TextClassifierTester minh họa cách sử dụng thuật toán phân loại Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 29 / 29 ... Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn 6/2013 / 29 Bài toán phân loại văn Gọi y = hθ (x) hàm phân loại x θ tham số hàm Ta cần tìm hθ (·) có khả phân loại tốt Để tìm hθ , ta sử... thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn. .. thiệu Bài toán phân loại văn Các mơ hình xác suất Một số mơ hình phân loại Mơ hình Bayes đơn giản Mơ hình Bernoulli Mơ hình TF-IDF Thiết kế Lê Hồng Phương (HUS, VNU) Một số thuật toán phân loại văn

Ngày đăng: 20/05/2021, 04:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w