Bài giảng Xử lý ngôn ngữ tự nhiên: Phân loại văn bản cung cấp cho người học các kiến thức: Phân loại văn bản, phân nhóm văn bản, cách phân loại, mô hình vector, danh sách quyết định, các đặc trưng ngoài Unigrams,... Mời các bạn cùng tham khảo.
Phân loại văn z Phân loại: (Text Categorization) Đầu vào toán tập văn phân lớp sẵn, sẵn cho văn vào, ứng dụng phải văn thuộc chủ đề chủ để ban đầu Phân loại văn Lê Thanh Hương Bộ môn Hệ thống thông tin Viện CNTT&TT Tại cần PLVB? Phân nhóm văn z Là tiếng Việt? z Lọc tin z Chuyển hướng gọi z Phân loại thư (cuộc hẹn, công việc, khẩn, bạn bè, thư rác, …) z Phân nhóm: (Text Clustering) Là tốn cho tập văn chưa phân lớp ứng dụng phải chia tập cả, văn thành nhóm dựa độ tương đồng chúng Đo độ xác Precision vs Recall of Good (non-spam) Email Precision vs Recall of Good (non-spam) Email z Precision = thư giữ (đúng) tất thư giữ 100% 100% 75% 50% 25% 0% 0% 25% 50% 75% 100% Precision n Prec cision Đo độ xác zR Recallll = thư giữ (đúng) thư Recall 75% 50% 25% OK for search engines (maybe) high threshold: all we keep is good, but we don don’tt keep much point where precision=recall (often reported) would prefer to be here! low threshold: keep all the good stuff, but a lot of the bad too 0% 0% 25% 50% Recall 75% 100% OK for spam filtering and legal search CuuDuongThanCong.com https://fb.com/tailieudientucntt Các trường hợp đo độ xác phức tạp Cách phân loại z Phân lớp nhiều lớp Subject: would you like to {Độ xác trung bình ( precision recall) phân lớp lớp: thể thao không, tin tức không {Tốt hơn, đánh giá chi phí lớp lỗi z vd, đánh giá ảnh hưởng vấn ấ đề ề sau: • đặt Thể thao vào mục Tin tức • đặt Mốt vào mục Tin tức • đặt Tin tức vào mục Mốt z điều chỉnh hệ thống để giảm thiểu tổng chi phí z Với hệ thống xếp hạng: {Mức độ liên quan đến xếp hạng người {Lấy phản hồi tích cực từ người dùng Cách phân loại? drive a new vehicle for free ? ? ? this is not hype or a hoax , there are hundreds of people driving brand new cars , suvs , minivans , trucks , or rvs it does not matter to us what type of vehicle you choose if you qualify for our program , it is your choice of vehicle , color , and options we don ' t care just by driving the vehicle , you are promoting our program if you would like to find out more about this exciting opportunity to drive a brand new vehicle for free , please go to this site : http : / / 209 134 14 131 / ntr to watch a short minute audio / video presentation which gives you more information about our exciting new car program if you n't want to see the short video , but want us to send you our information package that explains our exciting opportunity for you to drive a new vehicle for free , please go here : http : / / 209 134 14 131 / ntr / form htm we would like to add you the group of happy people driving a new vehicle for free happy motoring Cách phân loại? (có giám sát) Xây dựng mơ hình n-gram cho lớp, sử dụng lý thuyết Bayes Biểu diễn tài liệu vector (có giám sát) Coi toán giải nhập nhằng từ (cần chọn cách biểu diễn độ đo khoảng cách ; sử dụng SVD?) { Cách 1: Đưa vào lớp mà tài liệu gần với trung tâm lớp (có ( ó thể kko phù hù h hợp ế thành h phần hầ ttrong lớp lớ cách xa nhau) { Cách 2: Chia lớp thành nhóm (sau sử dụng cách để lấy lớp, trả lớp chứa nhóm Phương pháp dùng cho mơ hình n-gram) { Cách 3: Chỉ nhìn vào nhãn tài liệu luyện (vd, sử dụng k láng giềng gần, láng giềng gần có trọng số lớn hơn) a) Mơ hình vector – sử dụng tất đặc trưng b) Danh sách định – sử dụng đặc trưng tốt c) Naive Bayes – sử dụng tất đặc trưng, đánh trọng số dựa tác động việc phân biệt lớp d) Cây định – sử dụng số đặc trưng theo trình tự 10 slide courtesy of D Yarowsky (modified) Danh sách định Mơ hình vector tài liệu sau tương tự nhau: Sau chuẩn hóa độ dài vector thành 1, giống không gian Euclidean (similar endpoint) High dot product (similar direction) (0, 0, 3, 1, 0, 7, 1, 0) (0, 0, 1, 0, 0, 3, 0, 1) Khi tạo vector, có thể: loại bỏ từ chức giảm trọng số Sử dụng đặc trưng khác so với unigrams Để phân giải nhập nhằng từ lead : Duyệt danh sách ứng cử viên Dấu hiệu tìm thấy dấu hiệu định Không tốt cách kết hợp dấu hiệu, hoạt động tốt cho WSD Đánh giá trọng số dấu hiệu: log [ p(cue | sense A) [smoothed] / p(cue | sense B) ] 11 12 CuuDuongThanCong.com https://fb.com/tailieudientucntt slide courtesy of D Yarowsky (modified) Kết hợp dấu hiệu Naive Bayes slide courtesy of D Yarowsky (modified) Kết hợp dấu hiệu Naive Bayes giá trị tính từ tác giả biết trước (học có giám sát) 2 Mơ hình “Nạve Bayes” cho phân lớp văn Câu câu sinh viên A hay B? (Chú ý giả thiết độc lập) 13 14 example from Manning & Schütze Cây định Các đặc trưng Unigrams Bài báo Reuters thuộc lĩnh vực Lợi nhuận? 2301/7681 = 0.3 of all docs contains “cents” ≥ times 1607/1704 = 0.943 contains “versus” ≥ times contains “versus” < times 1398/1403 = 0.996 209/301 = 0.694 contains “cents” < times 694/5977 = 0.116 contains “net” ≥ time 422/541 = 0.780 contains “net” < time 272/5436 = 0.050 z Vấn đề lựa chọn đặc trưng { Sử dụng ụ g tập ập lớn đặc ặ trưng g lưu g template p { Có thể tìm đặc trưng có ích xét cách độc lập? { Thêm đặc trưng z Đo đoán khả cải thiện đặc trưng { Cuối cùng, loại bỏ đặc trưng làm giảm tính xác hệ thống tiến hành thử nghiệm liệu z Chương trình SpamAssassin sử dụng đặc trưng 15 “yes” 16 “no” Các đặc trưng SpamAssassin 100 4.0 3.994 3.970 3.910 3.801 3.472 3.437 3.371 3.350 3.284 3.283 3.261 3.251 3.250 3.200 z Các cách tiếp cận (trừ mơ hình n-gram ) sử dụng đặc trưng khác, khơng unigrams From: địa danh sách đen Người gửi danh sách www.habeas.com Habeas Infringer Ngày không hợp lệ: tiêu đề (timezone không tồn tại) Viết ngôn ngữ lạ Liệt kê Razor2, xem http://razor.sf.net/ ự lấp p đầyy 8-bit Tiêu đề kýý tự Thông báo tuân theo Senate Bill 1618 exists:X-Precedence-Ref Ngày đảo ngược Thơng báo bạn bị loại khỏi danh sách Tài sản bí mật Thơng báo u cầu rời khỏi danh sách Có chứa từ “Stop Snoring" Received: chứa tên với địa IP giả Nhận qua chuyển tiếp list.dsbl.org 17 Tập ký tự ngôn ngữ lạ Các đặc trưng SpamAssassin 3.198 3.193 3.180 3.140 3.123 3.090 3.072 3.044 3.009 3.005 2.991 2.975 2.968 2.932 2.900 2.879 Forged eudoramail.com 'Received:' header found Free Investment Received via SBLed relay, seehttp://www.spamhaus.org/sbl/ Character set doesn't exist Dig up Dirt on Friends No MX records for the From: domain X-Mailer contains malformed Outlook Expressversion Stock Disclaimer Statement Apparently, NOT Multi Level Marketing Bulk email software fingerprint (jpfree) found inheaders exists:Complain-To Bulk email software fingerprint (VC_IPA) found inheaders Invalid Date: year begins with zero Mentions Spam law "H.R 3113" Received forged, contains fake AOL relays 18 Asks for credit card details CuuDuongThanCong.com https://fb.com/tailieudientucntt Cách phân loại? Cách phân loại? (bán giám sát) (khơng giám sát) Nếu khơng có liệu luyện Nếu có liệu luyện? Thực lặp lặp lại: Nhóm tài liệu Luyện mơ hình n-gram, Naive Bayes, danh sách định để phân biệt nhóm Sử dụng mơ hình để gán lại tài liệu vào nhóm (chỉ có số thay đổi) Quay lại bước đến hội tụ Bắt đầu với lớp nhỏ xác Luyện mơ hình n-gram n-gram, Naive Bayes Bayes, danh sách định để phân biệt nhóm Thêm vào lớp tài liệu mà mô hình phân loại cách chắn (cũng loại bớt số tài liệu) Quay lại bước đến hội tụ 19 Cách phân loại? Cách phân loại? (thích nghi) Nếu liệu luyện tăng cường theo thời gian? z Sử dụng phản hồi (tích cực thụ động) việc phân lớp có z Các hệ thống phân lớp điều chỉnh { Thêm tài liệu vào liệu luyện { Nếu ế chúng ú chưa gán nhãn ((không ô giám sát), ) gán chúng cách tự động Mơ hình điều chỉnh theo thời gian z Vd., thay đổi trung tâm nhóm tham số n-gram z Muốn tăng trọng số liệu { Vd., tài liệu k ngày trước có trọng số (k=0,1,2, ) { Mơ hình = liệu + 0.9 * mơ hình cũ 20 0.9k (phân cấp) Đưa tài liệu vào Yahoo! category? z Có hàng nghìn lớp – khó z Chọn 14 lớp mức cùng, vd., khoa học z Sau sử dụng phân lớp cho lĩnh vực Khoa học để chọn 54 lớp mức lớp Khoa học z Tiếp tục xuống mức z Khi phân lớp với độ chắn cao, hỏi người (sử dụng câu trả lời người liệu luyện mới) 21 22 CuuDuongThanCong.com https://fb.com/tailieudientucntt ... hình n-gram n-gram, Naive Bayes Bayes, danh sách định để phân biệt nhóm Thêm vào lớp tài liệu mà mơ hình phân loại cách chắn (cũng loại bớt số tài liệu) Quay lại bước đến hội tụ 19 Cách phân loại? ... Cách phân loại? Cách phân loại? (bán giám sát) (không giám sát) Nếu khơng có liệu luyện Nếu có liệu luyện? Thực lặp lặp lại: Nhóm tài liệu Luyện mơ hình n-gram, Naive Bayes, danh sách định để phân. .. xem http://razor.sf.net/ ự lấp p đầyy 8-bit Tiêu đề kýý tự Thông báo tuân theo Senate Bill 1618 exists:X-Precedence-Ref Ngày đảo ngược Thơng báo bạn bị loại khỏi danh sách Tài sản bí mật Thơng