Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Ninh Thị Thu Trang PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN XUẤT HIỆN BIẾN NHIỄU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2018 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Ninh Thị Thu Trang PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN XUẤT HIỆN BIẾN NHIỄU Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC : TS HOÀNG XUÂN DẬU HÀ NỘI - 2018 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực Mọi tham khảo dùng luận văn đƣợc trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, tơi xin chịu hồn toàn trách nhiệm Tác giả luận văn NINH THỊ THU TRANG ii LỜI CẢM ƠN Em xin chân thành cám ơn thầy giáo TS Hồng Xn Dậu tận tình hƣớng dẫn cho em góp ý quý báu q trình hồn thành luận văn Chính lời cam kết hoàn thành luận văn hạn với thầy lời động viên kịp thời động lực to lớn để em đạt đƣợc kết Em xin cảm ơn thầy giáo, cô giáo Khoa CNTT1, Khoa QT&ĐT sau đại học thuộc Học viện Công nghệ Bƣu viễn thơng tận tình giảng dạy, truyền đạt nội dung kiến thức, kinh nghiệm quý báu suốt trình em theo học Học viện Cảm ơn Trần Thị Giang Vi Quyết Thắng, ngƣời bạn học nhiệt tình tận tâm, không ngần ngại giúp đỡ cho suốt học kỳ khóa học nhƣ cổ vũ để chúng tơi tốt nghiệp Cảm ơn Đỗ Việt Long, sẵn sàng giúp đỡ hỗ trợ cho tơi lòng bè bạn vô tƣ Cuối cùng, muốn gửi lời cảm ơn đến gia đình mình, ngƣời ln u thƣơng tạo điều kiện để tơi hồn thành khóa học Ninh Thị Thu Trang iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi MỞ ĐẦU .1 Chƣơng - BÀI TOÁN PHÂN LOẠI VĂN BẢN .4 1.1 Bài toán phân loại văn 1.1.1 Phát biểu toán 1.1.2 Mơ hình tổng qt 1.1.3 Tiền xử lý văn 1.1.4 Phƣơng pháp biểu diễn văn 1.1.5 Đánh giá phân loại văn .10 1.2 Một số mô hình phân loại văn 11 1.2.1 Mơ hình Nạve Bayes 12 1.2.2 Mô hình Support Vector Machine 13 1.2.3 Mơ hình Logistic Regression 19 1.2.4 Mơ hình Subsampling 19 1.2.5 Mơ hình Matching 20 1.2.6 Mơ hình Sum out 20 1.3 Bài toán luận văn 21 1.4 Kết luận chƣơng 21 iv Chƣơng - THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ XUẤT HIỆN CỦA BIẾN NHIỄU 22 2.1 Giới thiệu .22 2.2 Thuật toán Back-door tiêu chuẩn 22 2.3 Thuật toán Back-door cải tiến cho phân loại văn 24 2.4 Điều chỉnh khả cải tiến thuật toán Back-door 28 2.5 Kết luận chƣơng 29 Chƣơng - THỬ NGHIỆM VÀ ĐÁNH GIÁ 30 3.1 Các tập liệu tiền xử lý liệu cho thử nghiệm 30 3.1.1 Bộ liệu Twitter 30 3.1.2 Bộ liệu IMDb 31 3.2 Kịch thử nghiệm 31 3.3 Kết 32 3.3.1 Kết liệu Twitter 32 3.3.2 Kết liệu IMDb 37 KẾT LUẬN .40 DANH MỤC TÀI LIỆU THAM KHẢO 41 v DANH MỤC TỪ VIẾT TẮT Kí hiệu NYC Tiếng Anh Tiếng Việt New York City Thành phố Newyork LA Los Angeles Thành phố Los Angeles LR Logistic Regression Hồi quy logistic BA Backdoor Adjustment Backdoor cải tiến LRS Logistic Regression Subsampling Lấy mẫu hồi quy logistic vi DANH MỤC CÁC HÌNH Hình 1.1 Bài tốn phân loại văn Hình 1.2 Sơ đồ khung hệ thống phân loại văn Hình 1.3 Thuật tốn xác định siêu phẳng 14 Hình 1.4 Mối quan hệ siêu phẳng phân cách 15 Hình 1.5 Siêu phẳng tối ƣu biên 16 Hình 2.1 Mơ hình ví dụ cho tiêu chuẩn Back-door 23 Hình 2.2 G' mạng tăng cƣờng có can thiệp Fi từ bên ngồi 25 Hình 2.3 Sơ đồ mơ tả biến số Z có ảnh hƣởng đến hai đặc trƣng: văn đƣợc cần phân loại X biến nhãn Y 26 Hình 3.1 Độ xác huấn luyện thử nghiệm khác với P(Y|Z) liệu Twitter 33 Hình 3.2 Độ xác trung bình liệu Twitter huấn luyện đƣợc ƣu tiên 33 Hình 3.3 Đặt hệ số ƣu tiên 0.9 cho phân loại LR, BA BAZ10 thử nghiệm Twitter 34 Hình 3.4 Phần trăm đặc trƣng thể nghịch lý Simpson 36 Hình 3.5 Ảnh hƣởng việc điều chỉnh độ mạnh v1 hệ số đặc trƣng c0, c1 độ xác liệu Twitter 37 Hình 3.6 Độ xác huấn luyện thử nghiệm khác với P(Y|Z) liệu IMDb 38 Hình 3.7 Độ xác trung bình liệu IMDb huấn luyện đƣợc ƣu tiên39 MỞ ĐẦU Lý chọn đề tài Phân loại văn phần quan trọng lĩnh vực xử lý ngôn ngữ Nhiệm vụ toán tự động xếp tài liệu thành loại (hoặc lớp, chủ đề) từ tập hợp đƣợc xác định trƣớc Các chƣơng trình phân loại văn ngày đƣợc sử dụng nhiều ứng dụng thời gian thực, cần phải cân nhắc khơng độ xác mà tính mạnh mẽ chúng có thay đổi (nhiễu) việc phân phối liệu Đề tài "Phân loại văn hiệu điều kiện xuất biến nhiễu" nghiên cứu thuật toán phân loại văn dựa thuật toán Back-door cải tiến[5] để kiểm soát biến số nhiễu Bằng cách kiểm soát chặt chẽ yếu tố gây nhiễu, cải thiện đáng kể hiệu phân loại Tổng quan vấn đề nghiên cứu Trong toán phân loại văn bản, xem xét trƣờng hợp có biến nhiễu Z có ảnh hƣởng đến đặc trƣng văn X biến nhãn Y Ví dụ, phân loại đƣợc huấn luyện để dự đốn tình trạng sức khoẻ ngƣời dùng dựa vào giao tiếp họ mạng sai lệch biến số kinh tế xã hội Khi ảnh hƣởng Z thay đổi từ liệu huấn luyện sang liệu thử nghiệm, độ xác phân loại bị giảm nhanh chóng[5] Trong ngành khoa học xã hội, nhiều phƣơng pháp đƣợc phát triển để kiểm soát yếu tố gây nhiễu, bao gồm kết hợp, phân tầng hồi quy[9][Rosenbaum] Pearl[8]đã phát triển phép thử để xác định cấu trúc cho phép kiểm soát yếu tố gây nhiễu cách sử dụng điều chỉnh đồng biến, đƣợc gọi Back-door[8] Luận văn sử dụng điều chỉnh thuật toán Back-door để cải thiện hiệu phân loại văn bản[5] Trong cộng đồng học máy, lựa chọn thiên vị nhận đƣợc số ý Xu hƣớng lựa chọn phân loại văn xảy phân bố đặc trƣng văn thay đổi từ huấn luyện sang thử nghiệm Đã có nghiên cứu xem xét trƣờng hợp hàm phân phối mục tiêu P (Y) thay đổi từ huấn luyện sang thử nghiệm Ở đây, toán giải trƣờng hợp đầy thách thức mối quan hệ thay đổi nhãn mục tiêu Y nhãn nhiễu Z[5] Mục đích nghiên cứu Nghiên cứu thuật toán Back-door cải tiến cho phân loại văn có xuất biến nhiễu Xây dựng mơ hình cài đặt thử nghiệm thuật toán Back-door cải tiến toán phân loại văn có xuất biến nhiễu Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: Thuật toán Back-door cải tiến cho phân loại văn Phạm vi nghiên cứu: Bài toán phân loại văn có xuất biến nhiễu Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu nghiên cứu lý thuyết kết hợp với thực nghiệm phân tích, đánh giá kết Nội dung luận văn gồm chƣơng nhƣ sau: Chƣơng – BÀI TỐN PHÂN LOẠI VĂN BẢN: Giới thiệu tốn phân loại văn nói chung trình bày số mơ hình phân loại văn đƣợc sử dụng phổ biến Chƣơng – THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ SỰ XUẤT HIỆN CỦA BIẾN NHIỄU: Trình bày chứng minh thuật tốn Back-door cải tiến phân loại văn 28 cần phân loại nhận giá trị nhị phân yi zi biến nhị phân Đối với p(z), ta sử dụng ƣớc tính khả ƣớc lƣợng tối đa: p( z k ) iD 1[ zi k ] |D| (2.5) Trong [•] hàm thị Với p(y x, z), sử dụng phƣơng trình hồi quy logistic đƣợc chuẩn hóa L2, đƣợc mơ tả chi tiết dƣới 2.4 Điều chỉnh khả cải tiến thuật toán Back-door Để cài đặt, p(z) đƣợc tính ƣớc tính xác suất tối đa Tính p(y|x,z) cách thêm hai tính bổ sung ci, ci, cho trƣờng hợp xi với z = z = Tính thứ (thứ hai) đƣợc đặt thành v1 zi = (zi = 1) tính thứ hai (thứ nhất) đƣợc đặt Trong trƣờng hợp mặc định, cho v1 = nhƣng xem xét lại định phần Để dự đốn trƣờng hợp mới, ta tính tốn cách sử dụng phƣơng trình (2.1) Ở đây, dùng trực giác thấy cách tiếp cận hữu ích, nhƣ phƣơng pháp phép nhà nghiên cứu điều chỉnh sức mạnh thuật toán Back-door cải tiến Vector x thƣờng chứa hàng ngàn biến số, thêm hai tính bổ sung cho z ảnh hƣởng đến việc phân loại Một cách để hiểu điều xem xét vấn đề khối lƣợng huấn luyện[13] hồi quy logistic có quy tắc Với hàng ngàn biến tƣơng quan chồng chéo đƣợc sử dụng phân loại văn bản, tối ƣu hóa mơ hình hồi quy logistic liên quan đến cân hệ số biến liên quan nhƣ với độ lớn hệ số đƣợc xác định quy định L2 Trong thiết lập nhƣ vậy, quan sát thấy diện số đặc trƣng dễ dự đốn dẫn đến hệ số nhỏ mong muốn đặc trƣng khó dự đốn Bằng cách giới thiệu cho z đặc tính đƣợc dự đốn có khả cao làm giảm hệ số cho thuật ngữ x Đặc biệt, với chức khách quan hồi quy logistic đƣợc chuẩn hoá theo L2, hy vọng huấn luyện có hiệu 29 thuật ngữ tƣơng quan với z Ví dụ, z giới tính ta mong đợi thuật ngữ giới có hệ số cƣờng độ tƣơng đối thấp sử dụng cải tiến Back-door so với thuật ngữ khác Giải thích cho phép ta xây dựng phƣơng pháp để điều chỉnh độ mạnh việc cải tiến Back-door Đầu tiên, viết lại hàm L2, phân biệt hệ số cho vector thuật ngữ θx hệ số cho nhiễu θz, cho phép θ liên kết θx θz: L( D, ) log p ( yi | xi , zi ) x (kx )2 z (kz ) iD k k Trong λx λz kiểm sốt mức độ xác hệ số thuật ngữ hệ số biến nhiễu Đặt mặc định λx = λz=1 Tuy nhiên, đặt λx < λz , ta giảm thiểu bất lợi cho độ lớn hệ số biến nhiễu θz Điều cho phép hệ số θz đóng vai trò lớn định phân loại so với θx, cách tăng số lƣợng huấn luyện θx Việc thực đạt đƣợc hiệu cách tăng giá trị đặc trƣng gây nhiễu cho v1 giữ giá trị đặc trƣng khác Bởi khơng chuẩn hóa ma trận đặc trƣng, làm tăng giá trị v1 giữ giá trị x khuyến khích giá trị nhỏ cho θz, đặt bất lợi L2 tƣơng đối nhỏ vào θz so với θx 2.5 Kết luận chƣơng Trong Chƣơng 2, luận văn trình bày thuật toán Back-door tiêu chuẩn, thuật toán Back-door cải tiến cho phân loại văn khả cải tiến thuật toán Back-door bải toán phân loại văn Trong chƣơng luận văn trình bày kết áp dụng thuật toán Backdoor cải tiến vào việc phân loại liệu từ Twitter IDMb (2.6) 30 Chƣơng - THỬ NGHIỆM VÀ ĐÁNH GIÁ Chƣơng áp dụng thuật toán Back-door cải tiến vào phân loại liệu thu thập đƣợc từ Twitter IMDb; sau đánh giá kết thu đƣợc 3.1 Các tập liệu tiền xử lý liệu cho thử nghiệm 3.1.1 Bộ liệu Twitter Mục tiêu luận văn dự đốn vị trí ngƣời sử dụng Twitter từ tweet họ, với giới tính đƣợc xem biến nhiễu tiềm Để thực mục tiêu này, luận văn sử dụng liệu từ nguồn [5] Dữ liệu đƣợc thu thập dựa việc sử dụng API Twitter streaming để thu thập tweet với đối tƣợng địa lý từ New York City (NYC) Los Angeles (LA) thời gian hai ngày (15, 16 tháng năm 2017) Bộ liệu chứa khoảng 100 000 tweet cho NYC 218,945 cho LA Q trình tiền xử lí liệu Twitter bắt đầu việc lọc chƣơng trình, nhân vật tiếng tài khoản tiếp thị cách xóa ngƣời dùng có 10 ngƣời theo dõi bạn bè, có nhiều 1.000 ngƣời theo dõi bạn bè 5.000 đăng Những ngƣời dùng bạn bè ngƣng sử dụng Twitter, ngƣời tiếng tài khoản tiếp thị đội ngũ quản lý khơng phù hợp với tiêu chí phân loại ngƣời dùng mà luận văn hƣớng đến Sau lọc, ta gán nhãn cho ngƣời dùng dựa vào giới tính họ cách sử dụng liệu tên từ khảo sát Hoa Kỳ[20], xóa bỏ tên khơng rõ ràng giới tính Sau thu thập tất tweets có sẵn (lên đến 3,200) ngƣời dùng đại diện cho ngƣời dùng nhƣ vector nhị phân, sử dụng token chuẩn Cuối cùng, lấy mẫu từ liệu cách giữ lại tweets từ 6.000 ngƣời dùng, với giới tính vị trí đƣợc phân phối thống cho tồn số ngƣời dùng 31 Dự đốn vị trí với giới tính biến gây nhiễu, gán yi = cho biết NYC zi= Nam Do cách xây dựng liệu này, liệu đƣợc phân bố bốn cặp y/z có 3.1.2 Bộ liệu IMDb Mục tiêu luận văn thử nghiệm dự đoán cảm xúc đánh giá phim bị nhiễu thể loại phim liệu IMDb theo Maas[7] Bộ liệu chứa 50.000 đánh giá phim từ IMDb đƣợc gắn nhãn với tình cảm tích cực tiêu cực Loại bỏ từ dừng tiếng Anh, thuật ngữ xuất dƣới 10 lần, sử dụng véc tơ nhị phân để biểu có khơng có đặc trƣng Xác định biến biến nhiễu phim thuộc thể loại "kinh dị", nhƣ đƣợc xác định phân loại IMDb Vì vậy, cho zi = cho phim kinh dị, zi = không phim kinh dị Trái với liệu Twitter, liệu phân bố không đồng bốn cặp nhãn/nhiễu Khoảng 18% phim phim kinh dị, 5% đánh giá với tình cảm tích cực phim kinh dị 3.2 Kịch thử nghiệm Luận văn tiến hành thử nghiệm so sánh mơ hình sau: - Logistic Regression (LR)[Rodríguez]: Mơ hình sử dụng đƣờng sở phân loại hồi quy logistic chuẩn đƣợc chuẩn hóa L2 mà khơng đƣợc kiểm sốt nhiễu Nó đơn giản mơ hình P(Y|X) - Back-door cải tiến (BA)[5]: Đây cách tiếp cận luận văn Mơ hình tạo điều chỉnh đồng biến mạnh cách đặt giá trị v1=10 nghịch biến, từ có BAZ10 - Subsampling (LRS)[11]: Mơ hình loại bỏ thiên vị trình huấn luyện cách lấy mẫu liệu cho P (Y, Z) đƣợc phân phối đồng Nghĩa là, nij số trƣờng hợp y = i z = j, ta trích lấy mẫu cho n00 = n01 = n10 = n11 32 Với mơ hình, tiến hành chạy thử nghiệm liệu với kịch nhƣ sau: - Lấy liệu huấn luyện: 800 mẫu cho Twitter, 1000 mẫu cho IMDb - Lấy liệu thử nghiệm: 800 mẫu cho Twitter, 1000 mẫu cho IMDb - Quan sát kết đầu thống kê tham số: o Độ xác huấn luyện thử nghiệm khác với P(Y|Z) o Độ xác trung bình huấn luyện đƣợc ƣu tiên o Phần trăm đặc trƣng thể nghịch lý Simpson 3.3 Kết 3.3.1 Kết liệu Twitter Trong Hình 3.1 3.2, phƣơng pháp tốt khu vực định BAZ10 LRS Chúng tốt tất phân loại khác khoảng [-1.6, -0.6] ∪ [0.6, 1.6]: có khoảng 15 điểm tốt so với BA, khoảng 20 điểm so với LR Ngoài - khu vực - BAZ10 tốt BA LR Hơn nữa, độ xác tối đa tổn thất BAZ10 phân loại khác xấp xỉ điểm khác biệt tƣơng quan Điều cho thấy BAZ10 đáng kể nhiều so với LR, sai sót lƣợng nhỏ yếu tố gây nhiễu có tác động 33 Hình 3.1 Độ xác huấn luyện thử nghiệm khác với P(Y|Z) liệu Twitter Hình 3.2 Độ xác trung bình liệu Twitter huấn luyện đƣợc ƣu tiên 34 Hình 3.3 Đặt hệ số ƣu tiên 0.9 cho phân loại LR, BA BAZ10 thử nghiệm Twitter Để hiểu BAZ10 xác mạnh mẽ phƣơng pháp khác, ta tính tốn hệ số phân loại LR, BA BAZ10 ƣu tiên 0.9 (tức 90% ngƣời New York nam giới) Hình 3.3 thể hệ số cho mƣời đặc trƣng đƣợc tiên đoán nhiều nhãn lớp theo thống kê (disneyland, brooklyn, angeles, nj, socal, losangeles, freeway, dtla, dodgers, pasadena) mƣời đặc trƣng đƣợc tiên đoán nhiều biến số nhiễu (cutest, makeup, obsessed, girlposts, nails, sodamntrue, xoxo, bff, leggings, adorable) Trọng số đặc 35 trƣng liên quan đến vị trí (10 đặc trƣng đầu tiên) giảm chút phƣơng pháp Back-door cải tiến nhƣng tƣơng đối quan trọng Ngƣợc lại, trọng lƣợng đặc trƣng liên quan đến giới tính (10 đặc trƣng lại) giảm dần phƣơng pháp Back-door cải tiến Lƣu ý sử dụng BAZ10 thay BA có tác động nhiều đến đặc điểm liên quan đến giới tính Những kết hỗ trợ quan sát trực quan huấn luyện Back-door cải tiến ảnh hƣởng đến đặc trƣng chịu tác động nhiễu nhiều Một cách khác để xem xét tác động BA, dùng khái niệm nghịch lý Simpson[14] Trong nghiên cứu nguyên nhân, nghịch lý Simpson phát sinh hiệu X Y đƣợc tìm thấy dƣơng tính quần thể chung, nhƣng âm tính tiểu quần thể xác định nhiễu Z Ví dụ, hút thuốc đƣợc phát gây ung thƣ cộng đồng, nhƣng đƣợc phát không gây ung thƣ xem xét cộng đồng nam giới phụ nữ cách riêng biệt Đối với phân loại định, tính tốn số đặc trƣng văn thể nghịch lý Simpson cách xác định hệ số mặt phù hợp với tất liệu, nhƣng ngƣợc lại lại phù hợp với trƣờng hợp liệu với z = z = Nghĩa là, xác định hệ số mà dự đốn y = cho tồn bộ, nhƣng dự đốn y = cho nhóm (và ngƣợc lại) Hình 3.4 tính tỷ lệ phần trăm đặc trƣng thể nghịch lý Simpson cho sức mạnh thiên vị liệu đƣợc chọn Dữ liệu Twitter có chứa khoảng 22000 đặc trƣng Trong trƣờng hợp BAZ10, số lƣợng đặc trƣng thể nghịch lý Simpson tƣơng đối ổn định; tăng nhanh thiên vị đạt đƣợc cực trị phƣơng pháp khác (Quan sát kết tƣơng tự liệu IMDb.) 36 Hình 3.4 Phần trăm đặc trƣng thể nghịch lý Simpson Từ Hình 3.3 3.4, kết luận có hai cách để Back-door cải tiến tăng cƣờng tính hiệu quả: (1) cách điều chỉnh với thuật ngữ có quan hệ với biến nhiễu Z; (2) cách hiệu chỉnh phía hệ số dự đốn Y nhƣng bị sai khác nhiễu 37 Hình 3.5 Ảnh hƣởng việc điều chỉnh độ mạnh v1 hệ số đặc trƣng c0, c1 độ xác liệu Twitter Hình 3.5 ảnh hƣởng tham số v1 phƣơng pháp BA, điều khiển sức mạnh việc cải tiến Back-door Hình cho thấy thay đổi hệ số quy mô giá trị tuyệt đối c0 c1 (đƣờng nét đứt) nhƣ độ xác (đƣờng liền) v1 tăng lên Twitter Những kết trƣờng hợp mức độ ƣu tiên khác huấn luyện kiểm tra lớn (|ƣu tiên huấn luyện – ƣu tiên thử nghiệm > 1.2) Độ xác thấp ổn định v1 nhỏ 10-1 Sau tăng bắt đầu tăng cao v1 = 10 Với số liệu này, độ xác đạt đƣợc 15 điểm hai đƣờng c0 c1 3.3.2 Kết liệu IMDb Hình 3.6 Hình 3.7 hiển thị kết cho liệu IMDb BA BAZ10 lần xuất hiệu biến gây nhiễu đƣợc ƣu tiên Các phƣơng pháp khác thực tốt, ngoại trừ LRS, tạo kết khoảng 10 điểm so với phƣơng pháp khác (từ hình bỏ qua LRS) Đánh giá hiệu suất so 38 với thực tế phân bố biến số y |z sai lệch nhiều Twitter, dẫn đến LRS phù hợp với phần nhỏ liệu đào tạo Điều giải thích thay đổi độ xác tổng thể cực trị nhƣ thử nghiệm Twitter: hiệu ứng gây nhiễu đƣợc giảm thiểu có phim kinh dị liệu Hình 3.6 Độ xác huấn luyện thử nghiệm khác với P(Y|Z) liệu IMDb 39 Hình 3.7 Độ xác trung bình liệu IMDb huấn luyện đƣợc ƣu tiên Đối với thí nghiệm liệu từ IMDb Twitter, ta tính thêm phép thử cặp để so sánh BAZ10 LR cho giá trị khác biệt tƣơng quan (ví dụ, trục x Hình 3.1 3.6) Ta thấy 19 trƣờng hợp, BAZ10 hoạt động tốt LR; trƣờng hợp, LR hoạt động tốt BAZ10; trƣờng hợp kết không khác biệt đáng kể (p