Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu(tóm tắt luận văn ngành hệ thống thông tin)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Ninh Thị Thu Trang PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN XUẤT HIỆN BIẾN NHIỄU Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2018 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Hoàng Xuân Dậu Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: …… giờ…….ngày …… tháng…… năm …… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Phân loại văn phần quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn tự động xếp tài liệu thành loại (hoặc lớp, chủ đề) từ tập hợp xác định trước Các chương trình phân loại văn ngày sử dụng nhiều ứng dụng thời gian thực, cần phải cân nhắc khơng độ xác mà cịn tính mạnh mẽ chúng có thay đổi (nhiễu) việc phân phối liệu Đề tài "Phân loại văn hiệu điều kiện xuất biến nhiễu" nghiên cứu thuật toán phân loại văn dựa thuật toán Back-door cải tiến[5] để kiểm soát biến số nhiễu Bằng cách kiểm soát chặt chẽ yếu tố gây nhiễu, cải thiện đáng kể hiệu phân loại Tổng quan vấn đề nghiên cứu Trong toán phân loại văn bản, xem xét trường hợp có biến nhiễu Z có ảnh hưởng đến đặc trưng văn X biến nhãn Y Ví dụ, phân loại huấn luyện để dự đốn tình trạng sức khoẻ người dùng dựa vào giao tiếp họ mạng sai lệch biến số kinh tế xã hội Khi ảnh hưởng Z thay đổi từ liệu huấn luyện sang liệu thử nghiệm, độ xác phân loại bị giảm nhanh chóng[5] Trong ngành khoa học xã hội, nhiều phương pháp phát triển để kiểm soát yếu tố gây nhiễu, bao gồm kết hợp, phân tầng hồi quy[9][Rosenbaum] Pearl[8]đã phát triển phép thử để xác định cấu trúc cho phép kiểm soát yếu tố gây nhiễu cách sử dụng điều chỉnh đồng biến, gọi Back-door[8] Luận văn sử dụng điều chỉnh thuật toán Back-door để cải thiện hiệu phân loại văn bản[5] Trong cộng đồng học máy, lựa chọn thiên vị nhận số ý Xu hướng lựa chọn phân loại văn xảy phân bố đặc trưng văn thay đổi từ huấn luyện sang thử nghiệm Đã có nghiên cứu xem xét trường hợp hàm phân phối mục tiêu P (Y) thay đổi từ huấn luyện sang thử nghiệm Ở đây, toán giải trường hợp đầy thách thức mối quan hệ thay đổi nhãn mục tiêu Y nhãn nhiễu Z[5] Mục đích nghiên cứu  Nghiên cứu thuật toán Back-door cải tiến cho phân loại văn có xuất biến nhiễu  Xây dựng mơ hình cài đặt thử nghiệm thuật tốn Back-door cải tiến tốn phân loại văn có xuất biến nhiễu Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu: Thuật toán Back-door cải tiến cho phân loại văn  Phạm vi nghiên cứu: Bài tốn phân loại văn có xuất biến nhiễu Phương pháp nghiên cứu Phương pháp nghiên cứu nghiên cứu lý thuyết kết hợp với thực nghiệm phân tích, đánh giá kết Nội dung luận văn gồm chương sau: Chương – BÀI TOÁN PHÂN LOẠI VĂN BẢN: Giới thiệu toán phân loại văn nói chung trình bày số mơ hình phân loại văn sử dụng phổ biến Chương – THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ SỰ XUẤT HIỆN CỦA BIẾN NHIỄU: Trình bày chứng minh thuật tốn Back-door cải tiến phân loại văn Chương – THỬ NGHIỆM VÀ ĐÁNH GIÁ: Áp dụng thuật toán Back-door cải tiến phân loại tập liệu thực tế, tiến hành so sánh kết với số mơ hình khác rút kết luận Chương - BÀI TỐN PHÂN LOẠI VĂN BẢN Chương trình bày khái quát toán phân loại văn bản, bước giải toán phân loại văn giới thiệu số mơ hình phân loại văn phổ biến 1.1 Bài toán phân loại văn 1.1.1 Phát biểu toán Phân loại văn (Text classification) trình gán nhãn (tên lớp/nhãn lớp) văn ngôn ngữ tự nhiên cách tự động vào nhiều lớp cho trước Bài tốn phân loại văn phát biểu sau: Cho trước tập văn D={d1,d2,…,dn} tập chủ đề định nghĩa C={c1,c2,…,cn} Nhiệm vụ toán gán lớp di thuộc cj cho trước Hay nói cách khác, mục tiêu tốn tìm hàm f cho: f =DxC Boolean f ( d , c)   true false f(d,c)=true d thuộc lớp c f(d,c)=false d không thuộc lớp c 1.1.2 Mơ hình tổng qt Phân loại văn nhà nghiên cứu định nghĩa thống việc gán tên chủ đề (tên lớp / nhãn lớp) xác định trước cho văn dựa nội dung Phân loại văn công việc sử dụng để hỗ trợ q trình tìm kiếm thơng tin (Information Retrieval), trích xuất thơng tin (Information Extraction), lọc văn tự động đưa văn vào chủ đề xác định trước Có nhiều hướng tiếp cận giải toán phân loại văn nghiên cứu như: tiếp cận dựa lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô, tiếp cận dựa thống kê… Tuy nhiên, tất hướng tiếp cận dựa vào phương pháp chung học máy Học máy gồm học có giám sát, học không giám sát học tăng cường Biểu diễn ban đầu Dữ liệu văn Tri thức thêm vào Học quy nạp Biểu diễn ban đầu Giảm số chiều lựa chọn thuộc tính Các cơng cụ phân loại Biểu diễn cuối Hình 1.1 Sơ đồ khung hệ thống phân loại văn bản[1] 1.1.3 Tiền xử lý văn Văn trước vector hoá, tức trước sử dụng, cần phải qua trình tiền xử lý Quá trình tiền xử lý giúp nâng cao hiệu suất phân loại giảm độ phức tạp thuật toán huấn luyện Tuỳ vào mục đích phân loại mà có phương pháp tiền xử lý văn khác nhau, như: - Chuyển văn chữ thường - Loại bỏ dấu câu (nếu không thực tách câu) - Loại bỏ kí tự đặc biệt ([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`], [!],[@], [#], [$],[%],[^],[&],[*],[(],[)]), chữ số, phép tính tốn số học - Loại bỏ stopword (những từ xuất hầu hết văn bản) khơng có ý nghĩa tham gia vào phân loại văn 1.1.4 Phương pháp biểu diễn văn Một nhiệm vụ phân loại văn chọn mơ hình biểu diễn văn thích hợp Một văn dạng thô (dạng chuỗi) cần chuyển sang mơ hình khác để tạo thuận lợi cho việc biểu diễn tính tốn Tuỳ thuộc vào thuật tốn phân loại khác mà có mơ hình biểu diễn riêng Phương pháp chuẩn thường sử dụng Term Frequency Inverse Document Frequency (TFIDF) [17], với hàm tính trọng số từ khóa xác định công thức: m TFIDFl ,d  freql ,d *log    dfl  (1.4) Trong đó: - Tần suất từ khóa l tài liệu d: freql,d số lần xuất từ khóa l tài liệu d - Tần suất văn dfl sốvăn tập tài liệu có chứa từ khóa l - m tổng số tài liệu huấn luyện Trọng số TFIDF từ khóa tồn tập tài liệu m tính cơng thức: TFIDF  TFIDFl ,d , TFIDF  R 1.1.5 Đánh giá phân loại văn Các độ đo thường dùng cho toán phân loại văn bản: a) Ma trận nhầm lẫn (Confusion Matrix) (1.5) Ma trận nhầm lẫn, hay gọi Bảng liệu thống kê (Contingency Table) sử dụng toán phân loại Ý nghĩa ký hiệu ma trận nhầm lẫn:  TPi: Số lượng ví dụ thuộc lớp ci phân loại xác vào lớp ci  FPi: Số lượng ví dụ khơng thuộc lớp ci bị phân loại nhầm vào lớp ci  TNi: Số lượng ví dụ khơng thuộc lớp ci phân loại (chính xác)  FNi: Số lượng ví dụ thuộc lớp ci bị phân loại nhầm (vào lớp khác ci)  P = tổng số ví dụ thuộc lớp ci  N = tổng số ví dụ thuộc lớp khác ci  P-hat = tổng số ví dụ nhận thành lớp ci  N-hat = tổng số ví dụ nhận thành lớp khác ci b) Precision Recall Hai độ đo thường xuyên sử dụng để đánh giá hệ thống phân loại văn - Precision lớp ci: Tổng ví dụ thuộc lớp ci phân loại xác chia cho tổng số ví dụ phân loại vào lớp ci Pri  TPi TPi  FPi (1.6) - Recall lớp ci: Tổng số ví dụ thuộc lớp ci phân loại xác chia cho tổng số ví dụ thuộc lớp ci Rei  TPi TPi  FPi (1.7) c) F1 Tiêu chí đánh giá F1 là kết hợp tiêu chí đánh giá Precision Recall: F  2* precision  recall precision  recall 1.2 Một số mơ hình phân loại văn 1.2.1 Mơ hình Nạve Bayes Nạve Bayes[6] phương pháp phân loại dựa vào xác suất, sử dụng rộng rãi lĩnh vực học máy nhiều lĩnh vực khác cơng cụ tìm kiếm, lọc thư điện tử, … Ý tưởng cách tiếp cận sử dụng xác suất có điều kiện từ cụm từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Như Nạve Bayes khơng tận dụng phụ thuộc nhiều từ vào chủ đề cụ thể Chính giả định làm cho việc tính tốn Nạve Bayes hiệu qủa nhanh chóng phương pháp khác với độ phức tạp theo số mũ khơng sử dụng cách kết hợp từ để đưa phán đốn chủ đề Mục đích tính xác suất Pr(Cj, d’), xác suất để văn d’ nằm lớp Cj Theo luật Bayes, văn d’ gán vào lớp Cj có xác suất Pr(Cj, d’) cao 1.2.2 Mơ hình Support Vector Machine Thuật tốn máy vector hỗ trợ (Support Vector Machines - SVM) Corters Vapnik giới thiệu vào năm 1995[3] SVM đánh giá hiệu để giải toán với liệu có số chiều lớn vector biểu diễn văn Thuật toán SVM ban đầu thiết kế để giải toán phân loại nhị phân tức số lớp hạn chế hai lớp Hiện nay, SVM đánh giá phân loại xác cho toán phân loại văn [16], phân loại tốc độ nhanh hiệu toán phân loại văn Cho tập liệu học D  {( xi , yi ), i  n} với xi  R m yi {  1,1} số nguyên xác định xi liệu dương hay âm Một tài liệu xi gọi liệu dương thuộc lớp ci; xi gọi liệu âm khơng thuộc lớp ci Bộ phân loại tuyến tính xác định siêu phẳng: {x : f ( x)  wT  w  0} (1.16) Trong w  Rm w  R đóng vai trị tham số mơ hình Hàm phân loại nhị phân h : Rm  {0,1} thu cách xác định dấu f(x): 1 h( x )   0 f ( x)  f ( x)  (1.17) Bộ phân loại mơ hình học bao gồm việc xác định w w0 từ liệu Với thuật toán này, liệu xem điểm mặt phẳng Dữ liệu học tách rời tuyến tính (linearly separable) tồn siêu phẳng cho hàm phân loại phù hợp với tất nhãn; tức yi f ( xi )  với i = 1, ,n 1.2.3 Mơ hình Logistic Regression Bài tốn phân loại trường hợp đặc biệt toán hồi qui (Regression), với điều kiện biến dự đoán y nhận hai giá trị, (bài toán binary logistic regression) Có nhận xét để tiếp cận tốn Thứ nhất: Dùng hàm hồi qui tuyến tính (Linear Regression) để dự đoán biến y, biết x Ở bỏ qua điều kiện giá trị y rời rạc(0 1) Ở Linear Regression chọn hàm dự đoán: h ( x)  g ( T x) (1.27) Thứ hai: Giới hạn y đoạn [0, 1], chọn h ( x)  g ( T x) , đó: gz  ,zR  e z (1.28) 10 ˆ |T 1  N  (Y  J  Y ) iN i i jJ i j (1.31) Trong N nhóm nghiên cứu, |N| số đơn vị nhóm nghiên cứu, Ji tập hợp đơn vị so sánh phù hợp với đơn vị nghiên cứu i |Ji| số đơn vị so sánh Ji 1.2.6 Mơ hình Sum out Sum out (SO)[11]: Mơ hình sử dụng phân loại hồi quy logistic, nhãn nằm khoảng giá trị Y Z (nghĩa nhãn dạng {(y=0, z=0), (y=0, z=1), }) Trong trình thử nghiệm, để phân loại cho biến X mới, ta tính tốn giá trị P(Z=1, Y=0|X) + P(Z=0,Y=1|X) 1.3 Bài toán luận văn Xem xét biến số nhiễu biến có ảnh hưởng nhân lên kết việc phân loại văn bản, luận văn nghiên cứu thuật toán phân loại văn dựa thuật toán Back-door cải tiến[3] để kiểm soát biến số nhiễu Bằng cách kiểm soát chặt chẽ yếu tố gây nhiễu, cải thiện đáng kể hiệu phân loại Giả sử ta quan sát biến nhiễu q trình huấn luyện, khơng phải q trình thử nghiệm Xét tốn sau: - Đầu vào tốn: Giả sử có tập liệu huấn luyện D  {( xi , yi , zi )}in1 , bao gồm vector đặc trưng x, nhãn y, biến số nhiễu z xác định trước - Đầu mong đợi: Mục tiêu luận văn dự đoán nhãn yj cho trường hợp xj, không kiểm soát nhiễu zj 11 1.4 Kết luận chương Trong Chương 1, luận văn trình bày tốn phân loại văn bản, vai trị cách tiếp cận, thực toán phân loại văn sau nêu số mơ hình phân loại văn thường sử dụng Trong chương tiếp theo, luận văn xem xét toán phân loại văn điều kiện xuất biến số nhiễu có ảnh hưởng đến kết phân loại văn 12 Chương - THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ XUẤT HIỆN CỦA BIẾN NHIỄU 2.1 Giới thiệu Các mơ hình phân loại văn Chương áp dụng cho toán gán nhãn Y cho đối tượng X X Y biến số độc lập với Thuật toán Back-door tiêu chuẩn Pear[6] giới thiệu năm 2003, đưa sơ đồ đơn giản để kiểm tra quan hệ nhân biến Thuật toán Backdoor cải tiến xem xét trường hợp mà đối tượng cần phân loại X có tác động nhân với biến nhãn Y Bằng việc kiểm soát biến số nhiễu Z, Z có ảnh hưởng tới X Y, mơ hình kỳ vọng có cải thiện độ xác phân loại trường hợp X có tác động nhân với Y 2.2 Thuật toán Back-door tiêu chuẩn Giả sử có sơ đồ nhân G, với liệu thử nghiệm tập V gồm biến thuộc G, giả sử ước tính ảnh hưởng biến đầu vào (X=x) có tập biến trả Y, X Y hai tập V Nói cách khác, ước tính P( y | xˆ) từ ước lượng mẫu P(v) Tồn sơ đồ kiểm tra đơn giản, tên "tiêu chuẩn Back-door" Pearl[6], áp dụng trực tiếp vào sơ đồ nguyên nhân để kiểm tra tập hợp Z  V gồm biến có khả xác định P( y | xˆ ) Định nghĩa 1: Tiêu chuẩn Back-door Một tập biến Z thỏa mãn tiêu chuẩn Back-door liên quan đến cặp biến (Xi,Xj) đồ thị khơng tuần hồn G nếu: (i) khơng có nút Z hậu duệ Xi; Và 13 (ii) Z chặn đường Xi Xj có chứa mũi tên vào Xi Tương tự vậy, X Y hai tập hợp nút G, Z đáp ứng tiêu chí tương ứng với (X, Y) thỏa mãn tiêu chuẩn Back-door với cặp (Xi, Xj) ví dụ Xi X Xj Y Cái tên "Back-door" thể điều kiện (ii), đòi hỏi chặn đường có mũi tên vào Xi; Những đường xem nhập Xi thơng qua cửa sau Trong ví dụ Hình 1, Zl={X3, X4} Z2={X4, X5} đáp ứng tiêu chí back-door, Z3={X4} khơng thoả mãn X4 không chặn đường dẫn (Xi, X3, Xl, X4, X2, X5, Xj) Hình 2.1 Mơ hình ví dụ cho tiêu chuẩn Back-door Trong hình trên, điều chỉnh biến {X3,X4} {X4,X5} mang lại ước tính thích hợp cho P( x j | xˆi ) 2.3 Thuật toán Back-door cải tiến cho phân loại văn Thuật toán Back-door cải tiến Nếu tập hợp Z gồm biến thỏa mãn tiêu chuẩn Back-door, xác định cặp biến (X, Y), ảnh hưởng nhân X Y xác định cho công thức: 14 P( y | xˆ )   P( y | x, z ) P( z ) (2.1) z Công thức (2.1) đại diện cho công thức chuẩn đạt điều chỉnh Z; biến X (2.1) đặt tên "điều kiện bỏ qua Z" Rosenbaum Rubin[12] Các tiêu chuẩn đồ họa kiểm tra hệ thống thủ tục áp dụng cho sơ đồ với kích thước hình dạng Tiêu chuẩn cho phép nhà phân tích tìm kiếm tập hợp biến số tối ưu - cụ thể tập hợp Z giảm thiểu chi phí đo lường biểu diễn mẫu [18] Tập Z gọi "bộ đầy đủ" để kiểm soát nhiễu 2.4 Điều chỉnh khả cải tiến thuật tốn Back-door Để cài đặt, p(z) tính ước tính xác suất tối đa Tính p(y|x,z) cách thêm hai tính bổ sung ci, ci, cho trường hợp xi với z = z = Tính thứ (thứ hai) đặt thành v1 zi = (zi = 1) tính thứ hai (thứ nhất) đặt Trong trường hợp mặc định, cho v1 = xem xét lại định phần Để dự đoán trường hợp mới, ta tính tốn cách sử dụng phương trình (2.1) Ở đây, dùng trực giác thấy cách tiếp cận hữu ích, phương pháp phép nhà nghiên cứu điều chỉnh sức mạnh thuật toán Back-door cải tiến 2.5 Kết luận chương Trong Chương 2, luận văn trình bày thuật toán Back-door tiêu chuẩn, thuật toán Back-door cải tiến cho phân loại văn khả cải tiến thuật toán Back-door bải toán phân loại văn Trong chương luận văn trình bày kết áp dụng thuật toán Backdoor cải tiến vào việc phân loại liệu từ Twitter IDMb 15 Chương - THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Các tập liệu tiền xử lý liệu cho thử nghiệm 3.1.1 Bộ liệu Twitter Mục tiêu luận văn dự đốn vị trí người sử dụng Twitter từ tweet họ, với giới tính xem biến nhiễu tiềm Để thực mục tiêu này, luận văn sử dụng liệu từ nguồn [5] Dữ liệu thu thập dựa việc sử dụng API Twitter streaming để thu thập tweet với đối tượng địa lý từ New York City (NYC) Los Angeles (LA) thời gian hai ngày (15, 16 tháng năm 2017) Bộ liệu chứa khoảng 100 000 tweet cho NYC 218,945 cho LA Dự đốn vị trí với giới tính biến gây nhiễu, gán yi = cho biết NYC zi= Nam Do cách xây dựng liệu này, liệu phân bố bốn cặp y/z có 3.1.2 Bộ liệu IMDb Mục tiêu luận văn thử nghiệm dự đoán cảm xúc đánh giá phim bị nhiễu thể loại phim liệu IMDb theo Maas[7] Bộ liệu chứa 50.000 đánh giá phim từ IMDb gắn nhãn với tình cảm tích cực tiêu cực Loại bỏ từ dừng tiếng Anh, thuật ngữ xuất 10 lần, sử dụng véc tơ nhị phân để biểu có khơng có đặc trưng Xác định biến biến nhiễu phim thuộc thể loại "kinh dị", xác định phân loại IMDb Vì vậy, cho zi = cho phim kinh dị, zi = không phim kinh dị Trái với liệu Twitter, liệu phân bố không đồng bốn cặp nhãn/nhiễu Khoảng 18% phim phim kinh dị, 5% đánh giá với tình cảm tích cực phim kinh dị 3.2 Kịch thử nghiệm 16 Luận văn tiến hành thử nghiệm so sánh mô hình sau: - Logistic Regression (LR)[11] - Back-door cải tiến (BA)[3] - Subsampling (LRS)[9] Với mơ hình, tiến hành chạy thử nghiệm liệu với kịch sau: - Lấy liệu huấn luyện: 800 mẫu cho Twitter, 1000 mẫu cho IMDb - Lấy liệu thử nghiệm: 800 mẫu cho Twitter, 1000 mẫu cho IMDb - Quan sát kết đầu thống kê tham số: o Độ xác huấn luyện thử nghiệm khác với P(Y|Z) o Độ xác trung bình huấn luyện ưu tiên o Phần trăm đặc trưng thể nghịch lý Simpson 3.3 Kết 3.3.1 Kết liệu Twitter Trong Hình 3.1 3.2, phương pháp tốt khu vực định BAZ10 LRS Chúng tốt tất phân loại khác khoảng [-1.6, -0.6] ∪ [0.6, 1.6]: có khoảng 15 điểm tốt so với BA, khoảng 20 điểm so với LR Ngoài - khu vực - BAZ10 tốt BA LR Hơn nữa, độ xác tối đa tổn thất BAZ10 phân loại khác xấp xỉ điểm khác biệt tương quan Điều cho thấy BAZ10 đáng kể nhiều so với LR, sai sót lượng nhỏ yếu tố gây nhiễu có tác động 17 Hình 3.1 Độ xác huấn luyện thử nghiệm khác với P(Y|Z) liệu Twitter Hình 3.2 Độ xác trung bình liệu Twitter huấn luyện ưu tiên Để hiểu BAZ10 xác mạnh mẽ phương pháp khác, ta tính tốn hệ số phân loại LR, BA BAZ10 ưu tiên 0.9 (tức 90% người New York nam giới) Hình 3.3 thể hệ số cho mười đặc trưng tiên đoán nhiều nhãn lớp theo thống kê (disneyland, brooklyn, angeles, nj, socal, losangeles, freeway, dtla, dodgers, pasadena) mười 18 đặc trưng tiên đoán nhiều biến số nhiễu (cutest, makeup, obsessed, girlposts, nails, sodamntrue, xoxo, bff, leggings, adorable) Trọng số đặc trưng liên quan đến vị trí (10 đặc trưng đầu tiên) giảm chút phương pháp Back-door cải tiến tương đối quan trọng Ngược lại, trọng lượng đặc trưng liên quan đến giới tính (10 đặc trưng lại) giảm dần phương pháp Back-door cải tiến Lưu ý sử dụng BAZ10 thay BA có tác động nhiều đến đặc điểm liên quan đến giới tính Những kết hỗ trợ quan sát trực quan huấn luyện Back-door cải tiến ảnh hưởng đến đặc trưng chịu tác động nhiễu nhiều Hình 3.3 Đặt hệ số ưu tiên 0.9 cho phân loại LR, BA BAZ10 thử nghiệm Twitter 19 Một cách khác để xem xét tác động BA, dùng khái niệm nghịch lý Simpson[14] Trong nghiên cứu nguyên nhân, nghịch lý Simpson phát sinh hiệu X Y tìm thấy dương tính quần thể chung, âm tính tiểu quần thể xác định nhiễu Z Ví dụ, hút thuốc phát gây ung thư cộng đồng, phát không gây ung thư xem xét cộng đồng nam giới phụ nữ cách riêng biệt Đối với phân loại định, tính tốn số đặc trưng văn thể nghịch lý Simpson cách xác định hệ số mặt phù hợp với tất liệu, ngược lại lại phù hợp với trường hợp liệu với z = z = Nghĩa là, xác định hệ số mà dự đốn y = cho tồn bộ, dự đốn y = cho nhóm (và ngược lại) Hình 3.4 tính tỷ lệ phần trăm đặc trưng thể nghịch lý Simpson cho sức mạnh thiên vị liệu chọn Dữ liệu Twitter có chứa khoảng 22000 đặc trưng Trong trường hợp BAZ10, số lượng đặc trưng thể nghịch lý Simpson tương đối ổn định; tăng nhanh thiên vị đạt cực trị phương pháp khác (Quan sát kết tương tự liệu IMDb.) 20 Hình 3.4 Phần trăm đặc trưng thể nghịch lý Simpson Từ Hình 3.3 3.4, kết luận có hai cách để Back-door cải tiến tăng cường tính hiệu quả: (1) cách điều chỉnh với thuật ngữ có quan hệ với biến nhiễu Z; (2) cách hiệu chỉnh phía hệ số dự đốn Y bị sai khác nhiễu 21 Hình 3.5 Ảnh hưởng việc điều chỉnh độ mạnh v1 hệ số đặc trưng c0, c1 độ xác liệu Twitter Hình 3.5 ảnh hưởng tham số v1 phương pháp BA, điều khiển sức mạnh việc cải tiến Back-door Hình cho thấy thay đổi hệ số quy mô giá trị tuyệt đối c0 c1 (đường nét đứt) độ xác (đường liền) v1 tăng lên Twitter Những kết trường hợp mức độ ưu tiên khác huấn luyện kiểm tra lớn (|ưu tiên huấn luyện – ưu tiên thử nghiệm > 1.2) Độ xác thấp ổn định v1 nhỏ 10-1 Sau tăng bắt đầu tăng cao v1 = 10 Với số liệu này, độ xác đạt 15 điểm hai đường c0 c1 3.3.2 Kết liệu IMDb Hình 3.6 Hình 3.7 hiển thị kết cho liệu IMDb BA BAZ10 lần xuất hiệu biến gây nhiễu ưu tiên Các phương pháp khác thực tốt, ngoại trừ LRS, tạo kết khoảng 10 điểm so với phương pháp khác (từ hình bỏ qua LRS) Đánh giá hiệu suất so với thực tế phân bố biến số y |z sai lệch nhiều Twitter, 22 dẫn đến LRS phù hợp với phần nhỏ liệu đào tạo Điều giải thích thay đổi độ xác tổng thể cực trị thử nghiệm Twitter: hiệu ứng gây nhiễu giảm thiểu có phim kinh dị liệu Hình 3.6 Độ xác huấn luyện thử nghiệm khác với P(Y|Z) liệu IMDb Hình 3.7 Độ xác trung bình liệu IMDb huấn luyện ưu tiên 23 Đối với thí nghiệm liệu từ IMDb Twitter, ta tính thêm phép thử cặp để so sánh BAZ10 LR cho giá trị khác biệt tương quan (ví dụ, trục x Hình 3.1 3.6) Ta thấy 19 trường hợp, BAZ10 hoạt động tốt LR; trường hợp, LR hoạt động tốt BAZ10; trường hợp kết không khác biệt đáng kể (p

Định dạng
Số trang	26
Dung lượng	794 KB