BÁO CÁO PHƯƠNG PHÁP, KỸ THUẬT PHÂN TÍCH DỮ LIỆU

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN BÁO CÁO PHƢƠNG PHÁP, KỸ THUẬT PHÂN TÍCH DỮ LIỆU Tên đề tài: “Phƣơng pháp phân tích liệu ứng dụng phân tích thu nộp thuế doanh nghiệp phục vụ tra” Mã số: VAST 01.08/16-17 Hƣớng KHCN ƣu tiên: Công nghệ thơng tin, Điện tử, Tự động hóa Cơng nghệ vũ trụ (VAST01) Đơn vị chủ trì: Viện Cơng nghệ thông tin Chủ nhiệm đề tài: PGS.TS Nguyễn Long Giang Thời gian thực hiện: 24 tháng (01/2016 – 12/2017) Hà Nội, 2018 MỤC LỤC MỤC LỤC .i DANH MỤC CÁC BẢNG iii DANH MỤC CÁC HÌNH iv MỞ ĐẦU Chƣơng TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU DỰA TRÊN HỌC MÁY 1.1 Các vấn đề thuật ngữ 1.2 Mục tiêu phân tích liệu dựa học máy 1.3 Các phƣơng pháp phân tích liệu dựa học máy 1.3.1 Phương pháp phân tích dựa mẫu .5 1.3.2 Phương pháp suy luận logic 1.3.3 Mạng trí tuệ nhân tạo 1.3.4 Phương pháp phân tích tiến hóa 1.3.5 Phương pháp phân tích thống kê .8 1.3.6 Một số phương pháp khác .9 1.3.7 Một số vấn đề 10 Chƣơng PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU 12 2.1 Phân lớp định 14 2.1.1 Độ lợi thông tin 17 2.1.2 Tỉ số độ lợi .19 2.1.3 Chỉ số Gini .20 2.1.4 Cắt tỉa 25 2.2 Cây phân lớp hồi quy 26 2.2.1 Phát triển CART 27 2.2.2 Dự đoán CART 27 2.2.3 Cắt tỉa CART .28 2.3 Thuật toán phân lớp Naive Bayes 33 2.3.1 Định lý Bayes 33 2.3.2 Phân lớp Naive Bayes 34 2.4 Thuật toán phân lớp máy vector hỗ trợ SVM 39 2.4.1 Mơ hình Linear SVM 39 i 2.4.2 Mơ hình NoLinear SVM 45 2.4.3 Phân lớp đa lớp với SVM 49 2.5 Thuật toán phân lớp kNN 51 2.6 Đánh giá giải thuật phân lớp 56 Chƣơng PHƢƠNG PHÁP PHÂN TÍCH HỒI QUY VÀ TƢƠNG QUAN 60 3.1 Phân tích tƣơng quan 60 3.1.1 Hệ số tương quan .61 3.1.2 Khoảng tin cậy 95% hệ số tương quan .67 3.1.3 Kiểm định hệ số tương quan 68 3.1.4 Tổng kết 69 3.2 Phân tích hồi quy 71 3.2.1 Mơ hình hồi quy tuyến tính đơn giản .73 3.2.2 Mơ hình hồi quy tuyến tính đa biến 83 3.2.3 Phân tích hồi quy đa thức 92 3.2.4 Phân tích hồi quy logistic 97 KẾT LUẬN .112 TÀI LIỆU THAM KHẢO 113 ii DANH MỤC CÁC BẢNG Bảng 2.1 Bảng liêu khách hàng 16 Bảng 2.2 Dữ liệu Fisher's Iris Data 23 Bảng 2.3 Dữ liệu Titanic 29 Bảng 2.4 Ma trận lẫn lộn 56 Bảng 3.1 Ý nghĩa hệ số tương quan 64 Bảng 3.2 Chỉ số đo cận nặng chiều cao 15 người Việt 65 Bảng 3.3 Dữ liệu Cholesterol máu 18 nam 77 Bảng 3.4 Sản lượng CO2 số yếu tố ảnh hưởng đến CO2 88 Bảng 3.5 Dữ liệu đo độ căng vật liệu 93 Bảng 3.6 Dữ liệu yếu tố nguy gẫy xương 97 iii DANH MỤC CÁC HÌNH Hình 1.1 Phân lớp SVM 10 Hình 2.1 Mơ hình phân lớp 15 Hình 2.2 Biểu diễn định 17 Hình 2.3 Mơ tả định với liệu IRIS 24 Hình 2.4 Kết dự đốn với liệu test (30%IRIS) 25 Hình 2.5 (a) Cây trước cắt tia; (b) Cây sau cắt tỉa 26 Hình 2.6 Cây CART với liệu Titalic 32 Hình 2.6 (c) (d) Biểu diễn CART với nhãn tổng số mẫu nút 33 Hình 2.7 Mổ tả kết mơ hình Nạve Bayes 39 Hình 2.8 Minh họa liệu phân tách cách phi tuyến 40 Hình 2.9 Lề siêu phẳng 40 Hình 2.10 Siêu phẳng có lề lớn 41 Hình 2.11 Minh họa véc tơ hỗ trợ 43 Hình 2.12 Biểu diễn mơ hình phân lớp Linear SVM 45 Hình 2.13 Hàm ánh xạ từ liệu phi tuyến sang liệu tuyến tính 46 Hình 2.14 Biểu diễn mơ hình phân lớp NoLinear SVM 48 Hình 2.15 Biểu diễn phân lớp SVM đa lớp 51 Hình 2.16 Các bước mơ hình học máy có giam sát 52 Hình 2.17 Kết dự báo FX KNN 56 Hình 3.1 Minh họa liên hệ x y 64 Hình 3.2 Mơ tả mối quan hệ hai biến weight waist 65 Hình 3.4 Mơ tả liệu quản cáo 71 Hình 3.5 Biểu diễn mơ hình tuyến tính đơn giản 73 Hình 3.6 Mơ tả phần dư mơ hình tuyến tinh 75 Hình 3.7 Phương pháp Ballentine với R2, (a) R2= 0, (f) R2=1 76 Hình 3.8 Biểu đồ mơ ta phụ thuộc age chol 78 Hình 3.9 Biểu đồ phân tích R hồi quy tuyến tính 81 Hình 3.10 Biểu diễn giá trị dự báo khoảng tin cậy 95% 82 Hình 3.11 Biểu diễn mối quan hệ age, bmi chol 84 Hình 3.12 Biểu đồ phân tích mơ tả phần dư 87 iv Hình 3.14 Biểu diễn quan hệ độ cứng gỗ độ căng vật liệu 95 Hình 3.15 So sánh kết dự báo mơ hình 97 Hình 3.16 Biểu diễn mối liên hệ p logit(p) 99 Hình 3.17 So sánh mật độ sương nhóm fx=1 nhóm fx=0 102 Hình 3.18 Xác suất dự báo khả gẫy xương với mật độ xương 104 Hình 3.19 Biểu đồ dự báo gẫy xương với newd mơ hình logistic 105 Hình 3.20 Biểu diễn khả ảnh hưởng gậy xương biến độc lập 111 v MỞ ĐẦU Trong thời đại ngày nay, thông tin trở thành động lực chủ chốt cho tăng trƣởng kinh tế quốc gia, cho tăng cƣòng lực cạnh tranh doanh nghiệp Tuy nhiên, với lƣợng liệu số tăng nhanh chóng kích thƣớc đa dạng Dữ liệu đƣợc thu thập từ nhiều nguồn nhƣ: liệu từ internet, đặc biệt loại liệu ngƣời sử dụng tạo (UserGenerated Content: UGC) chiếm tỷ trọng ngày cao, trở thành nguồn tài ngun tiềm ẩn Trích rút thơng tin hữu ích đƣợc sử dụng cho phát triển kinh tế tăng cƣòng lực cạnh tranh Nghiên cứu triển khai phƣơng pháp tự động phát mẫu mới, có giá trị, hữu ích tiềm hiểu đƣợc khối liệu đồ sộ, khắc phục tƣợng "giàu liệu mà nghèo thơng tin, hƣớng tới mục tiêu tăng cƣịng tài ngun tri thức cần thiết có ý nghĩa Phân tích để hiểu đƣợc liệu phát đƣợc liệu mà ngƣời quan tâm theo khía cạnh ứng dụng thực tế phát triển mạnh mẽ Nội dung trình bày tài liệu gồm ba chƣơng: Chƣơng 1, trình bày tổng quan phƣơng pháp ký thuật phân tích liệu, nhằm có nhìn tổng quan, từ lựa chọn phƣơng pháp phân tích phù hợp cho liệu thu nộp thuế chúng tôi; Chƣơng 2, trình bày chi tiết số kỹ thuật phân lớp liệu với mục đích hiểu chi tiết chất kỹ thuật, để biết đƣợc ƣu nhƣợc điểm kỹ thuật phân lớp, có sử dụng kỹ thuật để đối phó với liệu thu nộp thuế nhƣ nào?; Chƣơng 3, trình bày kỹ thuật phân tích hồi quy tƣơng quan, với mục đích phân tích mối liên hệ yếu tố ảnh hƣởng đến khả thu nộp thuế cá nhân doanh nghiệp lựa chọn đƣợc hàm phụ thuộc (mô hình) tối ƣu cho mục đích tốn tra kiểm tra thuế Chƣơng TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU DỰA TRÊN HỌC MÁY Ngày nay, với phát triển mạnh công nghệ mạng đa dạng dich vụ internet Thông tin ngày trở nên đa dạng phức tạp, địi hỏi ngƣời dùng cần có lựa chọn thơng tin có ích cho mục đích sử dụng Vì vậy, ngƣời cần có hệ thống thu thập, lƣu trữ phân tích để hiểu lệu cách xác, nhanh chóng Từ tìm, suy luận bổ sung để trích dẫn đƣợc thơng tin hữu ích ứng dụng cho toán hỗ trợ định dự báo, dự đoán cho hàng vi tƣơng lai Các phƣơng pháp phân tích liệu sử dụng cơng cụ khai phá liệu học máy đƣợc áp dụng để giải hiệu lĩnh vực tài chính, cơng nghiệp, mạng xã hội, y học, sinh học, v.v Phân tích hiệu liệu thu thập đƣợc gia tăng đáng kể suất kinh doanh, sản xuất, đƣợc đánh giá cao hữu ích ứng dụng hỗ trợ định, giám sát chẩn đốn Phân tích trích rút câu trả lời mẫu hữu ích nhƣ quy tắc quy luật liệu Những mẫu đƣợc sử dụng để dự báo, chuẩn đốn phân lớp, v.v Tóm lại, phân tích liệu học máy ứng dụng đƣợc vào nhiều lĩnh vực khoa học, công nghiệp, y tế, sinh học, kinh tế, xã hội, Tuy nhiên, khoảng cách nghiên cứu lý thuyết ứng dụng thực tế Do vậy, học máy thƣờng xây dựng mơ hình cấu trúc phân tích, dự đốn đạt tới tiêu chuẩn hiệu suất lấy làm sở để áp dụng Dữ liệu thu thập sử dụng để phân tích thƣờng tiếng bẩn Dữ liệu chứa giá trị lỗi, giá trị nhiễu, giá trị mơ hồ, giá trị ngoại lai giá trị thiếu không đo đạc đƣợc số lƣợng lớn trƣờng, thuộc tính khơng liên quan không cần thiết Tất điều trở nên nghiêm trọng giai đoạn xây dựng mơ hình thƣờng tốn chi phí thời gian Có nhiều phƣơng pháp đƣợc áp dụng để xử lý liệu bẩn nhƣ lý thuyết toán, lý thuyết tập thô, lý thuyết tập mờ, phƣơng pháp học máy, Phân tích liệu dựa khai phá liệu học máy làm để xây dựng thuật tốn, mơ hình chƣơng trình máy tính tự động có khả hiểu, dự báo định nhanh, hiệu xác quan sát hành vi so sánh với hanh vi khứ …Trong phần này, chúng tơi trình bày ngắn gọn số phƣơng pháp, đặc tính thành phần phân tích liệu sử dụng phƣơng pháp, kỹ thuật khai phá liệu học máy 1.1 Các vấn đề thuật ngữ Trong học máy có hai kiểu khơng gian hoạt động Một khơng gian X bao gồm điểm liệu khơng gian  bao gồm tất mơ hình học máy có thể: Trong phạm vi tài liệu  mơ hình học giám sát (supervised) mơ hình học khơng giám sát (unsupervised) Mơ hình học máy dựa tập huấn luyện  x    N  1  X , thuật toán học máy lựa chọ mơ hình học   Học lựa chọn giá trị thích hợp cho tham số mơ hình học máy từ tập huấn luyện Làm để thực lựa chọn điều kiện đƣợc sử dụng để đánh giá mơ hình học khác Mơ hình học có giám sát chia liệu thành hai tập gồm tập biến điều kiện X (tập đầu vào), tập biến mục tiêu Y (biến đầu ra) đƣợc biểu diễn dƣới dạng hàm Y = f(X) Học có giám sát dựa giá trị hàm đƣợc xác định trƣớc từ liệu huấn luyện  x  , y     N  1  X  Y , nghĩa muốn tìm hàm y  f  x,  với   Phân lớp dự báo thƣờng đƣợc áp dụng cho thuật tốn học có giám sát Trong học không giám sát, liệu đƣợc biểu diễn tập biến điều   kiện x  N  1  X Sau thuật tốn học phát số cấu trúc ghi nhớ lại đƣợc gọi mẫu Các mẫu có tính chất tƣơng tự đƣợc gọi cụm đƣợc gán nhãn 1.2 Mục tiêu phân tích liệu dựa học máy Mục tiêu phân tích liệu dựa học máy dự báo giá trị chƣa biết thuộc tính dựa yếu tố khác dựa liệu mẫu (dữ liệu lịch sử) dựa mơ tả đặc tính bên liệu, … Các toán phạm vi học máy giải thƣờng phân lớp (Classification); hồi quy dự báo (Regression and prediction); phát bất thƣờng (Anomaly Detection); mơ tả cấu trúc hay cịn gọi phân tích mơ tả (Structure Description) Mục tiêu tốn phân lớp xây dựng hàm ánh xạ dựa liệu lịch sử đƣợc phân lớp đƣợc rời rạc hóa để tìm kiếm giá trị cho đối tƣợng có thuộc khơng thuộc lớp Ví dụ xác định doanh nghiệp có khả nợ thuế hay khơng cần phải có liệu lịch sử thu nộp thuế doanh nghiệp, xác định khả tin dụng khách hàng cần lịch sử giao dịch tài khách hàng, chẩn đốn bệnh nhân có bệnh khơng có bệnh cần dựa triệu chứng ngƣời bệnh,… Tƣơng tự nhƣ toán phân lớp mục tiêu toán hồi quy xây dựng hàm ánh xạ dựa vào liệu lịch sử để xác định giá trị cụ thể biến dự báo Ví dụ dự báo giá trị tƣơng lại cổ phiếu cần dựa vào giá trị lịch sử cổ phiếu đó, chúng tả ƣớc lƣợng đƣợc số thuốc cần dùng năm cần liệu sử dụng thuốc năm trƣớc đó, ƣớc lƣợng mức độ gian lân thuế doanh nghiệp cần liệu lịch sử gian lận thuế doanh nghiệp,… Mục tiêu tốn phát khác biệt, khơng đồng liệu Để giải toán ngƣời ta thƣờng nghiên cứu đặc trƣng liệu, nghiên cứu tần suất xuất đặc tính liệu Trong học máy thƣờng sử dụng mẫu đƣợc xây dựng từ liệu bình thƣờng, sau so sánh có khác biệt lớn so với liệu mẫu đƣợc coi bất thƣờng Mơ tả cấu trúc tìm, mơ tả tính chất cấu trúc tập liệu để tìm thuộc tính quan trọng đƣa vào liệu học mà giải thích rõ ảnh hƣởng nhiều tới biến mục tiêu toán Để giải toán này, Ziarko, 1991 xây dựng mơ hình thống kê giải thích phụ thuộc mối tƣơng quan thuộc tính liệu 1.3 Các phƣơng pháp phân tích liệu dựa học máy Các phƣơng pháp phân tích liệu dựa học máy đƣợc hình thành phát triển dựa lý thuyết toán học lý thuyết xác suất thống kê Do phƣơng pháp học máy đa dạng phong phú Tuy nhiên chủ yếu gồm nhóm phƣơng pháp học học dựa mẫu (Instance-Based Learning); suy luận logic (Logical Inference); mạng trí tuệ nhân tạo (Artificial Neural Networks); phƣơng pháp thống kê (Statistical Methods); tính tiến hóa (evolutionary computation) số phƣơng pháp khác nhƣ SVM (Support Vector Machine), Boosting, Randomfrest, … 101 trình bày qua khái niệm Khi có nhiều mơ hình để mơ tả hay nhiều mối liên hệ, deviance đƣợc sử dụng để đánh giá thích hợp mơ hình hay chọn mơ hình “ tối ƣu” Ví dụ 3.6 Để ƣớc tính hai tham số α β mơ hình hồi quy logistic cho liệu bảng 3.6 với khả gẫy xƣơng (fx) mật độ xƣơng (bmd) có ảnh hƣởng hay khơng Chúng ta cần thống kê có bao nhiều bệnh nhân bị gẫy xƣơng liệu mẫu > table(fx) fx 101 38 Kết cho thấy 139 số ngƣời đƣợc khảo sát có 38 bệnh nhân bị gẫy xƣơng, 101 bệnh nhân không bị gẫy xƣơng Tiếp ục xét xem mật độ xƣơng nhóm gẫy xƣơng khơng gẫy xƣơng > tapply(as.numeric(bmd),fx,mean) 0.9444851 0.9016667 101 102 Hình 3.17 So sánh mật độ sương nhóm fx=1 nhóm fx=0 Kết cho thấy mật độ xƣơng (BMD) nhóm bị gẫy xƣơng thấp nhóm khơng bị gẫy xƣơng Và kiểm định t cho thấy độ khác biệt hai nhóm khơng có ý nghĩa thống kê > t.test(as.numeric(bmd)~fx) Welch Two Sample t-test data: as.numeric(bmd) by fx t = 1.4572, df = 53.952, p-value = 0.1508 alternative hypothesis: true difference in means is not equal to 95 percent confidence interval: -0.01609226 0.10172922 sample estimates: mean in group mean in group 0.9444851 0.9016667 Để ƣớc tính tham số α β mơ hình hồi quy logistic, sử dụng hàm số glm R nhƣ sau: > kglm summary(kglm) Call: glm(formula = fx ~ bmd, family = "binomial") Deviance Residuals: Min 1Q -1.0287 -0.8242 Median -0.720 3Q 1.3780 Max 2.0709 Coefficients: Estimate Std Error z value Pr(>|z|) (Intercept) 1.063 1.342 0.792 0.428 Bmd -2.270 1.455 -1.560 0.119 (Dispersion parameter for binomial family taken to be 1) Null deviance: 175.81 on 136 Residual deviance: 155.27 on 135 AIC: 159.27 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 102 103 Hàm cho phƣơng trình logistic biến phụ thuộc fx (gẫy xƣơng) với biến mật độ xƣơng (bmd) với luật phân phối, mà phân phối nhị phân (binomial) phân phối chuẩn hồi quy logistic Deviance phản ảnh độ khác biệt mô hình liệu Tiếp theo cung cấp ƣớc số hệ số α β  Đó là, a=1.063, b=-2.270 ( ƣớc số b âm chứng tỏ mối liên hệ giƣa bmd fx nghịch đảo Tức xác suất gẫy xƣơng (fx) tăng mật độ xƣơng (bmd) giảm Tuy nhiên, kiểm định z ( tính cách lấy ƣớc số chia cho sai số chuẩn ) cho thấy ảnh hƣởng bmd khơng có ý nghĩa thống kê, vị trí p=0.119 Tỉ số odds ratio (hay viết tắt OR ) e2.27  0.1033 Nói cách khác, bmd tăng 1 g / cm2  ( g / cm2 đơn vị đo lƣờng bmd ) OR giảm 0.9067 hay 90,67% tăng 1 g / cm2  mật độ cao xƣơng không thực tế Cho nên cách tính khác tính độ lệch chuẩn (standard deviation ) bmd Chúng ta tìm hiểu độ lệch chuẩn bmd: > sd(bmd) [1] 0.1406543 Do đó, OR tính 0.14  g / cm2  Và OR cho độ lệch chuẩn , là: e2.27*0.1406  0.7267 Tức là, bmd tăng độ lệch chuẩn tỉ số khả gãy xƣơng giảm khoảng 28% Cũng nói cách khác, bmd giảm độ lệch chuẩn tỉ số khả tăng e2.27*0.1406  1.376 hay khoảng 38% Một cách khác để tính ảnh hƣởng bmd tính xác suất gãy xƣơng qua phƣơng trình p e1.0632.27( bmd )  e1.0632.27(bmd ) Theo đó, bmd = 1.00, p = 0.23 Khi bmd = 0.86 (tức giảm độ lệch chuẩn), p = 0.291 Tức là, BMD giảm độ lệch chuẩn xác suất gãy xƣơng tăng 0.291/0.23 = 1.265 hay 26%5 Tham số cuối Null Deviance cho thấy mơ hình khơng có biến độc lập mơ hình với biên độc lập 103 104 Null deviance: 175.81 on 136 degrees of freedom Residual deviance: 155.27 on 135 degrees of freedom AIC: 159.27 Qua hai số này, thấy bmd ảnh hƣởng thấp đến việc dự đoán gãy xƣơng, làm giảm deviance từ 157.8 xuống 155.27, mức độ giảm khơng có ý nghĩa thống kê Sau ƣớc lƣợng tham số α β cho mơ hình logistic, tiến hành dự báo xác suất p ( liệt kê giá trị đỗi tƣợng) nhƣ sau: > predict(logistic,type="response") 0.3094343 0.2918883 0.1606811 0.3454763 0.3334710 0.2715012 0.2400554 0…… … … Kết cho biết ƣớc tính xác suất gẫy xƣơng đối tƣợng 0.3094343, 0.2918883,v.v…, giá trị dự báo bmd đƣợc biểu diễn hình 3.18 nhƣ sau: Hình 3.18 Xác suất dự báo khả gẫy xương với mật độ xương 104 105 Biểu đồ hình 3.18 cho thấy khoảng cách bmd phân bổ không Do vậy, cho khoảng cách giá trị bmd gần (nhƣ 0.50,0.55, 0.60, ,1.2) dùng đƣờng thẳng thay dấu chấm hình 3.19 > > > > fnbmd logIctp summary(logIctp) Call: glm(formula = fx ~ ictp, family = "binomial") Deviance Residuals: Min 1Q Median -1.7565 -0.7228 -0.6269 3Q 0.9366 Max 2.1100 107 108 Coefficients: Estimate Std Error z value (Intercept) -3.6105 0.7397 -4.881 ictp 0.5573 0.1476 3.777 Signif codes: ‘***’ 0.001 ‘**’ 0.01 Pr(>|z|) 1.06e-06 *** 0.000159 *** ‘*’ 0.05 ‘.’ 0.1 ‘ ’ (Dispersion parameter for binomial family taken to be 1) Null deviance: 163.07 Residual deviance: 146.60 AIC: 150.6 on 138 on 137 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: Kết mơ hình có giá trị residual deviance (146.6) nhỏ mơ hình với độ tuổi (158.3), AIC thấp (150.6 so với 162.3) Kết cho thấy mơ hình với ictp mơ tả fx đầy đủ mơ hình với độ tuổi So sánh cho thấy hai mơ hình này, chọn mơ hình với ictp (c) Xét mơ hình itcp với age > logAI summary(logAI) Call: glm(formula = fx ~ ictp + age, family = "binomial") Deviance Residuals: Min 1Q Median -1.8075 -0.7364 -0.6109 3Q 0.7376 Max 2.2542 Coefficients: Estimate Std Error z value (Intercept) -6.47521 2.74268 -2.361 ictp 0.51687 0.15170 3.407 age 0.04276 0.03894 1.098 Signif codes: ‘***’ 0.001 ‘**’ 0.01 Pr(>|z|) 0.018230 * 0.000656 *** 0.272198 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ (Dispersion parameter for binomial family taken to be 1) Null deviance: 163.07 Residual deviance: 145.38 AIC: 151.38 on 138 on 136 degrees of freedom degrees of freedom 108 109 Number of Fisher Scoring iterations: Mơ hình với thông số (intercept, age ictp), nhƣng trị số AIC giảm xuống 151.38 (cao so với mơ hình với ictp 150.6) Do vậy, tham số age khơng cần thiết mơ hình Thật vậy, trị số p cho age 0.272, tức ý nghĩa thống kê Qua ba trƣờng hợp trên, rút nhận xét chung: mơ hình đơn giản đầy đủ phải mơ hình có trị số AIC thấp tốt biến độc lập phải có ý nghĩa thống kê Thành ra, vấn đề tìm mơ hình đơn giản đầy đủ thật tìm (hay nhiều) mơ hình với trị số AIC thấp hay gần thấp Tất nhiên, xem xét nhiều mơ hình khác cách thay hay tổng hợp biến số độc lập với Nhƣng việc làm nhƣ phức tạp, địi hỏi nhiều thời gian R có hàm gọi step giúp tìm mơ hình đơn giản đầy đủ Trong ví dụ trên, cách sử dụng hàm step đƣợc viết nhƣ sau: > logS listModel names(datfx) [1] "id" "fx" "age" "bmi" "bmd" "ictp" "pinp" > x y logBMA summary(logBMA) Call: bic.glm.data.frame(x = x, y = y, glm.family = "binomial", strict = FALSE, models were selected Best models (cumulative posterior probability = Intercept age bmi bmd ictp pinp nVar BIC post prob p!=0 100 8.5 15.2 15.9 100.0 6.0 EV SD -3.2230386 1.90686 0.0036288 0.01645 -0.0141169 0.04099 -0.3760546 1.05832 0.5681326 0.15326 0.0005901 0.00402 model -3.61051 0.55731 OR = 20) ): model -1.61016 -2.35970 0.59914 model model model -1.42168 -6.47521 -3.97345 0.04276 -0.09264 0.61078 0.51687 0.54801 0.00984 2 2 -529.41930 -526.96598 -526.87650 -525.70571 -525.01124 0.543 0.159 0.152 0.085 0.060 BMA trình bày mơ hình đƣợc đánh giá tối ƣu cho dự báo cho tỷ lệ gẫy xƣơng (y=fx) Trong đó:  Cột thứ liệt kê danh sách biến độc lập  Cột thứ cho biết xác suất giả thuyết biến độc lập ảnh hƣởng đến bến phụ thuộc y ( kết cho thấy xác suất biến ictp có ảnh hƣởng 110 111 đến y 100% bmd 15.9%, biến cịn lại hơn) Do mơ hình gồm hai biến độc lập ictp bmd  Cột (EV) (SD) cho biết giá trị trung bình độ lệch chuẩn mối biến độc lập  Cột Model cho biết hệ số ảnh hƣởng (regresion coefficient) mơ hình Kết phân tích cho thấy xác suất mà ictp liên quan đến gãy xƣơng 100%, đó, xác suất cho bmd khoảng 16% Nhƣng quan trọng hơn, mơ hình “tối ƣu” mơ hình với ictp, xác suất cho mơ hình 0.543 Mơ hình tối ƣu thứ hai gồm có ictp bmd (cũng mơ hình dựa vào tiêu chuẩn BIC), nhƣng xác suất cho mơ hình thƣơng đối thấp (0.159) Ba mơ hình khác “ứng viên” để mô tả xác suất gãy xƣơng đầy đủ Rõ ràng, qua phân tích BMA, có nhiều lựa chọn mơ hình hơn, ý thức đƣợc bất định mơ hình thống kê Biểu đồ hình 3.20 sau thể kết Qua biểu đồ thấy ictp yếu tố có ảnh hƣởng đến nguy gãy xƣơng quán Yếu tố quan trọng thƣ hai có lẽ bmd hay bmi Các yếu tố nhƣ age pinp có khả ảnh hƣởng đến nguy gãy xƣơng, nhƣng yếu tố khơng có độ quán cao nhƣ yếu tố vừa kể Hình 3.20 Biểu diễn khả ảnh hưởng gậy xương biến độc lập 111 112 KẾT LUẬN Mục tiêu đặt tài liệu tìm hiểu thuật tốn phƣơng pháp học có giám sát (phân lớp, tƣơng quan hồi quy) Và sử dụng ngơn ngữ R cài đặt thực nghiệm phân tích thuật toán tƣơng ứng với liệu khác Qua đó, hiểu sâu sắc thuật tốn lựa chọn thuật toán phù hợp dạng liệu cụ thể Từ đó, nhóm nghiên cứu chúng tơi tổng kết lựa chọn phƣơng pháp tối ƣu cho tốn phân tích xây dựng mơ hình dự báo phục vụ tra kiểm tra thuế danh nghiệp từ liệu kê khai nộp thuê họ Báo cáo đạt đƣợc mục tiêu đề với nội dung sau: 1) Tổng quan phƣơng pháp phân tích học máy để có nhìn tổng thể để so sánh lựa chọn phƣơng pháp hiệu cho mục tiêu toán 2) Trình bày phƣơng pháp phân lớp đánh giá tính hiệu sử dụng phƣơng pháp liệu kê khai nộp thuế mà chúng tơi quan tâm 3) Trình bày phƣơng pháp xây dựng mơ hình hồi quy số dạng liệu khác ngông ngữ R Đây phƣơng pháp mà chúng tối hƣớng tới cho toán dự báo khả gian lận tra kiểm tra thuế 112 113 TÀI LIỆU THAM KHẢO [1] Amir Hussain, Erfu Yang “A Novel Classification Algorithm Based on Incremental Semi-Supervised Support Vector Machin”, PLOS ONE | DOI:10.1371/journal.pone.0135709 August 14, 2015 [2] Adriano Donato De Matteis; Francesco Marcelloni; Armando Segatori “A new approach to fuzzy random forest generation” Fuzzy Systems (FUZZ-IEEE), 2015 IEEE International Conference on, 2015 [3] C.F Lin, S.D Wang “ Fuzzy support vector machines”, IEEE Trans Neural Netw 13(2) (2002) 464–471 [4] Fernández-Delgado, Manuel, Eva Cernadas, Senén Barro, and Dinani Amorim “Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?” The Journal of Machine Learning Research 15, 2014 [5] Jie Chen, Xizhao Wang, Junhai Zhai, “Pruning Decision Tree Using Genetic Algorithms”, International Conference on Artificial Intelligence and Computational Intelligence, 2009 [6] L Breiman Random forests Machine learning, 45(1):5–32,2001 [7] Nikita Patel, Saurabh Upadhyay “Study of Various Decision Tree Pruning Methods with their Empirical Comparison in WEKA”, International Journal of Computer Applications (0975 – 8887) Volume 60– No.12, December 2012 [8] S Abe “ Support Vector Machines for Pattern Classification”, 2nd edition, Springer-Verlag, London, 2010 [9] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R Hruschka Jr., and Tom M Mitchell (2010) Toward an Architecture for NeverEnding Language Learning,AAAI 2010 [10] Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter (1998) A Perspective on Data Mining, Technical Reporrt, Northern Arizona University [11] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer and Rüdiger Wirth (2000) CRISP-DM 1.0: Step-by-step data mining guide, The CRISP-DM consortium, ugust 2000 113 114 [12] Derek H C Chen and Carl J Dahlman (2005) The Knowledge Economy, the KAM Methodology and World Bank Operations, The World Bank, 2005 [13] Jerome H Friedman (1997) Data Mining and Statistics: What's the Connection? Technical report, Department of Statistics and Stanford Linear Accelerator Center, Stanford Linear Accelerator Center, Stanford University [14] C.W Hsu and C.-J Lin, A comparison of methods for multiclass support vector machines, IEEE transactions on Neural Networks, 2002 [15] Trevor Hastie, Robert Tibshirani, Jerome Friedman The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Second Edition), Springer, 2009 [16] Mårten Simonsson (2008) Predicting It Governance Performance: A Method For Model-Based Decision Making, PhD Thesis, KTH-Royal Institute Of Technology, Stockholm, Sweden, April 2008 [17] Privacy-preserving decision trees over vertically partitioned data ACM Trans Knowl Discov Data 2, 3, Article 14 (October 2008), 27 pages [18] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10 algorithms in data mining,Knowl Inf Syst (2008) 14:1–37 [19] Wang, H and S Wang (2008) A knowledge management approach to data mining process for business intelligence, Industrial Management & Data Systems, 2008 108(5): 622-634 [20] Adrian E Raftery, David Madigan, and Jennifer A Hoeting, Bayesian Model Averaging for Linear Regression Models, Journal of the American Statistical Association, 1997, v 92, 179-191 [21] Jennifer Hoeting, Adrian E Raftery and David Madigan, Bayesian Variable and Transformation Selection in Linear Regression, Journal of Computational and Graphical Statistics,(2002) 11:3, 485-507 [22] Jennifer Hoeting, Adrian E Raftery and David Madigan, A Method for Simultaneous Variable Selection and Outlier Identification in Linear Regression, 114 115 A revised version appeared in Computational Statistics and Data Analysis, (1996),22, 251-270 [23] David Madigan, Adrian E Raftery, Chris Volinsky, Jennifer Hoeting A revised version appeared in Integrating Multiple Learned Models (IMLM-96), P Chan, S Stolofo, and D Wolpert (Eds.), 1996 [24] Jennifer A Hoeting, David Madigan, Adrian Raftery, Chris T Volinsky, Bayesian Model Averaging: A Tutorial, Statistical Science (1999), 382-417 [25] C.-C Chang and C.-J Lin LIBSVM: A library for support vector machines ACM Transactions on Intelligent Systems and Technology, 2:27:1–27:27, 2011 https://www.csie.ntu.edu.tw/~cjlin/libsvm [26] J R Quinlan Induction of decision trees Machine learning, 1986 [27] L Breiman Random forests Machine learning, 45(1):5–32,2001 [28] M Robnik-ˇ Sikonja Improving random forests In Machine Learning: European Conference on Machine Learning (ECML) Springer, 2004 [29] M Denil, D Matheson, and N de Freitas Consistency of online random forests In International Conference on Machine Learning (ICML), pages 1256C–1264, 2013 JMLR W&CP 28 (3): 1256C1264, 2013 [30] M Mehta, J Rissanen, et al Mdl-based decision tree pruning In ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD),1995 [31] V Vapnik The nature of statistical learning theory springer, 2010 [32] http://ykhoa.net/r/index.htm [33] http://www.statmethods.net/ [34] http://www.stat.colostate.edu/~jah/papers/ [35] https://www.r-project.org/ [36] https://archive.ics.uci.edu/ml/datasets.html [37] https://www.r-bloggers.com 115 ... QUAN VỀ PHÂN TÍCH DỮ LIỆU DỰA TRÊN HỌC MÁY 1.1 Các vấn đề thuật ngữ 1.2 Mục tiêu phân tích liệu dựa học máy 1.3 Các phƣơng pháp phân tích liệu dựa học máy 1.3.1 Phương. .. trình bày chi tiết số kỹ thuật phân lớp liệu với mục đích hiểu chi tiết chất kỹ thuật, để biết đƣợc ƣu nhƣợc điểm kỹ thuật phân lớp, có sử dụng kỹ thuật để đối phó với liệu thu nộp thuế nhƣ nào?;... 1.2 Mục tiêu phân tích liệu dựa học máy Mục tiêu phân tích liệu dựa học máy dự báo giá trị chƣa biết thuộc tính dựa yếu tố khác dựa liệu mẫu (dữ liệu lịch sử) dựa mô tả đặc tính bên liệu, … Các

Định dạng
Số trang	121
Dung lượng	2,35 MB