CHƯƠNG 5 khai phá dữ liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ HỆ HỖ TRỢ QUYẾT ĐỊNH CHƯƠNG Khai Phá Dữ liệu Giảng viên hướng dẫn: TS Lê Chí Ngọc Sinh viên thực hiện: Mục lục 2 5.1 Khái niệm 5.1.1 Khai phá liệu Là q trình tính tốn để tìm mẫu liệu lớn, liên quan đến phương pháp giao điểm (tương giao máy học – machine learning), thống kê hệ thống sở liệu Đây lĩnh vực liên quan đến khoa học máy tính Mục tiêu khai phá liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu phục vụ cho việc sử dụng khác Khai phá liệu bước phân tích quy trình “Khám phá tri thức từ liệu” Ngồi bước phân tích thơ, cịn liên quan đến khía cạnh quản lý liệu sở liệu, tiền xử lý liệu, lựa chọn mơ hình phương án giải 5.1.2 Q trình khám phá tri thức từ liệu Là trình khám phá liệu tri thức có ích từ tập liệu Kỹ thuật khai thác liệu sử dụng rộng rãi trình bao gồm chuẩn bị lựa chọn liệu, làm liệu, kết hợp tri thức trước tập liệu, truyền tải xác từ kết quan sát Các ứng dụng như: Tiếp thị sản phẩm, phát gian lận, viễn thông… 5.1.3 Các ứng dụng khai phá liệu Ứng dụng khai phá liệu vô đa dạng rộng lớn, số ứng dụng kể đến số ứng dụng điển hình như: - Đầu tư: LBS Capital Management dùng để quản lý danh mục vốn đầu tư Phát gian lận: Hệ thống HNC Falcon Nestor PRISM dùng để theo dõi gian lận thẻ tín dụng, theo dõi hàng triệu tài khoản Sản xuất: Hệ thống xử lý cố, CASSIOPEE dùng để tiên đoán cố máy bay Boeing Viễn thông: Hệ thống TASA dùng để phân tích lỗi báo động đường truyền 5.1.4 Các bước khai phá liệu Làm liệu (Cleaning Data): Loại bỏ liệu gây nhiễm liệu khơng liên quan Tích hợp liệu (Data Integration): Kết hợp liệu từ nhiều nguồn khác Lựa chọn liệu (Data Selection): Lấy liệu liên quan đến task việc phân tích liệu 3 Chuyển đổi liệu (Data Transformation): Nơi liệu chuyển đổi hợp thành hình thức thích hợp để khai thác biện pháp, chẳng hạn tổng hợp Khai phá liệu (Data Mining): Một quy trình thiết yếu, sử dụng phương pháp phù hợp để trích xuất mẫu liệu Đánh giá mẫu (Pattern Evalution): Xác định mơ hình phù hợp trình bày tri thức từ liệu Trình bày tri thức (Knowledge Presentation): Sử dụng kỹ thuật để biểu diễn liệu cách trực quan, chẳng hạn biểu đồ, báo cáo 5.2 Các dạng liệu 5.2.1 Dữ liệu rời rạc (discrete variables) Dữ liệu rời rạc liệu mà giá trị của đếm khoảng thời gian hữu hạn Ví dụ: Giới tính: Chỉ có hai giá trị nam nữ, thời gian khơng thay đổi = > biến rời rạc 5.2.2 Dữ liệu liên tục (continuous variables) Dữ liệu liên tục liệu mà giá trị lấp đầy khoảng (khoảng hữu hạn vơ hạn) Ví dụ: + Tuổi bạn phụ thuộc thời gian biến liên tục + Chiều cao bạn biến liên tục 5.2.3 Dữ liệu văn Dữ liệu dạng văn dạng liệu mà giá trị từ, câu hay chí văn Ví dụ: câu bình luận facebook, nhận xét sản phẩm, báo thể thao, … 4 Dữ liệu phân tích sắc thái bình luận phim IMDB (Kaggle) 5.2.4 Dữ liệu đồ thị Dữ liệu dạng đồ thị cách biểu diễn liệu có mối liên kết với Ví dụ: bạn bè facebook, … Một cấu trúc liệu đồ thị có hai yếu tố bản: nút cạnh Các nút đại diện cho thực thể liệu, chẳng hạn thành viên mạng xã hội trực tuyến, cạnh tượng trưng cho mối quan hệ thực thể đó, chẳng hạn tình bạn thành viên mạng xã hội Mạng nút cạnh tạo thành biểu đồ - biểu diễn toán học cấu trúc mạng liệu dạng đồ thị 5.3 Tiền xử lí liệu Q trình tiền xử lý liệu, phải nắm dạng liệu, thuộc tính, mơ tả liệu thao tác Sau tiếp hành giai đoạn là: tích hợp, làm sạch, biến đổi 5.3.1 Tích hợp liệu Tích hợp liệu trình trộn liệu từ nguồn khác vào kho liệu có sẵn cho q trình khai phá liệu Khi tích hợp cần xác định thực thể từ nhiều nguồn liệu để tránh dư thừa liệu Ví dụ: Bill Clinton ≡ B Clinton 5 Việc dư thừa liệu thường xuyên xảy ra, tích hợp nhiều nguồn Bởi thuộc tính (hay đối tượng) mang tên khác nguồn (cơ sở liệu) khác Hay liệu suy thuộc tính bảng suy từ thuộc tính bảng khác Hay trùng lắp liệu Các thuộc tính dư thừa bị phát phân tíchtương quan chúng Phát xử lý mâu thuẫn giá trị liệu: Đối với thực thể thực tế, giá trị thuộc tính từ nhiều nguồn khác lại khác Có thể cách biểu diễn khác nhau, hay mức đánh giá, độ khác Yêu cầu chung q trình tích hợp giảm thiểu (tránh tốt nhất) dư thừa mâu thuẫn Giúp cải thiện tốc độ trình khai phá liệu nâng cao chất lượng kết tri thức thu 5.3.2 Làm liệu (data cleaning) Đối với liệu thu thập được, cần xác định vấn đề ảnh hưởng cho khơng Bởi vì, liệu khơng (có chứa lỗi, nhiễu, khơng đầy đủ, có mâu thuẫn) tri thức khám phá bị ảnh hưởng không đáng tin cậy, dẫn đến định khơng xác Do đó, cần gán giá trị thuộc tính cịn thiếu; sửa chữa liệu nhiễu/lỗi; xác định loại bỏ ngoại lai (outliers); giải mâu thuẫn liệu a) Các vấn đề liệu Trên thực liệu thu chứa nhiễu, lỗi, khơng hồn chỉnh, có mâu thuẫn - Khơng hồn chỉnh (incomplete): Thiếu giá trị thuộc tính thiếu số thuộc tính Ví dụ: salary = - Nhiễu/lỗi (noise/error): Chứa đựng lỗi mang giá trị bất thường Ví dụ: salary = “-525”, giá trị thuộc tính khơng thể số âm 6 - Mâu thuẫn (inconsistent): Chứa đựng mâu thuẫn (khơng thống nhất) Ví dụ: salary = “abc”, không phù hợp với kiểu liệu số thuộc tính salary Nguồn gốc/lý liệu khơng - Khơng hồn chỉnh (incomplete): Do giá trị thuộc tính khơng có (not b) available) thời điểm thu thập Hoặc vấn gây phần cứng, phần mềm, người thu thập liệu - Nhiễu/lỗi (noise/error): Do việc thu thập liệu, hoăc việc nhập liệu, việc truyền liệu - Mâu thuẫn (inconsistent): Do liệu thu thập có nguồn gốc khác Hoặc vi phạm ràng buộc (điều kiện) thuộc tính Giải pháp thiếu giá trị thuộc tính - Bỏ qua ghi có thuộc tính thiếu giá trị Thường áp dụng c) toán phân lớp Hoặc tỷ lệ % giá trị thiếu thuộc tính lớn - Một số người đảm nhiệm việc kiểm tra gán giá trị thuộc tính cịn thiếu, địi hỏi chi phí cao tẻ nhạt - Gán giá trị tự động máy tính: + Gán giá trị mặc định + Gán giá trị trung bình thuộc tính + Gán giá trị xảy – dựa theo phương pháp xác suất Giải pháp liệu chứa nhiễu/lỗi - Phân khoảng (binning): Sắp xếp liệu phân chia thành khoảng d) (bins) có tần số xuất giá trị Sau đó, khoảng liệu biểu diễn trung bình, trung vị, giới hạn … giá trị 7 khoảng - Hồi quy (regression): Gắn liệu với hàm hồi quy - Phân cụm (clustering): Phát loại bỏ ngoại lai (sau xác định cụm) - Kết hợp máy tính kiểm tra người: Máy tính tự động phát giá trị nghi ngờ Các giá trị người kiểm tra lạ Biến đổi liệu (data transformation) Biến đổi liệu việc chuyển toàn tập giá trị thuộc tính sang 3.3 tập giá trị thay thế, cho giá trị cũ tương ứng với giá trị Các phương pháp biến đổi liệu: - Làm trơn (smoothing): Loại bỏ nhiễu/lỗi khỏi liệu - Kết hợp (aggregation): Sự tóm tắt liệu, xây dựng khối liệu - Khái quát hóa (generalization): Xây dựng phân cấp khái niệm - Chuẩn hóa (normalization): Đưa giá trị khoảng định + Chuẩn hóa min-max, giá trị nằm khoảng [, ] = + Chuẩn hóa z-score, với , : giá trị trung bình độ lệch chuẩn thuộc tính i = + Chuẩn hóa thang chia 10, với j giá trị số nguyên nhỏ cho: max() Phương pháp vét cạn có chi phí tính tốn q lớn, không áp dụng thực tế 5.4.4.3 Các chiến lược sinh tập thường xuyên Dựa vào phân tích mục 1.6.2, ta có chiến lược: d Giảm bớt số lượng tập mục cần xét (M): Tìm kiếm (xét) đầy đủ M = Sau đó, sử dụng kỹ thuật cắt tỉa để giảm giá trị M Giảm bớt số lượng giao dịch cần xét (N): Giảm giá trị N, kích thước (số lượng mục) tập mục tăng lên Giảm bớt số lượng so sánh (matchings/comparisons) tập mục giao dịch (N.M): Sử dụng cấu trúc liệu phù hợp (hiệu quả) để lưu tập mục cần xét giao dịch Không cần phải so sánh tập mục với giao dịch Từ chiến lược ta xét giải thuật bản: - Giải thuật Apriori - Giải thuật FP-Growth Giải thuật Apriori Quá trình sinh luật kết hợp chia làm hai bước Bước sinh tập thường xuyên Bước thứ hai sinh luật kết hợp Ở mục 4.3 ta thấy bước thứ trình phức tạp Giải thuật Apriori phương pháp làm giảm độ phức tạp bước Nguyên tắc giải thuật Apriori – Loại bỏ dựa độ hỗ trợ: - Nếu tập mục thường xuyên, tất tập (subsets) tập mục thường xuyên - Nếu tập mục không thường xuyên (not frequent) tất tập cha (supersets) tập mục khơng thường xuyên -Nguyên tắc giải thuật Apriori dựa đặc tính khơng đơn điệu (antimonotone) độ hỗ trợ: 19 19 20 20 Giải thuật Apriori: 1- Sinh tất tập mục thường xuyên mức 1(frequent 1-itemsets) 2- Gán k =1 3- Lặp lại, thêm tập mục thường xuyên 3.1- Từ tập mục thường xuyên mức k, sinh tập mục mức (k+1) cần xét 3.2- Loại bỏ tập mục mức k+1 chứa tập tập mục không thường xuyên mức k 3.3- Tính độ hỗ trợ tập mục mức k+1, cách duyệt qua tất giao dịch 3.4- Loại bỏ tập mục không thường xuyên mức k+1 3.5- Thu tập mục thường xuyên mức k+1 21 21 5.4.5 Phân tích chuỗi thời gian 5.4.5.1 Chuỗi thời gian gì? Chuỗi thời gian (time series) thống kê, xử lý tín hiệu, kinh tế lượng tốn tài chuỗi điểm liệu, đo theo khoảng khắc thời gian liền theo tần suất thời gian thống Ví dụ chuỗi thời gian giá đóng cửa số Dow Jones lưu lượng hàng năm sông Nin Aswan Phân tích chuỗi thời gian bao gồm phương pháp để phân tích liệu chuỗi thời gian, để từ trích xuất thuộc tính thống kê có ý nghĩa đặc điểm liệu Dự đoán chuỗi thời gian việc sử dụng mơ hình để dự đốn kiện thời gian dựa vào kiện biết q khứ để từ dự đốn điểm liệu trước xảy (hoặc đo) Chuỗi thời gian thường vẽ theo đồ thị Phân tích chuỗi thời gian phương pháp dự báo định lượng với số liệu đầu vào chuỗi liệu khứ theo thời gian Dt Chuỗi liệu theo thời gian bao gồm thành phần: - - - Mức: biễu diễn mức hay độ lớn chuỗi kiện -Xu hướng: biễu diễn tốc độ gia tăng hay suy giảm chuỗi kiện theo thời gian -Biến thiên theo mùa: biễu diễn dao động chuỗi kiện theo thời gian với chu kỳ hàng năm quanh thành phần mức hay xu hướng Biến thiên theo mùa thường có nhu cầu ảnh hưởng kịên hàng năm thời tiết, khai trường, nghĩ lễ, … Biến thiên chu kỳ: biễu diễn dao động chuỗi kiện theo thời gian quanh thành phần xu hướng Biến thiên chu kỳ dao động dài hạn nhiều năm thường kết chu kỳ kinh doanh ảnh hưởng kịên phát triển, suy thóai, khủng hỏang, hồi phục kinh tế Biến thiên ngẫu nhiên: biến thiên khó có biết trứơc lỗi hệ thống thu thập liệu hay nguyên nhân ngẫu nhiên thiên tai, chiến tranh, đình cơng, … Biến thiên ngẫu nhiên ln có mặt chuỗi kiện cần lọc bỏ dự báo Một kỹ thuật thường dùng để lọc bỏ biến thiên ngẫu nhiên phép lấy trung bình 5.4.5.2 Các mơ hình dự đốn chuỗi thời gian 22 22 Các mơ hình phân tích chuỗi thời gian bao gồm: - Mơ hình trung bình Mơ hình làm trơn hàm mũ – EWMA Mơ hình hồi quy – RA 5.5 Đánh giá mơ hình 5.5.1 Sai số Chất lượng dự báo phụ thuộc vào mức độ xác việc dự đốn giá trị tương lai Trong mơ hình trung bình trượt đơn giản, giá trị khác k tạo dự báo khác Làm để ta biết giá trị tốt cho k? Sai số (error), phần dư(residual) dự báo khác biệt giá trị dự báo giá trị thực tế chuỗi thời gian Sai số dự báo hiểu đơn giản khoảng cách giá trị dự báo giá trị thực tế khoảng thời gian Để phân tích hiệu mơ hình dự báo khác nhau, sử dụng sai số khác Ba sai số thường sử dụng độ lệch tuyệt đối trung bình(mean absolute deviation), sai số bình phương trung bình(mean square error) phần trăm sai số tuyệt đối trung bình(mean absolute percentage error) Độ lệch tuyệt đối trung bình (MAD) khác biệt tuyệt đối giá trị thực tế dự báo, lấy trung bình loạt giá trị dự báo: : giá trị thực tế thời điểm t chuỗi thời gian : giá trị dự báo thời điểm t n: số lượng giá trị dự báo Sai số bình phương trung bình (MSE) có lẽ sai số sử dụng phổ biến Công thức cho MSE là: 23 23 Đôi khi, ta sử dụng bậc hai MSE - gọi sai số bình phương trung bình gốc (RMSE), có cơng thức là: Lưu ý khơng giống MSE, RMSE biểu thị theo đơn vị với liệu (tương tự khác biệt độ lệch chuẩn phương sai), cho phép so sánh thực tế Một sai số thường sử dụng sai số phần trăm tuyệt đối trung bình (MAPE) MAPE trung bình sai số tuyệt đối chia cho giá trị quan sát thực tế Các giá trị MAD MSE phụ thuộc vào thang đo liệu chuỗi thời gian Ví dụ: dự báo lợi nhuận phạm vi hàng triệu đô la dẫn đến giá trị MAD MSE lớn, mơ hình dự báo xác Mặt khác, giá trị thị phần đo theo tỉ lệ; đó, mơ hình dự báo tồi có giá trị MAD MSE nhỏ Vì vậy, giá trị đo lường khơng có ý nghĩa, ngoại trừ để so sánh mơ hình dự báo khác tập liệu MAPE khác chỗ phép đo loại bỏ cách chia sai số tuyệt đối cho giá trị liệu chuỗi thời gian Cái giúp so sánh tương đối tốt Nhìn chung, khơng có sai số tốt 5.5.2 Độ xác Độ xác (Accuracy) thường sử dụng tốn phân lớp Cách đánh giá đơn giản tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử (test) Cách tính sử dụng accuracy cho biết phần trăm lượng liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều nhất, liệu thuộc lớp thường bị phân loại nhầm vào lớp khác Để đánh giá giá trị này, sử dụng ma trận gọi confusion matrix 24 24 Ma trận thu được gọi confusion matrix Nó ma trận vng với kích thước chiều số lượng lớp liệu Giá trị hàng thứ i, cột thứ j số lượng điểm lẽ thuộc vào class i lại dự đoán thuộc vào class j Như vậy, giá trị đường chéo ma trận số điểm phân loại lớp liệu Từ suy accuracy tổng phần tử đường chéo chia cho tổng phần tử toàn ma trận: Ngồi giá trị accuracy tính từ ma trận trên, ta cịn quan tâm đến giá trị True/False Positive/Negative Trong nhiều tốn phân loại accuracy đơi khơng mang nhiều ý nghĩa, ví dụ toán phân loại mail spam, việc cho nhầm email quan trọng vào thùng rác nghiêm trọng việc xác định email rác email thường Trong toán này, người ta thường định nghĩa lớp liệu quan trọng cần xác định lớp Positive, lớp lại gọi Negative Trong tốn mail spam, lớp Positive lớp liệu mail spam, Negative lớp liệu mail không spam Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) theo hình … Người ta thường quan tâm đến False Positive Rate False Negative Rate False Positive Rate gọi tỉ lệ báo động nhầm, False Negative Rate gọi tỉ lệ bỏ sót Trong tốn phân loại mail spam, ta cần cực tiểu giá trị tỉ lệ False Positive Rate (tỉ lệ báo động nhầm) để giảm thiệu việc lọc nhầm mail spam 25 25 Với toán phân loại mà tập liệu lớp chênh lệch nhiều, có phép hiệu thường sử dụng Precision-Recall Trước hết xét toán phân loại nhị phân Ta coi hai lớp Positive, lớp lại Negative Precision định nghĩa tỉ lệ số điểm true positive số điểm phân loại positive (TP + FP): Recall định nghĩa tỉ lệ số điểm true positive số điểm thực positive (TP + FN): Precision cao đồng nghĩa với việc độ xác điểm tìm cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót điểm thực positive thấp 5.5.3 Độ phù hợp Độ phù hợp thông số rút từ mơ hình để đánh giá mơ hình có đủ tốt hay khơng Thơng thường tốn hồi quy tuyến tính, bên cạnh việc cực tiểu RMSE, MSE,độ phù hợp mơ hình dựa vào giá trị p-value tham số từ mơ hình, giá trị p-value < α (thơng thường lấy α=0.05) tham số có ý nghĩa mơ hình 26 26 Đối với toán phân loại, tuỳ vào mục tiêu toán mà lựa chọn số Precision, Recall để cực đại cực tiểu giá trị này, làm tăng độ phù hợp cho mô hình Đánh giá độ phù hợp mơ hình hồi quy đơn biến: • Hệ số (r-square) Hệ số đánh giá khả giải thích mơ hình: thay đổi biến Y đc giải thích mơ hình; mơ hình y=ax+b giải thích đc % thay đổi Y theo x Trong đó: - SSR: regression sum of square: sai lệch giá trị hồi quy với giá trị trung bình : - SSE: Sai số giá thực tế mơ hình ta tính ra: Khi : X Y có mối quan hệ tuyến tính “hồn hảo” Tuy nhiên thực tế, điều xảy ra, thơng thường Nếu X Y khơng có mối quan hệ tuyến tính • Kiểm định giả thuyết hồi quy (L.I.N.E): Các thử nghiệm giả thuyết thống kê liên quan đến phân tích hồi quy dựa số giả định liệu Tuyến tính (Linearity): Điều thường kiểm tra cách kiểm tra biểu đồ phân tán liệu kiểm tra biểu đồ phần dư Nếu mơ hình phù hợp, phần dư xuất rải rác ngẫu nhiên 0, khơng có mẫu rõ ràng Nếu phần dư thể số mẫu xác định rõ, chẳng hạn xu hướng tuyến tính, hình dạng parabol, có chứng tốt cho thấy số dạng chức khác phù hợp với liệu 27 27 Các sai số có phân phối chuẩn (Normality of Error): Phân tích hồi quy giả định sai số cho giá trị riêng lẻ X thường phân phối, với giá trị trung bình khơng Điều xác nhận cách kiểm tra biểu đồ phần dư chuẩn kiểm tra phân phối hình chng cách sử dụng kiểm nghiệm độ tốt thức Thường khó để đánh giá tính chuẩn với cỡ mẫu nhỏ Tuy nhiên, phân tích hồi quy mạnh mẽ, hầu hết trường hợp, vấn đề nghiêm trọng Tính đồng phương sai (Equal Variance): Giả định thứ ba Tính đồng nhất, có nghĩa thay đổi đường hồi quy không đổi tất giá trị biến độc lập Điều đánh giá cách kiểm tra phần dư tìm kiếm khác biệt lớn phương sai giá trị khác biến độc lập Cần thận trọng nhìn vào phần dư Trong nhiều trường hợp, mơ hình lấy từ liệu hạn chế nhiều quan sát cho giá trị khác X khơng có sẵn, gây khó khăn cho việc đưa kết luận chắn tính đồng Nếu giả định bị vi phạm nghiêm trọng, nên sử dụng kỹ thuật khác ngồi bình phương nhỏ cho ước lượng mơ hình hồi quy Tính độc lập sai số (Independence of Errors): Cuối cùng, phần dư phải độc lập với giá trị biến độc lập Đối với liệu cắt ngang, giả định thường vấn đề Tuy nhiên, thời gian biến độc lập, giả định quan trọng Ví dụ, quan sát liên tiếp xuất tương quan với nhau, cách trở nên lớn theo thời gian thể kiểu mẫu theo chu kỳ giả định bị vi phạm Mối tương quan quan sát liên thời gian gọi tự tương quan xác định phần dư có cụm phần dư có dấu Tự tương quan đánh giá thức cách sử dụng kiểm tra thống kê dựa biện pháp gọi thống kê Durbin -Watson Thống kê Durbin -Watson là: 28 28 Đây tỷ lệ khác biệt bình phương phần dư liên tiếp với tổng bình phương tất phần dư D nằm khoảng từ đến Khi phần dư liên tiếp tự động tích cực, D tiếp cận Các giá trị quan trọng thống kê lập bảng dựa kích thước mẫu số lượng biến độc lập cho phép bạn kết luận có chứng tự tương quan khơng có chứng tự tương quan không kết luận Đối với hầu hết mục đích thực tế, giá trị đề xuất tự tương quan; giá trị 1,5 2,5 cho thấy không tương quan tự động; giá trị 2,5 đề xuất Khi giả định hồi quy bị vi phạm, kết luận thống kê rút từ kiểm tra giả thuyết khơng hợp lệ Do đó, trước rút kết luận mơ hình hồi quy thực kiểm tra giả thuyết, cần kiểm tra giả định Đánh giá độ phù hợp mơ hình hồi quy đa biến: • Hệ số hiệu chỉnh (Adjusted ): Hệ số không giảm ta thêm biến X vào mơ hình hồi quy đa biến, điều gây bất lợi ta so sánh mơ hình với lý thuyết, mơ hình có lớn phải dùng nhiều biến X mới, điều gây khó khăn số tốn thực tế, việc thu thập liệu khơng phải điều đơn giản; việc thêm biến vào có đảm bảo việc độc lập với biến sẵn có mơ hình ? 29 29 Adjusted giống phản ánh mức độ phù hợp mơ hình Nhưng Adjusted khơng thiết tăng lên ta đưa thêm biến độc lập vào mơ hình • Trong đó: - n số quan sát, - k số biến độc lập Tiêu chuẩn F (F test for Overall Significance) Tiêu chuẩn F liệu có mối quan hệ tuyến tính biến độc lập X Y Ta có giả thuyết (khơng có mối quan hệ tuyến tính) (ít biến ảnh hưởng đến Y) Xét đại lượng: Tra bảng phân bố F với bậc tự Nếu ta cần bác bỏ giả thiết , tức có phụ thuộc tuyến tính vào biến độc lập • Giá trị p-value Mức ý nghĩa đại diện cho độ xác hệ số mơ hình hồi quy ta xây dựng, thường lấy ( Xét mơ hình hồi quy tuyến tính bội lấy kết từ Excel: 30 30 Nếu giá trị tham số ta ước lượng có giá trị p-value < khả mắc sai lầm < hay nói cách khác, biến Y phụ thuộc vào Những biến có pvalue > biến khơng có ý nghĩa mơ hình, ta cần tiến hành kiểm định t-Test xem biến có nên loại bỏ khỏi mơ hình hay khơng Đánh giá độ phù hợp mơ hình tốn phân loại: • Đường cong Receiver Operating Characteristic (ROC Curve): ROC đồ thị minh họa hiệu suất hệ thống phân loại nhị phân thay đổi ngưỡng phân lớp Đường cong tạo cách vẽ tỷ lệ true positive (TPR) so với tỷ lệ false positive (FPR) thiết lập ngưỡng khác TPR biết đến độ đo sensitivity hay số sensitivity d, gọi “d-prime” tác vụ phát tín hiệu tin sinh học, recall Machine Learning FPR biết đến fall-out tính cơng thức (1 – specificity) Đường cong ROC thể quan hệ sensitivity hàm fall-out 31 31 (Ví dụ đường cong ROC) 5.5.4 Quá khớp khớp (Overfitting and Underfitting) Hiện tương khớp (Overfitting) xảy mơ hình ta xây dựng fit q tốt tập liệu tập train fit lại không tốt tập test Hiện tương khớp (Underfitting) xảy mơ hình dự đốn q khác so với mơ hình thực tế Phương pháp khắc phục tương trên: Validation Ta thường quen với việc chia liệu làm phần: training data testing data Như nói trên, để hạn chế việc mơ hình fit tốt tập train không tốt tập test nữa, ta trích từ tập training data tập nhỏ thực việc đánh giá mơ hình tập nhỏ Tập nhỏ trích từ training set gọi validation set Trên tập validation data, train error tính error tập validation Ngồi ra, validation data cịn dùng để tinh chỉnh tham số mơ hình (tunning parameters) trước đưa vào sử dụng tập test Cross-validation Trong số trường hợp, liệu ta thu thập không đủ để chia làm tập: training data, tesing data, validation, ta sử dụng đến phương pháp Cross validation hay gọi k-fold Cross validation Phương pháp phân chia liệu thành k tập có kích thước Tại vịng lặp sử dụng tập tập thử nghiệm tập lại tập huấn luyện Giá trị k thường = 10 Ta dùng hai cách: Leave-one-out: k=số mẫu liệu (dành cho tập liệu nhỏ) Stratified cross-validation: dùng phương pháp lấy mẫu để lớp tập phân bố toàn liệu 32 32 Tài liệu tham khảo: • Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining”, Chapter – Data Preprocessing • Foster Provost & Tom Fawcett, “Data Science for Business”, 27-32 • James Evans, “Business Analytics”, 308-310 • Precision and Recall , < https://en.wikipedia.org/wiki/Precision_and_recall> 33 33 ... cạnh quản lý liệu sở liệu, tiền xử lý liệu, lựa chọn mơ hình phương án giải 5. 1.2 Q trình khám phá tri thức từ liệu Là trình khám phá liệu tri thức có ích từ tập liệu Kỹ thuật khai thác liệu sử dụng... đường truyền 5. 1.4 Các bước khai phá liệu Làm liệu (Cleaning Data): Loại bỏ liệu gây nhiễm liệu khơng liên quan Tích hợp liệu (Data Integration): Kết hợp liệu từ nhiều nguồn khác Lựa chọn liệu (Data... chọn liệu, làm liệu, kết hợp tri thức trước tập liệu, truyền tải xác từ kết quan sát Các ứng dụng như: Tiếp thị sản phẩm, phát gian lận, viễn thông… 5. 1.3 Các ứng dụng khai phá liệu Ứng dụng khai

Định dạng
Số trang	33
Dung lượng	1,48 MB