ĐẠI CƯƠNG về PHÂN TÍCH dữ LIỆU

73 46 0
ĐẠI CƯƠNG về PHÂN TÍCH dữ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI: ĐẠI CƯƠNG VỀ PHÂN TÍCH DỮ LIỆU Giảng viên hướng dẫn: TS Lê Chí Ngọc Nhóm sinh viên: Lê Quốc Đạt MSSV: 2017 3494 Phạm Thị Thanh Hằng MSSV: 2017 3512 Từ Bảo Tươi MSSV: 2017 3600 Nguyễn Thị Thanh Sơn MSSV: 2017 3580 Hà Nội - 2020 Chương 1: Đại cương phân tích liệu Mục lục Danh mục hình vẽ LỜI MỞ ĐẦU Phân tích liệu gì? Các trình khám phá tri thức 2.1 Chuẩn bị liệu 2.2 Tiền xử lý liệu 10 2.3 Khai phá liệu 18 2.4 Đánh giá kết 22 2.5 Hiển thị kết 23 Các dạng lệu 23 3.1 Dữ liệu nhị phân 23 3.2 Dữ liệu phân lớp 28 3.3 Dữ liệu dạng thứ tự 30 3.4 Dữ liệu giá trị khoảng 31 3.5 Dữ liệu thuộc giá trị tỷ lệ 31 3.6 Dữ liệu chuỗi chuỗi thời gian 31 3.7 Dữ liệu liên tục liệu rời rạc 33 3.8 Dữ liệu mờ 34 3.9 Dữ liệu văn 35 3.10 Dữ liệu đồ thị 37 Các dạng phân tích liệu 38 4.1 Phân tích mơ tả 38 4.2 Phân tích dự báo 39 4.3 Phân tích tối ưu 39 Các tác cụ phân tích liệu 40 5.1 Phân tích hồi quy 40 5.2 Phân tích kết hợp 41 5.3 Phân tích phân cụm 46 5.4 Phân lớp 59 5.5 Phân tích chuỗi chuỗi thời gian 63 Một số khái niệm Máy học 65 6.1 Máy học 65 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu 6.2 Học khơng giám sát 67 6.3 Học có giám sát 68 6.4 Học bán giám sát 69 6.5 Học kết hợp 69 Danh mục tài liệu tham khảo 71 KẾT LUẬN 72 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu Danh mục hình vẽ Hình 1: Chia theo độ rộng 11 Hình 2: Chia theo độ sâu 12 Hình 3: Cây định quy nạp 15 Hình 4: Biến đổi wavelet, phân tích thành phần 15 Hình 5: Phương pháp biểu đồ 16 Hình 6: Phương pháp gom nhóm 17 Hình 7: Spreadsheet Giải pháp tối ưu Paul & Giovanni Food cho k = 27 Hình 8: Solver cho Paul & Giovanni Food 28 Hình 9: Một quy trình chung phân loại liệu 29 Hình 10: Dữ liệu dạng thứ tự 31 Hình 11: Dữ liệu liên tục 33 Hình 12: Dữ liêu rời rạc 34 Hình 13: Dữ liệu mờ 35 Hình 14: Dữ liệu đồ thị 37 Hình 15: Phân loại kĩ thuật phân cụm 47 Hình 16: Tổng quan phương pháp phân cụm thảo luận phần 54 Hình 17: Mơ tả thuật tốn K-Means 55 Hình 18: Quá trình phân lớp liệu 61 Hình 19: Quá trình phân lớp liệu 61 Hình 20: Học khơng giám sát 67 Hình 21: Học có giám sát 68 Hình 22: Học bán giám sát 69 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu LỜI MỞ ĐẦU Những phân tích trở thành định hướng cho công nghệ thập niên Các công ty IBM, Oracle, Microsoft, công ty khác tạo đơn vị tổ chức tập trung vào phân tích liệu giúp hỗ trợ kinh doanh để việc kinh doanh đầu tư trở nên hiệu hơn, hữu hiệu hoạt động họ Người định sử dụng nhiều cơng cụ điện tốn hóa để hỗ trợ công việc họ Ngay người tiêu dùng sử dụng công cụ phân tích cách trực tiếp hay gián tiếp để đưa định cho hoạt động thường nhật mua sắm, y tế, giải trí Tuy nhiên,khi người đưa định cuối cùng, định tốt không đơn giản thực kết mơ hình phân tích; họ u cầu đánh giá yếu tố vơ hình thái độ rủi ro Ra định nghiên cứu cách người đưa định, đặc biệt phải đối mặt với thơng tin khơng hồn hảo khơng chắn, tập hợp kỹ thuật để hỗ trợ lựa chọn định Phân tích định khác với phương pháp mơ hình hóa khác cách xem xét rõ ràng sở thích thái độ cá nhân rủi ro mơ hình hóa q trình định Các định liên quan đến không chắn rủi ro nghiên cứu nhiều năm Một khối kiến thức lớn phát triển giúp giải thích triết lý liên quan đến việc đưa định cung cấp kỹ thuật để kết hợp không chắn rủi ro việc đưa định Bài báo cáo chúng em mong phần khái qt phân tích liệu để phần giúp bạn hiểu phân tích liệu , q trình khám phá tri thức, dạng về: liệu phân tích liệu , tác vụ phân tích liệu khái niệm khái quát máy học Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu Phân tích liệu gì? Phân tích liệu q trình phát hiện, giải thích truyền đạt mơ hình có ý nghĩa liệu Đặc biệt có giá trị lĩnh vực có nhiều thơng tin ghi lại, phân tích dựa vào ứng dụng đồng thời số liệu thống kê, lập trình máy tính nghiên cứu hoạt động để định lượng hiệu suất Ứng dụng phân tích liệu: + Tối ưu hóa marketing: Marketing tiến hóa từ quy trình sáng tạo thành quy trình phụ thuộc chặt chẽ với liệu Các tổ chức marketing sử dụng phân tích liệu nhằm xác định kết chiến dịch nỗ lực marketing hướng dẫn định đầu tư định vị mục tiêu khách hàng Nghiên cứu nhân học, xác định phân khúc khách hàng, phân tích kết hợp kỹ thuật khác cho phép người làm marketing sử dụng khối lượng liệu lớn mua hàng tiêu dùng, khảo sát nhóm để hiểu truyền đạt chiến lược marketing + Phân tích web: cho phép người làm marketing thu thập thông tin phiên truy cập tương tác trang web Google Analytics ví dụ điển hình cơng cụ miễn phí phổ thơng mục đích Các tương tác cung cấp cho hệ thống phân tích liệu web thơng tin cần thiết để theo dõi nguồn giới thiệu, tìm kiếm từ khóa, xác định địa IP, theo dõi hoạt động khách tới thăm Với thông tin này, người làm marketing cải thiện chiến dịch marketing, nội dung sáng tạo website kiến trúc thông tin trang web Các kỹ thuật phân tích thường sử dụng marketing bao gồm mơ hình marketing hỗn hợp, phân tích định giá chiết khấu, tối ưu hóa lực lượng bán hàng phân tích khách hàng (như xác định phân khúc) Phân tích web tối ưu hóa trang web chiến dịch trực tuyến ngày thường kết hợp chặt chẽ với kỹ thuật phân tích marketing truyền thống Ảnh hưởng truyền thơng kỹ thuật số tạo số thay đổi thuật Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu ngữ, mơ hình marketing hỗn hợp thường tham chiếu tới mơ hình phân phối ngữ cảnh kỹ thuật số marketing hỗn hợp Các công cụ kỹ thuật hỗ trợ định chiến lược marketing (như dành tổng cộng ngân sách cho marketing, phân bố ngân sách cho nhãn hàng marketing hỗn hợp nào) chiến thuật để định vị khách hàng tiềm với thông điệp tối ưu, phương pháp hiệu chi phí thời gian lý tưởng + Phân tích liệu người: Ứng dụng phân tích liệu hỗ trợ công ty quản lý mặt nhân sự, với mục tiêu lựa chọn nhân viên để tuyển dụng, khen thưởng thăng cấp, giao nhiệm vụ vấn đề nhân khác Ví dụ, phân tích cho thấy cá nhân với kiểu lý lịch định có nhiều khả thành cơng vị trí cụ thể đó, họ người phù hợp nên tuyển dụng Phân tích nhân trở nên ngày quan trọng để hiểu rõ hồ sơ với kiểu hành vi thành công hay thất bại Trong phân tích người áp dụng cho nhân viên tổ chức, kỹ thuật xác định phân khúc khách hàng lại sử dụng để nghiên cứu hồ sơ khách hàng phát khách hàng tiềm thị trường + Phân tích liệu danh mục: Một ứng dụng phổ biến phân tích liệu kinh doanh phân tích danh mục Trong đó, ngân hàng tổ chức cho vay có tập hợp tài khoản khách hàng với nhiều biến số giá trị rủi ro Các khách hàng khác địa vị xã hội (giàu có, trung lưu nghèo, v.v ), vị trí địa lý, giá trị ròng yếu tố khác Người cho vay phải cân lợi nhuận thu khoản vay với rủi ro vỡ nợ cho khoản vay Câu hỏi đặt làm để đánh giá danh mục cách tổng thể Khoản vay rủi ro cho đối tượng giàu có, có đối tượng thuộc loại Mặt khác, có nhiều người nghèo cho vay, tất nhiên với rủi ro lớn Một vài số dư cần phải giới hạn nhằm tối ưu hóa lợi nhuận tối thiểu hóa rủi ro Giải pháp phân tích liệu kết hợp phân tích chuỗi thời gian với nhiều vấn đề khác để đưa định việc nên cho vay với nhóm phân khúc Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu khách hàng, định mức lãi suất cho đối tượng phân khúc danh mục để bù đắp tổn thất từ tồn thể đối tượng danh mục + Phân tích liệu rủi ro: Các mơ hình dự báo ngành ngân hàng phát triển nhằm đưa chắn cho số rủi ro khách hàng riêng lẻ Chỉ số tín dụng xây dựng để dự báo hành vi phạm pháp cá nhân sử dụng rộng rãi để đánh giá mức tín dụng xứng đáng người nộp hồ sơ vay vốn Bên cạnh đó, phân tích rủi ro thực khoa học lĩnh vực bảo hiểm Nó dùng rộng rãi tổ chức tài cơng ty cổng tốn trực tuyến để phân tích xem giao dịch có thực hay gian lận việc sử dụng lịch sử giao dịch khách hàng Ứng dụng dùng rộng rãi mua hàng tốn thẻ tín dụng, ví dụ có tăng đột biến khối lượng giao dịch khách hàng, khách hàng nhận gọi để xác nhận giao dịch có phải khởi tạo họ hay không Ứng dụng giúp giảm thiểu tổn thất trường hợp kể + Phân tích liệu kỹ thuật số: Phân tích liệu kỹ thuật số nhóm hoạt động kinh doanh kỹ thuật nhằm xác định, khởi tạo, thu thập, xác minh hay chuyển đổi liệu kỹ thuật số thành báo cáo, nghiên cứu, phân tích, đề xuất, tối ưu hóa, dự báo tự động hóa Ứng dụng bao gồm SEO (Search Engine Optimization - Tối ưu hóa cơng cụ tìm kiếm) tìm kiếm từ khóa theo dõi trở thành liệu sử dụng cho mục đích marketing Thậm chí banner quảng cáo lần nhấp chuột thuộc phân tích liệu kỹ thuật số Ngày có nhiều cơng ty marketing thương hiệu phụ thuộc vào phân tích liệu kỹ thuật số cho công việc marketing kỹ thuật số họ, MROI (Marketing Return On Investment - lợi nhuận marketing từ đầu tư) số hoạt động quan trọng + Phân tích liệu an ninh: Phân tích liệu an ninh có liên quan đến cơng nghệ thơng tin, nhằm thu thập phân tích kiện an ninh để tìm yếu tố mang tới rủi ro lớn Sản phẩm lĩnh vực bao gồm quản lý bảo mật thơng tin - kiện phân tích liệu hành vi người dùng Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu + Phân tích liệu phần mềm: Phân tích liệu phần mềm q trình thu thập phân tích thơng tin cách thức phần mềm sản xuất sử dụng Các trình khám phá tri thức 2.1 Chuẩn bị liệu Tại cần chuẩn bị liệu? • Các kiểu liệu: - Dữ liệu dạng thuộc tính giá trị (Attribute-value data) Các kiểu liệu + Số (numeric) + Phi số (categorical) + Tĩnh, động (thời gian) - Các dạng liệu khác: + DL phân tán + DL văn + DL web, siêu DL + Hình ảnh, audio/video • Dữ liệu thực tế có chất lượng xấu - DL thiếu, khơng đầy đủ: thiếu giá trị thuộc tính, thiếu thuộc tính quan tâm, chứa DL tích hợp VD: tuổi, cân nặng = “” Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu - DL bị tạp, nhiễu (noise): chứa lỗi sai biệt VD: Lương = “-100 000” - DL mâu thuẫn: có khơng thống mã tên VD: Tuổi =42, Ngày sinh = 03/07/1997; US=USA? - “DL không chất lượng, không cho kết khai thác tốt” + Quyết định đắn phải dựa DL xác VD: việc trùng lắp thiếu DL dẫn tới việc thống kê khơng xác, chí làm lạc lối + Nhà kho DL cần tích hợp đồng DL chất lượng • Những vấn đề để chuẩn bị liệu: - Cách thức làm liệu (Data Cleaning) - Cách thức diễn giải liệu (Data Transformation) - Cách thức nắm bắt giá trị thiếu (Data Imputation) - Trọng số trường hợp (Data Weighting and Balancing) - Xử lý liệu ngoại lai không mong muốn khác (Data Filtering) - Cách thức nắm bắt liệu thời gian/chuỗi thời gian (Data Abstraction) - Cách thức rút gọn liệu để dùng (Data Reduction) + Bản ghi (Data Sampling) + Biến (Dimensionality Reduction) + Giá trị (Data Discretization) - Cách thức tạo biến (Data Derivation) Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu Bước Nhóm đối tượng vào nhóm Bước Tính lại tâm cho nhóm Bước Tính lại khoảng cách từ đối tượng đến tâm 58 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu Bước Nhóm đối tượng vào nhóm Ta thấy G2 = G1 (Khơng có thay đổi nhóm đối tượng) nên thuật tốn dừng kết phân nhóm sau: Thuật tốn K-Means có ưu điểm đơn giản, dễ hiểu cài đặt Tuy nhiên, số hạn chế K-Means hiệu thuật toán phụ thuộc vào việc chọn số nhóm K (phải xác định trước) chi phí cho thực vịng lặp tính toán khoảng cách lớn số cụm K liệu phân cụm lớn 5.4 Phân lớp Một nhân viên cho vay ngân hàng cần phân tích liệu để tìm hiểu người xin vay tiền xem người “an toàn” người “rủi ro” cho ngân hàng Một người quản lý tiếp thị AllElect Electronics cần phân tích liệu để giúp dự đốn xem khách hàng có mua máy tính hay không Một nhà nghiên cứu y tế muốn phân tích liệu ung thư vú để dự đốn ba phương pháp điều trị cụ thể mà bệnh nhân nên nhận Trong ví dụ này, nhiệm vụ phân tích liệu phân lớp, mơ hình xây dựng để dự đốn nhãn lớp, chẳng hạn “An toàn” hay “Rủi ro” liệu ứng dụng cho vay; “Có” “Khơng” cho 59 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu liệu tiếp thị; “điều trị A”, “điều trị B”, “điều trị C” liệu y tế Các loại biểu diễn giá trị rời rạc, thứ tự giá trị khơng có ý nghĩa Ví dụ, giá trị 1, sử dụng để đại diện cho phương pháp điều trị A, B C, chúng khơng có thứ tự ngụ ý nhóm chế độ điều trị Giả sử người quản lý tiếp thị muốn dự đoán khách hàng cụ thể chi lần mua hàng AllElect Electronics Nhiệm vụ phân tích liệu ví dụ dự đốn số, mơ hình xây dựng dự đốn hàm có giá trị liên tục giá trị xếp, trái ngược với nhãn lớp Mơ hình dự đốn Phân tích hồi quy phương pháp thống kê thường sử dụng để dự đốn số; hai thuật ngữ có xu hướng sử dụng đồng nghĩa, phương pháp khác để dự đoán số tồn Phân lớp dự đoán số hai loại vấn đề dự đốn Chương tập trung vào phân lớp Cách tiếp cận chung để phân lớp “Phân lớp liệu hoạt động nào?” Phân lớp liệu trình gồm hai bước, bao gồm bước học tập (nơi xây dựng mơ hình phân lớp) bước phân lớp (trong mơ hình sử dụng để dự đoán nhãn lớp cho liệu cho) Quá trình hiển thị cho liệu ứng dụng cho vay Hình (Dữ liệu đơn giản hóa cho mục đích minh họa Trong thực tế, mong đợi nhiều thuộc tính xem xét Trong bước đầu tiên, trình phân lớp xây dựng mơ tả tập hợp lớp khái niệm liệu xác định trước Đây bước học tập (hoặc giai đoạn đào tạo ), thuật tốn phân lớp xây dựng trình phân lớp cách phân tích học hỏi từ tập huấn luyện tạo thành từ liệu nhãn lớp liên quan chúng Một liệu X, biểu thị vectơ thuộc tính n chiều X = (, , …, ), mô tả n phép đo thực liệu từ n thuộc tính sở liệu, , , …, Mỗi liệu X coi thuộc lớp xác định trước, xác định thuộc tính khác gọi thuộc tính nhãn lớp Thuộc tính nhãn lớp giá trị rời rạc khơng có thứ tự Nó phân loại (hoặc định danh) giá trị phục vụ danh mục lớp Các liệu riêng lẻ tạo thành tập huấn luyện tham chiếu liệu đào tạo lấy mẫu ngẫu 60 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu nhiên từ sở liệu phân tích Trong ngữ cảnh phân lớp, liệu gọi mẫu, ví dụ, trường hợp, điểm liệu đối tượng Hình 18: Quá trình phân lớp liệu (a) Học tập: Dữ liệu đào tạo phân tích thuật tốn phân lớp Ở đây, thuộc tính nhãn lớp định cho vay mơ hình học thể dạng quy tắc phân lớp Hình 19: Quá trình phân lớp liệu 61 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu (b) Phân lớp: Dữ liệu thử nghiệm sử dụng để ước tính độ xác quy tắc phân lớp Nếu độ xác coi chấp nhận được, quy tắc áp dụng để phân lớp liệu Bởi nhãn lớp liệu huấn luyện cung cấp, bước cịn gọi học có giám sát (nghĩa việc học trình phân lớp giám sát định cho lớp đào tạo thuộc lớp Nó tương phản với việc học tập không giám sát (hoặc phân cụm), khơng biết nhãn lớp huấn luyện, số lượng tập hợp lớp học khơng biết trước Ví dụ: chúng tơi khơng có sẵn liệu định cho vay tập huấn luyện, chúng tơi sử dụng phân cụm để cố gắng xác định nhóm Bước quy trình phân lớp xem việc học ánh xạ hàm y = f(X), dự đốn nhãn lớp liên quan y liệu X Trong quan điểm này, chúng tơi muốn tìm hiểu ánh xạ hàm phân tách lớp liệu Thông thường, ánh xạ thể dạng quy tắc phân lớp định cơng thức tốn học Trong ví dụ chúng tơi, ánh xạ biểu diễn dạng quy tắc phân lớp xác định ứng dụng cho vay an toàn rủi ro (Hình 1a) Các quy tắc sử dụng để phân lớp liệu tương lai, cung cấp nhìn sâu sắc nội dung liệu Họ cung cấp đại diện liệu mẫu “Điều nói độ xác phân lớp?” Ở bước thứ hai (Hình 1b), mơ hình sử dụng để phân lớp Đầu tiên, độ xác dự đốn phân lớp ước tính Nếu sử dụng tập huấn luyện để đo độ xác phân lớp, ước tính lạc quan, phân lớp có xu hướng phù hợp với liệu (nghĩa q trình học, kết hợp số dị thường cụ thể liệu đào tạo khơng có liệu chung thiết lập tổng thể) Do đó, kiểm tra sử dụng, bao gồm kiểm tra nhãn lớp liên quan chúng Chúng độc lập với liệu huấn luyện, có nghĩa chúng khơng sử dụng để xây dựng phân lớp Độ xác phân lớp kiểm tra định tỷ lệ phần trăm kiểm tra phân lớp xác phân lớp Nhãn lớp liên quan kiểm tra 62 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu so sánh với dự đoán lớp phân lớp học cho liệu Phần mơ tả số phương pháp để ước tính độ xác phân lớp Nếu độ xác trình phân lớp coi chấp nhận được, trình phân lớp sử dụng để phân lớp liệu tương lai mà nhãn lớp (Dữ liệu đề cập tài liệu học máy liệu chưa biết trước liệu chưa thấy trước đó.) Ví dụ, quy tắc phân lớp học Hình 1(a) phân tích liệu từ ứng dụng cho vay trước sử dụng để phê duyệt từ chối người xin vay tương lai 5.5 Phân tích chuỗi chuỗi thời gian a Phân tích chuỗi thời gian Phân tích chuỗi thời gian phương pháp dự báo định lượng với số liệu đầu vào chuỗi liệu khứ theo thời gian Dt Chuỗi liệu theo thời gian bao gồm thành phần: • Mức • Xu hướng • Biến thiên theo mùa • Biến thiên chu kỳ • Biến thiên ngẫu nhiên Thành phần mức ln có mặt chuỗi kiện, biễu diễn mức hay độ lớn chuỗi kiện Thành phần xu hướng biễu diễn tốc độ gia tăng hay suy giảm chuỗi kiện theo thời gian Biến thiên theo mùa biễu diễn dao động chuỗi kiện theo thời gian với chu kỳ hàng năm quanh thành phần mức hay xu hướng Biến thiên theo mùa thường có nhu cầu ảnh hưởng kịên hàng năm thời tiết, khai trường, nghĩ lễ, … 63 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu Biến thiên chu kỳ biễu diễn dao động chuỗi kiện theo thời gian quanh thành phần xu hướng Biến thiên chu kỳ dao động dài hạn nhiều năm thường kết chu kỳ kinh doanh ảnh hưởng kịên phát triển, suy thóai, khủng hỏang, hồi phục kinh tế.Biến thiên ngẫu nhiên biến thiên khó có biết trứơc lỗi hệ thống thu thập liệu hay nguyên nhân ngẫu nhiên thiên tai, chiến tranh, đình cơng, … Biến thiên ngẫu nhiên ln có mặt chuỗi kiện cần lọc bỏ dự báo Một kỹ thuật thường dùng để lọc bỏ biến thiên ngẫu nhiên phép lấy trung bình b Mơ hình phân tích chuỗi thời gian Các mơ hình phân tích chuỗi thời gian bao gồm: • Mơ hình trung bình • Mơ hình làm trơn hàm mũ – EWMA • Mơ hình hồi quy – RA Các mơ hình trung bình bao gồm • Chu kỳ cuối – LPD • Trung bình số học – AA • Trung bình dịch chuyển – MA • Trung bình dịch chuyển có trọng số – WMA Mơ hình làm trơn hàm mũ mơ hình có kết dự báo trung bình có trọng số kiện dự báo kiện thực tế chu kỳ trước Mơ hình phân tích hồi quy giả sử nhu cầu có tương quan với thời gian hàm thời gian Với hồi quy tuyến tính, giá trị dự báo hàm tuyến tính biến thời gian c Mơ hình phân tích chuỗi thời gian thực tế Các mơ hình phân tích chuỗi thời gian thực tế thường dùng bao gồm: • Mơ hình Winter 64 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu • Mơ hình phân ly • Mơ hình Box-Jenkins Mơ hình Winter mơ hình làm trơn hàm mũ xét thành phần mức, xu hướng mùa Mơ hình phân ly giả sử liệu chuỗi thời gian bao gồm thành phần xu hướng T, mùa S, chu kỳ C, ngẫu nhiên R kết hợp kỹ thuật làm trơn chuỗi liệu hồi quy tuyến tính Năm 1970, George Box Gwilym Jenkins xây dựng phương pháp hệ thống để phân tích chuỗi liệu lựa chọn mơ hình dự báo thích hợp gọi phương pháp Box – Jenkins gồm bước: • Xác định cấu trúc mơ hình • Ước lượng tham số mơ hình • Kiểm tra phù hợp mơ hình Một mơ hình sử dụng phương pháp Box – Jenkins mơ hình ARIMA Mơ hình ARIMA mơ hình tốn dùng cho chuỗi liệu theo thời gian, kết hợp phương pháp hồi quy phương pháp trung bình dịch chuyển Một số khái niệm Máy học Máy học 6.1 Máy học ứng dụng trí tuệ nhân tạo cung cấp cho hệ thống khả tự động học hỏi cải thiện hiệu suất, độ xác dựa kinh nghiệm từ liệu đầu vào Máy học tập trung vào việc phát triển phần mềm, chương trình máy tính truy cập vào liệu tận dụng nguồn liệu để tự học Các bước học máy: Một toán học máy cần trải qua bước chính: • Chọn mơ hình: Chọn mơ hình thống kê cho tập liệu Ví dụ mơ hình thống kê Bec-nu-li, mơ hình phân phối chuẩn 65 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu • Tìm tham số: Các mơ hình thống kê có tham số tương ứng, nhiệm vụ lúc tìm tham số cho phù hợp với tập liệu • Suy luận: Sau có mơ hình tham số, ta dựa vào chúng để đưa suy luận cho đầu vào Bất tốn học máy cần có liệu để huấn luyện, ta coi điều kiện tiên Dữ liệu sau có cần phải: • Chuẩn hoá: Tất liệu đầu vào cần chuẩn hố để máy tính xử lý Q trình chuẩn hố bao gồm số hố liệu, co giãn thơng số cho phù hợp với toán Việc chuẩn hoá ảnh hưởng trực tiếp tới tốc độ huấn luyện hiệu huấn luyện Cụ thể ta thảo luận viết khác • Phân chia: Việc mơ hình chọn khớp với tập liệu có khơng có nghĩa giả thuyết ta mà xảy tình liệu thật lại không khớp Vấn đề học máy gọi khớp (Overfitting) Vì huấn luyện người ta phải phân chia liệu thành loại để kiểm chứng phần mức độ tổng qt mơ hình Cụ thể loại là: o Tập huấn luyện (Training set): Chiếm 60% Dùng để học huấn luyện o Tập kiểm chứng (Cross validation set): Chiếm 20% Dùng để kiểm chứng mơ hình huấn luyện o Tập kiểm tra (Test set): Chiếm 20% Dùng để kiểm tra xem mơ hình phù hợp chưa sau huấn luyện Lưu ý rằng, tập kiểm tra ta phải lọc riêng khơng sờ tới, sử dụng huấn luyện Còn tập huấn luyện tập kiểm chứng nên xáo trộn đổi cho để mơ hình ta huấn luyện với mẫu ngẫu nhiên 66 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu 6.2 Học khơng giám sát Hình 20: Học khơng giám sát Trong thuật tốn này, liệu đầu hay nhãn mà có liệu đầu vào Thuật tốn học không giám sát dựa vào cấu trúc liệu để thực cơng việc ví dụ phân nhóm giảm số chiều liệu để thuận tiện việc lưu trữ tính tốn Một cách tốn học, học khơng giám sát có liệu vào X mà khơng biết nhãn Y tương ứng Những thuật toán loại gọi học khơng giám sát khơng học có giám sát khơng biết câu trả lời xác cho mõi liệu dầu vào Giống ta học , khơng có thề giáo cho ta biết A hay chữ B Ứng dụng phổ biến học không giám sát tốn phân cụm 67 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu 6.3 Học có giám sát Hình 21: Học có giám sát Học có giám sát hướng tiếp cận Máy học để làm cho máy tính có khả “học” Trong hướng tiếp cận này, người ta “huấn luyện” máy tính dựa quan sát có dán nhãn Ta hình dung quan sát câu hỏi, nhãn chúng câu trả lời Ý tưởng học có giám sát là: việc ghi nhớ tổng quát hóa số quy tắc từ tập câu hỏi có đáp án trước, máy tính trả lời câu hỏi dù chưa gặp phải, có mối liên quan Ví dụ ta dạy máy tính “1 + = 2” hy vọng học phép tính cộng x + trả lời “2 + = 3” Học có giám sát mơ việc người học cách đưa dự đốn cho câu hỏi, sau đối chiếu với đáp án Sau người rút phương pháp để trả lời khơng câu hỏi đó, mà cho câu hỏi có dạng tương tự Trong học có giám sát, quan sát bắt buộc phải dán nhãn trước Đây nhược điểm phương pháp này, khơng phải lúc việc dán nhãn xác cho quan sát dễ dàng Ví dụ dịch thuật, từ câu ngơn ngữ gốc dịch thành nhiều phiên khác ngôn ngữ cần dịch sang Tuy nhiên, việc quan sát dán nhãn lại ưu điểm học có giám sát thu thập liệu lớn dán nhãn chuẩn xác, việc huấn luyện trở nên dễ dàng nhiều so với liệu khơng dán nhãn 68 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu 6.4 Học bán giám sát Hình 22: Học bán giám sát Nằm học tập giám sát không giám sát, chúng sử dụng liệu gắn nhãn không dán nhãn để đào tạo – thường lượng nhỏ liệu có nhãn lượng lớn liệu không dán nhãn Các hệ thống sử dụng phương pháp cải thiện đáng kể độ xác việc học Thơng thường, việc học bán giám sát chọn liệu dán nhãn u cầu địi hỏi tài ngun có kỹ có liên quan để đào tạo/học hỏi từ Nếu khơng, liệu gắn nhãn thường không yêu cầu tài nguyên bổ sung 6.5 Học kết hợp Các mơ hình khác xuất phát từ suy nghĩ hợp lý là: mơ hình khác có khả khác nhau, thực tốt loại công việc khác (subtasks), kết hợp mơ hình với cách hợp lý tạo thành mơ hình kết hợp (combined model) mạnh improve overall performance so với việc dùng mơ hình cách đơn lẻ Phương pháp kết hợp mơ hình dự báo sử dụng phổ biến là: 69 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu • Bagging: Xây dựng lượng lớn models (thường loại) ̀ subsamples khác từ tập training dataset Bagging dùng để giảm overfitting mơ hình phức tạp Ta hiểu đơn giản overfitting lỗi mơ hình tốn học áp dụng dự đốn cho liệu xác (99%) áp dụng dự đoán cho liệu khác lại thấp (42%) • Boosting: Xây dựng lượng lớn models (thường loại) Mỗi model sau học cách sửa errors model trước (dữ liệu mà model trước dự đoán sai) tạo thành chuỗi.Nhược điểm chiến lược yêu cầu liệu huấn luyện phải lớn • Stacking: Xây dựng số models (thường khác loại) mơ hình supervisor model, mơ hình học cách kết hợp kết dự báo số mơ hình cách tốt Bài khơng giải thích cụ thể phương pháp mà tập trung vào hướng dẫn cách triển khai chúng R 70 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu Danh mục tài liệu tham khảo (1) https://doc.lagout.org/science/0_Computer%20Science/2_Algorithms/Data %20Classification_%20Algorithms%20and%20Applications%20%5BAgga rwal%202014-07-25%5D.pdf (2) https://drive.google.com/drive/folders/1gU4IuOTVRT2GrPB2A0eBmm9DdPSnqd2?fbclid=IwAR0O9OiysFuRWi_t2c nC5_gmKRrPHVWwzuWhx5z2DhdiyNoB59SsEdWh-00 (3) https://en.wikipedia.org/wiki/Data_mining (4) https://books.google.com.vn/books?hl=vi&lr=&id=dH2KQhJboSYC&oi=f nd&pg=PP13&dq=data+mining+techniques&ots=zL6Af1bPzb&sig=tHn3s jM5msTYxtvKTLANSueX8c&redir_esc=y#v=onepage&q=data%20minin g%20techniques&f=false (5) https://books.google.com.vn/books?hl=vi&lr=&id=hhdVr9FJfAC&oi=fnd&pg=PA6&dq=data+mining&ots=6giR9QPybu&sig=ZKXCNLc0tfTjgEnOZmcUcA5FI&redir_esc=y#v=onepage&q=data%20mining&f=fals e 71 Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu KẾT LUẬN Trong thời kỳ công nghệ vô phát triển với kho liệu khổng lồ, phủ nhận việc phân tích liệu có vai trị vơ quan trọng ứng dụng vào hầu hết tất lĩnh vực thực tế Bài làm nhóm chúng em thể nhìn tổng quát nhất, trình khám phá tri thức, dạng liệu, dạng phân tích liệu, tác vụ phân tích liệu, đồng thời đưa số khái niệm máy học nhìn tổng quan Bài báo cáo nhóm chúng em cịn thiếu sót, mong thầy bạn đọc góp ý để nhóm chúng em hồn thiện Cuối nhóm em muốn gửi lời cảm ơn chân thành đến thầy Lê Chí NgọcGiảng viên hướng dẫn môn Hệ Hỗ Trợ Quyết Định định hướng cung cấp cho chúng em nhiều tài liệu bổ ích, giúp nhóm chúng em hồn thiện tốt hơn!!!" Chúng em xin chân thành cảm ơn! Hà Nội, ngày 14 tháng năm 2020 Nhóm sinh viên thực hiện… Nhóm 10 72 Nhóm 10 _ HTTT Quản Lý - k62 ... tin - kiện phân tích liệu hành vi người dùng Nhóm 10 _ HTTT Quản Lý - k62 Chương 1: Đại cương phân tích liệu + Phân tích liệu phần mềm: Phân tích liệu phần mềm q trình thu thập phân tích thông... 1: Đại cương phân tích liệu Phân tích liệu gì? Phân tích liệu q trình phát hiện, giải thích truyền đạt mơ hình có ý nghĩa liệu Đặc biệt có giá trị lĩnh vực có nhiều thơng tin ghi lại, phân tích. .. cáo chúng em mong phần khái quát phân tích liệu để phần giúp bạn hiểu phân tích liệu , q trình khám phá tri thức, dạng về: liệu phân tích liệu , tác vụ phân tích liệu khái niệm khái quát máy học

Ngày đăng: 04/08/2020, 00:26

Tài liệu cùng người dùng

Tài liệu liên quan