KHAI THÁC DỮ LIỆU, HỌC MÁY VÀ PHÂN TÍCH DỮ LIỆU LỚN Bài báo này phân tích các phương pháp học sâu, khai thác dữ liệu truyền thống và học máy; so sánh ưu nhược điểm của các phương pháp truyền thống; gi.
KHAI THÁC DỮ LIỆU, HỌC MÁY VÀ PHÂN TÍCH DỮ LIỆU LỚN Bài báo phân tích phương pháp học sâu, khai thác liệu truyền thống học máy; so sánh ưu nhược điểm phương pháp truyền thống; giới thiệu nhu cầu doanh nghiệp, hệ thống liệu, thách thức CNTT Dữ liệu lớn sở hạ tầng dịch vụ mở rộng Tính khả thi thách thức ứng dụng học sâu phương pháp khai thác liệu truyền thống học máy phân tích Dữ liệu lớn phân tích trình bày Giới thiệu Khai phá liệu tập trung vào khám phá tri thức liệu Học máy tập trung vào dự đoán dựa đào tạo học tập Khai thác liệu sử dụng nhiều phương pháp học máy; học máy sử dụng phương pháp khai thác liệu làm tiền xử lý để học tốt xác Học máy bao gồm phương pháp học có giám sát khơng giám sát Khai thác liệu có sáu nhiệm vụ chính: phân cụm, phân loại, hồi quy, phát bất thường ngoại lệ, học quy tắc kết hợp tóm tắt Tính khả thi thách thức ứng dụng khai thác liệu học máy liệu lớn chủ đề nghiên cứu nhiều thách thức Giảm kích thước liệu vấn đề xử lý liệu lớn Dữ liệu chiều cao gây vấn đề cho việc khai thác liệu học máy tính chiều cao giúp ích số tình định, chẳng hạn phân loại phi tuyến tính Tuy nhiên, điều quan trọng phải kiểm tra xem giảm số chiều bảo tồn thuộc tính ma trận liệu đầy đủ hay khơng.1 Giảm kích thước tạo điều kiện thuận lợi cho việc phân loại, giao tiếp, trực quan hóa lưu trữ liệu nhiều chiều Phương pháp sử dụng rộng rãi việc giảm kích thước phân tích thành phần (PCA) PCA phương pháp đơn giản tìm hướng có phương sai lớn tập liệu biểu thị điểm liệu theo tọa độ dọc theo hướng này2 Hướng có phương sai dự kiến lớn gọi thành phần Hướng trực giao thu phương sai dự kiến lớn thứ hai gọi thành phần thứ hai, v.v.1 PCA hữu ích có số lượng lớn biến liệu có số dư thừa biến Trong tình này, dự phịng có nghĩa số biến có tương quan với Do dư thừa này, PCA sử dụng để giảm biến quan sát thành số lượng nhỏ thành phần chính3 Phân tích nhân tố phương pháp khác để giảm kích thước Nó hữu ích để hiểu lý cho mối tương quan nhóm biến Các ứng dụng phân tích nhân tố giảm số lượng biến phát cấu trúc mối quan hệ biến Do đó, phân tích nhân tố thường sử dụng phương pháp phát cấu trúc giảm liệu Cụ thể, sử dụng để tìm nhân tố ẩn đằng sau biến quan sát làm giảm số lượng biến tương quan Trong phân tích nhân tố, người ta giả định số biến tiềm ẩn không quan sát tạo liệu quan sát Dữ liệu giả định kết hợp tuyến tính biến tiềm ẩn số nhiễu Số lượng biến tiềm ẩn số lượng biến liệu quan sát, đáp ứng việc giảm kích thước4 ,5 Trong ứng dụng thực tế, tỷ lệ 75% 25% thường sử dụng tương ứng cho tập liệu huấn luyện kiểm chứng Tuy nhiên, phương pháp sử dụng thường xuyên nhất, đặc biệt lĩnh vực mạng thần kinh, chia tập liệu thành ba khối: đào tạo, xác nhận kiểm tra Dữ liệu thử nghiệm khơng sử dụng giai đoạn lập mơ hình Kỹ thuật xác thực chéo k -fold kỹ thuật phổ biến sử dụng để ước tính hiệu suất phân loại khắc phục vấn đề khớp mức7 Trong xác thực chéo k -fold, liệu ban đầu phân chia ngẫu nhiên thành k tập loại trừ lẫn "các nếp gấp" Đào tạo kiểm tra thực k lần Mỗi mẫu sử dụng số lần để huấn luyện lần để kiểm tra Chuẩn hóa đặc biệt hữu ích cho thuật toán phân loại liên quan đến mạng thần kinh phép đo khoảng cách phân loại phân cụm lân cận gần Đối với phương pháp dựa khoảng cách, chuẩn hóa giúp ngăn thuộc tính có phạm vi lớn ban đầu (ví dụ: thu nhập) vượt trội so với thuộc tính có phạm vi ban đầu nhỏ (ví dụ: thuộc tính nhị phân) Có nhiều phương pháp để chuẩn hóa liệu chuẩn hóa tối thiểu-tối đa, chuẩn hóa điểm số z chuẩn hóa theo tỷ lệ thập phân Mục đích báo 1) phân tích học sâu phương pháp học máy khai thác liệu truyền thống (bao gồm k -mean , k -hàng xóm gần nhất, máy vectơ hỗ trợ, định, hồi quy logistic, Naive Bayes, mạng nơ-ron, đóng bao, tăng cường , rừng ngẫu nhiên); 2) so sánh ưu điểm nhược điểm phương pháp truyền thống; 3) giới thiệu nhu cầu, hệ thống liệu doanh nghiệp, thách thức CNTT Dữ liệu lớn sở hạ tầng dịch vụ mở rộng; 4) thảo luận tính khả thi thách thức ứng dụng học sâu phương pháp khai thác liệu truyền thống học máy phân tích Dữ liệu lớn Một số phương pháp Data Mining Machine Learning 2.1 k -means , k - mode, k -prototypes phân tích cụm Các phương pháp phân cụm phân loại thành loại sau: phương pháp phân vùng, phương pháp phân cấp, phương pháp dựa mơ hình, phương pháp dựa lưới, phương pháp dựa mật độ phương pháp dựa ràng buộc Ưu điểm phân cụm so với phân loại khả thích ứng với thay đổi giúp chọn tính hữu ích để phân biệt nhóm khác nhau9 Một phương pháp phân cụm tốt tạo cụm chất lượng cao với độ tương tự lớp cao độ tương tự lớp thấp Chất lượng việc phân cụm phụ thuộc vào phù hợp phương pháp tập liệu, thước đo độ tương tự (không) sử dụng việc thực Chất lượng phương pháp phân cụm đo khả khám phá số tất mẫu ẩn Các loại liệu phân tích phân cụm bao gồm danh nghĩa (phân loại), biến theo tỷ lệ khoảng, biến nhị phân, biến thứ tự loại hỗn hợp10 k -means sử dụng phương pháp lặp lặp lại tham lam để tìm phân cụm giúp giảm thiểu tổng lỗi bình phương (SSE) Nó hội tụ đến tối ưu cục thay tối ưu tồn cầu1 Các thuộc tính quan trọng thuật tốn k -means bao gồm11 : 1) hiệu việc xử lý tập liệu lớn; 2) hoạt động giá trị số; 3) cụm có dạng lồi Người dùng cần định trước k (số cụm) Phương pháp kết thúc địa phương tối ưu Tối ưu tồn cầu tìm thấy cách sử dụng kỹ thuật ủ xác định thuật tốn di truyền Phương pháp k -means khơng áp dụng cho liệu phân loại k- mode phương pháp dành cho liệu phân loại sử dụng chế độ k -mode sử dụng biện pháp khác biệt để xử lý đối tượng phân loại sử dụng phương pháp dựa tần số để cập nhật chế độ cụm Phương pháp nguyên mẫu k xử lý hỗn hợp liệu phân loại số10 2.2 k -Hàng xóm gần Phân loại k -hàng xóm gần ( k -NN) tìm nhóm gồm k đối tượng tập huấn luyện gần với đối tượng thử nghiệm dựa việc gán nhãn dựa ưu lớp cụ thể vùng lân cận k -NN liên quan đến việc gán cho đối tượng lớp hàng xóm gần phần lớn hàng xóm gần Nói cách cụ thể, phân loại k -NN tìm thấy k phiên huấn luyện gần với phiên chưa nhìn thấy lấy phân loại thường xảy cho k phiên Có số vấn đề ảnh hưởng đến hiệu suất k -NN Một lựa chọn k Nếuk nhỏ, kết nhạy cảm với điểm nhiễu Mặt khác, k lớn, lân cận bao gồm nhiều điểm từ lớp khác Ước tính giá trị tốt cho k thu xác thực chéo Cho đủ mẫu, giá trị lớn k có khả chống nhiễu tốt hơn12 ,13 Thuật toán k -NN để phân loại thuật toán học 'dựa cá thể' đơn giản Mặc dù đơn giản mang lại hiệu tốt số toán3 Các thuộc tính quan trọng thuật tốn k -NN là11 : 1) dễ triển khai sử dụng; 2) cần nhiều không gian để lưu trữ tất đối tượng 2.3 Máy véc tơ hỗ trợ Máy vectơ hỗ trợ (SVM) phương pháp học có giám sát sử dụng cho tác vụ phân loại hồi quy3 SVM chứng minh hoạt động tốt toán thưa thớt, phi tuyến tính nhiều chiều Một lợi phương pháp việc xây dựng mơ hình sử dụng vectơ hỗ trợ khơng phải tồn tập liệu huấn luyện Do đó, kích thước tập huấn luyện thường khơng phải vấn đề Ngồi ra, mơ hình bị ảnh hưởng ngoại lệ sử dụng vectơ hỗ trợ để xây dựng mơ hình Một nhược điểm thuật tốn nhạy cảm với việc lựa chọn tùy chọn điều chỉnh (ví dụ: loại phép biến đổi thực hiện) Điều làm cho tốn thời gian khó sử dụng cho mơ hình tốt Một nhược điểm khác phép biến đổi thực q trình xây dựng mơ hình tính điểm liệu Điều làm cho tốn mặt tính tốn SVM hoạt động với giá trị số danh nghĩa; phân loại SVM hỗ trợ mục tiêu nhị phân đa lớp14 2.4 Cây hồi quy logistic Cây định sử dụng khai thác liệu bao gồm hai loại chính: 1) phân loại để dự đoán lớp mà liệu thuộc về; 2) hồi quy để dự đoán kết số thực Cây phân loại hồi quy cung cấp cách tiếp cận khác để dự đoán15 Khi xây dựng cây, biện pháp ý nghĩa thống kê, thu thơng tin, số Gini, v.v sử dụng để đánh giá hiệu việc phân tách Khi định xây dựng, nhiều nhánh phản ánh bất thường liệu huấn luyện nhiễu ngoại lệ Các phương pháp cắt tỉa giải vấn đề ghi đè liệu Cây cắt tỉa có xu hướng nhỏ phức tạp hơn, dễ hiểu Chúng thường nhanh tốt việc phân loại xác liệu thử nghiệm độc lập Có hai cách cắt tỉa cây: 1) cắt tỉa trước — cắt tỉa cách tạm dừng q trình xây dựng sớm; 2) cắt tỉa sau — phương pháp loại bỏ khỏi trưởng thành9 Chiến lược cắt tỉa sau (đôi gọi cắt tỉa ngược) thay cắt tỉa trước (hoặc tỉa trước) thường áp dụng sau xây dựng hoàn chỉnh16 Cả phân vùng đệ quy suy luận có điều kiện khơng theo tham số, hoạt động toán phân loại hồi quy, đồng thời linh hoạt dễ diễn giải chúng có xu hướng khớp mức Cây suy luận có điều kiện bị sai lệch phân vùng đệ quy Hồi quy logistic mơ hình hồi quy biến phụ thuộc phân loại Nó khơng tốn mặt tính toán, dễ thực hiện, biểu diễn tri thức tốt dễ diễn giải Tuy nhiên, dễ bị thiếu có độ xác thấp5 2.5 Nạve Bayes Bộ phân loại Naïve Bayes phương pháp phân loại không sử dụng quy tắc, định biểu diễn rõ ràng khác phân loại Thay vào đó, sử dụng lý thuyết xác suất để tìm phân loại khả thi nhất13 Naïve Bayes hoạt động với lượng nhỏ liệu giá trị danh nghĩa Các thuộc tính quan trọng thuật tốn Naive Bayes 11 : 1) dễ xây dựng đào tạo dễ dàng nhanh chóng; 2) có khả mở rộng cao Vẻ đẹp phân loại Naive Bayes nằm đơn giản, hiệu tính tốn, hiệu suất phân loại tốt Trên thực tế, thường vượt trội so với phân loại tinh vi giả định yếu tố dự báo độc lập không Ưu điểm đặc biệt dành cho tình số lượng người dự đốn lớn Có nhiều tính Naive Bayes Đầu tiên, phân loại Naive Bayes yêu cầu số lượng ghi lớn để thu kết tốt Thứ hai, danh mục cơng cụ dự đốn khơng có liệu huấn luyện, Naive Bayes giả định ghi với danh mục công cụ dự đốn có xác suất khơng Đây vấn đề giá trị dự đoán quan trọng Cuối cùng, hiệu suất tốt đạt mục tiêu phân loại xếp hạng hồ sơ theo xác suất thuộc lớp định Tuy nhiên, mục tiêu thực ước tính xác suất thành viên lớp, phương pháp cung cấp kết sai lệch Vì lý này, phương pháp Naive Bayes sử dụng chấm điểm tín dụng17 2.6 Mạng thần kinh Mạng nơ-ron hay gọi mạng nơ-ron nhân tạo, mơ hình để phân loại dự đoán17 Các thuật toán mạng thần kinh vốn song song Các phương pháp song song hóa sử dụng để tăng tốc q trình tính tốn Ngoài ra, số kỹ thuật gần phát triển để trích xuất quy tắc từ mạng thần kinh đào tạo Điều góp phần ứng dụng mạng nơ-ron để phân loại dự đoán khai thác liệu6 Các thuộc tính quan trọng mạng nơ-ron sau17 : • Thứ nhất, mạng nơ-ron có khả khái quát hóa từ tập hợp ví dụ, phép ngoại suy mối nguy hiểm nghiêm trọng Nếu mạng nhìn thấy trường hợp phạm vi định, dự đốn bên ngồi phạm vi hồn tồn khơng hợp lệ • Thứ hai, mạng nơ-ron khơng có chế chọn biến tích hợp Điều có nghĩa cần phải xem xét cẩn thận yếu tố dự báo Sự kết hợp với phân loại hồi quy kỹ thuật giảm kích thước khác (ví dụ: phân tích thành phần chính) thường sử dụng để xác định yếu tố dự đốn • Thứ ba, tính linh hoạt cao mạng thần kinh phụ thuộc nhiều vào việc có đủ liệu cho mục đích đào tạo Mạng thần kinh hoạt động kích thước tập huấn luyện khơng đủ, mối quan hệ phản hồi yếu tố dự đốn đơn giản • Thứ tư, vấn đề kỹ thuật nguy đạt trọng số dẫn đến tối ưu cục tối ưu tồn cục • Cuối cùng, mạng thần kinh liên quan đến nhiều tính tốn u cầu thời gian chạy lâu so với phân loại khác Thời gian chạy tăng lên nhiều số lượng dự đoán tăng lên Thuật toán mạng thần kinh phổ biến lan truyền ngược Backpropagation sử dụng phương pháp giảm dần độ dốc Giá trị đích nhãn lớp biết liệu huấn luyện (đối với toán phân loại) giá trị liên tục (đối với dự đoán)6 Sự đánh đổi phải nằm phù hợp mức phù hợp để định kích thước lớp ẩn Sử dụng q nút khơng đủ để nắm bắt mối quan hệ phức tạp Mặt khác, nhiều nút dẫn đến trang bị mức Một nguyên tắc chung bắt đầu với nút p (số lượng dự đoán) giảm dần/tăng lên chút kiểm tra xem có trang bị mức không17 Ưu điểm mạng thần kinh bao gồm hiệu suất dự đoán tốt, khả chịu đựng liệu nhiễu khả phân loại mẫu mà chúng chưa đào tạo Chúng sử dụng bạn có kiến thức mối quan hệ thuộc tính lớp Chúng phù hợp với đầu vào đầu có giá trị liên tục, khơng giống hầu hết thuật toán định ,17 Mạng lưới thần kinh chung chung ước tính mối quan hệ phức tạp Điểm yếu chúng cung cấp nhìn sâu sắc cấu trúc mối quan hệ, mang tiếng “hộp đen” chúng Người dùng mạng thần kinh phải đưa nhiều giả định mơ hình hóa, chẳng hạn số lớp ẩn số đơn vị lớp ẩn lớp, thường có hướng dẫn cách thực điều này.Hơn nữa, lan truyền ngược chậm số học khơng chọn xác17 ,18 Việc giảm kích thước liệu thực với mạng thần kinh Dữ liệu chiều cao chuyển đổi thành mã chiều thấp cách huấn luyện mạng thần kinh nhiều lớp với lớp trung tâm nhỏ để tái tạo lại vectơ đầu vào chiều cao Độ dốc gốc sử dụng để tinh chỉnh trọng số mạng ''bộ mã hóa tự động'' vậy, điều hoạt động tốt trọng số ban đầu gần với giải pháp tốt Một cách hiệu để khởi tạo trọng số cho phép mạng mã hóa tự động sâu học mã có chiều thấp đề xuất Nó hoạt động tốt so với phân tích thành phần cơng cụ để giảm kích thước liệu2 2.7 Học kĩ Học sâu lĩnh vực nghiên cứu máy học, giới thiệu với mục tiêu đưa máy học đến gần với mục tiêu ban đầu trí tuệ nhân tạo Học sâu việc học nhiều cấp độ biểu diễn trừu tượng giúp hiểu liệu19 Máy sâu hiệu để biểu diễn lớp chức định; đặc biệt người liên quan đến nhận dạng hình ảnh, chúng biểu diễn chức phức tạp với “phần cứng” SVM phương thức Kernel khơng sâu Cây phân loại khơng sâu khơng có phân cấp tính Học sâu liên quan đến hàm mát khơng lồi học có giám sát sâu khơng lồi20 Học sâu có tiềm xử lý liệu lớn có thách thức Một số phương pháp đề xuất để sử dụng liệu chưa gắn nhãn kiến trúc dựa mạng thần kinh sâu Các phương pháp thực đào tạo trước trọng số theo lớp tham lam sử dụng liệu khơng gắn nhãn, sau tinh chỉnh có giám sát tìm hiểu mã hóa khơng giám sát nhiều cấp độ kiến trúc với tín hiệu giám sát Đối với phần sau, thiết lập sau: 1) chọn thuật toán học khơng giám sát; 2) chọn mơ hình có kiến trúc sâu; 3) học không giám sát cắm vào (hoặc tất cả) lớp kiến trúc nhiệm vụ phụ trợ; 4) đào tạo đồng thời nhiệm vụ giám sát không giám sát sử dụng kiến trúc21 2.8 So sánh phương pháp khác phương pháp tập hợp Bảng so sánh ưu điểm nhược điểm phương pháp khai thác liệu truyền thống (DM) học máy (ML) Bảng Ưu điểm nhược điểm phương pháp DM/ML truyền thống Các phương pháp tập hợp làm tăng độ xác phân loại dự đốn Đóng gói, tăng cường rừng ngẫu nhiên ba phương pháp phổ biến học tập đồng Bộ phân loại bootstrap (hoặc đóng gói) thường tốt phân loại có nguồn gốc từ tập huấn luyện ban đầu Độ xác tăng lên xảy mơ hình tổng hợp làm giảm phương sai phân loại riêng lẻ Để dự đoán, cơng cụ dự đốn đóng gói cải thiện độ xác so với cơng cụ dự đốn Nó mạnh mẽ liệu mức ồn Các phương pháp Bootstrap sử dụng không để đánh giá khác biệt mơ hình mà cịn cải thiện độ xác Các phương pháp đóng gói tăng tốc sử dụng kết hợp mơ hình kết hợp kết nhiều phương pháp Cả đóng gói tăng tốc sử dụng để phân loại dự đốn6 ,7 ,8 ,18 Đóng gói, viết tắt tập hợp bootstrap, phương pháp phân loại đồng sử dụng nhiều mẫu bootstrap (có thay thế) từ liệu huấn luyện đầu vào để tạo tập huấn luyện khác nhau1 Đóng gói ý tưởng thu thập mẫu quan sát ngẫu nhiên vào túi Nhiều túi tạo thành từ quan sát chọn ngẫu nhiên thu từ quan sát ban đầu từ tập liệu huấn luyện 14 Đóng gói phương pháp bỏ phiếu sử dụng bootstrap cho tập huấn luyện khác sử dụng tập huấn luyện để tạo người học sở khác Phương pháp đóng bao sử dụng kết hợp người học sở để đưa dự đoán tốt hơn7 Tăng cường phương pháp tập hợp cố gắng xây dựng thuật toán học tốt cách kết hợp nhiều thuật toán đơn giản 24 Tăng cường tương tự phương pháp đóng bao Đầu tiên xây dựng việc học sở theo trình tự, người học xây dựng cho phần dư dự đoán người học trước Với phương tiện để tạo người học bổ sung, sử dụng sai lầm người học trước để đào tạo người học sở Tăng cường đào tạo phân loại sở mẫu khác ,7 Việc tăng tốc khơng thực khơng có đủ liệu mơ hình yếu q phức tạp Boosting dễ bị nhiễu14 Thuật toán thúc đẩy phổ biến AdaBoost “thích ứng” AdaBoost đơn giản để sử dụng triển khai (đơn giản nhiều so với SVM) thường mang lại kết hiệu 24 AdaBoost hoạt động với giá trị số giá trị danh nghĩa Nó có lỗi tổng quát hóa thấp, dễ viết mã, hoạt động với hầu hết phân loại khơng có tham số để điều chỉnh Tuy nhiên, nhạy cảm với ngoại lệ5 Mặc dù đóng gói xếp ngẫu nhiên mang lại kết tương tự nhau, đáng để kết hợp chúng chúng tạo tính ngẫu nhiên theo cách khác có lẽ bổ sung cho Một thuật toán phổ biến để học khu rừng ngẫu nhiên xây dựng định ngẫu nhiên lần lặp lại thuật tốn đóng bao thường tạo dự đoán xuất sắc 16 Phương pháp rừng ngẫu nhiên cách tiếp cận tập hợp dựa thực sự kết hợp nhiều mơ hình1 ,15 Nó phân loại tập hợp bao gồm nhiều định 25 Một khu rừng ngẫu nhiên mọc nhiều phân loại, thu nhiều kết từ đầu vào Nó sử dụng phần lớn phiếu bầu từ tất định để phân loại liệu sử dụng đầu trung bình để hồi quy7 Các mơ hình rừng ngẫu nhiên thường cạnh tranh với phân loại phi tuyến tính mạng lưới thần kinh nhân tạo máy vectơ hỗ trợ Mơ hình rừng ngẫu nhiên lựa chọn tốt để xây dựng mơ hình q trình xử lý trước liệu, khơng u cầu chuẩn hóa liệu có khả phục hồi trước giá trị ngoại lệ Không cần phải lựa chọn biến thuật tốn tự thực cách hiệu Bởi nhiều xây dựng cách sử dụng hai cấp độ ngẫu nhiên (quan sát biến), thực mơ hình độc lập Thuật toán rừng ngẫu nhiên xây dựng nhiều định cách sử dụng khái niệm gọi đóng bao để đưa việc lấy mẫu ngẫu nhiên vào tồn quy trình Khi xây dựng định, thuật tốn rừng ngẫu nhiên thường khơng thực thao tác cắt tỉa định Các mơ hình trang bị q mức có xu hướng khơng hoạt động tốt liệu Tuy nhiên, rừng ngẫu nhiên trang bị q mức mang lại mơ hình tốt, hoạt động tốt liệu mới14 Dữ liệu lớn sở hạ tầng dịch vụ thách thức CNTT Khi thách thức liệu doanh nghiệp tiếp tục gia tăng (xem Bảng 26 ), cơng nghệ truyền thống có thách thức việc xử lý nguồn Dữ liệu lớn, Đám mây Phi cấu trúc bàn số Hình 27 cho thấy Dữ liệu lớn phần sở hạ tầng dịch vụ ảo hóa Hạ tầng phần cứng ảo hóa cơng nghệ điện toán đám mây; Trên sở hạ tầng dựa đám mây này, Phần mềm dạng Dịch vụ (SaaS); SaaS, xây dựng Quy trình kinh doanh dạng dịch vụ (BPaaS) Song song, Dữ liệu lớn cung cấp dạng dịch vụ nhúng làm điều kiện tiên cho dịch vụ Kiến thức, ví dụ: tích hợp Cơng nghệ ngữ nghĩa để phân tích liệu tổng hợp phi cấu trúc Dữ liệu lớn dạng Dịch vụ coi lớp mở rộng PaaS SaaS Công nhân tri thức nhà khoa học liệu cần thiết để chạy Dữ liệu lớn Tri thức Bảng Nhu cầu Doanh nghiệp, Hệ thống Dữ liệu Thách thức CNTT Bảng Dữ liệu lớn sở hạ tầng dịch vụ mở rộng Khai thác liệu học máy phân tích liệu lớn Hadoop cơng cụ phân tích Dữ liệu lớn triển khai MapReduce mã nguồn mở Danh sách ngắn sau xác định việc triển khai MapReduce ba thuật toán5 : • Nạve Bayes—Đây số thuật tốn triển khai tự nhiên MapReduce Thật dễ dàng để tính tổng MapReduce Với lớp, xác suất tính tính phương pháp Naïve Bayes, kết từ lớp định cung cấp cho trình ánh xạ riêng lẻ, Bộ giảm tốc sử dụng để tổng hợp kết • Máy vectơ hỗ trợ (SVM) —Cũng có phiên gần SVM gọi SVM gần tính tốn giải pháp nhanh nhiều dễ dàng sử dụng khung MapReduce • Phân tách giá trị đơn lẻ—Thuật tốn Lanczos phương pháp hiệu để tính gần giá trị riêng Thuật tốn sử dụng loạt công việc MapReduce để tìm giá trị đơn lẻ ma trận lớn cách hiệu Tuy nhiên, ba phương pháp khơng thể sử dụng phân tích Dữ liệu lớn Các kỹ thuật học máy (ML) truyền thống không phù hợp để phân loại liệu lớn vì: (1) Một kỹ thuật ML đào tạo tập liệu miền liệu gắn nhãn cụ thể khơng phù hợp với tập liệu miền liệu khác; (2) kỹ thuật ML nói chung đào tạo cách sử dụng số loại lớp định lượng lớn loại lớp tìm thấy liệu lớn phát triển động; (3) kỹ thuật ML phát triển dựa nhiệm vụ học tập chúng khơng phù hợp với nhiều nhiệm vụ học tập yêu cầu chuyển giao kiến thức phân tích liệu lớn 28 ; (4) hạn chế nhớ thách thức Mặc dù thuật toán thường cho mẫu liệu đào tạo tồn nhớ chính, liệu lớn khơng phù hợp với nó29 Khai thác liệu lớn khó khăn so với thuật toán khai thác liệu truyền thống Lấy phân cụm làm ví dụ, cách tự nhiên để phân cụm liệu lớn mở rộng phương thức có (chẳng hạn phương tiện k ) để chúng đối phó với khối lượng cơng việc khổng lồ Hầu hết tiện ích mở rộng thường dựa vào việc phân tích số mẫu liệu lớn định khác cách sử dụng kết dựa mẫu để lấy phân vùng cho liệu tổng thể 30 Các trình phân loại k -NN khơng xây dựng mơ hình phân loại cách rõ ràng; thay vào họ giữ tất liệu đào tạo nhớ Do đó, chúng khơng phù hợp với ứng dụng liệu lớn31 Tiêu chí phân tách định lựa chọn dựa số thước đo chất lượng độ lợi thông tin yêu cầu xử lý toàn tập liệu nút mở rộng Điều gây khó khăn cho việc áp dụng định cho ứng dụng liệu lớn Máy vectơ hỗ trợ (SVM) cho thấy hiệu suất tốt tập liệu có kích thước vừa phải Nó có hạn chế cố hữu ứng dụng liệu lớn31 Học máy sâu có tiềm xử lý liệu lớn Tuy nhiên, có số thách thức ứng dụng liệu lớn địi hỏi thời gian đào tạo đáng kể 31 ,32 Những thách thức học sâu phân tích Dữ liệu lớn nằm ở: học gia tăng liệu không cố định, liệu nhiều chiều mô hình quy mơ lớn 32 Đặc tính Đa dạng phân tích Dữ liệu lớn, tập trung vào thay đổi loại liệu đầu vào miền liệu lớn Thích ứng miền trình học tập trọng tâm nghiên cứu quan trọng học sâu, việc phân phối liệu huấn luyện khác với việc phân phối liệu thử nghiệm Trong số miền liệu lớn, ví dụ: an ninh mạng, kho liệu đầu vào bao gồm hỗn hợp liệu gắn nhãn không gắn nhãn Trong trường hợp vậy, thuật tốn học sâu kết hợp phương pháp đào tạo bán giám sát hướng tới mục tiêu xác định tiêu chí để học biểu diễn liệu tốt.33 Các thuật toán học biểu diễn giúp kỹ thuật học có giám sát đạt độ xác phân loại cao với hiệu tính toán Chúng biến đổi liệu, giữ nguyên đặc điểm ban đầu liệu, sang miền khác để thuật tốn phân loại cải thiện độ xác, giảm độ phức tạp tính tốn tăng tốc độ xử lý Tuy nhiên, việc phân loại Dữ liệu lớn yêu cầu kỹ thuật học đại diện, đa miền (MDRL) miền liệu lớn ngày tăng Kỹ thuật MDRL bao gồm học biến tính năng, học trích xuất tính học số liệu từ xa Một số kỹ thuật học biểu diễn đề xuất nghiên cứu học máy Tên miền chéo đề xuất gần đây, kỹ thuật học biểu diễn (CDRL) phù hợp với việc phân loại liệu lớn với mơ hình mạng đề xuất; nhiên, việc triển khai kỹ thuật CDRL để phân loại liệu lớn gặp phải số thách thức, bao gồm khó khăn việc lựa chọn tính có liên quan, xây dựng biểu diễn hình học, trích xuất tính phù hợp tách loại liệu khác Ngoài ra, tham số liên tục liệu lớn đưa vấn đề cần giải kỹ thuật học tập suốt đời Việc học đặc tính liệu lớn ngắn hạn khơng phù hợp dài hạn Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập việc triển khai kỹ thuật CDRL để phân loại liệu lớn gặp phải số thách thức, bao gồm khó khăn việc lựa chọn tính có liên quan, xây dựng biểu diễn hình học, trích xuất tính phù hợp tách loại liệu khác Ngoài ra, tham số liên tục liệu lớn đưa vấn đề cần giải kỹ thuật học tập suốt đời Việc học đặc tính liệu lớn ngắn hạn khơng phù hợp dài hạn Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập việc triển khai kỹ thuật CDRL để phân loại liệu lớn gặp phải số thách thức, bao gồm khó khăn việc lựa chọn tính có liên quan, xây dựng biểu diễn hình học, trích xuất tính phù hợp tách loại liệu khác Ngoài ra, tham số liên tục liệu lớn đưa vấn đề cần giải kỹ thuật học tập suốt đời Việc học đặc tính liệu lớn ngắn hạn khơng phù hợp dài hạn Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập xây dựng biểu diễn hình học, trích xuất tính phù hợp tách loại liệu khác Ngoài ra, tham số liên tục liệu lớn đưa vấn đề cần giải kỹ thuật học tập suốt đời Việc học đặc tính liệu lớn ngắn hạn khơng phù hợp dài hạn Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập xây dựng biểu diễn hình học, trích xuất tính phù hợp tách loại liệu khác Ngoài ra, tham số liên tục liệu lớn đưa vấn đề cần giải kỹ thuật học tập suốt đời Việc học đặc tính liệu lớn ngắn hạn khơng phù hợp dài hạn Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập Do đó, kỹ thuật máy học suốt đời (ML3) nên sử dụng Khái niệm ML3 cung cấp khung lưu giữ kiến thức học với ví dụ đào tạo suốt giai đoạn học tập31 Kết luận Giảm kích thước hỗ trợ trực quan hóa liệu PCA kỹ thuật sử dụng phổ biến để giảm kích thước Phân tích nhân tố sử dụng phương pháp giảm liệu phát cấu trúc Phương pháp k -means tương đối hiệu quả, kết thúc mức tối ưu cục k-NN đơn giản để thực mạnh mẽ ngoại lệ yếu tố dự đốn; nhiên, khó để xử lý liệu với loại hỗn hợp SVM hoạt động tốt vấn đề thưa thớt, phi tuyến tính nhiều chiều; yếu việc xử lý tự nhiên kiểu liệu hỗn hợp khả mở rộng tính tốn Cây định hoạt động tốt với tập liệu lớn, dẫn đến trang bị mức Cắt tỉa thực để loại bỏ bất thường liệu huấn luyện nhiễu ngoại lệ Hồi quy logistic khơng tốn mặt tính tốn, dễ bị thiếu có độ xác thấp Thuật toán Naive Bayes dễ xây dựng đào tạo nhanh; phù hợp với tập huấn luyện tương đối nhỏ dễ bị sai lệch Mạng lưới thần kinh có hiệu suất dự đốn tốt khả chịu đựng liệu ồn ào; Tuy vậy, khó cho phương pháp xử lý liệu lớn với mơ hình phức tạp Đóng gói, tăng cường rừng ngẫu nhiên ba phương pháp tập hợp phổ biến sử dụng kết hợp mơ hình để tăng độ xác Các cơng nghệ truyền thống có thách thức việc xử lý nguồn liệu lớn phi cấu trúc Dữ liệu lớn dạng dịch vụ (BDaaS) lớp mở rộng sở hạ tầng dịch vụ Các kỹ thuật khai thác liệu học máy (ML) truyền thống k -mean , k -NN, định SVM không phù hợp để xử lý liệu lớn Học sâu có tiềm xử lý liệu lớn có thách thức ... khoa học liệu cần thiết để chạy Dữ liệu lớn Tri thức Bảng Nhu cầu Doanh nghiệp, Hệ thống Dữ liệu Thách thức CNTT Bảng Dữ liệu lớn sở hạ tầng dịch vụ mở rộng Khai thác liệu học máy phân tích liệu. .. liệu doanh nghiệp, thách thức CNTT Dữ liệu lớn sở hạ tầng dịch vụ mở rộng; 4) thảo luận tính khả thi thách thức ứng dụng học sâu phương pháp khai thác liệu truyền thống học máy phân tích Dữ liệu. .. Đặc tính Đa dạng phân tích Dữ liệu lớn, tập trung vào thay đổi loại liệu đầu vào miền liệu lớn Thích ứng miền trình học tập trọng tâm nghiên cứu quan trọng học sâu, việc phân phối liệu huấn luyện