MỤC LỤC
- Xử lý hàng loạt: Do các tập dữ liệu quá lớn nên thường thì một giải pháp dữ liệu lớn phải xử lý các tệp dữ liệu bằng cách sử dụng các tác vụ hàng loạt dài hạn để lọc, tổng hợp và mặt khác là chuẩn bị dữ liệu để phân tích. - Kho dữ liệu phân tích: Kho dữ liệu phân tích được sử dụng để phục vụ các truy vấn này có thể là kho dữ liệu quan hệ kiểu Kimball, như được thấy trong hầu hết các giải pháp kinh doanh thông minh (BI) truyền thống. - Orchestration: Hầu hết các giải pháp dữ liệu lớn bao gồm các hoạt động xử lý dữ liệu lặp đi lặp lại, được gói gọn trong quy trình công việc, chuyển đổi dữ liệu nguồn, di chuyển dữ liệu giữa nhiều nguồn và phần chứa, tải dữ liệu đã xử lý vào kho lưu trữ dữ liệu phân tích hoặc đẩy thẳng kết quả vào báo cáohoặc bảng điều khiển.
Khái niệm về Data warehouse đã tồn tại từ những năm 1980, khi nó được phát triển để giúp chuyển đổi dữ liệu từ cung cấp năng lượng cho các hoạt động sang cung cấp năng lượng cho các hệ thống hỗ trợ quyết định thể hiện trí tuệ kinh doanh. - Dữ liệu từ các nguồn khác nhau đó được sao chép một cách có chọn lọc vào kho dữ liệu theo một chu kỳ nhất định (hàng giờ, hàng ngày, hàng tháng,…) và được chuẩn hóa theo một mô hình dữ liệu chung và được tổng hợp theo cách sao cho có thể sử dụng được trong phạm vi toàn tổ chức trong việc hỗ trợ ra quyết định. Các công ty có team Data warehouse chuyên dụng nổi lên trước những công ty khác trong các lĩnh vực chính là phát triển sản phẩm, định giá, tiếp thị, thời gian sản xuất, phân tích lịch sử, dự báo và sự h lòng ài của khách hàng.
- Phản hồi: Khi quá trình xử lý hoàn thành, hệ thống phản hồi ngay lập tức với kết quả được tạora.Đây cóthể làviệc hiển thị thông tin trên giao diện người dùng, gửi điều khiển tới các thiết bị hoặc thực hiện các hành động khác dựa trên kết quả. - Độ trễ thấp: Xử lý thời gian thực giảm thiểu độ trễ, cho phép dữ liệu được xử lý và phản hồi trong khoảng thời gian ngắn, rất hữu ích trong các ứng dụng yêu cầu phản hồi nhanh như hệ thống điều khiển hoặc phân tích dữ liệu thời gian thực. - Hệ thống điều khiển: Xử lý thời gian thực rất quan trọng trong các hệ thống điều khiển như robot công nghiệp, máy móc tự động, hệ thống giao thông, máy bay không người lái, và các hệ thống giám sát vàđiều khiển công nghiệp.
- Mạng xã hội và truyền thông: Nhu cầu cung cấp các thông tin dữ liệu cập nhật liên tục đến người dùng, xử lý thời gian thực đáp ứng được các quá trình trong lĩnh vực này: hiển thị và cập nhật dữ liệu ngay lập tức, phỏt súng video trực tiếp, theo dừi và phõn tích hoạt động của người tiêu dùng, quảng cáo và tiếp thi trong thời gian thực, phân loại và gợi ý nội dung, phản hồi nhanh chóng tương tác thời gian thực,. + Phân tích đường dẫn nóng, phân tích luồng sự kiện trong (gần) thời gian thực, để phát hiện sự bất thường, nhận dạng các mẫu trong khoảng thời gian luân phiên hoặc kích hoạt cảnh báo khi một điều kiện cụ thể xảyra trong luồng.
Học từ kinh nghiệm (trích rút tri thức từ kinh nghiệm) và áp dụng tri thức; (ii) Xác định và trích chọn các đặc trưng quan trọng của các đối tượng, sự kiện, quá trình; (iii) Xử lý tình huống phức tạp; (iv) Phản ứng nhanh chóng chính xác và đối với tình huống mới;. Từ một khái niệm được đề xuất bởi một nhóm nhỏ các nhà nghiên cứu thuộc các trường đại học ở Mỹ, hiện nay lĩnh vực Trí tuệ nhân tạo đã được chia ra làm nhiều nhánh nghiên cứu con; mỗi nhánh quan tâm đến một vài khả năng của con người như được trình bày ở bảng bên dưới. Ngoài các chức năng đơn giản như kiểm tra tính đúng đắn về mặt từ vựng và cú pháp đã được phát triển từ lâu, hiện nay việc dịch máy - tức là chuyển một đoạn văn (bài văn) từ ngôn ngữ này sang ngôn ngữ khác đã có thể thực hiện dễdàng bởi ứng dụng- Google Translate, với kết quả rất tốt.
- Cần chuyên gia: cách tiếp cận truyền thống phải cần đến các chuyên gia trong lĩnh vực cụ thể (ví dụ như, Xử lý tiếng nói, Xử lý ngôn ngữ tự nhiên, và Thị giác máy tính) để nghiên cứu và đề xuất phương pháp rút trích và biểu diễn đặc trưng cụ thể; chính vì vậy, đặc trưng theo cách này được gọi là đặc trưng được thiết kế thủ công (handcrafted features). - Tính thích nghi thấp: Trước khi thiết kế, các chuyên gia cần phải khảo sát dữ liệu gốc và đề xuất các ràng buộc về điều kiện làm việc rất cụ thể; do đó, các đặc trưng được thiết kế theo cách này rất khó được mở rộng.Cách tiếp cận dùng Học sâu được trình bày trong Hình 1 (b); theo đó, tín hiệu thô được nạp vào mạng, mạng tính toán và cho ra kết quả cuối cùng. Rấtmaymắn, các nghiên cứu gần đây cho thấy rằng, việc thiếu thốn dữ liệu huấn luyện có thể được giảm nhẹ phần nào bằng kỹ thuật học chuyển tiếp; ở đó, trước khi huấn luyện mạng với tập dữ liệu nhỏ, các nhà phát triển có thể sử dụng lại các thông số học được trong bài toán khác để làm điểm khởi đầu cho quá trình học.
+ Huấn luyện, kiểm thử và kiểm tra: Huấn luyện mạng là công việc dùng tập dữ liệu huấn luyện để tìm ra các thông số của mạng sao cho đáp ứng của mạng với tập dữ liệu kiểm thử là đủ tốt; cách làm này được kỳ vọng rằng mạng tìm được cho kết quả đánh giá trên tập kiểmtốt tra cũng như được dùng trong thực tiễn. Ví dụ nếu nhà phát triển tạo thuật toán để lọc hồ sơ ứng viên phù hợp cho vị trí công việc nhất định như lập trình viên hoặc y tá vàdữ liệu đầu vào là các hồ sơ ứng viên cùng kết quả y lựa chọn trong 3 5 năm qua, nhà phát triển có thể "lặp lại" các thành kiến về giới hay với- một số nhóm thiểu số hay trong việc chi trả lương, thưởng, chính sách đãi ngộ.
● Thập kỷ 1990 2000: Mạng neural đa tầng (Multilayer Perceptrons) trở lại nhờ- vào thuật toán lan truyền ngược (backpropagation) và các phương pháp tối ưu hóa mới, mở ra kỷ nguyên mới cho học sâu (deep learning). ● Thập kỷ 2010: Các mô hình học sâu như Convolutional Neural Networks (CNNs) và Recurrent Neural Networks (RNNs) xuất hiện và đạt được những thành tựu đáng kể trong lĩnh vực nhận dạng hình ảnh, xử lý ngônngữ tự nhiên và nhiều ứng dụng khác. Mục tiêu chính của học máy là tạo ra các mô hình hoặc thuật toán có khả năng tìm ra mẫu, xuhướng hoặc thông tin hữu ích từ dữ liệu, từ đó có thể dự đoán hoặc đưa ra quyết định trên dữ liệu mới mà chưa được thấy trước đó.
Quá trình học trong học máy thường dựa trên việc tinh chỉnh các tham số hoặc trọng số của mô hình để tối ưu hoá hiệu suất của nó dựa trên mục tiêu cụ thể, chẳng hạn như chính xác dự đoán hoặc tối ưu hóa hàm mục tiêu. → Machine Learning (Máy học hoặc học máy) là một lĩnh vực trong trí tuệ nhân tạo (AI) tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học từ dữ liệu để thực hiện nhiệm vụ mà chúng không cần phải đượclập trình cụ thể. Đối với các nhà cho vay, điểm tín dụng của người tiêu dùng là một trong những chỉ số quan trọng nhất về khả năng trả nợ, bao gồm nhiều yếu tố như lịch sử thanh toán, tổng nợ, thời gian sử dụng dịch vụ tín dụng v.v.
Các đặc điểm của học máy, khi kết hợp với công việc phân tích dữ liệu lớn, có thể tạo ra mức thông minh kinh doanh độ cực kỳ cao, thông qua đó nhiều ngành công nghiệp khác nhau đang thực hiện các sáng kiến chiến lược. Những đặc điểmcủa học máy trên ở đã đónggópmạnh mẽ để biến nó trở thành một trong những xu hướng công nghệ quan trọng nhất nó đứng sau một số lượng lớn- các thứ chúng ta sử dụng trong thời đại này mà chúng ta thậm chí không cần suy nghĩ về chúng.