Khái niệm Dữ liệu lớn

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp r và hadoop trong khai phá dữ liệu (Trang 33 - 34)

5. Phƣơng pháp nghiên cứu

1.3.1. Khái niệm Dữ liệu lớn

Theo Wikipedia: Dữ liệu lớn (Big Data) là một thuật ngữ chỉ tập hợp dữ liệu lớn hoặc phức tạp mà các phƣơng pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này.

Theo Garnier: Dữ liệu lớn (Big Data) là những nguồn thông tin có đặc điểm chung khối lƣợng lớn, tốc độ nhanh và dữ liệu định dạng dƣới nhiều hình thức khác nhau, do đó muốn khai thác đƣợc đòi hỏi phải có hình thức xử lý mới để đƣa ra quyết định.

Dữ liệu lớn chủ yếu hình thành từ 6 nguồn:

Dữ liệu hành chính: sinh ra từ dữ liệu của các tổ chức, có thể là chính phủ hoặc phi chính phủ. Ví dụ: hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, ngân hàng,…; Dữ liệu từ hoạt động thƣơng mại (phát sinh từ hoạt động giao dịch giữa hai cá thể). Ví dụ: giao dịch giữa các thẻ tín dụng, giao dịch trên mạng, bao gồm cả từ các thiết bị di động,…; Dữ liệu từ các thiết bị cảm biến nhƣ thiết bị chụp hình ảnh, vệ tinh, cảm biến đƣờng, cảm biến khi hậu,…; Dữ liệu từ các thiết bị theo dõi. Ví dụ: dữ liệu từ các điện thoại di động, GPS,…; Dữ liệu về các hành vi. Ví dụ: tìm kiếm trực tuyến (về một sản phẩm dịch vụ hay thông tin khác) hay đọc các trang mạng trực tuyến,…; Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức trên các phƣơng tiện truyền thông; Phƣơng pháp khai thác và quản lý dữ liệu lớn hiện nay đƣợc thiết kế phù hợp dựa theo các nguồn hình thành dữ liệu lớn. Mỗi nguồn dữ liệu lớn khác nhau sẽ có phƣơng pháp khai thác và quản lý dữ liệu lớn khác nhau. Tuy nhiên, hiện nay phần lớn các tổ chức trên thế giới đều dùng Hadoop ecosystem là giải pháp tối ƣu để khai thác và quản lý dữ liệu lớn.

26

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp r và hadoop trong khai phá dữ liệu (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(87 trang)