CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Giới thiệu về phân tích dữ liệu lớn
2.1.1. Dữ liệu lớn 2.1.1.1. Khái niệm
Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số, từ, hình ảnh, nhằm đo lường, quan sát hoặc chỉ là mô tả về sự vật. Sự phát triển trong lĩnh vực công nghệ, đặc biệt là trong điện thoại thông minh đã dẫn đến việc văn bản, video và âm thanh được đưa vào dữ liệu cùng với nhật ký web. Hầu hết dữ liệu này là không có cấu trúc.
Dữ liệu lớn là tập hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu trữ hoặc xử lý nó một cách hiệu quả.
Dữ liệu lớn được sử dụng để mô tả khối lượng khổng lồ của cả dữ liệu có cấu trúc và phi cấu trúc, lớn đến mức khó có thể xử lý bằng phương pháp thủ công. Nói một cách đơn giản, dữ liệu lớn là các tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là thu thập từ nhiều nguồn dữ liệu mới.
2.1.1.2. Phân loại
• Dữ liệu có cấu trúc:
Đây là loại dữ liệu dễ dàng tìm kiếm và sắp xếp nhất, vì nó được xếp trong các hàng và cột. Cấu trúc này thường được xác định trước và đặt ra bởi các quy tắc và định dạng cụ thể. Dữ liệu có cấu trúc thường được sử dụng trong các hệ thống thông tin, cơ sở dữ liệu, và các ứng dụng khác nơi mà việc tổ chức và xử lý dữ liệu theo một cách cụ thể là cần thiết. Các loại dữ liệu có cấu trúc phổ biến bao gồm các bảng trong cơ sở dữ liệu quan hệ, các tập tin CSV, JSON, XML, và các loại dữ liệu được tổ chức theo cấu trúc khác.
Dữ liệu có cấu trúc được tạo ra bởi máy móc và con người. Chẳng hạn dữ liệu tài chính của các giao dịch tại một ngân hàng bao gồm chi tiết địa chỉ, thông tin nhân khẩu, đánh giá của người dùng, các bản ghi chú của máy, dữ liệu địa điểm từ các thiết bị thông minh,…
• Dữ liệu phi cấu trúc:
Một phần rất lớn của tất cả dữ liệu trên thế giới này là dữ liệu phi cấu trúc. Ví dụ như các hình ảnh, tệp phim, tệp âm thanh, các câu hỏi của các bài khảo sát, các bài thuyết trình,… Sự thiếu hụt về cấu trúc sẽ khiến cho dữ liệu phi cấu trúc này khó tìm, quản lý nên người ta hay bỏ qua dạng dữ liệu này.
Tuy nhiên ở thời đại hiện này có nhiều công nghệ hiện đại hơn đã giúp xử lý dữ liệu phi cấu trúc trở lên dễ dàng hơn.
Thay vì sử dụng cơ sở dữ liệu quan hệ để quản lý dữ liệu, dạng dữ liệu phi cấu trúc thường được lưu trữ trong các kho dữ liệu (Data Warehouse), NoSQL và các ứng dụng lưu trữ dữ liệu khác. Công nghệ này đã nâng tầm dữ liệu phi cấu trúc lên thành nguồn tài nguyên cực kỳ giá trị đối với các doanh nghiệp hay tổ chức.
• Dữ liệu bán cấu trúc:
Dữ liệu bán cấu trúc là dữ liệu có một số thuộc tính tổ chức nhưng thiếu lược đồ cố định hoặc ràng buộc. Dữ liệu bán cấu trúc không thể được lưu trữ dưới dạng các hàng và cột như trong cơ sở dữ liệu. Nó chứa các thẻ và phần tử, hoặc siêu dữ liệu, được sử dụng để nhóm dữ liệu và sắp xếp nó theo hệ thống phân cấp.
Email là một ví dụ điển hình của dữ liệu bán cấu trúc. Nội dung thực chất của email thuộc dạng phi cấu trúc, nhưng nó lại mang các dữ liệu có cấu trúc như tên, địa chỉ của người gửi và người nhận, thời gian gửi,… Rất nhiều thứ khác mà mọi người thường xếp vào dạng dữ liệu phi cấu trúc nhưng thực ra lại là bán cấu trúc, bởi vì nó mang trong mình những tính chất có thể phân loại được.
2.1.1.3. Đặc trưng cơ bản của dữ liệu lớn
Năm 2014, công ty nghiên cứu và tư vấn công nghệ thông tin hàng đầu thế giới là Gartner đã công bố mô hình “5V” – năm đặc trưng quan trong của dữ liệu lớn. Mô hình 5V do Gartner xây dựng. Gartner là công ty nghiên cứu và tư vấn về công nghệ thông tin hàng đầu thế giới do một người Mỹ tên là GideonGartner sáng lập năm 1979. Chi tiết như sau:
• Kích thước (Volume)
Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, khối lượng dữ liệu rất lớn. Kích cỡ của Bigdata đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn.
Việc tăng trưởng này khiến cho dữ liệu trở nên quá lớn để có thể lưu trữ và phân tích theo công nghệ CSDL truyền thống. Với công nghệ điện toán đám mây (cloud computing), tại các trung tâm dữ liệu chúng ta đã có thể lưu trữ và sử dụng những tập dữ liệu này với sự giúp đỡ của các hệ thống phân tán, nơi mà dữ liệu chỉ được lưu trữ một phần tại các địa điểm khác nhau và được quản trị bởi các phần mềm chuyên dụng.
• Tốc độ (Velocity)
Ngoài đặc trưng đầu tiên là khối lượng rất lớn khi nói đên “Big Data” là phải nói đến tốc độ xử lý dữ liệu hiện nay. Tốc độ có thể hiểu theo 2 khía cạnh: (a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); (b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.
• Đa dạng (Variety)
Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức
khỏe…). Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.
Sự đa dạng của dữ liệu lớn đòi hỏi các công nghệ và phương pháp xử lý dữ liệu phù hợp, bao gồm kho lưu trữ dữ liệu, công cụ phân tích dữ liệu, thuật toán thông minh để tìm ra những thông tin quan trọng, xu hướng và hiểu biết từ dữ liệu đa dạng này.
• Độ tin cậy (Veracity)
Một trong những tính chất phức tạp nhất của Dữ liệu lớn là độ tin cậy của dữ liệu. Với xu hướng phương tiện truyền thông xã hội và mạng xã hội ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big data.
Trong khi trọng tâm chính của các doanh nghiệp là sử dụng toàn bộ tiềm năng của dữ liệu để thu thập thông tin chi tiết, họ có xu hướng bỏ lỡ các vấn đề do quản trị dữ liệu kém gặp phải. Khi chúng ta nói về độ chính xác của dữ liệu lớn, nó không chỉ là về chất lượng của dữ liệu mà còn phụ thuộc vào mức độ đáng tin cậy của nguồn dữ liệu và các quy trình dữ liệu của bạn.
• Giá trị (Value)
Chữ V cuối cùng trong 5V của “Big data” và cũng là chữ V quan trọng nhất chính là giá trị. Nó đề cập đến giá trị mà “Big data” có thể cung cấp và nó liên quan trực tiếp đến những gì tổ chức có thể làm với dữ liệu được thu thập đó. Việc tiếp cận được dữ liệu lớn sẽ chẳng có ý nghĩa gì nếu chúng ta không chuyển được chúng thành những thứ có giá trị vì giá trị của dữ liệu lớn tăng lên đáng kể tùy thuộc vào những hiểu biết sâu sắc có thể thu được từ chúng.
Nếu chúng ta có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát triển dữ liệu lớn. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại. Ví dụ, từ khối dữ liệu phát sinh
trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế.
2.1.2. Phân tích dữ liệu lớn.
Các doanh nghiệp hàng đầu trên toàn thế giới hiện nay đang sử dụng phân tích dữ liệu lớn để đạt được hiệu quả vượt trội.
Spotify đã vươn lên trở thành công ty hàng đầu trong thị trường âm nhạc khiến người dung không thể bỏ qua. Một trong những yếu tố quyết định mang đến thành công cho Spotify đó là cách công ty này sử dụng dữ liệu lớn, học máy trong kinh doanh để cung cấp các dịch vụ và trải nghiệm tốt nhất cho người dung. Sotify thu thập và xử lý một lượng lớn dữ liệu hàng ngày để hiểu sở thích và thói quen nghe nhạc của người dùng. Thông qua nguồn dữ liệu này, nền tảng đám mây sẽ tự động đề xuất các bài hát dựa trên lượt thích, chia sẻ, lịch sử tìm kiếm…
Phân tích dữ liệu lớn là quá trình trích xuất và phân tích có hệ thống các tập dữ liệu ngẫu nhiên thành thông tin có ý nghĩa để khám phá các mẫu chưa biết, mối tương quan, xu hướng thị trường và các thông tin chi tiết khác để đưa ra quyết định dựa trên dữ liệu nhằm giúp các tổ chức, doanh nghiệp đưa ra quyết định kinh doanh sáng suốt .
Dữ liệu lớn với đặc trưng khối lượng dữ liệu quá lớn, tốc độ sinh dữ liệu quá nhanh và đặc biệt nữa là dữ liệu đa dạng. Những thách thức về tính toán và xử lý dữ liệu đang phải đối mặt trên quy mô lớn có nghĩa là các công cụ cần phải có khả năng hoạt động cụ thể với các loại dữ liệu như vậy. Sự tăng trưởng lớn về dữ liệu đã thay đổi các công cụ xử lý truyền thống như hệ quản trị cơ sở dữ liệu quan hệ không có khả năng làm việc với dữ liệu lớn đã ở các dạng phi cấu trúc. Do đó, ngày này cần phát triển về các nền tảng phân tích dữ liệu để phù hợp với hiện nay.
Ngày này, có rất nhiều nguồn dữ liệu nhưng không phải dữ liệu nào cũng có tính chính xác, có chất lượng cao. Dữ liệu chất lượng kém dẫn đến sai sót trong thoog tin thu lại và hiểu biết của người sử dụng dữ liệu bị sai
lệch. Chúng ảnh hưởng quan trọng đến chất lượng đầu ra của thông tin đầu ra.
Cuối cùng, tổ chức hay doanh nghiệp phải gánh chịu hậu quả cho dữ liệu sai lệch làm tăng chi phí kinh doanh và nhiều vấn đề hơn thế nữa.
Trong xu thế hiện nay, để có thể đáp ứng cho việc phân tích dữ liệu lớn một tron các cách tự động và hiện quả, chuyển nó thành thông tin chi tiết có giá trị cho doanh nghiệp thì thường sử dụng phương pháp khai phá dữ liệu.
Khai phá dữ liệu còn được gọi là khai thác dữ liệu, là một kỹ thuật được sử dụng để tìm ra các thuộc tính, mối quan hệ lẫn nhau của dữ liệu trong một tệp dữu liệu khổng lồ và phức tạp, đồng thời cũng tìm ra những mẫu thông tin quý giá ở trong dữ liệu đó. Khai phá dữ liệu là cơ sở cho các phân tích dự đoán và kinh doanh thông minh.