1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận phương pháp học đại học và định hướng nghề nghiệp đề tài phân tích về big data

22 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

BQ GIAO DUC VA DAO TAO TRƯỜNG ĐẠI HỌC GIA ĐỊNH KHOA CÔNG NGHỆ THÔNG TIN

GIA DINH

UNIVERSITY

TIEU LUAN

MON HOC: PHUONG PHAP HOC DAI HOC VA DINH

HUONG NGHE NGHIEP DE TAI: PHAN TICH VE BIG DATA

Thanh vién MSSV 1 Đoàn Văn Giáp 22130013 2 Lương Khánh Dự 22130019 Lớp : 221302

Giảng viên hướng dẫn : Ths Tran Hoai Thuan

Thành phố Hỗ Chí Minh, tháng L2 năm 2022

Trang 2

BQ GIAO DUC VA DAO TAO TRƯỜNG ĐẠI HỌC GIA ĐỊNH KHOA CÔNG NGHỆ THÔNG TIN

GIA DINH

UNIVERSITY

TIEU LUAN

MON HOC: PHUONG PHAP HOC DAI HOC VA DINH

HUONG NGHE NGHIEP DE TAI: PHAN TICH VE BIG DATA

Thanh vién MSSV 1 Đoàn Văn Giáp 22130013 2 Lương Khánh Dự 22130019 Lớp : 221302

Giảng viên hướng dẫn : Ths Tran Hoai Thuan

Thành phố Hỗ Chí Minh, tháng L2 năm 2022

Trang 3

LOI CAM KET

Chung em xin cam doan tất cả số liệu và dẫn chứng tử tiểu luận trên là cơ sở tìm tòi và nghiên cứu của nhóm Mọi sự giúp đỡ cho việc xây dựng cơ sở lý thuyết đều được trình bày rõ ràng và chỉ tiết trong phan tai liệu trích dẫn hợp lệ Nếu phát hiện có sự sao chép, chúng em xin chịu mọi trách nhiệm

Chúng em xin hoản toàn chịu trách nhiệm cho lời cam kết của mình Người cam kết

Trang 4

DANH MUC TU VIET TAT

GPS Global Positioning System Hé thông định vị toàn cầu

IMDB Internet Movie Database Kho cơ sở dữ liệu online

VNA Vietnamairlines Hãng hàng không VIetnamarrlines FIM Flight Integration Manager Quan ly tich hop chuyén bay

AGS Dữ liệu cảm biến trên tàu bay

RFID Radio Frequency Identification Kỹ even cans sóng vô USD United States dollar Đông đô la Mỹ IBM International Business Machines Tập đoàn về công nghệ máy

tính đa quốc gia

Trang 5

MUC LUC MODAU 6

1 Ly do chon dé tai 6 2.Mục đích nghiêncứu 6

3 Đối tượng nghiên cứu 6

4, Pham vi nghiên cứu 6 5 Phương pháp nghiên cửu6

CHƯƠNG 1: TONG QUAN VE BIG DATA 8

1.1 Big datala gi? 8

L.L.L Khai niém vé Big data 8

1.1.2 Nguồn hình thành và phương pháp khai thác, quản lý Big data 8 1.1.3 Những dac trang cha Big data 9

1.2 Những lợi ích to lớn mà Big data mang lai 10

CHƯƠNG 2: ỨNG DỤNG CỦA BIG DATA TRONG THỰC TIỀN 13

2.1 Các ứng dụng đang sử dụng Big datal3 2.2 Ưu điểm và nhược điểm của Big data 15 2.3 Các công nghệ đặc biệt dành cho Big data 16 2.4 Các kỹ năng cần có của Big data 16

2.5 Thực trạng phát triển hạ tầng Big đata hiện nay ở Việt Nam 17

CHUONG 3: CAC PHUONG AN DE PHAT TRIEN HA TANG BIG DATA O VIET NAM 19

3.1 Xây dựng các trung tâm Big data, các dịch vụ điện toán đâm mây 19 3.2 Dau tư chính vào các chương trình nghiên cứu cơ bản, chương trình về đôi mới công nghệ 19

3.3 Đầu tư vào công tác đào tạo nguồn nhân lực chất lượng cao trong lĩnh vực CNTT, phân tích dữ liệu 19

KET LUẬN 21

TÀI LIỆU THAM KHẢO 22

Trang 6

MO DAU 1 Ly do chon dé tai

Công nghệ thông tin ngày càng phát triển đi cùng với nó con người càng thấy được

sự nhỏ bé của bản thân ta Cảng nghiên cứu tìm tòi ta lại càng biết thêm nhiều kiến

thức mà trước đây nhân loại chưa từng biết đến như mạng xã hội, các thiết bị hiện đại (may vi tính, tivi) Thông minh, tiên tiền hơn thế chúng ta có các loại điện thoại thông minh (smart phone) đang dần được cải tiễn Cho ta thấy răng thời đại công nghệ thông tin ngày nay đang phát triển một cách nhanh chóng và liên tục đến nối ta không thể biết được rằng nó còn sẽ đi tới đâu và nó sẽ phát triển đến như nào Cho dù là vậy thì con người chúng ta vẫn cần một thiết bị, một công cụ giúp ta có thể lưu trữ lượng thông tin lớn, lượng kiến thức không lồ mà con người đã tìm tòi nghiên cứu suốt bao nhiêu thập kỉ qua đó là nguyên đo cho sự ra đời của Big data Em tin rằng với tốc độ phát triển nhanh một cách chóng mặt như hiện tại Big Data sẽ trở thành một phần quan

trọng không thẻ tách rời

Qua lý do trên nhóm em quyết định chọn đề tài Phân tích về Big data để nghiên cứu Với mong muốn thành viên trong nhóm hiểu sâu hơn về đề tài cũng như định hướng cho các bạn hiểu rõ ràng hơn về thuật ngữ mới nảy

2 Mục dích nghiên cứu

Giúp các bạn hiểu rõ hơn về Big data từ khái niệm, đặc điểm đến các lợi ích to lớn không lồ mà Big data mang lai trong công cuộc phát triển ngành công nghệ thông tin nói riêng và phát triển đất nước nói chung Không chỉ vậy còn giúp bản thân chúng em có thêm kiến thức về một trong những phần quan trọng của ngành công nghệ thông tin, trau dồi kiến thức để bản thân có thế theo kịp sự phát triển liên tục không ngừng nghỉ của thời đại Từ đó đề xuất các giải pháp nhằm phát triển hạ tầng Big data ở Việt Nam 3 Đối tượng nghiên cứu

Phân tích về Big data 4 Phạm vi nghiền cứu

Nghiên cứu về khái niệm, đặc trưng và lợi ích mà Big data mang lại Nghiên cứu về

tình hình phát trién Big data 6 Viét Nam hién nay

5 Phương pháp nghiên cứu ePhương pháp nghiên cứu lý thuyết: - Phương pháp phân tích-tông hợp lý thuyết

Trang 7

- Phuong phap phan loai va hé théng hoa ly thuyét ¢Phuong phap nghién ctru thye tiễn:

- Phuong phap khao sat

- Phương pháp nghiên cứu thực tiễn

- Phương pháp phân tích-tông kết kinh nghiệm

Trang 8

NOI DUNG

CHUONG 1: TONG QUAN VE BIG DATA

1.1 Big data la gi?

1.1.1 Khái niệm về Big data

Theo Wikipedia Big đata (Dữ liệu lớn) thường bao gồm tập hợp đữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường đề thu thập, hiền thị, quản lý và xử lý đữ liệu trong một thời gian có thể chấp nhận được Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi Như năm 2012 thì pham vi m6t vai ta terabytes tới nhiều petabytes dữ liệu Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp và có quy mô lớn.n0Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát đữ

liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư

Trong năm 2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối

lượng lớn, tốc độ cao vả/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức xử lý mới đề cho phép tăng cường ra quyết định, khám phá bên trong và xử lý tối ưu" Dinh nghia '3Vs' cua Gartner van duoc str dụng rộng rãi, và trong phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ cao (Velocity) và đa đạng (Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt đề biến nó thành có giá trị"

Tập dữ liệu đang tăng rất nhanh một phần vì chúng được thu thập bởi số lượng thiết bi internet van vat ngay cảng rẻ va nhiều, ví dụ như các thiết bi di động, anten, nhật ký phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID và mạng cảm biến không dây Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ những năm 1980; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes

(2.5x10'8), Một câu hỏi cho các tổ chức kinh doanh lớn là xác định ai nên sở hữu các

sáng kiến dữ liệu lớn có ảnh hưởng tới toàn bộ tô chức

1.1.2, Nguồn hình thành và phương pháp khai thác, quản lý Big data Qua thống kê và tổng hợp, đữ liệu lớn được hình thành chủ yếu từ 6 nguồn:

- Dữ liệu hành chính (phát sinh từ chương trình của một tô chức, có thế là chính phủ hay phi chính phủ) Ví dụ: hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm

- Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dich giữa hai thực thể) Ví dụ: các giao dịch thẻ tín dung, giao dịch trên mang.,

Trang 9

- Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tính, cảm biến

đường, cảm biến khí hậu

- Dữ liệu từ các thiết bị theo di, vi dụ theo đõi đữ liệu từ điện thoại di động, GPS

- Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch vụ

hay thông tin khác), đọc các trang mạng trực tuyến

- Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên các phương tiện thông tin xã hội

Phương pháp khai thác và quản lý DLL hiện nay được thiết kế phù hợp dựa theo các nguồn hình thành DLL Mỗi nguồn DLL khác nhau sẽ có phương pháp khai thác và quản lý DLL khác nhau Tuy nhiên, hiện nay phần lớn các tô chức trên thé giudi đều dùng Hadoop ecosystem là giải pháp tối ưu đề khai thác và quản lý DLL 1.1.3 Những đặc trưng của Big data

DLL có 5 đặc trưng cơ bản như sau (mô hình 5V):

(1) Khối lượng đữ liệu (Volume)

Đây là đặc điểm tiêu biểu nhất của DLL, khối lượng dữ liệu rất lớn Kích cỡ của DLL đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể năm trong khoảng vai chuc terabyte cho dén nhiéu petabyte (1 petabyte = 1024 terabyte) chi cho mét tập hop đữ liệu Dữ liệu truyền thống có thê lưu trữ trên các thiết bi đĩa mềm, đĩa cứng Nhung voi DLL chung ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được

(2) Tốc độ (Velocity)

Tốc độ có thể hiểu theo hai khía cạnh: (a) Khối lượng đữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); (b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa di liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây) Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế như hiện nay phần lớn DLL được xử lý real-time Công nghệ xử lý DLL hiện nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở đữ liệu

(3) Da dang (Variety)

Đối với đữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hon 80% dữ liệu được sinh ra la phi cau tric (tài liệu, blog, hình ảnh, video, bài hát, ) Big đata cho phép liên kết và phân tích nhiều dạng đữ liệu khác nhau

Trang 10

(4) Độ tin cậy/ chính xac (Veracity)

Một trong những tính chất phức tạp nhất của DLL là độ tin cậy/ chính xác của dữ liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngay nay va sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trong cua DLL

(5) Gia tri (Value)

Giá trị là đặc điểm quan trọng nhất của DLL, vi khi bat đầu triển khai xây dựng DLL thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thông tin mang lại như thế nảo, khi đó chúng ta mới có quyết định có nên triển khai DLL hay không Nếu chúng ta có DLL mà chỉ nhận được 1% lợi ích từ nó, thi không nên đầu tư phát triển DLL Kết quả dự báo chính xác thể hiện rõ nét nhất về gia tri cha DLL mang

Tạo ra sự cải tiễn tốt hơn

Sự đối mới là rất quan trọng cho sự thành công của bất kỳ tổ chức nào Và đề đổi mới, công ty cần dữ liệu và ngày cảng nhiều đữ liệu Big data cho phép sự tự đo đề đạt được những điều không tưởng Thông qua Big data, công ty có thế phân tích ý kiến các khách hàng khác nhau về sản phẩm của họ cũng như là cách khách hàng cảm nhận sản phẩm của công ty

Big data còn cung cấp những thông tin về những gì họ đang thiếu và những điều cần lưu ý trước khi phát triên sản phẩm mới Điều này giúp họ phát triển các sản phâm mới theo yêu cầu của khách hàng

Big data trong lĩnh vực giáo dục

10

Trang 11

Lợi ích của Big data trong lĩnh vực giáo đục là quản lý đữ liệu liên quan đến học

sinh Bởi vì kích thước đữ liệu lớn, rất khó để các giảng viên khai thác đúng cách

Phân tích Big data đã nỗi lên như một lợi ích cho ngành giáo dục

Bắt đầu từ mang lại sự chuyền đổi rất cần thiết cho ngành giáo dục và đưa nên giáo dục lên một tầm cao mới Phân tích khả năng của một học sinh dựa trên dữ liệu có sẵn giúp các giáo viên lên kế hoạch giảng đạy tốt hơn Khi mà giáo viên nhận thức được điểm mạnh điểm yếu của học sinh, họ cũng có thé hướng dẫn học sinh của mình phù hợp hơn

Big data trong tối ưu giá sản phẩm

Lợi ích của Big data cho một công ty thương mại là ho cé thé str dung Big data dé tối ưu mức giá mà họ đưa ra cho khách hàng Mục tiêu của họ là tính một mức giá mả lợi nhuận có thê được tối ưu Thông qua Big đata họ phân tích được giá mang lại lợi nhuận tối đa cho họ trong các viễn cảnh kinh doanh khác nhau

Mục tiêu của họ là khách hàng sẽ nhận được giá trị xứng đáng với đồng tiền bỏ ra Khách hàng luôn nghĩ rằng công ty cần phải liên tục phát triển Nhưng đề làm cho khách hàng hải lòng, công ty cần có những cải tiến sản phâm phù hợp theo xu hướng của thị trường và Big data tạo điều kiện cho họ thực hiện các thay đôi ay

Big data trong công cụ đề xuất

Hãy tưởng tượng bạn có các đề xuất dựa trên những lựa chọn trong quá khứ cũng như trong hiện tại trên các nền tảng trực tuyến phong phú Cuộc sống sẽ đễ dàng hơn khi người ta có thể lựa chọn những thứ mình thích Đây là điều đã thay đổi suy nghĩ của mọi người đối với các nền tảng trực tuyến khác nhau, và họ cảm thấy thoải mái khi sử dụng các nên tảng này

Vi du cua Big data trong đề xuất các công cụ là các nền tảng mua sắm trực tuyến Họ phân tích dữ liệu của mỗi khách và đưa ra các đề xuất theo đó Những đề xuất này chủ yếu dựa trên các hành vi gần nhất của họ khi ghé thăm các nền tảng trước và các hoạt động thời gian thực của họ

Ngoài ra, các đề xuất được đưa ra dựa trên việc so sánh giữa các sản phẩm khách hàng đã tìm kiếm hay thường mua Đây là cách mà các nên tảng trực tuyến phá vỡ rào cản vật lý giữa họ và khách hàng Các công cụ này chắc chắn đã thay đổi trải nghiệm mua sam trực tuyến của khách hàng

Big data trong ứng dụng cứu sinh trong ngành Y tế

11

Ngày đăng: 11/07/2024, 17:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w