Mục dích nghiên cứu Giúp các bạn hiểu rõ hơn về Big data từ khái niệm, đặc điểm đến các lợi ích to lớn không lồ mà Big data mang lai trong công cuộc phát triển ngành công nghệ thông tin
Trang 1BQ GIAO DUC VA DAO TAO TRƯỜNG ĐẠI HỌC GIA ĐỊNH KHOA CÔNG NGHỆ THÔNG TIN
GIA DINH
UNIVERSITY
TIEU LUAN
MON HOC: PHUONG PHAP HOC DAI HOC VA DINH
HUONG NGHE NGHIEP
DE TAI: PHAN TICH VE BIG DATA
Thanh vién MSSV
1 Đoàn Văn Giáp 22130013
2 Lương Khánh Dự 22130019 Lớp : 221302
Giảng viên hướng dẫn : Ths Tran Hoai Thuan
Thành phố Hỗ Chí Minh, tháng L2 năm 2022
Trang 2BQ GIAO DUC VA DAO TAO TRƯỜNG ĐẠI HỌC GIA ĐỊNH KHOA CÔNG NGHỆ THÔNG TIN
GIA DINH
UNIVERSITY
TIEU LUAN
MON HOC: PHUONG PHAP HOC DAI HOC VA DINH
HUONG NGHE NGHIEP
DE TAI: PHAN TICH VE BIG DATA
Thanh vién MSSV
1 Đoàn Văn Giáp 22130013
2 Lương Khánh Dự 22130019 Lớp : 221302
Giảng viên hướng dẫn : Ths Tran Hoai Thuan
Thành phố Hỗ Chí Minh, tháng L2 năm 2022
Trang 3LOI CAM KET
Chung em xin cam doan tất cả số liệu và dẫn chứng tử tiểu luận trên là cơ sở tìm tòi
và nghiên cứu của nhóm Mọi sự giúp đỡ cho việc xây dựng cơ sở lý thuyết đều được trình bày rõ ràng và chỉ tiết trong phan tai liệu trích dẫn hợp lệ Nếu phát hiện có sự sao chép, chúng em xin chịu mọi trách nhiệm
Chúng em xin hoản toàn chịu trách nhiệm cho lời cam kết của mình
Người cam kết
Trang 4DANH MUC TU VIET TAT
GPS Global Positioning System Hé thông định vị toàn cầu
IMDB Internet Movie Database Kho cơ sở dữ liệu online
VNA Vietnamairlines Hãng hàng không VIetnamarrlines
FIM Flight Integration Manager Quan ly tich hop chuyén bay
AGS Dữ liệu cảm biến trên tàu bay
RFID Radio Frequency Identification Kỹ even cans sóng vô
USD United States dollar Đông đô la Mỹ
IBM International Business Machines Tập đoàn về công nghệ máy
tính đa quốc gia
Trang 5MUC LUC MODAU 6
1 Ly do chon dé tai 6
2.Mục đích nghiêncứu 6
3 Đối tượng nghiên cứu 6
4, Pham vi nghiên cứu 6
5 Phương pháp nghiên cửu6
CHƯƠNG 1: TONG QUAN VE BIG DATA 8
1.1 Big datala gi? 8
L.L.L Khai niém vé Big data 8
1.1.2 Nguồn hình thành và phương pháp khai thác, quản lý Big data 8
1.1.3 Những dac trang cha Big data 9
1.2 Những lợi ích to lớn mà Big data mang lai 10
CHƯƠNG 2: ỨNG DỤNG CỦA BIG DATA TRONG THỰC TIỀN 13
2.1 Các ứng dụng đang sử dụng Big datal3
2.2 Ưu điểm và nhược điểm của Big data 15
2.3 Các công nghệ đặc biệt dành cho Big data 16
2.4 Các kỹ năng cần có của Big data 16
2.5 Thực trạng phát triển hạ tầng Big đata hiện nay ở Việt Nam 17
CHUONG 3: CAC PHUONG AN DE PHAT TRIEN HA TANG BIG DATA O
VIET NAM 19
3.1 Xây dựng các trung tâm Big data, các dịch vụ điện toán đâm mây 19
3.2 Dau tư chính vào các chương trình nghiên cứu cơ bản, chương trình về đôi mới
Trang 6MO DAU
1 Ly do chon dé tai
Công nghệ thông tin ngày càng phát triển đi cùng với nó con người càng thấy được
sự nhỏ bé của bản thân ta Cảng nghiên cứu tìm tòi ta lại càng biết thêm nhiều kiến
thức mà trước đây nhân loại chưa từng biết đến như mạng xã hội, các thiết bị hiện đại (may vi tính, tivi) Thông minh, tiên tiền hơn thế chúng ta có các loại điện thoại thông minh (smart phone) đang dần được cải tiễn Cho ta thấy răng thời đại công nghệ thông tin ngày nay đang phát triển một cách nhanh chóng và liên tục đến nối ta không thể biết được rằng nó còn sẽ đi tới đâu và nó sẽ phát triển đến như nào Cho dù là vậy thì con người chúng ta vẫn cần một thiết bị, một công cụ giúp ta có thể lưu trữ lượng thông tin lớn, lượng kiến thức không lồ mà con người đã tìm tòi nghiên cứu suốt bao nhiêu thập kỉ qua đó là nguyên đo cho sự ra đời của Big data Em tin rằng với tốc độ phát triển nhanh một cách chóng mặt như hiện tại Big Data sẽ trở thành một phần quan
trọng không thẻ tách rời
Qua lý do trên nhóm em quyết định chọn đề tài Phân tích về Big data để nghiên cứu Với mong muốn thành viên trong nhóm hiểu sâu hơn về đề tài cũng như định hướng cho các bạn hiểu rõ ràng hơn về thuật ngữ mới nảy
2 Mục dích nghiên cứu
Giúp các bạn hiểu rõ hơn về Big data từ khái niệm, đặc điểm đến các lợi ích to lớn không lồ mà Big data mang lai trong công cuộc phát triển ngành công nghệ thông tin nói riêng và phát triển đất nước nói chung Không chỉ vậy còn giúp bản thân chúng em
có thêm kiến thức về một trong những phần quan trọng của ngành công nghệ thông tin, trau dồi kiến thức để bản thân có thế theo kịp sự phát triển liên tục không ngừng nghỉ của thời đại Từ đó đề xuất các giải pháp nhằm phát triển hạ tầng Big data ở Việt Nam
3 Đối tượng nghiên cứu
Phân tích về Big data
4 Phạm vi nghiền cứu
Nghiên cứu về khái niệm, đặc trưng và lợi ích mà Big data mang lại Nghiên cứu về
tình hình phát trién Big data 6 Viét Nam hién nay
5 Phương pháp nghiên cứu
ePhương pháp nghiên cứu lý thuyết:
- Phương pháp phân tích-tông hợp lý thuyết
Trang 7- Phuong phap phan loai va hé théng hoa ly thuyét
¢Phuong phap nghién ctru thye tiễn:
- Phuong phap khao sat
- Phương pháp nghiên cứu thực tiễn
- Phương pháp phân tích-tông kết kinh nghiệm
Trang 8NOI DUNG
CHUONG 1: TONG QUAN VE BIG DATA
1.1 Big data la gi?
1.1.1 Khái niệm về Big data
Theo Wikipedia Big đata (Dữ liệu lớn) thường bao gồm tập hợp đữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường đề thu thập, hiền thị, quản lý và xử lý đữ liệu trong một thời gian có thể chấp nhận được Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi Như năm 2012 thì pham vi m6t vai ta terabytes tới nhiều petabytes dữ liệu Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp và có quy mô lớn.n0Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát đữ
liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư
Trong năm 2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối
lượng lớn, tốc độ cao vả/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức
xử lý mới đề cho phép tăng cường ra quyết định, khám phá bên trong và xử lý tối ưu" Dinh nghia '3Vs' cua Gartner van duoc str dụng rộng rãi, và trong phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ cao (Velocity) và đa đạng (Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt đề biến nó thành có giá trị"
Tập dữ liệu đang tăng rất nhanh một phần vì chúng được thu thập bởi số lượng thiết
bi internet van vat ngay cảng rẻ va nhiều, ví dụ như các thiết bi di động, anten, nhật ký phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID và mạng cảm biến không dây Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ những năm 1980; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes
(2.5x10'8), Một câu hỏi cho các tổ chức kinh doanh lớn là xác định ai nên sở hữu các
sáng kiến dữ liệu lớn có ảnh hưởng tới toàn bộ tô chức
1.1.2, Nguồn hình thành và phương pháp khai thác, quản lý Big data
Qua thống kê và tổng hợp, đữ liệu lớn được hình thành chủ yếu từ 6 nguồn:
- Dữ liệu hành chính (phát sinh từ chương trình của một tô chức, có thế là chính phủ hay phi chính phủ) Ví dụ: hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm
- Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dich giữa hai thực thể) Ví dụ: các giao dịch thẻ tín dung, giao dịch trên mang.,
Trang 9- Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tính, cảm biến
đường, cảm biến khí hậu
- Dữ liệu từ các thiết bị theo di, vi dụ theo đõi đữ liệu từ điện thoại di động, GPS
- Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch vụ
hay thông tin khác), đọc các trang mạng trực tuyến
- Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên các phương tiện thông tin xã hội
Phương pháp khai thác và quản lý DLL hiện nay được thiết kế phù hợp dựa theo
các nguồn hình thành DLL Mỗi nguồn DLL khác nhau sẽ có phương pháp khai thác
và quản lý DLL khác nhau Tuy nhiên, hiện nay phần lớn các tô chức trên thé giudi
đều dùng Hadoop ecosystem là giải pháp tối ưu đề khai thác và quản lý DLL
1.1.3 Những đặc trưng của Big data
DLL có 5 đặc trưng cơ bản như sau (mô hình 5V):
(1) Khối lượng đữ liệu (Volume)
Đây là đặc điểm tiêu biểu nhất của DLL, khối lượng dữ liệu rất lớn Kích cỡ của DLL đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể năm trong khoảng vai chuc terabyte cho dén nhiéu petabyte (1 petabyte = 1024 terabyte) chi cho mét tập hop đữ liệu Dữ liệu truyền thống có thê lưu trữ trên các thiết bi đĩa mềm, đĩa cứng Nhung voi DLL chung ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được
(2) Tốc độ (Velocity)
Tốc độ có thể hiểu theo hai khía cạnh: (a) Khối lượng đữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); (b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa di liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây) Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân
sự, Y tế như hiện nay phần lớn DLL được xử lý real-time Công nghệ xử lý DLL hiện nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở đữ liệu
(3) Da dang (Variety)
Đối với đữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hon 80% dữ liệu được sinh ra la phi cau tric (tài liệu, blog, hình ảnh, video, bài hát, ) Big đata cho phép liên kết và phân tích nhiều dạng đữ liệu khác nhau
Trang 10(4) Độ tin cậy/ chính xac (Veracity)
Một trong những tính chất phức tạp nhất của DLL là độ tin cậy/ chính xác của dữ liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngay nay va sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang
là tính chất quan trong cua DLL
(5) Gia tri (Value)
Giá trị là đặc điểm quan trọng nhất của DLL, vi khi bat đầu triển khai xây dựng DLL thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thông tin mang lại như thế nảo, khi đó chúng ta mới có quyết định có nên triển khai DLL hay không Nếu chúng ta có DLL mà chỉ nhận được 1% lợi ích từ nó, thi không nên đầu tư phát triển DLL Kết quả dự báo chính xác thể hiện rõ nét nhất về gia tri cha DLL mang
lai
1.2 Những loi ich to lon ma Big data mang lai
Ra quyét dinh tét hon
Giá trị cốt lõi của sử dụng Big Data là thúc đây quá trình ra quyết định, công ty xem xét xem xử lý dữ liệu trước khi đưa ra bất kỳ quyết định nào Một loạt các yếu tố lây khách hàng làm trung tâm như mong muốn của khách hàng, giải pháp cho các vấn
đề của họ, phân tích nhu cầu của khách hàng theo xu hướng thị trường được tính đến cho quá trình ra quyết định tốt hơn
Tạo ra sự cải tiễn tốt hơn
Sự đối mới là rất quan trọng cho sự thành công của bất kỳ tổ chức nào Và đề đổi mới, công ty cần dữ liệu và ngày cảng nhiều đữ liệu Big data cho phép sự tự đo đề đạt được những điều không tưởng Thông qua Big data, công ty có thế phân tích ý kiến các khách hàng khác nhau về sản phẩm của họ cũng như là cách khách hàng cảm nhận sản phẩm của công ty
Big data còn cung cấp những thông tin về những gì họ đang thiếu và những điều cần lưu ý trước khi phát triên sản phẩm mới Điều này giúp họ phát triển các sản phâm mới theo yêu cầu của khách hàng
Big data trong lĩnh vực giáo dục
10
Trang 11Lợi ích của Big data trong lĩnh vực giáo đục là quản lý đữ liệu liên quan đến học
sinh Bởi vì kích thước đữ liệu lớn, rất khó để các giảng viên khai thác đúng cách
Phân tích Big data đã nỗi lên như một lợi ích cho ngành giáo dục
Bắt đầu từ mang lại sự chuyền đổi rất cần thiết cho ngành giáo dục và đưa nên giáo dục lên một tầm cao mới Phân tích khả năng của một học sinh dựa trên dữ liệu có sẵn giúp các giáo viên lên kế hoạch giảng đạy tốt hơn Khi mà giáo viên nhận thức được điểm mạnh điểm yếu của học sinh, họ cũng có thé hướng dẫn học sinh của mình phù hợp hơn
Big data trong tối ưu giá sản phẩm
Lợi ích của Big data cho một công ty thương mại là ho cé thé str dung Big data dé tối ưu mức giá mà họ đưa ra cho khách hàng Mục tiêu của họ là tính một mức giá mả lợi nhuận có thê được tối ưu Thông qua Big đata họ phân tích được giá mang lại lợi nhuận tối đa cho họ trong các viễn cảnh kinh doanh khác nhau
Mục tiêu của họ là khách hàng sẽ nhận được giá trị xứng đáng với đồng tiền bỏ ra Khách hàng luôn nghĩ rằng công ty cần phải liên tục phát triển Nhưng đề làm cho khách hàng hải lòng, công ty cần có những cải tiến sản phâm phù hợp theo xu hướng của thị trường và Big data tạo điều kiện cho họ thực hiện các thay đôi ay
Big data trong công cụ đề xuất
Hãy tưởng tượng bạn có các đề xuất dựa trên những lựa chọn trong quá khứ cũng như trong hiện tại trên các nền tảng trực tuyến phong phú Cuộc sống sẽ đễ dàng hơn khi người ta có thể lựa chọn những thứ mình thích Đây là điều đã thay đổi suy nghĩ của mọi người đối với các nền tảng trực tuyến khác nhau, và họ cảm thấy thoải mái khi
sử dụng các nên tảng này
Vi du cua Big data trong đề xuất các công cụ là các nền tảng mua sắm trực tuyến
Họ phân tích dữ liệu của mỗi khách và đưa ra các đề xuất theo đó Những đề xuất này chủ yếu dựa trên các hành vi gần nhất của họ khi ghé thăm các nền tảng trước và các hoạt động thời gian thực của họ
Ngoài ra, các đề xuất được đưa ra dựa trên việc so sánh giữa các sản phẩm khách hàng đã tìm kiếm hay thường mua Đây là cách mà các nên tảng trực tuyến phá vỡ rào cản vật lý giữa họ và khách hàng Các công cụ này chắc chắn đã thay đổi trải nghiệm mua sam trực tuyến của khách hàng
Big data trong ứng dụng cứu sinh trong ngành Y tế
11