Ứng dụng của Big data trong thực tế Bao gồm: kiếm tra và quản lý tất cả dữ liệu khách hàng đề nâng cao trải nghiệm của họ và đưa ra phương hướng giữ khách hàng, phân tích các hoạt động c
Trang 1
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC GIA ĐỊNH
KHOA CÔNG NGHỆ THÔNG TIN
GIA DINH
UNIVERSITY
TIỂU LUẬN
GIOI THIEU VE CHUYEN NGANH PHAN TICH DU LIEU LON BIG DATA
MÔN: PHƯƠNG PHÁP HỌC ĐẠI HỌC VÀ
ĐỊNH HƯỚNG NGHẺ NGHIỆP
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành: PHÂN TÍCH DU LIEU LON
(BIG DATA)
Giảng viên hướng dẫn: ThS ĐOÀN TRỌNG ĐÀN
Sinh viên thực hiện: NGUYÊN VÕ HỎNG SINH
MSSV: 23150353
Lớp: 23107
Trang 2
TP Hồ Chí Minh, tháng 11, năm 2023
Trang 3
Bài làm Khoa/Viện: Công nghệ thông tin
_ NHAN XET VA CHAM DIEM CUA GIANG VIEN
TIỂU LUẬN MÔN: Phương pháp học dại học và định hướng nghề nghiệp
._ Họ và tên sinh viên: Nguyễn Võ Hồng Sinh
Tên đề tài: Giới thiệu về chuyên ngành phân tích dữ liệu lớn Big Data
Nhận xét:
a) Những kết quả đạt được:
._ Điểm đánh giá (theo thang điểm 10, làm tròn đến 0.5):
05211 ae =a.a - Điểm số: Điểm chữ: QC c nQ cọ n nh ng kh kh ve
TP HCM, ngày tháng năm 20
Giảng viên chấm thi
(Ký và ghi rõ họ tên)
Trang 4Mục lục
GIỚI THHIỆU 2-5 S121 SE122115121127121121111 11117111121 E111 4
1 Khái niệm về ngành Big Data: 2 T1 T1 1121121211221 112gr tre 4
2, Ứng dung cua Big data trong thuc re 4
QUÁ TRÌNH HÌNH THÀNH BIG DATTA 2-2222+222222222211222211122211 221.2 5
I ỨNG DỤNG CỦA BIG DATA TRONG ĐỜI SÓNG 5.522 n2 21 re 5
Il LÍDO CHỌN ĐÈ TÀI NGHIÊN CỨU - 5s 2 2212127122111111 2111122 E1 tre 6
II ca nh e 6
2 Tiềm năng kinh TT ccc cccccceecsecesssessessesstsstesessssissersessssessesstsessensassssevsnsssevsnsessnsesevenses 6
3 Hiéu suat va toi uu héas ccc ccccccccsecccsessesseseessvsessecsessessssnssnsssserssvsssessessesevsneess 7
4 Dự đoán và phân tích xu hướng: - 0211122112 1211 1211112111111 1110111221181 1 7
5 Bảo mật và quyền riêng (ư: - 2 ST E2112111111121 711 111121212122 212111 rryu 7
6 Phân tích dữ liệu không cấu trúc: -2sS2 1211111 11271211211211112121 21012 rea 8
I ĐỎI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU - 25c: 222222122221112222111 22222 e6 8
Vo x.ììiùŨùŨŨŨŨŨ 8 PN an “131 8
3 Thời gian nghiên CỨU: Q22 11 1101112111111111 11 1111011101111 1111101111121 11 11k 8
TV PHƯƠNG PHÁP NGHIÊN CỨU 2255:22222221222211112222111121122111.11 te 8
1 Phan tich s6 li@u thong 2.0.00 00 ccccccccccccescccscssesecsecsessesseseessesersevsessessevsnssnssessnsavsessevees 8
2 Mô hình hóa dữ liệu: cece ecc ee creeeeseeeseeectseetsseetstectseetsssetieeeteeenaes 8
4 Xử lý ngôn ngữ tự nhiên: - - L2 Q2 221020 11120111101 1111111111111 1111111111111 11 111111111 k2 9
5 Mạng xã hội và phân tích đồ thị: 5221 E122 211111 1711212112112 1e 9
6 Phân tích hình ảnh và video: - - 0020122112212 221 12111812211 111111 111211011 811 011tr 9
V Ý NGHĨA ĐÈ TÀI -2222222 2222211212 22 re 9
VI KẾT LUẬN 22.221 T2 HE 2H HH tr ng grrrờg 10
Trang 5VIL LỜI CÁ MƠN Q.20 22221 E2n E12 HE HH rau 11 VIIIL TÀI LIỆU THAM KHAO cccccccccccccccceessessessessesersevsecsssevsnssssesenssnsnsevsessees 11
1 "Big Data: A Revolution That Will Transform How We Live, Work, and Think"
— 11
2 "Big Data: A Primer"' của Xin Luna Dong và Divesh Srivastava II
3 "Big Data: Techniques and Technologies in Geoinformatics" cia Hassan A
Karimi và Mohammad AÁ Karim - 20000111 1211111 1111111112111 1112111111211 1 khay 11
4 "Big Data: A Very Short Introduction"' của Dawn E Holmes - II
5 "Big Data Analytics: Methods and Applications" cua S Srinivasan II
6 "Big Data Analytics: Turning Big Data into Big Value" cua Frank J Ohlhorst 11
7, "Big Data: A Revolution That Will Transform How We Live, Work, and Think" của Viktor Mayer-Schönberger và Kenneth Cukler 5-0 2 222 22222222222 xsce2 II
8 "Big Data in Education: Balancing Privacy and Publicness" cua Neil Selwyn 11
9, "Big Data in Healthcare: Extracting Knowledge from Point-of-Care Machines" của H K Huang và D T H Wong Q0 0012121112 nh HH n1 211111111421 11 11k k cha II
10 "Big Data and Machine Learning in Quantitative Investment" cia Tony Guida
va Carl Daniele HH
11 https:/www.Ibm.com/analytics/biø-data - c2 H12 n1 He II
12 https:/Awww.sas.com/en_us/insights/big-data/what-is-big-data.htmll II
13 https:/Awww.oraylis.de/en/big-data-what-is-it-and-how-does-it-work 12
14, https:/Awww.microsoft.com/en-us/sql-server/big-data 0 0000cccccccceceettettteees 12
15 https:/Awww.datasciencecentral.com/profiles/blogs/10-great-resources-to-learn-
16 https:/www.udemy.com/topic/big-data/ - c1 c2 222 2112212111211 ưườn 12
17 https:/www.coursera.org/courses?query=big⁄220data 222cc ee 12
18 https:/www.edureka.co/blog/what-is-big-data/ cà 2 n2 re 12
19 https:/www.techopedia.com/definrtion/298177/big-data 5 22c 222222222 12
Trang 6Bài làm
GIỚI THIỆU
1 Khái niệm về ngành Big Data:
+ Dữ liệu lớn (Big Data) là thuật ngữ dùng đề chỉ một tập hợp đữ liệu rất lớn và rất
phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thê nào đảm đương được, theo Kevin Taylor-Sakyi (2016); Mashooque À Memon và cộng sự (2017) Dữ liệu lớn chính là cốt lợi để sử dụng, phát triển internet vạn vật (IoT -
“Internet of Things) va tri tué nhan tạo (AI - “Artificial intelligence) Doanh nghiép lam chủ được tập dữ liệu lớn thì mới thật sự thành công trong môi trường kinh doanh nhiều cạnh tranh
2 Ứng dụng của Big data trong thực tế
Bao gồm: kiếm tra và quản lý tất cả dữ liệu khách hàng đề nâng cao trải nghiệm của họ
và đưa ra phương hướng giữ khách hàng, phân tích các hoạt động của doanh nghiệp giúp cải thiện hiệu suất làm việc và vận hành có tổ chức hơn, hiệu quả hơn, giảm thiểu rủi ro trong kinh doanh nhờ phân tích, kiểm soát và phát hiện các hoạt động gian lận, tối
ưu hóa giá cả, tăng doanh thu, quản lý tốt hàng tồn kho
Trang 7QUÁ TRÌNH HÌNH THÀNH BIG DATA
+ Big Data thực chất đã hình thành từ khoảng thập kỷ 80 - 90 của thế kỷ XX Năm
1984, tập đoàn Teradata đưa ra thị trường hệ thống xử lý đữ liệu song song DBC 1012 Các hệ thống xử lý của Teradata là một trong những hệ thống đầu tiên lưu trữ và phân tích đến I terabyte dữ liệu vào năm 1992 Ô đĩa cứng cũng đạt mức dung lượng 2,5GB vao nam 1991
Nam 2000, Seisint Inc (nay la Tap doan LexisNexis) da phat triển một khung chia sẻ tệp dựa trên cầu cấu trúc C++ đề lưu trữ và truy vấn đữ liệu Hệ thống này lưu trữ và phân phối đữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc trên nhiều máy chủ Năm 2004, Google xuất bản một bài báo về quá trình MapReduece, cung cấp một mô hình xử lý song song và phát hành những ứng dụng liên quan đề xử lý lượng dữ liệu không lồ
Năm 2005, nhiều doanh nghiệp đã bắt đầu nhận ra số lượng người dùng được tạo ra thông qua Youtube, Facebook và các dịch vụ trực tuyến khác là rất lớn Cùng năm đó, Hadoop (một famework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích Big Data) da duoc phat triển và NoSQL cũng bắt đầu trở nên phô biến Sự phát triển của cac framework ví dụ như Hadoop (hoặc gần đây la Spark) là cần thiết cho sự phát triển của Big Data, chúng khiến cho Big Data hoạt động đễ dàng hơn và lưu trữ rẻ hơn Hiện nay, nhờ có Internet of Things mà khối lượng Big Data ngày càng lớn với tốc độ nạp vô cùng nhanh chóng Lý do là vì dữ liệu ngày nay không chỉ do con người tạo ra mả còn do máy móc tạo tự động Big Data đã trở thành một tài nguyên quý giá đối với các doanh nghiệp, đặc biệt là các doanh nghiệp thương mại điện tử, giúp doanh nghiệp tăng lợi thế cạnh tranh và phục vụ khách hàng tốt hơn
I ỨNG DỤNG CỦA BIG DATA TRONG ĐỜI SÓNG
+ Khối lượng và mức độ phức tập của Big Data không thê được quản lý và xử lý băng các phần mềm truyền thống trước đây Do đó, tập đữ liệu “khủng” này đòi hỏi phải được
xử lý bằng các công nghệ hiện đại hơn nữa Có nhiều nguồn tạo ra Big Data như đữ liệu
từ các hộp đen máy bay, dữ liệu từ các kênh, web truyền thông, giao dịch chứng khoán,
dữ liệu từ phương tiện giao thông hàng ngày, điện lực và các công cụ, thiết bị tìm kiểm
Trang 8Với khả năng xử lý đữ liệu lớn, Big Data mang đến nhiều lợi ích cho doanh nghiệp, công
ty
SY DICH CHUYEN TRONG THOI QUEN MUA SAM GỦA NGƯỜI TIỂU DUNG
(vid qui bo, sich @ địt ) thing qua cde kénh du diy
R man
Ra
k $ Tyna
Bin
Ngùt Đúc tít ly dung Tobe clu Globe! Consumer Insights Puve Survey cua Pw thang 12/2021
“anny ban om Ray teh
+ Các doanh nhân có thê sử dụng Big Data đề kiểm tra và quản lý tất cả dữ liệu khách hang dé nang cao trai nghiệm của họ và đưa ra phương hướng giữ khách hàng cho mình Ngoài ra, Big Data còn giúp phân tích các hoạt động của doanh nghiệp, công ty giúp cải thiện hiệu suất làm việc và vận hành có tô chức hơn, hiệu quả hơn Big Data cũng giúp giảm thiêu rủi ro trong làm ăn nhờ phân tích, kiểm soát và phát hiện các hoạt động gian lận
II LI DO CHON DE TAI NGHIEN CUU
1 Tinh wng dung rong:
Big data co thé được áp dụng trong nhiều lĩnh vực khác nhau như y tế, tài chính, marketing, quản lý nguồn nhân lực, giao thông vận tải, và nhiều lĩnh vực khác Việc nghién ctu vé big data sẽ mang lại nhiều cơ hội phát triển và ứng đụng trong nhiều lĩnh vực khác nhau
2 Tiềm năng kinh tế:
Trang 9Big data được coi là một tài nguyên kinh tế quan trọng Nghiên cứu về big đata có thể giúp tìm hiểu cách tận dụng tài nguyên này đề tạo ra giá trị kinh tế,thúc đây sự phát triển kinh tê và cải thiện hiệu suât làm việc của các tô chức và doanh nghiệp
3 Hiệu suat va toi ưu hóa:
Big data mang lại khối lượng lớn thông tin, và nghiên cứu về big data có thế giúp tìm
hiểu cách sử đụng và phân tích thông tin này để tăng hiệu suất và tối ưu hóa hoạt động của các hệ thống và quy trình
4 Dự đoán và phân tích xu hướng:
Big data cung cap một nguồn thông tin phong phú và đa đạng, giúp dự đoán và phân tích
xu hướng trong các lĩnh vực như thị trường, dự báo thời tiết, quản lý rủi ro, và nhiều lĩnh vực khác Nghiên cứu về big data có thế giúp phát triển các phương pháp và công cụ phân tích đề đưa ra dự đoán chính xác và hỗ trợ quyết định
5 Bảo mật và quyền riêng tư:
Trang 10Til
Sự phát triển của big đata cũng đặt ra những thách thức về bảo mật thông tin va quyền riêng tư Nghiên cứu về bip data có thé tập trung vào việc phát triển các biện pháp bảo vệ thông tin và đảm bảo quyền riêng tư trong việc sử dụng và chia sẻ đữ liệu lớn
6 Phân tích dữ liệu không cấu trúc:
Big data thường chứa nhiều dạng đữ liệu không cấu trúc như hình ảnh, video, âm thanh, văn bản tự do, và dữ liệu từ các thiết bị IoT Nghiên cứu về big data có thể tập trung vào việc phát triển các phương pháp và công cụ đề phân tích và trích xuất thông tin từ đữ liệu không cấu trúc này
ĐÓI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1 Đối tượng:
Sinh viên Đại Học Gia Định (về lí do theo đuôi ngành CNTT, phan tích dữ liệu lớn Big Data)
2 Pham vi:
Phạm vi nghiên cứu: Thành phố Hồ Chí Minh
3 Thời gian nghiên cứu:
Từ ngày 3/11/2023 đến 17/11/2023
PHƯƠNG PHÁP NGHIÊN CỨU
1 Phân tích số liệu thống kê:
Phương pháp này sử dụng các công cụ và kỹ thuật thống kê đề phân tích đữ liệu lớn và tìm hiểu mỗi quan hệ giữa các biến và xu hướng trong dữ liệu
2 Mô hình hóa dữ liệu:
Phương pháp này sử dụng các mô hình toán học và thuật toán máy học đề dự đoán và phân tích đữ liệu Các mô hình như học máy, học sâu, mạng nơ-ron, và cây quyết định thường được sử dụng đề xây đựng các mô hình dự đoán và phân tích
3 Khai phá dữ liệu:
10
Trang 11Phương pháp này sử dụng các công cụ và kỹ thuật đề khám phá thông tin ân trong dữ liệu lớn Các phương pháp khai phá dữ liệu bao gồm phân cụm, phân loại, gom nhóm, và kỹ thuật tiếp cận dựa trên đồ thị
4 Xử lý ngôn ngữ tự nhiên:
Phương pháp này sử đụng các công cụ và kỹ thuật xử lý ngôn ngữ tự nhiên đề trích xuất thông tin từ văn bản tự do và dữ liệu không cấu trúc khác Các phương pháp xử lý ngôn ngữ tự nhiên bao gồm phân loại văn bản, phân tích ý kiến, và trích xuất thông tin
5 Mạng xã hội và phân tích đồ thị:
Phương pháp này sử dụng các công cụ và kỹ thuật đề phân tích mạng xã hội và đỗ thị dữ
liệu lớn Các phương pháp này có thê giúp tìm hiểu các mối quan hệ xã hội, tìm kiếm
thông tin quan trọng và phát hiện cộng đồng trong mạng xã hội
6 Phân tích hình ảnh và video:
Phương pháp này sử dụng các công cụ và kỹ thuật đề phân tích và trích xuất thông tin từ hình ảnh và viđeo Các phương pháp này có thể bao gồm nhận dạng đối tượng, phân loại hinh ảnh, và phân tích nội dung video
V Ý NGHĨA ĐÈ TÀI
+ Đề tài nghiên cứu ngành bip đata có ý nghĩa quan trọng trong việc nghiên cứu
và áp đụng những phương pháp, công nghệ và kỹ thuật đề xử lý và phân tích dữ liệu lớn (big data) Các công trình nghiên cứu trong lĩnh vực này giúp cải thiện hiệu suất, khai thác thông tin và tạo giá trị từ đữ liệu lớn, từ đó đưa ra những quyết định thông minh hơn và tối ưu hóa các quy trình kinh doanh
+ Đề tài nghiên cứu ngành big data còn có ý nghĩa trong việc phát triển các hệ thống và công cụ giúp thu thập, lưu trữ, quản lý và xử lý đữ liệu lớn một cách hiệu quả và an toàn Các công trình nghiên cứu trong lĩnh vực này tập trung vào việc tối ưu hóa khả năng lưu trữ và truy xuất dữ liệu, bảo mật thong tin va dam bảo tính toàn vẹn của đữ liệu
11