Cùng với sự phát triển của công nghệ, dữ liệu này không chỉ giúp chúng ta hiểu rõ hơn về sự phổ biến của các thể loại nhạc mà còn là một công cụ hữu ích để dự đoán xu hướng tương lai.Hy
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC THĂNG LONG
BÁO CÁO BÀI TẬP LỚN MÔN
BIG DATA(Học kỳ II nhóm 2 năm học 2023 – 2024)
GIÁO VIÊN HƯỚNG DẪN
Vũ Minh Hoàng
SINH VIÊN THỰC HIỆN
A42354 Chu Anh TùngA43933 Ngô Quang Hạnh
A40951 Nguyễn Duy Lĩnh
A43742 Trương Đức BảoA38506 Nguyễn Bảo Việt
A43664 Trịnh Đức Toàn
Trang 2Hà Nội – 2023
MỤC LỤC
Lời Mở Đầu 2
Chương 1: Mục đích 2
Chương 2: CÁC CÔNG CỤ SỬ DỤNG 3
2.1 Ngôn ngữ lập trình python 3
2.2 Thư viện plotly.express 4
2.3 Thư viện Matplotlib 5
2.4 Thư viện Seaborn 6
2.5 Thư viện Pandas 7
Chương 3: Phân Tích dữ Liệu 8
3.1 Nhập các thư viện cần sử dụng và dữ liệu 8
3.2 Thu thập dữ liệu 8
3.3 Tổng quan về dữ liệu 8
3.3 Xử lý dữ liệu 9
Chương 4: Xây dựng giả thuyết và kiểm định giả thuyết 9
Giả thuyết 1 : Thể loại nhạc thịnh hành thay đổi qua các năm9 Số lượng bài hát được ra các năm: 9
Giả thuyết 2 : Cứ mỗi 5 năm, thể loại nhạc Gospel lại đứng top 1 thịnh hành một lần 11
Giả thuyết 3: Giả thuyết trung bình độ phổ biến âm nhạc tăng dần đều theo các năm từ năm 2012 đến 2020 14
Giả thuyết 4: Deep-house sẽ vương lên vị trí số 1 trong vòng 5 năm tới (2018 - 2023) 18
Trang 3Giả Thuyết 5: 20CHƯƠNG 4 KẾT LUẬN 20
LỜI MỞ ĐẦU
Âm nhạc không chỉ là một phần không thể thiếu trong cuộc sống hàng ngày mà còn là một nguồn tài nguyên vô tận cho những câu chuyện, cảm xúc và kết nối giữa con người
Sau đây chúng ta sẽ cùng nhau khám phá một phần quan trọng của thế giới hiện đại thông qua việc phân tích dữ liệu trong ứng dụng âm nhạc Chúng ta đều biết rằng âm nhạc không ngừng phát triển và thay đổi theo thời gian, điều này đồng nghĩa với việc dữ liệu liên quan đến âm nhạc cũng trở nên phong phú và đa dạng hơn
Trong buổi phân tích dữ liệu hôm nay, chúng ta sẽ chiêm nghiệm sâu hơn vào thế giới âm nhạc thông qua góc độ số liệu và số liệu thống kê, nhằm hiểu rõ hơn
về xu hướng, sở thích và ảnh hưởng của người nghe.Chúng tôi sẽ cùng nhau đặtcâu hỏi và tìm kiếm câu trả lời từ những con số, từ những dữ liệu mà người nghe để lại khi tương tác với các nền tảng âm nhạc
Cùng với sự phát triển của công nghệ, dữ liệu này không chỉ giúp chúng ta hiểu
rõ hơn về sự phổ biến của các thể loại nhạc mà còn là một công cụ hữu ích để
dự đoán xu hướng tương lai.Hy vọng rằng việc nghiên cứu và sử dụng dữ liệu
âm nhạc sẽ giúp cung cấp thông tin và giá trị cho những người làm về lĩnh vực
âm nhạc để nắm bắt được xu hướng và phát triển hơn trong tương lai
Cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn đối với sự hỗ trợ và hướng dẫn quý báu từ thầy giáo Vũ Minh Hoàng, người đã đồng hành cùng chúng tôi trongviệc tạo ra báo cáo này
Trang 4CHƯƠNG 1: MỤC ĐÍCH
Mục đích của phân tích dữ liệu âm nhạc không chỉ là việc khám phá sâu hơn vềcác xu hướng và thị trường trong ngành công nghiệp âm nhạc, mà còn là để hiểu
rõ hơn về ảnh hưởng của âm nhạc đối với xã hội và văn hóa Qua việc thu thập,
xử lý và phân tích các dữ liệu liên quan đến âm nhạc, chúng ta có thể đạt đượcnhững mục đích quan trọng sau:
Hiểu sâu về Người Nghe: Phân tích dữ liệu âm nhạc giúp chúng ta nhận biết sởthích và xu hướng nghe nhạc của người nghe Điều này cung cấp thông tin quýbáu về đối tượng mục tiêu, từ đó giúp các nhà sản xuất và nghệ sĩ tạo ra nộidung phù hợp và thu hút
Dự Đoán Xu Hướng: Dữ liệu âm nhạc có thể được sử dụng để dự đoán xuhướng âm nhạc tương lai Bằng cách phân tích sự phổ biến của các thể loại,nghệ sĩ hoặc âm nhạc cụ thể, người quản lý và người làm quyết định trongngành có thể đưa ra chiến lược phát triển và tiếp thị hiệu quả
Tạo Nội Dung Chất Lượng: Hiểu rõ những thành phần âm nhạc được ngườinghe ưa chuộng giúp tạo ra nội dung chất lượng hơn Những quyết định về sảnxuất âm nhạc, lời bài hát và phối hợp âm nhạc có thể dựa trên dữ liệu để đápứng mong muốn và kỳ vọng của khán giả
Nghiên Cứu Văn Hóa: Dữ liệu âm nhạc là một nguồn tài nguyên quý giá đểnghiên cứu văn hóa và xã hội Phân tích sự phát triển của âm nhạc qua thời gian
có thể phản ánh những biến đổi trong tư tưởng, giá trị và xu hướng xã hội
Tối Ưu Hóa Trải Nghiệm Người Nghe: Bằng cách hiểu rõ hơn về thị trường vàngười nghe, các nền tảng âm nhạc có thể tối ưu hóa trải nghiệm người nghe, từgợi ý nội dung đến các tính năng tương tác, để tạo ra một môi trường nghe nhạctốt nhất
Trang 5CHƯƠNG 2: CÁC CÔNG CỤ SỬ DỤNG
2.1 Ngôn ngữ lập trình pythonA
Python, một ngôn ngữ lập trình đa năng, đã ra đời dưới sự sáng tạo củaGuido van Rossum và chính thức ra mắt vào năm 1991 Từ đó, Python đã nhanhchóng trở thành một trong những ngôn ngữ lập trình phổ biến nhất trên toàncầu, với một cộng đồng lập trình đa dạng và đông đảo Dưới đây, chúng ta sẽđiểm qua một số điểm đáng chú ý về Python:
- Cú Pháp Dễ Đọc: Python được thiết kế với cú pháp sáng sủa và dễ đọc,giống như ngôn ngữ tự nhiên Điều này giúp người mới học lập trình nắm bắtkiến thức một cách nhanh chóng Cú pháp của Python sử dụng dấu tab để xácđịnh các khối code thay vì dấu ngoặc như trong nhiều ngôn ngữ lập trình khác
- Đa Năng: Python có khả năng sử dụng cho nhiều mục đích khác nhau Nóphù hợp cho việc phát triển ứng dụng web, ứng dụng di động, ứng dụng máyhọc, phân tích dữ liệu, và nhiều ứng dụng khác Điều này làm cho Python trởthành một công cụ linh hoạt cho các nhà phát triển
- Thư Viện Phong Phú: Python có một hệ sinh thái thư viện phong phú và
đa dạng Các thư viện như NumPy cho tính toán số học, Pandas cho xử lý dữliệu, Matplotlib cho vẽ biểu đồ, và TensorFlow/PyTorch cho máy học và trí tuệnhân tạo giúp việc phát triển các ứng dụng phức tạp trở nên dễ dàng hơn
- Hỗ Trợ Cộng Đồng: Python có một cộng đồng lớn và nhiệt tình Bất kỳkhiếu nại hay thắc mắc nào có thể được giải quyết thông qua diễn đàn, blog, vàcác nguồn học tập trực tuyến Cộng đồng này thường giúp các lập trình viên giảiquyết vấn đề và chia sẻ kiến thức
- Python đã tỏ ra không chỉ là một ngôn ngữ lập trình mạnh mẽ, mà còn làmột ngôn ngữ thân thiện với người dùng, giúp họ dễ dàng thực hiện các dự án
và nghiên cứu trong nhiều lĩnh vực khác nhau Điều này đã đóng góp một phầnquan trọng vào sự phổ biến và thành công của Python trong cộng đồng lập trìnhtoàn cầu
Trang 62.2 Thư viện plotly.express
Plotly Express là một thư viện trực quan hóa dữ liệu mạnh mẽ được phát triểnbởi Plotly, được thiết kế để tạo ra các biểu đồ tương tác và đẹp mắt một cách dễdàng Với cú pháp đơn giản và tích hợp sẵn với pandas DataFrame, PlotlyExpress mang lại trải nghiệm trực quan hóa dữ liệu mượt mà và linh hoạt.Chúng ta sẽ tìm hiểu một số đặc điểm của thư viện:
Biểu Đồ Tương Tác:Plotly Express cho phép tạo ra các biểu đồ tương tác như scatter plots, line charts, bar charts, và heatmap, nơi người dùng có thể tương tác với dữ liệu bằng cách di chuyển chuột, thay đổi loại biểu
Hỗ Trợ Đa Dạng Biểu Đồ:Ngoài các biểu đồ cơ bản, Plotly Express hỗ trợ nhiều loại biểu đồ phức tạp như biểu đồ 3D, choropleth maps, sankey diagrams, và sunburst charts, giúp người sử dụng thỏa sức sáng tạo trong việc hiển thị dữ liệu
Kết Hợp với Plotly:Plotly Express hoàn toàn tương thích với thư viện Plotly, cho phép người sử dụng tùy chỉnh và mở rộng các biểu đồ theo ý muốn bằng cách sử dụng các tính năng mạnh mẽ của Plotly
2.3 Thư viện Matplotlib
Trang 7Matplotlib, thư viện mã nguồn mở mạnh mẽ cho việc tạo ra đồ họa và biểu
đồ trong Python, là một công cụ quan trọng cho việc trực quan hóa dữ liệu vàphân tích Dưới đây, chúng ta sẽ điểm qua một số điểm quan trọng về thư việnnày:
- Đa Dạng Về Biểu Đồ: Matplotlib cung cấp khả năng tạo ra nhiều loạibiểu đồ khác nhau, bao gồm biểu đồ đường, biểu đồ cột, biểu đồ phân tán, biểu
đồ hình ảnh, biểu đồ 3D, và nhiều loại biểu đồ khác Điều này cho phép bạnhiển thị dữ liệu một cách linh hoạt và thích hợp cho nhiều nguồn dữ liệu khácnhau
- Tích Hợp Với Python: Matplotlib tích hợp tốt với Python và hoạt độngtương thích với nhiều thư viện và framework khác trong hệ sinh thái khoa học
dữ liệu của Python như NumPy, Pandas và SciPy Điều này giúp bạn làm việcvới dữ liệu và tạo biểu đồ dễ dàng
- Linh Hoạt và Tùy Chỉnh: Matplotlib cho phép bạn tùy chỉnh mọi khíacạnh của biểu đồ, từ màu sắc, kích thước, đánh dấu trục, đến tiêu đề và chúthích Điều này giúp bạn tạo ra biểu đồ theo ý muốn và phù hợp với nhu cầu của
dự án
- Khả Năng Xuất Bản: Bạn có thể xuất biểu đồ Matplotlib dưới dạng hìnhảnh chất lượng cao hoặc PDF để sử dụng trong báo cáo, trang web hoặc sách.Biểu đồ tạo ra bằng Matplotlib thích hợp cho mục đích xuất bản và trình bày dữliệu một cách chuyên nghiệp
- Cộng Đồng Lớn và Hỗ Trợ: Matplotlib có một cộng đồng đông đảo vànhiệt tình Bạn có thể tìm kiếm sự hỗ trợ, tài liệu học tập và ví dụ trực tuyến dễdàng khi gặp vấn đề hoặc cần sự hướng dẫn Điều này giúp bạn giải quyết cácthách thức và tận dụng tối đa tiềm năng của Matplotlib
- Matplotlib là một công cụ quan trọng cho việc biểu diễn và trực quan hóa
dữ liệu trong Python, và sự đa dạng, tích hợp dễ dàng và khả năng tùy chỉnh đãlàm cho nó trở thành lựa chọn phổ biến trong cộng đồng khoa học dữ liệu vàphân tích dữ liệu
2.4 Thư viện Seaborn
Seaborn là một thư viện Python mạnh mẽ được xây dựng trên matplotlib, giúp thực hiện việc trực quan hóa dữ liệu một cách đơn giản và hiệu quả Seaborn cung cấp các giao diện cao cấp cho việc vẽ đồ thị thống kê và biểu đồ phân tích
Trang 8dữ liệu, giúp người sử dụng dễ dàng tạo ra các biểu đồ đẹp mắt và thông tin.Chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này:
- Tích hợp Dữ Liệu: Seaborn hỗ trợ dễ dàng tích hợp với các dạng dữ liệu khác nhau, từ các cấu trúc dữ liệu cơ bản trong Python đến các đối tượng DataFrame trong thư viện Pandas
- Biểu Đồ Thống Kê:Seaborn cung cấp nhiều loại biểu đồ thống kê khác nhau như biểu đồ thanh, biểu đồ điểm, biểu đồ hộp và rất nhiều biểu đồ khác, giúp hiển thị thông tin một cách rõ ràng và dễ hiểu
- Màu Sắc và Phối Màu:Thư viện này cung cấp một loạt các bảng màu và phương pháp tạo màu sắc đồng nhất, giúp tạo ra các biểu đồ có tính thẩm mỹ cao
- Hỗ Trợ Phân Tích Dữ Liệu:Seaborn hỗ trợ nhiều chức năng phân tích dữ liệu như biểu đồ phân tán, biểu đồ quan hệ, và khảo sát sự phân phối của dữ liệu
- Tương Tác với Matplotlib:Seaborn có thể tương tác mạnh mẽ với matplotlib, cho phép người dùng tận dụng các tính năng của cả hai thư viện mộtcách linh hoạt
2.5 Thư viện Pandas
Pandas là một thư viện mã nguồn mở được xây dựng trên ngôn ngữ lập trình Python, được thiết kế để cung cấp cấu trúc dữ liệu và công cụ xử lý dữ liệu mạnh mẽ, linh hoạt và hiệu quả Được phát triển bởi Wes McKinney và ra mắt lần đầu tiên vào năm 2008, Pandas đã trở thành một trong những công cụ chính cho phân tích dữ liệu và xử lý dữ liệu trong cộng đồng khoa học dữ liệu và phântích dữ liệu.Chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này:
- DataFrame và Series:Pandas định nghĩa hai cấu trúc dữ liệu chính là DataFrame và Series DataFrame là một bảng dữ liệu hai chiều với các hàng và cột được đặt tên, trong khi Series là một dạng dữ liệu mảng một chiều kèm theo nhãn
- Xử Lý Dữ Liệu:Pandas cung cấp các công cụ mạnh mẽ để thực hiện các phép xử lý dữ liệu như lọc, sắp xếp, nhóm, và kết hợp dữ liệu Các hàm như
Trang 9groupby, merge, và concat giúp người dùng dễ dàng thực hiện các thao tác phứctạp trên dữ liệu.
- Thao Tác Dữ Liệu Thiết Yếu:Pandas hỗ trợ các thao tác cơ bản như cắt, cắt đối, thay thế giá trị, và tính toán thống kê một cách thuận tiện, giúp người sửdụng tiết kiệm thời gian và công sức
- Tích Hợp Dữ Liệu:Pandas tương thích tốt với nhiều nguồn dữ liệu khác nhau như SQL, Excel, CSV, và JSON Khả năng đọc và ghi dữ liệu từ và ra các định dạng này giúp người sử dụng dễ dàng tích hợp dữ liệu từ nhiều nguồn khácnhau
- Tích Hợp Với NumPy và Matplotlib:Pandas tích hợp tốt với thư viện NumPy, giúp chuyển đổi giữa các cấu trúc dữ liệu Pandas và NumPy một cách
dễ dàng Ngoài ra, Pandas cũng tương thích tốt với thư viện vẽ đồ thị
Matplotlib, giúp người sử dụng trực quan hóa dữ liệu một cách hiệu quả
Trang 10CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU
3.1 Nhập các thư viện cần sử dụng và dữ liệuA
3.2 Thu thập dữ liệu
Sử dụng link này để lấy data:
https://drive.google.com/drive/folders/1QC08DrzaJuAmAkzq_Yo_Oix4dT3WjA91?usp=drive_link
Trang 113.3 Tổng quan về dữ liệu
+ Unnamed: Số thứ tự
+ Popularity: Mức độ phổ biến+ Year: Năm
Trang 12Thời gian :
3.3 Xử lý dữ liệu
Kiểm tra các dòng có bị thiếu dữ liệu không
Trang 13Trùng lặp
Kiểm tra các giá trị trong cùng một cột có cùng kiểu với nhau hay không
Trang 14Hiển thị số liệu thống kê tóm tắt
Trang 15CHƯƠNG 4: XÂY DỰNG GIẢ THUYẾT VÀ KIỂM ĐỊNH GIẢ
THUYẾT Giả thuyết 1 : Thể loại nhạc thịnh hành thay đổi qua các năm
Số lượng bài hát được ra các năm:
Năm có số bài hát được ra ít nhất là năm 2009
Năm có số bài hát được ra nhiều nhất là năm 2018
Hầu hết các năm đều có hơn 40k bài hát, có 3 năm số lượng bài hát ít hơn 40k là
2009, 2016, 2023
Trang 16Từ năm 2000 -> 2009
Top 3 thể loại nhạc thịnh hành: ambient, gospel,black-metalThể loại nhạc thịnh hành nhất là : ambient
Từ năm 20010 -> 2014:
Trang 17Top 3 thể loại nhạc thịnh hành: comedy, black-metal, ambient
Thể loại nhạc thịnh hành nhất là comedy
Từ năm 2015 -> 2023:
Top 3 thể loại nhạc thịnh hành: black-metal, chill, ambient
Thể loại nhạc thịnh hành nhất là black-metal
KẾT LUẬN: GIẢ THUYẾT ĐÚNG
Giả thuyết 2 : Cứ mỗi 5 năm, thể loại nhạc Gospel lại đứng top 1 thịnh hành một lần
Từ năm 2000 - 2004:
Trang 18Thể loại nhạc Gospel đứng top 2
Từ năm 2005 - 2010:
Trang 19Thể loại Gospel đứng thứ 3
Từ năm 2011-2015:
Thể loại gospel đứng top 5
Từ năm 2016-2020:
Trang 20Thể loại gospel đứng top 8
KẾT LUẬN: GIẢ THUYẾT SAI
Giả thuyết 3: Giả thuyết trung bình độ phổ biến
âm nhạc tăng dần đều theo các năm từ năm 2012 đến 2020
Trang 21Theo như ta quan sát số lượng bài từ năm 2012 đến năm 2022 không đồng đều các năm sau có xu hướng giảm hơn so với năm trước
Trang 22Nhưng về mức độ phổ biến từ năm 2012 đến năm 2022 thì có hướng tăng theo biểu đồ ta thấy:
- Năm có % trung bình độ phổ biến thấp nhất là năm 2012 với 8.4%
- Năm có % trung bình độ phổ biến cao nhất là năm 2022 với 13.6%
Trang 23Giải thích: Do áp dụng công nghệ 4.0 vào đời sống ngày càng nhiều và số người tiếp cận với dụng nghe nhạc ngày càng tăng mặc dù số lượng bài hát ra đời qua các năm tăng giảm không đáng kể nhưng độ phổ biến của nó ngày càng tăng.
KẾT LUẬN: GIẢ THUYẾT ĐÚNG
Trang 24Giả thuyết 4: Deep-house sẽ vương lên vị trí số 1 trong vòng 5 năm tới (2018 - 2023)
Trang 26Giả Thuyết 5: Covid ảnh hưởng đến nền âm nhạc
Số lượng âm nhạc tăng dần qua các năm
- Năm với các bài hát cao nhất được phát hành: 2018
- Năm với các bản nhạc thấp nhất được phát hành: 2009
Trang 27Ta có thể thấy được nền âm nhạc có sự phát triển mạnh mẽ nhất vào giai đoạn 2018-2019, tuy nhiên, do ảnh hưởng của đại dịch COVID-19, ngành công nghiệp âm nhạc đã phải đối mặt với nhiều khó khăn Sự tụt lùi này là kết quả của ảnh hưởng đến quá trình sản xuất âm nhạc, hủy bỏ hoặc hoãn các sự kiện
âm nhạc, và thay đổi mô hình biểu diễn Điều này đã tạo ra một bức tranh khó khăn hơn cho ngành công nghiệp âm nhạc, với nhiều nghệ sĩ và tổ chức sự kiện phải điều chỉnh để đối mặt với thách thức của thời kỳ khẩn cấp lúc đó
KẾT LUẬN: GIẢ THUYẾT ĐÚNG
Trang 28CHƯƠNG 4 KẾT LUẬN
Trong hành trình phân tích dữ liệu âm nhạc, chúng ta đã có cơ hội khám phá sâuhơn vào thế giới đa dạng và phong phú của ngành công nghiệp âm nhạc hiện đại Dữ liệu không chỉ là số liệu và con số mà còn là những câu chuyện, cảm xúc và sự kết nối giữa người nghe và nghệ sĩ
Chúng ta đã nhận thức được tầm ảnh hưởng của âm nhạc đối với xã hội và văn hóa, từ những xu hướng thị trường đến những biến đổi sâu sắc trong tư tưởng vàgiá trị Dữ liệu âm nhạc không chỉ là công cụ hữu ích cho những nhà sản xuất
và nghệ sĩ mà còn là nguồn tài nguyên quý giá cho những nhà nghiên cứu và người yêu âm nhạc
Qua những con số, chúng ta đã thấy những biểu hiện rõ ràng của sự đa dạng trong sở thích nghe nhạc và sự thay đổi trong ưa chuộng các thể loại âm nhạc
Từ đó, chúng ta có thể dự đoán xu hướng tương lai, giúp cho ngành công nghiệp
âm nhạc chuẩn bị và phát triển theo hướng tích cực
Cuối cùng, việc tận dụng dữ liệu âm nhạc không chỉ là về việc tối ưu hóa doanh nghiệp, mà còn là về việc tạo ra trải nghiệm nghe nhạc tốt nhất cho người nghe Bằng cách hiểu rõ người nghe và đáp ứng đúng nhu cầu của họ, chúng ta có thể xây dựng một cộng đồng âm nhạc mạnh mẽ và đa dạng
Một lần nữa chúng tôi xin cảm ơn và biết ơn đối với sự hỗ trợ và hướng dẫn quýbáu từ thầy giáo Vũ Minh Hoàng, người đã giúp đỡ chúng tôi trong môn Dữ Liệu Lơn