1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo bài tập lớn môn big data

28 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu trong ứng dụng âm nhạc
Tác giả Chu Anh Tùng, Ngô Quang Hạnh, Nguyễn Duy Lĩnh, Trương Đức Bảo, Nguyễn Bảo Việt, Trịnh Đức Toàn
Người hướng dẫn Vũ Minh Hoàng
Trường học Trường Đại học Thăng Long
Chuyên ngành Big Data
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 28
Dung lượng 2,11 MB

Nội dung

Cùng với sự phát triển của công nghệ, dữ liệu này không chỉ giúp chúng ta hiểu rõ hơn về sự phổ biến của các thể loại nhạc mà còn là một công cụ hữu ích để dự đoán xu hướng tương lai.Hy

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC THĂNG LONG

BÁO CÁO BÀI TẬP LỚN MÔN

BIG DATA(Học kỳ II nhóm 2 năm học 2023 – 2024)

GIÁO VIÊN HƯỚNG DẪN

Vũ Minh Hoàng

SINH VIÊN THỰC HIỆN

A42354 Chu Anh TùngA43933 Ngô Quang Hạnh

A40951 Nguyễn Duy Lĩnh

A43742 Trương Đức BảoA38506 Nguyễn Bảo Việt

A43664 Trịnh Đức Toàn

Trang 2

Hà Nội – 2023

MỤC LỤC

Lời Mở Đầu 2

Chương 1: Mục đích 2

Chương 2: CÁC CÔNG CỤ SỬ DỤNG 3

2.1 Ngôn ngữ lập trình python 3

2.2 Thư viện plotly.express 4

2.3 Thư viện Matplotlib 5

2.4 Thư viện Seaborn 6

2.5 Thư viện Pandas 7

Chương 3: Phân Tích dữ Liệu 8

3.1 Nhập các thư viện cần sử dụng và dữ liệu 8

3.2 Thu thập dữ liệu 8

3.3 Tổng quan về dữ liệu 8

3.3 Xử lý dữ liệu 9

Chương 4: Xây dựng giả thuyết và kiểm định giả thuyết 9

Giả thuyết 1 : Thể loại nhạc thịnh hành thay đổi qua các năm9 Số lượng bài hát được ra các năm: 9

Giả thuyết 2 : Cứ mỗi 5 năm, thể loại nhạc Gospel lại đứng top 1 thịnh hành một lần 11

Giả thuyết 3: Giả thuyết trung bình độ phổ biến âm nhạc tăng dần đều theo các năm từ năm 2012 đến 2020 14

Giả thuyết 4: Deep-house sẽ vương lên vị trí số 1 trong vòng 5 năm tới (2018 - 2023) 18

Trang 3

Giả Thuyết 5: 20CHƯƠNG 4 KẾT LUẬN 20

LỜI MỞ ĐẦU

Âm nhạc không chỉ là một phần không thể thiếu trong cuộc sống hàng ngày mà còn là một nguồn tài nguyên vô tận cho những câu chuyện, cảm xúc và kết nối giữa con người

Sau đây chúng ta sẽ cùng nhau khám phá một phần quan trọng của thế giới hiện đại thông qua việc phân tích dữ liệu trong ứng dụng âm nhạc Chúng ta đều biết rằng âm nhạc không ngừng phát triển và thay đổi theo thời gian, điều này đồng nghĩa với việc dữ liệu liên quan đến âm nhạc cũng trở nên phong phú và đa dạng hơn

Trong buổi phân tích dữ liệu hôm nay, chúng ta sẽ chiêm nghiệm sâu hơn vào thế giới âm nhạc thông qua góc độ số liệu và số liệu thống kê, nhằm hiểu rõ hơn

về xu hướng, sở thích và ảnh hưởng của người nghe.Chúng tôi sẽ cùng nhau đặtcâu hỏi và tìm kiếm câu trả lời từ những con số, từ những dữ liệu mà người nghe để lại khi tương tác với các nền tảng âm nhạc

Cùng với sự phát triển của công nghệ, dữ liệu này không chỉ giúp chúng ta hiểu

rõ hơn về sự phổ biến của các thể loại nhạc mà còn là một công cụ hữu ích để

dự đoán xu hướng tương lai.Hy vọng rằng việc nghiên cứu và sử dụng dữ liệu

âm nhạc sẽ giúp cung cấp thông tin và giá trị cho những người làm về lĩnh vực

âm nhạc để nắm bắt được xu hướng và phát triển hơn trong tương lai

Cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn đối với sự hỗ trợ và hướng dẫn quý báu từ thầy giáo Vũ Minh Hoàng, người đã đồng hành cùng chúng tôi trongviệc tạo ra báo cáo này

Trang 4

CHƯƠNG 1: MỤC ĐÍCH

Mục đích của phân tích dữ liệu âm nhạc không chỉ là việc khám phá sâu hơn vềcác xu hướng và thị trường trong ngành công nghiệp âm nhạc, mà còn là để hiểu

rõ hơn về ảnh hưởng của âm nhạc đối với xã hội và văn hóa Qua việc thu thập,

xử lý và phân tích các dữ liệu liên quan đến âm nhạc, chúng ta có thể đạt đượcnhững mục đích quan trọng sau:

Hiểu sâu về Người Nghe: Phân tích dữ liệu âm nhạc giúp chúng ta nhận biết sởthích và xu hướng nghe nhạc của người nghe Điều này cung cấp thông tin quýbáu về đối tượng mục tiêu, từ đó giúp các nhà sản xuất và nghệ sĩ tạo ra nộidung phù hợp và thu hút

Dự Đoán Xu Hướng: Dữ liệu âm nhạc có thể được sử dụng để dự đoán xuhướng âm nhạc tương lai Bằng cách phân tích sự phổ biến của các thể loại,nghệ sĩ hoặc âm nhạc cụ thể, người quản lý và người làm quyết định trongngành có thể đưa ra chiến lược phát triển và tiếp thị hiệu quả

Tạo Nội Dung Chất Lượng: Hiểu rõ những thành phần âm nhạc được ngườinghe ưa chuộng giúp tạo ra nội dung chất lượng hơn Những quyết định về sảnxuất âm nhạc, lời bài hát và phối hợp âm nhạc có thể dựa trên dữ liệu để đápứng mong muốn và kỳ vọng của khán giả

Nghiên Cứu Văn Hóa: Dữ liệu âm nhạc là một nguồn tài nguyên quý giá đểnghiên cứu văn hóa và xã hội Phân tích sự phát triển của âm nhạc qua thời gian

có thể phản ánh những biến đổi trong tư tưởng, giá trị và xu hướng xã hội

Tối Ưu Hóa Trải Nghiệm Người Nghe: Bằng cách hiểu rõ hơn về thị trường vàngười nghe, các nền tảng âm nhạc có thể tối ưu hóa trải nghiệm người nghe, từgợi ý nội dung đến các tính năng tương tác, để tạo ra một môi trường nghe nhạctốt nhất

Trang 5

CHƯƠNG 2: CÁC CÔNG CỤ SỬ DỤNG

2.1 Ngôn ngữ lập trình pythonA

Python, một ngôn ngữ lập trình đa năng, đã ra đời dưới sự sáng tạo củaGuido van Rossum và chính thức ra mắt vào năm 1991 Từ đó, Python đã nhanhchóng trở thành một trong những ngôn ngữ lập trình phổ biến nhất trên toàncầu, với một cộng đồng lập trình đa dạng và đông đảo Dưới đây, chúng ta sẽđiểm qua một số điểm đáng chú ý về Python:

- Cú Pháp Dễ Đọc: Python được thiết kế với cú pháp sáng sủa và dễ đọc,giống như ngôn ngữ tự nhiên Điều này giúp người mới học lập trình nắm bắtkiến thức một cách nhanh chóng Cú pháp của Python sử dụng dấu tab để xácđịnh các khối code thay vì dấu ngoặc như trong nhiều ngôn ngữ lập trình khác

- Đa Năng: Python có khả năng sử dụng cho nhiều mục đích khác nhau Nóphù hợp cho việc phát triển ứng dụng web, ứng dụng di động, ứng dụng máyhọc, phân tích dữ liệu, và nhiều ứng dụng khác Điều này làm cho Python trởthành một công cụ linh hoạt cho các nhà phát triển

- Thư Viện Phong Phú: Python có một hệ sinh thái thư viện phong phú và

đa dạng Các thư viện như NumPy cho tính toán số học, Pandas cho xử lý dữliệu, Matplotlib cho vẽ biểu đồ, và TensorFlow/PyTorch cho máy học và trí tuệnhân tạo giúp việc phát triển các ứng dụng phức tạp trở nên dễ dàng hơn

- Hỗ Trợ Cộng Đồng: Python có một cộng đồng lớn và nhiệt tình Bất kỳkhiếu nại hay thắc mắc nào có thể được giải quyết thông qua diễn đàn, blog, vàcác nguồn học tập trực tuyến Cộng đồng này thường giúp các lập trình viên giảiquyết vấn đề và chia sẻ kiến thức

- Python đã tỏ ra không chỉ là một ngôn ngữ lập trình mạnh mẽ, mà còn làmột ngôn ngữ thân thiện với người dùng, giúp họ dễ dàng thực hiện các dự án

và nghiên cứu trong nhiều lĩnh vực khác nhau Điều này đã đóng góp một phầnquan trọng vào sự phổ biến và thành công của Python trong cộng đồng lập trìnhtoàn cầu

Trang 6

2.2 Thư viện plotly.express

Plotly Express là một thư viện trực quan hóa dữ liệu mạnh mẽ được phát triểnbởi Plotly, được thiết kế để tạo ra các biểu đồ tương tác và đẹp mắt một cách dễdàng Với cú pháp đơn giản và tích hợp sẵn với pandas DataFrame, PlotlyExpress mang lại trải nghiệm trực quan hóa dữ liệu mượt mà và linh hoạt.Chúng ta sẽ tìm hiểu một số đặc điểm của thư viện:

Biểu Đồ Tương Tác:Plotly Express cho phép tạo ra các biểu đồ tương tác như scatter plots, line charts, bar charts, và heatmap, nơi người dùng có thể tương tác với dữ liệu bằng cách di chuyển chuột, thay đổi loại biểu

Hỗ Trợ Đa Dạng Biểu Đồ:Ngoài các biểu đồ cơ bản, Plotly Express hỗ trợ nhiều loại biểu đồ phức tạp như biểu đồ 3D, choropleth maps, sankey diagrams, và sunburst charts, giúp người sử dụng thỏa sức sáng tạo trong việc hiển thị dữ liệu

Kết Hợp với Plotly:Plotly Express hoàn toàn tương thích với thư viện Plotly, cho phép người sử dụng tùy chỉnh và mở rộng các biểu đồ theo ý muốn bằng cách sử dụng các tính năng mạnh mẽ của Plotly

2.3 Thư viện Matplotlib

Trang 7

Matplotlib, thư viện mã nguồn mở mạnh mẽ cho việc tạo ra đồ họa và biểu

đồ trong Python, là một công cụ quan trọng cho việc trực quan hóa dữ liệu vàphân tích Dưới đây, chúng ta sẽ điểm qua một số điểm quan trọng về thư việnnày:

- Đa Dạng Về Biểu Đồ: Matplotlib cung cấp khả năng tạo ra nhiều loạibiểu đồ khác nhau, bao gồm biểu đồ đường, biểu đồ cột, biểu đồ phân tán, biểu

đồ hình ảnh, biểu đồ 3D, và nhiều loại biểu đồ khác Điều này cho phép bạnhiển thị dữ liệu một cách linh hoạt và thích hợp cho nhiều nguồn dữ liệu khácnhau

- Tích Hợp Với Python: Matplotlib tích hợp tốt với Python và hoạt độngtương thích với nhiều thư viện và framework khác trong hệ sinh thái khoa học

dữ liệu của Python như NumPy, Pandas và SciPy Điều này giúp bạn làm việcvới dữ liệu và tạo biểu đồ dễ dàng

- Linh Hoạt và Tùy Chỉnh: Matplotlib cho phép bạn tùy chỉnh mọi khíacạnh của biểu đồ, từ màu sắc, kích thước, đánh dấu trục, đến tiêu đề và chúthích Điều này giúp bạn tạo ra biểu đồ theo ý muốn và phù hợp với nhu cầu của

dự án

- Khả Năng Xuất Bản: Bạn có thể xuất biểu đồ Matplotlib dưới dạng hìnhảnh chất lượng cao hoặc PDF để sử dụng trong báo cáo, trang web hoặc sách.Biểu đồ tạo ra bằng Matplotlib thích hợp cho mục đích xuất bản và trình bày dữliệu một cách chuyên nghiệp

- Cộng Đồng Lớn và Hỗ Trợ: Matplotlib có một cộng đồng đông đảo vànhiệt tình Bạn có thể tìm kiếm sự hỗ trợ, tài liệu học tập và ví dụ trực tuyến dễdàng khi gặp vấn đề hoặc cần sự hướng dẫn Điều này giúp bạn giải quyết cácthách thức và tận dụng tối đa tiềm năng của Matplotlib

- Matplotlib là một công cụ quan trọng cho việc biểu diễn và trực quan hóa

dữ liệu trong Python, và sự đa dạng, tích hợp dễ dàng và khả năng tùy chỉnh đãlàm cho nó trở thành lựa chọn phổ biến trong cộng đồng khoa học dữ liệu vàphân tích dữ liệu

2.4 Thư viện Seaborn

Seaborn là một thư viện Python mạnh mẽ được xây dựng trên matplotlib, giúp thực hiện việc trực quan hóa dữ liệu một cách đơn giản và hiệu quả Seaborn cung cấp các giao diện cao cấp cho việc vẽ đồ thị thống kê và biểu đồ phân tích

Trang 8

dữ liệu, giúp người sử dụng dễ dàng tạo ra các biểu đồ đẹp mắt và thông tin.Chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này:

- Tích hợp Dữ Liệu: Seaborn hỗ trợ dễ dàng tích hợp với các dạng dữ liệu khác nhau, từ các cấu trúc dữ liệu cơ bản trong Python đến các đối tượng DataFrame trong thư viện Pandas

- Biểu Đồ Thống Kê:Seaborn cung cấp nhiều loại biểu đồ thống kê khác nhau như biểu đồ thanh, biểu đồ điểm, biểu đồ hộp và rất nhiều biểu đồ khác, giúp hiển thị thông tin một cách rõ ràng và dễ hiểu

- Màu Sắc và Phối Màu:Thư viện này cung cấp một loạt các bảng màu và phương pháp tạo màu sắc đồng nhất, giúp tạo ra các biểu đồ có tính thẩm mỹ cao

- Hỗ Trợ Phân Tích Dữ Liệu:Seaborn hỗ trợ nhiều chức năng phân tích dữ liệu như biểu đồ phân tán, biểu đồ quan hệ, và khảo sát sự phân phối của dữ liệu

- Tương Tác với Matplotlib:Seaborn có thể tương tác mạnh mẽ với matplotlib, cho phép người dùng tận dụng các tính năng của cả hai thư viện mộtcách linh hoạt

2.5 Thư viện Pandas

Pandas là một thư viện mã nguồn mở được xây dựng trên ngôn ngữ lập trình Python, được thiết kế để cung cấp cấu trúc dữ liệu và công cụ xử lý dữ liệu mạnh mẽ, linh hoạt và hiệu quả Được phát triển bởi Wes McKinney và ra mắt lần đầu tiên vào năm 2008, Pandas đã trở thành một trong những công cụ chính cho phân tích dữ liệu và xử lý dữ liệu trong cộng đồng khoa học dữ liệu và phântích dữ liệu.Chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này:

- DataFrame và Series:Pandas định nghĩa hai cấu trúc dữ liệu chính là DataFrame và Series DataFrame là một bảng dữ liệu hai chiều với các hàng và cột được đặt tên, trong khi Series là một dạng dữ liệu mảng một chiều kèm theo nhãn

- Xử Lý Dữ Liệu:Pandas cung cấp các công cụ mạnh mẽ để thực hiện các phép xử lý dữ liệu như lọc, sắp xếp, nhóm, và kết hợp dữ liệu Các hàm như

Trang 9

groupby, merge, và concat giúp người dùng dễ dàng thực hiện các thao tác phứctạp trên dữ liệu.

- Thao Tác Dữ Liệu Thiết Yếu:Pandas hỗ trợ các thao tác cơ bản như cắt, cắt đối, thay thế giá trị, và tính toán thống kê một cách thuận tiện, giúp người sửdụng tiết kiệm thời gian và công sức

- Tích Hợp Dữ Liệu:Pandas tương thích tốt với nhiều nguồn dữ liệu khác nhau như SQL, Excel, CSV, và JSON Khả năng đọc và ghi dữ liệu từ và ra các định dạng này giúp người sử dụng dễ dàng tích hợp dữ liệu từ nhiều nguồn khácnhau

- Tích Hợp Với NumPy và Matplotlib:Pandas tích hợp tốt với thư viện NumPy, giúp chuyển đổi giữa các cấu trúc dữ liệu Pandas và NumPy một cách

dễ dàng Ngoài ra, Pandas cũng tương thích tốt với thư viện vẽ đồ thị

Matplotlib, giúp người sử dụng trực quan hóa dữ liệu một cách hiệu quả

Trang 10

CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU

3.1 Nhập các thư viện cần sử dụng và dữ liệuA

3.2 Thu thập dữ liệu

Sử dụng link này để lấy data:

https://drive.google.com/drive/folders/1QC08DrzaJuAmAkzq_Yo_Oix4dT3WjA91?usp=drive_link

Trang 11

3.3 Tổng quan về dữ liệu

+ Unnamed: Số thứ tự

+ Popularity: Mức độ phổ biến+ Year: Năm

Trang 12

Thời gian :

3.3 Xử lý dữ liệu

Kiểm tra các dòng có bị thiếu dữ liệu không

Trang 13

Trùng lặp

Kiểm tra các giá trị trong cùng một cột có cùng kiểu với nhau hay không

Trang 14

Hiển thị số liệu thống kê tóm tắt

Trang 15

CHƯƠNG 4: XÂY DỰNG GIẢ THUYẾT VÀ KIỂM ĐỊNH GIẢ

THUYẾT Giả thuyết 1 : Thể loại nhạc thịnh hành thay đổi qua các năm

Số lượng bài hát được ra các năm:

Năm có số bài hát được ra ít nhất là năm 2009

Năm có số bài hát được ra nhiều nhất là năm 2018

Hầu hết các năm đều có hơn 40k bài hát, có 3 năm số lượng bài hát ít hơn 40k là

2009, 2016, 2023

Trang 16

Từ năm 2000 -> 2009

Top 3 thể loại nhạc thịnh hành: ambient, gospel,black-metalThể loại nhạc thịnh hành nhất là : ambient

Từ năm 20010 -> 2014:

Trang 17

Top 3 thể loại nhạc thịnh hành: comedy, black-metal, ambient

Thể loại nhạc thịnh hành nhất là comedy

Từ năm 2015 -> 2023:

Top 3 thể loại nhạc thịnh hành: black-metal, chill, ambient

Thể loại nhạc thịnh hành nhất là black-metal

KẾT LUẬN: GIẢ THUYẾT ĐÚNG

Giả thuyết 2 : Cứ mỗi 5 năm, thể loại nhạc Gospel lại đứng top 1 thịnh hành một lần

Từ năm 2000 - 2004:

Trang 18

Thể loại nhạc Gospel đứng top 2

Từ năm 2005 - 2010:

Trang 19

Thể loại Gospel đứng thứ 3

Từ năm 2011-2015:

Thể loại gospel đứng top 5

Từ năm 2016-2020:

Trang 20

Thể loại gospel đứng top 8

KẾT LUẬN: GIẢ THUYẾT SAI

Giả thuyết 3: Giả thuyết trung bình độ phổ biến

âm nhạc tăng dần đều theo các năm từ năm 2012 đến 2020

Trang 21

Theo như ta quan sát số lượng bài từ năm 2012 đến năm 2022 không đồng đều các năm sau có xu hướng giảm hơn so với năm trước

Trang 22

Nhưng về mức độ phổ biến từ năm 2012 đến năm 2022 thì có hướng tăng theo biểu đồ ta thấy:

- Năm có % trung bình độ phổ biến thấp nhất là năm 2012 với 8.4%

- Năm có % trung bình độ phổ biến cao nhất là năm 2022 với 13.6%

Trang 23

Giải thích: Do áp dụng công nghệ 4.0 vào đời sống ngày càng nhiều và số người tiếp cận với dụng nghe nhạc ngày càng tăng mặc dù số lượng bài hát ra đời qua các năm tăng giảm không đáng kể nhưng độ phổ biến của nó ngày càng tăng.

KẾT LUẬN: GIẢ THUYẾT ĐÚNG

Trang 24

Giả thuyết 4: Deep-house sẽ vương lên vị trí số 1 trong vòng 5 năm tới (2018 - 2023)

Trang 26

Giả Thuyết 5: Covid ảnh hưởng đến nền âm nhạc

Số lượng âm nhạc tăng dần qua các năm

- Năm với các bài hát cao nhất được phát hành: 2018

- Năm với các bản nhạc thấp nhất được phát hành: 2009

Trang 27

Ta có thể thấy được nền âm nhạc có sự phát triển mạnh mẽ nhất vào giai đoạn 2018-2019, tuy nhiên, do ảnh hưởng của đại dịch COVID-19, ngành công nghiệp âm nhạc đã phải đối mặt với nhiều khó khăn Sự tụt lùi này là kết quả của ảnh hưởng đến quá trình sản xuất âm nhạc, hủy bỏ hoặc hoãn các sự kiện

âm nhạc, và thay đổi mô hình biểu diễn Điều này đã tạo ra một bức tranh khó khăn hơn cho ngành công nghiệp âm nhạc, với nhiều nghệ sĩ và tổ chức sự kiện phải điều chỉnh để đối mặt với thách thức của thời kỳ khẩn cấp lúc đó

KẾT LUẬN: GIẢ THUYẾT ĐÚNG

Trang 28

CHƯƠNG 4 KẾT LUẬN

Trong hành trình phân tích dữ liệu âm nhạc, chúng ta đã có cơ hội khám phá sâuhơn vào thế giới đa dạng và phong phú của ngành công nghiệp âm nhạc hiện đại Dữ liệu không chỉ là số liệu và con số mà còn là những câu chuyện, cảm xúc và sự kết nối giữa người nghe và nghệ sĩ

Chúng ta đã nhận thức được tầm ảnh hưởng của âm nhạc đối với xã hội và văn hóa, từ những xu hướng thị trường đến những biến đổi sâu sắc trong tư tưởng vàgiá trị Dữ liệu âm nhạc không chỉ là công cụ hữu ích cho những nhà sản xuất

và nghệ sĩ mà còn là nguồn tài nguyên quý giá cho những nhà nghiên cứu và người yêu âm nhạc

Qua những con số, chúng ta đã thấy những biểu hiện rõ ràng của sự đa dạng trong sở thích nghe nhạc và sự thay đổi trong ưa chuộng các thể loại âm nhạc

Từ đó, chúng ta có thể dự đoán xu hướng tương lai, giúp cho ngành công nghiệp

âm nhạc chuẩn bị và phát triển theo hướng tích cực

Cuối cùng, việc tận dụng dữ liệu âm nhạc không chỉ là về việc tối ưu hóa doanh nghiệp, mà còn là về việc tạo ra trải nghiệm nghe nhạc tốt nhất cho người nghe Bằng cách hiểu rõ người nghe và đáp ứng đúng nhu cầu của họ, chúng ta có thể xây dựng một cộng đồng âm nhạc mạnh mẽ và đa dạng

Một lần nữa chúng tôi xin cảm ơn và biết ơn đối với sự hỗ trợ và hướng dẫn quýbáu từ thầy giáo Vũ Minh Hoàng, người đã giúp đỡ chúng tôi trong môn Dữ Liệu Lơn

Ngày đăng: 01/05/2024, 21:37

TỪ KHÓA LIÊN QUAN

w