báo cáo bài tập lớn môn big data

28 0 0
Tài liệu đã được kiểm tra trùng lặp
báo cáo bài tập lớn môn big data

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Cùng với sự phát triển của công nghệ, dữ liệu này không chỉ giúp chúng ta hiểu rõ hơn về sự phổ biến của các thể loại nhạc mà còn là một công cụ hữu ích để dự đoán xu hướng tương lai.Hy

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC THĂNG LONG

BÁO CÁO BÀI TẬP LỚN MÔNBIG DATA

(Học kỳ II nhóm 2 năm học 2023 – 2024)

GIÁO VIÊN HƯỚNG DẪN

Vũ Minh Hoàng

SINH VIÊN THỰC HIỆN

A42354 Chu Anh Tùng A43933 Ngô Quang Hạnh

A40951 Nguyễn Duy Lĩnh

A43742 Trương Đức Bảo A38506 Nguyễn Bảo Việt

A43664 Trịnh Đức Toàn

Trang 2

2.2 Thư viện plotly.express 4

2.3 Thư viện Matplotlib 5

2.4 Thư viện Seaborn 6

2.5 Thư viện Pandas 7

Chương 3: Phân Tích dữ Liệu 8

3.1 Nhập các thư viện cần sử dụng và dữ liệu 8

3.2 Thu thập dữ liệu 8

3.3 Tổng quan về dữ liệu 8

3.3 Xử lý dữ liệu 9

Chương 4: Xây dựng giả thuyết và kiểm định giả thuyết 9

Giả thuyết 1 : Thể loại nhạc thịnh hành thay đổi qua các năm9 Số lượng bài hát được ra các năm: 9

Giả thuyết 2 : Cứ mỗi 5 năm, thể loại nhạc Gospel lại đứng top 1 thịnh hành một lần 11

Giả thuyết 3: Giả thuyết trung bình độ phổ biến âm nhạc tăng dần đều theo các năm từ năm 2012 đến 2020 14

Giả thuyết 4: Deep-house sẽ vương lên vị trí số 1 trong vòng 5 năm tới (2018 - 2023) 18

Trang 3

Giả Thuyết 5: 20 CHƯƠNG 4 KẾT LUẬN 20

LỜI MỞ ĐẦU

Âm nhạc không chỉ là một phần không thể thiếu trong cuộc sống hàng ngày mà còn là một nguồn tài nguyên vô tận cho những câu chuyện, cảm xúc và kết nối giữa con người.

Sau đây chúng ta sẽ cùng nhau khám phá một phần quan trọng của thế giới hiện đại thông qua việc phân tích dữ liệu trong ứng dụng âm nhạc Chúng ta đều biết rằng âm nhạc không ngừng phát triển và thay đổi theo thời gian, điều này đồng nghĩa với việc dữ liệu liên quan đến âm nhạc cũng trở nên phong phú và đa dạng hơn

Trong buổi phân tích dữ liệu hôm nay, chúng ta sẽ chiêm nghiệm sâu hơn vào thế giới âm nhạc thông qua góc độ số liệu và số liệu thống kê, nhằm hiểu rõ hơn về xu hướng, sở thích và ảnh hưởng của người nghe.Chúng tôi sẽ cùng nhau đặt câu hỏi và tìm kiếm câu trả lời từ những con số, từ những dữ liệu mà người nghe để lại khi tương tác với các nền tảng âm nhạc

Cùng với sự phát triển của công nghệ, dữ liệu này không chỉ giúp chúng ta hiểu rõ hơn về sự phổ biến của các thể loại nhạc mà còn là một công cụ hữu ích để dự đoán xu hướng tương lai.Hy vọng rằng việc nghiên cứu và sử dụng dữ liệu âm nhạc sẽ giúp cung cấp thông tin và giá trị cho những người làm về lĩnh vực âm nhạc để nắm bắt được xu hướng và phát triển hơn trong tương lai.

Cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn đối với sự hỗ trợ và hướng dẫn quý báu từ thầy giáo Vũ Minh Hoàng, người đã đồng hành cùng chúng tôi trong việc tạo ra báo cáo này.

Trang 4

CHƯƠNG 1: MỤC ĐÍCH

Mục đích của phân tích dữ liệu âm nhạc không chỉ là việc khám phá sâu hơn về các xu hướng và thị trường trong ngành công nghiệp âm nhạc, mà còn là để hiểu rõ hơn về ảnh hưởng của âm nhạc đối với xã hội và văn hóa Qua việc thu thập, xử lý và phân tích các dữ liệu liên quan đến âm nhạc, chúng ta có thể đạt được những mục đích quan trọng sau:

Hiểu sâu về Người Nghe: Phân tích dữ liệu âm nhạc giúp chúng ta nhận biết sở thích và xu hướng nghe nhạc của người nghe Điều này cung cấp thông tin quý báu về đối tượng mục tiêu, từ đó giúp các nhà sản xuất và nghệ sĩ tạo ra nội dung phù hợp và thu hút.

Dự Đoán Xu Hướng: Dữ liệu âm nhạc có thể được sử dụng để dự đoán xu hướng âm nhạc tương lai Bằng cách phân tích sự phổ biến của các thể loại, nghệ sĩ hoặc âm nhạc cụ thể, người quản lý và người làm quyết định trong ngành có thể đưa ra chiến lược phát triển và tiếp thị hiệu quả.

Tạo Nội Dung Chất Lượng: Hiểu rõ những thành phần âm nhạc được người nghe ưa chuộng giúp tạo ra nội dung chất lượng hơn Những quyết định về sản xuất âm nhạc, lời bài hát và phối hợp âm nhạc có thể dựa trên dữ liệu để đáp ứng mong muốn và kỳ vọng của khán giả.

Nghiên Cứu Văn Hóa: Dữ liệu âm nhạc là một nguồn tài nguyên quý giá để nghiên cứu văn hóa và xã hội Phân tích sự phát triển của âm nhạc qua thời gian có thể phản ánh những biến đổi trong tư tưởng, giá trị và xu hướng xã hội.

Tối Ưu Hóa Trải Nghiệm Người Nghe: Bằng cách hiểu rõ hơn về thị trường và người nghe, các nền tảng âm nhạc có thể tối ưu hóa trải nghiệm người nghe, từ gợi ý nội dung đến các tính năng tương tác, để tạo ra một môi trường nghe nhạc tốt nhất.

Trang 5

CHƯƠNG 2: CÁC CÔNG CỤ SỬ DỤNG2.1 Ngôn ngữ lập trình pythonA

Python, một ngôn ngữ lập trình đa năng, đã ra đời dưới sự sáng tạo của Guido van Rossum và chính thức ra mắt vào năm 1991 Từ đó, Python đã nhanh chóng trở thành một trong những ngôn ngữ lập trình phổ biến nhất trên toàn cầu, với một cộng đồng lập trình đa dạng và đông đảo Dưới đây, chúng ta sẽ điểm qua một số điểm đáng chú ý về Python:

- Cú Pháp Dễ Đọc: Python được thiết kế với cú pháp sáng sủa và dễ đọc, giống như ngôn ngữ tự nhiên Điều này giúp người mới học lập trình nắm bắt kiến thức một cách nhanh chóng Cú pháp của Python sử dụng dấu tab để xác định các khối code thay vì dấu ngoặc như trong nhiều ngôn ngữ lập trình khác - Đa Năng: Python có khả năng sử dụng cho nhiều mục đích khác nhau Nó phù hợp cho việc phát triển ứng dụng web, ứng dụng di động, ứng dụng máy học, phân tích dữ liệu, và nhiều ứng dụng khác Điều này làm cho Python trở thành một công cụ linh hoạt cho các nhà phát triển.

- Thư Viện Phong Phú: Python có một hệ sinh thái thư viện phong phú và đa dạng Các thư viện như NumPy cho tính toán số học, Pandas cho xử lý dữ liệu, Matplotlib cho vẽ biểu đồ, và TensorFlow/PyTorch cho máy học và trí tuệ nhân tạo giúp việc phát triển các ứng dụng phức tạp trở nên dễ dàng hơn - Hỗ Trợ Cộng Đồng: Python có một cộng đồng lớn và nhiệt tình Bất kỳ khiếu nại hay thắc mắc nào có thể được giải quyết thông qua diễn đàn, blog, và các nguồn học tập trực tuyến Cộng đồng này thường giúp các lập trình viên giải quyết vấn đề và chia sẻ kiến thức.

- Python đã tỏ ra không chỉ là một ngôn ngữ lập trình mạnh mẽ, mà còn là một ngôn ngữ thân thiện với người dùng, giúp họ dễ dàng thực hiện các dự án và nghiên cứu trong nhiều lĩnh vực khác nhau Điều này đã đóng góp một phần quan trọng vào sự phổ biến và thành công của Python trong cộng đồng lập trình toàn cầu.

Trang 6

2.2 Thư viện plotly.express

Plotly Express là một thư viện trực quan hóa dữ liệu mạnh mẽ được phát triển bởi Plotly, được thiết kế để tạo ra các biểu đồ tương tác và đẹp mắt một cách dễ dàng Với cú pháp đơn giản và tích hợp sẵn với pandas DataFrame, Plotly Express mang lại trải nghiệm trực quan hóa dữ liệu mượt mà và linh hoạt Chúng ta sẽ tìm hiểu một số đặc điểm của thư viện:

Biểu Đồ Tương Tác:Plotly Express cho phép tạo ra các biểu đồ tương tác như scatter plots, line charts, bar charts, và heatmap, nơi người dùng có thể tương tác với dữ liệu bằng cách di chuyển chuột, thay đổi loại biểu đồ, và thu phóng một cách dễ dàng.

Cú Pháp Đơn Giản:Với cú pháp ngắn gọn và sáng tạo, người sử dụng có thể tạo ra các biểu đồ phức tạp chỉ trong một vài dòng mã Plotly Express tự động xác định loại biểu đồ phù hợp dựa trên dữ liệu đầu vào, giảm độ phức tạp cho người sử dụng.

Tương Thích với DataFrame:Plotly Express tích hợp mạnh mẽ với pandas DataFrame, cho phép người dùng trực tiếp sử dụng DataFrame để vẽ biểu đồ mà không cần chuẩn bị dữ liệu nhiều.

Hỗ Trợ Đa Dạng Biểu Đồ:Ngoài các biểu đồ cơ bản, Plotly Express hỗ trợ nhiều loại biểu đồ phức tạp như biểu đồ 3D, choropleth maps, sankey diagrams, và sunburst charts, giúp người sử dụng thỏa sức sáng tạo trong việc hiển thị dữ liệu.

Kết Hợp với Plotly:Plotly Express hoàn toàn tương thích với thư viện Plotly, cho phép người sử dụng tùy chỉnh và mở rộng các biểu đồ theo ý muốn bằng cách sử dụng các tính năng mạnh mẽ của Plotly.

2.3 Thư viện Matplotlib

Trang 7

Matplotlib, thư viện mã nguồn mở mạnh mẽ cho việc tạo ra đồ họa và biểu đồ trong Python, là một công cụ quan trọng cho việc trực quan hóa dữ liệu và phân tích Dưới đây, chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này:

- Đa Dạng Về Biểu Đồ: Matplotlib cung cấp khả năng tạo ra nhiều loại biểu đồ khác nhau, bao gồm biểu đồ đường, biểu đồ cột, biểu đồ phân tán, biểu đồ hình ảnh, biểu đồ 3D, và nhiều loại biểu đồ khác Điều này cho phép bạn hiển thị dữ liệu một cách linh hoạt và thích hợp cho nhiều nguồn dữ liệu khác nhau.

- Tích Hợp Với Python: Matplotlib tích hợp tốt với Python và hoạt động tương thích với nhiều thư viện và framework khác trong hệ sinh thái khoa học dữ liệu của Python như NumPy, Pandas và SciPy Điều này giúp bạn làm việc với dữ liệu và tạo biểu đồ dễ dàng.

- Linh Hoạt và Tùy Chỉnh: Matplotlib cho phép bạn tùy chỉnh mọi khía cạnh của biểu đồ, từ màu sắc, kích thước, đánh dấu trục, đến tiêu đề và chú thích Điều này giúp bạn tạo ra biểu đồ theo ý muốn và phù hợp với nhu cầu của dự án.

- Khả Năng Xuất Bản: Bạn có thể xuất biểu đồ Matplotlib dưới dạng hình ảnh chất lượng cao hoặc PDF để sử dụng trong báo cáo, trang web hoặc sách Biểu đồ tạo ra bằng Matplotlib thích hợp cho mục đích xuất bản và trình bày dữ liệu một cách chuyên nghiệp.

- Cộng Đồng Lớn và Hỗ Trợ: Matplotlib có một cộng đồng đông đảo và nhiệt tình Bạn có thể tìm kiếm sự hỗ trợ, tài liệu học tập và ví dụ trực tuyến dễ dàng khi gặp vấn đề hoặc cần sự hướng dẫn Điều này giúp bạn giải quyết các thách thức và tận dụng tối đa tiềm năng của Matplotlib.

- Matplotlib là một công cụ quan trọng cho việc biểu diễn và trực quan hóa dữ liệu trong Python, và sự đa dạng, tích hợp dễ dàng và khả năng tùy chỉnh đã làm cho nó trở thành lựa chọn phổ biến trong cộng đồng khoa học dữ liệu và phân tích dữ liệu.

2.4 Thư viện Seaborn

Seaborn là một thư viện Python mạnh mẽ được xây dựng trên matplotlib, giúp thực hiện việc trực quan hóa dữ liệu một cách đơn giản và hiệu quả Seaborn cung cấp các giao diện cao cấp cho việc vẽ đồ thị thống kê và biểu đồ phân tích

Trang 8

dữ liệu, giúp người sử dụng dễ dàng tạo ra các biểu đồ đẹp mắt và thông tin.Chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này:

- Tích hợp Dữ Liệu: Seaborn hỗ trợ dễ dàng tích hợp với các dạng dữ liệu khác nhau, từ các cấu trúc dữ liệu cơ bản trong Python đến các đối tượng DataFrame trong thư viện Pandas.

- Biểu Đồ Thống Kê:Seaborn cung cấp nhiều loại biểu đồ thống kê khác nhau như biểu đồ thanh, biểu đồ điểm, biểu đồ hộp và rất nhiều biểu đồ khác, giúp hiển thị thông tin một cách rõ ràng và dễ hiểu.

- Màu Sắc và Phối Màu:Thư viện này cung cấp một loạt các bảng màu và phương pháp tạo màu sắc đồng nhất, giúp tạo ra các biểu đồ có tính thẩm mỹ cao.

- Hỗ Trợ Phân Tích Dữ Liệu:Seaborn hỗ trợ nhiều chức năng phân tích dữ liệu như biểu đồ phân tán, biểu đồ quan hệ, và khảo sát sự phân phối của dữ liệu.

- Tương Tác với Matplotlib:Seaborn có thể tương tác mạnh mẽ với matplotlib, cho phép người dùng tận dụng các tính năng của cả hai thư viện một cách linh hoạt.

2.5 Thư viện Pandas

Pandas là một thư viện mã nguồn mở được xây dựng trên ngôn ngữ lập trình Python, được thiết kế để cung cấp cấu trúc dữ liệu và công cụ xử lý dữ liệu mạnh mẽ, linh hoạt và hiệu quả Được phát triển bởi Wes McKinney và ra mắt lần đầu tiên vào năm 2008, Pandas đã trở thành một trong những công cụ chính cho phân tích dữ liệu và xử lý dữ liệu trong cộng đồng khoa học dữ liệu và phân tích dữ liệu.Chúng ta sẽ điểm qua một số điểm quan trọng về thư viện này: - DataFrame và Series:Pandas định nghĩa hai cấu trúc dữ liệu chính là DataFrame và Series DataFrame là một bảng dữ liệu hai chiều với các hàng và cột được đặt tên, trong khi Series là một dạng dữ liệu mảng một chiều kèm theo nhãn.

- Xử Lý Dữ Liệu:Pandas cung cấp các công cụ mạnh mẽ để thực hiện các phép xử lý dữ liệu như lọc, sắp xếp, nhóm, và kết hợp dữ liệu Các hàm như

Trang 9

groupby, merge, và concat giúp người dùng dễ dàng thực hiện các thao tác phức tạp trên dữ liệu.

- Thao Tác Dữ Liệu Thiết Yếu:Pandas hỗ trợ các thao tác cơ bản như cắt, cắt đối, thay thế giá trị, và tính toán thống kê một cách thuận tiện, giúp người sử dụng tiết kiệm thời gian và công sức.

- Tích Hợp Dữ Liệu:Pandas tương thích tốt với nhiều nguồn dữ liệu khác nhau như SQL, Excel, CSV, và JSON Khả năng đọc và ghi dữ liệu từ và ra các định dạng này giúp người sử dụng dễ dàng tích hợp dữ liệu từ nhiều nguồn khác nhau.

- Tích Hợp Với NumPy và Matplotlib:Pandas tích hợp tốt với thư viện NumPy, giúp chuyển đổi giữa các cấu trúc dữ liệu Pandas và NumPy một cách dễ dàng Ngoài ra, Pandas cũng tương thích tốt với thư viện vẽ đồ thị Matplotlib, giúp người sử dụng trực quan hóa dữ liệu một cách hiệu quả.

Trang 10

CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU

3.1 Nhập các thư viện cần sử dụng và dữ liệuA

3.2 Thu thập dữ liệu

Sử dụng link này để lấy data:

https://drive.google.com/drive/folders/1QC08DrzaJuAmAkzq_Yo_ Oix4dT3WjA91?usp=drive_link

Trang 12

Thời gian :

3.3 Xử lý dữ liệu

Kiểm tra các dòng có bị thiếu dữ liệu không

Trang 13

Trùng lặp

Kiểm tra các giá trị trong cùng một cột có cùng kiểu với nhau hay không

Trang 14

Hiển thị số liệu thống kê tóm tắt

Trang 15

CHƯƠNG 4: XÂY DỰNG GIẢ THUYẾT VÀ KIỂM ĐỊNH GIẢTHUYẾT

Giả thuyết 1 : Thể loại nhạc thịnh hành thay đổi qua các năm

Số lượng bài hát được ra các năm:

Năm có số bài hát được ra ít nhất là năm 2009 Năm có số bài hát được ra nhiều nhất là năm 2018

Hầu hết các năm đều có hơn 40k bài hát, có 3 năm số lượng bài hát ít hơn 40k là 2009, 2016, 2023

Trang 16

Từ năm 2000 -> 2009

Top 3 thể loại nhạc thịnh hành: ambient, gospel,black-metal Thể loại nhạc thịnh hành nhất là : ambient

Từ năm 20010 -> 2014:

Trang 17

Top 3 thể loại nhạc thịnh hành: comedy, black-metal, ambient Thể loại nhạc thịnh hành nhất là comedy

Từ năm 2015 -> 2023:

Top 3 thể loại nhạc thịnh hành: black-metal, chill, ambient Thể loại nhạc thịnh hành nhất là black-metal

KẾT LUẬN: GIẢ THUYẾT ĐÚNG

Giả thuyết 2 : Cứ mỗi 5 năm, thể loại nhạc Gospellại đứng top 1 thịnh hành một lần

Từ năm 2000 - 2004:

Trang 18

Thể loại nhạc Gospel đứng top 2

Từ năm 2005 - 2010:

Trang 19

Thể loại Gospel đứng thứ 3

Từ năm 2011-2015:

Thể loại gospel đứng top 5

Từ năm 2016-2020:

Trang 20

Thể loại gospel đứng top 8

KẾT LUẬN: GIẢ THUYẾT SAI

Giả thuyết 3: Giả thuyết trung bình độ phổ biến âm nhạc tăng dần đều theo các năm từ năm 2012đến 2020

Trang 21

Theo như ta quan sát số lượng bài từ năm 2012 đến năm 2022 không đồng đều các năm sau có xu hướng giảm hơn so với năm trước

Trang 22

Nhưng về mức độ phổ biến từ năm 2012 đến năm 2022 thì có hướng tăng theo biểu đồ ta thấy:

- Năm có % trung bình độ phổ biến thấp nhất là năm 2012 với 8.4% - Năm có % trung bình độ phổ biến cao nhất là năm 2022 với 13.6%

Trang 23

Giải thích: Do áp dụng công nghệ 4.0 vào đời sống ngày càng nhiều và số người tiếp cận với dụng nghe nhạc ngày càng tăng mặc dù số lượng bài hát ra đời qua các năm tăng giảm không đáng kể nhưng độ phổ biến của nó ngày càng tăng.

KẾT LUẬN: GIẢ THUYẾT ĐÚNG

Trang 24

Giả thuyết 4: Deep-house sẽ vương lên vị trí số 1 trong vòng 5 năm tới (2018 - 2023)

Trang 25

Deep-house có Danceability là 0.73 Chicago-house có Danceability là 0.77 Nhận xét:

- Cả 2 đều có xu hướng giảm nhưng Top 1 vẫn là chicago-house và deep-house đã bị đẩy xuống vị trí thứ 4 trên bảng xếp hạng.

- Deep-house không còn được ưa chuộng thay vào đó là detroit-techno và hip-hop đã thu hút được mọi người trong các năm (2018 - 2023)

KẾT LUẬN: GIẢ THUYẾT SAI

Trang 26

Giả Thuyết 5: Covid ảnh hưởng đến nền âm nhạc

Số lượng âm nhạc tăng dần qua các năm - Năm với các bài hát cao nhất được phát hành: 2018 - Năm với các bản nhạc thấp nhất được phát hành: 2009

Trang 27

Ta có thể thấy được nền âm nhạc có sự phát triển mạnh mẽ nhất vào giai đoạn 2018-2019, tuy nhiên, do ảnh hưởng của đại dịch COVID-19, ngành công nghiệp âm nhạc đã phải đối mặt với nhiều khó khăn Sự tụt lùi này là kết quả của ảnh hưởng đến quá trình sản xuất âm nhạc, hủy bỏ hoặc hoãn các sự kiện âm nhạc, và thay đổi mô hình biểu diễn Điều này đã tạo ra một bức tranh khó khăn hơn cho ngành công nghiệp âm nhạc, với nhiều nghệ sĩ và tổ chức sự kiện phải điều chỉnh để đối mặt với thách thức của thời kỳ khẩn cấp lúc đó.

KẾT LUẬN: GIẢ THUYẾT ĐÚNG

Ngày đăng: 01/05/2024, 21:37

Tài liệu cùng người dùng

Tài liệu liên quan