TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNHKHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CHUYÊN NGÀNH PHÂN TÍCH THỊ TRƯỜNG ÂM NHẠC TRÊN NỀN TẢNG SPOTIFY Giảng viên hướng dẫn : Ths.SỬ NHẬT HẠ Sinh viên thực hiện
Trang 1TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN CHUYÊN NGÀNH PHÂN TÍCH THỊ TRƯỜNG ÂM NHẠC TRÊN NỀN
TẢNG SPOTIFY
Giảng viên hướng dẫn : Ths.SỬ NHẬT HẠ
Sinh viên thực hiện : TÔ BẢO TRÂN
MSSV : 2000001020
Khoá : 2020
Ngành/ chuyên ngành : CÔNG NGHỆ KHOA HỌC DỮ LIỆU
Tp HCM, tháng … năm …
Trang 2TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN CHUYÊN NGÀNH PHÂN TÍCH THỊ TRƯỜNG ÂM NHẠC TRÊN NỀN
TẢNG SPOTIFYGiảng viên hướng dẫn : Ths SỬ NHẬT HẠ
Sinh viên thực hiện : NGÔ DƯƠNG THÚY VY
Trang 3LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến giảng viên SỬ NHẬT HẠ- thầy phụtrách hướng dẫn bộ môn “công nghệ khoa học dữ liệu ” đã giúp đỡ em rất nhiều trong quátrình lựa chọn cũng như là giải đáp các vấn đề đồ án để em có thể hoàn thành một cáchhoàn thiện nhất
Tuy trong quá trình thực hiện đồ án còn có một vài khó khăn nhưng mai mắn là có bạncùng nhóm san sẻ khối lượng công việc nên một phần nào đó cũng được giải quyết.Cảm ơn thầy đã tạo điều kiện tốt nhất cho em thực hiện đồ án, em mong nhận được sựquan tâm và những ý kiến của thầy để em có thể rút ra được những kinh nghiệm tốt hơncho những đồ án sau nữa
Trân trọng cảm ơn!
1
Trang 4TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
TRUNG TÂM KHẢO THÍ
KỲ THI KẾT THÚC HỌC PHẦN
HỌC KỲ … … NĂM HỌC …… - ….…
PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi:Công nghệ khoa học dữ liệu Lớp học phần:
Nhóm sinh viên thực hiện :
1.Ngô Dương Thúy Vy Tham gia đóng góp:20%
2.Lương Thị Yến Nhi Tham gia đóng góp:20%
3 Quan Nguyễn Thanh Trúc Tham gia đóng góp:20%
4 Phạm Thị Kim Ngân Tham gia đóng góp:20%
5.Tô Bảo Trân Tham gia đóng góp:20%
Ngày thi: Phòng thi:
Đề tài tiểu luận/báo cáo của sinh viên :
Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học): Giảng viên chấm thi (ký, ghi rõ họ tên) MỤC LỤC CHƯƠNG I TỔNG QUAN ĐỀ TÀI 5
2 BM-ChT-Tiêu chí (theo CĐR HP) Đánh giá của GV Điểm tối đa Điểm đạt được Cấu trúc của báo cáo
Nội dung - Các nội dung thành phần
- Lập luận
- Kết luận
Trình bày
TỔNG ĐIỂM
Trang 51.1 Lý do chọn đề tài 5
1.2 Mục tiêu của đề tài 5
1.3 Công nghệ áp dụng 6
1.3.1 Google colaboratory là gì? 6
1.3.2 Sử dụng google colab như thế nào? 7
1.3.3 Thư viện Pandas 7
1.3.4 Thư viện Scikit-learn 7
1.3.5 Thư viện Numpy 8
1.3.6 Thư viện Matplotlib 8
CHƯƠNG II CƠ SỞ LÝ THUYẾT 9
2.Trực quan hóa dữ liệu 9
2.1.Trực quan hóa dữ liệu là gì? 9
CHƯƠNG III THỰC NGHIỆM 20
3 PHÂN TÍCH THỊ TRƯỜNG ÂM NHẠC TRÊN NỀN TẢNG SPOTIFY .20 HEATMAP 20
CHƯƠNG 4: KẾT LUẬN 29
DANH MỤC TÀI LIỆU THAM KHẢO 30
3
Trang 6DANH MỤC HÌNH
Hình 1………8
Hình 2………12
Hình 3………13
Hình 4………14
Hình 5………15
Hình 6………16
Hình 7………16
Hình 8………18
Hình 9………19
Hình 10……… 22
Hình 11……… 23
Hình 12……… 24
Hình 13……… 25
Hình 14……… 26
Hình 15……… 28
Hình 16……… 29
4
Trang 7CHƯƠNG I TỔNG QUAN ĐỀ TÀI1.1 Lý do chọn đề tài
Sự Phổ Biến Của Spotify: Spotify là một trong những dịch vụ phát nhạc trực tuyếnphổ biến và được sử dụng rộng rãi trên toàn thế giới Việc phân tích dữ liệu trên nền tảngnày có thể mang lại những thông tin quý báu về sở thích và hành vi người nghe
Dữ Liệu Lớn: Spotify tích hợp một lượng lớn dữ liệu về bài hát, nghệ sĩ, thể loại,người nghe, và nhiều thông tin khác Điều này tạo cơ hội để thực hiện phân tích sâu hơn
để hiểu biết về thị trường âm nhạc
Hiểu Về Sự Ưa Chuộng: Phân tích dữ liệu trên Spotify có thể giúp bạn hiểu rõ hơn
về các thể loại âm nhạc, bài hát, và nghệ sĩ được yêu thích nhất Điều này có thể hỗ trợtrong việc tạo ra nội dung âm nhạc hấp dẫn và quảng cáo hiệu quả
Dự Đoán Tendencies: Dựa trên dữ liệu trên Spotify, bạn có thể dự đoán các xuhướng âm nhạc, dự báo những thay đổi trong sở thích của người nghe, và làm quyết định
về việc sản xuất hoặc quảng cáo âm nhạc
Phân Tích Thị Trường và Đối Thủ: Dữ liệu từ Spotify có thể giúp bạn phân tích thịtrường âm nhạc và tìm hiểu về đối thủ cạnh tranh Bạn có thể xác định các thể loại nổibật, phân phối đối thủ, và các điểm mạnh, yếu của thị trường
Ứng Dụng Thực Tế Rộng Rãi: Kiến thức từ việc phân tích thị trường âm nhạc trênSpotify có thể được áp dụng trong nhiều lĩnh vực như sản xuất âm nhạc, tiếp thị, quảngcáo, dự đoán xu hướng, và quản lý ngành công nghiệp âm nhạc
Tóm lại, đề tài "Phân tích thị trường âm nhạc trên nền tảng Spotify" có tiềm năngmang lại nhiều thông tin quan trọng về thị trường âm nhạc và sự ưa chuộng của ngườinghe, từ đó hỗ trợ trong việc đưa ra quyết định và chiến lược trong ngành công nghiệp âmnhạc
1.2 Mục tiêu của đề tài
Mục tiêu của đề tài "Phân tích thị trường âm nhạc trên nền tảng Spotify" nằm trongviệc tìm hiểu và khám phá các khía cạnh quan trọng của thị trường âm nhạc thông qua dữ liệu từ một trong những dịch vụ phát nhạc trực tuyến phổ biến nhất - Spotify Điều này đòi hỏi một quá trình nghiên cứu cận thị và phân tích sâu hơn để khám phá, hiểu rõ và trình bày những thông tin có giá trị cho ngành công nghiệp âm nhạc và cả người nghe
5
Trang 8Mục tiêu của dự án này không chỉ dừng lại ở việc thống kê và phân tích dữ liệu, màcòn đi xa hơn bằng việc đặt ra các mục tiêu cụ thể như sau:
Xác Định Các Thể Loại Phổ Biến: Phân tích dữ liệu trên Spotify để xác định nhữngthể loại âm nhạc phổ biến nhất trong thị trường nghe nhạc hiện nay Điều này giúp nhậnbiết được sở thích của đại chúng và hướng dẫn trong việc sản xuất và quảng cáo âm nhạc
Dự Đoán Xu Hướng Âm Nhạc: Sử dụng dữ liệu về xu hướng thay đổi của thị trường
âm nhạc để dự đoán các xu hướng âm nhạc tiềm năng trong tương lai Điều này có thể hỗtrợ trong việc phát triển âm nhạc mới và tạo ra nội dung phù hợp với sự thay đổi của sởthích người nghe
Phân Tích Mức Độ Phổ Biến Theo Thời Gian: Theo dõi mức độ phổ biến của cácbài hát, nghệ sĩ và thể loại âm nhạc theo thời gian để hiểu rõ sự biến đổi của sự quan tâm
và ưa chuộng từ phía người nghe Điều này có thể giúp trong việc xác định các giai đoạnthị trường và định hướng phát triển âm nhạc
So Sánh Với Thị Trường Khác: So sánh dữ liệu từ Spotify với dữ liệu thị trường âmnhạc khác (ví dụ: iTunes, Billboard) để xác định sự tương quan và sự khác biệt giữa cácnguồn thông tin Điều này có thể giúp kiểm tra tính chính xác và sự thể hiện toàn cảnhcủa dữ liệu Spotify
Tìm Hiểu Về Ngữ Cảnh Âm Nhạc: Phân tích sâu hơn để hiểu rõ hơn về tương quangiữa mức độ phổ biến và các yếu tố khác như thể loại âm nhạc, nghệ sĩ, tính năng âmnhạc, và thời gian phát hành Điều này giúp xác định những yếu tố nào có thể ảnh hưởngđến mức độ phổ biến của bài hát
1.3 Công nghệ áp dụng
Công nghệ áp dụng là google colaboratory
Thư viện áp dụng Pandas, Scikit-learn, Numpy,Thư viện Matplotlib
1.3.1 Google colaboratory là gì?
Colaboratory hay còn gọi là Google Colab, là một sản phẩm từ Google Research,
nó cho phép chạy các dòng code python thông qua trình duyệt, đặc biệt phù hợp với Dataanalysis, machine learning và giáo dục Colab không cần yêu cầu cài đặt hay cấu hình
6
Trang 9máy tính, mọi thứ có thể chạy thông qua trình duyệt, bạn có thể sử dụng tài nguyên máytính từ CPU tốc độ cao và cả GPUs và cả TPUs đều được cung cấp cho bạn.
Colab cung cấp nhiều loại GPU, thường là Nvidia K80s, T4s, P4s and P100s, tuynhiên người dùng không thể chọn loại GPU trong Colab, GPU trong Colab thay đổi theothời gian Vì là dịch vụ miễn phí, nên Colab sẽ có những thứ tự ưu tiên trong việc sử dụngtài nguyên hệ thống, cũng như giới hạn thời gian sử dụng, thời gian sử dụng tối đa lên tới
12 giờ
1.3.2 Sử dụng google colab như thế nào?
Yêu cầu duy nhất để sử dụng Colab là bạn có account Google
Để truy cập và sử dụng google Colab, bạn vào mục Google Drive sau đó vào mụcmới, tìm đến dòng Kết nối dụng khác, chọn Colaboratory
Hình 1
1.3.3 Thư viện Pandas
Là một thư viện Python cung cấp các cấu trúc dữ liệu nhanh, mạnh mẽ, linh hoạt
và mang hàm ý Tên thư viện được bắt nguồn từ panel data (bảng dữ liệu) Pandas được 3 thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (dạng bảng, đa chiều, có tiềm năng không đồng nhất) và dữ liệu chuỗi thời gian
1.3.4 Thư viện Scikit-learn
7
Trang 10Sklearn được thiết kế để xử lý các thư viện số và khoa học của Python như NumPy
và SciPy Các tính năng chính của thư viện Scikit-learning bao gồm thuật toán phân loại, hồi quy và phân cụm (hỗ trợ máy vectơ, rừng ngẫu nhiên, tăng độ dốc, k-means và DBSCAN)
1.3.5 Thư viện Numpy
Là một thư viện dành cho ngôn ngữ lập trình Python, hỗ trợ thêm cho mảng và ma trận lớn, nhiều chiều, cùng với một tập hợp lớn các hàm toán học cấp cao để hoạt động trên các mảng này Tiền thân của NumPy, Numeric, ban đầu được tạo bởi Jim Hugunin với sự đóng góp của một số nhà phát triển khác Năm 2005, Travis Oliphant đã tạo NumPy bằng cách kết hợp các tính năng của Numarray cạnh tranh vào Numeric, với nhiều sửa đổi NumPy là phần mềm mã nguồn mở và có nhiều người đóng góp NumPy làmột dự án được tài trợ bởi NumFOCUS
1.3.6 Thư viện Matplotlib
Matplotlib, một thư viện vẽ đồ thị cho Python vào năm 2003 Matplotlib là một thưviện vẽ đồ thị cấp thấp và là một trong những thư viện vẽ đồ thị được sử dụng rộng rãi nhất Đây là một trong những lựa chọn đầu tiên để vẽ đồ thị để hiển thị nhanh một số dữ liệu
Sử dụng Matplotlib, chúng ta có thể vẽ nhiều biểu đồ thú vị theo dữ liệu của mình như Biểu đồ thanh, Biểu đồ phân tán, Biểu đồ, Biểu đồ đường viền, Biểu đồ hộp, Biểu đồ hình tròn… Chúng ta cũng có thể tùy chỉnh nhãn, màu sắc, độ dày của chi tiết biểu đồ theo chúng ta cần Hình ảnh trên được vẽ chỉ bằng Matplotlib
8
Trang 11CHƯƠNG II CƠ SỞ LÝ THUYẾT2.Trực quan hóa dữ liệu.
2.1.Trực quan hóa dữ liệu là gì?
Trực quan hóa dữ liệu là một phương pháp sử dụng đồ họa và công nghệ để biểu diễn thông tin một cách trực quan và dễ hiểu Cơ sở lý thuyết của trực quan hóa dữ liệu bao gồm một số khái niệm và phương pháp từ các lĩnh vực khác nhau, như thống kê, đồhọa máy tính, ngành học hình học, ngành học màu sắc và ngành thị giác máy tính.Thống kê là cơ sở lý thuyết quan trọng trong trực quan hóa dữ liệu, giúp chúng
ta hiểu về phân phối và tính chất của dữ liệu Bằng cách sử dụng các biểu đồ, sơ đồ và đường cong phân phối, chúng ta có thể phân tích và trực quan hóa dữ liệu một cách hiệu quả
Đồ họa máy tính là một công cụ mạnh mẽ trong trực quan hóa dữ liệu, giúp chúng ta tạo ra các biểu đồ, đồ thị và hình ảnh trực quan để biểu diễn dữ liệu Đồ họa máy tính tạo ra các hình ảnh dễ nhìn và giúp người dùng dễ dàng hiểu thông tin từ dữ liệu
Ngành học hình học đóng vai trò quan trọng trong trực quan hóa dữ liệu, giúp chúng ta xác định vị trí và mối quan hệ giữa các dữ liệu Các khái niệm như điểm, đường thẳng và hình dạng được áp dụng để xác định cấu trúc và tổ chức của dữ liệu.Ngành học màu sắc cung cấp các kiến thức về màu sắc và cách chúng tương tác với nhau Trong trực quan hóa dữ liệu, chúng ta có thể sử dụng màu sắc để biểu diễn vàphân loại thông tin một cách rõ ràng và hấp dẫn
Ngành thị giác máy tính cung cấp các công cụ và thuật toán để xử lý và hiểu hình ảnh và video Trong trực quan hóa dữ liệu, chúng ta có thể sử dụng ngành thị giác máy tính để phân loại đối tượng, nhận dạng các đặc trưng quan trọng và mô hình hóa
dữ liệu hình ảnh
9
Trang 12Để thể hiện dữ liệu định tính dưới dạng đồ thị, biểu đồ thì trước hết dữ liệu định tính phải được tóm tắt và sắp xếp dưới dạng các bảng phân phối tần số gọi là Frequency Distribution Table.
2.3 Phân tổ hoặc nhóm
Phân tổ hoặc nhóm (class) là quá trình chúng ta căn cứ vào một hay một số biến cóđặc trưng cụ thể nào đó để sắp xếp các đơn vị quan sát vào tổ, nhóm có đặc điểm khácnhau, tức chia mẫu hoặc tổng thể thành các tổ nhóm có tính chất khác nhau
Ví dụ dữ liệu về loại nước giải khát được tiêu thụ phổ biến bởi 50 sinh viên một trường Đại học tại Thành phố Hồ Chí Minh.
Chúng ta lấy thử một mẫu 50 quan sát như trên bảng, nhận thấy số loại nước ngọtkhông quá nhiều ở 6 loại là Dasani, Coca-cola, Pepsi, Sting, Twister, C2 Ta phân 6 tổ,mỗi tổ là 1 nhãn hiệu nước giải khát như sau:
10
Trang 13Hình 3Trường hợp lấy mẫu lớn hơn 50 hay xem xét tổng thể sinh viên của trường thì
dữ liệu về các loại nước giải khát sẽ rất đa dạng Do đó, để thống kê hiệu quả, đồ thị,biểu đồ khi vẽ ra phù hợp, chúng ta có thể chia tổ theo những nhóm ví dụ sau:
Nước khoáng (Dasani, Lavie, Aquafina, v.v )
Nước giải khát có gas (Coca-cola, Pepsi, Sprite, v.v )
Nước tăng lực (Sting, Wake up 247, Rồng Đỏ, v.v )
Các loại nước giải khát khác (Ô long, C2, v.v )
Lưu ý đối với dữ liệu định lượng đươc chuyển đổi thành dữ liệu định tính đểkhảo sát về phân phối tần suất cũng có thể được chia tổ/nhóm
Ví dụ thu thập thu nhập bình quân hàng tháng của 50 hộ gia đình rất đa dạng
về phạm vi, để tóm tắt đơn giản ta có thể chia tổ/ nhóm theo:
Thu nhập dưới 5 triệu: 5 hộ
Dữ liệu định lượng có thể được chia thành hai loại chính: dữ liệu rời rạc và dữ liệu liên tục
11
Trang 14Dữ liệu rời rạc: Dữ liệu rời rạc là dữ liệu có các giá trị rời rạc, tức là chỉ có thể nhận một số giá trị cụ thể Ví dụ, số lượng sản phẩm bán ra trong một ngày có thể đượcxem là dữ liệu rời rạc, vì nó chỉ có thể nhận các giá trị nguyên dương như 0, 1, 2, 3, v.v.
Dữ liệu liên tục: Dữ liệu liên tục là dữ liệu có thể nhận giá trị trong một khoảng liên tục Ví dụ, thời gian mất để hoàn thành một tác vụ có thể được xem là dữ liệu liên tục, vì nó có thể nhận bất kỳ giá trị nào trong một khoảng thời gian nhất định
2.5 Các dạng biểu đồ.
2.5.1 Biểu đồ nhiệt.
Bản đồ nhiệt là một cách để trực quan hóa dữ liệu ở định dạng bảng Thay cho (hoặc thêm vào) các con số, bạn tận dụng các ô màu để truyền tải độ lớn tương đối của các con số Việc cung cấp tín hiệu thị giác làm nổi bật thông tin cần quan tâm Người đọc
sẽ tiếp nhận dữ liệu dễ dàng hơn
Hình 4
12
Trang 1513
Trang 172.5.5 Biểu đồ đường.
Biểu đồ đường là cách phổ biến nhất để biểu diễn các dữ liệu liên tục Nó thể hiệnmột sự liên kết giữa các điểm dữ liệu Thông thường, dữ liệu được biểu diễn theo một sốđơn vị thời gian: ngày, tháng, quý hoặc năm
Trang 18Hình 9
2.5.7 Biểu đồ tròn
Biểu đồ tròn chia một vòng tròn thành các phần, sao cho diện tích của mỗi phần tỷ lệ với giá trị mà nó biểu thị Biểu đồ phù hợp cho tập dữ liệu sử dụng một biến phân loại, với số lượng từ 3-4 nhóm
16
Trang 19Hình 10
2.6.Công cụ trực quan.
Tableau: Là một công cụ trực quan hóa dữ liệu mạnh mẽ và linh hoạt, giúp tạo racác biểu đồ, đồ thị và bảng điều khiển tương tác Nó cung cấp khả năng kết nối và thao tác dữ liệu từ nhiều nguồn khác nhau để tạo ra các hình ảnh trực quan và thông tin về
dữ liệu
Power BI: Được phát triển bởi Microsoft, Power BI cũng là một công cụ trực quan hóa dữ liệu mạnh mẽ Nó cho phép bạn kết nối và biểu diễn dữ liệu từ nhiều nguồn khác nhau, tạo ra các biểu đồ, đồ thị và bảng điều khiển tương tác
Google Data Studio: Là một công cụ miễn phí của Google cho phép bạn tạo ra các báo cáo và bảng điều khiển trực quan từ dữ liệu Nó cung cấp các công cụ thiết kế linh hoạt và giúp bạn tạo ra các biểu đồ, đồ thị và bảng điều khiển tùy chỉnh
D3.js: Là một thư viện JavaScript mạnh mẽ cho phát triển các biểu đồ và đồ thị tùy chỉnh Nó cung cấp các công cụ linh hoạt và sức mạnh để tạo ra các biểu đồ đẹp và tương tác
Plotly: Là một thư viện Python cho phép bạn tạo ra các biểu đồ tương tác, đồ thị
và bảng điều khiển Nó cung cấp các công cụ mạnh mẽ để trực quan hóa dữ liệu trong các dự án phân tích dữ liệu
17