Báo cáo môn học: Nhập môn học máy và khai phá dữ liệu Đề tài: Phân tích xu hướng quan tâm của người dùng về các video âm nhạc trên youtube năm 2021 Báo cáo môn học: Nhập môn học máy và khai phá dữ liệu Đề tài: Phân tích xu hướng quan tâm của người dùng về các video âm nhạc trên youtube năm 2021
ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỂN THƠNG Báo cáo mơn học: Nhập mơn học máy khai phá liệu Đề tài: Phân tích xu hướng quan tâm người dùng video âm nhạc youtube năm 2021 GVHD: PGS.TS Thân Quang Khốt Nhóm sinh viên: Họ tên Phạm Thị Hương Quỳnh Phạm Minh Hiệp Phan Thị Lệ Hằng Vũ Đình Hiếu MSSV 20183818 20183738 20183732 20183745 Hà Nội, tháng 01 năm 2022 Mục lục Phân công công việc Giới thiệu toán ứng dụng a Mô tả toán b Ứng dụng 3 Tổng quan liệu a Nguồn liệu b Mô tả liệu c Tiền xử lý liệu: 4 Giải toán a Phân tích liệu: b Mô hình giải thuật áp dụng 11 b.1 Các điểm lý thuyết 11 c Các thành phần mã nguồn 18 Kết 20 a Các kết phân cụm 20 b Những suy luận rút được: 26 Khó khăn hướng phát triển tương lai 28 a Khó khăn: 28 b Hướng phát triển tương lai: 28 Tài liệu tham khảo 29 Phân công công việc Họ tên Cơng việc Vũ Đình Hiếu Phân cụm liệu, tìm hiểu thuật tốn Phạm Minh Hiệp Tiền xử lý liệu, phân tích liệu sau tiền xử lý, tìm hiểu thuật tốn Phạm Thị Hương Quỳnh Phân tích liệu sau tiền xử lý, tìm hiểu thuật toán Phan Thị Lệ Hằng Crawl liệu, tiền xử lý liệu, tìm hiểu thuật tốn Giới thiệu tốn ứng dụng a Mơ tả tốn Phân tích xu hướng, quan tâm, sở thích người dùng yếu tố quan trọng không nhiều ngành kinh tế mà cịn có ý nghĩa nghiên cứu xã hội Bài tốn phân tích xu hướng quan tâm đến video âm nhạc người dùng tảng xã hội không nằm ngoại vòng quay Nếu trước để phân tích yêu thích hay quan tâm người sản phẩm, ta dùng phiếu câu hỏi khảo sát Tuy nhiên, với số lượng lớn video âm nhạc phát hành tảng số - cụ thể Youtube, việc đưa phiếu khảo sát khó, đồng thời người dùng cảm thấy khó chịu phải làm khảo sát nhiều Vậy cần có phương pháp khác xử lý hiệu việc Học máy cho ta cách giải dùng phương pháp phân cụm để tìm nhóm video xu hướng mà người quan tâm Như không cần phải khảo sát nhàm chán, mà cần dựa số liệu hay thông tin video phổ biến khoảng thời gian đó, thơng qua phân cụm ta khám phá xu hướng quan tâm người dùng đồng thời nhiều suy luận khác Bài tốn có đầu vào tập thông tin video phổ biến âm nhạc thu thập youtube phạm vi người dùng Việt Nam (hay video âm nhạc phát hành lãnh thổ Việt Nam) Đầu cần giải suy luận, tìm kiếm xu hướng quan tâm người dùng video âm nhạc b Ứng dụng Bài tốn ứng dụng số nghiên cứu như: - Phân tích tâm lý, xã hội người dùng mạng xã hội Phân tích xu hướng, tìm yếu tố mà người quan tâm để phát triển sản phẩm nghệ thuật, âm nhạc phù hợp với thị hiếu, … Phân tích xu hướng nghệ thuật mà người quan tâm, từ đánh giá tiêu chuẩn thâm mỹ xã hội nói chung tiêu chuẩn âm nhạc nói riêng Tổng quan liệu a Nguồn liệu Dữ liệu toán thu thập từ youtube với hai giai đoạn: Giai đoạn 1: Sử dụng python selenium để thu thập đường dẫn video phổ biến youtube Giai đoạn 2: Dựa url lấy video trên, tiến hành xử lý trích id video thơng qua youtube api để lấy thông tin tương ứng b Mô tả liệu Dữ liệu thô sau thu thập lưu dạng file csv Số lượng ghi 4962 Số cột ứng với số thuộc tính 21 Với thơng tin thuộc tính: Thuộc tính id publishAt Title description channelTitle tags categoryId defaultAudioLanguage Duration dimension definition caption privacyStatus embeddable madeoforKids viewCount likeCount commentCount dislikeCount favouriteCount topicCategories Ý nghĩa Mã id video Thời gian đăng Tiêu đề video Mô tả video Tiêu đề kênh đăng video Tag liên quan đến video Thể loại theo phân loại youtube Ngôn ngữ video Thời lượng video Số chiều video (2D hay 3D) Định dạng video Video có gắn dịch nghĩa ngôn ngữ Trạng thái bảo mật Cho phép nhúng video Video dành cho trẻ em Lượt xem video Lượt u thích video Lượt bình luận video Lượt khơng thích video ( youtube bỏ) Chủ đề video c Tiền xử lý liệu: Dữ liệu thu cần tiền xử lý điểm: Lọc video âm nhạc tức categoryId 10 – Music Xử lý giá trị null data frame Xử lý topicCategory Xử lý thời gian Xử lý thuộc tính khơng ngun, cụ thể thuộc tính dạng Boolean chuyển thành để xử lý Giải toán a Phân tích liệu: Để phân tích xu hướng quan tâm người video âm nhạc tiêu chí dễ thấy thơng qua số lượt xem sản phẩm Tuy nhiên video youtube cung cấp thơng tin có nhiều trường khác Vì cần phân tích tương quan trường thông tin để xác định đâu yếu tố tác động đến lượt xem hay cho nhiều thông tin xu hướng quan tâm người dùng Phần 3.1 tập trung phân tích thơng qua biểu đồ trực quan hóa liệu để rút số kết luận để hỗ trợ giải toán Dưới biểu đồ cho thấy phân phối tỉ lệ video với số lượt xem phân loại theo mức tương ứng Như qua biểu đồ cho số tập liệu, chiếm phần nhiều video mức trăm nghìn lượt xem, chục nghìn lượt xem, cịn lại video có lượt xem cao mức hàng triệu lượt xem Tiếp tục xét tỉ lệ số video âm nhạc với thuộc tính khác: Tỉ lệ số video với thuộc tính caption: Tỉ lệ số video với thuộc tính embeddable: Tỉ lệ số video với thuộc tính privacyStatus: Tỉ lệ số video với thuộc tính madeForKids: Tỉ lệ số video với thuộc tính definition: Xét tương quan lượt xem video với thời lượng video: Như qua phân tích sơ quan hệ thuộc tính thơng tin video ta rút số kết luận sau: - Các video mà người thường xem có định dạng HD, khơng có caption, khơng tạo cho trẻ em, không nhúng video public Xu hướng lượt xem người sản phẩm âm nhạc thường mức triệu lượt xem trở xuống, cịn video có lượt xem cao Đồng thời video có lượt xem cao thường tập trung vùng video có độ dài ngắn tức khoảng 400 giây hay tầm phút Đây thời lượng phổ biến sản phẩm ca nhạc, mv Cịn vùng có thời lượng dài hơn, tập trung nhiều video thời lượng thường tập trung vùng triệu lượt xem trở xuống Qua ta có giả thiết rằng, người xem Việt Nam thường có xu hướng nghe lại phát hành dạng tuyển tập hay album phân bố cho thấy video có thời lượng dài thường tập trung mảng hàng nghìn tới triệu lượt xem vùng lượt xem chủ yếu sản phẩm Tuy nhiên kết luận khơng đủ để phân tích nhiều thị trường âm nhạc, mà cần phải xem xét thêm thể loại nhạc video Nhưng vấn đề gặp phải video youtube có trường thơng tin topicCategories, có liệt kê số chủ đề liên quan đến video thơng tin chưa thực hữu ích để phân loại vì: phần lớn cho thấy thuộc tính (như caption, embeddable, madeForKid, … ) số lượng video nằm đa số hẳn bên nên chưa thể kết luận nhiều xu hướng Nhưng, điều đặc biệt video âm nhạc youtube nói chung hay Việt Nam nói riêng, chủ đề âm nhạc mà người quan tâm cịn nằm tiêu đề Vì xem video âm nhạc, tiêu đề phần mà người nhìn thấy, tự họ xác định nhanh chóng thể loại âm nhạc mà khơng cần phải đào sâu xuống trường thuộc tính topicCategories Vì cần phải phân cụm tiêu đề video để tìm nhóm tiêu đề quan tâm phân tích chúng để hiểu thể loại quan tâm người sản phẩm Tuy nhiên việc phân cụm liệu văn tiêu đề với số lượng lớn khơng thể hồn thành tốt phương pháp thủ cơng thơng thường được, mà cần có cơng cụ học máy Cụ thể áp dụng toán phương pháp phân cụm K-means • Lý thuyết K-means Phương pháp phân cụm K-means phương pháp phổ biến cho toán phân cụm dựa việc việc chia thành phần Trong phương pháp này, liệu biểu diễn dạng tập vector n chiều không gian Euclidean Phương pháp K-means phân tập liệu D ban đầu thành K cụm cluster: Mỗi cụm có điểm trung tâm centroid K số cố định cho trước Các bước phương pháp bao gồm: Đầu vào: Tập liệu D gồm vector n chiều, số cụm K phép đo khoảng cách d (x, y) Bước khởi tạo: Chọn ngẫu nhiên K phần tử D làm centroid khởi tạo Lặp lại bước sau đến hội tụ: Bước 1: Với phần tử, gán phần tử vào cụm có centroid gần Bước 2: Với cụm, tính tốn cập nhật lại centroid Các bước phương pháp hội tụ thỏa mãn điều kiện sau: Rất phần tử thay đổi sang cụm khác Các tâm cụm thay đổi không đáng kế Tổng khoảng cách bình phương từ phần tử đến tâm cụm tương ứng thay đổi không đáng kể Như thuật tốn, có số điểm cần lưu ý là: - • Số cụm cần chọn phù hợp để cụm phân hợp lý (Bài tốn nhóm sử dụng phương pháp Elbow để giải vấn đề này) Các điểm centroid khởi tạo cần lựa chọn tốt để phân cụm đạt hiệu (Bài tốn nhóm sử dụng phương pháp K-means++ để giải vấn đề này) Sử dụng phép đo khoảng cách phần tử phù hợp (Nhóm lựa chọn tốn sử dụng phép đo khoảng cách Euclid) Phương pháp Elbow Phương pháp Elbow dùng để xác định số cụm tối ưu cho phương pháp phân cụm K-means Phương pháp hướng tới vẽ giá trị hàm chi phí tạo giá trị k khác Ở ta đánh giá thông qua tổng khoảng cách bình phương từ phần tử đến tâm cụm tương ứng Khi k tăng, giá trị giảm dần, nên đường elbow đường cong giảm dần Vì điều kiện hội tụ K-means tổng khoảng cách bình phương thay đổi khơng đáng kể nên dựa đường cong ta xác định điểm gãy, tức độ dốc giảm đột ngột Vị trí tương ứng số k tối ưu • Phương pháp K-means++ Phương pháp Kmeans++, cho phép khởi tạo centroids với bước sau: - Chọn ngẫu nhiên centroid thứ m1 Chọn centroid thứ cho centroid xa m1 … Chọn centroid thứ i cho centroid xa tập {m1, m2, …, mi-1} … • Phép đo khoảng cách Euclid Cơng thức tính khoảng cách Euclid: • Xử lý liệu cho K-means Ở phần lý thuyết phía ta thấy: đầu vào phương pháp K-means tập vector n chiều, mà tập đầu vào toán thực tập tiêu đề, có kiểu liệu text Vì vậy, liệu cần tiền xử lý dạng vector để làm đầu vào cho phương pháp K-means Nhóm sử dụng phương pháp chuyển đổi liệu text dạng vector IF-TDF • Vector IF-TDF TF-IDF (Term Frequency – Inverse Document Frequency) kĩ thuật sử dụng khai phá liệu văn Trọng số sử dụng để đánh giá tầm quan trọng từ văn Giá trị cao thể độ quan trọng cao phụ thuộc vào số lần từ xuất văn bù lại tần suất từ tập liệu Một vài biến thể tf-idf thường sử dụng hệ thống tìm kiếm cơng cụ để đánh giá xếp văn dựa vào truy vấn người dùng Tf-idf sử dụng để lọc từ stopwords toán tóm tắt văn phân loại văn TF: Term Frequency (Tần suất xuất từ) số lần từ xuất văn Vì văn có độ dài ngắn khác nên số từ xuất nhiều lần văn dài văn ngắn Như vậy, term frequency thường chia cho độ dài văn bản( tổng số từ văn bản) IDF: Inverse Document Frequency (Nghịch đảo tần suất văn bản), giúp đánh giá tầm quan trọng từ Khi tính tốn TF, tất từ coi có độ quan trọng Nhưng số từ “is”, “of” “that” thường xuất nhiều lần độ quan trọng không cao Như cần giảm độ quan trọng từ xuống Trong đó: • • • idf (t, D): giá trị idf từ t tập văn |D|: Tổng số văn tập D | {d ∈ D: t ∈ d} |: thể số văn tập D có chứa từ t Cơ số logarit công thức không thay đổi giá trị idf từ mà thu hẹp khoảng giá trị từ Vì thay đổi số dẫn đến việc giá trị từ thay đổi số định tỷ lệ trọng lượng với khơng thay đổi (nói cách khác, thay đổi số không ảnh hưởng đến tỷ lệ giá trị IDF) Việc sử dụng logarit nhằm giúp giá trị tf-idf từ nhỏ hơn, có cơng thức tính tf-idf từ văn tích tf idf từ Cụ thể, có cơng thức tính tf-idf hồn chỉnh sau: tfidf (t, d, D) = tf (t, d) x idf (t, D) Khi đó: Những từ có giá trị TF-IDF cao từ xuất nhiều văn này, xuất văn khác Việc giúp lọc từ phổ biến giữ lại từ có giá trị cao (từ khố văn đó) c Các thành phần mã nguồn Crawl liệu: file: scraping_info_data_youtube.py, Analysis_Youtube.ipynb Tiền xử lý liệu: file: youtube_music_analysis.ipynb Các thư viện gói cần thiết: Thực phương pháp phân cụm: file: youtube_music_analysis.ipynb Mô kết quả: file: youtube_music_analysis.ipynb Kết a Các kết phân cụm Lựa chọn số cụm dựa phương pháp elbow: Dựa theo phương pháp, ta lựa chọn số cụm 10 Phân cụm theo tiêu đề video Xem xét tỉ lệ video cụm theo số lượt xem 10 Đánh giá số lượt xem, lượt yêu thích tổng thời gian chiếu: Nhận xét điểm bất thường Cụm số có bất thường cụm cho thấy tập trung nhóm nhạc tình khúc bolero Và phân phối video có nhiều video có lượt xem lớn tới mức trăm triệu view, tổng số lượng cụm đột biến với nghìn video Điều gây ý không số lượng mà thực tế nhóm chủ yếu tình khúc bolero mâu thuẫn với thực tế video ca nhạc thể loại nhạc có lượt xem mức triệu lượt xem đổ lên Vì cần phân cụm nhóm thêm Phân cụm tiếp cụm bất thường Xem xét tỉ lệ video cụm theo số lượt xem cụm Đánh giá số lượng lượt xem, lượt yêu thích tổng thời gian video: b Những suy luận rút được: • Xét 10 cụm phân loại ta có: Ta thấy thể loại chủ yếu cụm là: - Cụm 1: nhạc nhẹ nhàng chill lofi mix buồn Cụm 2: liên khúc nhạc trữ tình nhạc vàng bolero Cụm 3: liên khúc nhạc trẻ hay Cụm 4: nhạc hay bảng xếp hạng top Cụm 5: nhạc tiktok edm - Cụm 6: liên khúc nhạc trẻ hay Cụm 7: tình khúc nhạc sống bolero Cụm 8: nhạc remix nonstop Cụm 9: nhạc thiếu nhi Cụm 10: nhạc trẻ remix Từ ta thấy số nhận xét sau: - - - - • Nhóm cụm số có số lượt xem cao nhất, thứ nhóm nhạc thiếu nhi thứ nhóm nhạc trẻ Về tổng thời gian chiếu nhóm số liên khúc nhạc trẻ cao nhất, thứ nhóm nhạc tình khúc bolero thứ nhóm liên khúc nhạc vàng trữ tình Như cho thấy người thường quan tâm đến nhóm thể loại nhạc trẻ; nhạc trữ tình, nhạc vàng, bolero; nhạc tiktok, edm; nhạc lofi nhẹ nhàng; nhạc thiếu nhi; nhạc remix Đối tượng người xem trẻ em lớn nội dung nhạc thiếu nhi có lượt xem cao Điều cho thấy việc âm nhạc youtube trở thành ăn tinh thần cho em Lý giải cho việc nhận thấy hai điều: o Đồ họa video âm nhạc thu hút em nhỏ nghe lẫn nhìn o Bối cảnh đại dịch em nhỏ nhà nhiều hơn, video biện pháp giúp phụ huynh chăm em Đối tượng người nghe Việt Nam thường thích nghe video âm nhạc có từ nhất, hay top Bởi nhiều người nghe khơng có thời gian, mà họ muốn tìm nhanh hát để bắt kịp xu thế, hay thể lý giải thích tâm lý Đối tượng người nghe Việt Nam nghe nhiều nhạc có giai điệu nhẹ nhàng, trữ tình Lý giải điều nằm chỗ, tính hiền lành, chất phác người dân Việt; bên cạnh người thường nghe nhạc để thư giãn họ chọn giai điệu nhẹ nhàng Đối tượng người trẻ nghe nhạc có số lượng lớn thời lượng chiếu nhiều phản ánh đối tượng tham gia thị trường Mọi người quan tâm nhiều thể loại liên khúc, tuyển tập hát thể loại Có phận người nghe tập trung vào dịng nhạc có giai điệu sơi động nhạc remix, nostop, nhạc edm Nhưng đặc biệt chỗ nhạc remix có đặc điểm biến tấu giai điệu nhiều thể loại khác kết hợp remix với nhạc trẻ Xét cụm phân tích từ cụm bất thường trên: Ta thấy thể loại chủ yếu cụm là: - Cụm 1: Chủ đề thiên chương trình âm nhạc truyền hình vĩnh long, thể loại bolero Cụm 2: nhạc sống, vn365 Cụm 3: Nhiều chủ đề chưa phân loại Cụm 4: Thể loại bolero, giọng để đời Cụm 5: Bolero Từ ta rút số nhận xét sau: - Các cụm chủ yếu thiên hai hướng trữ tình bolero nhóm cịn lại, hướng bolero có thời lượng nhiều - Cụm nhiều chủ đề chưa phân loại chiếm nhiều video nhất, lượng xem cao thời lượng đáng kể - Trong nhóm bolero ta thấy có phận người nghe quan tâm đến cụm ‘giọng để đời’, điều cho thấy người quan tâm đến người hát trước, đến giọng ca quan tâm đến thể loại - Nhóm cụm chủ để chưa phân loại lý giải nhóm mv ca nhạc Vì nhóm số lượt xem thường cao thời gian ngắn, đồng thời nghe video người nghe tập trung vào người trình bày Cịn thân tiêu đề khơng nói lên thể loại nhạc người nghe họ xác định thể loại hay định nghe phụ thuộc người hát Điều phù hợp với nhận xét nhiều người quan tâm đến cụm ‘giọng ca để đời’ Khó khăn hướng phát triển tương lai a Khó khăn: - Tìm kiếm nguồn liệu tồn diện bao gồm tối đa video âm nhạc mà người quan tâm nghe - Nhiều thuộc tính gán cho video chưa đắn cụ thể - Tiền xử lý, tìm mối quan hệ ẩn phản ánh xu hướng người nghe - Khi phân tích thể loại người yêu thích, gặp phải vấn đề phân tích theo tiêu đề nhiều video ca nhạc có tiêu đề hay tên hát trực tiếp thể loại âm nhạc sản phẩm Mà người nghe xác định thể loại nhạc dựa người trình diễn Đơi yếu tố định người nghe nhạc lại nằm yếu tố người trình bày Nên việc phân cụm gặp nhiều khó khăn Vì để phân tích tốt cần cải tiến phương pháp để lọc người hát video b Hướng phát triển tương lai: - Cần phải kết hợp với toán phân loại để phân loại thể loại âm nhạc video, việc tìm thể loại hay xu hướng quan tâm người dựa tiêu đề cho thấy hạn chế nhiều video mv ca nhạc Vậy để biết thể loại mà người quan tâm trước hết thân video cần gán thể loại rõ ràng đắn Tài liệu tham khảo Tập giảng nhập môn học máy khai phá liệu - PGS.TS Thân Quang Khoát https://developers.google.com/youtube/v3/docs https://scikit-learn.org/stable/modules/clustering.html https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html https://towardsdatascience.com/clustering-metrics-better-than-the-elbowmethod-6926e1f723a6API Reference | YouTube Data API | Google Developers [6] https://scikitlearn.org/stable/auto_examples/cluster/plot_kmeans_digits.html#sphx-glr-auto-examplescluster-plot-kmeans-digits-py [7] https://scikit-learn.org/stable/modules/clustering.html#overview-of-clusteringmethods [1] [2] [3] [4] [5] ... Phân tích xu hướng, quan tâm, sở thích người dùng yếu tố quan trọng không nhiều ngành kinh tế mà cịn có ý nghĩa nghiên cứu xã hội Bài tốn phân tích xu hướng quan tâm đến video âm nhạc người dùng. .. như: - Phân tích tâm lý, xã hội người dùng mạng xã hội Phân tích xu hướng, tìm yếu tố mà người quan tâm để phát triển sản phẩm nghệ thuật, âm nhạc phù hợp với thị hiếu, … Phân tích xu hướng nghệ... video phổ biến âm nhạc thu thập youtube phạm vi người dùng Việt Nam (hay video âm nhạc phát hành lãnh thổ Việt Nam) Đầu cần giải suy luận, tìm kiếm xu hướng quan tâm người dùng video âm nhạc b Ứng