Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
2,04 MB
Nội dung
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN BÁO CÁO ĐỒ ÁN MẠNG XÃ HỘI Đề tài: Phân tích liệu tennis Giảng viên hướng dẫn: Nguyễn Thị Kim Phụng Lớp: IS353.N22.HTCL Sinh viên thực hiện: Nguyễn Thanh Hiếu MSSV: 20521328 Hồ Nguyễn Gia Huy MSSV: 20521386 TP Hồ Chí Minh – 01/06/2023 MỤC LỤC I GIỚI THIỆU II XÁC ĐỊNH BÀI TOÁN III DỮ LIỆU Giới thiệu nguồn liệu Xử lý phân tích liệu 2.1 Làm liệu 2.2 Chuyển đổi dataframe thành đồ thị IV THUẬT TỐN PHÁT HIỆN CỘNG ĐỒNG Thuật tốn Louvain 1.1 Thực thi Gephi 1.2 Thực thi Python Thuật toán K-means V XẾP HẠNG Thuật toán Pagerank 1.1 Thực thi Gephi 1.2 Thực thi Python Thuật toán Closeness centrality 2.1 Thực thi Gephi 2.2 Thực thi Python VI CÁC ĐỘ ĐO Thuật toán Eigenvector Eigenvalue 1.1 Thực thi Gephi 1.2 Thực thi Python Thuật toán Betweenness Centrality (node - edge) 2.1 Thực thi Gephi 2.2 Thực thi Python 3 4 5 9 11 23 30 30 30 31 33 33 33 34 35 35 36 37 37 37 NHẬN XÉT CỦA GIẢNG VIÊN ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… ………………………………………………………………………………………………… Số điện thoại: 0382279474 Mail: 20521328@gm.uit.edu.vn I GIỚI THIỆU Quần vợt môn thể thao phổ biến hấp dẫn u thích tồn giới Nó trị chơi cá nhân nơi hai người chơi cố gắng ghi điểm cách đánh bóng qua mạng lưới đặt bóng vào khu vực khơng gian đối thủ Trị chơi địi hỏi linh hoạt, kỹ thuật tập trung từ vận động viên Mơn học mạng xã hội áp dụng để phân tích mạng xã hội giải đấu quần vợt cách sử dụng liệu thống kê Chúng ta sử dụng thuật tốn phân cụm đồ thị để nhóm vận động viên dựa kết hiệu suất thi đấu Đồng thời, tính tốn độ đo mạng xã hội trọng số cạnh, trung tâm mật độ mạng để đánh giá tương tác quan hệ vận động viên II XÁC ĐỊNH BÀI TOÁN Input: Tập liệu ban đầu nguồn liệu Kaggle qua tiền xử lý liệu Ouput: Đưa độ đo, đưa cộng đồng phục vụ cho việc phân tích mạng xã hội “ATP Tennis 2013 - 2023” Để hiểu rõ yếu tố hiệu suất quần vợt, sử dụng dataset "ATP Tennis 2013 - 2023" Trong dataset này, tìm thấy thơng tin tên giải đấu, loại sân thi đấu, số kết thi đấu thành tích cá nhân vận động viên Thông qua việc phân tích liệu, xác định hiệu suất vận động viên suốt nghiệp, đồng thời so sánh phân tích phát triển vận động viên quần vợt qua năm Bằng cách sử dụng dataset này, nhà quản lý, huấn luyện viên nhà nghiên cứu tìm hiểu sâu đặc điểm mơ hình quần vợt Họ phân tích tương quan số, nhóm vận động viên dựa thành tích đặc điểm thi đấu, đồng thời đưa định thông minh để nâng cao hiệu suất đạt thành công trận đấu quần vợt III DỮ LIỆU Giới thiệu nguồn liệu Link dataset: ATP Tennis 2013 - 2023 Dữ liệu ATP Tennis 2013 - 2023 cung cấp tảng Kaggle chứa thông tin trận đấu vận động viên chơi quần vợt bao gồm số kết thi đấu, thành tích cá nhân phát triển theo thời gian từ năm 2013 đến năm 2023 Dữ liệu gồm 25363 dịng với 17 thuộc tính bao gồm: STT Thuộc tính Kiểu liệu Mơ tả Tournament String Tên giải đấu tennis Date Date/Time Ngày diễn trận đấu Series String Tên loạt giải tennis Court String Loại sân thi đấu Surface String Loại bề mặt sân thi đấu Round String Vòng đấu trận đấu Best of Number Số set tối đa trận đấu Player_1 String Tên người chơi 10 11 Player_2 Winner Rank_1 String String Number 12 Rank_2 Number 13 Pts_1 Number Tên người chơi Tên người chiến thắng Xếp hạng người chơi thời điểm Xếp hạng người chơi thời điểm Điểm người chơi 14 Pts_2 Number Điểm người chơi 15 Odd_1 Float Tỷ lệ cược cho người chơi 16 Odd_2 Float Tỷ lệ cược cho người chơi 17 Score String Kết trận đấu gồm điểm số set Xử lý phân tích liệu 2.1 Làm liệu Kiểm tra loại bỏ thuộc tính bị thiếu liệu dataset Hình 1: Đọc liệu từ file csv loại bỏ liệu trùng rỗng Chương trình thực trình đọc liệu từ file csv tạo thành bảng liệu (dataframe) Sau đó, chương trình tiến hành làm liệu cách loại bỏ dòng liệu trùng lặp dòng liệu rỗng Mục tiêu cuối thu liệu hồn chỉnh, chứa tổng cộng 25362 dịng cột Qua q trình này, có tập liệu tiện lợi để thực phân tích xử lý liệu 2.2 Chuyển đổi dataframe thành đồ thị ● ĐỒ THỊ PHÍA Node: Tên người chơi (Player_1) Vòng đấu trận đấu (Round) Edge: "Player_1 to Round": Biểu diễn mối quan hệ việc người chơi tham gia vịng đấu giải đấu Hình 2: Đưa liệu từ dataframe vào đồ thị vô hướng Đoạn code cho ta thấy rằng: + Có tổng cộng 668 người chơi + Có tổng cộng vòng + Số cạnh 25362 Code hiển thị đồ thị phía Hình 3: Code hiển thị đồ thị phía Hình 4: Đồ thị phía Đồ thị hai phía thể mối quan hệ vịng đấu người chơi tennis thứ thơng qua cạnh đỉnh Đỉnh bên trái đồ thị đại diện cho vòng đỉnh bên phải đồ thị đại diện cho người chơi thứ Các cạnh kết nối người chơi với vòng đấu mà họ tham gia Mối quan hệ cho ta phân tích phụ thuộc người chơi vòng đấu Nếu người chơi chiến thắng nhiều trận đấu, họ tiến xa giải đấu tham gia vào vòng đấu cao Ngược lại, người chơi thua, họ bị loại khỏi giải đấu tham gia vào vịng đấu thấp Phân tích đồ thị ta nhận biết người chơi mạnh, người chơi nhiều vòng nhất, vòng đấu quan trọng mối tương quan phức tạp chúng ● ĐỒ THỊ PHÍA Node: Là tên người chơi tennis (Player_1) Edge: Những người chơi tham gia vòng đấu nối với để tạo thành cạnh, ý nghĩa nói lên cạnh tranh vận động viên với tham gia vào vòng đấu Weight: Trọng số cạnh số lần mà người chơi tham gia vòng đấu Nếu người chơi tham gia nhiều vòng đấu, trọng số cạnh tương ứng cao Hình 5: Code hiển thị đồ thị phía Hình 6: Đồ thị phía Như hình ta thấy node chụm lại có nghĩa node người chơi tham gia nhiều vịng đấu Hình 7: In liệu đồ thị phía sang file csv