1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tiểu luận môn khoa học dữ liệu

32 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,54 MB

Nội dung

lOMoARcPSD|22244702 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ UEH KHOA TỐN – THỐNG KÊ TIỂU LUẬN Mơn học: Khoa học liệu Giảng viên: Ths Trần Lê Phúc Thịnh Mã lớp học phần: 22C1INF50905976 Tên nhóm: Nhóm Thành viên: Trần Nguyễn Quốc Quân Nguyễn Tấn Vinh Huỳnh Thị Thanh Ngân Nguyễn Thị Phương Thảo Trương Bảo Ngân Võ Ngọc Phát Bùi Quốc Quang TP Hồ Chí Minh, ngày 07 tháng 09 năm 2022 lOMoARcPSD|22244702 MỤC LỤC R ANDOM DATA IN TERACTIVE K-MEANS .7 P OLYNOMIAL REGRESSION 12 P OLYNOMIAL CLASSIFICATION 15 G OOGLE SHEETS 18 lOMoARcPSD|22244702 E NKLIK ANKETA 20 PI E CHART 22 G RADIENT DESCENT 24 lOMoARcPSD|22244702 RANDOM DATA (DỮ LIỆU NHẪU NHIÊN)  Cơng dụng mục đích: Tạo mẫu dự liệu ngẫu nhiên  Đầu vào: Không có  Kết đầu ra: Dữ liệu: liệu tạo ngẫu nhiên RANDOM DATA cho phép tạo tập liệu ngẫu nhiên, biến tương ứng với phân phối chọn Người dùng định số hàng (mẫu) số lượng biến cho phân phối Các phân phối từ mô-đun thống kê Scipy sử dụng lOMoARcPSD|22244702 Normal: Một biến ngẫu nhiên liên tục bình thường Đặt số lượng biến, giá trị trung bình phương sai Bernoulli: Một biến ngẫu nhiên rời rạc Bernoulli Đặt số lượng biến hàm khối lượng xác suất Binomial: Một biến ngẫu nhiên rời rạc nhị thức Đặt số lượng biến, số lần thử nghiệm xác suất thành công lOMoARcPSD|22244702 Uniform: Một biến ngẫu nhiên liên tục thống Đặt số lượng biến giới hạn giới hạn phân phối Discrete uniform: Một biến ngẫu nhiên rời rạc đồng Đặt số lượng biến số lượng giá trị cho biến Multinomial: Một biến ngẫu nhiên đa thức Đặt xác suất số lần thử nghiệm Các xác suất phải cộng lại thành Số xác suất tương ứng với số biến cuối tạo Add more variables… cho phép chọn phân phối từ danh sách với thêm biến bổ sung Có thể xóa phân phối cách nhấn X góc bên trái phân phối Define the sample size (tức số hàng, mặc định 1000) nhấn Generate để xuất tập liệu lOMoARcPSD|22244702 lOMoARcPSD|22244702 Hypergeometric: Một biến ngẫu nhiên rời rạc siêu đại Đặt số lượng biến, số lượng đối tượng, tích cực thử nghiệm Negative binomial: Một biến ngẫu nhiên rời rạc nhị thức âm Đặt số lượng biến, số lần thành công xác suất thành công Poisson: Một biến ngẫu nhiên rời rạc Poisson Đặt số lượng biến tỷ lệ kiện (số lần xuất dự kiến) Exponential: Một biến ngẫu nhiên liên tục theo cấp số nhân Đặt số lượng biến Gamma: Một biến ngẫu nhiên liên tục gamma Đặt số lượng biến, hình dạng tỷ lệ Tham số tỷ lệ lớn, phân phối trải rộng Student’s t: Một biến ngẫu nhiên liên tục Student’s t Đặt số biến bậc tự Bivariate normal: Một biến ngẫu nhiên bình thường đa biến số lượng biến cố định Số lượng biến đặt thành hai thay đổi Đặt giá trị trung bình phương sai biến ma trận hiệp phương sai phân phối lOMoARcPSD|22244702  Ví dụ: Thơng thường, chúng tơi khơng tạo tập liệu với nhiều phân phối khác mà thay vào đó, tập hợp biến phân phối chuẩn biến nhị phân, sử dụng làm biến mục tiêu Trong ví dụ này, chúng tơi sử dụng cài đặt mặc định, tạo 10 biến phân phối chuẩn biến nhị thức Chúng quan sát liệu tạo Data Table Distributions lOMoARcPSD|22244702 Interactive k-Means Tiện ích giáo dục hiển thị hoạt động cụm k-mean Đầu vào: Dữ liệu: tập liệu đầu vào Đầu ra: Dữ liệu: tập liệu với thích cụm Centroid: vị trí centroids lOMoARcPSD|22244702 Để thay đổi kết quả, ta thay Linear Regression khác, ví dụ Linear Tree 4.Polynomial Classification (Phân loại đa thức) Tiện ích giáo dục thể trực quan phân loại không gian hai chiều Đầu vào  Dữ liệu: tập liệu đầu vào  Preprocessor (tùy chọn): xử lý trước liệu 15 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702  Người học (tùy chọn): thuật tốn phân loại sử dụng tiện ích (mặc định: Hồi quy logistic) Kết đầu  Người học: thuật toán phân loại sử dụng tiện ích  Classifier: trình phân loại đào tạo  Hệ số: hệ số phân loại có Sự mơ tả Tiện ích hiển thị tương tác xác suất phân loại cách sử dụng đường viền độ dốc màu cho phân loại Tiện ích đặc biệt hữu ích để hiển thị hiệu ứng việc mở rộng đa thức (bằng cách thêm thuật ngữ xiyj i + j mức độ chọn nhiều nhất) quy hóa * Theo mặc định, tiện ích sử dụng cấp phép hậu cần khơng quy định Việc gắn người học theo cách thủ công, chẳng hạn widget Logistic Regression, cho phép kiểm sốt cường độ quy hóa Đường viền điểm liệu hiển thị cho biết lớp thực tế bên hiển thị dự đoán mơ hình Trong phân loại khơng nhị phân, điểm dự đốn cho lớp khơng phải mục tiêu sơn màu xám 16 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Tên phân loại Các biến: biến sử dụng để phân loại; tùy chọn hiển thị liệu chứa nhiều hai biến độc lập Khai triển đa thức: Mức độ khai triển đa thức Loại mục tiêu: mục tiêu áp dụng xác suất hiển thị Trong phân loại không nhị phân, lớp khác hợp Hiển thị giải: Hiển thị giải màu Hiển thị đường đồng mức: Hiển thị đường đồng mức cho xác suất Ví dụ Chúng tơi vẽ số liệu cách sử dụng tiện ích Paint đưa vào Phân loại đa thức Chúng tơi thêm Logistic Regression để kiểm sốt việc quy hóa Đặt khai triển đa thức thành cho phép trình phân loại xây dựng đường biên dạng đa thức bậc Di chuột qua đường đồng mức cho thấy xác suất dự đoán lớp mục tiêu (trong trường hợp C1) cho điểm đường Di chuyển chuột đến nơi khác cho thấy xác suất số điểm cụ thể Các điểm màu đỏ với đường viền màu xanh lam trường hợp liệu “xanh lam” bị phân loại nhầm thành màu đỏ ngược lại 17 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Thay đổi quy (trong tiện ích hồi quy Logistic) cho phép quan sát cách đường đồng mức lan rộng thu nhỏ Chúng thêm lớp khác, chọn C2 làm mục tiêu, tăng mở rộng đa thức lên làm suy yếu tính quy (trong tiện ích hồi quy Logistic) Các phác thảo đại diện cho lớp ban đầu Các cá thể lớp đích có màu đỏ, hai lớp cịn lại có màu xám Di chuột vào điểm cho thấy xác suất cho màu đỏ (ví dụ: 0,264) 18 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 5.Google sheets  Đọc liệu từ bảng tính Google Trang tính  Dữ liệu: tập liệu từ dịch vụ Google Sheets 1.Mơ tả Tiện ích đọc liệu từ dịch vụ Google Trang tính Để sử dụng tiện ích, nhấp vào nút Chia sẻ bảng tính chọn, chép liên kết cung cấp dán vào dòng URL tiện ích Nhấn enter để tải liệu Để quan sát liệu thời gian thực, sử dụng chức tải lại 19 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 1.Nhập liên kết đến bảng tính Nhấn Enter để tải liệu Đặt tải lại bạn muốn quan sát cập nhật thời gian thực 2.Thông tin tập liệu: tên thuộc tính Nếu commit automatically đánh dấu, liệu tự động truyền đạt xi dịng Ngồi ra, nhấn Cam kết 2.Ví Dụ Tiện ích sử dụng để tải liệu Chúng sử dụng liên kết từ Google Trang tính: https://goo.gl/jChYki Đây liệu hư cấu chuột đồng thỏ, số mắc bệnh số khơng Sử dụng Bảng liệu để quan sát liệu tải bảng tính Nếu commit automatically đánh dấu, liệu tự động truyền đạt xi dịng Ngồi ra, nhấn Cam kết 20 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 6.Enklik Anketa Nhập liệu từ URL công khai EnKlikAnketa (1ka.si) Out put  Data : kết khảo sát 1.Mơ tả Tiện ích EnKlik Anketa truy xuất kết khảo sát thu từ dịch vụ EnKlikAnketa Bạn cần tạo liên kết công khai để truy xuất kết Chuyển đến khảo sát bạn muốn truy xuất, sau chọn tab Dữ liệu (Podatki) tạo liên kết công khai (javna povezava) góc bên phải 21 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Sau đó, chèn liên kết vào trường URL liên kết công khai Liê n kết trông giống này: https://www.1ka.si/podatki/123456/78A9B1CD/ Một liên kết công khai đến kết khảo sát Để quan sát kết trực tiếp, đặt tốc độ tải lại (5 giây - phút) Danh sách thuộc tính Bạn thay đổi loại thuộc tính vai trị, giống tiện ích Tệp Khảo sát thơng tin meta Đánh dấu vào ô bên trái để tự động thực thay đổi Ngoài ra, nhấp vào Cam kết Truy cập trợ giúp tiện ích 2.Ví dụ Tiện ích EnKlik Anketa tuyệt vời để quan sát kết từ khảo sát trực tuyến Chúng tạo khảo sát mẫu nhập vào tiện ích Chúng tơi có 41 câu trả lời 22 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 hỏi câu hỏi, số cơng nhận tính câu hỏi thuộc tính meta Tiện ích đặt câu hỏi từ khảo sát làm tên tính Tuy nhiên, điều khơng thực tế cho mục đích phân tích, thấy Bảng liệu Chúng tơi rút ngắn tên với tiện ích Edit Domain Edit Domain cho phép thay đổi tên thuộc tính chí đổi tên giá trị thuộc tính cho thuộc tính rời rạc Bây tên thuộc tính dễ làm việc nhiều, thấy Data Table (1) 7.Pie Chart Biểu đồ trịn Tiện ích để hiển thị thuộc tính rời rạc biểu đồ hình trịn Inputs: tập liệu đầu vào Mục đích tiện ích để chứng minh biểu đồ hình trịn hình ảnh trực quan to lớn Vui lịng khơng sử dụng cho mục đích khác 23 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Chọn thuộc tính bạn muốn hình dung 2.Chọn thuộc tính sử dụng để phân chia liệu nhiều biểu đồ Kiểm tra xem bạn có muốn bánh nướng bị nổ không (các phần bánh có khoảng trống giữa) Bạn thấy liệu Trực quan hóa Với nút đó, bạn nhận trợ giúp lưu âm mưu bao gồm âm mưu báo cáo Ví dụ Chúng tơi tải tập liệu Titanic tiện ích Tệp kết nối liệu với Biểu đồ hình trịn Ở chúng tơi hiển thị phân phối liệu giới tính chia bánh theo thuộc tính cịn sót lại Chúng tơi nhận thấy nhóm hành khách khơng sống sót chủ yếu nam giới tỷ lệ phụ nữ cao nhóm người sống sót Mặc dù biểu đồ hình trịn làm sáng tỏ số liệu, khuyên bạn nên sử dụng hình ảnh trực quan nhiều thơng tin hơn, ví dụ: Box plot 24 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 8.Gradient Descent Tiện ích giáo dục hiển thị thuật toán gradient descent hồi quy logictic tuyến tính Đầu vào: Dữ liệu: Tập liệu đầu vào Kết đầu ra: Data: liệu với cột chọn tiện ích Classifer: mơ hình tạo bước thuật toán Coefficients: hệ số bước thuật tốn Mơ tả Tiện ích hiển thị bước gradient descent cho hồi quy logistic tuyến tính gradient descent thể hai thuộc tính người dùng lựa chọn Gradient descent thực hồi quy logistic lớp tập liệu hồi quy phân loại hồi quy tuyến tính lớp số 25 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Chọn hai thuộc tính ( x y ) mà thuật toán Gradien Descent định dạng trước Chọn target class Nó lớp phân loại chống lại tất lớp khác Learning rate tập kích thước bước phần Gradien Descent Với hộp kiểm ngẫu nhiên , bạn chọn xem phần Gradien Descent có phải ngẫu nhiên hay khơng Nếu stochastic chọn, bạn đặt Step Size số bước Gradien Descent stochastic thực lần nhấn vào nút Step Restart: bắt đầu thuật toán từ đầu Step: thực bước thuật toán Step Back : thực bước trở lại thuật toán Run : tự động thực số bước thuật toán hội tụ Speed: Set Speed automatic step Save image: lưu hình ảnh vào máy tính định dạng svg png Báo cáo bao gồm thông số widget hình ảnh hóa báo cáo Ví Dụ: Trong Orange, chúng tơi kết nối tiện ích file với Iris data với tiện ích Gradient Descent Iris data có lớp rời rạc, Logistic regression sử dụng lần Chúng kết 26 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 nối đầu tiện ích với tiện ích Prediction để xem cách liệu phân loại tiện ích Data Table nơi kiểm tra hệ số logistic regression Chúng mở widget Gradient Descent đặt X thành sepal width Y thành sepal length Target class đặt thành Irisvirginica Chúng đặt learning rate 0,02 Với nhấp chuột vào biểu đồ, đặt hệ số ban đầu (red dot) Chúng ta thực bước thuật toán cách nhấn nút Step Khi cảm thấy nhàm chán với việc nhấp chuột, hồn thành bước cách nhấn vào nút Run 27 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Nếu muốn quay lại thuật tốn, thực cách nhấn nút Step back Điều thay đổi mơ hình Mơ hình sử dụng vị trí hệ số cuối (red-yelow dot) Cuối cùng, chúng tơi muốn xem dự đốn cho liệu đầu vào để chúng tơi mở tiện ích Prediction Prediction liệt kê cột bên trái Chúng ta so sánh dự đốn với lớp thực 28 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 29 Downloaded by vú hi (vuchinhhp12@gmail.com)

Ngày đăng: 09/05/2023, 21:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w