1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 11 - Trương Xuân Nam

30 15 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 1,27 MB

Nội dung

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 11 Thư viện scikit-learn cung cấp cho người học những kiến thức như: Mối quan hệ giữa Khoa học Dữ liệu và Học máy; Một số loại bài toán học máy; Thư viện học máy scikit-learn. Mời các bạn cùng tham khảo!

NHẬP MƠN LẬP TRÌNH KHOA HỌC DỮ LIỆU Bài 11: Thư viện scikit-learn Nội dung Mối quan hệ Khoa học Dữ liệu Học máy Một số loại toán học máy Thư viện học máy scikit-learn Bài tập TRƯƠNG XUÂN NAM Phần Mối quan hệ Khoa học Dữ liệu Học máy TRƯƠNG XUÂN NAM Khoa học liệu gì?  Hầu hết ngành khoa học từ xưa đến giải vấn đề dựa lập luận tri thức  Ngành toán: dựa mệnh đề, công thức, lập luận… để chứng minh toán  Ngành vật lý: dựa quan sát, thực nghiệm, tính tốn,… kiểm chứng giả thiết  Ngành hóa học:… …  Ta gọi ngành khoa học “knowledge-driven” (dẫn dắt tri thức)  Có ngành có chút ngoại lệ, ví dụ: ngành xác suất TRƯƠNG XUÂN NAM Khoa học liệu gì?  Với quan điểm vậy, tất quan sát mà không chứng minh chặt chẽ thường cho “không khoa học”  Chẳng hạn: chuồn chuồn bay thấp mưa  Khoa học liệu ≠ Khoa học thơng thường quan điểm: tìm tri thức từ liệu (dẫn dắt liệu – “data-driven”)  Chúng ta rút tri thức việc tìm tịi từ liệu khơng thiết phải chứng minh  Tất nhiên tri thức tìm phải có tính ổn định (ln có kết sử dụng phương pháp) TRƯƠNG XUÂN NAM Khoa học Dữ liệu Học máy  Không có sơ đồ minh họa đầy đủ mối quan hệ hai khái niệm  Nhiều người (chẳng hạn Nate Silver) cho ngành khoa học liệu dạng thống kê TRƯƠNG XUÂN NAM Khoa học Dữ liệu Học máy  Học máy phương pháp quan trọng để xử lý liệu ngành data science, bên cạnh phương pháp truyền thống khác TRƯƠNG XUÂN NAM Quá trình xử lý khoa học liệu TRƯƠNG XUÂN NAM Ví dụ: hệ thống phát thư rác Thu thập mẫu thư (gồm thư rác thư thường) Xác định đề (phân lớp hay đánh giá) Xử lý liệu Chọn mơ hình học máy phù hợp với tốn phân loại thư rác Huấn luyện mơ hình Hiệu chỉnh, tinh chỉnh mơ hình Áp dụng thực tế (chạy email server thực) Tiếp tục cập nhật theo phản hồi người dùng TRƯƠNG XUÂN NAM Phần Một số loại toán học máy TRƯƠNG XUÂN NAM 10 Phần Thư viện học máy scikit-learn TRƯƠNG XUÂN NAM 16 Thư viện học máy scikit-learn  Scikit-learn xuất phát dự án thi lập trình Google vào năm 2007, người khởi xướng dự án David Cournapeau  Sau nhiều viện nghiên cứu nhóm nhập, đến năm 2010 có (v0.1 beta)  Scikit-learn cung cấp gần tất loại thuật toán học máy (khoảng vài chục) vài trăm biến thể chúng, với kĩ thuật xử lý liệu chuẩn hóa  Cài đặt: pip install scikit-learn scipy TRƯƠNG XUÂN NAM 17 Chọn thuật toán học máy phù hợp TRƯƠNG XUÂN NAM 18 Ví dụ: dự báo cân nặng người  Tập mẫu quan sát có n người  Gồm tên, chiều cao, cân nặng  Và nhiều loại số khác  Xây dựng mơ hình dự báo cân nặng người, dựa số lại  Trong trường hợp toán ta, cố gắng dự báo cân nặng từ chiều cao  Thực tế cân nặng phụ thuộc vào nhiều thơng số khác nữa, giới tính, vịng eo,… TRƯƠNG XN NAM 19 Dự báo sử dụng hồi quy tuyến tính import matplotlib.pyplot as plt import pandas as pd import numpy as np from sklearn import linear_model, metrics # đọc liệu từ file csv df = pd.read_csv("nguoi.csv", index_col = 0) print(df) # vẽ biểu đồ minh họa dataset plt.plot(df.Cao, df.Nang, 'ro') plt.xlabel('Chiều cao (cm)') plt.ylabel('Cân nặng (kg)') plt.show() TRƯƠNG XUÂN NAM 20 Dự báo sử dụng hồi quy tuyến tính # sử dụng hồi quy tuyến tính X = df.loc[:, ['Cao']].values y = df.Nang.values model = linear_model.LinearRegression() model.fit(X, y) # # # # X liệu đầu vào y liệu đầu loại mơ hình tập huấn liệu # in số thơng tin mơ hình mse = metrics.mean_squared_error(model.predict(X), y) print("Tổng bình phương sai số tập mẫu:", mse) print("Hệ số hồi quy:", model.coef_) print("Sai số:", model.intercept_) print(f"Công thức: [Nặng] = {model.coef_} x [Cao] + {model.intercept_}") TRƯƠNG XUÂN NAM 21 Dự báo sử dụng hồi quy tuyến tính # vẽ lại sơ đồ plt.scatter(X, y, c='b') plt.plot(X, model.predict(X)) plt.show() # dự báo số tình while True: x = float(input("Nhập chiều cao (nhập để dừng): ")) if x

Ngày đăng: 09/08/2021, 18:10

TỪ KHÓA LIÊN QUAN