bài tập lớn xử lý dữ liệu lớn

12 56 0
bài tập lớn xử lý dữ liệu lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TỔNG LIÊN ĐỒN LAO ĐỘNG TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG KHOA CƠNG NGHỆ THƠNG TIN XỬ LÍ DỮ LIỆU LỚN GIỮA KÌ Người hướng dẫn: THẦY BÙI THANH HÙNG Người thực hiện: NGUYỄN TRUNG THẮNG – 519H9231 Lớp : 19H50202 Khóa THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 : 23 TỔNG LIÊN ĐỒN LAO ĐỘNG TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG KHOA CƠNG NGHỆ THƠNG TIN XỬ LÍ DỮ LIỆU LỚN GIỮA KÌ Người hướng dẫn: THẦY BÙI THANH HÙNG Người thực hiện: NGUYỄN TRUNG THẮNG – 519H0231 Lớp : 19H50202 Khóa THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 : 23 i LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến thầy cô khoa Công nghệ thông tin đặc biệt thầy Bùi Thanh Hùng Trong trình học tập nghiên cứu mơn học Xử lí liệu lớn, em giảng dạy hướng dẫn tận tình, nhiệt tình thầy Các bạn giúp tích lũy thêm nhiều kiến thức hay bổ ích Tuy nhiên, kiến thức tem mơn Xử lí liệu lớn cịn hạn chế định Vì chắn khơng tránh khỏi thiếu sót q trình hồn thành tiểu luận Mời thầy bạn xem, góp ý để tiểu luận em hoàn thiện Xin chân thành cảm ơn! ii LỜI CAM ĐOAN Tôi xin cam đoan sản phẩm đồ án riêng hướng dẫn Bui Thanh Hung Các kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, tiểu luận sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung đồ án Trường đại học Tôn Đức Thắng không liên quan đến vi phạm tác quyền, quyền gây q trình thực (nếu có) TP Hồ Chí Minh, ngày tháng 10 năm 2022 Tác giả (ký tên ghi rõ họ tên) Nguyễn Trung Thắng iii PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận GV hướng dẫn _ Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) I THU THẬP DỮ LIỆU Bạn viết code cào liệu từ trang web trên, lưu kết vào file tương ứng (kq.txt) mô tả ngắn gọn cấu trúc trang Web trên? 1.1 Code cào liệu: I.2 Cấu trúc trang web 2 Với liệu bạn vừa cào về, bạn thực yêu cầu sau: 2.1 Hãy đọc tất thẻ html (div) với lớp "quote" lưu biến 'result’, hiển thị giá trị biến 'result’ hình? 2.3 Hãy tìm biến 'result’ vừa liệu có chứa nhãn "small" với class "author" in kết hình? 2.4 Hãy viết hàm tacgiaLink() để lấy nội dung tác giả Với tác giả in hình nội dung: 2.5 Hãy lưu kết câu c vào file Quote.csv tương ứng, với tác giả dòng liệu Bạn yêu cầu thu thập 40 câu nói tiếng từ trang web cách tự động theo code ý trên? II KHAI PHÁ DỮ LIỆU Xử lý liệu- Data Imputation - Missing data liệu bị thiếu, hiển thị NaN, Nat, Null, N/A, … Missing Data xuất nhiều nguyên nhân như:  Người dùng quên điền  Dữ liệu bị trình chuyển thủ công từ sở liệu cũ  Lỗi chương trình  Thiếu liệu trùng hợp - Missing Data phân thành loại: Missing at Random (dữ liệu khuyết ngẫu nhiên), Missing Completely at Random (dữ liệu thiếu hoàn toàn ngẫu nhiên) Missing Not at Random (dữ liệu khuyết không ngẫu nhiên) Khám phá liệu- Data Exploration - Pandas thư viện Python cung cấp cấu trúc liệu nhanh, mạnh mẽ, linh hoạt mang hàm ý Tên thư viện bắt nguồn từ panel data (bảng liệu) Pandas thiết kế để làm việc dễ dàng trực quan với liệu có cấu trúc (dạng bảng, đa chiều, có tiềm khơng đồng nhất) liệu chuỗi thời gian - Mục tiêu pandas trở thành khối (building block) cấp cao cho công việc thực tế, phân tích liệu giới thực Python, rộng trở thành công cụ thao tác / phân tích mã nguồn mở mạnh mẽ linh hoạt có sẵn loại ngơn ngữ lập trình - Pandas rất phù hợp với nhiều loại liệu khác nhau: - Dữ liệu dạng bảng với cột nhập không đồng nhất, bảng SQL bảng tính Excel - Dữ liệu chuỗi thời gian theo thứ tự khơng có thứ tự (khơng thiết phải có tần số cố định) - Dữ liệu ma trận tùy ý (được nhập đồng không đồng nhất) với nhãn hàng cột - Bất kỳ hình thức khác liệu quan sát / thống kê Dữ liệu thực không cần phải dán nhãn vào cấu trúc liệu pandas - Pandas xây dựng dựa Numpy Hai cấu trúc liệu pandas là Series (1 chiều) và DataFrame (2 chiều) xử lý phần lớn trường hợp điển hình tài chính, thống kê, khoa học xã hội nhiều lĩnh vực kỹ thuật - Ưu điểm pandas: - III Dễ dàng xử lý liệu mát, biểu thị dạng NaN, liệu dấu phẩy động dấu phẩy tĩnh theo ý người dùng mong muốn: bỏ qua chuyển sang - Khả thay đổi kích thước: cột chèn xóa khỏi DataFrame đối tượng chiều cao - Căn chỉnh liệu tự động rõ ràng: đối tượng chỉnh rõ ràng với nhãn người dùng cần bỏ qua nhãn để Series, DataFrame, v.v tự động chỉnh liệu cho bạn tính tốn - Chức group by mạnh mẽ, linh hoạt để thực hoạt động kết hợp phân tách áp dụng tập liệu, cho liệu tổng hợp chuyển đổi - Dễ dàng chuyển đổi liệu rời rạc (ragged), mục khác (differently-indexed) cấu trúc liệu khác Python NumPy thành đối tượng DataFrame Tài liệu tham khảo - Xử lý liệu với Pandas Python: https://codelearn.io/sharing/xuly-du-lieu-voi-pandas-trong-python - Cào liệu Python: Web Scraping với Python BeautifulSoup MongoDB (ichi.pro) ... học tập nghiên cứu mơn học Xử lí liệu lớn, em giảng dạy hướng dẫn tận tình, nhiệt tình thầy Các bạn giúp tích lũy thêm nhiều kiến thức hay bổ ích Tuy nhiên, kiến thức tem mơn Xử lí liệu lớn cịn... ứng, với tác giả dòng liệu Bạn yêu cầu thu thập 40 câu nói tiếng từ trang web cách tự động theo code ý trên? II KHAI PHÁ DỮ LIỆU Xử lý liệu- Data Imputation - Missing data liệu bị thiếu, hiển thị... / thống kê Dữ liệu thực không cần phải dán nhãn vào cấu trúc liệu pandas - Pandas xây dựng dựa Numpy Hai cấu trúc liệu pandas là Series (1 chiều) và DataFrame (2 chiều) xử lý phần lớn trường

Ngày đăng: 13/11/2022, 14:14

Tài liệu cùng người dùng

Tài liệu liên quan