Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
878,01 KB
Nội dung
MƠN XỬ LÍ DỮ LIỆU LỚN GIỮA KÌ Người hướng dẫn: BÙI THANH HÙNG Người thực hiện: NGUYỄN VĂN TÀI – 518H0050 Lớp : 18H50203 Khoá : 22 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 MƠN XỬ LÍ DỮ LIỆU LỚN GIỮA KÌ Người hướng dẫn: BÙI THANH HÙNG Người thực hiện: NGUYỄN VĂN TÀI – 518H0050 Lớp : 18H50203 Khố : 22 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 Tiểu Luận Pro(123docz.net) LỜI CẢM ƠN Để hoàn thành tiểu luận này, em xin gửi lời cảm ơn chân thành đến: Các thầy cô khoa Công nghệ thông tin cung cấp kiến thức tảng để áp dụng nghiên cứu thông tin tiểu luận Em xin bày tỏ lòng biết ơn sâu sắc đến thầy Bùi Thanh Hùng người trực tiếp giảng dạy hướng dẫn tạo điều kiện thuận lợi giúp đỡ em trình thực đề tài Tuy có nhiều cố gắng, chắn tiểu luận em cịn có vài điểm sai sót Rất mong nhận nhận xét, ý kiến đóng góp, phê bình từ phía Thầy để tiểu luận hoàn thiện Xin chân thành cám ơn! Tiểu Luận Pro(123docz.net) LỜI CAM ĐOAN Tôi xin cam đoan sản phẩm đồ án riêng hướng dẫn Bui Thanh Hung Các kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, tiểu luận sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung đồ án Trường đại học Tôn Đức Thắng không liên quan đến vi phạm tác quyền, quyền gây q trình thực (nếu có) TP Hồ Chí Minh, ngày 31 tháng 03 năm 2022 Tác giả (ký tên ghi rõ họ tên) Nguyễn Văn Tài Tiểu Luận Pro(123docz.net) PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận GV hướng dẫn Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) Phần đánh giá GV chấm Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) Tiểu Luận Pro(123docz.net) Tiểu Luận Pro(123docz.net) TÓM TẮT MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii TĨM TẮT iv MỤC LỤC DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ CHƯƠNG I - THU THẬP DỮ LIỆU Viết code cào liệu từ trang Web, lưu kết vào file tương ứng mô tả ngắn gọn cấu trúc trang Web 1.1 Code cào liệu 1.2 Cấu trúc trang Web Với liệu bạn vừa cào về, bạn thực yêu cầu sau: 2.1 Hãy đọc tất thẻ html (div) với lớp "quote" lưu biến 'result’, hiển thị giá trị biến 'result’ hình? 2.2 Hãy tìm biến 'result’ vừa liệu có chứa nhãn "small" với class "author" in kết hình? 2.3 Hãy viết hàm tacgiaLink() để lấy nội dung tác giả Với tác giả in hình nội dung 2.4 Hãy lưu kết câu c vào file Quote.csv tương ứng, với tác giả dòng liệu Bạn yêu cầu thu thập 40 câu nói tiếng từ trang web cách tự động theo code ý trên? CHƯƠNG II - KHAI PHÁ DỮ LIỆU Xử lý liệu- Data Imputation 1.1 Giới thiệu: 1.2 Một số giá trị liệu Trường ngày sinh chưa có, bạn đề xuất cách điền? 1.3 Bạn thêm vào Trường Tuoi (Tuổi) đề xuất cách điền tuổi tác giả? 10 Khám phá liệu- Data Exploration 10 2.1 Giới thiệu 10 2.2 Thống kê tác giả câu nói tiếng có liệu 13 2.3 Thống kê năm sinh độ tuổi tác giả 14 2.4 Thống kê câu nói tiếng như: câu dài nhất, ngắn nhất, số từ 14 2.5 Thống kê từ sử dụng câu nói 2.6 14 Phân tích, trực quan mối quan hệ giữa tác giả câu nói tiếng 14 2.7 Phân tích, trực quan mối quan hệ tác giả với 15 Suy luận 16 3.1 Bạn yêu cầu phân loại câu nói theo tên người tiếng tính độ tương đồng phong cách nói tác giả theo yêu cầu sau:16 3.2 Hãy dự đoán tên người tiếng theo câu nói dựa đặc trưng bạn trích xuất đánh giá liệu cho với tỉ lệ Train/Test độ đo phù hợp? 16 10 CHƯƠNG II - KHAI PHÁ DỮ LIỆU Xử lý liệu- Data Imputation 1.1 Giới thiệu: Missing Data gì? Missing data liệu bị thiếu, hiển thị NaN, Nat, Null, N/A,… Missing Data xuất nhiều nguyên nhân như: Người dùng quên điền Dữ liệu bị q trình chuyển thủ cơng từ sở liệu cũ Lỗi chương trình Thiếu liệu trùng hợp Missing Data phân thành loại: Missing at Random (dữ liệu khuyết ngẫu nhiên) Missing Completely at Random (dữ liệu thiếu hoàn toàn ngẫu nhiên) Missing Not at Random (dữ liệu khuyết không ngẫu nhiên) 1.2 Một số giá trị liệu Trường ngày sinh chưa có, bạn đề xuất cách điền? Thực tế liệu cào trường năm sinh khơng có liệu Nhưng giả định vài trường hợp bị null xử lý sau: Bước : Khởi tạo liệu null Bước : Xử lý liệu null cách giảm số lượng cột dataframe xảy việc liệu => không phù hợp 17 Bước : Trong trường hợp không sử dụng cột “Namsinh”, giải pháp bỏ cột “Namsinh” Nhưng khơng tính tuổi khơng có kiện năm sinh => khơng phù hợp Bước : Loại bỏ liệu không liên quan có ảnh hưởng đến liệu khác Nhưng khơng tính tuổi tác giả => khơng phù hợp Bước : Dùng phương pháp ffill : lấy giá trị dòng chèn xuống dòng Nếu dịng bị null khơng thể thay => không phù hợp Bước : Dùng phương pháp bfill : lấy giá trị dòng chèn lên dòng Nếu dịng bị null khơng thể thay => không phù hợp 18 Bước : Lấy giá trị xuất nhiều mảng thay chỗ cịn lại Do điền tất trường dataframe mà khơng bị bỏ sót => phù hợp 1.3 Bạn thêm vào Trường Tuoi (Tuổi) đề xuất cách điền tuổi tác giả? Khám phá liệu- Data Exploration 2.1 Giới thiệu Pandas thư viện Python cung cấp cấu trúc liệu nhanh, mạnh mẽ, linh hoạt mang hàm ý Tên thư viện bắt nguồn từ panel data (bảng liệu) Pandas thiết kế để làm việc dễ dàng trực quan với liệu có cấu trúc (dạng bảng, đa chiều, có tiềm không đồng nhất) liệu chuỗi thời gian 19 Mục tiêu pandas trở thành khối (building block) cấp cao cho công việc thực tế, phân tích liệu giới thực Python, rộng trở thành công cụ thao tác / phân tích mã nguồn mở mạnh mẽ linh hoạt có sẵn loại ngơn ngữ lập trình Pandas phù hợp với nhiều loại liệu khác nhau: Dữ liệu dạng bảng với cột nhập không đồng nhất, bảng SQL bảng tính Excel Dữ liệu chuỗi thời gian theo thứ tự khơng có thứ tự (khơng thiết phải có tần số cố định) Dữ liệu ma trận tùy ý (được nhập đồng không đồng nhất) với nhãn hàng cột Bất kỳ hình thức khác liệu quan sát / thống kê Dữ liệu thực không cần phải dán nhãn vào cấu trúc liệu pandas Pandas xây dựng dựa NumPy Hai cấu trúc liệu pandas Series (1 chiều) DataFrame (2 chiều) xử lý phần lớn trường hợp điển hình tài chính, thống kê, khoa học xã hội nhiều lĩnh vực kỹ thuật Dưới số chức pandas sử dụng phổ biến : reset_index sort_values 20 groupBy 21 replace head setdefault loc & iloc strptime dropna 10 fillna head() Khi bạn lần nhận liệu mới, bạn muốn nhanh chóng khám phá có cảm giác nội dung Pandas có số phương pháp cho việc Đầu tiên đầu, trả vài hàng DataFrame Chức đầu sử dụng để xem vài hàng liệu sort_values() Điều bạn làm thay đổi thứ tự hàng cách xếp chúng cho liệu thú vị nằm đầu DataFrame Bạn xếp hàng phương pháp sort_values, qua tên cột mà bạn muốn xếp theo reset_index() Nếu bạn muốn chuyển đổi cột liệu làm mục nó, thực thơng qua set_index Trong ví dụ đây, id hành khách đặt làm cột mục Điều hữu ích bạn muốn đặt cột làm mục loc & iloc Với loc iloc, bạn thực hầu hết thao tác lựa chọn liệu DataFrames loc dựa nhãn, có nghĩa bạn phải định hàng cột dựa nhãn hàng cột chúng iloc dựa số số nguyên, bạn phải định 22 hàng cột theo số số nguyên chúng loc iloc cho phép bạn chọn hàng cột từ DataFrame groupBy() Pandas groupBy() hàm sử dụng để chia liệu thành nhóm cách sử dụng số tiêu chí xác định trước Trong ví dụ đây, chúng tơi tính thu nhập trung bình ứng cử viên cách nhóm theo độ tuổi replace() Hàm replace() trả chuỗi ban đầu sau thay chuỗi cũ chuỗi setdefault() Phương thức setdefault() tương tự get(), thiết lập dict[key]=default key không tồn dict strptime() Chuyển kiễu liệu string sang date dropna() Xoá cột chứa liệu rỗng fillna() Điền giá trị NA / NaN phương pháp xác định 23 2.2 Thống kê tác giả câu nói tiếng có liệu Cách tiếp cận: ● Nhóm dataframe theo tác giả ● Đếm số lần xuất tác giả (tương ứng với số câu nói tác giả đó) df.groupby('Tacgia').size().reset_index(name='So cau noi') 2.3 Thống kê năm sinh độ tuổi tác giả Cách tiếp cận: ● Nhóm dataframe theo tác giả ● Hiển thị trường tuổi năm sinh theo tác giả ● Sắp xếp theo thứ tự tăng dần tuổi 2.4 Thống kê câu nói tiếng như: câu dài nhất, ngắn nhất, số từ Cách tiếp cận: ● Đếm số từ câu nói ● Sắp xếp theo thứ tự giảm dần số từ ● Lấy câu có số từ nhiều số từ 24 2.5 Thống kê từ sử dụng câu nói Cách tiếp cận: ● Gộp câu nói lại với (string + string) ● Đếm tần suất từ sau gộp ● Tạo dataframe chứa từ tần suất vừa tính Phân tích, trực quan mối quan hệ giữa tác giả câu nói tiếng 2.6 Cách tiếp cận: ● Bổ sung trường tags cho dataframe ● Tạo kiểu liệu dictionary chứa tác giả (key) tags tác giả (value) 25 ... at Random (dữ liệu khuyết ngẫu nhiên) Missing Completely at Random (dữ liệu thi? ??u hoàn toàn ngẫu nhiên) Missing Not at Random (dữ liệu khuyết không ngẫu nhiên) 1.2 Một số giá trị liệu Trường... loại liệu khác nhau: Dữ liệu dạng bảng với cột nhập khơng đồng nhất, bảng SQL bảng tính Excel Dữ liệu chuỗi thời gian theo thứ tự khơng có thứ tự (khơng thi? ??t phải có tần số cố định) Dữ liệu. .. giả dòng liệu Bạn yêu cầu thu thập 40 câu nói tiếng từ trang web cách tự động theo code ý trên? CHƯƠNG II - KHAI PHÁ DỮ LIỆU Xử lý liệu- Data Imputation 1.1 Giới thi? ??u: 1.2 Một số giá trị liệu Trường