1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Tiền Xử Lý Dữ Liệu Với Data Bengaluru House Prices
Tác giả Nguyễn Khánh, Nguyễn Trọng Nghĩa, Nguyễn Đức Huy, Nguyễn Thị Duyên, Đàm Như Vũ
Người hướng dẫn Lê Diên Tuấn
Trường học Đại học Đà Nẵng
Chuyên ngành Kinh tế
Thể loại báo cáo đồ án
Năm xuất bản 2024
Thành phố Đà Nẵng
Định dạng
Số trang 35
Dung lượng 5,42 MB

Cấu trúc

  • CHƯƠNG I: TỔNG QUAN (7)
    • I. Giới thiệu đề tài (7)
      • 1. Lí do chọn đề tài (7)
      • 2. Mục tiêu nghiên cứu (7)
      • 3. Mô tả dữ liệu (8)
        • 3.1. Nguồn gốc dữ liệu (8)
        • 3.2. Cấu trúc của dữ liệu (8)
        • 3.3. Mô tả bài toán (9)
  • CHƯƠNG II: CƠ SỞ LÝ THUYẾT (9)
    • I. Quy trình nghiên cứu (Framwork) (9)
    • II. Mô tả quy trình (10)
      • 1. Thống kê mô tả (10)
        • 1.1. Count (10)
        • 1.2. Mean (10)
        • 1.3. Std (10)
        • 1.4. Min (10)
        • 1.5. Phân vị thứ nhất (10)
        • 1.6. Trung vị (10)
        • 1.7. Phân vị thứ ba (10)
        • 1.8. Max (11)
        • 2.1. Làm sạch dữ liệu (11)
        • 2.1. Xử lý dữ liệu thiếu (Missing Data) (11)
        • 2.2. nhận diện phần tử biên (Outliers) (11)
        • 2.3. Xử lý dữ liệu bị nhiễu (Noisy Data) (12)
        • 2.4. Xử lý dữ liệu không đồng nhất (Inconsistent Data) (12)
        • 3.1. Biến đổi dữ liệu (12)
        • 3.1. Chuẩn hóa (normalization) (12)
        • 3.2. Xây dựng thêm thuộc tính (14)
        • 4.1. Rời rạc dữ liệu (14)
        • 4.1. Binning (14)
        • 4.2. Cluster Analysis (14)
  • CHƯƠNG III PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU (15)
    • I. Mô tả dataset (15)
      • 1. Khai báo thư viện và upload dữ liệu (15)
      • 2. Làm sạch dữ liệu (17)
        • 2.1. Xử lý dữ liệu thiếu (0)
        • 2.2. Xử lý dữ liệu không nhất quán (0)
          • 2.2.1. Kiểm tra độ nhất quan dữ liệu cột total_sqft (0)
        • 2.3. Nhận diện phần tử biên (0)
      • 3. Biến đổi dữ liệu (21)
        • 3.1. Tạo thêm thuộc tính mới (21)
        • 3.2. Chuẩn hóa dữ liệu (22)
      • 4. Rời rạc hóa dữ liệu (24)
        • 4.3. Binning (26)
        • 5.1. Phân tích khám phá (28)
  • CHƯƠNG IV KẾT LUẬN (33)
    • I. Đánh giá quá trình nghiên cứu (33)
    • II. Đánh giá bộ dữ liệu được xử lý (33)
  • TÀI LIỆU THAM KHẢO................................................................................................28 (34)
  • TÀI LIỆU THAM KHẢO (0)

Nội dung

Bước biến đổi dữ liệu giúp chúng ta chuyển đổi dữ liệu thành định dạngphù hợp để có thể áp dụng các phương pháp phân tích.. ĐỒ ÁN PHÂN TÍCH DỮ LIỆU BẰNG PYTHON NHÓM 113.3.Mô tả bài toán

TỔNG QUAN

Giới thiệu đề tài

1 Lí do chọn đề tài.

Trong những năm gần đây, cùng với sự tăng trưởng về kính tế nhu cầu du lịch tăng cao, Thị trường Ấn Độ đầy tìm năng nó đang phát triển mạnh mẽ và thu hút sự quan tâm của nhiều nhà đầu tư và nhà phân tích Phân tích giá nhà có thể cung cấp thông tin quan trọng về xu hướng thị trường, giúp các nhà đầu tư đưa ra quyết định đúng đắn.

Dù Ấn Độ đang là nước có GDP đầu người kém phát triển nhưng không thể phủ nhận đó là một thị trường biến động mạnh mẽ và phức tạp, điều này tạo ra một môi trường phân tích thú vị và thách thức và việc phân tích giá nhà ở có thể hữu ích cho các công ty bất động sản, các nhà phát triển dự án, hoặc người mua nhà để hiểu rõ hơn về thị trường và đưa ra các quyết định mua bán thông minh Việc tiền xử lý dữ liệu đóng vai trò quan trọng trong việc làm sạch dữ liệu và chuẩn bị nó cho việc phân tích sau này.

Mục đích nghiên cứu đề tài này là muốn làm rõ được tầm quan trọng của dữ liệu trong việc phát triển nền kinh tế Phân tích dữ liệu giúp hiểu rõ các yếu tố ảnh hưởng đến giá nhà ở ở Ấn Độ, từ đó dự đoán xu hướng tăng/giảm của giá nhà trong tương lai Điều này hữu ích cho nhà đầu tư và người mua nhà để đưa ra quyết định đầu tư và mua bán nhà thông minh và có thể giúp xác định những yếu tố quyết định giá nhà ở ở Ấn Độ như vị trí, diện tích, tiện ích xung quanh, hạ tầng, v.v Điều này giúp người quản lý bất động sản và nhà phát triển dự án hiểu rõ hơn nhu cầu của thị trường và tối ưu hóa chiến lược kinh doanh của họ

Và cuối cùng thông qua việc tiền xử lý dữ liệu chúng em có thể hiểu xâu hơn về các bước quan trọng như làm sạch dữ liệu, biến đổi dữ liệu và rời rạc hóa dữ liệu Bước làm sạch dữ liệu giúp loại bỏ dữ liệu nhiễu, xử lý dữ liệu bị thiếu và loại bỏ các giá trị không hợp lệ Bước biến đổi dữ liệu giúp chúng ta chuyển đổi dữ liệu thành định dạng phù hợp để có thể áp dụng các phương pháp phân tích Cuối cùng, việc rời rạc hóa dữ liệu giúp chúng ta phân loại dữ liệu thành các nhóm, từ đó làm cho dữ liệu trở nên sạch và đáng tin cậy hơn.

Những bước này cùng nhau đã cải thiện chất lượng và độ chính xác của quá trình nghiên cứu Dữ liệu sau khi qua các bước tiền xử lý này trở nên dễ dàng hơn trong việc áp dụng các phương pháp phân tích và đưa ra những kết luận có ý nghĩa hơn Qua việc phân cụm và phân loại, chúng ta có thể nhìn thấy cách mà giá nhà được nhóm thành các nhóm giá trị khác nhau, từ đó có thể đưa ra thông tin hữu ích cho quyết định về giá nhà trong tương lai.

Bộ dữ liệu này chứa đựng các thông tin liên quan đến giá nhà ở của bang Bengaluru ở Ấn độ năm 2017 nó cung cấp các thông tin về giá, diện tích nhà ở, số phòng và vị trí,

Data được lấy từ trang : Kaggle.com

3.2 Cấu trúc của dữ liệu:

Tên trường dữ liệu Kiểu dữ liệu

Availability Nhà còn hoạt động object

Total_sqft Tổng diện tích object

Bath Số phòng ngủ float64

Balcony Số ban công float64

Sử dụng ngôn ngữ lập trình Python và các thư viện của Python như: Numpy, Pandas, matplotlib.pyplot, scipy và phần mềm Jupyter Notebook để thực hiện.

Phân tích làm sạch dữ liệu và sử dụng python để phân tích dữ liệu Thực hiện nhóm dữ liệu theo vị trí,và thực hiện các chức năng phân tích để đưa ra các số liệu có ý nghĩa cho dữ liệu.

CƠ SỞ LÝ THUYẾT

Quy trình nghiên cứu (Framwork)

Mô tả quy trình

Thống kê mô tả là bước đầu tiên và cơ bản trong quá trình phân tích dữ liệu, dùng các thuật toán khác nhau để thông kê và mô tả dữ liệu giúp chúng ta hiểu rõ hơn về bản chất và cấu trúc của dữ liệu thông qua các số liệu thống kê đơn giản.

"Count" đề cập đến việc đếm số lượng các mục không rỗng hay không null trong mỗi cột của bộ dữ liệu

"Mean" hay giá trị trung bình, được tính bằng cách cộng tổng tất cả các giá trị trong cột và chia cho số lượng các giá trị đó

"Std" viết tắt của "Standard Deviation" hay độ lệch chuẩn, là một thước đo về mức độ phân tán của dữ liệu so với giá trị trung bình

"Min" chỉ giá trị nhỏ nhất tìm thấy trong mỗi cột Đây là thông tin quan trọng vì nó cho thấy giới hạn dưới của dữ liệu và có thể giúp xác định các giá trị cực trị hoặc outliers.

Phân vị thứ 25, hay tử phân vị đầu tiên, là giá trị mà tại đó 25% dữ liệu nằm dưới nó Đây là một cách đo lường sự phân phối của dữ liệu và cung cấp thông tin về sự tập trung dữ liệu ở phía dưới của phổ.

Phân vị thứ 50, hay còn gọi là trung vị, là giá trị ở giữa khi dữ liệu đã được sắp xếp theo thứ tự Trung vị không bị ảnh hưởng bởi các giá trị cực trị và thường được sử dụng như một đại diện tốt hơn cho xu hướng trung tâm khi dữ liệu không đối xứng

Phân vị thứ 75, hay tứ phân vị thứ ba, là giá trị mà tại đó 75% dữ liệu nằm dưới nó Điều này cung cấp cái nhìn về sự tập trung dữ liệu ở phía trên của phổ.

"Max" chỉ giá trị lớn nhất trong mỗi cột Đây là thông tin cần thiết để hiểu về giới hạn trên của dữ liệu và cũng có thể dùng để phát hiện các giá trị cực trị hoặc outliers.

2.1 Xử lý dữ liệu thiếu (Missing Data)

Dữ liệu thiếu là tình trạng thông tin không đầy đủ, gây khó khăn trong phân tích và mô hình hóa Các phương pháp để xử lý tình trạng này, bao gồm:

Loại bỏ: Đơn giản nhất là loại bỏ những hàng hoặc cột chứa dữ liệu thiếu, phù hợp khi lượng dữ liệu thiếu không đáng kể.

Imputation: Điền vào dữ liệu thiếu bằng cách sử dụng giá trị trung bình, trung vị, hoặc mốt, hoặc sử dụng các phương pháp phức tạp hơn như imputation đa biến

Phân tích: Đánh giá ảnh hưởng của dữ liệu thiếu đến kết quả phân tích để hiểu cách thức và mức độ mà nó có thể ảnh hưởng.

2.2 nhận diện phần tử biên (Outliers)

Phần tử biên là những quan sát lệch lạc so với phần còn lại của dữ liệu, có thể là do sai sót hoặc biến thể tự nhiên.

Phân bố thống kê: Sử dụng các phép đo thống kê như Z-scores để đánh giá mức độ lệch của dữ liệu từ trung bình.

Khoảng cách: Tính toán khoảng cách giữa các điểm dữ liệu và tìm kiếm những điểm cách biệt.

Mật độ: Phân tích mật độ dữ liệu để xác định các vùng mật độ thấp, nơi outliers có thể tồn tại. Độ lệch: Đánh giá mức độ độ lệch của dữ liệu từ một mô hình dự đoán hoặc xu hướng cụ thể.

Quan sát boxplot: Hiển thị phân phối của dữ liệu qua các quartiles và "râu" của boxplot thường được sử dụng để xác định giá trị ngoại lai Những điểm nằm ngoài "râu" thường được coi là outliers.

2.3 Xử lý dữ liệu bị nhiễu (Noisy Data)

Dữ liệu nhiễu là những quan sát sai lệch không có mô hình nhất định, thường xuất hiện do sai sót đo lường hoặc ghi chép.

IQR (Interquartile Range): Sử dụng phạm vi giữa tử phân vị thứ nhất và thứ ba để xác định và loại bỏ outliers. Độ lệch chuẩn: Loại bỏ dữ liệu nằm ngoài một số lượng độ lệch chuẩn nhất định từ trung bình.

Z-scores: Dùng điểm Z để xác định dữ liệu có giá trị cao hoặc thấp bất thường so với trung bình.

2.4 Xử lý dữ liệu không đồng nhất (Inconsistent Data)

Dữ liệu không nhất quản xuất hiện khi có sự không đồng nhất về định dạng, kiểu dữ liệu, hoặc khi dữ liệu bị lặp lại.

Chuẩn hóa: Đồng bộ hóa định dạng và kiểu dữ liệu để tất cả dữ liệu đều theo một tiêu chuẩn chung.

Làm sạch dữ liệu: Áp dụng các quy trình để kiểm tra và sửa chữa những không nhất quán trong dữ liệu.

Phân tích sự phụ thuộc: Xác định các mối quan hệ và sự phụ thuộc giữa các thuộc tính để phát hiện và giải quyết sự không nhất quán.

Biến đổi dữ liệu: quá trình biến đổi hay kết hợp dữ liệu vào những dạng thích hợp cho quá trình phân tích và khai phá dữ liệu

Chuẩn hóa dữ liệu là một kỹ thuật được sử dụng trong khai thác dữ liệu để chuyển đổi các giá trị của tập dữ liệu thành thang đo chung Điều này rất quan trọng vì nhiều thuật toán học máy rất nhạy cảm với quy mô của các tính năng đầu vào và có thể tạo ra kết quả tốt hơn khi dữ liệu được chuẩn hóa

Có một số kỹ thuật chuẩn hóa khác nhau có thể được sử dụng trong khai thác dữ liệu, bao gồm:

Chuẩn hóa min-max: Kỹ thuật này chia tỷ lệ các giá trị của một đối tượng thành một phạm vi từ 0 đến 1 Điều này được thực hiện bằng cách trừ giá trị tối thiểu của đối tượng khỏi mỗi giá trị, sau đó chia cho phạm vi của đối tượng

Chuẩn hóa điểm Z: Kỹ thuật này chia tỷ lệ các giá trị của một đối tượng để có giá trị trung bình là 0 và độ lệch chuẩn là 1 Điều này được thực hiện bằng cách trừ giá trị trung bình của đối tượng khỏi mỗi giá trị, sau đó chia cho độ lệch chuẩn.

Chia tỷ lệ thập phân: Kỹ thuật này chia tỷ lệ các giá trị của một đối tượng bằng cách chia các giá trị của đối tượng cho lũy thừa

PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU

Mô tả dataset

1 Khai báo thư viện và upload dữ liệu

Khai báo thư viện import pandas pdas upload dữ liệu data = pd.read_csv("bengaluru_house_prices.csv")

Hình 2 Khai báo dữ liệu

Hình 3 Kết quả khai báo

Kiểu dữ liệu của từng cột: o availability: object (chuỗi) o location: object (chuỗi) o size: object (chuỗi) o society: object (chuỗi) o total_sqft: object (chuỗi) o bath: float64 (số thực) o balcony: float64 (số thực) o price: float64 (số thực)

Tổng số giá trị thiếu: 6201

Thống kê cơ bản: o Giá trị trung bình của bath là 2.69, balcony là 1.58 và price là 112.56.

10 o Độ lệch chuẩn của price cao nhất (148.97), cho thấy sự phân tán lớn trong giá cả. o Bách phân vị 25%, 50% và 75% cho thấy giá trị trung bình của bath và balcony nằm ở mức 2, giá trị trung bình của price nằm ở mức 72.

II.1 Xử lý dữ liệu thiếu

Hình 4 Xử lý dữ liệu thiếu

Sử dụng hàm isnull().sum() để tính tổng số giá trị thiếu cho mỗi cột trong một khung dữ liệu Pandas ta nhận thấy có 5 trường dữ liệu bị missing value là: location: 1 size: 16 society: 5502 bath: 73 balcony: 609

Tuy nhiên đối với cột society bị missing value nhiều nên ta sẽ tiến hành loại bỏ cột này khỏi bộ dữ liệu bằng cách sử dụng hàm drop(), còn đối với 4 cột bị missing value với số lượng ít hơn nhóm sẽ tiến hành xử lý bằng cách chọn những hàng mà có giá trị thiếu để xóa luôn hàng đó, bởi vì trong trường hợp của bảng dữ liệu này nếu ta thay bằng các giá trị trung bình, trung vị thì có thể không phản ánh chính xác thực tế của các con số đấy.

II.2 Xử lý dữ liệu không nhất quán

II.2.1 Kiểm tra độ nhất quan dữ liệu cột total_sqft

Hình 5 Xử lý dữ ;iệu không nhất quán

Dựa trên kết quả phân tích tính nhất quán và hợp lý của cột dữ liệu:

Có dấu hiệu bất thường, chưa đồng nhất cùng dạng cấu trúc, nên ta sẽ chuyển đổi các giá trị trong cột từ dạng chuỗi sang dạng số thực và loại bỏ các hàng có giá trị không hợp lệ

Mục đích của việc chuyển đổi là để tiện cho việc xử lý dữ liệu cho các mục đích tiếp sau đó

Như vậy cần phải tiến hành chuẩn hóa dựa trên kết quả phân tích trên Kết quả

Hình 6 Kết quả xử lý dữ liệu không nhất quán

II.3 Nhận diện phần tử biên

Hình 7 Nhận diện phần tử biên

Hình 8 Kết quả nhận diện phần tử biên Đánh giá kết quả

Biểu đồ boxplot cho mỗi cột số Trong mỗi biểu đồ:

Dòng ngang ở giữa hộp là giá trị trung vị của dữ liệu.

Các cạnh của hộp thể hiện phạm vi từ Q1 đến Q3, tức là từ phân vị 25% đến 75% của dữ liệu.

Các đường ngang (whiskers) mở rộng ra từ hộp thể hiện phạm vi của dữ liệu, ngoại trừ các outliers.

Các điểm nằm ngoài whiskers là các giá trị ngoại lệ (outliers).

Các outliers này có thể là do lỗi đo lường, sai sót trong dữ liệu hoặc thực sự phản ánh sự biến thiên lớn trong dữ liệu.

Hình 10 Kết quả loại bỏ Outliers Ở đây nhóm sử dụng phương pháp dựa trên khoảng tứ phân vị (IQR) để xác định và loại bỏ các giá trị ngoại lai So sánh với df trước và sau khi loại bỏ outliers thì ta thấy biểu đồ boxplot sau khi loại bỏ các giá trị ngoại lai có độ phân bố dữ liệu tập trung hơn.

3.1 Tạo thêm thuộc tính mới

Vì thuộc tính size không đồng nhất với nhau về đơn vị: BHK và Bedroom Tuy nhiên nhóm em lựa chọn giữ nguyên cột vì BHK hay bedrooms là đơn vị do bên cung cấp ghi lại Vì thế nhóm chọn tạo thêm một thuộc tính mới là “bedrooms” sẽ chứa các dữ liệu là số lượng phòng ngủ của ngôi nhà Nhóm sẽ tách chuỗi ở cột dữ liệu “size” để lấy con số xuất hiện trong chuỗi, sau đó gán cho cột “bedrooms”.

Sau đây là thuật toán và kết quả được trả về:

Hình 11 Tạo thuộc tính mới(1)

Tiếp theo, nhóm sẽ tạo một cột dữ liệu khác là giá tiền/diện tích Các đơn vị tiền là vạn rupees, vì thế nhóm sẽ nhân giá tiền lên 10000, sau đó chia cho diện tích của từng bản ghi

Sau đây là thuật toán và kết quả:

Hình 12 Tạo thuộc tính mới (2)

Nhận thấy rằng dữ liệu về giá nhà là dữ liệu biến động, không tuân theo phân phối chuẩn Do đó, nhóm lựa chọn phương pháp chuẩn hóa Min-Max để đưa dữ liệu về cùng một phạm vi.

Hình 13 Thuật toán chuẩn hóa Min - Max

Dữ liệu sau khi được chuẩn hóa:

Hình 14 Kết quả sau khi chuẩn hóa

Quan sát dữ liệu trên biểu đồ Boxplot:

Hình 15 Boxlot của bảng dữ liệu sau khi chuẩn hóa

Sau khi chuẩn hóa Min-Max, tất cả các giá trị của dữ liệu nằm trong phạm vi

Sau khi chuẩn hóa Min-Max, độ lệch chuẩn của các thuộc tính trở nên tương đồng nhau, cho thấy rằng các thuộc tính giờ đây có cùng tầm quan trọng trong quá trình phân tích và có thể so sánh với nhau.

4 Rời rạc hóa dữ liệu

Cluster sẽ chia các cụm dữ liệu theo bản chất của dữ liệu Ở đây chúng tôi dùng K-means để thực hiện phân cụm

Sau khi thực hiện phân cụm, chúng tôi thực hiện tạo một cột dữ liệu phân loại giá nhà:

Giá rẻ là giá thấp hơn giá tiền trung bình

Giá trung bình là giá thấp hơn giá cao (giá cao bằng giá trị trung bình cộng với độ lệch chuẩn)

Những dữ liệu còn lại được xếp vào giá cao

Hình 16 Thuật toán Cluster Analysis

Hình 17 Kết quả thực hiện Cluster Analysis

Các bản ghi đã được sắp xếp vào cột “cluster” và cột “category”

Các căn nhà trong cùng một nhóm có xu hướng có giá nhà tương đối gần nhau.Trong khi đó, giữa các nhóm, có sự chênh lệch đáng kể về mức giá.

Có thể thấy một số nhóm có số lượng căn nhà nhiều hơn so với các nhóm khác, phương pháp này có thể chỉ ra một nhóm dữ liệu có mức giá phổ biến hơn.

Binning cho phép người dùng chủ động trong việc kiểm soát các giá trị của cụm trong dữ liệu Vì thế chúng tôi thực hiện describe dữ liệu để tìm các khoảng phù hợp.

Hình 18 Describe dữ liệu (Binning)

Dựa vào kết quả, chúng tôi quyết định sẽ tạo các bins của cột “price” gồm: 0-40, 40-80, 80-120, 120-160 và 160-200

Thuật toán và kết quả:

- Các giá trị của “Price” thay vì liên tục đã được rời rạc thành các cụm tương ứng.

- Giúp cho việc phân tích và trực quan hóa dữ liệu dễ dàng hơn.

- Dữ liệu giờ đây trở thành các nhóm có ý nghĩa về mức độ giá trị, thích hợp cho việc xây dựng mô hình hoặc hiểu biết về dữ liệu.

- Dữ liệu đã được chuẩn bị sẵn sàng cho các phân tích tiếp theo như phân tích phân cụm,phân tích đặc trưng, hoặc xây dựng mô hình.

Hình 20 Phân phối của giá nhà

Phân phối bị lệch về phía bên trái, điều này có nghĩa là có một số lượng lớn nhà có giá thấp, trong khi nhà có giá cao hơn là ít hơn. Đỉnh của biểu đồ tập trung ở khoảng giá từ 40 đến 60, cho thấy đây là mức giá phổ biến nhất. Đuôi của biểu đồ kéo dài đến khoảng 175, cho thấy sự tồn tại của nhà với giá cao, nhưng với số lượng ít hơn rất nhiều.

Hình 21 Phân phối giá nhà theo tình trạng sẵn sàng

Nhà ở tình trạng “Ready To Move” có số lượng cao hơn ở đỉnh phân phối so với nhà “Not Ready”, có thể do nhu cầu về nhà ở ở vùng giá này thấp hơn hoặc sự sẵn có nhiều hơn.

Ngày đăng: 03/06/2024, 13:45

HÌNH ẢNH LIÊN QUAN

Hình 1 Framwork - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 1 Framwork (Trang 9)
Hình 2 Khai báo dữ liệu - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 2 Khai báo dữ liệu (Trang 15)
Hình 3 Kết quả khai báo - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 3 Kết quả khai báo (Trang 16)
Hình 4 Xử lý dữ liệu thiếu - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 4 Xử lý dữ liệu thiếu (Trang 17)
Hình 5 Xử lý dữ ;iệu không nhất quán - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 5 Xử lý dữ ;iệu không nhất quán (Trang 18)
Hình 6 Kết quả xử lý dữ liệu không nhất quán - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 6 Kết quả xử lý dữ liệu không nhất quán (Trang 19)
Hình 7 Nhận diện phần tử biên - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 7 Nhận diện phần tử biên (Trang 19)
Hình 8 Kết quả nhận diện phần tử biên - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 8 Kết quả nhận diện phần tử biên (Trang 20)
Hình 9 Loại bỏ Outliers - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 9 Loại bỏ Outliers (Trang 21)
Hình 10 Kết quả loại bỏ Outliers - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 10 Kết quả loại bỏ Outliers (Trang 21)
Hình 14 Kết quả sau khi chuẩn hóa - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 14 Kết quả sau khi chuẩn hóa (Trang 23)
Hình 15 Boxlot của bảng dữ liệu sau khi chuẩn hóa - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 15 Boxlot của bảng dữ liệu sau khi chuẩn hóa (Trang 24)
Hình 16 Thuật toán Cluster Analysis - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 16 Thuật toán Cluster Analysis (Trang 25)
Hình 18 Describe dữ liệu (Binning) - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 18 Describe dữ liệu (Binning) (Trang 26)
Hình 19 Binning dữ liệu - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 19 Binning dữ liệu (Trang 27)
Hình 20 Phân phối của giá nhà - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 20 Phân phối của giá nhà (Trang 28)
Hình 21 Phân phối giá nhà theo tình trạng sẵn sàng - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 21 Phân phối giá nhà theo tình trạng sẵn sàng (Trang 29)
Hình 22 Phân tích số lượng nhà dựa trên các loại diện tích - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 22 Phân tích số lượng nhà dựa trên các loại diện tích (Trang 30)
Hình 23 Phân phối loại diện tích theo mức giá - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 23 Phân phối loại diện tích theo mức giá (Trang 31)
Hình 24 Phân phối nhà ở theo giá và số lượng phòng ngủ - tiểu luận phân tích dữ liệu tiền xử lý dữ liệu với databengaluru house prices data preprocessing
Hình 24 Phân phối nhà ở theo giá và số lượng phòng ngủ (Trang 32)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w