Huấn luyện model:

Một phần của tài liệu TÌM HIỂU VỀ MACHINE LEARNING VÀỨNG DỤNG VÀO VIỆC DỰ ĐOÁN GIÁ NHÀ (Báo cáo đồ án 2 ) (Trang 128 - 132)

b. Nhược điểm:

4.3 Huấn luyện model:

Đầu tiên ta từ tập dữ liệu lớn ban đầu lớn thành 2 tập dữ liệu: Dữ liệu đầu vào và dữ liệu đầu ra

Và cụ thể ở đây dữ liệu đầu ra là giá nhà(price) và dữ liệu đầu vào là các trường còn lại của bộ dữ liệu sau khi đã làm sạch:

Sau đó tách tập dữ liệu đầu vào X thành 2 phần X train, X test và Y thành 2 phần Y train, Y test

Sau đó tiến hành giảm chiều dữ liệu. Sở dĩ chúng ta cần phải giảm chiều dữ liệu là tại vì trường mà ta dự đoán ở đây là giá nhà, chỉ có giá trị trong khoảng từ 1~10 và những cột khác như balcony chỉ có giá trị 0 và 1 , trong khi đó giá trị của cột diện tích khá lớn( khoảng từ 10 - 100) những vector dữ liệu này chênh lệch khá lớn, chính vì thế nên ta phải giảm chiều dữ liệu hay còn gọi là feature scaling.

Có 2 cách để chuẩn hóa dữ liệu là standardisation và normalistion. Normalisation được áp dụng trong trường hợp tập dữ liệu phân phối đều hết ở các cột phân phối đều nó sẽ giảm chiều dữ liệu xuống, và những giá trị bị giảm chiều sẽ nằm trong khoảng [0,1] . Còn standardisation thì áp dụng cho tất cả các trường hợp bao gồm cho những trường hợp của normalisation luôn, phương pháp này sẽ giảm chiều dữ liệu xuống, những giá trị sẽ nằm trong miền giá trị [-3,3] Tập dữ liệu mà nhóm em nghiên cứu không phân phối đều nên chính về thế nhóm em áp dụng phương pháp chuẩn hóa standardization.

Vì bài toán nhóm nghiên cứu là dự đoán giá trị (dự đoán giá nhà dựa trên các thuộc tính ban đầu) Nên những thuật toán trong hồi quy (Regression) sẽ được áp dụng. Cụ thể ở đây nhóm dùng thuật toán support vector regression. Thật ra cũng có thể dùng hồi quy đa thức tại vì cả 2 thuật toán đều sẽ vẽ lên những đường cong trong không gian và cố tìm cách sao cho đường thẳng này fit nhất so với tập dữ liệu mà ta huấn luyện. Nhưng support vector regression sẽ tối ưu hơn trong không gian đa chiều, và nó hiệu quả trong việc lưu trữ bộ nhớ. Nên nhóm sẽ dùng support vector regression để huấn luyện.

Một phần của tài liệu TÌM HIỂU VỀ MACHINE LEARNING VÀỨNG DỤNG VÀO VIỆC DỰ ĐOÁN GIÁ NHÀ (Báo cáo đồ án 2 ) (Trang 128 - 132)

Tải bản đầy đủ (PDF)

(136 trang)