b. Nhược điểm:
3.2.2 Xây dựng tính năng
Đầu tiên sẽ là thu thập dữ liệu, ở đây nhóm sẽ đi cào dữ liệu những bình luận mục thiết bị công nghệ của tiki.
Sau khi thu thập xong, ta tiến hành dán nhãn thủ công, ở đây có 2 loại nhãn là 0 và 1 tương ứng là bình luận tiêu cực và bình luận tích cực.
Data sau khi đã dán nhãn xong:
Ta tiến hành làm sạch các bình luận bằng cách chuyển chúng sang lowercase cùng với đó là loại bỏ các ký tự đặc biệt như dấu chấm, dấu phẩy, dấu chấm than,...
Data trước và sau khi được làm sạch:
Sau đó ta sẽ chuyển những bình luận này về dưới dạng vector ma trận.
Ví dụ về vector ma trận:
Sau đó ta chia dữ liệu ra làm 2 phần, phần test và phần train với tỷ lệ là 20% và 80% và tiến hành training.
Sau khi train xong, ta được một model có thể dự đoán bình luận với độ chính xác là 71.23%.
Thử nhập thử một câu để cho model dự đoán thử.
Ở đây model dự đoán chính xác. Số 0 đại diện cho nhãn tiêu cực. Câu “Sản phẩm này không tốt” là một câu tiêu cực.
Chương 4. Ứng dụng thuật toán đã tìm hiểu vào dự đoán giá nhà 4.1 Thu thập dữ liệu:
Có rất nhiều trang về bất động sản cho phép chúng ta có thể đăng tải thông tin rao vặt, buôn bán - cho thuê bất động sản miễn phí và uy tín trong cộng đồng kinh doanh nhà đất.
Để thu thập dữ liệu để huấn luyện cho model, nhóm đã chọn lựa từ nhiều website và nhận thấy một trang web chất lượng cung cấp thông tin về các bất động sản là rever.vn nên quyết định sẽ lấy dữ liệu từ đây, với đối tượng là các bất động sản ở thành phố Hồ Chí Minh.
Nhóm sử dụng inspector để lấy vị trí những thông tin cần thiết
Sau đó chạy qua tất cả các đường dẫn để lấy dữ liệu của trang Rever này về.
Dữ liệu được lấy về bằng cách sử dụng các thư viện có sẵn của ngôn ngữ Python với công cụ là trình biên dịch Google Colab.
pandas và numpy là những thư viện khá phổ biến khi khi chúng ta làm việc với Dataframe trong quá trình xử lý. Trong khi đó, thư viện request giúp hỗ trợ gửi http request để lấy dữ liệu về từ các website. Và do dữ liệu lấy thường dưới dạng html, chúng ta sẽ sử dụng thư viện bs4 giúp dễ dàng thao tác với các tag của html, thuận tiện trong quá trình trích xuất thông tin giữa các thẻ.
Sau khi trích xuất thông tin và lưu vào mảng dữ liệu, chúng ta sẽ chuyển đổi sang dạng Dataframe.
Cuối cùng là xuất Dataframe ra file csv, ta được file như sau: