D/ So Sánh Với Nhãn Hiện Có Và Nhận Xét:
A/ Đánh Giá và Lựa Chọn Mơ Hình Phân Lớp
Đầu tiên, file dữ liệu sẽ được đọc vào phần mềm Orange và biến Area type được chọn để làm biến target cho quá trình phân lớp. Hình bên dưới cho ta thấy được tổng quan dữ liệu đầu vào mà ta sẽ xử lý.
34 | K h o a h ọ c d ữ l i ệ u
Ta được bảng dữ liệu như sau:
Hình 4. 2 Bảng dữ liệu chi tiết
Từ bảng dữ liệu, các mơ hình phân lớp khác nhau sẽ được thử nghiệm và đánh giá để có thể chọn ra mơ hình tốt nhất. Chi tiết tham số cho từng mơ hình như sau:
35 | K h o a h ọ c d ữ l i ệ u
Hình 4. 4 Tham số của mơ hình hồi quy Logistics
36 | K h o a h ọ c d ữ l i ệ u
Hình 4. 6 Tham số của mơ hình Support Vector Machine (SVM)
37 | K h o a h ọ c d ữ l i ệ u
Sau đó, với mỗi mơ hình, ta sẽ kiểm tra và đánh giá, kết quả đạt được như sau:
Hình 4. 8 Bảng kết quả đánh giá của các mơ hình
Dựa vào kết quả test and score từ phần mềm Orange, có thể thấy thuật tốn với bộ chỉ số đánh giá cao nhất là Mạng Nơron - Neural Network: 0.86 AUC, 0.804 CA, 0.803 F1, 0.807 Precision và 0.804 Recall. Vì vậy nhóm quyết định chọn sử dụng mơ hình Neural Network để tiến hành phân lớp.
B/ Mơ Hình Mạng Neuron
- Khái niệm:
Mạng nơ-ron, cịn được gọi là mạng nơ-ron nhân tạo (ANN) hoặc mạng nơ-ron mơ phỏng (SNN), là một mơ hình quản lý thông tin được vận hành bằng cách mô phỏng lại hệ thống thần kinh sinh học của não bộ và cách các tế bào thần kinh hoạt động cùng nhau để hiểu đầu vào từ các giác quan của con người.
Mạng Nơron được xây dựng từ các nút nơron và những kết nối giữa những nút này, trong đó Mỗi nút này sẽ đại diện cho một hàm đầu ra cụ thể còn các kết nối giữa các nút sẽ đại diện cho mức độ ảnh hưởng của nút đó lên các nút xung quanh và được gán trọng số tương ứng. Chính vì vậy, kết quả đầu ra của một mạng Nơron nhân tạo sẽ phụ thuộc vào cách mà các nút trong mạng được kết nối và trọng số tương ứng với những kết nối này. Mạng Nơron đã được ứng dụng trong nhiều lĩnh vực đa dạng như: phân loại các chữ số viết tay, nhận dạng giọng nói và dự đốn giá cổ phiếu, xếp hạng tín dụng, phân tích hành vi khách hàng, hỗ trợ ra quyết định, dự đoán tỷ giá hối đoái và lãi suất,... Ưu điểm của mạng Nơron nhân tạo là khả năng xấp xỉ các hàm phi tuyến, nhờ đó có thể phát hiện những mối liên hệ phức tạp ẩn trong dữ liệu. Tuy nhiên, hiệu năng của mạng Nơron nhân
38 | K h o a h ọ c d ữ l i ệ u
tạo lại phụ thuộc nhiều vào cấu trúc mạng mà việc tìm ra cấu trúc tối ưu thường phức tạp và tốn nhiều tài nguyên.
- Cách thức hoạt động:
Mỗi một nút Nơron có thể được xem như là một mơ hình hồi quy tuyến tính riêng biệt, bao gồm dữ liệu đầu vào, trọng số, độ lệch (hoặc ngưỡng) và đầu ra.
Hình 4. 9 Cơng thức của Mơ hình mạng Neuron
Hình 4. 10 Cơng thức của Mơ hình mạng Neuron
Khi một lớp đầu vào được xác định, trọng số sẽ được chỉ định. Các trọng số này giúp xác định tầm quan trọng của bất kỳ biến nhất định nào, với những biến lớn hơn đóng góp đáng kể hơn vào đầu ra so với các đầu vào khác. Tất cả các đầu vào sau đó được nhân với trọng số tương ứng của chúng và sau đó được cộng lại với nhau. Sau đó, đầu ra được chuyển qua một hàm kích hoạt và hàm này sẽ xác định đầu ra. Nếu đầu ra đó vượt quá một ngưỡng nhất định, nó sẽ kích hoạt nút truyền dữ liệu đến lớp tiếp theo trong mạng. Điều này dẫn đến kết quả đầu ra của một nút trở thành đầu vào của nút tiếp theo.
39 | K h o a h ọ c d ữ l i ệ u
40 | K h o a h ọ c d ữ l i ệ u
- Dự đoán phân lớp và so sánh kết quả dự đoán với dữ liệu ban đầu
Trích ra 10% data (476 rows) từ data đã tiền xử lý (4744 rows) để dự đoán (đã skip cột Area Type).
Sau khi so sánh với dữ liệu có nhãn, ta nhận được 83% tỷ lệ chính xác. Một tỷ lệ chính xác cao và chấp nhận được.
41 | K h o a h ọ c d ữ l i ệ u
C/ Workflow, code Python (link Colab)
Hình 4. 13 Workflow
42 | K h o a h ọ c d ữ l i ệ u D/ Data
Dữ liệu predict: Prediction.xlsx - Google Trang tính
Dữ liệu đã tiền xử lý: happiness_cleaned.xlsx - Google Trang tính Dữ liệu trích ra 20%: Sample.xlsx - Google Trang tính
43 | K h o a h ọ c d ữ l i ệ u 6. Phụ Lục
A/ Tài liệu tham khảo:
https://scikit-learn.org/stable/auto_examples/cluster/plot_linkage_comparison.html https://stats.stackexchange.com/questions/195446/choosing-the-right-linkage- method-for-hierarchical-clustering
https://nlp.stanford.edu/IR-book/completelink.html Slide bài giảng về phân cụm
https://www.kaggle.com/datasets/iamsouravbanerjee/house-rent-prediction- dataset?fbclid=IwAR1oPJHTh0r_XRDVnBOvSozqYAAUDP5hm1AednbTlPc GERFmWTZsqyn-jJY