LỜI CẢM ƠN Em xin gửi lời tri ân và lòng biết ơn sâu sắc đến Thầy Trần Nhật Quang và Cô Lê Thị Minh Châu - những người thầy/cô đã nhiệt tình và luôn hỗ trợ tận tâm với chúng em trong qu
Trang 1THÀNH PHỐ HỒ CHÍ MINH
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
LÊ VĂN PHÚ
S K L 0 1 3 8 5 2
ĐỒ ÁN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN KHOÁ LUẬN TỐT NGHIỆP
-
Đề Tài:
KHOÁ LUẬN TỐT NGHIỆP KỸ SƯ KỸ THUẬT DỮ LIỆU
GIÁO VIÊN HƯỚNG DẪN TRẦN NHẬT QUANG
KHOÁ 2020 - 2024
DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN
SỬ DỤNG HỌC MÁY PHAN VĂN THẠCH QUANG – 20133083
LÊ VĂN PHÚ - 20133078
Trang 3PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Họ và tên Sinh viên 1: Phan Văn Thạch Quang MSSV 1: 20133083
Họ và tên Sinh viên 2: Lê Văn Phú MSSV 2: 20133078
Ngành: Kỹ thuật Dữ liệu
Tên đề tài:Dự Đoán Giá Bất Động Sản Sử Dụng Học Máy
Họ và tên Giáo viên hướng dẫn: Trần Nhật Quang
Tp Hồ Chí Minh, ngày tháng năm 2024
Giáo viên hướng dẫn
(Ký & ghi rõ họ tên)
Trang 4PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Họ và tên Sinh viên 1: Phan Văn Thạch Quang MSSV 1: 20133083
Họ và tên Sinh viên 2: Lê Văn Phú MSSV 2: 20133078
Ngành: Kỹ thuật Dữ liệu
Tên đề tài:Dự Đoán Giá Bất Động Sản Sử Dụng Học Máy
Họ và tên Giáo viên phản biện: Lê Thị Minh Châu
Tp Hồ Chí Minh, ngày tháng năm 2024
Giáo viên phản biện
(Ký & ghi rõ họ tên)
Trang 5LỜI CẢM ƠN
Em xin gửi lời tri ân và lòng biết ơn sâu sắc đến Thầy Trần Nhật Quang và Cô Lê Thị Minh Châu - những người thầy/cô đã nhiệt tình và luôn hỗ trợ tận tâm với chúng
em trong quá trình thực hiện khoá luận tốt nghiệp ngành kỹ thuật dữ liệu:
Dự Đoán Giá Bất Động Sản Sử Dụng Học Máy
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến giảng viên hướng dẫn khoá luận: thầy Trận Nhật Quang, người đã là nguồn động viên và người hướng dẫn tận tâm của chúng em trong suốt quá trình nghiên cứu và thực hiện đề tài Những kiến thức chuyên sâu và kinh nghiệm thực tế mà thầy chia sẻ đã giúp chúng em hiểu rõ hơn về quy trình,
kỹ thuật thu thập dữ liệu, phương pháp xây dựng mô hình học máy, đánh giá kết quả
và hoàn thành khoá luận này một cách suôn sẻ
Ngoài ra, em cũng muốn bày tỏ lòng biết ơn đặc biệt đến giảng viên phản biện: cô
Lê Thị Minh Châu - người đã đảm nhận vai trò người phản biện và đưa ra nhận xét, đánh giá cho khoá luận của chúng em Những nhận xét sâu sắc và xây dựng của cô không chỉ giúp chúng em nhìn nhận đề tài của mình một cách toàn diện hơn mà còn đưa ra những hướng phát triển và cải thiện cụ thể
Chúng em hiểu rằng những đóng góp quý báu của các thầy/cô đã giúp chúng em rèn luyện tư duy phê bình và nâng cao chất lượng công trình nghiên cứu của mình Chúng
em xin cam kết sẽ tiếp thu những góp ý của các thầy/cô và cố gắng hoàn thiện công trình của mình hơn nữa
Cuối cùng, em chân thành cảm ơn sự đồng lòng và sự hỗ trợ của cả hai thầy/cô đã giúp chúng em vượt qua những khó khăn, đạt được nhiều kiến thức sâu rộng và hoàn thành khoá luận một cách xuất sắc nhất
Chúc các thầy/cô sức khỏe dồi dào, nhiều hạnh phúc, may mắn trong cuộc sống và ngày càng thành công trong sự nghiệp giáo dục của mình!
Trang 6TRƯỜNG ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA: CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP
Họ và Tên SV thực hiện 1: Phan Văn Thạch Quang Mã Số SV: 20133083
Họ và Tên SV thực hiện 2: Lê Văn Phú Mã Số SV: 20133078
Thời gian làm khoá luận: Từ: 26/02/2024 - Đến: 08/07/2024
Chuyên ngành: Kỹ thuật Dữ liệu
Tên đề tài khoá luận: Dự Đoán Giá Bất Động Sản Sử Dụng Học Máy
GV hướng dẫn: Trần Nhật Quang
Nhiệm Vụ Của Khoá luận:
- Tìm hiểu về Web Scraping và thu thập dữ liệu website: Nghiên cứu về Web Scraping
và các cách thu thập dữ liệu từ các trang website bất động sản tại Việt Nam [4]
- Tìm hiểu về các bước xây dựng một dự án học máy hoàn chỉnh: Nghiên cứu quy trình
và kỹ thuật xây dựng một dự án học máy dự đoán giá từ bộ dữ liệu đã thu thập
- Hỗ trợ, kiểm tra và đánh giá đề tài: Phát triển công cụ hỗ trợ việc thu thập dữ liệu và xây dựng mô hình học máy Kiểm tra độ chính xác, đáng tin cậy của dữ liệu thu thập và đánh giá hiệu suất, độ ứng dụng của các mô hình học máy đã sử dụng
- Thuyết trình và phản biện khoá luận: Tiếp thu nhận xét và đánh giá khoá luận từ giảng viên hướng dẫn Sau đó đưa ra thuyết trình với giáo viên phản biện, nhận xét cụ thể để cải thiện nội dung và phương pháp nghiên cứu
- Tổng hợp và hoàn thiện nội dung báo cáo: Tổng hợp kết quả nghiên cứu, phân tích Hoàn thiện khoá luận dựa trên phản biện và đánh giá nhận xét đã được đưa ra
Tp Hồ Chí Minh, ngày tháng năm 2024
Giáo viên hướng dẫn
Trang 7MỤC LỤC
PHẦN MỞ ĐẦU 1
1.1 GIỚI THIỆU VỀ ĐỀ TÀI 1
1.2 MỤC ĐÍCH CỦA ĐỀ TÀI 1
1.2.1 Ứng dụng học máy trong dự đoán giá bất động sản 1
1.2.2 Phát triển công cụ hỗ trợ 2
1.2.3 Kiểm tra, đánh giá dữ liệu và mô hình 3
1.2.4 Học hỏi và phát triển tư duy nghiên cứu 4
1.2.5 Tổng kết và ứng dụng 4
1.3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 5
1.3.1 Đối tượng nghiên cứu 5
1.3.2 Phạm vi nghiên cứu 6
1.4 PHÂN TÍCH NHỮNG ĐỀ TÀI TƯƠNG TỰ 7
1.5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 8
PHẦN NỘI DUNG 10
2.1 CHƯƠNG 1: NGHIÊN CỨU VỀ BẤT ĐỘNG SẢN 10
2.1.1 Định nghĩa về bất động sản 10
2.1.2 Các yếu tố ảnh hưởng đến giá bất động sản 10
2.1.3 Các phương pháp dự đoán giá bất động sản hiện có 11
2.1.4 Giới thiệu sơ lược về trang web batdongsan.com.vn 11
2.1.5 Cấu trúc chính của trang web 13
2.2 CHƯƠNG 2: NGHIÊN CỨU VỀ HỌC MÁY 17
2.2.1 Khái niệm về học máy 17
2.2.2 Các thuật toán học máy được sử dụng 18
2.2.3 Quy trình xây dựng mô hình học máy cơ bản 23
2.2.4 Cách đánh giá hiệu suất mô hình dự đoán 26
Trang 82.3 CHƯƠNG 3: MÔ HÌNH DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN 27
2.3.1 Công cụ và ngôn ngữ sử dụng 27
2.3.2 Thư viện và môi trường khởi chạy 30
2.3.3 Thu thập và tiền xử lý dữ liệu 32
2.3.4 Xây dựng và huấn luyện mô hình 39
2.3.5 Đánh giá và so sánh các mô hình 47
2.3.6 Kết luận chung về các mô hình 49
2.4 CHƯƠNG 4: WEBSITE DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN 51
2.4.1 Thiết kế giao diện người dùng 51
2.4.2 Tích hợp mô hình học máy vào ứng dụng website 54
2.4.3 Kiểm thử và triển khai ứng dụng website 55
PHẨN KẾT LUẬN 57
3.1 KẾT LUẬN CHUNG VỀ KHOÁ LUẬN 57
3.2 HƯỚNG PHÁT TRIỂN ĐỀ TÀI 58
TÀI LIỆU THAM KHẢO 59
Trang 9DANH MỤC HÌNH
PHẦN MỞ ĐẦU 1
1.1 GIỚI THIỆU VỀ ĐỀ TÀI 1
1.2 MỤC ĐÍCH CỦA ĐỀ TÀI 1
1.2.1 Ứng dụng học máy trong dự đoán giá bất động sản 1
1.2.2 Phát triển công cụ hỗ trợ 2
1.2.3 Kiểm tra, đánh giá dữ liệu và mô hình 3
1.2.4 Học hỏi và phát triển tư duy nghiên cứu 4
1.2.5 Tổng kết và ứng dụng 4
1.3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 5
1.3.1 Đối tượng nghiên cứu 5
1.3.2 Phạm vi nghiên cứu 6
1.4 PHÂN TÍCH NHỮNG ĐỀ TÀI TƯƠNG TỰ 7
1.5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 8
PHẦN NỘI DUNG 10
2.1 CHƯƠNG 1: NGHIÊN CỨU VỀ BẤT ĐỘNG SẢN 10
2.1.1 Định nghĩa về bất động sản 10
2.1.2 Các yếu tố ảnh hưởng đến giá bất động sản 10
2.1.3 Các phương pháp dự đoán giá bất động sản hiện có 11
2.1.4 Giới thiệu sơ lược về trang web batdongsan.com.vn 11
Hình 2.1.1: Giao diện trang chủ batdongsan.com.vn 12
Hình 2.1.2: Thông tin về trang batdongsan.com.vn 13
2.1.5 Cấu trúc chính của trang web 13
Hình 2.1.3: Dữ liệu về tin đăng của trang bất động sản theo thẻ HTML 15
Hình 2.1.4: Dữ liệu chi tiết về một bất động sản 16
2.2 CHƯƠNG 2: NGHIÊN CỨU VỀ HỌC MÁY 17
Trang 102.2.1 Khái niệm về học máy 17
2.2.2 Các thuật toán học máy được sử dụng 18
Hình 2.2.1: Hình minh hoạ về hồi quy tuyến tính 18
Hình 2.2.2: Hình minh hoạ về cây quyết định 19
Hình 2.2.3: Hình minh hoạ về rừng ngẫu nhiên 20
Hình 2.2.4: Hình minh hoạ về Gradient Boosting 21
Hình 2.2.5: Hình minh hoạ về SVR 22
Hình 2.2.6: Hình minh hoạ về Ada Boost 23
2.2.3 Quy trình xây dựng mô hình học máy cơ bản 23
2.2.4 Cách đánh giá hiệu suất mô hình dự đoán 26
2.3 CHƯƠNG 3: MÔ HÌNH DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN 27
2.3.1 Công cụ và ngôn ngữ sử dụng 27
Hình 2.3.1: Giao diện Visual Studio Code 27
Hình 2.3.2: Giao diện Google Chrome và Chrome Dev Tools 29
2.3.2 Thư viện và môi trường khởi chạy 30
2.3.3 Thu thập và tiền xử lý dữ liệu 32
Hình 2.3.3: Hình thư mục chứa mã nguồn cào dữ liệu 32
Hình 2.3.4: Hình file README của thư mục cào dữ liệu 33
Hình 2.3.5: Hình một số mã nguồn cào dữ liệu 33
Hình 2.3.6: Hình file README thư mực dữ liệu thô 34
Hình 2.3.7: Hình mã nguồn làm sạch dữ liệu thô 38
Hình 2.3.8: Hình file README thư mục dữ liệu đã làm sạch 38
2.3.4 Xây dựng và huấn luyện mô hình 39
Hình 2.3.9: Hình mã nguồn file Create_ML_Home.ipynb 40
Hình 2.3.10: Hình mã nguồn xử lí giá trị ngoại biên 41
Hình 2.3.11: Hình biểu đồ trực quan hoá biến liên tục 41
Hình 2.3.12: Hình biểu đồ trực quan hoá biến phân loại 42
Hình 2.3.13: Hình mã nguồn triển khai các mô hình học máy 43
Hình 2.3.14: Hình kết quả sơ lược các mô hình học máy 44
Hình 2.3.15: Hình mã nguồn tối ưu mô hình học máy tốt nhất 44
Hình 2.3.16: Hình mã nguồn hàm và kết quả dự đoán 45
Trang 11Hình 2.3.17: Hình mã nguồn kết xuất file mô hình 45
Hình 2.3.18: Hình thư mục chứa file mô hình 46
Hình 2.3.19: Hình thư mục chứa file JSON mô hình 46
2.3.5 Đánh giá và so sánh các mô hình 47
2.3.6 Kết luận chung về các mô hình 49
2.4 CHƯƠNG 4: WEBSITE DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN 51
2.4.1 Thiết kế giao diện người dùng 51
Hình 2.4.1: Hình trang nhập dữ liệu người dùng của website 52
Hình 2.4.2: Hình trang kết quả dự đoán của website 53
Hình 2.4.3: Hình danh sách gợi ý của website 53
2.4.2 Tích hợp mô hình học máy vào ứng dụng website 54
Hình 2.4.4: Hình mã nguồn Backend dự đoán giá bất động sản 54
Hình 2.4.5: Hình mã nguồn đưa ra danh sách gợi ý 55
2.4.3 Kiểm thử và triển khai ứng dụng website 55
Hình 2.4.6: Hình mã nguồn file main.py 56
PHẨN KẾT LUẬN 57
3.1 KẾT LUẬN CHUNG VỀ KHOÁ LUẬN 57
3.2 HƯỚNG PHÁT TRIỂN ĐỀ TÀI 58
TÀI LIỆU THAM KHẢO 59
Trang 12DANH MỤC BẢNG
PHẦN MỞ ĐẦU 1
1.1 GIỚI THIỆU VỀ ĐỀ TÀI 1
1.2 MỤC ĐÍCH CỦA ĐỀ TÀI 1
1.2.1 Ứng dụng học máy trong dự đoán giá bất động sản 1
1.2.2 Phát triển công cụ hỗ trợ 2
1.2.3 Kiểm tra, đánh giá dữ liệu và mô hình 3
1.2.4 Học hỏi và phát triển tư duy nghiên cứu 4
1.2.5 Tổng kết và ứng dụng 4
1.3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 5
1.3.1 Đối tượng nghiên cứu 5
1.3.2 Phạm vi nghiên cứu 6
1.4 PHÂN TÍCH NHỮNG ĐỀ TÀI TƯƠNG TỰ 7
1.5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 8
PHẦN NỘI DUNG 10
2.1 CHƯƠNG 1: NGHIÊN CỨU VỀ BẤT ĐỘNG SẢN 10
2.1.1 Định nghĩa về bất động sản 10
2.1.2 Các yếu tố ảnh hưởng đến giá bất động sản 10
2.1.3 Các phương pháp dự đoán giá bất động sản hiện có 11
2.1.4 Giới thiệu sơ lược về trang web batdongsan.com.vn 11
2.1.5 Cấu trúc chính của trang web 13
2.2 CHƯƠNG 2: NGHIÊN CỨU VỀ HỌC MÁY 17
2.2.1 Khái niệm về học máy 17
2.2.2 Các thuật toán học máy được sử dụng 18
2.2.3 Quy trình xây dựng mô hình học máy cơ bản 23
2.2.4 Cách đánh giá hiệu suất mô hình dự đoán 26
Trang 132.3 CHƯƠNG 3: MÔ HÌNH DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN 27
2.3.1 Công cụ và ngôn ngữ sử dụng 27
2.3.2 Thư viện và môi trường khởi chạy 30
2.3.3 Thu thập và tiền xử lý dữ liệu 32
Bảng 2.3.1: Mô tả về tập dữ liệu thô loại nhà riêng 34
Bảng 2.3.2: Mô tả về tập dữ liệu thô loại đất đai 36
Bảng 2.3.3: Bảng thông tin về các tập dữ liệu đã làm sạch 39
2.3.4 Xây dựng và huấn luyện mô hình 39
2.3.5 Đánh giá và so sánh các mô hình 47
Bảng 2.3.4: So sánh hiệu suất mô hình tập dữ liệu nhà riêng Hồ Chí Minh 47
Bảng 2.3.5: So sánh hiệu suất mô hình tập dữ liệu nhà riêng Hà Nội 47
Bảng 2.3.6: So sánh hiệu suất mô hình tập dữ liệu đất đai Hồ Chí Minh 48
Bảng 2.3.7: So sánh hiệu suất mô hình tập dữ liệu đất đai Hà Nội 48
2.3.6 Kết luận chung về các mô hình 49
2.4 CHƯƠNG 4: WEBSITE DỰ ĐOÁN GIÁ BẤT ĐỘNG SẢN 51
2.4.1 Thiết kế giao diện người dùng 51
2.4.2 Tích hợp mô hình học máy vào ứng dụng website 54
2.4.3 Kiểm thử và triển khai ứng dụng website 55
PHẨN KẾT LUẬN 57
3.1 KẾT LUẬN CHUNG VỀ KHOÁ LUẬN 57
3.2 HƯỚNG PHÁT TRIỂN ĐỀ TÀI 58
TÀI LIỆU THAM KHẢO 59
Trang 14Trang 1
PHẦN MỞ ĐẦU 1.1 GIỚI THIỆU VỀ ĐỀ TÀI
Trong thời đại số hóa và thông tin hiện nay, việc áp dụng học máy vào dự đoán giá bất động sản đã trở thành một phần quan trọng trong nghiên cứu và phát triển kinh doanh Với sự bùng nổ của dữ liệu từ các nguồn trực tuyến, việc thu thập và phân tích thông tin từ các trang web bất động sản đã trở nên ngày càng quan trọng và hấp dẫn Bằng cách sử dụng các mô hình học máy để phân tích dữ liệu này, người dùng có thể tạo ra các dự đoán chính xác về giá trị bất động sản, từ đó hỗ trợ các quyết định mua bán và đầu tư
Việc này không chỉ giúp các nhà đầu tư nắm bắt được xu hướng thị trường và giá trị thực của tài sản mà còn hỗ trợ trong việc đưa ra quyết định chiến lược và tối ưu hóa danh mục đầu tư Đồng thời, nó cũng mang lại cơ hội lớn cho các nhà nghiên cứu để phân tích các yếu tố ảnh hưởng đến giá trị bất động sản, đánh giá hiệu suất đầu tư, và đưa ra những dự đoán chi tiết về sự phát triển của thị trường
Tính cấp thiết của việc nghiên cứu về dự đoán giá bất động sản sử dụng học máy không chỉ đặt ra ở mức độ quan trọng về kinh tế mà còn ở khả năng tạo ra thông tin chất lượng, làm nền tảng cho quyết định chiến lược và phát triển bền vững trong thời đại số Điều này làm nổi bật sự cần thiết của đề tài này trong ngữ cảnh hiện nay, đồng thời mở ra những cơ hội mới cho ứng dụng và phát triển trong lĩnh vực nghiên cứu và kinh doanh
1.2 MỤC ĐÍCH CỦA ĐỀ TÀI
Mục đích của đề tài là tập trung vào việc nghiên cứu và áp dụng các mô hình học máy để dự đoán giá bất động sản dựa trên dữ liệu thu thập được từ các trang web liên quan Mục đích chính bao gồm:
1.2.1 Ứng dụng học máy trong dự đoán giá bất động sản
Nghiên cứu chi tiết về các mô hình học máy bắt đầu từ việc chọn lựa các thuật toán phù hợp, điều này đặt ra những thách thức đặc biệt do mỗi thuật toán có ưu và nhược điểm riêng Quá trình này đòi hỏi sự chính xác trong việc lựa chọn các tính năng và
Trang 15Trang 2
biến đầu vào từ dữ liệu thu thập được Để giải quyết vấn đề này, nghiên cứu sẽ tập trung vào các phương pháp phân tích và tiền xử lý dữ liệu để tự động hóa việc chọn lựa các yếu tố quan trọng từ dữ liệu bất động sản, từ thông tin địa lý đến các yếu tố kinh tế và
xã hội
Đồng thời, đối tượng nghiên cứu cũng sẽ tìm hiểu về các mô hình học máy phổ biến
và cách chúng có thể được ứng dụng vào việc dự đoán giá bất động sản Các mô hình như hồi quy tuyến tính, cây quyết định, và mạng nơ-ron sẽ được xem xét để hiểu rõ về cách chúng tối ưu hóa quá trình dự đoán giá trị từ dữ liệu có cấu trúc phức tạp
Ngoài ra, nghiên cứu sẽ tập trung vào việc hiểu rõ cơ chế làm việc của các mô hình học máy và làm thế nào các kỹ thuật này có thể được điều chỉnh để thích ứng với sự biến động của thị trường bất động sản và các yếu tố ảnh hưởng đến giá trị tài sản Mục tiêu là xây dựng một phương pháp linh hoạt, hiệu quả và ổn định để dự đoán giá bất động sản, đồng thời đảm bảo tính chính xác và đáng tin cậy của các dự đoán này
1.2.2 Phát triển công cụ hỗ trợ
Để đáp ứng mục tiêu xây dựng một ứng dụng hỗ trợ dự đoán giá bất động sản hiệu quả và linh hoạt, nghiên cứu sẽ tiến hành phát triển một mã nguồn và nếu có thể là một giao diện dạng ứng dụng web cơ bản với các tính năng quan trọng nhằm tối ưu hóa quá trình huấn luyện và mang lại trải nghiệm người sử dụng tốt nhất với những yếu tố sau:
+ Giao Diện Người Dùng Thân Thiện: Phát triển giao diện người dùng thân thiện,
dễ sử dụng, giúp người dùng dễ dàng tương tác với các chức năng của ứng dụng Cung cấp hướng dẫn rõ ràng về cách sử dụng và cấu hình các tham số cho quá trình dự đoán giá cả bất động sản
+ Tính Năng Giới Thiệu Thời Gian Thực: Tích hợp tính năng giới thiệu cho người dùng những dữ liệu buôn bán bất động sản thời gian thực để giúp có thể lựa chọn và tham khảo với giá cả dự đoán của mô hình đề ra
+ Quản Lý Mô Hình và Dữ Liệu: Xây dựng chức năng quản lý mô hình, cho phép người dùng tạo, lưu trữ và quản lý nhiều mô hình cùng một lúc Cung cấp khả năng tổ chức và lưu trữ mô hình dự đoán của dự án một cách có tổ chức và dễ quản lý
Trang 16Trang 3
+ Khả Năng Tùy Chọn và Mở Rộng: Cho phép người dùng tùy chọn các tham số cào dữ liệu, tham số mô hình để đáp ứng nhu cầu cụ thể của họ Thiết lập cơ chế mở rộng để dễ dàng tích hợp thêm tính năng và cải thiện hiệu suất trong tương lai
+ Báo Cáo và Thống Kê: Tích hợp tính năng báo cáo và thống kê cho phép người dùng theo dõi và đánh giá kết quả của quá trình huấn luyện mô hình Hiển thị thông tin chi tiết về số liệu thu thập, thời gian thực hiện, và các thông báo quan trọng
+ Bảo Mật và Tuân Thủ Quy Tắc: Đảm bảo tính an toàn của dữ liệu, tuân thủ quy tắc và chính sách bảo mật của trang web đối tượng để tránh xâm phạm quyền riêng tư
và vấn đề pháp lý
Qua việc tích hợp những tính năng này, ứng dụng sẽ trở thành một công cụ đa dụng
và mạnh mẽ, đáp ứng nhu cầu người dùng trong quá trình thực hiện xây dựng mô hình học máy dự đoán giá bất động sản một cách hiệu quả và thuận tiện
1.2.3 Kiểm tra, đánh giá dữ liệu và mô hình
Để đảm bảo chất lượng của dữ liệu và mô hình, đề tài sẽ tập trung vào phát triển phương pháp kiểm tra độ chính xác và đáng tin cậy của thông tin thu được từ quá trình cào dữ liệu, sau đó đưa vào mô hình dự đoán và tiếp tục lại việc kiểm tra, đánh giá hiệu suất của những mô hình sử dụng Quy trình kiểm tra này sẽ được xây dựng dựa trên các tiêu chí định sẵn và sẽ bao gồm các bước như:
+ So Sánh với Nguồn Tin Cậy: Xác định và chọn nguồn tin cậy để so sánh với dữ liệu thu thập Thực hiện so sánh chi tiết để kiểm tra độ chính xác và tính đáng tin cậy của dữ liệu
+ Kiểm Tra Cấu Trúc và Định Dạng: Đảm bảo rằng dữ liệu thu thập tuân thủ đúng cấu trúc và định dạng được đặt ra từ ban đầu Phân tích các yếu tố cú pháp và định dạng
để đảm bảo tính nhất quán khi đưa vào huấn luyện mô hình học máy
+ Thực Hiện Kiểm Định Thống Kê: Sử dụng các phương pháp thống kê để đánh giá
sự chính xác và kết quả của những mô hình học máy Kiểm tra các giả định thống kê và đảm bảo tính đáng tin cậy của kết quả
Trang 17Trang 4
1.2.4 Học hỏi và phát triển tư duy nghiên cứu
Trải nghiệm làm việc nhóm là một phần quan trọng của đề tài, đưa ra cơ hội cho nhóm nghiên cứu không chỉ làm việc chặt chẽ với nhau mà còn học hỏi và phát triển tư duy nghiên cứu Quá trình này không chỉ giúp mỗi thành viên nắm vững kiến thức mà còn tạo ra cơ hội để chia sẻ và đánh giá những ứng dụng thực tế của kiến thức được học
Trong quá trình làm việc nhóm, các thành viên sẽ cùng nhau đối mặt với những thách thức thực tế của việc thu thập dữ liệu, làm sạch, trực quan hoá dữ liệu và tiến hành xây dựng mô hình học máy Việc áp dụng kiến thức vào thực tế sẽ tạo ra những kinh nghiệm quý báu, từ việc xử lý các vấn đề kỹ thuật đến việc hiểu rõ về cách tối ưu hóa quy trình để đảm bảo hiệu suất và chất lượng dự đoán của mô hình
Ngoài ra, trải nghiệm làm việc nhóm còn là cơ hội để mỗi thành viên học hỏi từ sự
đa dạng của đồng đội Việc chia sẻ kiến thức và kinh nghiệm cá nhân từ những thành viên có kỹ năng và hiểu biết khác nhau sẽ làm giàu thêm góc nhìn và phương pháp tiếp cận của nhóm, từ đó, tạo ra một môi trường học tập tích cực và đầy động lực Qua đó, mỗi thành viên không chỉ phát triển kỹ năng cá nhân mà còn đóng góp tích cực vào sự thành công của đề tài
1.2.5 Tổng kết và ứng dụng
Tổng hợp kết quả nghiên cứu và phân tích, nhóm đề tài đã thành công xây dựng một công cụ hoàn chỉnh cho việc dự đoán giá bất động sản sử dụng học máy Công cụ này không chỉ đảm bảo độ chính xác và đáng tin cậy của dự đoán mà còn mang lại trải nghiệm thuận tiện và linh hoạt cho người sử dụng Dưới đây là một số điểm đáng chú
ý từ kết quả nghiên cứu:
+ Độ Chính Xác và Đáng Tin Cậy: Phương pháp kiểm tra đã xác nhận rằng các dự đoán của công cụ đạt độ chính xác và độ đáng tin cậy cao, qua đó tạo ra nền tảng vững chắc cho quyết định chiến lược và nghiên cứu học tập
+ Dễ Sử Dụng và Tùy Chỉnh: Giao diện người dùng thân thiện và tính năng linh hoạt của công cụ giúp người sử dụng dễ dàng tương tác và tùy chỉnh theo nhu cầu cụ thể của người dùng
Trang 18Trang 5
+ Quản Lý Mô Hình Hiệu Quả: Chức năng quản lý dự án của công cụ hỗ trợ người
sử dụng trong việc tổ chức, lưu trữ, và quản lý nhiều mô hình cùng một lúc
Cuối cùng, dựa trên kết quả đạt được, nhóm đề tài đề xuất một số ứng dụng tiềm năng của công cụ và kiến thức thu được:
+ Nghiên Cứu Thị Trường và Xu Hướng: Công cụ có thể được áp dụng để nghiên cứu thị trường, đánh giá xu hướng giá bất động sản, và phân tích dữ liệu để đưa ra các
dự đoán và chiến lược kinh doanh
+ Quản Lý Các Mô Hình Bất Động Sản Khác Nhau: Sử dụng dữ liệu thu thập từ các trang web bất động sản để đánh giá thị trường, dự án đầu tư, và dự báo xu hướng giá trong các loại bất động sản khác nhau: Nhà riêng, đất đai, chung cư
+ Chiến Lược Tiếp Thị và Phân Tích Cạnh Tranh: Hỗ trợ doanh nghiệp trong việc phát triển chiến lược tiếp thị dựa trên thông tin thị trường và phân tích cạnh tranh từ dữ liệu dự đoán
+ Nghiên Cứu và Phát Triển Kỹ Thuật Học Máy: Cung cấp nguồn dữ liệu phong phú cho cộng đồng nghiên cứu và phát triển kỹ thuật xây dựng một dự án học máy cơ bản, khuyến khích sự đổi mới và chia sẻ kiến thức
Công cụ và kiến thức thu được từ đề tài này không chỉ có ứng dụng ngay trong ngữ cảnh nghiên cứu mà còn mở ra nhiều cơ hội trong các lĩnh vực thương mại và phát triển kinh doanh
1.3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.3.1 Đối tượng nghiên cứu
- Khu vực nghiên cứu:
Khu vực nghiên cứu của đề tài tập trung vào hai thành phố lớn của Việt Nam là Hà Nội và Hồ Chí Minh Đây là hai khu vực có thị trường bất động sản phát triển nhanh chóng, với nhiều biến động về giá cả và nhu cầu
- Loại bất động sản: Gồm 2 loại sau:
+ Nhà riêng: Bao gồm các loại nhà riêng lẻ, nhà phố, biệt thự
Trang 19Trang 6
+ Đất và đất nền: Bao gồm các lô đất trống, đất nền dự án chưa xây dựng
- Các trang web mua bán bất động sản tại Việt Nam:
Phân tích và nghiên cứu các hệ thống website về bất động sản, đặc biệt là ví dụ như trang: batdongsan.com.vn - Nắm bắt cấu trúc dữ liệu và quy trình hoạt động của các trang web này Dữ liệu thu thập ở đây là thông tin về bất động sản, giá cả, tiện ích…
- Các phương pháp xây dựng mô hình học máy dự đoán cơ bản:
Để xây dựng một mô hình học máy hiệu quả trong việc dự đoán giá bất động sản,
đề tài sẽ tập trung vào các phương pháp xây dựng mô hình học máy cơ bản như sau: Hồi quy tuyến tính, Cây Quyết Định (Decision Tree), Tăng Cường Gradient (Gradient Boosting), Máy Vector Hỗ Trợ (Support Vector Machines)
Mỗi phương pháp trên đều có ưu điểm và nhược điểm riêng, và hiệu quả của từng phương pháp sẽ được đánh giá thông qua thực nghiệm trên tập dữ liệu thu thập được Bằng cách so sánh kết quả của các phương pháp này, nghiên cứu sẽ xác định được mô hình học máy tối ưu cho việc dự đoán giá bất động sản
Trang 20Trang 7
Phạm vi này được tập trung vào việc phát triển một công cụ có thể áp dụng trong thực tế để thu thập dữ liệu, dự đoán giá cả bất động sản từ các mô hình học máy phổ biến Nghiên cứu đi sâu vào các khía cạnh phức tạp của quy trình xây dựng mô hình dự đoán giá cả và ứng dụng rộng rãi của học máy trong lĩnh vực mua bán bất động sản
1.4 PHÂN TÍCH NHỮNG ĐỀ TÀI TƯƠNG TỰ
Phân tích những đề tài tương tự có thể giúp xác định vị thế của đề tài nghiên cứu
trong lĩnh vực cụ thể và tìm ra những điểm mạnh, yếu, cũng như những khoảng trống
có thể được điền vào Dưới đây là một phân tích sơ bộ về những đề tài tương tự trong lĩnh vực dự đoán giá bất động sản sử dụng học máy:
+ Các đề tài về phương pháp thu thập và xử lý dữ liệu: Việc thu thập và xử lý dữ liệu
là một phần quan trọng của bất kỳ dự án dự đoán nào Nhiều nghiên cứu đã tập trung vào việc phát triển các kỹ thuật Web Scraping để thu thập dữ liệu từ các trang web bất động sản và các nguồn khác Các nghiên cứu này thường đề xuất các phương pháp để
xử lý và làm sạch dữ liệu, đảm bảo rằng dữ liệu sử dụng trong mô hình là chính xác và đầy đủ
+ Các đề tài nghiên cứu về học máy trong bất động sản: Nhiều nghiên cứu đã được thực hiện về việc áp dụng các phương pháp học máy để dự đoán giá bất động sản Các nghiên cứu này thường sử dụng các thuật toán như hồi quy tuyến tính, cây quyết định, rừng ngẫu nhiên, và mạng nơ-ron nhân tạo để phân tích dữ liệu và dự đoán giá trị bất động sản Những nghiên cứu này cung cấp một cơ sở kiến thức vững chắc về các kỹ thuật và công cụ có thể sử dụng trong dự án của nhóm đề tài
+ Các đề tài ứng dụng cụ thể trong dự đoán giá bất động sản: Có nhiều dự án nghiên cứu đã đưa ra ứng dụng cụ thể của học máy trong việc dự đoán giá bất động sản Ví dụ, một số nghiên cứu tập trung vào việc sử dụng dữ liệu từ các trang web bất động sản để
dự đoán giá trị của các căn hộ, nhà ở, hoặc đất đai dựa trên các yếu tố như vị trí, diện tích, số phòng, và tiện ích xung quanh Những nghiên cứu này giúp làm sáng tỏ các yếu
tố quan trọng ảnh hưởng đến giá bất động sản và cách chúng có thể được mô hình hóa
+ Các đề tài về đánh giá và so sánh mô hình: Đánh giá và so sánh các mô hình học máy là một phần quan trọng của quá trình nghiên cứu Nhiều nghiên cứu đã thực hiện
Trang 21Trang 8
các cuộc thử nghiệm và so sánh giữa các mô hình khác nhau để xác định mô hình nào
là tối ưu cho việc dự đoán giá bất động sản Các nghiên cứu này cung cấp thông tin quý giá về các tiêu chí đánh giá và các phương pháp để tối ưu hóa mô hình
Phân tích này giúp định rõ khung cảnh nghiên cứu, đồng thời làm nổi bật những khía cạnh đặc biệt của những đề tài, giúp tập trung vào những điểm mạnh và độc đáo
mà dự án này có thể mang lại
1.5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
Kết quả dự kiến mà dự án nghiên cứu về dự đoán giá bất động sản sử dụng học máy
có thể đạt được cho sinh viên thực hiện đề tài bao gồm:
+ Phương pháp kiểm tra và đánh giá dữ liệu thu thập: Phát triển phương pháp kiểm tra độ chính xác và đáng tin cậy của dữ liệu thu thập từ các nguồn dữ liệu bất động sản Xây dựng các tiêu chí và thước đo hiệu suất để đánh giá tính chính xác và tính hợp pháp của thông tin thu thập
+ Xây dựng mô hình dự đoán giá bất động sản hiệu quả: Phát triển và triển khai một
mô hình học máy có khả năng dự đoán giá bất động sản một cách chính xác và đáng tin cậy Mô hình này sẽ được tối ưu hóa để đảm bảo hiệu suất tốt nhất khi áp dụng vào
dữ liệu thực tế
+ Hướng dẫn và tài liệu tham khảo: Tạo ra hướng dẫn chi tiết về cách sử dụng công
cụ dự đoán giá bất động sản, bao gồm các bước cài đặt, cấu hình, và thực hiện dự đoán Cung cấp tài liệu tham khảo và mã nguồn mở để khuyến khích sự chia sẻ và học hỏi trong cộng đồng nghiên cứu và phát triển
+ Nghiên cứu về phương pháp dự đoán phổ biến: Đóng góp vào lĩnh vực nghiên cứu
về các phương pháp dự đoán giá bất động sản bằng cách trình bày những ứng dụng thực tế và những thách thức gặp phải trong quá trình phát triển mô hình học máy
+ Ứng dụng thực tế trong ngành bất động sản: Xem xét ứng dụng thực tế của mô hình dự đoán giá bất động sản trong việc nghiên cứu thị trường, đánh giá cạnh tranh,
và dự báo xu hướng giá trị bất động sản Mô hình này có thể hỗ trợ các nhà đầu tư và doanh nghiệp trong việc đưa ra quyết định mua bán chiến lược và tối ưu hóa lợi nhuận
Trang 22Trang 9
+ Tiếp thu kiến thức và kỹ năng phát triển: Nâng cao kiến thức và kỹ năng của nhóm nghiên cứu trong việc xây dựng mô hình học máy dự đoán vào thực tế Phát triển khả năng làm việc nhóm, giải quyết vấn đề, và học hỏi từ kinh nghiệm thực tế
Trang 23Trang 10
PHẦN NỘI DUNG 2.1 CHƯƠNG 1: NGHIÊN CỨU VỀ BẤT ĐỘNG SẢN
2.1.1 Định nghĩa về bất động sản
Bất động sản (real estate) là thuật ngữ chỉ các tài sản bao gồm đất đai và các công trình xây dựng trên đó như nhà ở, tòa nhà, nhà xưởng, và các cấu trúc khác Bất động sản được phân loại thành các loại chính như sau:
+ Bất động sản nhà ở: Bao gồm các căn hộ, nhà riêng lẻ, biệt thự, và các loại hình nhà ở khác
+ Bất động sản thương mại: Bao gồm các tòa nhà văn phòng, cửa hàng bán lẻ, nhà hàng, khách sạn, và các công trình phục vụ mục đích kinh doanh khác
+ Bất động sản công nghiệp: Bao gồm nhà xưởng, kho bãi, và các cơ sở sản xuất
+ Bất động sản đất nền: Là các mảnh đất chưa được phát triển hoặc đang trong quá trình phát triển
2.1.2 Các yếu tố ảnh hưởng đến giá bất động sản
Giá trị của bất động sản phụ thuộc vào nhiều yếu tố khác nhau, có thể được chia thành các nhóm chính như sau:
+ Vị trí: Vị trí là yếu tố quan trọng nhất ảnh hưởng đến giá trị của bất động sản Các bất động sản ở vị trí trung tâm, gần các tiện ích công cộng, giao thông thuận tiện thường
có giá trị cao hơn
+ Diện tích và quy mô: Diện tích đất và quy mô của công trình xây dựng ảnh hưởng trực tiếp đến giá trị bất động sản Diện tích lớn hơn và công trình quy mô lớn hơn thường có giá trị cao hơn
+ Tình trạng pháp lý: Bất động sản có giấy tờ pháp lý đầy đủ, rõ ràng sẽ có giá trị cao hơn so với bất động sản có tranh chấp hoặc chưa hoàn thiện thủ tục pháp lý + Tiện ích và hạ tầng: Sự hiện diện của các tiện ích như trường học, bệnh viện, siêu thị, công viên, và hệ thống hạ tầng giao thông tốt sẽ làm tăng giá trị bất động sản
Trang 24Trang 11
+ Kinh tế vĩ mô: Các yếu tố kinh tế vĩ mô như lãi suất, lạm phát, chính sách tài chính
và tiền tệ của chính phủ cũng ảnh hưởng đến giá trị bất động sản
+ Xu hướng thị trường: Tâm lý và xu hướng đầu tư của thị trường, bao gồm cả các
dự đoán về tương lai của khu vực cũng đóng vai trò quan trọng
2.1.3 Các phương pháp dự đoán giá bất động sản hiện có
- Các phương pháp truyền thống:
+ Phương pháp so sánh trực tiếp: So sánh giá của bất động sản với các bất động sản tương tự đã được bán trong cùng khu vực và thời gian gần đây Đây là phương pháp phổ biến nhất và dễ áp dụng
+ Phương pháp thu nhập: Tính toán giá trị của bất động sản dựa trên thu nhập mà bất động sản đó có thể tạo ra trong tương lai Phương pháp này thường được áp dụng cho bất động sản thương mại và cho thuê
+ Phương pháp chi phí: Tính toán giá trị của bất động sản dựa trên chi phí xây dựng lại hoặc thay thế công trình xây dựng trên đó, cộng với giá trị của đất
+ Phương pháp thặng dư: Tính toán giá trị của bất động sản dựa trên giá trị của các phần riêng lẻ (đất và công trình) rồi cộng lại Phương pháp này thường được áp dụng cho các dự án phát triển bất động sản
2.1.4 Giới thiệu sơ lược về trang web batdongsan.com.vn
Batdongsan.com.vn là một trong những website hàng đầu về bất động sản tại Việt Nam giúp những người tìm kiếm bất động sản tìm được ngôi nhà của mình với hàng triệu tin đăng bất động sản mỗi tháng và những thông tin, tư vấn giúp họ có thể tự tin hơn mỗi khi ra quyết định liên quan tới bất động sản
Batdongsan.com.vn cũng là nền tảng công nghệ và đối tác tin cậy đối với các cá nhân, doanh nghiệp kinh doanh bất động sản và các chủ đầu tư trong việc truyền thông, nghiên cứu thị trường dựa trên các dữ liệu lớn (big data) trực tuyến và cung cấp các ứng dụng, giải pháp bán hàng và quản lý bán hàng, marketing trong lĩnh vực bất động sản
Sau đây là một vài hình ảnh về giao diện trang web batdongsan.com.vn:
Trang 25Trang 12
Hình 2.1.1: Giao diện trang chủ batdongsan.com.vn
Công Ty Cổ Phần Propertyguru Việt Nam là tập đoàn công nghệ bất động sản hàng đầu Châu Á, cũng chính là chủ sở hữu hợp pháp của trang web trên Là điểm đến ưa thích của 52 triệu người tìm kiếm bất động sản mỗi tháng để tìm kiếm và sở hữu ngôi nhà mơ ước
PropertyGuru và các công ty trực thuộc Tập đoàn cung cấp cho người dùng hơn 3,3 triệu tin đăng bất động sản mỗi tháng, thông tin thị trường và các giải pháp giúp họ tự tin đưa ra các quyết định liên quan đến bất động sản tại khắp Singapore, Malaysia, Thái Lan, Indonesia và Việt Nam
Trang 26Trang 13
Hình 2.1.2: Thông tin về trang batdongsan.com.vn
2.1.5 Cấu trúc chính của trang web
- Về cấu trúc đường dẫn:
Đây là phần nói về phân tích cấu trúc đường dẫn URL của trang web nhằm phục vụ mục đích phân tích và lấy đường dẫn chính xác cho việc cào dữ liệu hiệu quả:
+ Trang chính của bất động sản: https://batdongsan.com.vn/
Đây là đường dẫn chính thức của trang web Bao gồm các thông tin nổi bật về thị trường bất động sản ở Việt Nam kèm một số thông tin môi giới về các bất động sản nổi bật của nhiều khu vực
+ Trang về nhà đất bán: https://batdongsan.com.vn/nha-dat-ban
Đây là đường dẫn phụ dẫn tới thông tin về nhà đất bán trên toàn quốc của Việt Nam Đây cũng chính là đường dẫn mà đề tài sử dụng để cào dữ liệu về nhà đất bán tại thành phố Hồ Chí Minh
Một số đường dẫn phụ thứ cấp mà nhóm đã sử dụng trong danh mục nhà đất bán bao gồm:
Trang 27Đây là những đường dẫn phụ thứ cấp chứa các thông tin bất động sản về quận, huyện
ở tại thành phố Hồ Chí Minh mà nhóm đã sử dụng để cào dữ liệu bất động sản của từng khu vực
+ Trang về nhà đất cho thuê: https://batdongsan.com.vn/nha-dat-cho-thue
Ngoài ra trang bất động sản cũng cung cấp thông tin về cho thuê sử dụng nhà đất, cấu trúc cũng khá tương tự với nhà đất bán Có thể để tham khảo thêm nếu muốn cào
dữ liệu về nhà cho thuê
+ Cấu trúc đường dẫn chung để cào dữ liệu về bất động sản:
Sau đây là phân tích sơ lược cấu trúc đường dẫn chung phục vụ cho mục đích cào
dữ liệu sẽ có cấu trúc như dưới đây:
Đường dẫn cào = Đường dẫn chính / Loại bất động sản và khu vực tìm kiếm / Các yếu
tố lọc / Số trang
Ví dụ: Nhóm muốn cào dữ liệu nhà đất bán tại thành phố Hồ Chí Minh với giá dưới
500 triệu, diện tích dưới 30 mét vuông, với trang hiện tại là 1:
Đường dẫn cào = Đường dẫn chính / Loại: nhà đất, khu vực thành phố Hồ Chí Minh / Lọc theo giá và diện tích / Trang 1
Trang 28Trang 15
Như vậy, về cấu trúc đường dẫn của trang web bất động sản khá là dễ hiểu và áp dụng theo loại bất động sản, khu vực và các yếu tố lọc về thông tin bất động sản như giá, diện tích, số phòng ngủ,
Từ những phân tích trên nhóm có thể biết được cách sử dụng đường dẫn cần thiết cho việc cào dữ liệu mình mong muốn
- Về cấu trúc dữ liệu:
Dữ liệu trong một đường dẫn phụ sẽ cung cấp thông tin sơ lược về các thẻ HTML, với mỗi thẻ chứa các thông tin cơ bản về bất động sản như tên, vị trí, giá, diện tích, đường dẫn đến tin đăng mua bán hoặc cho thuê bất động sản đó
Hình 2.1.3: Dữ liệu về tin đăng của trang bất động sản theo thẻ HTML
Từ đó nhóm sẽ biết được vị trí cần thiết để cào dữ liệu về nếu muốn lấy dữ liệu của một khu vực theo vị trí các lớp của thẻ HTML cần cào thông qua việc phân tích dữ liệu bằng công cụ phân tích của Source HTML và JavaScript của Chrome Dev Tools Sau
đó nhóm tiếp tục phân tích những dữ liệu có được trong một trang đăng tin mua bán bất động sản cụ thể để tìm thêm các thông tin bổ sung về chiều dài, chiều rộng, giấy tờ pháp lý của bất động sản đang xem xét
Trang 29Trang 16
Hình 2.1.4: Dữ liệu chi tiết về một bất động sản
Trang 30Trang 17
2.2 CHƯƠNG 2: NGHIÊN CỨU VỀ HỌC MÁY
2.2.1 Khái niệm về học máy
Học máy (Machine Learning): là một lĩnh vực của trí tuệ nhân tạo (AI) tập trung vào việc phát triển các hệ thống có khả năng học hỏi và cải thiện từ dữ liệu mà không cần phải được lập trình một cách rõ ràng cho từng nhiệm vụ Thay vì tuân theo các chỉ dẫn cụ thể được mã hóa trước, các thuật toán học máy tự động phát hiện ra các mẫu, đưa ra dự đoán và quyết định dựa trên dữ liệu đầu vào Việc này giúp máy tính có thể
xử lý và phân tích một lượng lớn dữ liệu phức tạp một cách hiệu quả, từ đó đưa ra các quyết định thông minh
Lịch sử học máy có thể được truy ngược về những năm 1950 khi các nhà khoa học máy tính như Alan Turing và Arthur Samuel bắt đầu nghiên cứu về khả năng máy tính học hỏi từ dữ liệu Turing đã đề xuất một hệ thống kiểm tra được gọi là "Turing Test"
để đánh giá khả năng trí tuệ của máy tính Trong khi đó, Samuel đã phát triển một trong những chương trình học máy đầu tiên - một chương trình chơi cờ, có khả năng học hỏi
và cải thiện kỹ năng chơi cờ của mình qua thời gian
Trong những thập kỷ tiếp theo, học máy đã trải qua nhiều giai đoạn phát triển quan trọng Các phương pháp như mạng nơ-ron, hồi quy tuyến tính và cây quyết định đã được nghiên cứu và phát triển mạnh mẽ Đặc biệt, từ những năm 1990 trở đi, với sự phát triển của công nghệ máy tính và lượng dữ liệu khổng lồ được thu thập, học máy
đã có những bước tiến vượt bậc
Ứng dụng của học máy hiện nay rất đa dạng và phong phú, từ các lĩnh vực y tế, tài chính, marketing, đến công nghiệp và giải trí Chẳng hạn, trong y tế, học máy được sử dụng để dự đoán bệnh, phân tích hình ảnh y tế và đề xuất phác đồ điều trị Trong tài chính, học máy giúp dự đoán rủi ro tín dụng, phát hiện gian lận và tối ưu hóa danh mục đầu tư Trong lĩnh vực marketing, học máy hỗ trợ phân tích hành vi khách hàng, đề xuất sản phẩm và tối ưu hóa chiến lược quảng cáo
Trang 31Trang 18
2.2.2 Các thuật toán học máy được sử dụng
+ Hồi quy tuyến tính (Linear Regression) Lasso – Ridge:
Hồi quy tuyến tính (Linear Regression) [5] là một trong những thuật toán học máy
cơ bản nhất, được sử dụng để dự đoán giá trị của một biến liên tục dựa trên một hoặc nhiều biến độc lập khác Mô hình này giả định rằng mối quan hệ giữa các biến là tuyến tính và có thể được biểu diễn dưới dạng một đường thẳng trong không gian hai chiều hoặc một siêu phẳng trong không gian nhiều chiều
Lasso (Least Absolute Shrinkage and Selection Operator) và Ridge là các biến thể của hồi quy tuyến tính, được sử dụng để giải quyết các vấn đề về quá khớp (overfitting)
và lựa chọn biến (feature selection) Lasso áp dụng một hình phạt L1, giúp thu nhỏ các
hệ số của mô hình và loại bỏ một số biến không cần thiết Trong khi đó, Ridge áp dụng một hình phạt L2, giúp làm mịn các hệ số của mô hình nhưng không loại bỏ hoàn toàn các biến
Hình 2.2.1: Hình minh hoạ về hồi quy tuyến tính
Trang 32Trang 19
+ Cây quyết định (Decision Tree):
Cây quyết định (Decision Tree) [6] là một thuật toán học máy giám sát được sử dụng cho cả nhiệm vụ phân loại và hồi quy Mô hình này hoạt động bằng cách chia dữ liệu thành các tập con dựa trên các tiêu chí phân chia tối ưu, từ đó xây dựng một cấu trúc cây với các nút đại diện cho các thuộc tính và các nhánh đại diện cho các giá trị của thuộc tính đó Quá trình phân chia tiếp tục cho đến khi đạt được một điều kiện dừng nhất định, chẳng hạn như khi không còn thuộc tính nào để chia hoặc khi số lượng mẫu trong một nút quá nhỏ
Hình 2.2.2: Hình minh hoạ về cây quyết định
+ Rừng ngẫu nhiên (Random Forest):
Rừng ngẫu nhiên (Random Forest) [7] là một phương pháp học máy sử dụng kỹ thuật ensemble để kết hợp nhiều cây quyết định độc lập nhằm cải thiện độ chính xác và độ
ổn định của mô hình Mỗi cây trong rừng ngẫu nhiên được xây dựng dựa trên một tập con ngẫu nhiên của dữ liệu và các thuộc tính, giúp giảm thiểu vấn đề quá khớp và tăng cường khả năng tổng quát hóa của mô hình Kết quả cuối cùng được xác định bằng
Trang 33mô hình trước đó Gradient Boosting sử dụng một hàm mất mát và một thuật toán tối
ưu hóa để hướng dẫn quá trình học, từ đó cải thiện hiệu suất của mô hình qua từng bước
Trang 34Trang 21
Hình 2.2.4: Hình minh hoạ về Gradient Boosting
+ Support Vector Regression (SVR):
Support Vector Regression (SVR) [9] là một biến thể của phương pháp Support Vector Machines (SVM) được sử dụng cho các nhiệm vụ hồi quy SVR tìm cách xác định một siêu phẳng (hyperplane) tối ưu trong không gian đặc trưng để dự đoán giá trị của biến mục tiêu Mục tiêu của SVR là tối thiểu hóa sai số dự đoán trong khi duy trì một vùng biên (margin) để kiểm soát độ phức tạp của mô hình Điều này giúp SVR đạt được sự cân bằng giữa độ chính xác và khả năng tổng quát hóa
Trang 36Trang 23
Hình 2.2.6: Hình minh hoạ về Ada Boost
2.2.3 Quy trình xây dựng mô hình học máy cơ bản
Sau đây là 8 bước cơ bản để xây dựng một dự án học máy hoàn chỉnh:
+ Bước 1: Nhìn vào bức tranh tổng quan của đề tài:
Nhóm phải trả lời câu hỏi cơ bản sau: Bài toán đề ra là supervised learning hay unsupervised learning? Vậy đầu tiên cần tìm hiểu về hai khái niệm trên
Tìm hiểu về khái niệm về supervised learning: Là bài toán sử dụng một tập dữ liệu
đã được gán nhãn, có nghĩa là mỗi mẫu dữ liệu trong tập dữ liệu huấn luyện đi kèm với một nhãn hoặc đầu ra mong muốn Mục tiêu của mô hình là học một phép ánh xạ từ dữ liệu đầu vào đến đầu ra tương ứng Ví dụ, trong bài toán nhận dạng hình ảnh, mỗi hình ảnh sẽ được gán một nhãn là loại đối tượng trong hình ảnh (chó, mèo, ô tô, v.v.) Tìm hiểu về khái niệm về unsupervised learning: Là bài toán sử dụng một tập dữ liệu không có nhãn hoặc đầu ra mong muốn được cung cấp trong quá trình huấn luyện Mục tiêu là khám phá cấu trúc ẩn trong dữ liệu, thường là bằng cách tìm kiếm các mẫu, cụm hoặc đặc điểm chung Một ví dụ điển hình của unsupervised learning là phân cụm