DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo ACID Atomicity, Consistency, Isolation, and Durability Bốn thuộc tính quan tr
Mục đích của đề tài
Phương pháp nghiên cứu
Thu thập dữ liệu
Xác định nguồn dữ liệu: Xác định các trang web uy tín về dữ liệu bất động sản phù hợp với nhu cầu nghiên cứu, đảm bảo tính chính xác và cập nhật của dữ liệu Lựa chọn công cụ thu thập web: Lựa chọn công cụ thu thập web phù hợp với khả năng lập trình và yêu cầu của dự án, ví dụ như Python libraries (Beautiful Soup, Scrapy), web scraping tools (Octoparse, ParseHub)
Viết script thu thập dữ liệu: Viết script thu thập web để tự động trích xuất dữ liệu từ các trang web đã chọn, bao gồm thông tin về giá nhà, vị trí, diện tích, đặc điểm nhà, v.v
Lưu trữ dữ liệu: Lưu trữ dữ liệu thu thập được vào kho lưu trữ tạm thời, đảm bảo an toàn và dễ dàng truy cập cho các bước tiếp theo
Thiết kế kiến trúc Data Lakehouse phù hợp với nhu cầu lưu trữ, xử lý và phân tích dữ liệu bất động sản Cân nhắc các yếu tố như:
+ Khối lượng dữ liệu: Ước tính khối lượng dữ liệu cần lưu trữ và tốc độ tăng trưởng dự kiến
+ Định dạng dữ liệu: Xác định các định dạng dữ liệu khác nhau (cấu trúc, bán cấu trúc, phi cấu trúc) cần hỗ trợ
+ Nhu cầu phân tích: Xác định các loại phân tích cần thực hiện trên dữ liệu (báo cáo, học máy)
Triển khai Databricks: Triển khai Databricks trên nền tảng điện toán đám mây hoặc hạ tầng tại chỗ phù hợp với ngân sách và yêu cầu kỹ thuật
Tích hợp dữ liệu thu thập được từ kho lưu trữ tạm thời vào Data Lakehouse, đảm bảo tính nhất quán và đồng bộ Xử lý dữ liệu để đảm bảo chất lượng cho việc phân tích, bao gồm:
+ Làm sạch dữ liệu: Xử lý các giá trị thiếu, giá trị sai lệch và nhiễu trong dữ liệu
+ Chuẩn hóa dữ liệu: Chuẩn hóa định dạng dữ liệu, đơn vị đo lường và các thuộc tính khác cho thống nhất
+ Chuyển đổi dữ liệu: Chuyển đổi dữ liệu sang định dạng phù hợp cho các công cụ phân tích
Xây dựng báo cáo: Tạo các báo cáo trực quan để hiển thị dữ liệu giá nhà theo các khía cạnh khác nhau, ví dụ như:
+ Phân bố giá nhà theo khu vực, vị trí
+ Biến động giá nhà theo thời gian
+ Mối quan hệ giữa giá nhà và các yếu tố khác (diện tích, đặc điểm nhà) Xây dựng mô hình học máy: Xây dựng và áp dụng các mô hình học máy để dự đoán giá nhà dựa trên dữ liệu lịch sử và các yếu tố liên quan
Hiệu quả lưu trữ: Đo lường dung lượng lưu trữ sử dụng, tốc độ truy cập dữ liệu và chi phí lưu trữ để đảm bảo hiệu quả và tối ưu hóa tài nguyên Đánh giá hiệu quả xử lý dữ liệu: Đánh giá tốc độ xử lý dữ liệu, độ chính xác của dữ liệu sau xử lý và hiệu suất của các quy trình xử lý Đánh giá hiệu quả phân tích dữ liệu: Đánh giá chất lượng báo cáo, độ chính xác của mô hình học máy và giá trị kinh doanh mang lại từ các phân tích
1.5 Kết quả dự kiến đạt được
1.5.1 Mục tiêu và tiêu chí đánh giá
Mục tiêu chính của đề tài này là xây dựng một hệ thống Data Lakehouse trên nền tảng Databricks nhằm hỗ trợ các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Các tiêu chí đánh giá hệ thống bao gồm:
Khả năng lưu trữ và xử lý dữ liệu lớn:
Hệ thống phải có khả năng lưu trữ và xử lý hiệu quả các loại dữ liệu khác nhau từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc Tính linh hoạt và khả năng mở rộng:
Hệ thống cần linh hoạt và có khả năng mở rộng để đáp ứng các nhu cầu kinh doanh thay đổi, cho phép tích hợp thêm các nguồn dữ liệu mới và mở rộng dung lượng lưu trữ mà không ảnh hưởng đến hiệu suất
Hiệu quả phân tích và dự báo:
Hệ thống phải hỗ trợ các công cụ phân tích và dự báo mạnh mẽ, giúp doanh nghiệp thực hiện các phân tích dữ liệu chi tiết và đưa ra các quyết định chiến lược kịp thời và chính xác Điều này bao gồm khả năng tạo ra các báo cáo và dashboard trực quan, cũng như áp dụng các mô hình dự báo để dự đoán xu hướng thị trường
Việc triểnkhai hệ thống Data Lakehouse dự kiến sẽ mang lại những lợi ích sau:
Nâng cao hiệu quả kinh doanh:
Hệ thống giúp doanh nghiệp tối ưu hóa quy trình kinh doanh, từ đó giảm chi phí và tăng cường hiệu suất hoạt động Bằng cách lưu trữ và xử lý dữ liệu một cách hiệu quả, doanh nghiệp có thể tối ưu hóa các quy trình và sử dụng nguồn lực một cách hiệu quả hơn
Cải thiện khả năng ra quyết định:
Hệ thống hỗ trợ doanh nghiệp ra quyết định chính xác và kịp thời dựa trên phân tích dữ liệu chi tiết Các công cụ phân tích và dự báo mạnh mẽ giúp doanh nghiệp nắm bắt thông tin thị trường, xu hướng khách hàng và hiệu suất kinh doanh, từ đó đưa ra các quyết định chiến lược hợp lý
Tăng cường khả năng cạnh tranh:
Việc tận dụng các công nghệ tiên tiến và quản lý dữ liệu hiệu quả giúp doanh nghiệp nâng cao khả năng cạnh tranh trên thị trường Hệ thống Data Lakehouse cung cấp nền tảng để triển khai các công nghệ mới như trí tuệ nhân tạo (AI), học máy (machine learning), và phân tích dữ liệu lớn (big data analytics), giúp doanh nghiệp đáp ứng nhanh chóng với thay đổi của thị trường và nhu cầu của khách hàng
CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 1.1 Giới thiệu các kiến trúc cơ bản
1.1.1 Khái niệm cơ bản về Data Lakes
Khái niệm cơ bản về Data Lake liên quan đến việc lưu trữ khối lượng lớn dữ liệu có cấu trúc, bán cấu trúc, không cấu trúc và dữ liệu thô ở nhiều định dạng khác nhau Dữ liệu này được lưu trữ trong kho lưu trữ tập trung mà không cần lược đồ được xác định trước Hồ dữ liệu cho phép lưu trữ lượng lớn dữ liệu, sau đó có thể được sử dụng cho nhiều mục đích khác nhau như phân tích nâng cao, học máy và các tác vụ xử lý dữ liệu khác Tính linh hoạt của Data Lake cho phép các tổ chức lưu trữ các loại dữ liệu đa dạng và cho phép truy cập dễ dàng để phân tích và xử lý dữ liệu
1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu
Vai trò của Kho dữ liệu trong quản lý dữ liệu là cung cấp kho lưu trữ tập trung để lưu trữ, tích hợp và quản lý dữ liệu của tổ chức từ nhiều nguồn khác nhau Nó cho phép tổ chức thực hiện phân tích, báo cáo và khai thác dữ liệu phức tạp để hiểu rõ hơn về việc ra quyết định Kho dữ liệu cũng tạo điều kiện tích hợp dữ liệu, đảm bảo rằng dữ liệu từ các hệ thống khác nhau có thể được kết hợp và phân tích liền mạch Ngoài ra, nó hỗ trợ các sáng kiến về chất lượng dữ liệu bằng cách cung cấp nguồn thông tin nhất quán và đáng tin cậy cho báo cáo và thông tin kinh doanh
1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse
Phân tích dữ liệu
Xây dựng báo cáo: Tạo các báo cáo trực quan để hiển thị dữ liệu giá nhà theo các khía cạnh khác nhau, ví dụ như:
+ Phân bố giá nhà theo khu vực, vị trí
+ Biến động giá nhà theo thời gian
+ Mối quan hệ giữa giá nhà và các yếu tố khác (diện tích, đặc điểm nhà) Xây dựng mô hình học máy: Xây dựng và áp dụng các mô hình học máy để dự đoán giá nhà dựa trên dữ liệu lịch sử và các yếu tố liên quan
Đánh giá
Hiệu quả lưu trữ: Đo lường dung lượng lưu trữ sử dụng, tốc độ truy cập dữ liệu và chi phí lưu trữ để đảm bảo hiệu quả và tối ưu hóa tài nguyên Đánh giá hiệu quả xử lý dữ liệu: Đánh giá tốc độ xử lý dữ liệu, độ chính xác của dữ liệu sau xử lý và hiệu suất của các quy trình xử lý Đánh giá hiệu quả phân tích dữ liệu: Đánh giá chất lượng báo cáo, độ chính xác của mô hình học máy và giá trị kinh doanh mang lại từ các phân tích
1.5 Kết quả dự kiến đạt được
1.5.1 Mục tiêu và tiêu chí đánh giá
Mục tiêu chính của đề tài này là xây dựng một hệ thống Data Lakehouse trên nền tảng Databricks nhằm hỗ trợ các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Các tiêu chí đánh giá hệ thống bao gồm:
Khả năng lưu trữ và xử lý dữ liệu lớn:
Hệ thống phải có khả năng lưu trữ và xử lý hiệu quả các loại dữ liệu khác nhau từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc Tính linh hoạt và khả năng mở rộng:
Hệ thống cần linh hoạt và có khả năng mở rộng để đáp ứng các nhu cầu kinh doanh thay đổi, cho phép tích hợp thêm các nguồn dữ liệu mới và mở rộng dung lượng lưu trữ mà không ảnh hưởng đến hiệu suất
Hiệu quả phân tích và dự báo:
Hệ thống phải hỗ trợ các công cụ phân tích và dự báo mạnh mẽ, giúp doanh nghiệp thực hiện các phân tích dữ liệu chi tiết và đưa ra các quyết định chiến lược kịp thời và chính xác Điều này bao gồm khả năng tạo ra các báo cáo và dashboard trực quan, cũng như áp dụng các mô hình dự báo để dự đoán xu hướng thị trường
Việc triểnkhai hệ thống Data Lakehouse dự kiến sẽ mang lại những lợi ích sau:
Nâng cao hiệu quả kinh doanh:
Hệ thống giúp doanh nghiệp tối ưu hóa quy trình kinh doanh, từ đó giảm chi phí và tăng cường hiệu suất hoạt động Bằng cách lưu trữ và xử lý dữ liệu một cách hiệu quả, doanh nghiệp có thể tối ưu hóa các quy trình và sử dụng nguồn lực một cách hiệu quả hơn
Cải thiện khả năng ra quyết định:
Hệ thống hỗ trợ doanh nghiệp ra quyết định chính xác và kịp thời dựa trên phân tích dữ liệu chi tiết Các công cụ phân tích và dự báo mạnh mẽ giúp doanh nghiệp nắm bắt thông tin thị trường, xu hướng khách hàng và hiệu suất kinh doanh, từ đó đưa ra các quyết định chiến lược hợp lý
Tăng cường khả năng cạnh tranh:
Việc tận dụng các công nghệ tiên tiến và quản lý dữ liệu hiệu quả giúp doanh nghiệp nâng cao khả năng cạnh tranh trên thị trường Hệ thống Data Lakehouse cung cấp nền tảng để triển khai các công nghệ mới như trí tuệ nhân tạo (AI), học máy (machine learning), và phân tích dữ liệu lớn (big data analytics), giúp doanh nghiệp đáp ứng nhanh chóng với thay đổi của thị trường và nhu cầu của khách hàng
CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 1.1 Giới thiệu các kiến trúc cơ bản
1.1.1 Khái niệm cơ bản về Data Lakes
Khái niệm cơ bản về Data Lake liên quan đến việc lưu trữ khối lượng lớn dữ liệu có cấu trúc, bán cấu trúc, không cấu trúc và dữ liệu thô ở nhiều định dạng khác nhau Dữ liệu này được lưu trữ trong kho lưu trữ tập trung mà không cần lược đồ được xác định trước Hồ dữ liệu cho phép lưu trữ lượng lớn dữ liệu, sau đó có thể được sử dụng cho nhiều mục đích khác nhau như phân tích nâng cao, học máy và các tác vụ xử lý dữ liệu khác Tính linh hoạt của Data Lake cho phép các tổ chức lưu trữ các loại dữ liệu đa dạng và cho phép truy cập dễ dàng để phân tích và xử lý dữ liệu
1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu
Vai trò của Kho dữ liệu trong quản lý dữ liệu là cung cấp kho lưu trữ tập trung để lưu trữ, tích hợp và quản lý dữ liệu của tổ chức từ nhiều nguồn khác nhau Nó cho phép tổ chức thực hiện phân tích, báo cáo và khai thác dữ liệu phức tạp để hiểu rõ hơn về việc ra quyết định Kho dữ liệu cũng tạo điều kiện tích hợp dữ liệu, đảm bảo rằng dữ liệu từ các hệ thống khác nhau có thể được kết hợp và phân tích liền mạch Ngoài ra, nó hỗ trợ các sáng kiến về chất lượng dữ liệu bằng cách cung cấp nguồn thông tin nhất quán và đáng tin cậy cho báo cáo và thông tin kinh doanh
1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse
Khái niệm về Data LakeHouse kết hợp các yếu tố của Data Lake và Data Warehouse Nó nhằm mục đích giải quyết các hạn chế của Data Warehouse truyền thống và tính linh hoạt của Data Lake bằng cách cung cấp nền tảng thống nhất cho cả dữ liệu có cấu trúc và không cấu trúc
Data LakeHouse tích hợp khả năng lưu trữ và xử lý có thể mở rộng của Hồ dữ liệu với các tính năng quản lý dữ liệu và truy vấn có cấu trúc của Data Warehouse Việc tích hợp này cho phép các tổ chức lưu trữ tất cả các loại dữ liệu ở dạng thô (Data Lake) và sau đó áp dụng các kỹ thuật lược đồ khi đọc hoặc lược đồ khi ghi để cấu trúc dữ liệu khi cần, tương tự như Data Warehouse
Bằng cách kết hợp các điểm mạnh của cả Data Lake và Data Warehouse, kiến trúc Data LakeHouse mang lại sự linh hoạt để xử lý các loại và định dạng dữ liệu đa dạng, đồng thời cung cấp khả năng phân tích và truy vấn mạnh mẽ cho dữ liệu có cấu trúc
1.2.1 Định nghĩa và cấu trúc của Data Lake Định nghĩa:
Data Lake là một khái niệm trong lĩnh vực quản lý dữ liệu, được sử dụng để mô tả một kho lưu trữ tập trung chứa một lượng lớn dữ liệu, từ dữ liệu có cấu trúc, dữ liệu bán cấu trúc, đến dữ liệu phi cấu trúc Khác với Data Warehouse, nơi dữ liệu được tổ chức và cấu trúc trước khi lưu trữ, Data Lake cho phép lưu trữ dữ liệu ở dạng thô, nguyên bản Điều này cho phép các tổ chức lưu trữ dữ liệu từ nhiều nguồn khác nhau mà không cần phải chuyển đổi hay định dạng ngay từ đầu, giúp tiết kiệm thời gian và chi phí
Một số đặc điểm nổi bật của Data Lake:
Linh hoạt: Cho phép lưu trữ bất kỳ loại dữ liệu nào, bao gồm dữ liệu từ hệ thống giao dịch, dữ liệu cảm biến, dữ liệu từ mạng xã hội, và dữ liệu từ các nguồn khác
Kết quả dự kiến đạt được
KIẾN THỨC NỀN TẢNG
GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS
Databricks
Chương 3 Xây dựng Data Lakehouse 3.1 Kiến trúc của hệ thống
3.2 Thiết kế mô hình nhiều chiều
3.3 Xây dựng bảng báo cáo
3.4 Đào tạo mô hình dự đoán
STT Thời gian Nội Dung Ghi chú
Nghiên cứu khái niệm và kiến trúc Data Lakehouse, Data Lake và Data Warehouse
Tham khảo các nền tảng Data Lakehouse phổ biến
Xác định nhu cầu của doanh nghiệp Business Intelligence
Tìm hiểu về môi trường trong Databricks
4 01/03/2024 - 04/03/2024 Tìm nguồn dữ liệu liên quan đến dữ liệu hiện tại của nhóm
5 05/03/2024 - 09/03/2024 Thiết kế mô hình dữ liệu cho Data
6 10/03/2024 - 15/03/2024 Lựa chọn các công cụ và công nghệ phù hợp
7 16/03/2024 - 25/03/2024 Triển khai cài đặt nền tảng và môi trường cho Data Lakehouse
8 26/03/2024 - 04/04/2024 Viết ETL (Extract, Transform, Load) để tích hợp dữ liệu
9 05/04/2024 - 14/04/2024 Bắt đầu tích hợp dữ liệu từ nguồn dữ liệu
10 15/04/2024 - 24/04/2024 Tiếp tục tích hợp dữ liệu từ các nguồn còn lại
11 25/04/2024 - 04/05/2024 Phát triển các công cụ truy vấn và phân tích dữ liệu cơ bản như Power BI
12 05/05/2024 - 14/05/2024 Thử nghiệm các công cụ truy vấn và phân tích dữ liệu khác
13 15/05/2024 - 24/05/2024 Hoàn thiện việc tích hợp dữ liệu
14 25/05/2024 - 03/06/2024 Hoàn thiện các công cụ truy vấn và
6 phân tích dữ liệu
15 04/06/2024 -13/06/2024 Nghiên cứu và áp dụng học máy vào
16 14/06/2024 - 23/06/2024 Thử nghiệm các phương pháp học máy phù hợp với đề tài
17 24/06/2024 - 03/07/2024 Kiểm tra lại toàn bộ pipeline để tìm và sửa lỗi
Hoàn thiện báo cáo Khóa luận tốt nghiệp và Lakehouse
Tổng kết và đánh giá kết quả thực hiện đề tài
Ngày tháng năm 2024 Ý kiến của giáo viên hướng dẫn Người viết đề cương
(ký và ghi rõ họ tên) (ký và ghi rõ họ tên)
Bảng 1: So sánh giữa các kiểu kiến trúc dữ liệu 36
Bảng 2: Bảng so sánh các chỉ số đánh giá mô hình theo batch_size 73
Bảng 3: Bảng so sánh các chỉ số đánh giá mô hình sau điều chỉnh 74
Bảng 4: Phần trăm quan trọng của thuộc tính với 2 mô hình học máy 76
DANH MỤC HÌNH ẢNH
Hình 1: Lược đồ sao và khối OLAP 30
Hình 2: Kiến trúc dữ liệu theo thời gian 33
Hình 3: Cách hoạt động trong môi trường Databricks 40
Hình 4: Các thành phần trong quy trình quản lý vòng đời học máy với Mlflow 43
Hình 5: Kiến trúc hệ thống 45
Hình 6: Kiến trúc Data Lakehouse 46
Hình 11: Logo Microsoft Power BI 51
Hình 14: Các thiết kế Dimension 59
Hình 15: Thiết kế bảng Fact 60
Hình 16: Mô hình quan hệ giữa bảng trong mô hình sao 61
Hình 17: Bảng báo cáo tổng quan về bất động sản 63
Hình 18: Bảng báo cáo chi tiết về bất động sản 64
Hình 19: Bảng báo cáo bổ sung về bất động sản theo từng loại 65
Hình 20: Các giá trị đánh giá độ chính xác của mô hình Linear Regression 68
Hình 21: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Linear Regression 70
Hình 22: Các giá trị đánh giá độ chính xác của mô hình Random Forest 71
Hình 23: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Random Forest 72
Hình 24: Sự biến đổi MAE khi huấn luyện với batch_size = 8 74
Hình 25: Mô hình sau khi thêm dropout 74
Hình 26: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Neuron 75
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Từ tiếng Anh Diễn giải
AI Artificial Intelligence Trí tuệ nhân tạo
Bốn thuộc tính quan trọng đảm bảo độ tin cậy và nhất quán của dữ liệu AWS Amazon Web Service Dịch vụ đám mây của
BI Business Intelligence Trí tuệ doanh nghiệp
CSV Comma-Separated Values Định dạng file lưu trữ
DW Data Warehouse Kho dữ liệu
DL Data Lake Hồ dữ liệu
ETL Extract-Transform-Load Quy trình xử lý dữ liệu MAE Mean Absolute Error Sai số tuyệt đối trung bình
ML Machine Learning Học máy
MSE Mean Squared Error Sai số bình phương trung bình
OLAP Online Analytical Processing Phương pháp xử lý dữ liệu trực tuyến
Là một phương pháp OLAP sử dụng cơ sở dữ liệu để lưu trữ
DBFS Data Bricks File System Hệ thống lưu trữ tệp tin phân tán
DANH MỤC HÌNH ẢNH 8
DANH MỤC CÁC TỪ VIẾT TẮT 9
1.1 Tính cấp thiết của đề tài 13
1.2 Mục đích của đề tài 13
1.3 Đối tượng và phạm vi nghiên cứu 14
1.4.2 Xây dựng Data Lakehouse 16
1.5 Kết quả dự kiến đạt được 17
1.5.1 Mục tiêu và tiêu chí đánh giá 17
CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 19
1.1 Giới thiệu các kiến trúc cơ bản 19
1.1.1 Khái niệm cơ bản về Data Lakes 19
1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu 19
1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse 19
1.2.1 Định nghĩa và cấu trúc của Data Lake 20
1.2.2 Sự liên kết với Big Data và dữ liệu phi cấu trúc 22
1.3.1 Khái niệm và mục tiêu của Data Warehouse 23
1.3.2 Kiến trúc và cấu trúc dữ liệu trong Data Warehouse 24
1.3.3 Ưu điểm của Data Warehouse 24
1.3.4 Mục tiêu trong xây dựng Data Warehouse và Business Intelligence 25
1.3.5 Quy trình xây dựng Data Warehouse 27
1.3.6 Giới thiệu về Mô hình dữ liệu đa chiều (Dimensional Modeling) 28
1.3.7 Phân biệt giữa Data Warehouse và Data Lakes 32
1.4.1 Giới thiệu về Data Lakehouse 33
1.4.2 Mối quan hệ giữa Lakehouse và Data Warehouse, Data Lake 34
1.4.3 Cấu trúc của Data Lakehouse 35
1.4.4 Ưu điểm và nhược điểm của Lakehouse 36
1.4.5 Tích hợp dữ liệu phi cấu trúc và cấu trúc trong Data LakeHouse 37
CHƯƠNG 2 GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS 38
2.2.5 Quản lý mô hình học máy với Databricks 42
CHƯƠNG 3 XÂY DỰNG DATA LAKEHOUSE 45
3.1 Kiến trúc của hệ thống 45
3.1.1 Kiến trúc tổng quan của hệ thống 45
3.1.3 Các công nghệ sử dụng 47
3.1.4 Thu thập và lưu trữ dữ liệu 57
3.2 Thiết kế mô hình nhiều chiều 59
3.2.1 Mô hình hóa dữ liệu 59
3.2.4 Thiết kế mối quan hệ giữa các bảng 61
3.3 Xây dựng bảng báo cáo 61
3.3.1 Bảng báo cáo tổng quan 63
3.3.2 Bảng báo cáo chi tiết từng khu vực 64
3.3.3 Bảng báo cáo bổ sung từng loại bất động sản 65
3.4 Đào tạo mô hình dự đoán 66
3.4.1 Giới hạn dữ liệu cho phần học máy 66
3.4.2 Lựa chọn các đặc trưng từ lớp gold 67
3.4.6 Đánh giá và nhận xét chung 76
PHẦN 1 MỞ ĐẦU 1.1 Tính cấp thiết của đề tài
Tính cấp thiết của việc xây dựng Data Lakehouse trên nền tảng Databricks và triển khai các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản không thể phủ nhận Đầu tiên, sự phát triển nhanh chóng của dữ liệu trong lĩnh vực này đặt ra nhiều thách thức trong việc quản lý và phân tích thông tin Dữ liệu được tạo ra từ nhiều nguồn khác nhau như hệ thống quản lý bất động sản, thông tin từ website, báo cáo thị trường và dữ liệu từ mạng xã hội, tất cả đều yêu cầu một phương pháp hiệu quả để tổ chức và xử lý Data Lakehouse cung cấp một giải pháp linh hoạt và mở rộng để lưu trữ và xử lý dữ liệu phức tạp từ nhiều nguồn khác nhau
Thứ hai, Cải thiện hiệu quả hoạt động, có thể tự động hóa các quy trình thủ công, tối ưu hóa các quy trình xử lý dữ liệu trong kinh doanh và nâng cao hiệu quả hoạt động
Cuối cùng, yêu cầu phân tích sâu sắc và linh hoạt trong lĩnh vực này đòi hỏi một giải pháp phân tích dữ liệu mạnh mẽ Data Lakehouse kết hợp với các dịch vụ BI trên nền tảng Databricks cung cấp khả năng phân tích dữ liệu từ nhiều góc độ khác nhau, từ đó hỗ trợ quyết định chiến lược và tối ưu hóa hiệu suất kinh doanh của doanh nghiệp bất động sản
1.2 Mục đích của đề tài
Mục đích của đề tài là tìm hiểu và thực hiện việc xây dựng một Data Lakehouse trên nền tảng Databricks, nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho các tổ chức và doanh nghiệp hoạt động trong lĩnh vực bất động sản Đây là một phần quan trọng trong quá trình hiện đại hóa và tối ưu hóa quy trình quản lý dữ liệu, nhằm giúp họ nắm bắt thông tin hiệu quả hơn, từ đó đưa ra quyết định chiến lược và tối ưu hóa hoạt động kinh doanh
Bằng cách phát triển một Data Lakehouse trên nền tảng Databricks, nghiên cứu nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản Đồng thời, thông qua việc triển khai các
14 dịch vụ BI, đề tài mong muốn cung cấp cho doanh nghiệp một hệ thống giúp họ hiểu rõ hơn về thị trường, khách hàng, và các yếu tố khác có thể ảnh hưởng đến hiệu suất kinh doanh của họ
Mục tiêu cuối cùng của đề tài là đóng góp vào việc nâng cao khả năng cạnh tranh và phát triển bền vững của các doanh nghiệp trong ngành bất động sản thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại, từ đó tạo ra giá trị lâu dài và mang lại lợi ích cho cả doanh nghiệp và cộng đồng
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu của đề tài này là việc xây dựng hệ thống Data Lakehouse trên nền tảng Databricks nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Cụ thể, đề tài tập trung vào các thành phần chính như sau:
Dữ liệu từ website: Dữ liệu thu thập từ website bất động sản nhatot.com để phân tích thông tin thị trường
Nền tảng Databricks: Databricks cung cấp môi trường phân tích dữ liệu mạnh mẽ dựa trên Apache Spark, hỗ trợ việc xử lý và phân tích dữ liệu lớn hiệu quả
Các dịch vụ Business Intelligence (BI): Các công cụ và dịch vụ BI như Power
BI sẽ được tích hợp để hỗ trợ doanh nghiệp trong việc trực quan hóa và phân tích dữ liệu, từ đó đưa ra các quyết định kinh doanh chính xác và kịp thời
Nghiên cứu này nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản, đồng thời nâng cao khả năng cạnh tranh và phát triển bền vững của doanh nghiệp thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại
Phạm vi nghiên cứu của đề tài bao gồm các nội dung chính như sau:
Nền tảng: Sử dụng Databricks, một nền tảng phân tích dữ liệu dựa trên Apache Spark, để xây dựng hệ thống Data Lakehouse
Kiến trúc: Thiết kế kiến trúc hệ thống Data Lakehouse để lưu trữ, quản lý và phân tích dữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc
Các dịch vụ Business Intelligence (BI):
Tích hợp: Tích hợp các công cụ BI như Power BI vào hệ thống Data Lakehouse nhằm cung cấp khả năng phân tích và trực quan hóa dữ liệu
Chức năng: Phát triển các chức năng BI để hỗ trợ doanh nghiệp bất động sản trong việc ra quyết định chiến lược dựa trên dữ liệu
Dữ liệu và nguồn dữ liệu:
Dữ liệu từ website và báo cáo thị trường: Sử dụng dữ liệu từ các nguồn trực tuyến là nhatot để cung cấp cái nhìn tổng quan về thị trường bất động sản
Xử lý dữ liệu thời gian thực: Phát triển các giải pháp xử lý dữ liệu thời gian thực để doanh nghiệp có thể cập nhật và phân tích dữ liệu mới nhất
XÂY DỰNG DATA LAKEHOUSE
Đào tạo mô hình dự đoán
STT Thời gian Nội Dung Ghi chú
Nghiên cứu khái niệm và kiến trúc Data Lakehouse, Data Lake và Data Warehouse
Tham khảo các nền tảng Data Lakehouse phổ biến
Xác định nhu cầu của doanh nghiệp Business Intelligence
Tìm hiểu về môi trường trong Databricks
4 01/03/2024 - 04/03/2024 Tìm nguồn dữ liệu liên quan đến dữ liệu hiện tại của nhóm
5 05/03/2024 - 09/03/2024 Thiết kế mô hình dữ liệu cho Data
6 10/03/2024 - 15/03/2024 Lựa chọn các công cụ và công nghệ phù hợp
7 16/03/2024 - 25/03/2024 Triển khai cài đặt nền tảng và môi trường cho Data Lakehouse
8 26/03/2024 - 04/04/2024 Viết ETL (Extract, Transform, Load) để tích hợp dữ liệu
9 05/04/2024 - 14/04/2024 Bắt đầu tích hợp dữ liệu từ nguồn dữ liệu
10 15/04/2024 - 24/04/2024 Tiếp tục tích hợp dữ liệu từ các nguồn còn lại
11 25/04/2024 - 04/05/2024 Phát triển các công cụ truy vấn và phân tích dữ liệu cơ bản như Power BI
12 05/05/2024 - 14/05/2024 Thử nghiệm các công cụ truy vấn và phân tích dữ liệu khác
13 15/05/2024 - 24/05/2024 Hoàn thiện việc tích hợp dữ liệu
14 25/05/2024 - 03/06/2024 Hoàn thiện các công cụ truy vấn và
6 phân tích dữ liệu
15 04/06/2024 -13/06/2024 Nghiên cứu và áp dụng học máy vào
16 14/06/2024 - 23/06/2024 Thử nghiệm các phương pháp học máy phù hợp với đề tài
17 24/06/2024 - 03/07/2024 Kiểm tra lại toàn bộ pipeline để tìm và sửa lỗi
Hoàn thiện báo cáo Khóa luận tốt nghiệp và Lakehouse
Tổng kết và đánh giá kết quả thực hiện đề tài
Ngày tháng năm 2024 Ý kiến của giáo viên hướng dẫn Người viết đề cương
(ký và ghi rõ họ tên) (ký và ghi rõ họ tên)
Bảng 1: So sánh giữa các kiểu kiến trúc dữ liệu 36
Bảng 2: Bảng so sánh các chỉ số đánh giá mô hình theo batch_size 73
Bảng 3: Bảng so sánh các chỉ số đánh giá mô hình sau điều chỉnh 74
Bảng 4: Phần trăm quan trọng của thuộc tính với 2 mô hình học máy 76
DANH MỤC HÌNH ẢNH
Hình 1: Lược đồ sao và khối OLAP 30
Hình 2: Kiến trúc dữ liệu theo thời gian 33
Hình 3: Cách hoạt động trong môi trường Databricks 40
Hình 4: Các thành phần trong quy trình quản lý vòng đời học máy với Mlflow 43
Hình 5: Kiến trúc hệ thống 45
Hình 6: Kiến trúc Data Lakehouse 46
Hình 11: Logo Microsoft Power BI 51
Hình 14: Các thiết kế Dimension 59
Hình 15: Thiết kế bảng Fact 60
Hình 16: Mô hình quan hệ giữa bảng trong mô hình sao 61
Hình 17: Bảng báo cáo tổng quan về bất động sản 63
Hình 18: Bảng báo cáo chi tiết về bất động sản 64
Hình 19: Bảng báo cáo bổ sung về bất động sản theo từng loại 65
Hình 20: Các giá trị đánh giá độ chính xác của mô hình Linear Regression 68
Hình 21: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Linear Regression 70
Hình 22: Các giá trị đánh giá độ chính xác của mô hình Random Forest 71
Hình 23: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Random Forest 72
Hình 24: Sự biến đổi MAE khi huấn luyện với batch_size = 8 74
Hình 25: Mô hình sau khi thêm dropout 74
Hình 26: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Neuron 75
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Từ tiếng Anh Diễn giải
AI Artificial Intelligence Trí tuệ nhân tạo
Bốn thuộc tính quan trọng đảm bảo độ tin cậy và nhất quán của dữ liệu AWS Amazon Web Service Dịch vụ đám mây của
BI Business Intelligence Trí tuệ doanh nghiệp
CSV Comma-Separated Values Định dạng file lưu trữ
DW Data Warehouse Kho dữ liệu
DL Data Lake Hồ dữ liệu
ETL Extract-Transform-Load Quy trình xử lý dữ liệu MAE Mean Absolute Error Sai số tuyệt đối trung bình
ML Machine Learning Học máy
MSE Mean Squared Error Sai số bình phương trung bình
OLAP Online Analytical Processing Phương pháp xử lý dữ liệu trực tuyến
Là một phương pháp OLAP sử dụng cơ sở dữ liệu để lưu trữ
DBFS Data Bricks File System Hệ thống lưu trữ tệp tin phân tán
DANH MỤC HÌNH ẢNH 8
DANH MỤC CÁC TỪ VIẾT TẮT 9
1.1 Tính cấp thiết của đề tài 13
1.2 Mục đích của đề tài 13
1.3 Đối tượng và phạm vi nghiên cứu 14
1.4.2 Xây dựng Data Lakehouse 16
1.5 Kết quả dự kiến đạt được 17
1.5.1 Mục tiêu và tiêu chí đánh giá 17
CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 19
1.1 Giới thiệu các kiến trúc cơ bản 19
1.1.1 Khái niệm cơ bản về Data Lakes 19
1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu 19
1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse 19
1.2.1 Định nghĩa và cấu trúc của Data Lake 20
1.2.2 Sự liên kết với Big Data và dữ liệu phi cấu trúc 22
1.3.1 Khái niệm và mục tiêu của Data Warehouse 23
1.3.2 Kiến trúc và cấu trúc dữ liệu trong Data Warehouse 24
1.3.3 Ưu điểm của Data Warehouse 24
1.3.4 Mục tiêu trong xây dựng Data Warehouse và Business Intelligence 25
1.3.5 Quy trình xây dựng Data Warehouse 27
1.3.6 Giới thiệu về Mô hình dữ liệu đa chiều (Dimensional Modeling) 28
1.3.7 Phân biệt giữa Data Warehouse và Data Lakes 32
1.4.1 Giới thiệu về Data Lakehouse 33
1.4.2 Mối quan hệ giữa Lakehouse và Data Warehouse, Data Lake 34
1.4.3 Cấu trúc của Data Lakehouse 35
1.4.4 Ưu điểm và nhược điểm của Lakehouse 36
1.4.5 Tích hợp dữ liệu phi cấu trúc và cấu trúc trong Data LakeHouse 37
CHƯƠNG 2 GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS 38
2.2.5 Quản lý mô hình học máy với Databricks 42
CHƯƠNG 3 XÂY DỰNG DATA LAKEHOUSE 45
3.1 Kiến trúc của hệ thống 45
3.1.1 Kiến trúc tổng quan của hệ thống 45
3.1.3 Các công nghệ sử dụng 47
3.1.4 Thu thập và lưu trữ dữ liệu 57
3.2 Thiết kế mô hình nhiều chiều 59
3.2.1 Mô hình hóa dữ liệu 59
3.2.4 Thiết kế mối quan hệ giữa các bảng 61
3.3 Xây dựng bảng báo cáo 61
3.3.1 Bảng báo cáo tổng quan 63
3.3.2 Bảng báo cáo chi tiết từng khu vực 64
3.3.3 Bảng báo cáo bổ sung từng loại bất động sản 65
3.4 Đào tạo mô hình dự đoán 66
3.4.1 Giới hạn dữ liệu cho phần học máy 66
3.4.2 Lựa chọn các đặc trưng từ lớp gold 67
3.4.6 Đánh giá và nhận xét chung 76
PHẦN 1 MỞ ĐẦU 1.1 Tính cấp thiết của đề tài
Tính cấp thiết của việc xây dựng Data Lakehouse trên nền tảng Databricks và triển khai các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản không thể phủ nhận Đầu tiên, sự phát triển nhanh chóng của dữ liệu trong lĩnh vực này đặt ra nhiều thách thức trong việc quản lý và phân tích thông tin Dữ liệu được tạo ra từ nhiều nguồn khác nhau như hệ thống quản lý bất động sản, thông tin từ website, báo cáo thị trường và dữ liệu từ mạng xã hội, tất cả đều yêu cầu một phương pháp hiệu quả để tổ chức và xử lý Data Lakehouse cung cấp một giải pháp linh hoạt và mở rộng để lưu trữ và xử lý dữ liệu phức tạp từ nhiều nguồn khác nhau
Thứ hai, Cải thiện hiệu quả hoạt động, có thể tự động hóa các quy trình thủ công, tối ưu hóa các quy trình xử lý dữ liệu trong kinh doanh và nâng cao hiệu quả hoạt động
Cuối cùng, yêu cầu phân tích sâu sắc và linh hoạt trong lĩnh vực này đòi hỏi một giải pháp phân tích dữ liệu mạnh mẽ Data Lakehouse kết hợp với các dịch vụ BI trên nền tảng Databricks cung cấp khả năng phân tích dữ liệu từ nhiều góc độ khác nhau, từ đó hỗ trợ quyết định chiến lược và tối ưu hóa hiệu suất kinh doanh của doanh nghiệp bất động sản
1.2 Mục đích của đề tài
Mục đích của đề tài là tìm hiểu và thực hiện việc xây dựng một Data Lakehouse trên nền tảng Databricks, nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho các tổ chức và doanh nghiệp hoạt động trong lĩnh vực bất động sản Đây là một phần quan trọng trong quá trình hiện đại hóa và tối ưu hóa quy trình quản lý dữ liệu, nhằm giúp họ nắm bắt thông tin hiệu quả hơn, từ đó đưa ra quyết định chiến lược và tối ưu hóa hoạt động kinh doanh
Bằng cách phát triển một Data Lakehouse trên nền tảng Databricks, nghiên cứu nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản Đồng thời, thông qua việc triển khai các
14 dịch vụ BI, đề tài mong muốn cung cấp cho doanh nghiệp một hệ thống giúp họ hiểu rõ hơn về thị trường, khách hàng, và các yếu tố khác có thể ảnh hưởng đến hiệu suất kinh doanh của họ
Mục tiêu cuối cùng của đề tài là đóng góp vào việc nâng cao khả năng cạnh tranh và phát triển bền vững của các doanh nghiệp trong ngành bất động sản thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại, từ đó tạo ra giá trị lâu dài và mang lại lợi ích cho cả doanh nghiệp và cộng đồng
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu của đề tài này là việc xây dựng hệ thống Data Lakehouse trên nền tảng Databricks nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Cụ thể, đề tài tập trung vào các thành phần chính như sau:
Dữ liệu từ website: Dữ liệu thu thập từ website bất động sản nhatot.com để phân tích thông tin thị trường
Nền tảng Databricks: Databricks cung cấp môi trường phân tích dữ liệu mạnh mẽ dựa trên Apache Spark, hỗ trợ việc xử lý và phân tích dữ liệu lớn hiệu quả
Các dịch vụ Business Intelligence (BI): Các công cụ và dịch vụ BI như Power
BI sẽ được tích hợp để hỗ trợ doanh nghiệp trong việc trực quan hóa và phân tích dữ liệu, từ đó đưa ra các quyết định kinh doanh chính xác và kịp thời
Nghiên cứu này nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản, đồng thời nâng cao khả năng cạnh tranh và phát triển bền vững của doanh nghiệp thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại
Phạm vi nghiên cứu của đề tài bao gồm các nội dung chính như sau:
Nền tảng: Sử dụng Databricks, một nền tảng phân tích dữ liệu dựa trên Apache Spark, để xây dựng hệ thống Data Lakehouse
Kiến trúc: Thiết kế kiến trúc hệ thống Data Lakehouse để lưu trữ, quản lý và phân tích dữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc
Các dịch vụ Business Intelligence (BI):
Tích hợp: Tích hợp các công cụ BI như Power BI vào hệ thống Data Lakehouse nhằm cung cấp khả năng phân tích và trực quan hóa dữ liệu
Chức năng: Phát triển các chức năng BI để hỗ trợ doanh nghiệp bất động sản trong việc ra quyết định chiến lược dựa trên dữ liệu
Dữ liệu và nguồn dữ liệu:
Dữ liệu từ website và báo cáo thị trường: Sử dụng dữ liệu từ các nguồn trực tuyến là nhatot để cung cấp cái nhìn tổng quan về thị trường bất động sản
Xử lý dữ liệu thời gian thực: Phát triển các giải pháp xử lý dữ liệu thời gian thực để doanh nghiệp có thể cập nhật và phân tích dữ liệu mới nhất