1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án tốt nghiệp Kỹ thuật dữ liệu: Xây dựng data lakehouse trên nền tảng databricks đáp ứng các dịch vụ BI cho doanh nghiệp kinh doanh bất động sản

85 8 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng data lakehouse trên nền tảng Databricks đáp ứng các dịch vụ BI cho doanh nghiệp kinh doanh bất động sản
Tác giả Vũ Trung Kiên, Mai Thành Trung
Người hướng dẫn Th.S Nguyễn Văn Thành
Trường học Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật Dữ liệu
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 85
Dung lượng 9 MB

Cấu trúc

  • 1.1. Tính cấp thiết của đề tài (18)
  • 1.2. Mục đích của đề tài (8)
  • 1.3. Đối tượng và phạm vi nghiên cứu (9)
    • 1.3.1. Đối tượng nghiên cứu (0)
    • 1.3.2. Phạm vi nghiên cứu (19)
  • 1.4. Phương pháp nghiên cứu (9)
    • 1.4.1 Thu thập dữ liệu (20)
    • 1.4.2. Xây dựng Data Lakehouse (0)
    • 1.4.3. Phân tích dữ liệu (21)
    • 1.4.4. Đánh giá (22)
  • 1.5. Kết quả dự kiến đạt được (0)
    • 1.5.1. Mục tiêu và tiêu chí đánh giá (0)
    • 1.5.2. Tác động dự kiến (0)
  • CHƯƠNG 1. KIẾN THỨC NỀN TẢNG (0)
    • 1.1. Giới thiệu các kiến trúc cơ bản (9)
      • 1.1.1. Khái niệm cơ bản về Data Lakes (24)
      • 1.1.2. Data Warehouse và vai trò trong quản lý dữ liệu (24)
      • 1.1.3. Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse (0)
    • 1.2. Data Lake (9)
      • 1.2.1. Định nghĩa và cấu trúc của Data Lake (25)
      • 1.2.2. Sự liên kết với Big Data và dữ liệu phi cấu trúc (0)
    • 1.3. Data Warehouse (9)
      • 1.3.1. Khái niệm và mục tiêu của Data Warehouse (28)
      • 1.3.2. Kiến trúc và cấu trúc dữ liệu trong Data Warehouse (29)
      • 1.3.3. Ưu điểm của Data Warehouse (0)
      • 1.3.4. Mục tiêu trong xây dựng Data Warehouse và Business Intelligence (0)
      • 1.3.5. Quy trình xây dựng Data Warehouse (0)
      • 1.3.6. Giới thiệu về Mô hình dữ liệu đa chiều (Dimensional Modeling) (0)
      • 1.3.7. Phân biệt giữa Data Warehouse và Data Lakes (37)
    • 1.4. Data Lakehouse (9)
      • 1.4.1. Giới thiệu về Data Lakehouse (38)
      • 1.4.2. Mối quan hệ giữa Lakehouse và Data Warehouse, Data Lake (0)
      • 1.4.3. Cấu trúc của Data Lakehouse (40)
      • 1.4.4. Ưu điểm và nhược điểm của Lakehouse (0)
      • 1.4.5. Tích hợp dữ liệu phi cấu trúc và cấu trúc trong Data LakeHouse (0)
  • CHƯƠNG 2. GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS (0)
    • 2.2. Databricks (9)
      • 2.2.1. Khái niệm về Databricks (43)
      • 2.2.2. Kiến trúc của Databricks (43)
      • 2.2.3. Apache Spark trên Databricks (46)
      • 2.2.4. Databricks Delta (46)
      • 2.2.5. Quản lý mô hình học máy với Databricks (47)
  • CHƯƠNG 3. XÂY DỰNG DATA LAKEHOUSE (50)
    • 3.1. Kiến trúc của hệ thống (9)
      • 3.1.1. Kiến trúc tổng quan của hệ thống (0)
      • 3.1.2. Kiến trúc Data Lakehouse (51)
      • 3.1.3. Các công nghệ sử dụng (52)
      • 3.1.4. Thu thập và lưu trữ dữ liệu (62)
    • 3.2. Thiết kế mô hình nhiều chiều (9)
      • 3.2.1. Mô hình hóa dữ liệu (64)
      • 3.2.2. Thiết kế Dimension (64)
      • 3.2.3. Thiết kế Fact (65)
      • 3.2.4. Thiết kế mối quan hệ giữa các bảng (0)
    • 3.3. Xây dựng bảng báo cáo (9)
      • 3.3.1. Bảng báo cáo tổng quan (0)
      • 3.3.2. Bảng báo cáo chi tiết từng khu vực (0)
      • 3.3.3. Bảng báo cáo bổ sung từng loại bất động sản (0)
    • 3.4. Đào tạo mô hình dự đoán (9)
      • 3.4.1. Giới hạn dữ liệu cho phần học máy (71)
      • 3.4.2. Lựa chọn các đặc trưng từ lớp gold (0)
      • 3.4.3. Mô hình Linear Regression (73)
      • 3.4.4. Mô hình Random Forest (76)
      • 3.4.5. Mô hình Neuron (77)
      • 3.4.6. Đánh giá và nhận xét chung (81)

Nội dung

DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo ACID Atomicity, Consistency, Isolation, and Durability Bốn thuộc tính quan tr

Mục đích của đề tài

Phương pháp nghiên cứu

Thu thập dữ liệu

Xác định nguồn dữ liệu: Xác định các trang web uy tín về dữ liệu bất động sản phù hợp với nhu cầu nghiên cứu, đảm bảo tính chính xác và cập nhật của dữ liệu Lựa chọn công cụ thu thập web: Lựa chọn công cụ thu thập web phù hợp với khả năng lập trình và yêu cầu của dự án, ví dụ như Python libraries (Beautiful Soup, Scrapy), web scraping tools (Octoparse, ParseHub)

Viết script thu thập dữ liệu: Viết script thu thập web để tự động trích xuất dữ liệu từ các trang web đã chọn, bao gồm thông tin về giá nhà, vị trí, diện tích, đặc điểm nhà, v.v

Lưu trữ dữ liệu: Lưu trữ dữ liệu thu thập được vào kho lưu trữ tạm thời, đảm bảo an toàn và dễ dàng truy cập cho các bước tiếp theo

Thiết kế kiến trúc Data Lakehouse phù hợp với nhu cầu lưu trữ, xử lý và phân tích dữ liệu bất động sản Cân nhắc các yếu tố như:

+ Khối lượng dữ liệu: Ước tính khối lượng dữ liệu cần lưu trữ và tốc độ tăng trưởng dự kiến

+ Định dạng dữ liệu: Xác định các định dạng dữ liệu khác nhau (cấu trúc, bán cấu trúc, phi cấu trúc) cần hỗ trợ

+ Nhu cầu phân tích: Xác định các loại phân tích cần thực hiện trên dữ liệu (báo cáo, học máy)

Triển khai Databricks: Triển khai Databricks trên nền tảng điện toán đám mây hoặc hạ tầng tại chỗ phù hợp với ngân sách và yêu cầu kỹ thuật

Tích hợp dữ liệu thu thập được từ kho lưu trữ tạm thời vào Data Lakehouse, đảm bảo tính nhất quán và đồng bộ Xử lý dữ liệu để đảm bảo chất lượng cho việc phân tích, bao gồm:

+ Làm sạch dữ liệu: Xử lý các giá trị thiếu, giá trị sai lệch và nhiễu trong dữ liệu

+ Chuẩn hóa dữ liệu: Chuẩn hóa định dạng dữ liệu, đơn vị đo lường và các thuộc tính khác cho thống nhất

+ Chuyển đổi dữ liệu: Chuyển đổi dữ liệu sang định dạng phù hợp cho các công cụ phân tích

Xây dựng báo cáo: Tạo các báo cáo trực quan để hiển thị dữ liệu giá nhà theo các khía cạnh khác nhau, ví dụ như:

+ Phân bố giá nhà theo khu vực, vị trí

+ Biến động giá nhà theo thời gian

+ Mối quan hệ giữa giá nhà và các yếu tố khác (diện tích, đặc điểm nhà) Xây dựng mô hình học máy: Xây dựng và áp dụng các mô hình học máy để dự đoán giá nhà dựa trên dữ liệu lịch sử và các yếu tố liên quan

Hiệu quả lưu trữ: Đo lường dung lượng lưu trữ sử dụng, tốc độ truy cập dữ liệu và chi phí lưu trữ để đảm bảo hiệu quả và tối ưu hóa tài nguyên Đánh giá hiệu quả xử lý dữ liệu: Đánh giá tốc độ xử lý dữ liệu, độ chính xác của dữ liệu sau xử lý và hiệu suất của các quy trình xử lý Đánh giá hiệu quả phân tích dữ liệu: Đánh giá chất lượng báo cáo, độ chính xác của mô hình học máy và giá trị kinh doanh mang lại từ các phân tích

1.5 Kết quả dự kiến đạt được

1.5.1 Mục tiêu và tiêu chí đánh giá

Mục tiêu chính của đề tài này là xây dựng một hệ thống Data Lakehouse trên nền tảng Databricks nhằm hỗ trợ các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Các tiêu chí đánh giá hệ thống bao gồm:

Khả năng lưu trữ và xử lý dữ liệu lớn:

Hệ thống phải có khả năng lưu trữ và xử lý hiệu quả các loại dữ liệu khác nhau từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc Tính linh hoạt và khả năng mở rộng:

Hệ thống cần linh hoạt và có khả năng mở rộng để đáp ứng các nhu cầu kinh doanh thay đổi, cho phép tích hợp thêm các nguồn dữ liệu mới và mở rộng dung lượng lưu trữ mà không ảnh hưởng đến hiệu suất

Hiệu quả phân tích và dự báo:

Hệ thống phải hỗ trợ các công cụ phân tích và dự báo mạnh mẽ, giúp doanh nghiệp thực hiện các phân tích dữ liệu chi tiết và đưa ra các quyết định chiến lược kịp thời và chính xác Điều này bao gồm khả năng tạo ra các báo cáo và dashboard trực quan, cũng như áp dụng các mô hình dự báo để dự đoán xu hướng thị trường

Việc triểnkhai hệ thống Data Lakehouse dự kiến sẽ mang lại những lợi ích sau:

Nâng cao hiệu quả kinh doanh:

Hệ thống giúp doanh nghiệp tối ưu hóa quy trình kinh doanh, từ đó giảm chi phí và tăng cường hiệu suất hoạt động Bằng cách lưu trữ và xử lý dữ liệu một cách hiệu quả, doanh nghiệp có thể tối ưu hóa các quy trình và sử dụng nguồn lực một cách hiệu quả hơn

Cải thiện khả năng ra quyết định:

Hệ thống hỗ trợ doanh nghiệp ra quyết định chính xác và kịp thời dựa trên phân tích dữ liệu chi tiết Các công cụ phân tích và dự báo mạnh mẽ giúp doanh nghiệp nắm bắt thông tin thị trường, xu hướng khách hàng và hiệu suất kinh doanh, từ đó đưa ra các quyết định chiến lược hợp lý

Tăng cường khả năng cạnh tranh:

Việc tận dụng các công nghệ tiên tiến và quản lý dữ liệu hiệu quả giúp doanh nghiệp nâng cao khả năng cạnh tranh trên thị trường Hệ thống Data Lakehouse cung cấp nền tảng để triển khai các công nghệ mới như trí tuệ nhân tạo (AI), học máy (machine learning), và phân tích dữ liệu lớn (big data analytics), giúp doanh nghiệp đáp ứng nhanh chóng với thay đổi của thị trường và nhu cầu của khách hàng

CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 1.1 Giới thiệu các kiến trúc cơ bản

1.1.1 Khái niệm cơ bản về Data Lakes

Khái niệm cơ bản về Data Lake liên quan đến việc lưu trữ khối lượng lớn dữ liệu có cấu trúc, bán cấu trúc, không cấu trúc và dữ liệu thô ở nhiều định dạng khác nhau Dữ liệu này được lưu trữ trong kho lưu trữ tập trung mà không cần lược đồ được xác định trước Hồ dữ liệu cho phép lưu trữ lượng lớn dữ liệu, sau đó có thể được sử dụng cho nhiều mục đích khác nhau như phân tích nâng cao, học máy và các tác vụ xử lý dữ liệu khác Tính linh hoạt của Data Lake cho phép các tổ chức lưu trữ các loại dữ liệu đa dạng và cho phép truy cập dễ dàng để phân tích và xử lý dữ liệu

1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu

Vai trò của Kho dữ liệu trong quản lý dữ liệu là cung cấp kho lưu trữ tập trung để lưu trữ, tích hợp và quản lý dữ liệu của tổ chức từ nhiều nguồn khác nhau Nó cho phép tổ chức thực hiện phân tích, báo cáo và khai thác dữ liệu phức tạp để hiểu rõ hơn về việc ra quyết định Kho dữ liệu cũng tạo điều kiện tích hợp dữ liệu, đảm bảo rằng dữ liệu từ các hệ thống khác nhau có thể được kết hợp và phân tích liền mạch Ngoài ra, nó hỗ trợ các sáng kiến về chất lượng dữ liệu bằng cách cung cấp nguồn thông tin nhất quán và đáng tin cậy cho báo cáo và thông tin kinh doanh

1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse

Phân tích dữ liệu

Xây dựng báo cáo: Tạo các báo cáo trực quan để hiển thị dữ liệu giá nhà theo các khía cạnh khác nhau, ví dụ như:

+ Phân bố giá nhà theo khu vực, vị trí

+ Biến động giá nhà theo thời gian

+ Mối quan hệ giữa giá nhà và các yếu tố khác (diện tích, đặc điểm nhà) Xây dựng mô hình học máy: Xây dựng và áp dụng các mô hình học máy để dự đoán giá nhà dựa trên dữ liệu lịch sử và các yếu tố liên quan

Đánh giá

Hiệu quả lưu trữ: Đo lường dung lượng lưu trữ sử dụng, tốc độ truy cập dữ liệu và chi phí lưu trữ để đảm bảo hiệu quả và tối ưu hóa tài nguyên Đánh giá hiệu quả xử lý dữ liệu: Đánh giá tốc độ xử lý dữ liệu, độ chính xác của dữ liệu sau xử lý và hiệu suất của các quy trình xử lý Đánh giá hiệu quả phân tích dữ liệu: Đánh giá chất lượng báo cáo, độ chính xác của mô hình học máy và giá trị kinh doanh mang lại từ các phân tích

1.5 Kết quả dự kiến đạt được

1.5.1 Mục tiêu và tiêu chí đánh giá

Mục tiêu chính của đề tài này là xây dựng một hệ thống Data Lakehouse trên nền tảng Databricks nhằm hỗ trợ các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Các tiêu chí đánh giá hệ thống bao gồm:

Khả năng lưu trữ và xử lý dữ liệu lớn:

Hệ thống phải có khả năng lưu trữ và xử lý hiệu quả các loại dữ liệu khác nhau từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc Tính linh hoạt và khả năng mở rộng:

Hệ thống cần linh hoạt và có khả năng mở rộng để đáp ứng các nhu cầu kinh doanh thay đổi, cho phép tích hợp thêm các nguồn dữ liệu mới và mở rộng dung lượng lưu trữ mà không ảnh hưởng đến hiệu suất

Hiệu quả phân tích và dự báo:

Hệ thống phải hỗ trợ các công cụ phân tích và dự báo mạnh mẽ, giúp doanh nghiệp thực hiện các phân tích dữ liệu chi tiết và đưa ra các quyết định chiến lược kịp thời và chính xác Điều này bao gồm khả năng tạo ra các báo cáo và dashboard trực quan, cũng như áp dụng các mô hình dự báo để dự đoán xu hướng thị trường

Việc triểnkhai hệ thống Data Lakehouse dự kiến sẽ mang lại những lợi ích sau:

Nâng cao hiệu quả kinh doanh:

Hệ thống giúp doanh nghiệp tối ưu hóa quy trình kinh doanh, từ đó giảm chi phí và tăng cường hiệu suất hoạt động Bằng cách lưu trữ và xử lý dữ liệu một cách hiệu quả, doanh nghiệp có thể tối ưu hóa các quy trình và sử dụng nguồn lực một cách hiệu quả hơn

Cải thiện khả năng ra quyết định:

Hệ thống hỗ trợ doanh nghiệp ra quyết định chính xác và kịp thời dựa trên phân tích dữ liệu chi tiết Các công cụ phân tích và dự báo mạnh mẽ giúp doanh nghiệp nắm bắt thông tin thị trường, xu hướng khách hàng và hiệu suất kinh doanh, từ đó đưa ra các quyết định chiến lược hợp lý

Tăng cường khả năng cạnh tranh:

Việc tận dụng các công nghệ tiên tiến và quản lý dữ liệu hiệu quả giúp doanh nghiệp nâng cao khả năng cạnh tranh trên thị trường Hệ thống Data Lakehouse cung cấp nền tảng để triển khai các công nghệ mới như trí tuệ nhân tạo (AI), học máy (machine learning), và phân tích dữ liệu lớn (big data analytics), giúp doanh nghiệp đáp ứng nhanh chóng với thay đổi của thị trường và nhu cầu của khách hàng

CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 1.1 Giới thiệu các kiến trúc cơ bản

1.1.1 Khái niệm cơ bản về Data Lakes

Khái niệm cơ bản về Data Lake liên quan đến việc lưu trữ khối lượng lớn dữ liệu có cấu trúc, bán cấu trúc, không cấu trúc và dữ liệu thô ở nhiều định dạng khác nhau Dữ liệu này được lưu trữ trong kho lưu trữ tập trung mà không cần lược đồ được xác định trước Hồ dữ liệu cho phép lưu trữ lượng lớn dữ liệu, sau đó có thể được sử dụng cho nhiều mục đích khác nhau như phân tích nâng cao, học máy và các tác vụ xử lý dữ liệu khác Tính linh hoạt của Data Lake cho phép các tổ chức lưu trữ các loại dữ liệu đa dạng và cho phép truy cập dễ dàng để phân tích và xử lý dữ liệu

1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu

Vai trò của Kho dữ liệu trong quản lý dữ liệu là cung cấp kho lưu trữ tập trung để lưu trữ, tích hợp và quản lý dữ liệu của tổ chức từ nhiều nguồn khác nhau Nó cho phép tổ chức thực hiện phân tích, báo cáo và khai thác dữ liệu phức tạp để hiểu rõ hơn về việc ra quyết định Kho dữ liệu cũng tạo điều kiện tích hợp dữ liệu, đảm bảo rằng dữ liệu từ các hệ thống khác nhau có thể được kết hợp và phân tích liền mạch Ngoài ra, nó hỗ trợ các sáng kiến về chất lượng dữ liệu bằng cách cung cấp nguồn thông tin nhất quán và đáng tin cậy cho báo cáo và thông tin kinh doanh

1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse

Khái niệm về Data LakeHouse kết hợp các yếu tố của Data Lake và Data Warehouse Nó nhằm mục đích giải quyết các hạn chế của Data Warehouse truyền thống và tính linh hoạt của Data Lake bằng cách cung cấp nền tảng thống nhất cho cả dữ liệu có cấu trúc và không cấu trúc

Data LakeHouse tích hợp khả năng lưu trữ và xử lý có thể mở rộng của Hồ dữ liệu với các tính năng quản lý dữ liệu và truy vấn có cấu trúc của Data Warehouse Việc tích hợp này cho phép các tổ chức lưu trữ tất cả các loại dữ liệu ở dạng thô (Data Lake) và sau đó áp dụng các kỹ thuật lược đồ khi đọc hoặc lược đồ khi ghi để cấu trúc dữ liệu khi cần, tương tự như Data Warehouse

Bằng cách kết hợp các điểm mạnh của cả Data Lake và Data Warehouse, kiến trúc Data LakeHouse mang lại sự linh hoạt để xử lý các loại và định dạng dữ liệu đa dạng, đồng thời cung cấp khả năng phân tích và truy vấn mạnh mẽ cho dữ liệu có cấu trúc

1.2.1 Định nghĩa và cấu trúc của Data Lake Định nghĩa:

Data Lake là một khái niệm trong lĩnh vực quản lý dữ liệu, được sử dụng để mô tả một kho lưu trữ tập trung chứa một lượng lớn dữ liệu, từ dữ liệu có cấu trúc, dữ liệu bán cấu trúc, đến dữ liệu phi cấu trúc Khác với Data Warehouse, nơi dữ liệu được tổ chức và cấu trúc trước khi lưu trữ, Data Lake cho phép lưu trữ dữ liệu ở dạng thô, nguyên bản Điều này cho phép các tổ chức lưu trữ dữ liệu từ nhiều nguồn khác nhau mà không cần phải chuyển đổi hay định dạng ngay từ đầu, giúp tiết kiệm thời gian và chi phí

Một số đặc điểm nổi bật của Data Lake:

Linh hoạt: Cho phép lưu trữ bất kỳ loại dữ liệu nào, bao gồm dữ liệu từ hệ thống giao dịch, dữ liệu cảm biến, dữ liệu từ mạng xã hội, và dữ liệu từ các nguồn khác

Kết quả dự kiến đạt được

KIẾN THỨC NỀN TẢNG

GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS

Databricks

Chương 3 Xây dựng Data Lakehouse 3.1 Kiến trúc của hệ thống

3.2 Thiết kế mô hình nhiều chiều

3.3 Xây dựng bảng báo cáo

3.4 Đào tạo mô hình dự đoán

STT Thời gian Nội Dung Ghi chú

Nghiên cứu khái niệm và kiến trúc Data Lakehouse, Data Lake và Data Warehouse

Tham khảo các nền tảng Data Lakehouse phổ biến

Xác định nhu cầu của doanh nghiệp Business Intelligence

Tìm hiểu về môi trường trong Databricks

4 01/03/2024 - 04/03/2024 Tìm nguồn dữ liệu liên quan đến dữ liệu hiện tại của nhóm

5 05/03/2024 - 09/03/2024 Thiết kế mô hình dữ liệu cho Data

6 10/03/2024 - 15/03/2024 Lựa chọn các công cụ và công nghệ phù hợp

7 16/03/2024 - 25/03/2024 Triển khai cài đặt nền tảng và môi trường cho Data Lakehouse

8 26/03/2024 - 04/04/2024 Viết ETL (Extract, Transform, Load) để tích hợp dữ liệu

9 05/04/2024 - 14/04/2024 Bắt đầu tích hợp dữ liệu từ nguồn dữ liệu

10 15/04/2024 - 24/04/2024 Tiếp tục tích hợp dữ liệu từ các nguồn còn lại

11 25/04/2024 - 04/05/2024 Phát triển các công cụ truy vấn và phân tích dữ liệu cơ bản như Power BI

12 05/05/2024 - 14/05/2024 Thử nghiệm các công cụ truy vấn và phân tích dữ liệu khác

13 15/05/2024 - 24/05/2024 Hoàn thiện việc tích hợp dữ liệu

14 25/05/2024 - 03/06/2024 Hoàn thiện các công cụ truy vấn và

6 phân tích dữ liệu

15 04/06/2024 -13/06/2024 Nghiên cứu và áp dụng học máy vào

16 14/06/2024 - 23/06/2024 Thử nghiệm các phương pháp học máy phù hợp với đề tài

17 24/06/2024 - 03/07/2024 Kiểm tra lại toàn bộ pipeline để tìm và sửa lỗi

Hoàn thiện báo cáo Khóa luận tốt nghiệp và Lakehouse

Tổng kết và đánh giá kết quả thực hiện đề tài

Ngày tháng năm 2024 Ý kiến của giáo viên hướng dẫn Người viết đề cương

(ký và ghi rõ họ tên) (ký và ghi rõ họ tên)

Bảng 1: So sánh giữa các kiểu kiến trúc dữ liệu 36

Bảng 2: Bảng so sánh các chỉ số đánh giá mô hình theo batch_size 73

Bảng 3: Bảng so sánh các chỉ số đánh giá mô hình sau điều chỉnh 74

Bảng 4: Phần trăm quan trọng của thuộc tính với 2 mô hình học máy 76

DANH MỤC HÌNH ẢNH

Hình 1: Lược đồ sao và khối OLAP 30

Hình 2: Kiến trúc dữ liệu theo thời gian 33

Hình 3: Cách hoạt động trong môi trường Databricks 40

Hình 4: Các thành phần trong quy trình quản lý vòng đời học máy với Mlflow 43

Hình 5: Kiến trúc hệ thống 45

Hình 6: Kiến trúc Data Lakehouse 46

Hình 11: Logo Microsoft Power BI 51

Hình 14: Các thiết kế Dimension 59

Hình 15: Thiết kế bảng Fact 60

Hình 16: Mô hình quan hệ giữa bảng trong mô hình sao 61

Hình 17: Bảng báo cáo tổng quan về bất động sản 63

Hình 18: Bảng báo cáo chi tiết về bất động sản 64

Hình 19: Bảng báo cáo bổ sung về bất động sản theo từng loại 65

Hình 20: Các giá trị đánh giá độ chính xác của mô hình Linear Regression 68

Hình 21: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Linear Regression 70

Hình 22: Các giá trị đánh giá độ chính xác của mô hình Random Forest 71

Hình 23: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Random Forest 72

Hình 24: Sự biến đổi MAE khi huấn luyện với batch_size = 8 74

Hình 25: Mô hình sau khi thêm dropout 74

Hình 26: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Neuron 75

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt Từ tiếng Anh Diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

Bốn thuộc tính quan trọng đảm bảo độ tin cậy và nhất quán của dữ liệu AWS Amazon Web Service Dịch vụ đám mây của

BI Business Intelligence Trí tuệ doanh nghiệp

CSV Comma-Separated Values Định dạng file lưu trữ

DW Data Warehouse Kho dữ liệu

DL Data Lake Hồ dữ liệu

ETL Extract-Transform-Load Quy trình xử lý dữ liệu MAE Mean Absolute Error Sai số tuyệt đối trung bình

ML Machine Learning Học máy

MSE Mean Squared Error Sai số bình phương trung bình

OLAP Online Analytical Processing Phương pháp xử lý dữ liệu trực tuyến

Là một phương pháp OLAP sử dụng cơ sở dữ liệu để lưu trữ

DBFS Data Bricks File System Hệ thống lưu trữ tệp tin phân tán

DANH MỤC HÌNH ẢNH 8

DANH MỤC CÁC TỪ VIẾT TẮT 9

1.1 Tính cấp thiết của đề tài 13

1.2 Mục đích của đề tài 13

1.3 Đối tượng và phạm vi nghiên cứu 14

1.4.2 Xây dựng Data Lakehouse 16

1.5 Kết quả dự kiến đạt được 17

1.5.1 Mục tiêu và tiêu chí đánh giá 17

CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 19

1.1 Giới thiệu các kiến trúc cơ bản 19

1.1.1 Khái niệm cơ bản về Data Lakes 19

1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu 19

1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse 19

1.2.1 Định nghĩa và cấu trúc của Data Lake 20

1.2.2 Sự liên kết với Big Data và dữ liệu phi cấu trúc 22

1.3.1 Khái niệm và mục tiêu của Data Warehouse 23

1.3.2 Kiến trúc và cấu trúc dữ liệu trong Data Warehouse 24

1.3.3 Ưu điểm của Data Warehouse 24

1.3.4 Mục tiêu trong xây dựng Data Warehouse và Business Intelligence 25

1.3.5 Quy trình xây dựng Data Warehouse 27

1.3.6 Giới thiệu về Mô hình dữ liệu đa chiều (Dimensional Modeling) 28

1.3.7 Phân biệt giữa Data Warehouse và Data Lakes 32

1.4.1 Giới thiệu về Data Lakehouse 33

1.4.2 Mối quan hệ giữa Lakehouse và Data Warehouse, Data Lake 34

1.4.3 Cấu trúc của Data Lakehouse 35

1.4.4 Ưu điểm và nhược điểm của Lakehouse 36

1.4.5 Tích hợp dữ liệu phi cấu trúc và cấu trúc trong Data LakeHouse 37

CHƯƠNG 2 GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS 38

2.2.5 Quản lý mô hình học máy với Databricks 42

CHƯƠNG 3 XÂY DỰNG DATA LAKEHOUSE 45

3.1 Kiến trúc của hệ thống 45

3.1.1 Kiến trúc tổng quan của hệ thống 45

3.1.3 Các công nghệ sử dụng 47

3.1.4 Thu thập và lưu trữ dữ liệu 57

3.2 Thiết kế mô hình nhiều chiều 59

3.2.1 Mô hình hóa dữ liệu 59

3.2.4 Thiết kế mối quan hệ giữa các bảng 61

3.3 Xây dựng bảng báo cáo 61

3.3.1 Bảng báo cáo tổng quan 63

3.3.2 Bảng báo cáo chi tiết từng khu vực 64

3.3.3 Bảng báo cáo bổ sung từng loại bất động sản 65

3.4 Đào tạo mô hình dự đoán 66

3.4.1 Giới hạn dữ liệu cho phần học máy 66

3.4.2 Lựa chọn các đặc trưng từ lớp gold 67

3.4.6 Đánh giá và nhận xét chung 76

PHẦN 1 MỞ ĐẦU 1.1 Tính cấp thiết của đề tài

Tính cấp thiết của việc xây dựng Data Lakehouse trên nền tảng Databricks và triển khai các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản không thể phủ nhận Đầu tiên, sự phát triển nhanh chóng của dữ liệu trong lĩnh vực này đặt ra nhiều thách thức trong việc quản lý và phân tích thông tin Dữ liệu được tạo ra từ nhiều nguồn khác nhau như hệ thống quản lý bất động sản, thông tin từ website, báo cáo thị trường và dữ liệu từ mạng xã hội, tất cả đều yêu cầu một phương pháp hiệu quả để tổ chức và xử lý Data Lakehouse cung cấp một giải pháp linh hoạt và mở rộng để lưu trữ và xử lý dữ liệu phức tạp từ nhiều nguồn khác nhau

Thứ hai, Cải thiện hiệu quả hoạt động, có thể tự động hóa các quy trình thủ công, tối ưu hóa các quy trình xử lý dữ liệu trong kinh doanh và nâng cao hiệu quả hoạt động

Cuối cùng, yêu cầu phân tích sâu sắc và linh hoạt trong lĩnh vực này đòi hỏi một giải pháp phân tích dữ liệu mạnh mẽ Data Lakehouse kết hợp với các dịch vụ BI trên nền tảng Databricks cung cấp khả năng phân tích dữ liệu từ nhiều góc độ khác nhau, từ đó hỗ trợ quyết định chiến lược và tối ưu hóa hiệu suất kinh doanh của doanh nghiệp bất động sản

1.2 Mục đích của đề tài

Mục đích của đề tài là tìm hiểu và thực hiện việc xây dựng một Data Lakehouse trên nền tảng Databricks, nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho các tổ chức và doanh nghiệp hoạt động trong lĩnh vực bất động sản Đây là một phần quan trọng trong quá trình hiện đại hóa và tối ưu hóa quy trình quản lý dữ liệu, nhằm giúp họ nắm bắt thông tin hiệu quả hơn, từ đó đưa ra quyết định chiến lược và tối ưu hóa hoạt động kinh doanh

Bằng cách phát triển một Data Lakehouse trên nền tảng Databricks, nghiên cứu nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản Đồng thời, thông qua việc triển khai các

14 dịch vụ BI, đề tài mong muốn cung cấp cho doanh nghiệp một hệ thống giúp họ hiểu rõ hơn về thị trường, khách hàng, và các yếu tố khác có thể ảnh hưởng đến hiệu suất kinh doanh của họ

Mục tiêu cuối cùng của đề tài là đóng góp vào việc nâng cao khả năng cạnh tranh và phát triển bền vững của các doanh nghiệp trong ngành bất động sản thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại, từ đó tạo ra giá trị lâu dài và mang lại lợi ích cho cả doanh nghiệp và cộng đồng

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu của đề tài này là việc xây dựng hệ thống Data Lakehouse trên nền tảng Databricks nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Cụ thể, đề tài tập trung vào các thành phần chính như sau:

Dữ liệu từ website: Dữ liệu thu thập từ website bất động sản nhatot.com để phân tích thông tin thị trường

Nền tảng Databricks: Databricks cung cấp môi trường phân tích dữ liệu mạnh mẽ dựa trên Apache Spark, hỗ trợ việc xử lý và phân tích dữ liệu lớn hiệu quả

Các dịch vụ Business Intelligence (BI): Các công cụ và dịch vụ BI như Power

BI sẽ được tích hợp để hỗ trợ doanh nghiệp trong việc trực quan hóa và phân tích dữ liệu, từ đó đưa ra các quyết định kinh doanh chính xác và kịp thời

Nghiên cứu này nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản, đồng thời nâng cao khả năng cạnh tranh và phát triển bền vững của doanh nghiệp thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại

Phạm vi nghiên cứu của đề tài bao gồm các nội dung chính như sau:

Nền tảng: Sử dụng Databricks, một nền tảng phân tích dữ liệu dựa trên Apache Spark, để xây dựng hệ thống Data Lakehouse

Kiến trúc: Thiết kế kiến trúc hệ thống Data Lakehouse để lưu trữ, quản lý và phân tích dữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc

Các dịch vụ Business Intelligence (BI):

Tích hợp: Tích hợp các công cụ BI như Power BI vào hệ thống Data Lakehouse nhằm cung cấp khả năng phân tích và trực quan hóa dữ liệu

Chức năng: Phát triển các chức năng BI để hỗ trợ doanh nghiệp bất động sản trong việc ra quyết định chiến lược dựa trên dữ liệu

Dữ liệu và nguồn dữ liệu:

Dữ liệu từ website và báo cáo thị trường: Sử dụng dữ liệu từ các nguồn trực tuyến là nhatot để cung cấp cái nhìn tổng quan về thị trường bất động sản

Xử lý dữ liệu thời gian thực: Phát triển các giải pháp xử lý dữ liệu thời gian thực để doanh nghiệp có thể cập nhật và phân tích dữ liệu mới nhất

XÂY DỰNG DATA LAKEHOUSE

Đào tạo mô hình dự đoán

STT Thời gian Nội Dung Ghi chú

Nghiên cứu khái niệm và kiến trúc Data Lakehouse, Data Lake và Data Warehouse

Tham khảo các nền tảng Data Lakehouse phổ biến

Xác định nhu cầu của doanh nghiệp Business Intelligence

Tìm hiểu về môi trường trong Databricks

4 01/03/2024 - 04/03/2024 Tìm nguồn dữ liệu liên quan đến dữ liệu hiện tại của nhóm

5 05/03/2024 - 09/03/2024 Thiết kế mô hình dữ liệu cho Data

6 10/03/2024 - 15/03/2024 Lựa chọn các công cụ và công nghệ phù hợp

7 16/03/2024 - 25/03/2024 Triển khai cài đặt nền tảng và môi trường cho Data Lakehouse

8 26/03/2024 - 04/04/2024 Viết ETL (Extract, Transform, Load) để tích hợp dữ liệu

9 05/04/2024 - 14/04/2024 Bắt đầu tích hợp dữ liệu từ nguồn dữ liệu

10 15/04/2024 - 24/04/2024 Tiếp tục tích hợp dữ liệu từ các nguồn còn lại

11 25/04/2024 - 04/05/2024 Phát triển các công cụ truy vấn và phân tích dữ liệu cơ bản như Power BI

12 05/05/2024 - 14/05/2024 Thử nghiệm các công cụ truy vấn và phân tích dữ liệu khác

13 15/05/2024 - 24/05/2024 Hoàn thiện việc tích hợp dữ liệu

14 25/05/2024 - 03/06/2024 Hoàn thiện các công cụ truy vấn và

6 phân tích dữ liệu

15 04/06/2024 -13/06/2024 Nghiên cứu và áp dụng học máy vào

16 14/06/2024 - 23/06/2024 Thử nghiệm các phương pháp học máy phù hợp với đề tài

17 24/06/2024 - 03/07/2024 Kiểm tra lại toàn bộ pipeline để tìm và sửa lỗi

Hoàn thiện báo cáo Khóa luận tốt nghiệp và Lakehouse

Tổng kết và đánh giá kết quả thực hiện đề tài

Ngày tháng năm 2024 Ý kiến của giáo viên hướng dẫn Người viết đề cương

(ký và ghi rõ họ tên) (ký và ghi rõ họ tên)

Bảng 1: So sánh giữa các kiểu kiến trúc dữ liệu 36

Bảng 2: Bảng so sánh các chỉ số đánh giá mô hình theo batch_size 73

Bảng 3: Bảng so sánh các chỉ số đánh giá mô hình sau điều chỉnh 74

Bảng 4: Phần trăm quan trọng của thuộc tính với 2 mô hình học máy 76

DANH MỤC HÌNH ẢNH

Hình 1: Lược đồ sao và khối OLAP 30

Hình 2: Kiến trúc dữ liệu theo thời gian 33

Hình 3: Cách hoạt động trong môi trường Databricks 40

Hình 4: Các thành phần trong quy trình quản lý vòng đời học máy với Mlflow 43

Hình 5: Kiến trúc hệ thống 45

Hình 6: Kiến trúc Data Lakehouse 46

Hình 11: Logo Microsoft Power BI 51

Hình 14: Các thiết kế Dimension 59

Hình 15: Thiết kế bảng Fact 60

Hình 16: Mô hình quan hệ giữa bảng trong mô hình sao 61

Hình 17: Bảng báo cáo tổng quan về bất động sản 63

Hình 18: Bảng báo cáo chi tiết về bất động sản 64

Hình 19: Bảng báo cáo bổ sung về bất động sản theo từng loại 65

Hình 20: Các giá trị đánh giá độ chính xác của mô hình Linear Regression 68

Hình 21: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Linear Regression 70

Hình 22: Các giá trị đánh giá độ chính xác của mô hình Random Forest 71

Hình 23: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Random Forest 72

Hình 24: Sự biến đổi MAE khi huấn luyện với batch_size = 8 74

Hình 25: Mô hình sau khi thêm dropout 74

Hình 26: Biểu đồ thể hiện dự đoán so với thực tế của mô hình Neuron 75

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt Từ tiếng Anh Diễn giải

AI Artificial Intelligence Trí tuệ nhân tạo

Bốn thuộc tính quan trọng đảm bảo độ tin cậy và nhất quán của dữ liệu AWS Amazon Web Service Dịch vụ đám mây của

BI Business Intelligence Trí tuệ doanh nghiệp

CSV Comma-Separated Values Định dạng file lưu trữ

DW Data Warehouse Kho dữ liệu

DL Data Lake Hồ dữ liệu

ETL Extract-Transform-Load Quy trình xử lý dữ liệu MAE Mean Absolute Error Sai số tuyệt đối trung bình

ML Machine Learning Học máy

MSE Mean Squared Error Sai số bình phương trung bình

OLAP Online Analytical Processing Phương pháp xử lý dữ liệu trực tuyến

Là một phương pháp OLAP sử dụng cơ sở dữ liệu để lưu trữ

DBFS Data Bricks File System Hệ thống lưu trữ tệp tin phân tán

DANH MỤC HÌNH ẢNH 8

DANH MỤC CÁC TỪ VIẾT TẮT 9

1.1 Tính cấp thiết của đề tài 13

1.2 Mục đích của đề tài 13

1.3 Đối tượng và phạm vi nghiên cứu 14

1.4.2 Xây dựng Data Lakehouse 16

1.5 Kết quả dự kiến đạt được 17

1.5.1 Mục tiêu và tiêu chí đánh giá 17

CHƯƠNG 1 KIẾN THỨC NỀN TẢNG 19

1.1 Giới thiệu các kiến trúc cơ bản 19

1.1.1 Khái niệm cơ bản về Data Lakes 19

1.1.2 Data Warehouse và vai trò trong quản lý dữ liệu 19

1.1.3 Data LakeHouse và sự kết hợp của Data Lakes và Data Warehouse 19

1.2.1 Định nghĩa và cấu trúc của Data Lake 20

1.2.2 Sự liên kết với Big Data và dữ liệu phi cấu trúc 22

1.3.1 Khái niệm và mục tiêu của Data Warehouse 23

1.3.2 Kiến trúc và cấu trúc dữ liệu trong Data Warehouse 24

1.3.3 Ưu điểm của Data Warehouse 24

1.3.4 Mục tiêu trong xây dựng Data Warehouse và Business Intelligence 25

1.3.5 Quy trình xây dựng Data Warehouse 27

1.3.6 Giới thiệu về Mô hình dữ liệu đa chiều (Dimensional Modeling) 28

1.3.7 Phân biệt giữa Data Warehouse và Data Lakes 32

1.4.1 Giới thiệu về Data Lakehouse 33

1.4.2 Mối quan hệ giữa Lakehouse và Data Warehouse, Data Lake 34

1.4.3 Cấu trúc của Data Lakehouse 35

1.4.4 Ưu điểm và nhược điểm của Lakehouse 36

1.4.5 Tích hợp dữ liệu phi cấu trúc và cấu trúc trong Data LakeHouse 37

CHƯƠNG 2 GIỚI THIỆU VỀ NỀN TẢNG DATABRICKS 38

2.2.5 Quản lý mô hình học máy với Databricks 42

CHƯƠNG 3 XÂY DỰNG DATA LAKEHOUSE 45

3.1 Kiến trúc của hệ thống 45

3.1.1 Kiến trúc tổng quan của hệ thống 45

3.1.3 Các công nghệ sử dụng 47

3.1.4 Thu thập và lưu trữ dữ liệu 57

3.2 Thiết kế mô hình nhiều chiều 59

3.2.1 Mô hình hóa dữ liệu 59

3.2.4 Thiết kế mối quan hệ giữa các bảng 61

3.3 Xây dựng bảng báo cáo 61

3.3.1 Bảng báo cáo tổng quan 63

3.3.2 Bảng báo cáo chi tiết từng khu vực 64

3.3.3 Bảng báo cáo bổ sung từng loại bất động sản 65

3.4 Đào tạo mô hình dự đoán 66

3.4.1 Giới hạn dữ liệu cho phần học máy 66

3.4.2 Lựa chọn các đặc trưng từ lớp gold 67

3.4.6 Đánh giá và nhận xét chung 76

PHẦN 1 MỞ ĐẦU 1.1 Tính cấp thiết của đề tài

Tính cấp thiết của việc xây dựng Data Lakehouse trên nền tảng Databricks và triển khai các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản không thể phủ nhận Đầu tiên, sự phát triển nhanh chóng của dữ liệu trong lĩnh vực này đặt ra nhiều thách thức trong việc quản lý và phân tích thông tin Dữ liệu được tạo ra từ nhiều nguồn khác nhau như hệ thống quản lý bất động sản, thông tin từ website, báo cáo thị trường và dữ liệu từ mạng xã hội, tất cả đều yêu cầu một phương pháp hiệu quả để tổ chức và xử lý Data Lakehouse cung cấp một giải pháp linh hoạt và mở rộng để lưu trữ và xử lý dữ liệu phức tạp từ nhiều nguồn khác nhau

Thứ hai, Cải thiện hiệu quả hoạt động, có thể tự động hóa các quy trình thủ công, tối ưu hóa các quy trình xử lý dữ liệu trong kinh doanh và nâng cao hiệu quả hoạt động

Cuối cùng, yêu cầu phân tích sâu sắc và linh hoạt trong lĩnh vực này đòi hỏi một giải pháp phân tích dữ liệu mạnh mẽ Data Lakehouse kết hợp với các dịch vụ BI trên nền tảng Databricks cung cấp khả năng phân tích dữ liệu từ nhiều góc độ khác nhau, từ đó hỗ trợ quyết định chiến lược và tối ưu hóa hiệu suất kinh doanh của doanh nghiệp bất động sản

1.2 Mục đích của đề tài

Mục đích của đề tài là tìm hiểu và thực hiện việc xây dựng một Data Lakehouse trên nền tảng Databricks, nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho các tổ chức và doanh nghiệp hoạt động trong lĩnh vực bất động sản Đây là một phần quan trọng trong quá trình hiện đại hóa và tối ưu hóa quy trình quản lý dữ liệu, nhằm giúp họ nắm bắt thông tin hiệu quả hơn, từ đó đưa ra quyết định chiến lược và tối ưu hóa hoạt động kinh doanh

Bằng cách phát triển một Data Lakehouse trên nền tảng Databricks, nghiên cứu nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản Đồng thời, thông qua việc triển khai các

14 dịch vụ BI, đề tài mong muốn cung cấp cho doanh nghiệp một hệ thống giúp họ hiểu rõ hơn về thị trường, khách hàng, và các yếu tố khác có thể ảnh hưởng đến hiệu suất kinh doanh của họ

Mục tiêu cuối cùng của đề tài là đóng góp vào việc nâng cao khả năng cạnh tranh và phát triển bền vững của các doanh nghiệp trong ngành bất động sản thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại, từ đó tạo ra giá trị lâu dài và mang lại lợi ích cho cả doanh nghiệp và cộng đồng

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu của đề tài này là việc xây dựng hệ thống Data Lakehouse trên nền tảng Databricks nhằm đáp ứng các dịch vụ Business Intelligence (BI) cho doanh nghiệp kinh doanh bất động sản Cụ thể, đề tài tập trung vào các thành phần chính như sau:

Dữ liệu từ website: Dữ liệu thu thập từ website bất động sản nhatot.com để phân tích thông tin thị trường

Nền tảng Databricks: Databricks cung cấp môi trường phân tích dữ liệu mạnh mẽ dựa trên Apache Spark, hỗ trợ việc xử lý và phân tích dữ liệu lớn hiệu quả

Các dịch vụ Business Intelligence (BI): Các công cụ và dịch vụ BI như Power

BI sẽ được tích hợp để hỗ trợ doanh nghiệp trong việc trực quan hóa và phân tích dữ liệu, từ đó đưa ra các quyết định kinh doanh chính xác và kịp thời

Nghiên cứu này nhằm tạo ra một giải pháp toàn diện, linh hoạt và mở rộng cho việc tổ chức và phân tích dữ liệu trong môi trường bất động sản, đồng thời nâng cao khả năng cạnh tranh và phát triển bền vững của doanh nghiệp thông qua việc áp dụng công nghệ và phương pháp quản lý dữ liệu hiện đại

Phạm vi nghiên cứu của đề tài bao gồm các nội dung chính như sau:

Nền tảng: Sử dụng Databricks, một nền tảng phân tích dữ liệu dựa trên Apache Spark, để xây dựng hệ thống Data Lakehouse

Kiến trúc: Thiết kế kiến trúc hệ thống Data Lakehouse để lưu trữ, quản lý và phân tích dữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc

Các dịch vụ Business Intelligence (BI):

Tích hợp: Tích hợp các công cụ BI như Power BI vào hệ thống Data Lakehouse nhằm cung cấp khả năng phân tích và trực quan hóa dữ liệu

Chức năng: Phát triển các chức năng BI để hỗ trợ doanh nghiệp bất động sản trong việc ra quyết định chiến lược dựa trên dữ liệu

Dữ liệu và nguồn dữ liệu:

Dữ liệu từ website và báo cáo thị trường: Sử dụng dữ liệu từ các nguồn trực tuyến là nhatot để cung cấp cái nhìn tổng quan về thị trường bất động sản

Xử lý dữ liệu thời gian thực: Phát triển các giải pháp xử lý dữ liệu thời gian thực để doanh nghiệp có thể cập nhật và phân tích dữ liệu mới nhất

Ngày đăng: 19/11/2024, 08:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w