Bài tập lớn môn khai phá dữ liệu đề tài ứng dụng ai xây dựng mô hình dự đoán giá phòng tại khách sạn f1

58 0 0
Bài tập lớn môn khai phá dữ liệu đề tài ứng dụng ai xây dựng mô hình dự đoán giá phòng tại khách sạn f1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Các phương pháp quản trị và khai thác cơ sở dữ liệutruyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng dữthuật mới là kỹ thuật phát hiện tri thức và khai phá dữ l

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ BÁO CÁO BÀI TẬP LỚN MÔN: KHAI PHÁ DỮ LIỆU ĐỀ TÀI ỨNG DỤNG AI XÂY DỰNG MÔ HÌNH DỰ ĐOÁN GIÁ PHÒNG TẠI KHÁCH SẠN F1 Giảng viên hướng dẫn: Cô Bùi Thị Hồng Nhung Mã nhóm lớp: 231IS30A03 Nhóm sinh viên thực hiện: Nhóm 15 1 Trần Thị Hiếu – 23A4040165 2 Nguyễn Thị Thu Thủy – 23A4040137 3 Nguyễn Đăng Hùng – 23A4040049 4 Tô Thị Linh - 23A4040072 5 Nguyễn Đăng Hoàng - 23A4040043 Hà Nội, tháng 12 năm 2023 NHẬN XÉT CỦA GIẢNG VIÊN BẢNG PHÂN CÔNG NHIỆM VỤ Họ và tên Mã Sinh Viên Công việc Đóng góp Trần Thị Hiếu 23A4040165 Cơ sở lý thuyết, code thực Nguyễn Thị Thu Thủy 23A4040137 nghiệm thuật toán Random 20% Nguyễn Đăng Hùng 23A4040049 23A4040072 Forest Tô Thị Linh 23A4040043 Tiền xử lý dữ liệu, ma trận Nguyễn Đăng Hoàng 20% tương quan, xử lý ngoại lai Cơ sở lý thuyết, code thực nghiệm thuật toán Cây quyết 20% định Mô hình hồi quy, tổng hợp 20% Word Vẽ biểu đồ trực quan hóa dữ 20% liệu, tổng hợp Word LỜI CAM ĐOAN Chúng em xin cam đoan kết quả đạt được trong báo cáo là sản phẩm nghiên cứu, tìm hiểu của riêng của nhóm Trong toàn bộ nội dung của báo cáo, những điều được trình bày hoặc là của nhóm hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp Chúng em xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình NHÓM SINH VIÊN THỰC HIỆN Trần Thị Hiếu Nguyễn Thị Thu Thủy Nguyễn Đăng Hùng Tô Thị Linh Nguyễn Đăng Hoàng LỜI CẢM ƠN Trong suốt thời gian từ khi bắt đầu thực hiện bài thực tập đến nay, nhóm đã nhận được rất nhiều sự quan tâm, giúp đỡ của cô Bùi Thị Hồng Nhung Với lòng biết ơn sâu sắc, chúng em xin gửi lời cảm ơn đến cô Bùi Thị Hồng Nhung đã cho chúng em có thể củng cố và áp dụng kiến thức đã được học của các môn Khai phá dữ diệu vào việc tìm hiểu và phân tích các bài toán thực tế mà doanh nghiệp cần Nhóm xin gửi lời cảm ơn, tri ân sâu sắc nhất tới cô Bùi Thị Hồng Nhung – người lái đò thầm lặng Cảm ơn cô đã luôn tin tưởng, động viên, thôi thúc hết lòng vì nhóm chúng em Cô không chỉ giúp chúng em có hành trang kiến thức, mà đã luôn sát sao dạy chúng em cách làm bài một cách khoa học và hiệu quả nhất Tuy nhiên, vì thời gian cũng như kiến thức còn hạn chế, nên bài thu hoạch khó tránh khỏi những sai sót Rất mong nhận được mọi sự đóng góp ý kiến từ quý thầy cô để chúng em có thể rút ra được nhiều kinh nghiệm và hoàn thành tốt hơn bài báo cáo thực tập tốt nghiệp Nhóm xin chân thành cảm ơn! MỤC LỤ LỜI MỞ ĐẦU 1 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 2 1.1 Đặt vấn đề 2 1.2 Mục tiêu đề tài 3 1.3 Đối tượng và phương pháp nghiên cứu .3 1.4 Ý nghĩa của đề tài 3 1.5 Bố cục đề tài .4 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 5 2.1 Tổng quan về kỹ thuật khai phá dữ liệu 5 2.1.1 Khái niệm khai phá dữ liệu 5 2.1.2 Các giai đoạn của quá trình khai phá dữ liệu 5 2.1.3 Các phương pháp khai phá dữ liệu .6 2.2 Bài toán phân lớp trong Khai phá dữ liệu 7 2.2.1 Khái niệm phân lớp 7 2.2.2 Quá trình phân lớp dữ liệu 7 2.3 Cơ sở dữ liệu về Đặt phòng khách sạn 7 2.3.1 Tổng quan về giá cả khách sạn trên thị trường 7 2.3.2 Mong đợi của khách hàng về giá cả khách sạn 8 CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO .10 3.1 Cơ sở dữ liệu 10 3.1.1 Phân tích, xác định các thuộc tính dữ liệu 10 3.1.2 Bộ dữ liệu gốc 12 3.2 Thuật toán Cây quyết định 12 3.2.1 Lý do lựa chọn thuật toán Cây quyết định 12 3.2.2 Tổng quan về thuật toán Cây quyết định 13 3.3 Thuật toán Random Forest 20 3.3.1 Lý do lựa chọn thuật toán Random Forest 20 3.3.2 Tổng quan về thuật toán 21 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 24 4.1 Tiền xử lý dữ liệu 24 4.1.1 Xử lý giá trị khuyết thiếu 24 4.1.2 Ma trận tương quan 27 4.1.3 Xử lý ngoại lai 28 4.2 Trực quan hóa dữ liệu .31 4.3 Thực nghiệm 35 4.3.1 Xây dựng mô hình dự đoán giá phòng trung bình 35 4.3.2 Thuật toán CART .39 4.3.3 Thuật toán Random Forest .41 CHƯƠNG 5: TỔNG KẾT 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HÌNH ẢNH Hình 1: Bộ dữ liệu gốc .12 Hình 2: Minh họa cây quyết định .13 Hình 3: Xây dựng cây quyết định 16 Hình 4: Xây dựng cây quyết định 17 Hình 5: Xây dựng cây quyết định 18 Hình 6: Cây quyết định sau khi xây dựng lên 18 Hình 7: Tính Gini index .19 Hình 8: Cách thức hoạt động của thuật toán Random Forest .22 Hình 9: Kết nối drive 24 Hình 10: Thêm các thư viện .24 Hình 11: Kiểm tra tổng quát bộ dữ liệu 25 Hình 12: Đọc dữ liệu 25 Hình 13: In ra 10 dòng dữ liệu đầu tiên .26 Hình 14: Đếm tổng số lượng giá trị khuyết thiếu ở mỗi cột .26 Hình 15: Xử lý các giá trị khuyết thiếu 27 Hình 16: Vẽ ma trận tương quan 27 Hình 17: Ma trận tương quan .28 Hình 18: Vẽ biểu đồ ria mèo 28 Hình 19: Biểu đồ Box plot của các thuộc tính số .29 Hình 20: Chuyển các dữ liệu dạng object sang float 30 Hình 21: Xử lý giá trị ngoại lai 30 Hình 22: Biểu đồ sau khi xử lý giá trị ngoại lai 31 Hình 23: Vẽ biểu đồ thể hiện tình trạng đặt phòng theo giá trung bình mỗi phòng và ngày đến 31 Hình 24: Biểu đồ thể hiện tình trạng đặt phòng theo giá trung bình mỗi phòng và ngày đến 32 Hình 25: Vẽ biểu đồ cột giữa loại phòng và tình trạng đặt phòng 32 Hình 26: Biểu đồ giữa loại phòng và tình trạng đặt phòng 33 Hình 27: Vẽ biểu đồ tần suất (histogram) và Box plot cho giá trung bình mỗi phòng 34 Hình 28: Biểu đồ tần suất (histogram) và Box plot cho giá trung bình mỗi phòng 35 Hình 29: Khai báo thư viện 35 Hình 30: Hiển thị kiểu dữ liệu của các thuộc tính 36 Hình 31: Đổi dữ liệu dạng định danh về dạng số .36 Hình 32: Xác định các thuộc tính tập huấn X và dự đoán Y 36 Hình 33: Chia bộ dữ liệu thành 2 tập train và test 37 Hình 34: Khai báo mô hình hồi quy tuyến tính 37 Hình 35: Thực thi mô hình 37 Hình 36: Công thức của mô hình hồi quy 37 Hình 37: Chạy thử mô hình 38 Hình 38: Kiểm tra độ chính xác của mô hình .38 Hình 39: Sử dụng mô hình để dự đoán giá phòng 38 Hình 40: Khai báo và huấn luyện mô hình 39 Hình 41: Kiểm thử mô hình .39 Hình 42: Kiểm tra độ chính xác của mô hình .40 Hình 43: Sử dụng mô hình để dự đoán giá phòng 40 Hình 44: Huấn luyện mô hình Random Forest 41 Hình 45: Kiểm thử mô hình .41 Hình 46: Độ chính xác của mô hình 41 Hình 47: Sử dụng mô hình dự đoán giá phòng 41 Hình 48: Điều chỉnh các siêu tham số 42 Hình 49: Đưa các tham số lại vào mô hình 42 LỜI MỞ ĐẦU Trong thời đại kỹ thuật số ngày nay, khai phá dữ liệu (data mining) đã trở thành một lĩnh vực quan trọng và mạnh mẽ trong nghiên cứu và doanh nghiệp Việc tận dụng thông tin từ lượng lớn dữ liệu để rút ra những tri thức ẩn sau đó đã mở ra những khả năng đặc biệt trong việc đưa ra quyết định, dự đoán xu hướng, và tìm hiểu sâu rộng về mọi khía cạnh của xã hội Khai phá dữ liệu không chỉ là một lĩnh vực nghiên cứu mà còn là một công cụ quan trọng cho sự đổi mới và cải tiến trong nhiều ngành, từ khoa học dữ liệu và trí tuệ nhân tạo đến quản lý kinh doanh và y tế Khai phá dữ liệu không chỉ là việc đơn thuần thu thập và lưu trữ thông tin, mà là quá trình tìm kiếm thông tin ẩn sau những dòng dữ liệu sôi động Điều này mang lại những cơ hội lớn cho việc đưa ra dự đoán, phân tích xu hướng, và hiểu sâu hơn về hành vi của người dùng, khách hàng, hay bất kỳ hệ thống phức tạp nào khác Trong một thế giới ngập tràn thông tin, khai phá dữ liệu là chìa khóa mở cánh cửa cho sự hiểu biết độc đáo và chiến lược nhanh chóng Nghiên cứu và ứng dụng khai phá dữ liệu đang phát triển mạnh mẽ, với sự tiện lợi của công nghệ mới như học máy, trí tuệ nhân tạo, và tính toán đám mây Những tiến bộ này không chỉ tăng cường khả năng của chúng ta trong việc xử lý dữ liệu lớn mà còn mở ra những hướng nghiên cứu mới và ứng dụng tiềm năng Chính sự hứng thú và sự tò mò về khả năng của dữ liệu đang thúc đẩy chúng ta khám phá sâu sắc hơn về khai phá dữ liệu và cách nó đang làm thay đổi cách chúng ta nắm bắt, hiểu biết, và tận dụng thông tin trong thế giới hiện đại 1 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Đặt vấn đề Trong thời buổi hiện đại ngày nay, CNTT cũng như những ứng dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu thập và lưu trữ cũng tích lũy ngày một nhiều lên được thu nhập từ rất nhiều nguồn khác nhau Con người cũng vì thế mà cần có thông tin với tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng dữ thuật mới là kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng được phát triển Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới Các kết quả thử nghiệm chứng minh, với độ chính xác cao hơn, sự thành công của các mô hình này đem lại nguồn tri thức bổ ích Khi cuộc sống con người ngày càng phát triển thì nhu cầu của con người ngày càng được nâng lên, từ nhu cầu ăn, mặc rồi đến nhu cầu vui chơi giải trí để tìm hiểu thiên nhiên, khám phá thế giới quanh ta Cùng với sự phát triển của xã hội và các ngành nghề khác thì du lịch được mệnh danh là một "Ngành công nghiệp không khói" hay còn gọi là "Con gà đẻ trứng vàng" Ngành kinh doanh này mang lại nguồn doanh thu khá lớn, đóng góp vào sự phát triển kinh tế Sự kết hợp chặt chẽ giữa du lịch và kinh doanh lưu trú là điều kiện tất yếu mang lại sự thành công trong kinh doanh ngành công nghiệp không khói này Nếu du lịch làm nhiệm vụ tổ chức cho du khách tham quan, giải trí thì kinh doanh lưu trú sẽ đảm nhận vai trò phục vụ và cung cấp nơi ăn chốn ở cho khách trong suốt thời gian du lịch Tuy nhiên trong điều kiện kinh tể thị trường khi sự cạnh tranh giữa các doanh nghiệp trở nên gay gắt, hàng loạt các khách sạn nhà hàng được đầu tư xây dụng với tiêu chuẩn chất lượng cao thì vấn đề làm sao để giữ vững được vị thế cạnh tranh của mình, giữ chân được du khách, không những làm họ đến một lần mà đến với chúng ta nhiều lần nữa, điều đó sẽ phụ thuộc rất nhiều vào chất lượng cũng như mức giá cả nhằm thu hút khách hàng Trong bối cảnh đó F1 Hotel đã và đang không ngừng hoàn thiện và nâng cao chất lượng dịch vụ và đưa ra 2

Ngày đăng: 24/03/2024, 06:40

Tài liệu cùng người dùng

Tài liệu liên quan