Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
1,96 MB
File đính kèm
Code.rar
(24 KB)
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài: HỆ HỖ TRỢ PHÂN TÍCH LƯỢNG KHÁCH HÀNG ĐẾN PHÒNG TẬP GYM Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Sinh viên thực hiện: Nguyễn Tùng Hà Nội, 2020 Lớp: Toán Tin K62 Hệ hỗ trợ định 20192 Mục lục Điều tra, khảo sát 1.1 Bài toán thực tế 1.2 Dữ liệu sử dụng 3 Thuật toán sử dụng Mơ hình học máy 2.1 Cơ sở lý thuyết 2.1.1 Mơ hình hồi quy 2.1.2 Cây định 2.1.3 Rừng ngẫu nhiên (Random Forest) 2.1.4 Một số số đánh giá mơ hình hồi quy 2.2 Cài đặt mơ hình kết 3 Phân tích hệ thống 3.1 Mơ hình nghiệp vụ 3.2 Đặc tả yêu cầu phần mềm 8 Thiết kế triển khai chương trình 4.1 Tổng quan hệ thống 4.2 Công nghệ sử dụng 10 4.3 Một số giao diện chương trình 11 Hệ hỗ trợ định 20192 Mở đầu Trong kinh doanh, nhà quản lý phải đưa định công việc nhằm đảm bảo cho tổ chức hoạt động ổn định, công việc kinh doanh đạt hiệu Việc định nhiều khó khăn phải phân tích yếu tố ảnh hưởng đến, việc thực thủ cơng khó khăn khả tính tốn người có hạn Do việc sử dụng hệ thống thông tin hỗ trợ định để giải toán điều cần thiết Hệ hỗ trợ định (Decision Support System - DSS) chương trình vi tính sử dụng để hỗ trợ đưa định, phán đoán chiều hướng hành động tổ chức doanh nghiệp DSS sàng lọc phân tích lượng liệu khổng lồ, tổng hợp thông tin cách tồn diện mà sử dụng để giải vấn đề trình định Hiện việc sử dụng Hệ hỗ trợ định phổ biến tổ chức, doanh nghiệp Trên sở lý thuyết Khai phá liệu, Máy học, Đề tài trình bày thiết kế Hệ thống hỗ trợ phân tích lượng khách hàng đến phịng tập Gym, từ đưa cho nhà quản lý định quản lý phòng tập Báo cáo bao gồm phần: Điều tra khảo sát Đưa toán thực tế hướng giải Thuật toán sử dụng Mơ hình học máy Trình bày thuật tốn máy học, cách xây dựng đánh giá mơ hình Phân tích hệ thống Phân tích chức hệ thống nghiệp vụ Thiết kế triển khai chương trình Giới thiệu tổng quan công nghệ sử dụng giao diện hệ thống Em xin gửi lời cảm ơn chân thành tới thầy Lê Chí Ngọc, Viện Tốn ứng dụng Tin học, hướng dẫn em hoàn thành đề tài Do hạn chế kiến thức, kinh nghiệm nên đề tài khơng tránh khỏi thiếu sót, mong nhận góp ý khắc phục từ thầy bạn đọc Hệ hỗ trợ định 20192 Điều tra, khảo sát 1.1 Bài toán thực tế Hiện nay, nhu cầu rèn luyện sức khỏe người ngày tăng, theo phịng tập gym mở nhiều để đáp ứng nhu cầu Gần trường đại học, hầu hết có phịng tập để phục vụ nhu cầu sinh viên Đề tài hướng đến mục tiêu hỗ trợ nhà quản lý phòng tập gần trường đại học, với lượng khách hàng đông đảo sinh viên, quy mô phòng tập vừa nhỏ Người quản lý phòng tập thường phải định chương trình khuyến mãi, thuê huấn luyện viên (PT), lịch bảo trì thiết bị Để định có hiệu quả, người quản lý cần phân tích số lượng khách hàng đến dựa số tiêu chí quan trọng Trong trường hợp ta cần sử dụng mơ hình hồi quy để xác định quan trọng tiêu chí ảnh hưởng đến số lượng người, qua lựa chọn tiêu chí phù hợp để đánh giá 1.2 Dữ liệu sử dụng Link liệu (Kaggle): https://www.kaggle.com/nsrose7224/crowdedness-at-the-campus-gym (Crowdedness at the Campus Gym) Dữ liệu lấy từ phòng Gym San Francisco, California, Mỹ, cập nhật 10 phút lần năm (Từ ngày 15 tháng năm 2015 đến ngày 19 tháng năm 2017) Kích thước liệu: 62184 quan sát, 11 thuộc tính (62184 hàng 11 cột) Mơ tả liệu • Nhãn: Số lượng người • date (string; Ngày) • timestamp (int; Thời gian thời điểm cập nhật, tính theo giây) • dayofweek (int; (Thứ Hai) - (Chủ Nhật)) • isweekend (int; or 1) (boolean, Thứ Bảy, Chủ Nhật, ngày cịn lại) • isholiday (int; or 1) (boolean, ngày lễ) • temperature (float; Nhiệt độ theo nhiệt giai Fahrenheit (Độ F)) • isstartofsemester (int; or 1, bắt đầu học kỳ) • month (int; - 12) • hour (int; – 23 giờ) Thuật toán sử dụng Mơ hình học máy 2.1 Cơ sở lý thuyết 2.1.1 Mơ hình hồi quy Phân tích hồi quy phân tích thống kê để xác định xem biến độc lập (biến thuyết minh) quy định biến phụ thuộc (biến thuyết minh) nào.Đây phương Hệ hỗ trợ định 20192 pháp thống kê mà giá trị kỳ vọng hay nhiều biến ngẫu nhiên dự đoán dựa vào điều kiện biến ngẫu nhiên (đã tính tốn) khác Phân tích hồi quy khơng trùng khớp đường cong (lựa chọn đường cong mà vừa khớp với tập điểm liệu); cịn phải trùng khớp với mơ hình với thành phần ngẫu nhiên xác định (deterministic and stochastic components) Thành phần xác định gọi dự đoán (predictor) thành phần ngẫu nhiên gọi phần sai số (error term) Dạng đơn giản mơ hình hồi quy chứa biến phụ thuộc (còn gọi "biến đầu ra," "biến nội sinh," "biến thuyết minh", hay "biến-Y") biến độc lập đơn (còn gọi "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biến-X") Ví dụ thường dùng phụ thuộc huyết áp Y theo tuổi tác X người, hay phụ thuộc trọng lượng Y thú theo phần thức ăn ngày X Sự phụ thuộc gọi hồi quy Y lên X 2.1.2 Cây định Cây định sơ đồ có dạng hình cây, internal node (non-leaf node – khơng phải nút lá) biểu thị câu hỏi thuộc tính, branch (nhánh) đại diện cho kết câu hỏi, leaf node (nút lá) giữ nhãn lớp (class label) Các non-leaf node thường có hai nhiều node (child node) Các child node leaf node non-leaf node khác Nút gọi root node (nút gốc) Một số thuật toán định tạo nhị phân (binary tree) (Đó internal node rẽ nhánh đến node khác hay tất non-leaf node có hai child node), số khác tạo nonbinary tree Cây định sử dụng cho tốn Phân lớp (Classification) Hồi quy (Regression) Hình 1: Ví dụ định cho tốn phân lớp Với mơ hình Hồi quy, định (hay hồi quy) xây dựng tương tự Thay cho kết class kết giá trị dự báo Hệ hỗ trợ định 20192 Hình 2: Ví dụ định cho tốn hồi quy 2.1.3 Rừng ngẫu nhiên (Random Forest) Random Forest tập hợp hàng trăm Cây định, Cây định tạo nên ngẫu nhiên từ việc tái chọn mẫu (chọn ngẫu nhiên phần liệu để xây dựng) lấy ngẫu nhiên biến từ toàn biến trong liệu Random Forest mơ hình học kết hợp sử dụng tốn phân lớp hồi quy Trong toán phân lớp, việc dự báo lớp dựa vào majority vote kết định, với tốn hồi quy, giá trị biến phụ thuộc dự báo dựa vào việc lấy giá trị trung bình dự đoán Vậy lý sử dụng Random Forest cho tốn thay sử dụng định lớn cho toán ? Khi thực hiện, em nhận thấy liệu có nhiều đặc trưng kích thước lớn Việc xây dựng định lớn (Hay gọi strong learner) phức tạp, qua xảy tượng mơ hình q khớp Để khắc phục tình trạng này, ta xây dựng nhiều đơn giản (weak learners), chọn ngẫu nhiên phần liệu để dự báo, cuối tổng hợp lại kết Qua giảm tình trạng khớp đồng thời tăng tốc độ luyện mơ hình việc tận dụng tính tốn song song nhiều nhỏ thay thực lớn Hệ hỗ trợ định 20192 Hình 3: Mơ hình Random Forest cho toán hồi quy 2.1.4 Một số số đánh giá mơ hình hồi quy • Mức độ phù hợp mơ hình với liệu (R2 ) (Yi − Yˆi )2 i R2 = − (Yi − Y¯i )2 i • Sai số tuyệt đối trung bình (MAE) n n |Yt − Yˆt | | t| M AE = t=1 = n t=1 n • Sai số bình phương trung bình (MSE) n n t M SE = t=1 = n Yt − Yˆt t=1 n • Sai số tương đối trung bình (MAPE) n M AP E = t=1 | t| Yt n n = t=1 |Yt − Yˆt | Yt n Hệ hỗ trợ định 20192 2.2 Cài đặt mơ hình kết Chia liệu thành tập Train Test với kích thước tập Test 15% kích thước liệu (khoảng 9000 ghi) Sử dụng mô hình Random Forest hồi quy có sẵn thư viện scikit-learn from s k l e a r n ensemble import RandomForestRegressor Xây dựng mơ hình học với 100 model = RandomForestRegressor ( ) model set_params ( n _ e s t i m a t o r s = 100) model f i t ( X_train , y_train ) Tính tốn kết mơ hình tập Test, ta số đánh giá sau R^2 ( model s c o r e ) : 4 4 MAE: 2 8 5 MSE: 5 1 RMSE: 0 MAPE: 9 3 7 % Ở ta thấy R bình phương 0.92, tức có 92% thay đổi biến phụ thuộc giải thích thay đổi biến độc lập, qua đánh giá mơ hình phù hợp với liệu Sai số tuyệt đối trung bình (MAE) = 4.31, sai số tồn phương trung bình (MSE) 41.36 bình phương (RMSE) 6.43 So với giá trị trung bình liệu (29) giá trị chủ yếu 43 (75%) sai số tốt trường hợp Ngoài sai số tương đối mà dự báo mắc phải đo lường phần trăm sai số tuyệt đối trung bình (MAPE), trường hợp 24.51%, chưa thật tốt mơ hình hồi quy, nhiên nhìn tổng thể kết mơ hình chấp nhận cho tốn Bài tốn phân tích số lượng người đến phòng tập gym, việc lấy tất đặc trưng để đánh giá phân tích khơng hợp lý không thực tế, ta cần chọn vài biến có ảnh hưởng lớn đến lượng khách hàng, tập trung vào để phân tích đưa định Với treebase model, ta không xác định hệ số hồi quy (giống Hồi quy tuyến tính) để đánh giá ảnh hưởng biến độc lập lên biến phụ thuộc mức độ Do ta dùng phương pháp đánh giá Feature Importance (Đặc trưng quan trọng) để đánh giá Việc tính tốn Feature Importance Python thực sau i m p o r t a n c e s = model feature_i mportances_ Và kết ta thu Hệ hỗ trợ định 20192 Hình 4: Mức độ quan trọng cùa đặc trưng Từ biểu đồ trên, ta thấy số lượng khách hàng phụ thuộc nhiều vào thời điểm ngày, thứ tuần, học kỳ sinh viên Do ta sử dụng tiêu chí hệ thống Ngồi ra, thực tế khuyến thường hay áp dụng theo tháng, ta có thêm tiêu chí tháng năm hệ thống phân tích 3.1 Phân tích hệ thống Mơ hình nghiệp vụ Mơ hình nghiệp vụ tốn với người dùng người quản lý mô tả sau: Bước Đăng nhập vào hệ thống, lựa chọn mục cần phân tích lượng người (theo option cho sẵn) Bước Nhà quản lý lấy kết phân tích gợi ý từ hệ thống định Cụ thể với mục tiêu phân tích Với mục tiêu khuyến mãi, nhà quản lý nên lựa chọn thời điểm khách hàng để áp dụng khuyến Hoặc với mục tiêu thuê huấn luyện viên, lựa chọn thời điểm đông khách tháng học kỳ sinh viên Mơ hình nghiêp vụ mô tả biểu đồ Và sơ đồ phân cấp chức hệ thống Hệ hỗ trợ định 20192 Hình 5: Biểu đồ mơ hình hóa nghiệp vụ Hình 6: Sơ đồ phân cấp chức 3.2 Đặc tả yêu cầu phần mềm Yêu cầu phần cứng: Do phần mềm triển khai tảng web nên cần ý tốc độ truyền liệu, tối ưu liệu server Yêu cầu liệu: Dữ liệu phải có tính đồng bộ, quy chuẩn theo yêu cầu toán Yêu cầu giao diện: Giao diện thân thiện, dễ sử dụng, độ dài kết phân tích khơng q trang A4 Yêu cầu người dùng: Nắm nghiệp vụ quản lý 4.1 Thiết kế triển khai chương trình Tổng quan hệ thống Hệ thống triển khai tảng web Người dùng gửi thông điệp qua giao diện browser, liệu gửi server để xử lý mơ hình, scaler có sẵn assets, Hệ hỗ trợ định 20192 sau server trả kết biểu đồ cho người dùng giao diện người dùng Hình 7: Sơ đồ tổng quan hệ thống 4.2 Công nghệ sử dụng Hệ thống xây dựng tảng web, sử dụng ngôn ngữ HTML với CSS, JavaScript thiết kế giao diện (Frontend), Backend xây dựng ngôn ngữ Python với cốt lõi thư viện Flask Việc xử lý liệu, xây dựng mơ hình máy học lập trình ngơn ngữ Python HTML (tiếng Anh, viết tắt cho HyperText Markup Language, "Ngôn ngữ Đánh dấu Siêu văn bản") ngôn ngữ đánh dấu thiết kế để tạo nên trang web với mẩu thông tin trình bày World Wide Web Cùng với CSS JavaScript, HTML tạo ba tảng kỹ thuật cho World Wide Web CSS ngôn ngữ tạo phong cách cho trang web – Cascading Style Sheet language Nó dùng để tạo phong cách định kiểu cho yếu tố viết dạng ngôn ngữ đánh dấu, HTML Nó điều khiển định dạng nhiều trang web lúc để tiết kiệm cơng sức cho người viết web Nó phân biệt cách hiển thị trang web với nội dung trang cách điều khiển bố cục, màu sắc, font chữ JavaScript ngơn ngữ lập trình website, tích hợp nhúng HTML giúp website sống động JavaScript cho phép kiểm soát hành vi trang web tốt so với sử dụng HTML Vậy ứng dụng thực tiễn JavaScript gì? Các slideshow, pop-up quảng cáo tính autocomplete Google ví dụ dễ thấy cho bạn, chúng viết JavaScript Flask Web Framework Python, Flask có tảng Werkzeug Jinja2 trở thành Web Framework phổ biến Python (bên cạnh Django) 10 Hệ hỗ trợ định 20192 4.3 Một số giao diện chương trình Hình 8: Giao diện đăng nhập Hình 9: Các option để phân tích liệu 11 Hệ hỗ trợ định 20192 Hình 10: Nhập liệu từ file đưa kết ngày Hình 11: Kết phân tích trung bình theo thời điểm ngày Tài liệu [1] Ramesh Sharda, Dursun Delen, Efraim Turban Business intelligence and analytics: systems for decision support 10th edition, Pearson Education, 2014 [2] Vũ Hữu Tiệp, Machine Learning [3] Andreas C Mueller, Sarah Guido, Introduction to Machine Learning with Python, O’Reilly Media, Inc , 1005 Gravenstein Highway North, Sebastopol, CA 95472 12 ... việc sử dụng Hệ hỗ trợ định phổ biến tổ chức, doanh nghiệp Trên sở lý thuyết Khai phá liệu, Máy học, Đề tài trình bày thiết kế Hệ thống hỗ trợ phân tích lượng khách hàng đến phịng tập Gym, từ đưa... Bài tốn phân tích số lượng người đến phòng tập gym, việc lấy tất đặc trưng để đánh giá phân tích khơng hợp lý không thực tế, ta cần chọn vài biến có ảnh hưởng lớn đến lượng khách hàng, tập trung... hầu hết có phòng tập để phục vụ nhu cầu sinh viên Đề tài hướng đến mục tiêu hỗ trợ nhà quản lý phòng tập gần trường đại học, với lượng khách hàng đông đảo sinh viên, quy mơ phịng tập vừa nhỏ