Nghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tửNghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tử
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH HOÀI ANH NGHIÊN CỨU VÀ XÂY DỰNG ỨNG DỤNG PHÂN TÍCH DỮ LIỆU KINH DOANH THIẾT BỊ ĐIỆN TỬ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2017 MỤC LỤC MỞ ĐẦU CHƯƠNG ĐẶT VẤN ĐỀ 1.1 Bài tốn phân tích liệu 1.2 Lựa chọn miền ứng dụng 1.3 Phương pháp công cụ 1.3.1 Lựa chọn phương pháp 1.3.2 Lựa chọn công cụ CHƯƠNG MƠ HÌNH HỒI QUY TUYẾN TÍNH VÀ CƠNG CỤ HỖ TRỢ WEKA 2.1 Mơ hình hồi quy tuyến tính 2.1.1 Lý thuyết mơ hình hồi quy 2.1.2 Mơ hình hồi quy tuyến tính 2.1.3 Phương pháp bình phương tối thiểu để ước lượng tham số mơ hình hồi quy tuyến tính 2.1.4 Ứng dụng mơ hình hồi quy tuyến tính vào phân tích liệu 2.2 Cơng cụ hỗ trợ xây dựng mơ hình hồi quy tuyến tính WEKA 12 2.2.1 Giới thiệu WEKA 12 2.2.2 Các chức WEKA 13 2.2.3 Xây dựng mơ hình hồi quy tuyến tính với WEKA 13 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 16 3.1 Phát biểu toán thực tế 16 3.2 Tiến hành xây dựng mơ hình 16 3.2.1 Thu thập liệu 16 3.2.2 Tiền xử lý liệu 17 3.2.3 Lựa chọn thuộc tính 19 3.2.4 Xây dựng đánh giá mơ hình 20 3.3 Tính tốn thử nghiệm độ xác dự báo 22 CHƯƠNG KẾT LUẬN 24 TÀI LIỆU THAM KHẢO 25 MỞ ĐẦU Ngày nay, liệu sinh phút, giây, có khắp nơi chúng cho ta thấy nhiều điều Tuy nhiên, làm để liệu trở nên có ý nghĩa lại trở thành vấn đề không nhỏ cá nhân, tổ chức sở hữu khối liệu Phân tích liệu khoa học khám phá liệu thô nhằm rút kết luận từ liệu Phân tích liệu sử dụng nhiều ngành công nghiệp để hỗ trợ công ty, tổ chức để đưa định kinh doanh tốt ngành khoa học để xác nhận hay bác bỏ mơ hình, lý thuyết có Q trình phân tích liệu bao gồm bước kiểm tra, làm sạch, chuyển đổi mơ hình hóa liệu với mục đích tìm thơng tin hữu ích, cho thấy kết luận hỗ trợ định dựa liệu có Vấn đề nghiên cứu ứng dụng phân tích liệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứng dụng rộng rãi, lĩnh vực kinh doanh thương mại Trên sở nghiên cứu có, luận văn tập trung vào mục tiêu vấn đề cần giải sau: Mục tiêu phạm vi nghiên cứu: Luận văn tập trung nghiên cứu mơ hình hồi quy tuyến tính, phương pháp sử dụng mơ hình hồi quy tuyến tính phân tích liệu, tìm hiểu cơng cụ hỗ trợ phân tích liệu Weka Mục tiêu luận văn dựa cơng cụ Weka xây dựng mơ hình hồi quy tuyến tính dự đốn giá mặt hàng máy tính xách tay thị trường Việt Nam thơng qua việc phân tích liệu bán hàng Công ty cổ phần thương mại Nguyễn Kim Từ đó, hỗ trợ doanh nghiệp, nhà phân phối máy tính xách tay đưa giá bán cạnh tranh thị trường Bên cạnh đó, giúp người tiêu dùng ước lượng chi phí để mua máy tính xách tay phù hợp với nhu cầu thân Phương pháp nghiên cứu: Trong phạm vi luận văn này, sử dụng 03 phương pháp nghiên cứu khoa học để tiếp cận làm rõ vấn đề đề tài mà lựa chọn Đó phương pháp nghiên cứu sau: - Phương pháp phân tích tổng hợp lý thuyết: Nghiên cứu tài liệu khác mơ hình hồi quy tuyến tính, phân tích liệu cơng cụ Weka; phân tích để tìm hiểu sâu sắc vấn đề tổng hợp để có nhìn tổng quan đầy đủ vấn đề cần tìm hiểu - Phương pháp thực nghiệm khoa học: Chủ động tiến hành thu thập, xử lý liệu bán máy tính xách tay; sử dụng cơng cụ Weka xây dựng mơ hình hồi quy tuyến tính để dự báo giá 4 - Phương pháp phân tích, tổng kết kinh nghiệm: Nghiên cứu, phân tích đánh giá mơ hình xây dựng để bước xây dựng mơ hình phù hợp với độ tin cậy, xác cao Bố cục luận văn: Luận văn trình bày với bố cục gồm 04 chương với nội dung sau: Chương - Đặt vấn đề: Phát biểu toán, lựa chọn miền ứng dụng giới thiệu phương pháp công cụ để giải tốn Chương - Mơ hình hồi quy tuyến tính cơng cụ hỗ trợ Weka: Trình bày sở lý thuyết mơ hình hồi quy, vào cụ thể với mơ hình hồi quy tuyến tính Đồng thời, giới thiệu cơng cụ Weka, xây dựng mơ hình hồi quy tuyến tính với hỗ trợ Weka Chương - Thực nghiệm đánh giá kết quả: Sử dụng công cụ Weka để xây dựng mơ hình hồi quy tuyến tính dự báo giá bán máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim Tiến hành phân tích, xây dựng mơ hình đánh giá kết thu Chương - Kết luận: Trình bày kết đạt luận văn định hướng phát triển tương lai 5 Chương ĐẶT VẤN ĐỀ 1.1 Bài tốn phân tích liệu Dữ liệu tạo giây, phút đời sống xã hội đại Chúng liệu web, liệu từ cảm biến, tệp lưu nhật ký, liệu cá nhân, liệu từ thiết bị thông minh,… Từ khối liệu mà tìm kiếm, khai thác trích xuất thơng tin hữu ích Làm để có thông tin vấn đề đặt Phân tích liệu chìa khóa giúp giải vấn đề nêu Vậy phân tích liệu gì? Phân tích liệu ứng dụng thực tiễn kỹ thuật khai phá liệu Phân tích liệu q trình trích xuất thơng tin hữu ích từ tập liệu cung cấp Các bước q trình phân tích liệu bao gồm: Kiểm định, làm sạch, chuyển đổi, mơ hình hóa phân tích liệu nhằm mục đích tìm kiếm thơng tin, cho thấy kết luận, hỗ trợ đưa định Trước có máy tính, nhiều phương pháp phân tích cho tập liệu nhỏ phát triển tập trung phân tích biến riêng lẻ Ngày nay, khả tính tốn máy tính phát triển vượt bậc, phân tích liệu phân tích đồng thời quan hệ nhiều biến 1.2 Lựa chọn miền ứng dụng Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụng phân tích liệu vào lĩnh vực kinh doanh Dữ liệu bán hàng công ty điện máy khối liệu đồ sộ với đa dạng loại mặt hàng nhiều nhà cung cấp bày bán với mức giá thay đổi theo thời gian chương trình khuyến khác Khối liệu thể đầy đủ đáng tin cậy website cơng ty điện máy thu thập cách xác thơng qua cơng cụ sẵn có Tác giả lấy liệu bán hàng Công ty cổ phần thương mại Nguyễn Kim điển hình Phân tích liệu bán hàng Cơng ty cổ phần thương mại Nguyễn Kim để hỗ trợ cơng ty điện máy dự đốn đưa giá bán cạnh tranh cho mặt hàng máy tính xách tay thị trường Việt Nam 1.3 Phương pháp cơng cụ 1.3.1 Lựa chọn phương pháp Phân tích liệu khẳng định lựa chọn bỏ qua để hỗ trợ đưa định kinh doanh sáng suốt Một mơ hình liệu xây dựng dựa tập liệu lịch sử Những thuật toán học máy sử dụng để xây dựng mơ hình liệu ẩn giấu tập liệu Sau mơ hình liệu xác nhận, coi tổng quát hóa kiến thức dự đốn tương lai Bằng cách này, doanh nghiệp dự đoán nguy tiềm ẩn tương lai để hoạch định chiến lược kinh doanh phù hợp 6 Thống kê cung cấp phương pháp, kỹ thuật xây dựng mơ hình tốn học để phân tích liệu Hai phương pháp thống kê sử dụng phân tích liệu là: Thống kê mơ tả (Descriptive statistics) thống kê suy diễn (Inferential statistics) Dữ liệu thống kê thường thu thập để trả lời câu hỏi định trước Thống kê mô tả tóm tắt liệu từ mẫu thí nghiệm thống kê suy diễn rút kết luận từ liệu Ngày nay, với phát triển không ngừng khả tính tốn máy tính, thống kê sử dụng nhiều học máy (Machine learning) nhằm xây dựng mơ hình tốn cho thuật tốn học máy Thống kê suy diễn sử dụng nhiều phân tích liệu khẳng định Trong khn khổ luận văn này, tác giả tập trung nghiên cứu mơ hình hồi quy tuyến tính thống kê với mục đích xây dựng mơ hình học máy cho tốn phân tích liệu để dự đốn tương lai 1.3.2 Lựa chọn công cụ Hiện tại, công cụ hỗ trợ phân tích liệu xuất nhiều R, SPSS, Weka,… Tuy nhiên, tác giả lựa chọn nghiên cứu phần mềm Weka Đây phần mềm phát triển Java nhằm phát triển kỹ thuật học máy áp dụng chúng vào toán khai phá liệu thực tế 7 Chương MÔ HÌNH HỒI QUY TUYẾN TÍNH VÀ CƠNG CỤ HỖ TRỢ WEKA 2.1 Mơ hình hồi quy tuyến tính 2.1.1 Lý thuyết mơ hình hồi quy Phân tích hồi quy nghiên cứu phụ thuộc biến phụ thuộc vào hay nhiều biến độc lập để ước lượng hay dự đốn giá trị trung bình biến phụ thuộc sở giá trị biết trước biến độc lập Phân tích hồi quy mơ hình hóa thông qua dạng: Y = f(X) + ε (2.1) Trong đó: X biến độc lập, Y biến phụ thuộc, ε sai số ngẫu nhiên f(X) = E(Y|X) hàm hồi quy tổng thể PRF cho biết giá trị trung bình biến Y thay đổi biến X nhận giá trị khác Mơ hình (2.1) gọi mơ hình hồi quy Để khảo sát mơ hình hồi quy người ta tiến hành quan sát số (Xi, Yi) Ở lần quan sát thứ i, biến X nhận giá trị Xi, biến Y nhận giá trị Yi sai số ngẫu nhiên εi Khi đó, mơ hình (2.1) trở thành: Yi = f(Xi) + εi = E(Y|Xi) + εi (2.2) εi độ chênh lệch giá trị quan sát Yi biến phụ thuộc Y với giá trị trung bình Y biến độc lập X nhận giá trị Xi ε tồn nhiều yếu tố tác động Một yếu tố quan trọng biến độc lập X đưa vào mơ hình có biến khác chưa xem xét tới ảnh hưởng đến giá trị biến phụ thuộc Y nên ε đại diện cho phần ảnh hưởng Từ (2.2) ta có: εi = Yi - f(Xi) => εi Yi - f(Xi) Nếu εi có giá trị nhỏ biến phụ thuộc Y quan hệ mật thiết hay phụ thuộc vào biến độc lập X Vì vậy, ε đóng vai trò quan trọng việc đánh giá chất lượng mơ hình hồi quy Việc xây dựng mơ hình hồi quy tốt thực chất xác định hàm hồi quy tổng thể f(X) cho sai số ngẫu nhiên ε mơ hình nhận giá trị nhỏ Khi đó, ta ước lượng hay dự đoán giá trị biến phụ thuộc Y sở giá trị biết trước biến độc lập X với độ tin cậy định Trong nhiều trường hợp, ta khơng có điều kiện để xét toàn tổng thể vấn đề Khi đó, ta ước lượng giá trị trung bình biến phụ thuộc từ tập số liệu mẫu Thống kê học cung cấp phương pháp điều tra chọn mẫu cho phép lấy tập số liệu tổng thể số mẫu số liệu để nghiên cứu, phân tích đưa kết cho tổng thể với độ tin cậy cho trước Việc xây dựng hàm hồi quy tổng thể thực thông qua việc xác định hàm hồi quy mẫu SRF, dùng để ước lượng kiểm định giả thiết từ xây dựng hàm hồi quy tổng thể Hàm hồi quy mẫu xây dựng dựa tập số liệu mẫu Mơ hình hồi quy chia làm 02 loại: - Mơ hình hồi quy đơn với hàm hồi quy tổng thể có biến độc lập - Mơ hình hồi quy bội với hàm hồi quy tổng thể có từ biến độc lập trở lên 2.1.2 Mơ hình hồi quy tuyến tính Mơ hình hồi quy tuyến tính mơ hình hồi quy mà hàm hồi quy tổng thể có dạng tuyến tính f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βnXni (2.3) Trong đó: - Xi giá trị biến độc lập X quan sát thứ i - E(Y|Xi) giá trị trung bình biến phụ thuộc Y biến độc lập X nhận giá trị Xi quan sát thứ i - β0, β1, β2, …, βn tham số hồi quy Tham số hồi quy β0 gọi hệ số tự do, cho biết giá trị trung bình biến phụ thuộc Y biến độc lập X nhận giá trị “0” Tham số hồi quy βj gọi hệ số góc, cho biết giá trị trung bình biến phụ thuộc Y thay đổi giá trị biến độc lập thứ j Xji tăng đơn vị với điều kiện biến độc lập khác không thay đổi giá trị Thật vậy: Giả sử Xji1 = Xji + Ta có E(Y|Xi)1 = E(Y|Xi) + βj => βj = E(Y|Xi)1 - E(Y|Xi) Nếu βj > E(Y|Xi)1 > E(Y|Xi) tức giá trị trung bình Y tăng Ngược lại, βj < E(Y|Xi)1 < E(Y|Xi) tức giá trị trung bình Y giảm Như trình bày phần trước: - Nếu f(Xi) = E(Y|Xi) = β0 + β1Xi mơ hình gọi mơ hình hồi quy tuyến tính đơn - Nếu f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βnXni với n >= mơ hình gọi mơ hình hồi quy tuyến tính bội Đối với mơ hình hồi quy tuyến tính, hàm hồi quy mẫu có dạng: (2.3) 𝑌̂ 𝑖 = 𝛽̂0 + 𝛽̂1 X1i + 𝛽̂2 X2i + … + 𝛽̂𝑛 Xni Trong đó: 𝛽̂𝑖 ước lượng điểm βi, 𝑌̂𝑖 ước lượng điểm Yi Khi đó, sai số ei = Yi - 𝑌̂𝑖 Minh họa hình 2.1 Hình 2.1 Sai số ei Yi 𝑌̂ 𝑖 Như vậy, việc xây dựng mơ hình hồi quy tuyến tính trở thành việc xác định 𝛽̂𝑖 cho sai số ei nhỏ tức 𝑌̂𝑖 gần với giá trị Yi tốt 2.1.3 Phương pháp bình phương tối thiểu để ước lượng tham số mơ hình hồi quy tuyến tính Phương pháp bình phương tối thiểu OLS đưa nhà toán học Carl Friedrich Gauss phương pháp sử dụng phổ biến thống kê để xác định 𝛽̂𝑖 cho tổng bình phương sai số ei giá trị quan sát Yi với giá trị 𝑌̂𝑖 tính theo hàm hồi quy mẫu nhỏ Nội dung phương pháp cụ thể sau: Xét trường hợp, hàm hồi quy tổng thể có dạng: f(Xi) = E(Y|Xi) = β0 + β1Xi có mẫu gồm n cặp quan sát (Xi, Yi) với i = 1, 2, …, n Ở lần quan sát thứ i, ta có: - Hàm hồi quy mẫu: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 Xi - Sai số: 𝑒𝑖 = Yi - 𝑌̂𝑖 = Yi - 𝛽̂0 - 𝛽̂1 Xi - Tổng bình phương sai số ei: ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1(Yi − 𝛽̂0 − 𝛽̂1 Xi) Việc cần làm xác định 𝛽̂0 𝛽̂1 cho tổng bình phương ei nhỏ Tức là: f(𝛽̂0 , 𝛽̂1) = ∑𝑛𝑖=1(Yi − 𝛽̂0 − 𝛽̂1 Xi) => Vì f(𝛽̂0 , 𝛽̂1 ) đa thức bậc biến 𝛽̂0 , 𝛽̂1 nên điều kiện để đạt cực tiểu là: ̂0 ,𝛽 ̂1 ) 𝜕f(𝛽 ̂0 𝜕𝛽 = ∑𝑛𝑖=1(Yi − 𝛽̂0 − 𝛽̂1 Xi)(−1) = ̂0 ,𝛽 ̂1 ) 𝜕f(𝛽 ̂1 𝜕𝛽 = ∑𝑛𝑖=1(Yi − 𝛽̂0 − 𝛽̂1 Xi)(−Xi) = { (2.4) Giải hệ phương trình (2.4) ta được: 𝑛 𝑛 ∑ (Xi − 𝑋̅)(Yi − 𝑌̅) ∑ YiXi – n 𝑋̅ 𝑌̅ 𝛽̂0 = 𝑌̅ - 𝛽̂1 𝑋̅ 𝛽̂1 = 𝑖=1∑𝑛 (Xi ̅)2 = ∑𝑖=1 𝑛 (𝑋̅)2 𝑖=1 Trong đó: - 𝑋̅ giá trị trung bình X, 𝑋̅ = - 𝑌̅ giá trị trung bình Y, 𝑌̅ = −𝑋 𝑖=1 Xi –𝑛 ∑ Xi 𝑛 ∑ Yi 𝑛 2.1.4 Ứng dụng mơ hình hồi quy tuyến tính vào phân tích liệu Trên thực tế, phân tích liệu, phải xác định mối quan hệ biến phụ thuộc vào nhiều biến độc Vì vậy, cần xem xét mơ hình hồi quy tuyến tính nhiều biến độc lập Khi đó, hàm hồi quy tổng thể với k biến độc lập có dạng: f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βkXki 10 Với n quan sát ta có: 𝑌1 = 𝛽0 + 𝛽1 𝑋11 + 𝛽2 𝑋21 + … + 𝛽𝑘 𝑋𝑘1 + 𝑒1 𝑌2 = 𝛽0 + 𝛽1 𝑋12 + 𝛽2 𝑋22 + … + 𝛽𝑘 𝑋𝑘2 + 𝑒2 …………… 𝑌𝑛 = 𝛽0 + 𝛽1 𝑋1𝑛 + 𝛽2 𝑋2𝑛 + … + 𝛽𝑘 𝑋𝑘𝑛 + 𝑒𝑛 Ký hiệu: 𝑋11 𝑋21 … 𝑋𝑘1 𝛽0 𝑌1 𝑒1 𝑒2 𝑌2 𝛽1 𝑋12 𝑋22 … 𝑋𝑘2 𝑌 = [ ]; 𝛽 = [ ]; 𝑒 = [ ] 𝑋 = [ ] … … … ……………… 𝑒𝑛 𝑌𝑛 𝛽𝑘 𝑋1𝑛 𝑋2𝑛 … 𝑋𝑘𝑛 Ta có: 𝑌 = 𝑋𝛽 + 𝑒 Hàm hồi quy mẫu có dạng: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋1𝑖 + 𝛽̂2 𝑋2𝑖 + … + 𝛽̂𝑘 𝑋𝑘𝑖 𝑒1 𝑒 Khi đó: 𝑒 = [ …2 ] = 𝑌 − 𝑋𝛽̂ 𝑒𝑛 Các ước lượng OLS tìm cách tìm 𝛽̂𝑖 cho: 𝑛 𝑛 ∑ 𝑒𝑖2 = ∑(𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋1𝑖 − 𝛽̂2 𝑋2𝑖 − … − 𝛽̂𝑘 𝑋𝑘𝑖 ) => 𝑀𝑖𝑛 𝑖=1 𝑖=1 Gọi X , Y , 𝛽̂ 𝑇 , eT ma trận chuyển vị X, Y, 𝛽̂ e Khi đó: T T 𝑛 ∑ 𝑒𝑖2 = 𝑒 𝑇 𝑒 = 𝑌 𝑇 𝑌 − 2𝛽̂𝑇 𝑋 𝑇 𝑌 + 𝛽̂𝑇 𝑋 𝑇 𝑋𝛽̂ 𝑖=1 Hệ phương trình có dạng: 𝜕 (𝑒 𝑇 𝑒) =0 𝜕𝛽̂ => −2𝑋 𝑇 𝑌 + 2𝑋 𝑇 𝑋𝛽̂ = ̂ = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝒀 => 𝜷 (2.10) 𝑇 Trong ma trận 𝑋 𝑋 có dạng sau: 𝑛 𝑛 𝑛 𝑋𝑇 𝑋 = 𝑛 ∑ 𝑋1𝑖 ∑ 𝑋2𝑖 𝑖=1 𝑛 𝑖=1 𝑛 ∑ 𝑋1𝑖 ∑ 𝑋1𝑖 ∑ 𝑋1𝑖 𝑋2𝑖 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 ∑ 𝑋2𝑖 𝑋1𝑖 ∑ 𝑋2𝑖 𝑖=1 𝑖=1 𝑖=1 𝑛 𝑛 ∑ 𝑋𝑘𝑖 [ 𝑖=1 … 𝑛 … ∑ 𝑋𝑘𝑖 𝑖=1 𝑛 … ∑ 𝑋1𝑖 𝑋𝑘𝑖 𝑖=1 𝑛 ∑ 𝑋2𝑖 … 𝑛 … ∑ 𝑋𝑘𝑖 𝑋1𝑖 ∑ 𝑋𝑘𝑖 𝑋2𝑖 𝑖=1 𝑖=1 … … … ∑ 𝑋2𝑖 𝑋𝑘𝑖 𝑖=1 𝑛 … ∑ 𝑋𝑘𝑖 𝑖=1 ] Kết quả: Các hệ số hồi quy ước lượng theo công thức (2.10) 11 Hệ số xác định r định nghĩa tỷ lệ (%) biến động biến phụ thuộc Y giải thích biến độc lập Xk 𝑟2 = - 𝑅𝑆𝑆 𝑇𝑆𝑆 = 𝐸𝑆𝑆 𝑇𝑆𝑆 (0 ≤ 𝑟 ≤ 1) Hệ số tương quan r nói lên mối tương quan biến phụ thuộc Y biến độc lập Xk 𝑟 = √𝑟 (−1 ≤ 𝑟 ≤ 1) Hệ số xác định điều chỉnh 𝑟̅̅̅2 để xác định có nên thêm biến độc lập vào vào mơ hình hay khơng Thường giá trị ̅̅̅ 𝑟 có khác biệt so với Chúng ta định thêm biến độc lập vào mơ hình ̅̅̅ 𝑟 tăng lên tăng biến 𝑛−1 ̅̅̅ 𝑟 = − (1 − 𝑟 )(𝑛−𝑘) Trong đó: k số biến độc lập đưa vào mơ hình Ví dụ: Ta có số liệu quan sát mẫu nêu Bảng 2.1 i X1 X2 Y 20 18 19 18 17 6 17 16 15 13 10 12 Bảng 2.1 Số liệu theo dõi liệu bán hàng Trong đó: - Y số lượng hàng bán loại hàng (tấn/tháng) - X1 thu nhập người tiêu dùng (triệu đồng/năm) - X2 giá bán loại hàng (ngàn đồng/kg) Cần tìm hàm hồi quy: 𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑋1 + 𝛽̂2 𝑋2 Lời giải: Ta tính được: 39980 −3816 −3256 165 [−3816 376 300 ] 𝑋 𝑇 𝑌 = [1029] −3256 300 280 813 14.99 39980 −3816 −3256 165 => 𝛽̂ = [−3816 376 300 ] [1029] = [ 0.76 ] 1528 −0.59 −3256 300 280 813 (𝑋 𝑇 𝑋)−1 = 1528 Vậy hàm hồi quy cần tìm là: 𝑌̂ = 14.99 + 0.76𝑋1 − 0.59𝑋2 Khi ta có: i Y ̂ Y 20 19.89 18 18.54 19 18.71 18 18.71 17 16.6 17 16.6 16 15.25 15 14.66 13 13.31 10 12 12.55 12 RSS = 2.2886 ESS = 56.1686 TSS = 58.5 𝑟̅̅̅2 = 0.955165 r = 0.960147 r = 0.979871 Vậy, với hàm hồi quy tìm được, biến động số lượng hàng bán giải thích theo thu nhập người dùng giá bán sản phẩm với tỷ lệ 96% Đồng thời, số lượng hàng bán có tương quan chặt chẽ với thu nhập người dùng giá bán sản phẩm 2.2 Cơng cụ hỗ trợ xây dựng mơ hình hồi quy tuyến tính WEKA 2.2.1 Giới thiệu WEKA WEKA (Waikato Environment for Knowledge Analysis) phần mềm khai phá liệu mã nguồn mở phát triển Đại học Waikato New Zealand WEKA tên lồi chim có đảo New Zealand WEKA xây dựng ngôn ngữ Java với mục tiêu xây dựng công cụ đại phát triển kỹ thuật học máy ứng dụng vào toán khai phá liệu thực tế WEKA chia sẻ rộng rãi website http://www.cs.waikato.ac.nz/~ml/weka/index.html Weka cung cấp đầy đủ phiên cho hệ điều hành Windows, Mac OS X, Linux Lưu ý, máy tính cần phải phiên Java cần thiết để để chạy phiên Weka cụ thể Với Weka 3.8 tại, máy tính cần cài đặt phiên Java 1.7 trở lên WEKA xây dựng với 600 lớp, tổ chức thành 10 packages, package thực nhiệm vụ trình khai phá liệu Giao diện đồ họa người sử dụng GUI WEKA phát triển theo hướng trực quan dễ sử dụng a Giao diện b Giao diện chức “Explorer” Hình 2.3 Một số hình ảnh giao diện đồ họa người sử dụng WEKA 13 2.2.2 Các chức WEKA WEKA cung cấp mơi trường làm việc nhằm hỗ trợ người sử dụng hai chức khai phá liệu thực nghiệm, đánh giá mơ hình học máy Cụ thể: - Explorer: Môi trường cho phép tiến hành khai phá liệu - Experimenter: Môi trường cho phép thực nghiệm (Setup, Run), so sánh, phân tích (Analyse) mơ hình học máy - KnowledgeFlow: Môi trường hỗ trợ tính giống Explorer với giao diện kéo thả để hỗ trợ học tập gia tăng - Simple CLI: Cung cấp giao diện dòng lệnh đơn giản cho phép thực thi trực tiếp lệnh WEKA cho hệ điều hành không cung cấp giao diện dòng lệnh riêng - Workbench: Mơi trường kết hợp môi trường nêu trên, người sử dụng tùy ý chuyển đổi mà không cần phải quay lại cửa sổ “Weka GUI Chooser” 2.2.3 Xây dựng mơ hình hồi quy tuyến tính với WEKA Để xây dựng mơ hình hồi quy tuyến tính với WEKA, người sử dụng cần lựa chọn Explorer với tính Preprocess, Classify Select attributes Q trình xây dựng mơ hình theo 03 bước: Tiền xử lý liệu, lựa chọn thuộc tính, xây dựng đánh giá mơ hình Hình 2.4 Các bước xây dựng mơ hình hồi quy tuyến tính với WEKA Trước tiên, để tiền xử lý liệu, người sử dụng cần chọn tính Preprocess Explorer Tính Preprocess cho phép người sử dụng lựa chọn chỉnh sửa tập liệu sử dụng để khai phá Weka tiếp nhận liệu từ tập liệu, từ địa URL từ sở liệu SQL (thông qua JDBC) Dữ liệu đầu vào Weka định dạng chuẩn ARFF với phần mở rộng “*.arff” Tuy nhiên, Weka cung cấp chuyển đổi liệu từ định dạng “*.csv”, “*.names”, “.data”, “*.json”, “*.libsvm”, “*.m”, “*.dat”, “*.bsi” sang dạng “*.arff” Ngồi ra, người dùng bổ sung định dạng khác thêm chuyển đổi tập tin vào package “weka.core.converters” Người sử dụng cần mở tập tin liệu ban đầu, tùy chỉnh liệu lưu lại với định dạng “*.arff” Sau tiền xử lý liệu, người sử dụng cần lựa chọn thuộc tính quan trọng, cần thiết để xây dựng mơ hình hồi quy tuyến tính Tập liệu có nhiều thuộc tính để mơ tả đầy đủ khía cạnh liệu, nhiên khơng 14 phải tất thuộc tính đề phù hợp để xây dựng mơ hình hồi quy tuyến tính Nói cách khác, việc lựa chọn thuộc tính lựa chọn tập hợp biến quy để xây dựng mơ hình WEKA cung cấp tính Select attributes Explorer để hỗ trợ người sử dụng lựa chọn thuộc tính xây dựng mơ hình hồi quy tuyến tính Tính Select attributes có nhiệm vụ tìm tập thuộc tính tập liệu để xây dựng mơ hình tin cậy Người sử dụng cần thiết lập bốn đối tượng cụ thể sau: - Lựa chọn thuộc tính dự đốn (biến phụ thuộc): Sử dụng dropdown liệt kê tập thuộc tính tập liệu Hình 2.5 Lựa chọn thuộc tính dự đốn - Bộ đánh giá thuộc tính (Attribute Evaluator): Để đánh giá tập thuộc tính tập liệu WEKA cung cấp phương pháp đánh giá thuộc tính - Phương thức tìm kiếm (Search Method): Để xác định phương pháp tìm kiếm thực WEKA cung cấp phương thức tìm kiếm - Chế độ lựa chọn thuộc tính (Attribute Selection Mode): Xác định chế độ lựa chọn thuộc tính sử dụng tập huấn luyện đầy đủ tiến hành xác nhận chéo Để xây dựng mơ hình hồi quy tuyến tính, người sử dụng cần lựa chọn sử dụng tập huấn luyện đầy đủ Sau cùng, để xây dựng đánh giá mơ hình, WEKA hỗ trợ người sử dụng thơng qua tính Classify Explorer Người sử dụng cần thiết lập ba đối tượng cụ thể sau: - Bộ phân lớp (Classifer): Lựa chọn functions/LinearRegression Việc xây dựng mơ hình hồi quy tuyến tính WEKA thực sở phương pháp bình phương tối thiểu Có thể thực lựa chọn thuộc tính phương 15 thức tham lam sử dụng loại bỏ lạc hậu xây dựng mơ hình đầy đủ từ tất thuộc tính loại bỏ dần thuộc tính đạt tiêu chí chấm dứt AIC Ngồi ra, việc xây dựng mơ hình thực với chế phát thuộc tính đa cộng tuyến chế ổn định trường hợp thối hóa, giảm tình trạng q tải thơng cách xử phạt hệ số lớn Tiêu chuẩn thông tin Akaike (AIC) Nhà thống kê Akaike Hirotsugu người Nhật phù hợp mơ hình Mơ hình có tiêu chuẩn nhỏ độ thích hợp liệu mơ hình cao AIC tiêu chuẩn sử dụng phổ biến phân tích chuổi thời gian tính theo công thức: 𝐸𝑆𝑆 (2𝑘⁄𝑛) 𝐴𝐼𝐶 = ( )𝑒 𝑛 - Các tùy chọn kiểm thử (Test options): Tùy chọn phương pháp kiểm thử WEKA cung cấp phương pháp, gồm: Use training set, Supplied test set, Cross-validation, Percentage split - Lựa chọn thuộc tính dự đốn (biến phụ thuộc) 16 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Phát biểu toán Tác giả tiến hành thu thập liệu kinh doanh mặt hàng máy tính xách tay Công ty Cổ phần thương mại Nguyễn Kim, xây dựng mơ hình hồi quy tuyến tính tập liệu thu thập để dự báo giá bán sản phẩm Quá trình thực nghiệm tiến thành gồm 04 bước: Thu thập liệu, tiền xử lý liệu, lựa chọn thuộc tính xây dựng mơ hình Trong đó, liệu đầu vào q trình thực nghiệm thông tin mặt hàng máy tính xách tay cung cấp trang thơng tin điện tử Công ty Cổ phần thương mại Nguyễn Kim Dữ liệu đầu mơ hình hồi quy tuyến tính với biến phục thuộc giá bán mặt hàng máy tính xách tay, biến độc lập thơng tin cấu hình, nhà cung cấp sản phẩm,… 3.2 Tiến hành xây dựng mơ hình 3.2.1 Thu thập liệu Dữ liệu thu thập website thương mại điện tử Công ty cổ phân thương mại Nguyễn Kim với địa http://www.nguyenkim.com/may-tinhxach-tay Dữ liệu thu thập với thơng tin tên sản phẩm, vi xử lý (CPU Central Processing Unit), ram, card hình, loại hình giá thành sản phẩm Website thương mại điện tử Công ty cổ phân thương mại Nguyễn Kim thiết kế tảng HTML Jsoup lựa chọn để phân tích khai thác liệu từ tài liệu HTML Nó thư viện Java cung cấp API để phân tích tài liệu HTML thành danh sách phần tử khai thác liệu phần tử Người sử dụng tải trực tiếp thư viện Jsoup dạng tập tin “jar” địa https://jsoup.org/download Jsoup phân tích tài liệu HTML thành mơ hình DOM Người sử dụng cần hiễu rõ bố cục tài liệu HTML để truy cập xác đến phần tử cụ thể danh sách a Tập tin Dom.html b Mơ hình DOM tập tin Dom.html Hình 3.1 Mơ hình DOM tập tin HTML đơn giản 17 Jsoup bao gồm nhiều lớp đối tượng, ba lớp đối tượng quan trọng org.jsoup.Jsoup, org.jsoup.nodes.Document org.jsoup.nodes.Element Người sử dụng tìm hiểu cụ thể website https://jsoup.org Dữ liệu kinh doanh mặt hàng máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim thu thập với thuộc tính tiêu biểu sau: TT 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 Tên thuộc tính NgayTT NhaPP NhaCC TenSP Gia CPU_NhaCC CPU_TocDo CPU_Dem Ram_Loai Ram_DL Ram_Bus HDD_Loai HDD_DL Card_Loai Card_DL MH_Loai MH_KT MH_DPG Khuôn dạng liệu 4/4/2016 Nguyen Kim Asus, Lenovo,… E402SA WX043D 5.300.000 Intel Celeron 1.60 GHz, 800 MHz MB Cache SDRAM DDR3 GB 1600 MHz SATA, SDD 500 GB, TB Intel HD, GT 820M 2GB, Share LED HD, Full HD 14.0 inch, 15.6 inch 1366 x 768 Pixels Mô tả Ngày liệu thu thập Nhà phân phối sản phẩm Nhà cung cấp sản phẩm Tên sản phẩm Giá bán sản phẩm Tên nhà cung cấp CPU Tốc độ CPU Dung lượng nhớ đệm CPU Loại Ram Dung lượng Ram Tốc độ bus Ram Loại ổ cứng Dung lượng ổ cứng Loại card hình Dung lượng card hình Loại hình Kích thước hình Độ phân giải hình Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Quá trình thu thập liệu thực liên tục để theo dõi thay đổi giá bán dòng sản phẩm máy tính xác tay theo thuộc tính thu thập Cụ thể, với khoảng thời gian từ 04/4/2016 đến 19/7/2016, tập liệu thu thập định dạng “.csv” có 5.527 dòng liệu với 327 dòng sản phẩm 06 nhà cung cấp, 16 lần thu thập liệu 1.34MB dung lượng liệu 3.2.2 Tiền xử lý liệu Như trình bày Chương 2, liệu thu thập cần phải tiền xử lý trước đưa vào xây dựng mơ hình Ở đây, việc tiền xử lý liệu tiến hành theo 02 giai đoạn: - Giai đoạn 1: Người sử dụng cần loại bỏ liệu dư thừa chuẩn hóa khn dạng liệu để WEKA đọc tập tin liệu “.csv” Cụ thể: Tên thuộc tính ban đầu NgayTT Gia Khn dạng liệu ban đầu 4/4/2016 5.300.000 Tên thuộc tính NgayTT Gia Khn dạng liệu 2016-04-04 12:00:00 5300000 18 CPU_NhaCC CPU_TocDo CPU_Dem Ram_DL Ram_Bus HDD_Loai HDD_DL Card_DL MH_KT MH_DPG Intel Celeron 1.60 GHz, 800 MHz MB Cache GB 1600 MHz SATA, SDD, SATA + SDD 500 GB, TB, TB + 128 GB CPU_NhaCC CPU_TocDo Intel Celeron 1.60, 0.8 1, 2, 3,… 2, 4,… 1600, 1333,… SATA để trống SDD để trống 0, 500, 1024 0, 128 1, 2, 4, 2GB, Share “0” với card share 14.0 inch, 15.6 inch MH_KT 14.0, 15.6 MH_DPG_W 1280, 1366, … MH_DPG_H 768, 800,… 1366 x 768 Pixels MH_DPG_S = MH_DPG_W * MH_DPG_H Tất giá trị chưa xác định biểu diễn “?” CPU_Dem Ram_DL Ram_Bus HDD SDD HDD_DL SDD_DL Card_DL Bảng 3.2 Danh sách thuộc tính tiền xử lý Kết thúc giai đoạn 1, tập tin liệu có 862KB dung lượng - Giai đoạn 2: Người sử dụng cần mở tập tin liệu WEKA tiến hành lọc liệu để loại bỏ ghi giống xử giá trị thiếu (missing value) Để loại bỏ ghi giống nhau, người sử dụng cần sử dụng lọc Unsupervised/Instance/RemoveDuplicates Sau lọc liệu lần thứ nhất, tập tin liệu 5.099 dòng liệu 869KB dung lượng a Lựa chọn lọc liệu b Dữ liệu qua xử lý lọc Hình 3.2 Loại bỏ ghi giống tập tin liệu Để xử lý giá trị thiếu, người sử dụng cần sử dụng lọc Unsupervised/Attribute/RepalceMissingValue để thay giá trị thiếu dựa 19 giá trị biết tập liệu huấn luyện Sau lọc liệu lần thứ hai, tập tin liệu có 880KB dung lượng a Lựa chọn lọc liệu b Dữ liệu qua xử lý lọc Hình 3.3 Xử lý giá trị thiếu tập liệu Cuối cùng, để hoàn tất việc tiền xử lý liệu, người sử dụng cần lưu lại tập liệu với định dạng “*.arff” 3.2.3 Lựa chọn thuộc tính Lựa chọn thuộc tính bước đóng vai trò quan trọng q trình xây dựng mơ hình Tập tin liệu thu thập sau tiền xử lý có 21 thuộc tính, thuộc tính “Gia” xác định thuộc tính dự báo hay biến phụ thuộc mơ hình hồi quy tuyến tính Người sử dụng cần sử dụng tính Select attributes Explorer để lựa chọn thuộc tính độc lập xây dựng mơ hình số 20 thuộc tính lại Phương thức tìm kiếm tập thuộc tính lựa chọn thơng qua phương pháp BestFirst Tập thuộc tính ban đầu chưa có thuộc tính lựa chọn 20 Tìm kiếm tập thuộc tính chế leo đồi tham lam kết hợp với chế quay lui Phương thức đánh giá thuộc tính CfsSubsetEval lựa chọn để tìm tập thuộc tính có độ tương quan chặt chẽ với thuộc tính “Gia” dự đốn Kết 10 thuộc tính lựa chọn, bao gồm: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W 3.2.4 Xây dựng đánh giá mơ hình Để xây dựng mơ hình hồi quy tuyến tính, người sử dụng cần lựa tính Classify Explorer thiết lập đối tượng sau: - Bộ phân lớp: Lựa chọn functions/LinearRegression Ngoài ra, người sử dụng cần thiết lập thêm tùy chọn outputAdditionalStats = True để có thêm thơng tin kết mơ hình xây dựng - Các tùy chọn kiểm thử: Tiến hành kiểm thử xây dựng mơ hình hồi quy tuyến tính 03 lần, lần lựa chọn 03 tùy chọn Use training set, Supplied test set Percentage split Trong đó: + Use training set: Sử dụng tập tin liệu đầu vào + Supplied test set: Chia tập tin liệu đầu vào thành 02 phần: Phần gồm liệu 15 lần thu thập để huấn luyện (4742 dòng liệu ≈ 93% liệu), phần gồm liệu lần thu thập cuối (357 dòng liệu ≈ 7% liệu) để kiểm thử + Percentage split: Chia tập tin liệu đầu vào thành phần: Phần có 66% liệu để huấn luyện, phần có 34% liệu lại để kiểm thử - Lựa chọn thuộc tính dự đốn: (Num) Giá Kết thu được: Kiểm thử Use training set Degrees of freedom R^2 value Adjusted R^2 Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 5035 0.9655 0.9651 0.9826 837.146.4483 1.138.025.3298 20.6454 % 18.5656 % 5099 Kiểm thử Supplied test set 4676 0.9645 0.96403 0.987 879.776.3325 1.158.829.3494 19.2251 % 16.1924 % 357 Kiểm thử Percentage split 5035 0.9655 0.9651 0.9828 838.952.2489 1.125.783.6627 20.9419 % 18.5856 % 1734 Bảng 3.3 Kết kiểm thử mơ hình Đánh giá mơ hình: Kết kiểm thử mơ hình hồi quy tuyến tính xây dựng WEKA tập tin liệu đầu vào chấp nhận Cụ thể sau: 21 - Hệ số xác định r qua 03 lần kiểm thử đạt giá trị lớn 0.96 cho thấy 96% thay đổi biến phụ thuộc “Gia” giải thích tập biến độc lập lựa chọn - Từ hệ số xác định r2 tính hệ số tương quan qua 03 lần kiểm thử đạt giá trị lớn 0.98 cho thấy biến phụ thuộc “Gia” có mối tương quan chặt chẽ với tập biến độc lập lựa chọn Tuy nhiên, cần phải thêm biến độc lập chưa lựa chọn vào mơ hình để khảo sát phù hợp mơ hình xây dựng Q trình thêm biến độc lập thực qua 05 lần, cụ thể sau: - Lần thứ 1: Thêm biến độc lập “HDD_DL” - Lần thứ 2: Thêm biến độc lập “Ram_Bus” - Lần thứ 3: Thêm biến độc lập “MH_KT” - Lần thứ 4: Thêm biến độc lập “Ram_Loai” - Lần thứ 5: Thêm biến độc lập “CPU_TocDo” Kết thu sau: Bảng 3.4 Kết q trình thêm biến độc lập vào mơ hình Qua 05 lần thêm biến độc lập vào mơ hình, hệ số mơ hình cải thiện Trong đó: - Hệ số xác định điều chỉnh ̅̅̅ 𝑟 (Adjusted R^2) tăng 04 lần khảo sát đầu từ 0.9651 lên 0.96679 - Sai số trung bình tuyệt đối (Mean absolute error) giảm qua 04 lần khảo sát đầu từ 837,416 xuống 809,546 Tổng kết: Thêm biến độc lập Ram_Bus, Ram_Loai, HDD_DL, MH_KT vào mô hình cần thiết Vậy, mơ hình hồi quy tuyến tính thiết lập với 15 biến, gồm: - Biến phụ thuộc: Gia - Biến độc lập: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W 22 3.3 Tính tốn thử nghiệm độ xác dự báo Sau xây dựng mơ hình hồi quy tuyến tính, WEKA hỗ trợ người sử dụng khảo sát độ xác dự báo thơng qua việc so sánh giá sản phẩm thực tế giá sản phẩm dự đốn mơ hình hồi quy tuyến tính Q trình khảo sát hỗ trợ thơng qua tính đồ thị hóa sai số mơ hình hồi quy tuyến tính Hình 3.5 Mơ hình hóa sai số mơ hình Ngồi ra, WEKA hỗ trợ trích xuất kết dự báo mơ hình thành tập tin liệu kết với định dạng “arff” Tuy nhiên, để thuận tiện cho việc đánh giá khảo sát, người sử dụng mở tập tin liệu kết định dạng “arff” WEKA lưu lại định dạng “csv” b Tập tin “csv” mở Excel a Tập tin “arff” mở WEKA Hình 3.6 Tập tin liệu kết 23 Qua khảo sát tập tin liệu kết quả, thu số thông tin sau: - Sai số lớn nhất: 9.623.216đ 01 dòng liệu 2406 NhaCC Dell predictedGia 28,366,783.67 Gia 37,990,000.00 Error -9,623,216.33 CPU_NhaCC 'Intel Core i7' - Sai số nhỏ nhất: 0đ với giá thực tế 03 dòng liệu 4743 5015 5099 NhaCC HP Lenovo HP predictedGia 42,990,000.00 15,990,000.00 42,990,000.00 Gia 42,990,000.00 15,990,000.00 42,990,000.00 Error 0.00 0.00 0.00 CPU_NhaCC 'Intel Core i7' 'Intel Core i5' 'Intel Core i7' - Sai số nhỏ 500.000đ: có 2060/5099 dòng liệu chiếm 40,4% - Sai số lớn 2.000.000đ: có 374/5099 dòng liệu chiếm 7,3% 24 Chương KẾT LUẬN Việc ứng dụng phân tích liệu vào cơng tác dự báo hướng nghiên cứu có nhiều triển vọng, áp dụng cho nhiều lĩnh vực đời sống xã hội Nó hỗ trợ, hoạch đĩnh chiến lược hay kế hoạch đầu tư phát triển hợp lý Bên cạnh đó, với phát triển không ngừng Ngành công nghệ thơng tin, cơng cụ hỗ trợ phân tích liệu ngày phong phú hỗ trợ đắc lực người công tác dự báo Thông qua trình nghiên cứu mơ hình hồi quy tuyến tính công cụ hỗ trợ WEKA, luận văn tiến hành giải tốn thực tế cơng tác dự báo Cụ thể, luận văn sâu nghiên cứu làm rõ nội dung sau: - Đưa sở lý thuyết mơ hình hồi quy tuyến tính ứng dụng việc phân tích liệu để tiến hành dự báo - Tìm hiểu, nghiên cứu công cụ hỗ trợ WEKA việc xây dựng mô hình hồi quy tuyến tính để tiến hành dự báo - Sử dụng công cụ hỗ trợ WEKA để giải tốn thực tế phân tích liệu bán hàng dự báo giá bán sản phẩm máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim Luận văn cho thấy hữu ích việc phân tích liệu để áp dụng, giải toán thực tế Tuy nhiên, số nguyên nhân khách quan chủ quan, luận văn tồn số hạn chế sau: - Dữ liệu thu thập đơn vị dẫn đến công tác dự bảo dừng lại phạm vi cục - Chưa tìm hiểu hết tất tính cơng cụ hỗ trợ WEKA để giải toàn thực tế Để khắc phục hạn chế nêu trên, thời gian tới, luận văn tiếp tục nghiên cứu mở rộng phạm vi thu thập liệu, tìm hiểu rõ cơng cụ hỗ trợ WEKA công cụ hỗ trợ khác để tiến hành dự báo có tính khái qt xác 25 TÀI LIỆU THAM KHẢO Tiếng Việt Trần Ngọc Minh (2006), Kinh tế lượng, Học viện Cơng nghệ Bưu - Viễn thơng, Hà Nội https://websrv1.ctu.edu.vn/coursewares/kinhte/phantichdulieu/chuong6 htm Tiếng Anh Ramu Ramanathan Applications (2002), Introductory Econometrics with Ian H Witten, Eibe Frank, Mark A Hall (2011), Data Mining Practical Machine Learning Tools and Techniques https://www.ibm.com/developerworks/vn/library/12/ba-predictiveanalytics1/ ... 1.2 Lựa chọn miền ứng dụng Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụng phân tích liệu vào lĩnh vực kinh doanh Dữ liệu bán hàng công ty điện máy khối liệu đồ sộ với đa... Phân tích liệu chìa khóa giúp giải vấn đề nêu Vậy phân tích liệu gì? Phân tích liệu ứng dụng thực tiễn kỹ thuật khai phá liệu Phân tích liệu q trình trích xuất thơng tin hữu ích từ tập liệu cung... lý liệu bán máy tính xách tay; sử dụng cơng cụ Weka xây dựng mơ hình hồi quy tuyến tính để dự báo giá 4 - Phương pháp phân tích, tổng kết kinh nghiệm: Nghiên cứu, phân tích đánh giá mơ hình xây