Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
2,68 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH HOÀI ANH NGHIÊN CỨU VÀ XÂY DỰNG ỨNG DỤNG PHÂN TÍCH DỮ LIỆU KINH DOANH THIẾT BỊ ĐIỆN TỬ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Hải Châu Hà Nội - 2017 MỤC LỤC Lời cam đoan Danh mục ký hiệu chữ viết tắt Danh mục hình vẽ đồ thị Danh mục bảng MỞ ĐẦU CHƯƠNG ĐẶT VẤN ĐỀ 10 1.1 Bài tốn phân tích liệu 10 1.2 Lựa chọn miền ứng dụng 11 1.3 Phương pháp công cụ 11 1.3.1 Lựa chọn phương pháp 11 1.3.2 Lựa chọn công cụ 12 CHƯƠNG MƠ HÌNH HỒI QUY TUYẾN TÍNH VÀ CƠNG CỤ HỖ TRỢ WEKA 13 2.1 Mơ hình hồi quy tuyến tính 13 2.1.1 Lý thuyết mơ hình hồi quy 13 2.1.2 Mô hình hồi quy tuyến tính 14 2.1.3 Phương pháp bình phương tối thiểu để ước lượng tham số mơ hình hồi quy tuyến tính 16 2.1.4 Ứng dụng mơ hình hồi quy tuyến tính vào phân tích liệu 19 2.2 Cơng cụ hỗ trợ xây dựng mơ hình hồi quy tuyến tính WEKA 23 2.2.1 Giới thiệu WEKA 23 2.2.2 Các chức WEKA 24 2.2.3 Xây dựng mơ hình hồi quy tuyến tính với WEKA 25 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 30 3.1 Phát biểu toán thực tế 30 3.2 Tiến hành xây dựng mơ hình 31 3.2.1 Thu thập liệu 31 3.2.2 Tiền xử lý liệu 33 3.2.3 Lựa chọn thuộc tính 36 3.2.4 Xây dựng đánh giá mô hình 37 3.3 Tính tốn thử nghiệm độ xác dự báo 40 CHƯƠNG KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 43 LỜI CAM ĐOAN Tôi xin cam đoan luận văn tơi thực hiện, hồn thành sở tìm kiếm, thu thập, nghiên cứu, tổng hợp phần lý thuyết phương pháp kĩ thuật trình bày tài liệu cơng bố nước giới Các tài liệu tham khảo nêu phần cuối luận văn Luận văn không chép nguyên từ nguồn tài liệu khác Nếu có sai sót, tơi xin chịu trách nhiệm Học viên Ninh Hoài Anh DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Ký hiệu Tiếng Anh Giải thích theo tiếng Việt 01 ARFF Attribute - relation file format 02 CDA Confirmatory data analysis Phân tích liệu khẳng định 03 CPU Central Processing Unit Bộ vi xử lý trung tâm 04 DOM Document Object Model Mơ hình đối tượng tài liệu 05 EDA Exploratory data analysis Phân tích liệu thăm dò 06 ESS Explained sum of squares Tổng bình phương hồi quy 07 HTML Hypertext markup language Ngôn ngữ đánh dấu siêu văn 08 OLS Ordinarry least square Phương pháp bình phương tối thiểu 09 PRF Popolartion regression function Hàm hồi quy tổng thể 10 RSS Residual sum of squares Tổng bình phương sai số 11 SRF Sample regression function Hàm hồi quy mẫu 12 TSS Total sum of squares Định dạng tập tin thuộc tính quan hệ Tổng bình phương tồn phần DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Các bước q trình phân tích liệu Hình 2.1 Sai số ei Yi ̂ Hình 2.2 Mối quan hệ TSS, ESS RSS Hình 2.3 Một số hình ảnh giao diện đồ họa người sử dụng WEKA Hình 2.4 Các bước xây dựng mơ hình hồi quy tuyến tính với WEKA Hình 2.5 Lựa chọn thuộc tính dự đốn Hình 3.1 Các thực nghiệm xây dựng mơ hình hồi quy tuyến tính để dự báo Hình 3.2 Mơ hình DOM tập tin HTML đơn giản Hình 3.3 Q trình khai thác thơng tin sản phẩm Hình 3.4 Quá trình tiền xử lý liệu giai đoạn Hình 3.5 Loại bỏ ghi giống tập tin liệu Hình 3.6 Xử lý giá trị thiếu tập liệu Hình 3.7 Thiết lập bổ sung thơng tin liệu đầu Hình 3.8 Mơ hình hóa sai số mơ hình Hình 3.9 Tập tin liệu kết DANH MỤC CÁC BẢNG Bảng 2.1 Số liệu theo dõi liệu bán hàng Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Bảng 3.2 Danh sách thuộc tính tiền xử lý Bảng 3.3 Kết kiểm thử mơ hình Bảng 3.4 Kết thêm biến độc lập vào mơ hình MỞ ĐẦU Ngày nay, gắn liền với phát triển Internet, mạng xã hội thiết bị di động gia tăng liệu khơng ngừng tồn cầu Dữ liệu sinh phút, giây, có khắp nơi chúng cho ta thấy nhiều điều Tuy nhiên, làm để liệu trở nên có ý nghĩa lại trở thành vấn đề không nhỏ cá nhân, tổ chức sở hữu khối liệu Trên thực tế, nhiều doanh nghiệp chưa trang bị, ứng dụng hệ thống công nghệ thông tin cần thiết giúp khai thác liệu hiệu quả, từ đưa định sáng suốt dựa phân tích có chất lượng thay dựa trực giác hay kinh nghiệm khứ Với quy mô liệu đa dạng, phong phú, liệu phản ánh thơng tin từ nhiều khía cạnh đời sống xã hội đại Ví dụ, vị trí địa lý liệu hóa, kinh độ, vĩ độ gần thông qua hệ thống định vị toàn cầu GPS (Global positioning system) Những sách, tài liệu giấy số hóa thành ebook, file tài liệu số với nhiều định dạnh pdf, txt, rtf Kể mối quan hệ bạn bè, ưa thích “like” liệu hóa qua mạng xã hội Facebook, Zalo,… Những loại liệu sử dụng để phân tích nhờ vào giúp đỡ máy tính với chi phí thấp, phép tốn thơng minh, dựa kiến thức toán học vay mượn từ kiến thức thống kê Thay dạy cho máy tính lái xe phiên dịch ngơn ngữ, cung cấp đủ liệu để máy tính tính tốn xác suất tất thứ mà muốn tính tốn Phân tích liệu (Data analysis) khoa học khám phá liệu thô nhằm rút kết luận từ liệu Phân tích liệu sử dụng nhiều ngành công nghiệp để hỗ trợ công ty, tổ chức để đưa định kinh doanh tốt ngành khoa học để xác nhận hay bác bỏ mơ hình, lý thuyết có Q trình phân tích liệu bao gồm bước kiểm định, làm sạch, chuyển đổi, mơ hình hóa phân tích liệu với mục đích tìm thơng tin hữu ích, cho thấy kết luận hỗ trợ định dựa liệu có Vấn đề nghiên cứu ứng dụng phân tích liệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứng dụng rộng rãi, lĩnh vực kinh doanh thương mại Trên sở nghiên cứu có, luận văn tập trung vào mục tiêu vấn đề cần giải sau: Mục tiêu phạm vi nghiên cứu: Luận văn tập trung nghiên cứu mơ hình hồi quy tuyến tính, phương pháp sử dụng mơ hình hồi quy tuyến tính phân tích liệu, tìm hiểu cơng cụ hỗ trợ phân tích liệu Weka Mục tiêu luận văn dựa cơng cụ WEKA xây dựng mơ hình hồi quy tuyến tính dự đốn giá mặt hàng máy tính xách tay thị trường Việt Nam thơng qua việc phân tích liệu bán hàng Cơng ty cổ phần thương mại Nguyễn Kim Từ đó, hỗ trợ doanh nghiệp, nhà phân phối máy tính xách tay đưa giá bán cạnh tranh thị trường Bên cạnh đó, giúp người tiêu dùng ước lượng chi phí để mua máy tính xách tay phù hợp với nhu cầu thân Phương pháp nghiên cứu: Trong phạm vi luận văn này, sử dụng 03 phương pháp nghiên cứu khoa học để tiếp cận làm rõ vấn đề đề tài mà lựa chọn Đó phương pháp nghiên cứu sau: - Phương pháp phân tích tổng hợp lý thuyết: Nghiên cứu tài liệu khác mơ hình hồi quy tuyến tính, phân tích liệu cơng cụ WEKA; phân tích để tìm hiểu sâu sắc vấn đề tổng hợp để có nhìn tổng quan, đầy đủ vấn đề cần tìm hiểu - Phương pháp thực nghiệm khoa học: Chủ động tiến hành thu thập, xử lý liệu bán máy tính xách tay; sử dụng cơng cụ WEKA xây dựng mơ hình hồi quy tuyến tính để dự báo giá - Phương pháp phân tích, tổng kết kinh nghiệm: Nghiên cứu, phân tích đánh giá mơ hình xây dựng để bước xây dựng mơ hình phù hợp với độ tin cậy, xác cao Bố cục luận văn: Luận văn trình bày với bố cục gồm 04 chương với nội dung sau: Chương - Đặt vấn đề: Phát biểu toán, lựa chọn miền ứng dụng giới thiệu phương pháp cơng cụ để giải tốn Chương - Mơ hình hồi quy tuyến tính cơng cụ hỗ trợ WEKA: Trình bày sở lý thuyết mơ hình hồi quy, vào cụ thể với mơ hình hồi quy tuyến tính Đồng thời, giới thiệu cơng cụ WEKA, xây dựng mơ hình hồi quy tuyến tính với hỗ trợ WEKA Chương - Thực nghiệm đánh giá kết quả: Sử dụng công cụ WEKA để xây dựng mơ hình hồi quy tuyến tính dự báo giá bán máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim Tiến hành phân tích, xây dựng mơ hình đánh giá kết thu Chương - Kết luận: Trình bày kết đạt luận văn định hướng phát triển tương lai 10 Chương ĐẶT VẤN ĐỀ 1.1 Bài tốn phân tích liệu Dữ liệu tạo giây, phút đời sống xã hội đại Chúng liệu web, liệu từ cảm biến, tệp lưu nhật ký, liệu cá nhân, liệu từ thiết bị thông minh,… Từ khối liệu mà tìm kiếm, khai thác trích xuất thơng tin hữu ích Làm để có thơng tin vấn đề đặt Phân tích liệu chìa khóa giúp giải vấn đề nêu Vậy phân tích liệu gì? Phân tích liệu ứng dụng thực tiễn kỹ thuật khai phá liệu (Data mining) Phân tích liệu q trình trích xuất thơng tin hữu ích từ tập liệu cung cấp Các bước q trình phân tích liệu bao gồm: Kiểm định (Inspecting), làm (Cleaning), chuyển đổi (Transforming), mơ hình hóa (Modeling) phân tích (Analysing) liệu nhằm mục đích tìm kiếm thơng tin, cho thấy kết luận, hỗ trợ đưa định Kiểm định Làm Chuyển đổi Mơ hình hóa Phân tích Hình 1.1 Các bước q trình phân tích liệu Trước có máy tính, nhiều phương pháp phân tích cho tập liệu nhỏ phát triển tập trung phân tích biến riêng lẻ Ngày nay, khả tính tốn máy tính phát triển vượt bậc, phân tích liệu phân tích đồng thời quan hệ nhiều biến Phân tích liệu chia thành phân tích liệu thăm dị EDA phân tích liệu khẳng định CDA Phân tích liệu thăm dị dùng liệu để xác định mối quan hệ biến độc lập với biến phụ thuộc hay xác định biến đưa vào mơ hình Phân tích liệu khẳng định sử dụng liệu để khẳng định giả thiết sai Hai phương pháp không tách rời mà ln để tìm thơng tin hữu ích từ tập liệu có Trước hết, sử dụng phương pháp EDA để xây dựng mơ hình phù hợp từ tập 29 Sau cùng, để xây dựng đánh giá mơ hình, WEKA hỗ trợ người sử dụng thơng qua tính Classify Explorer Người sử dụng cần thiết lập ba đối tượng cụ thể sau: - Bộ phân lớp (Classifer): Lựa chọn functions/LinearRegression Việc xây dựng mơ hình hồi quy tuyến tính WEKA thực sở phương pháp bình phương tối thiểu Có thể thực lựa chọn thuộc tính phương thức tham lam sử dụng loại bỏ lạc hậu xây dựng mơ hình đầy đủ từ tất thuộc tính loại bỏ dần thuộc tính đạt tiêu chí chấm dứt AIC Ngồi ra, việc xây dựng mơ hình thực với chế phát thuộc tính đa cộng tuyến chế ổn định trường hợp thối hóa, giảm tình trạng q tải thông cách xử phạt hệ số lớn Tiêu chuẩn thông tin Akaike (AIC) Nhà thống kê Akaike Hirotsugu người Nhật phù hợp mô hình Mơ hình có tiêu chuẩn nhỏ độ thích hợp liệu mơ hình cao AIC tiêu chuẩn sử dụng phổ biến phân tích chuổi thời gian tính theo cơng thức: =( ) (2 ⁄ ) - Các tùy chọn kiểm thử (Test options): Tùy chọn phương pháp kiểm thử WEKA cung cấp phương pháp, gồm: + Use training set: Sử dụng tập liệu mà phân loại huấn luyện + Supplied test set: Cung cấp tập liệu kiểm thử Người sử dụng lựa chọn tập liệu kiểm thử cách nháy vào nút “Set…” + Cross-validation: Tiến hành xác nhận chéo + Percentage split: Chia tập liệu thành phần, huấn luyện phần kiểm thử phần lại Phân chia tập liệu theo tỷ lệ phần trăm người sử dụng cài đặt - Lựa chọn thuộc tính dự đốn (biến phụ thuộc) 30 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Phát biểu toán thực tế Công ty Cổ phần thương mại Nguyễn Kim thương hiệu hàng đầu ngành bán lẻ điện tử tiêu dùng, đạt nhiều giải thưởng nước quốc tế, người tiêu dùng tin tưởng đánh giá cao Với uy tín thương hiệu Cơng ty, Nguyễn Kim thường xuyên giới thiệu hàng nghìn mặt hàng thiết bị điện tử tới người tiêu dùng thông qua trang thông tin điện tử https://www.nguyenkim.com Đây nguồn liệu kinh doanh thiết bị điện tử khổng lồ, hồn tồn khai thác để trích xuất thơng tin hữu ích Với mục đích nêu trên, tác giả tiến hành thu thập liệu kinh doanh mặt hàng máy tính xách tay Cơng ty Cổ phần thương mại Nguyễn Kim, xây dựng mơ hình hồi quy tuyến tính tập liệu thu thập để dự báo giá bán sản phẩm Quá trình thực nghiệm tiến thành gồm 04 bước: Hình 3.1 Các thực nghiệm xây dựng mơ hình hồi quy tuyến tính để dự báo Trong đó, liệu đầu vào q trình thực nghiệm thơng tin mặt hàng máy tính xách tay cung cấp trang thông tin điện tử Công ty Cổ phần thương mại Nguyễn Kim Dữ liệu đầu mơ hình hồi quy tuyến tính với biến phục thuộc giá bán mặt hàng máy tính xách tay, biến độc lập thơng tin cấu hình, nhà cung cấp sản phẩm,… Thơng qua mơ hình hồi quy tuyến tính xây dựng được, người sử dụng tính tốn giá bán mặt hàng máy tính xách tay có thay đổi cấu hình hay nhà cung cấp sản phẩm 31 3.2 Tiến hành xây dựng mơ hình 3.2.1 Thu thập liệu Điều kiện tiên để xây dựng mơ hình hồi quy tuyến tính cần phải thu thập tập liệu xác, đáng tin cậy thuộc tính nhận giá trị số Do đó, liệu kinh doanh mặt hàng máy tính xác tay cơng ty điện máy lựa chọn phù hợp với ưu điểm như: - Thuộc tính giá bán (biến phụ thuộc) phụ thuộc nhiều vào thông số kỹ thuật dòng sản phẩm (biến độc lập) mà thuộc tính nhận giá trị số - Dữ liệu bán hàng nhà phân phối cung cấp đầy đủ website thương mại điện tử Tuy nhiện, trình thu thập liệu gặp phải khơng khó khăn, điển hình là: - Thơng tin sản phẩm cung cấp cách không thống theo khuôn dạng định - Các website thương mại điện tử thiết kế để hạn chế gây khó khăn cho việc khai thác liệu Sau khảo sát thực tế, liệu thu thập website thương mại điện tử Công ty cổ phân thương mại Nguyễn Kim với địa http://www.nguyenkim.com/may-tinh-xach-tay Dữ liệu thu thập với thơng tin tên sản phẩm, vi xử lý CPU, ram, card hình, loại hình giá thành sản phẩm Website thương mại điện tử Công ty cổ phân thương mại Nguyễn Kim thiết kế tảng HTML Jsoup lựa chọn để phân tích khai thác liệu từ tài liệu HTML Nó thư viện Java cung cấp API để phân tích tài liệu HTML thành danh sách phần tử khai thác liệu phần tử Người sử dụng tải trực tiếp thư viện Jsoup dạng tập tin “jar” địa https://jsoup.org/download Jsoup phân tích tài liệu HTML thành mơ hình DOM Người sử dụng cần hiễu rõ bố cục tài liệu HTML để truy cập xác đến phần tử cụ thể danh sách 32 a Tập tin Dom.html b Mơ hình DOM tập tin Dom.html Hình 3.2 Mơ hình DOM tập tin HTML đơn giản Jsoup bao gồm nhiều lớp đối tượng, ba lớp đối tượng quan trọng org.jsoup.Jsoup, org.jsoup.nodes.Document org.jsoup.nodes.Element Người sử dụng tìm hiểu cụ thể website https://jsoup.org Dữ liệu kinh doanh mặt hàng máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim thu thập với thuộc tính tiêu biểu sau: TT 01 Tên thuộc tính NgayTT Khuôn dạng liệu 4/4/2016 Mô tả Ngày liệu thu thập 02 NhaPP Nguyen Kim Nhà phân phối sản phẩm 03 NhaCC Asus, Lenovo,… Nhà cung cấp sản phẩm 04 TenSP E402SA WX043D Tên sản phẩm 05 Gia 06 CPU_NhaCC 07 CPU_TocDo 08 CPU_Dem MB Cache 09 Ram_Loai SDRAM DDR3 10 Ram_DL GB 11 Ram_Bus 1600 MHz Tốc độ bus Ram 12 HDD_Loai SATA, SDD Loại ổ cứng 13 HDD_DL 500 GB, TB 14 Card_Loai 15 Card_DL 5.300.000 Giá bán sản phẩm Intel Celeron Tên nhà cung cấp CPU 1.60 GHz, 800 MHz Tốc độ CPU Dung lượng nhớ đệm CPU Loại Ram Dung lượng Ram Dung lượng ổ cứng Intel HD, GT 820M Loại card hình 2GB, Share Dung lượng card hình 33 16 MH_Loai 17 MH_KT 18 MH_DPG LED HD, Full HD Loại hình 14.0 inch, 15.6 inch Kích thước hình 1366 x 768 Pixels Độ phân giải hình Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Qua q trình khảo sát, chương trình thu thập liệu cài đặt sở ngơn ngữ lập trình Java có sử dụng thư viện Jsoup để khai thác thông tin mặt hàng máy tính xách tay thương mại điện tử Công ty Cổ phần thương mại Nguyễn Kim Hình 3.3 Q trình khai thác thơng tin sản phẩm Quá trình thu thập liệu thực liên tục để theo dõi thay đổi giá bán dòng sản phẩm máy tính xác tay theo thuộc tính thu thập Cụ thể, với khoảng thời gian từ 04/4/2016 đến 19/7/2016, tập liệu thu thập định dạng “.csv” với 18 thuộc tính có 5.527 dịng liệu với 327 dòng sản phẩm 06 nhà cung cấp, 16 lần thu thập liệu 3.2.2 Tiền xử lý liệu Như trình bày Chương 2, liệu thu thập cần phải tiền xử lý trước đưa vào xây dựng mơ hình Ở đây, việc tiền xử lý liệu tiến hành theo 02 giai đoạn: - Giai đoạn 1: Loại bỏ liệu dư thừa chuẩn hóa khn dạng liệu để WEKA đọc tập tin liệu “.csv” Cụ thể: 34 Tên thuộc tính ban đầu NgayTT Khn dạng liệu ban đầu 4/4/2016 Tên thuộc tính NgayTT Khn dạng liệu 2016-04-04 12:00:00 Gia 5.300.000 Gia 5300000 CPU_NhaCC Intel Celeron CPU_NhaCC Intel Celeron CPU_TocDo 1.60 GHz, 800 CPU_TocDo 1.60, 0.8 MHz CPU_Dem Ram_DL MB Cache GB CPU_Dem Ram_DL 1, 2, 3,… 2, 4,… Ram_Bus 1600 MHz Ram_Bus 1600, 1333,… HDD_Loai SATA, SDD, HDD SATA để trống SATA + SDD SDD SDD để trống 500 GB, TB, HDD_DL 0, 500, 1024 1TB+128GB SDD_DL 0, 128 2GB, Share Card_DL 1, 2, 4, HDD_DL Card_DL “0” với card share MH_KT 14.0 inch, 15.6 inch MH_KT 14.0, 15.6 MH_DPG 1366 x 768 Pixels MH_DPG_W 1280, 1366, … MH_DPG_H 768, 800,… Tất giá trị chưa xác định biểu diễn “?” Bảng 3.2 Danh sách thuộc tính tiền xử lý Giai đoạn tiền xử lý này, chương trình cài đặt ngơn ngữ lập trình Java để tự động đọc liệu từ tập tin liệu ban đầu, xử lý giá trị dòng liệu ghi liệu vào tập tin Hình 3.4 Quá trình tiền xử lý liệu giai đoạn Kết thúc giai đoạn 1, tập tin liệu có 21 thuộc tính gồm: NgayTT, NhaPP, NhaCC, TenSP, Gia, CPU_NhaCC, CPU_TocDo, CPU_Dem, Ram_Loai, Ram_DL, Ram_Bus, HDD, SSD, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W, MH_DPG_H 35 - Giai đoạn 2: Tiến hành lọc liệu để loại bỏ ghi giống xử lý giá trị thiếu (missing value) cách sử dụng lọc liệu WEKA cung cấp Để loại bỏ ghi trùng lặp, sử dụng lọc RemoveDuplicates WEKA Các ghi coi trùng lặp chúng nhận giá trị thuộc tính hồn tồn giống Sau lọc liệu lần thứ nhất, tập tin liệu 5.099 dòng liệu a Lựa chọn lọc liệu b Dữ liệu qua xử lý lọc Hình 3.5 Loại bỏ ghi giống tập tin liệu Để xử lý giá trị thiếu, người sử dụng cần sử dụng lọc RepalceMissingValue WEKA để thay giá trị thiếu dựa giá trị biết tập liệu huấn luyện Các giá trị thiếu thay giá trị trung bình cộng giá trị biết tất ghi a Lựa chọn lọc liệu 36 b Dữ liệu qua xử lý lọc Hình 3.6 Xử lý giá trị thiếu tập liệu Cuối cùng, để hoàn tất việc tiền xử lý liệu, người sử dụng cần lưu lại tập liệu với định dạng “*.arff” 3.2.3 Lựa chọn thuộc tính Lựa chọn thuộc tính bước đóng vai trị quan trọng q trình xây dựng mơ hình Tập tin liệu thu thập sau tiền xử lý có 21 thuộc tính, thuộc tính “Gia” xác định thuộc tính dự báo hay biến phụ thuộc mơ hình hồi quy tuyến tính Người sử dụng cần sử dụng tính Select attributes Explorer để lựa chọn thuộc tính độc lập xây dựng mơ hình số 20 thuộc tính cịn lại Phương thức tìm kiếm tập thuộc tính lựa chọn thơng qua phương pháp BestFirst Tập thuộc tính ban đầu chưa có thuộc tính lựa chọn Tìm kiếm tập thuộc tính chế leo đồi tham lam kết hợp với chế quay lui Phương thức đánh giá thuộc tính CfsSubsetEval lựa chọn để tìm tập thuộc tính có độ tương quan chặt chẽ với thuộc tính “Gia” dự đốn Bốn đối tượng tính Select attributes lựa chọn sau: - Thuộc tính dự đốn: (Num) Gia - Chế độ lựa chọn thuộc tính: Sử dụng tập huấn luyện đầy đủ Use full training set - Phương thức tìm kiếm: BestFirst 37 - Bộ đánh giá thuộc tính: CfsSubsetEval Kết 10 thuộc tính lựa chọn, bao gồm: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W Cần loại bỏ thuộc tính khơng lựa chọn tập tin liệu thu thập lưu lại tập tin liệu đầu vào sử dụng để xây dựng mơ hình hồi quy tuyến tính 3.2.4 Xây dựng đánh giá mơ hình Để xây dựng mơ hình hồi quy tuyến tính, người sử dụng cần lựa tính Classify Explorer thiết lập đối tượng sau: - Bộ phân lớp: Lựa chọn functions/LinearRegression Ngoài ra, người sử dụng cần thiết lập thêm tùy chọn outputAdditionalStats = True để có thêm thơng tin kết mơ hình xây dựng Hình 3.7 Thiết lập bổ sung thông tin liệu đầu 38 - Các tùy chọn kiểm thử: Tiến hành kiểm thử xây dựng mơ hình hồi quy tuyến tính 03 lần, lần lựa chọn 03 tùy chọn Use training set, Supplied test set Percentage split Trong đó: + Use training set: Sử dụng tập tin liệu đầu vào + Supplied test set: Chia tập tin liệu đầu vào thành 02 phần: Phần gồm liệu 15 lần thu thập để huấn luyện (4742 dòng liệu ≈ 93% liệu), phần gồm liệu lần thu thập cuối (357 dòng liệu ≈ 7% liệu) để kiểm thử + Percentage split: Chia tập tin liệu đầu vào thành phần: Phần có 66% liệu để huấn luyện, phần có 34% liệu cịn lại để kiểm thử - Lựa chọn thuộc tính dự đoán: (Num) Gia Kết thu được: Kiểm thử Kiểm thử Kiểm thử Use training set Supplied test set Percentage split R^2 value 0.9655 0.9645 0.9655 Adjusted R^2 0.9651 0.96403 0.9651 2238.7534 1955.806 2238.7534 0.9826 0.987 0.9828 837,146 879,776 838,952 1,138,025 1,158,829 1,125,783 Root relative squared error 20.6454 % 18.5656 % 19.2251 % 16.1924 % 20.9419 % 18.5856 % Total Number of Instances 5,099 357 1,734 F-statistic Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Bảng 3.3 Kết kiểm thử mơ hình Đánh giá mơ hình: Kết kiểm thử mơ hình hồi quy tuyến tính xây dựng WEKA tập tin liệu đầu vào chấp nhận Cụ thể sau: - Hệ số xác định r2 qua 03 lần kiểm thử đạt giá trị lớn 0.96 cho thấy 96% thay đổi biến phụ thuộc “Gia” giải thích tập biến độc lập lựa chọn 39 - Từ hệ số xác định r2 tính hệ số tương quan qua 03 lần kiểm thử đạt giá trị lớn 0.98 cho thấy biến phụ thuộc “Gia” có mối tương quan chặt chẽ với tập biến độc lập lựa chọn Tuy nhiên, cần phải thêm biến độc lập chưa lựa chọn vào mô hình để khảo sát phù hợp mơ hình xây dựng Quá trình thêm biến độc lập thực qua 05 lần, cụ thể sau: - Lần thứ 1: Thêm biến độc lập “HDD_DL”, mơ hình có 12 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W - Lần thứ 2: Thêm biến độc lập “Ram_Bus”, mơ hình có 13 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W - Lần thứ 3: Thêm biến độc lập “MH_KT”, mơ hình có 14 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W - Lần thứ 4: Thêm biến độc lập “Ram_Loai”, mơ hình có 15 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W - Lần thứ 5: Thêm biến độc lập “CPU_TocDo”, mơ hình có 16 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_TocDo, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W Kết thu sau: Bảng 3.4 Kết trình thêm biến độc lập vào mơ hình 40 Qua 05 lần thêm biến độc lập vào mơ hình, hệ số mơ hình cải thiện Trong đó: - ̅̅ Hệ số xác định điều chỉnh (Adjusted R^2) tăng 04 lần khảo sát đầu từ 0.9651 lên 0.96679 - Sai số trung bình tuyệt đối (Mean absolute error) giảm qua 04 lần khảo sát đầu từ 837,416 xuống 809,546 Tổng kết: Thêm biến độc lập Ram_Bus, Ram_Loai, HDD_DL, MH_KT vào mơ hình cần thiết Vậy, mơ hình hồi quy tuyến tính thiết lập với 15 biến, gồm: - Biến phụ thuộc: Gia - Biến độc lập: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W 3.3 Tính tốn thử nghiệm độ xác dự báo Sau xây dựng mơ hình hồi quy tuyến tính, WEKA hỗ trợ người sử dụng khảo sát độ xác dự báo thông qua việc so sánh giá sản phẩm thực tế giá sản phẩm dự đốn mơ hình hồi quy tuyến tính Q trình khảo sát hỗ trợ thơng qua tính đồ thị hóa sai số mơ hình hồi quy tuyến tính Hình 3.8 Mơ hình hóa sai số mơ hình 41 Ngồi ra, WEKA cịn hỗ trợ trích xuất kết dự báo mơ hình thành tập tin liệu kết với định dạng “arff” Tuy nhiên, để thuận tiện cho việc đánh giá khảo sát, người sử dụng mở tập tin liệu kết định dạng “arff” WEKA lưu lại định dạng “csv” a Tập tin “arff” mở WEKA b Tập tin “csv” mở Excel Hình 3.9 Tập tin liệu kết Qua khảo sát tập tin liệu kết quả, thu số thông tin sau: - Sai số lớn nhất: 9.874.898đ 01 dòng liệu NhaCC 2406 Dell predictedGia 28,115,101.01 Gia 37,990,000.00 Error 9,874,898.99 CPU_NhaCC 'Intel Core i7' NhaCC predictedGia Gia 4743 HP 42,990,000.00 42,990,000.00 Error 5.99E-06 CPU_NhaCC 'Intel Core i7' 5015 Lenovo 15,989,999.99 15,990,000.00 0.005004 'Intel Core i5' 5099 5.99E-06 'Intel Core i7' - Sai số nhỏ nhất: ≈ 0đ với giá thực tế 02 dòng liệu - HP 42,990,000.00 42,990,000.00 Sai số nhỏ 500.000đ: có 2130/5099 dịng liệu chiếm ≈ 41,77% Sai số lớn 2.000.000đ: có 344/5099 dịng liệu chiếm ≈ 6,75% 42 Chương KẾT LUẬN Việc ứng dụng phân tích liệu vào cơng tác dự báo hướng nghiên cứu có nhiều triển vọng, áp dụng cho nhiều lĩnh vực đời sống xã hội Nó hỗ trợ, hoạch đĩnh chiến lược hay kế hoạch đầu tư phát triển hợp lý Bên cạnh đó, với phát triển không ngừng Ngành công nghệ thông tin, cơng cụ hỗ trợ phân tích liệu ngày phong phú hỗ trợ đắc lực người cơng tác dự báo Thơng qua q trình nghiên cứu mơ hình hồi quy tuyến tính cơng cụ hỗ trợ WEKA, luận văn tiến hành giải tốn thực tế cơng tác dự báo Cụ thể, luận văn sâu nghiên cứu làm rõ nội dung sau: - Đưa sở lý thuyết mơ hình hồi quy tuyến tính ứng dụng việc phân tích liệu để tiến hành dự báo - Tìm hiểu, nghiên cứu cơng cụ hỗ trợ WEKA việc xây dựng mơ hình hồi quy tuyến tính để tiến hành dự báo - Sử dụng công cụ hỗ trợ WEKA để giải tốn thực tế phân tích liệu bán hàng dự báo giá bán sản phẩm máy tính xách tay Công ty cổ phần thương mại Nguyễn Kim Luận văn cho thấy hữu ích việc phân tích liệu để áp dụng, giải toán thực tế Tuy nhiên, số nguyên nhân khách quan chủ quan, luận văn tồn số hạn chế sau: - Dữ liệu thu thập đơn vị dẫn đến công tác dự bảo dừng lại phạm vi cục - Chưa tìm hiểu hết tất tính cơng cụ hỗ trợ WEKA để giải toàn thực tế Để khắc phục hạn chế nêu trên, thời gian tới, luận văn tiếp tục nghiên cứu mở rộng phạm vi thu thập liệu, tìm hiểu rõ cơng cụ hỗ trợ WEKA công cụ hỗ trợ khác để tiến hành dự báo có tính khái qt xác 43 TÀI LIỆU THAM KHẢO Tiếng Việt Trần Ngọc Minh (2006), Kinh tế lượng, Học viện Cơng nghệ Bưu - Viễn thơng, Hà Nội https://websrv1.ctu.edu.vn/coursewares/kinhte/phantichdulieu/chuong6 htm Tiếng Anh Ian H Witten, Eibe Frank, Mark A Hall (2011), Data Mining Practical Machine Learning Tools and Techniques Ramu Ramanathan (2002), Introductory Econometrics with Applications https://www.ibm.com/developerworks/vn/library/12/ba-predictiveanalytics1/ ... triển vượt bậc, phân tích liệu phân tích đồng thời quan hệ nhiều biến Phân tích liệu chia thành phân tích liệu thăm dị EDA phân tích liệu khẳng định CDA Phân tích liệu thăm dị dùng liệu để xác định... thêm dịch vụ phân tích kinh doanh Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụng phân tích liệu vào lĩnh vực kinh doanh Dữ liệu bán hàng công ty điện máy khối liệu đồ sộ với... dựa liệu có Vấn đề nghiên cứu ứng dụng phân tích liệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứng dụng rộng rãi, lĩnh vực kinh doanh thương mại Trên sở nghiên cứu