Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
2,06 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH HOÀI ANH NGHIÊNCỨUVÀXÂYDỰNGỨNGDỤNGPHÂNTÍCHDỮLIỆUKINHDOANHTHIẾTBỊĐIỆNTỬ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Hải Châu Hà Nội - 2017 MỤC LỤC Lời cam đoan Danh mục ký hiệu chữ viết tắt Danh mục hình vẽ đồ thị Danh mục bảng MỞ ĐẦU CHƯƠNG ĐẶT VẤN ĐỀ 10 1.1 Bài toán phântíchliệu 10 1.2 Lựa chọn miền ứngdụng 11 1.3 Phương pháp công cụ 11 1.3.1 Lựa chọn phương pháp 11 1.3.2 Lựa chọn công cụ 12 CHƯƠNG MÔ HÌNH HỒI QUY TUYẾN TÍNH VÀ CÔNG CỤ HỖ TRỢ WEKA 13 2.1 Mô hình hồi quy tuyến tính 13 2.1.1 Lý thuyết mô hình hồi quy 13 2.1.2 Mô hình hồi quy tuyến tính 14 2.1.3 Phương pháp bình phương tối thiểu để ước lượng tham số mô hình hồi quy tuyến tính 16 2.1.4 Ứngdụng mô hình hồi quy tuyến tính vào phântíchliệu 19 2.2 Công cụ hỗ trợ xâydựng mô hình hồi quy tuyến tính WEKA 23 2.2.1 Giới thiệu WEKA 23 2.2.2 Các chức WEKA 24 2.2.3 Xâydựng mô hình hồi quy tuyến tính với WEKA 25 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 30 3.1 Phát biểu toán thực tế 30 3.2 Tiến hành xâydựng mô hình 31 3.2.1 Thu thập liệu 31 3.2.2 Tiền xử lý liệu 33 3.2.3 Lựa chọn thuộc tính 36 3.2.4 Xâydựng đánh giá mô hình 37 3.3 Tính toán thử nghiệm độ xác dự báo 40 CHƯƠNG KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 43 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thực hiện, hoàn thành sở tìm kiếm, thu thập, nghiên cứu, tổng hợp phần lý thuyết phương pháp kĩ thuật trình bày tài liệu công bố nước giới Các tài liệu tham khảo nêu phần cuối luận văn Luận văn không chép nguyên từ nguồn tài liệu khác Nếu có sai sót, xin chịu trách nhiệm Học viên Ninh Hoài Anh DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Ký hiệu Tiếng Anh Giải thích theo tiếng Việt 01 ARFF Attribute - relation file format 02 CDA Confirmatory data analysis Phântíchliệu khẳng định 03 CPU Central Processing Unit Bộ vi xử lý trung tâm 04 DOM Document Object Model Mô hình đối tượng tài liệu 05 EDA Exploratory data analysis Phântíchliệu thăm dò 06 ESS Explained sum of squares Tổng bình phương hồi quy 07 HTML Hypertext markup language Ngôn ngữ đánh dấu siêu văn 08 OLS Ordinarry least square Phương pháp bình phương tối thiểu 09 PRF Popolartion regression function Hàm hồi quy tổng thể 10 RSS Residual sum of squares Tổng bình phương sai số 11 SRF Sample regression function Hàm hồi quy mẫu 12 TSS Total sum of squares Định dạng tập tin thuộc tính quan hệ Tổng bình phương toàn phần DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Các bước trình phântíchliệu Hình 2.1 Sai số ei Yi 𝑌̂ 𝑖 Hình 2.2 Mối quan hệ TSS, ESS RSS Hình 2.3 Một số hình ảnh giao diện đồ họa người sử dụng WEKA Hình 2.4 Các bước xâydựng mô hình hồi quy tuyến tính với WEKA Hình 2.5 Lựa chọn thuộc tính dự đoán Hình 3.1 Các thực nghiệm xâydựng mô hình hồi quy tuyến tính để dự báo Hình 3.2 Mô hình DOM tập tin HTML đơn giản Hình 3.3 Quá trình khai thác thông tin sản phẩm Hình 3.4 Quá trình tiền xử lý liệu giai đoạn Hình 3.5 Loại bỏ ghi giống tập tin liệu Hình 3.6 Xử lý giá trị thiếu tập liệu Hình 3.7 Thiết lập bổ sung thông tin liệu đầu Hình 3.8 Mô hình hóa sai số mô hình Hình 3.9 Tập tin liệu kết DANH MỤC CÁC BẢNG Bảng 2.1 Số liệu theo dõi liệu bán hàng Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Bảng 3.2 Danh sách thuộc tính tiền xử lý Bảng 3.3 Kết kiểm thử mô hình Bảng 3.4 Kết thêm biến độc lập vào mô hình MỞ ĐẦU Ngày nay, gắn liền với phát triển Internet, mạng xã hội thiếtbị di động gia tăng liệu không ngừng toàn cầu Dữliệu sinh phút, giây, có khắp nơi chúng cho ta thấy nhiều điều Tuy nhiên, làm để liệu trở nên có ý nghĩa lại trở thành vấn đề không nhỏ cá nhân, tổ chức sở hữu khối liệu Trên thực tế, nhiều doanh nghiệp chưa trang bị, ứngdụng hệ thống công nghệ thông tin cần thiết giúp khai thác liệu hiệu quả, từ đưa định sáng suốt dựa phântích có chất lượng thay dựa trực giác hay kinh nghiệm khứ Với quy mô liệu đa dạng, phong phú, liệuphản ánh thông tin từ nhiều khía cạnh đời sống xã hội đại Ví dụ, vị trí địa lý liệu hóa, kinh độ, vĩ độ gần thông qua hệ thống định vị toàn cầu GPS (Global positioning system) Những sách, tài liệu giấy số hóa thành ebook, file tài liệu số với nhiều định dạnh pdf, txt, rtf Kể mối quan hệ bạn bè, ưa thích “like” liệu hóa qua mạng xã hội Facebook, Zalo,… Những loại liệu sử dụng để phântích nhờ vào giúp đỡ máy tính với chi phí thấp, phép toán thông minh, dựa kiến thức toán học vay mượn từ kiến thức thống kê Thay dạy cho máy tính lái xe phiên dịch ngôn ngữ, cung cấp đủliệu để máy tính tính toán xác suất tất thứ mà muốn tính toán Phântíchliệu (Data analysis) khoa học khám phá liệu thô nhằm rút kết luận từliệuPhântíchliệu sử dụng nhiều ngành công nghiệp để hỗ trợ công ty, tổ chức để đưa định kinhdoanh tốt ngành khoa học để xác nhận hay bác bỏ mô hình, lý thuyết có Quá trình phântíchliệu bao gồm bước kiểm định, làm sạch, chuyển đổi, mô hình hóa phântíchliệu với mục đích tìm thông tin hữu ích, cho thấy kết luận hỗ trợ định dựa liệu có Vấn đề nghiêncứuứngdụngphântíchliệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứngdụng rộng rãi, lĩnh vực kinhdoanh thương mại Trên sở nghiêncứu có, luận văn tập trung vào mục tiêu vấn đề cần giải sau: Mục tiêu phạm vi nghiên cứu: Luận văn tập trung nghiêncứu mô hình hồi quy tuyến tính, phương pháp sử dụng mô hình hồi quy tuyến tính phântích liệu, tìm hiểu công cụ hỗ trợ phântíchliệu Weka Mục tiêu luận văn dựa công cụ WEKA xâydựng mô hình hồi quy tuyến tính dự đoán giá mặt hàng máy tính xách tay thị trường Việt Nam thông qua việc phântíchliệu bán hàng Công ty cổ phần thương mại Nguyễn Kim Từ đó, hỗ trợ doanh nghiệp, nhà phân phối máy tính xách tay đưa giá bán cạnh tranh thị trường Bên cạnh đó, giúp người tiêu dùng ước lượng chi phí để mua máy tính xách tay phù hợp với nhu cầu thân Phương pháp nghiên cứu: Trong phạm vi luận văn này, sử dụng 03 phương pháp nghiêncứu khoa học để tiếp cận làm rõ vấn đề đề tài mà lựa chọn Đó phương pháp nghiêncứu sau: - Phương pháp phântích tổng hợp lý thuyết: Nghiêncứu tài liệu khác mô hình hồi quy tuyến tính, phântíchliệu công cụ WEKA; phântích để tìm hiểu sâu sắc vấn đề tổng hợp để có nhìn tổng quan, đầy đủ vấn đề cần tìm hiểu - Phương pháp thực nghiệm khoa học: Chủ động tiến hành thu thập, xử lý liệu bán máy tính xách tay; sử dụng công cụ WEKA xâydựng mô hình hồi quy tuyến tính để dự báo giá - Phương pháp phân tích, tổng kết kinh nghiệm: Nghiên cứu, phântích đánh giá mô hình xâydựng để bước xâydựng mô hình phù hợp với độ tin cậy, xác cao Bố cục luận văn: Luận văn trình bày với bố cục gồm 04 chương với nội dung sau: Chương - Đặt vấn đề: Phát biểu toán, lựa chọn miền ứngdụng giới thiệu phương pháp công cụ để giải toán Chương - Mô hình hồi quy tuyến tính công cụ hỗ trợ WEKA: Trình bày sở lý thuyết mô hình hồi quy, vào cụ thể với mô hình hồi quy tuyến tính Đồng thời, giới thiệu công cụ WEKA, xâydựng mô hình hồi quy tuyến tính với hỗ trợ WEKA Chương - Thực nghiệm đánh giá kết quả: Sử dụng công cụ WEKA để xâydựng mô hình hồi quy tuyến tính dự báo giá bán máy tính xách tay Công ty cổ phần thương mại Nguyễn Kim Tiến hành phân tích, xâydựng mô hình đánh giá kết thu Chương - Kết luận: Trình bày kết đạt luận văn định hướng phát triển tương lai 10 Chương ĐẶT VẤN ĐỀ 1.1 Bài toán phântíchliệuDữliệu tạo giây, phút đời sống xã hội đại Chúng liệu web, liệutừ cảm biến, tệp lưu nhật ký, liệu cá nhân, liệutừthiếtbị thông minh,… Từ khối liệu mà tìm kiếm, khai thác trích xuất thông tin hữu ích Làm để có thông tin vấn đề đặt Phântíchliệu chìa khóa giúp giải vấn đề nêu Vậy phântíchliệu gì? Phântíchliệuứngdụng thực tiễn kỹ thuật khai phá liệu (Data mining) Phântíchliệu trình trích xuất thông tin hữu ích từ tập liệu cung cấp Các bước trình phântíchliệu bao gồm: Kiểm định (Inspecting), làm (Cleaning), chuyển đổi (Transforming), mô hình hóa (Modeling) phântích (Analysing) liệu nhằm mục đích tìm kiếm thông tin, cho thấy kết luận, hỗ trợ đưa định Kiểm định Làm Chuyển đổi Mô hình hóa Phântích Hình 1.1 Các bước trình phântíchliệu Trước có máy tính, nhiều phương pháp phântích cho tập liệu nhỏ phát triển tập trung phântích biến riêng lẻ Ngày nay, khả tính toán máy tính phát triển vượt bậc, phântíchliệuphântích đồng thời quan hệ nhiều biến Phântíchliệu chia thành phântíchliệu thăm dò EDA phântíchliệu khẳng định CDA Phântíchliệu thăm dò dùngliệu để xác định mối quan hệ biến độc lập với biến phụ thuộc hay xác định biến đưa vào mô hình Phântíchliệu khẳng định sử dụngliệu để khẳng định giả thiết sai Hai phương pháp không tách rời mà để tìm thông tin hữu ích từ tập liệu có Trước hết, sử dụng phương pháp EDA để xâydựng mô hình phù hợp từ tập 29 Sau cùng, để xâydựng đánh giá mô hình, WEKA hỗ trợ người sử dụng thông qua tính Classify Explorer Người sử dụng cần thiết lập ba đối tượng cụ thể sau: - Bộ phân lớp (Classifer): Lựa chọn functions/LinearRegression Việc xâydựng mô hình hồi quy tuyến tính WEKA thực sở phương pháp bình phương tối thiểu Có thể thực lựa chọn thuộc tính phương thức tham lam sử dụng loại bỏ lạc hậu xâydựng mô hình đầy đủtừ tất thuộc tính loại bỏ dần thuộc tính đạt tiêu chí chấm dứt AIC Ngoài ra, việc xâydựng mô hình thực với chế phát thuộc tính đa cộng tuyến chế ổn định trường hợp thoái hóa, giảm tình trạng tải thông cách xử phạt hệ số lớn Tiêu chuẩn thông tin Akaike (AIC) Nhà thống kê Akaike Hirotsugu người Nhật phù hợp mô hình Mô hình có tiêu chuẩn nhỏ độ thích hợp liệu mô hình cao AIC tiêu chuẩn sử dụng phổ biến phântích chuổi thời gian tính theo công thức: 𝐴𝐼𝐶 = ( 𝐸𝑆𝑆 (2𝑘⁄𝑛) )𝑒 𝑛 - Các tùy chọn kiểm thử (Test options): Tùy chọn phương pháp kiểm thử WEKA cung cấp phương pháp, gồm: + Use training set: Sử dụng tập liệu mà phân loại huấn luyện + Supplied test set: Cung cấp tập liệu kiểm thử Người sử dụng lựa chọn tập liệu kiểm thử cách nháy vào nút “Set…” + Cross-validation: Tiến hành xác nhận chéo + Percentage split: Chia tập liệu thành phần, huấn luyện phần kiểm thử phần lại Phân chia tập liệu theo tỷ lệ phần trăm người sử dụng cài đặt - Lựa chọn thuộc tính dự đoán (biến phụ thuộc) 30 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Phát biểu toán thực tế Công ty Cổ phần thương mại Nguyễn Kim thương hiệu hàng đầu ngành bán lẻ điệntử tiêu dùng, đạt nhiều giải thưởng nước quốc tế, người tiêu dùng tin tưởng đánh giá cao Với uy tín thương hiệu Công ty, Nguyễn Kim thường xuyên giới thiệu hàng nghìn mặt hàng thiếtbịđiệntử tới người tiêu dùng thông qua trang thông tin điệntử https://www.nguyenkim.com Đây nguồn liệukinhdoanhthiếtbịđiệntử khổng lồ, hoàn toàn khai thác để trích xuất thông tin hữu ích Với mục đích nêu trên, tác giả tiến hành thu thập liệukinhdoanh mặt hàng máy tính xách tay Công ty Cổ phần thương mại Nguyễn Kim, xâydựng mô hình hồi quy tuyến tính tập liệu thu thập để dự báo giá bán sản phẩm Quá trình thực nghiệm tiến thành gồm 04 bước: Hình 3.1 Các thực nghiệm xâydựng mô hình hồi quy tuyến tính để dự báo Trong đó, liệu đầu vào trình thực nghiệm thông tin mặt hàng máy tính xách tay cung cấp trang thông tin điệntử Công ty Cổ phần thương mại Nguyễn Kim Dữliệu đầu mô hình hồi quy tuyến tính với biến phục thuộc giá bán mặt hàng máy tính xách tay, biến độc lập thông tin cấu hình, nhà cung cấp sản phẩm,… Thông qua mô hình hồi quy tuyến tính xâydựng được, người sử dụng tính toán giá bán mặt hàng máy tính xách tay có thay đổi cấu hình hay nhà cung cấp sản phẩm 31 3.2 Tiến hành xâydựng mô hình 3.2.1 Thu thập liệu Điều kiện tiên để xâydựng mô hình hồi quy tuyến tính cần phải thu thập tập liệu xác, đáng tin cậy thuộc tính nhận giá trị số Do đó, liệukinhdoanh mặt hàng máy tính xác tay công ty điện máy lựa chọn phù hợp với ưu điểm như: - Thuộc tính giá bán (biến phụ thuộc) phụ thuộc nhiều vào thông số kỹ thuật dòng sản phẩm (biến độc lập) mà thuộc tính nhận giá trị số - Dữliệu bán hàng nhà phân phối cung cấp đầy đủ website thương mại điệntử Tuy nhiện, trình thu thập liệu gặp phải khó khăn, điển hình là: - Thông tin sản phẩm cung cấp cách không thống theo khuôn dạng định - Các website thương mại điệntửthiết kế để hạn chế gây khó khăn cho việc khai thác liệu Sau khảo sát thực tế, liệu thu thập website thương mại điệntử Công ty cổ phân thương mại Nguyễn Kim với địa http://www.nguyenkim.com/may-tinh-xach-tay Dữliệu thu thập với thông tin tên sản phẩm, vi xử lý CPU, ram, card hình, loại hình giá thành sản phẩm Website thương mại điệntử Công ty cổ phân thương mại Nguyễn Kim thiết kế tảng HTML Jsoup lựa chọn để phântích khai thác liệutừ tài liệu HTML Nó thư viện Java cung cấp API để phântích tài liệu HTML thành danh sách phầntử khai thác liệuphầntử Người sử dụng tải trực tiếp thư viện Jsoup dạng tập tin “jar” địa https://jsoup.org/download Jsoup phântích tài liệu HTML thành mô hình DOM Người sử dụng cần hiễu rõ bố cục tài liệu HTML để truy cập xác đến phầntử cụ thể danh sách 32 b Mô hình DOM tập tin Dom.html a Tập tin Dom.html Hình 3.2 Mô hình DOM tập tin HTML đơn giản Jsoup bao gồm nhiều lớp đối tượng, ba lớp đối tượng quan trọng org.jsoup.Jsoup, org.jsoup.nodes.Document org.jsoup.nodes.Element Người sử dụng tìm hiểu cụ thể website https://jsoup.org Dữliệukinhdoanh mặt hàng máy tính xách tay Công ty cổ phần thương mại Nguyễn Kim thu thập với thuộc tính tiêu biểu sau: TT Tên thuộc tính Khuôn dạng liệu 4/4/2016 Mô tả Ngày liệu thu thập 01 NgayTT 02 NhaPP Nguyen Kim Nhà phân phối sản phẩm 03 NhaCC Asus, Lenovo,… Nhà cung cấp sản phẩm 04 TenSP E402SA WX043D 05 Gia 06 CPU_NhaCC 07 CPU_TocDo 08 CPU_Dem MB Cache 09 Ram_Loai SDRAM DDR3 10 Ram_DL GB 11 Ram_Bus 1600 MHz 12 HDD_Loai SATA, SDD Loại ổ cứng 13 HDD_DL 500 GB, TB Dung lượng ổ cứng 14 Card_Loai 15 Card_DL Tên sản phẩm 5.300.000 Giá bán sản phẩm Intel Celeron Tên nhà cung cấp CPU 1.60 GHz, 800 MHz Tốc độ CPU Dung lượng nhớ đệm CPU Loại Ram Dung lượng Ram Tốc độ bus Ram Intel HD, GT 820M Loại card hình 2GB, Share Dung lượng card hình 33 16 MH_Loai LED HD, Full HD 17 MH_KT 14.0 inch, 15.6 inch Kích thước hình 18 MH_DPG 1366 x 768 Pixels Loại hình Độ phân giải hình Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Qua trình khảo sát, chương trình thu thập liệu cài đặt sở ngôn ngữ lập trình Java có sử dụng thư viện Jsoup để khai thác thông tin mặt hàng máy tính xách tay thương mại điệntử Công ty Cổ phần thương mại Nguyễn Kim Hình 3.3 Quá trình khai thác thông tin sản phẩm Quá trình thu thập liệu thực liên tục để theo dõi thay đổi giá bán dòng sản phẩm máy tính xác tay theo thuộc tính thu thập Cụ thể, với khoảng thời gian từ 04/4/2016 đến 19/7/2016, tập liệu thu thập định dạng “.csv” với 18 thuộc tính có 5.527 dòng liệu với 327 dòng sản phẩm 06 nhà cung cấp, 16 lần thu thập liệu 3.2.2 Tiền xử lý liệu Như trình bày Chương 2, liệu thu thập cần phải tiền xử lý trước đưa vào xâydựng mô hình Ở đây, việc tiền xử lý liệu tiến hành theo 02 giai đoạn: - Giai đoạn 1: Loại bỏ liệudư thừa chuẩn hóa khuôn dạng liệu để WEKA đọc tập tin liệu “.csv” Cụ thể: 34 Tên thuộc tính ban đầu Khuôn dạng liệu ban đầu Tên thuộc tính Khuôn dạng liệu NgayTT 4/4/2016 NgayTT 2016-04-04 12:00:00 Gia 5.300.000 Gia 5300000 CPU_NhaCC Intel Celeron CPU_NhaCC Intel Celeron CPU_TocDo 1.60 GHz, 800 MHz CPU_TocDo CPU_Dem MB Cache CPU_Dem 1, 2, 3,… Ram_DL GB Ram_DL 2, 4,… Ram_Bus 1600 MHz Ram_Bus 1600, 1333,… SATA, SDD, HDD SATA để trống SATA + SDD SDD SDD để trống 500 GB, TB, HDD_DL 0, 500, 1024 TB + 128 GB SDD_DL 0, 128 Card_DL 1, 2, 4, HDD_Loai HDD_DL Card_DL 2GB, Share MH_KT 14.0 inch, 15.6 inch MH_DPG 1366 x 768 Pixels 1.60, 0.8 “0” với card share MH_KT 14.0, 15.6 MH_DPG_W 1280, 1366, … MH_DPG_H 768, 800,… Tất giá trị chưa xác định biểu diễn “?” Bảng 3.2 Danh sách thuộc tính tiền xử lý Giai đoạn tiền xử lý này, chương trình cài đặt ngôn ngữ lập trình Java để tự động đọc liệutừ tập tin liệu ban đầu, xử lý giá trị dòng liệu ghi liệu vào tập tin Hình 3.4 Quá trình tiền xử lý liệu giai đoạn Kết thúc giai đoạn 1, tập tin liệu có 21 thuộc tính gồm: NgayTT, NhaPP, NhaCC, TenSP, Gia, CPU_NhaCC, CPU_TocDo, CPU_Dem, Ram_Loai, Ram_DL, Ram_Bus, HDD, SSD, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W, MH_DPG_H 35 - Giai đoạn 2: Tiến hành lọc liệu để loại bỏ ghi giống xử lý giá trị thiếu (missing value) cách sử dụng lọc liệu WEKA cung cấp Để loại bỏ ghi trùng lặp, sử dụng lọc RemoveDuplicates WEKA Các ghi coi trùng lặp chúng nhận giá trị thuộc tính hoàn toàn giống Sau lọc liệu lần thứ nhất, tập tin liệu 5.099 dòng liệu a Lựa chọn lọc liệu b Dữliệu qua xử lý lọc Hình 3.5 Loại bỏ ghi giống tập tin liệu Để xử lý giá trị thiếu, người sử dụng cần sử dụng lọc RepalceMissingValue WEKA để thay giá trị thiếu dựa giá trị biết tập liệu huấn luyện Các giá trị thiếu thay giá trị trung bình cộng giá trị biết tất ghi a Lựa chọn lọc liệu 36 b Dữliệu qua xử lý lọc Hình 3.6 Xử lý giá trị thiếu tập liệu Cuối cùng, để hoàn tất việc tiền xử lý liệu, người sử dụng cần lưu lại tập liệu với định dạng “*.arff” 3.2.3 Lựa chọn thuộc tính Lựa chọn thuộc tính bước đóng vai trò quan trọng trình xâydựng mô hình Tập tin liệu thu thập sau tiền xử lý có 21 thuộc tính, thuộc tính “Gia” xác định thuộc tính dự báo hay biến phụ thuộc mô hình hồi quy tuyến tính Người sử dụng cần sử dụng tính Select attributes Explorer để lựa chọn thuộc tính độc lập xâydựng mô hình số 20 thuộc tính lại Phương thức tìm kiếm tập thuộc tính lựa chọn thông qua phương pháp BestFirst Tập thuộc tính ban đầu chưa có thuộc tính lựa chọn Tìm kiếm tập thuộc tính chế leo đồi tham lam kết hợp với chế quay lui Phương thức đánh giá thuộc tính CfsSubsetEval lựa chọn để tìm tập thuộc tính có độ tương quan chặt chẽ với thuộc tính “Gia” dự đoán Bốn đối tượng tính Select attributes lựa chọn sau: - Thuộc tính dự đoán: (Num) Gia - Chế độ lựa chọn thuộc tính: Sử dụng tập huấn luyện đầy đủ Use full training set - Phương thức tìm kiếm: BestFirst 37 - Bộ đánh giá thuộc tính: CfsSubsetEval Kết 10 thuộc tính lựa chọn, bao gồm: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W Cần loại bỏ thuộc tính không lựa chọn tập tin liệu thu thập lưu lại tập tin liệu đầu vào sử dụng để xâydựng mô hình hồi quy tuyến tính 3.2.4 Xâydựng đánh giá mô hình Để xâydựng mô hình hồi quy tuyến tính, người sử dụng cần lựa tính Classify Explorer thiết lập đối tượng sau: - Bộ phân lớp: Lựa chọn functions/LinearRegression Ngoài ra, người sử dụng cần thiết lập thêm tùy chọn outputAdditionalStats = True để có thêm thông tin kết mô hình xâydựng Hình 3.7 Thiết lập bổ sung thông tin liệu đầu 38 - Các tùy chọn kiểm thử: Tiến hành kiểm thử xâydựng mô hình hồi quy tuyến tính 03 lần, lần lựa chọn 03 tùy chọn Use training set, Supplied test set Percentage split Trong đó: + Use training set: Sử dụng tập tin liệu đầu vào + Supplied test set: Chia tập tin liệu đầu vào thành 02 phần: Phần gồm liệu 15 lần thu thập để huấn luyện (4742 dòng liệu ≈ 93% liệu), phần gồm liệu lần thu thập cuối (357 dòng liệu ≈ 7% liệu) để kiểm thử + Percentage split: Chia tập tin liệu đầu vào thành phần: Phần có 66% liệu để huấn luyện, phần có 34% liệu lại để kiểm thử - Lựa chọn thuộc tính dự đoán: (Num) Gia Kết thu được: Kiểm thử Kiểm thử Kiểm thử Use training set Supplied test set Percentage split R^2 value 0.9655 0.9645 0.9655 Adjusted R^2 0.9651 0.96403 0.9651 2238.7534 1955.806 2238.7534 0.9826 0.987 0.9828 837,146 879,776 838,952 1,138,025 1,158,829 1,125,783 Relative absolute error 20.6454 % 19.2251 % 20.9419 % Root relative squared error 18.5656 % 16.1924 % 18.5856 % Total Number of Instances 5,099 357 1,734 F-statistic Correlation coefficient Mean absolute error Root mean squared error Bảng 3.3 Kết kiểm thử mô hình Đánh giá mô hình: Kết kiểm thử mô hình hồi quy tuyến tính xâydựng WEKA tập tin liệu đầu vào chấp nhận Cụ thể sau: - Hệ số xác định r2 qua 03 lần kiểm thử đạt giá trị lớn 0.96 cho thấy 96% thay đổi biến phụ thuộc “Gia” giải thích tập biến độc lập lựa chọn 39 - Từ hệ số xác định r2 tính hệ số tương quan qua 03 lần kiểm thử đạt giá trị lớn 0.98 cho thấy biến phụ thuộc “Gia” có mối tương quan chặt chẽ với tập biến độc lập lựa chọn Tuy nhiên, cần phải thêm biến độc lập chưa lựa chọn vào mô hình để khảo sát phù hợp mô hình xâydựng Quá trình thêm biến độc lập thực qua 05 lần, cụ thể sau: - Lần thứ 1: Thêm biến độc lập “HDD_DL”, mô hình có 12 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W - Lần thứ 2: Thêm biến độc lập “Ram_Bus”, mô hình có 13 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W - Lần thứ 3: Thêm biến độc lập “MH_KT”, mô hình có 14 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W - Lần thứ 4: Thêm biến độc lập “Ram_Loai”, mô hình có 15 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W - Lần thứ 5: Thêm biến độc lập “CPU_TocDo”, mô hình có 16 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_TocDo, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W Kết thu sau: Bảng 3.4 Kết trình thêm biến độc lập vào mô hình 40 Qua 05 lần thêm biến độc lập vào mô hình, hệ số mô hình cải thiện Trong đó: - Hệ số xác định điều chỉnh ̅̅̅ 𝑟 (Adjusted R^2) tăng 04 lần khảo sát đầu từ 0.9651 lên 0.96679 - Sai số trung bình tuyệt đối (Mean absolute error) giảm qua 04 lần khảo sát đầu từ 837,416 xuống 809,546 Tổng kết: Thêm biến độc lập Ram_Bus, Ram_Loai, HDD_DL, MH_KT vào mô hình cần thiết Vậy, mô hình hồi quy tuyến tính thiết lập với 15 biến, gồm: - Biến phụ thuộc: Gia - Biến độc lập: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W 3.3 Tính toán thử nghiệm độ xác dự báo Sau xâydựng mô hình hồi quy tuyến tính, WEKA hỗ trợ người sử dụng khảo sát độ xác dự báo thông qua việc so sánh giá sản phẩm thực tế giá sản phẩm dự đoán mô hình hồi quy tuyến tính Quá trình khảo sát hỗ trợ thông qua tính đồ thị hóa sai số mô hình hồi quy tuyến tính Hình 3.8 Mô hình hóa sai số mô hình 41 Ngoài ra, WEKA hỗ trợ trích xuất kết dự báo mô hình thành tập tin liệu kết với định dạng “arff” Tuy nhiên, để thuận tiện cho việc đánh giá khảo sát, người sử dụng mở tập tin liệu kết định dạng “arff” WEKA lưu lại định dạng “csv” b Tập tin “csv” mở Excel a Tập tin “arff” mở WEKA Hình 3.9 Tập tin liệu kết Qua khảo sát tập tin liệu kết quả, thu số thông tin sau: - Sai số lớn nhất: 9.874.898đ 01 dòng liệu 2406 NhaCC predictedGia Gia Dell 28,115,101.01 37,990,000.00 Error 9,874,898.99 CPU_NhaCC 'Intel Core i7' - Sai số nhỏ nhất: ≈ 0đ với giá thực tế 02 dòng liệu NhaCC predictedGia 4743 5015 5099 HP Gia Error CPU_NhaCC 42,990,000.00 42,990,000.00 5.99E-06 'Intel Core i7' Lenovo 15,989,999.99 15,990,000.00 0.005004 'Intel Core i5' HP 42,990,000.00 42,990,000.00 5.99E-06 'Intel Core i7' - Sai số nhỏ 500.000đ: có 2130/5099 dòng liệu chiếm ≈ 41,77% - Sai số lớn 2.000.000đ: có 344/5099 dòng liệu chiếm ≈ 6,75% 42 Chương KẾT LUẬN Việc ứngdụngphântíchliệu vào công tác dự báo hướng nghiêncứu có nhiều triển vọng, áp dụng cho nhiều lĩnh vực đời sống xã hội Nó hỗ trợ, hoạch đĩnh chiến lược hay kế hoạch đầu tư phát triển hợp lý Bên cạnh đó, với phát triển không ngừng Ngành công nghệ thông tin, công cụ hỗ trợ phântíchliệu ngày phong phú hỗ trợ đắc lực người công tác dự báo Thông qua trình nghiêncứu mô hình hồi quy tuyến tính công cụ hỗ trợ WEKA, luận văn tiến hành giải toán thực tế công tác dự báo Cụ thể, luận văn sâu nghiêncứu làm rõ nội dung sau: - Đưa sở lý thuyết mô hình hồi quy tuyến tính ứngdụng việc phântíchliệu để tiến hành dự báo - Tìm hiểu, nghiêncứu công cụ hỗ trợ WEKA việc xâydựng mô hình hồi quy tuyến tính để tiến hành dự báo - Sử dụng công cụ hỗ trợ WEKA để giải toán thực tế phântíchliệu bán hàng dự báo giá bán sản phẩm máy tính xách tay Công ty cổ phần thương mại Nguyễn Kim Luận văn cho thấy hữu ích việc phântíchliệu để áp dụng, giải toán thực tế Tuy nhiên, số nguyên nhân khách quan chủ quan, luận văn tồn số hạn chế sau: - Dữliệu thu thập đơn vị dẫn đến công tác dự bảo dừng lại phạm vi cục - Chưa tìm hiểu hết tất tính công cụ hỗ trợ WEKA để giải toàn thực tế Để khắc phục hạn chế nêu trên, thời gian tới, luận văn tiếp tục nghiêncứu mở rộng phạm vi thu thập liệu, tìm hiểu rõ công cụ hỗ trợ WEKA công cụ hỗ trợ khác để tiến hành dự báo có tính khái quát xác 43 TÀI LIỆU THAM KHẢO Tiếng Việt Trần Ngọc Minh (2006), Kinh tế lượng, Học viện Công nghệ Bưu - Viễn thông, Hà Nội https://websrv1.ctu.edu.vn/coursewares/kinhte/phantichdulieu/chuong6 htm Tiếng Anh Ian H Witten, Eibe Frank, Mark A Hall (2011), Data Mining Practical Machine Learning Tools and Techniques Ramu Ramanathan Applications (2002), Introductory Econometrics with https://www.ibm.com/developerworks/vn/library/12/ba-predictiveanalytics1/ ... triển vượt bậc, phân tích liệu phân tích đồng thời quan hệ nhiều biến Phân tích liệu chia thành phân tích liệu thăm dò EDA phân tích liệu khẳng định CDA Phân tích liệu thăm dò dùng liệu để xác định... thêm dịch vụ phân tích kinh doanh Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụng phân tích liệu vào lĩnh vực kinh doanh Dữ liệu bán hàng công ty điện máy khối liệu đồ sộ với... dựa liệu có Vấn đề nghiên cứu ứng dụng phân tích liệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứng dụng rộng rãi, lĩnh vực kinh doanh thương mại Trên sở nghiên cứu