Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
1,93 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH HOÀI ANH NGHIÊNCỨUVÀXÂYDỰNGỨNGDỤNGPHÂNTÍCHDỮLIỆUKINHDOANHTHIẾTBỊĐIỆNTỬ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Hải Châu Hà Nội - 2017 MỤC LỤC Lời cam đoan Danh mục ký hiệu chữ viết tắt Danh mục hình vẽ đồ thị Danh mục bảng MỞ ĐẦU CHƯƠNG ĐẶT VẤN ĐỀ 10 1.1 Bài tốn phântíchliệu 10 1.2 Lựa chọn miền ứngdụng 11 1.3 Phương pháp công cụ 11 1.3.1 Lựa chọn phương pháp 11 1.3.2 Lựa chọn công cụ 12 CHƯƠNG MƠ HÌNH HỒI QUY TUYẾN TÍNH VÀ CƠNG CỤ HỖ TRỢ WEKA 13 2.1 Mơ hình hồi quy tuyến tính 13 2.1.1 Lý thuyết mơ hình hồi quy 13 2.1.2 Mô hình hồi quy tuyến tính 14 2.1.3 Phương pháp bình phương tối thiểu để ước lượng tham số mơ hình hồi quy tuyến tính 16 2.1.4 Ứngdụng mơ hình hồi quy tuyến tính vào phântíchliệu 19 2.2 Cơng cụ hỗ trợ xâydựng mơ hình hồi quy tuyến tính WEKA 23 2.2.1 Giới thiệu WEKA 23 2.2.2 Các chức WEKA 24 2.2.3 Xâydựng mơ hình hồi quy tuyến tính với WEKA 25 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 30 3.1 Phát biểu toán thực tế 30 3.2 Tiến hành xâydựng mơ hình 31 3.2.1 Thu thập liệu 31 3.2.2 Tiền xử lý liệu 33 3.2.3 Lựa chọn thuộc tính 36 3.2.4 Xâydựng đánh giá mô hình 37 3.3 Tính tốn thử nghiệm độ xác dự báo 40 CHƯƠNG KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 43 LỜI CAM ĐOAN Tôi xin cam đoan luận văn tơi thực hiện, hồn thành sở tìm kiếm, thu thập, nghiên cứu, tổng hợp phần lý thuyết phương pháp kĩ thuật trình bày tài liệu cơng bố nước giới Các tài liệu tham khảo nêu phần cuối luận văn Luận văn không chép nguyên từ nguồn tài liệu khác Nếu có sai sót, tơi xin chịu trách nhiệm Học viên Ninh Hoài Anh DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Ký hiệu Tiếng Anh Giải thích theo tiếng Việt 01 ARFF Attribute - relation file format 02 CDA Confirmatory data analysis Phântíchliệu khẳng định 03 CPU Central Processing Unit Bộ vi xử lý trung tâm 04 DOM Document Object Model Mơ hình đối tượng tài liệu 05 EDA Exploratory data analysis Phântíchliệu thăm dò 06 ESS Explained sum of squares Tổng bình phương hồi quy 07 HTML Hypertext markup language Ngôn ngữ đánh dấu siêu văn 08 OLS Ordinarry least square Phương pháp bình phương tối thiểu 09 PRF Popolartion regression function Hàm hồi quy tổng thể 10 RSS Residual sum of squares Tổng bình phương sai số 11 SRF Sample regression function Hàm hồi quy mẫu 12 TSS Total sum of squares Định dạng tập tin thuộc tính quan hệ Tổng bình phương tồn phần DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Các bước q trình phântíchliệu Hình 2.1 Sai số ei Yi ̂ Hình 2.2 Mối quan hệ TSS, ESS RSS Hình 2.3 Một số hình ảnh giao diện đồ họa người sử dụng WEKA Hình 2.4 Các bước xâydựng mơ hình hồi quy tuyến tính với WEKA Hình 2.5 Lựa chọn thuộc tính dự đốn Hình 3.1 Các thực nghiệm xâydựng mơ hình hồi quy tuyến tính để dự báo Hình 3.2 Mơ hình DOM tập tin HTML đơn giản Hình 3.3 Quá trình khai thác thơng tin sản phẩm Hình 3.4 Q trình tiền xử lý liệu giai đoạn Hình 3.5 Loại bỏ ghi giống tập tin liệu Hình 3.6 Xử lý giá trị thiếu tập liệu Hình 3.7 Thiết lập bổ sung thơng tin liệu đầu Hình 3.8 Mơ hình hóa sai số mơ hình Hình 3.9 Tập tin liệu kết DANH MỤC CÁC BẢNG Bảng 2.1 Số liệu theo dõi liệu bán hàng Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Bảng 3.2 Danh sách thuộc tính tiền xử lý Bảng 3.3 Kết kiểm thử mơ hình Bảng 3.4 Kết thêm biến độc lập vào mơ hình MỞ ĐẦU Ngày nay, gắn liền với phát triển Internet, mạng xã hội thiếtbị di động gia tăng liệu không ngừng toàn cầu Dữliệu sinh phút, giây, có khắp nơi chúng cho ta thấy nhiều điều Tuy nhiên, làm để liệu trở nên có ý nghĩa lại trở thành vấn đề không nhỏ cá nhân, tổ chức sở hữu khối liệu Trên thực tế, nhiều doanh nghiệp chưa trang bị, ứngdụng hệ thống công nghệ thông tin cần thiết giúp khai thác liệu hiệu quả, từ đưa định sáng suốt dựa phântích có chất lượng thay dựa trực giác hay kinh nghiệm khứ Với quy mô liệu đa dạng, phong phú, liệuphản ánh thơng tin từ nhiều khía cạnh đời sống xã hội đại Ví dụ, vị trí địa lý liệu hóa, kinh độ, vĩ độ gần thông qua hệ thống định vị toàn cầu GPS (Global positioning system) Những sách, tài liệu giấy số hóa thành ebook, file tài liệu số với nhiều định dạnh pdf, txt, rtf Kể mối quan hệ bạn bè, ưa thích “like” liệu hóa qua mạng xã hội Facebook, Zalo,… Những loại liệu sử dụng để phântích nhờ vào giúp đỡ máy tính với chi phí thấp, phép tốn thơng minh, dựa kiến thức tốn học vay mượn từ kiến thức thống kê Thay dạy cho máy tính lái xe phiên dịch ngơn ngữ, cung cấp đủliệu để máy tính tính tốn xác suất tất thứ mà muốn tính tốn Phântíchliệu (Data analysis) khoa học khám phá liệu thô nhằm rút kết luận từliệuPhântíchliệu sử dụng nhiều ngành công nghiệp để hỗ trợ công ty, tổ chức để đưa định kinhdoanh tốt ngành khoa học để xác nhận hay bác bỏ mô hình, lý thuyết có Q trình phântíchliệu bao gồm bước kiểm định, làm sạch, chuyển đổi, mơ hình hóa phântíchliệu với mục đích tìm thơng tin hữu ích, cho thấy kết luận hỗ trợ định dựa liệu có Vấn đề nghiêncứuứngdụngphântíchliệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứngdụng rộng rãi, lĩnh vực kinhdoanh thương mại Trên sở nghiêncứu có, luận văn tập trung vào mục tiêu vấn đề cần giải sau: Mục tiêu phạm vi nghiên cứu: Luận văn tập trung nghiêncứu mơ hình hồi quy tuyến tính, phương pháp sử dụng mơ hình hồi quy tuyến tính phântích liệu, tìm hiểu cơng cụ hỗ trợ phântíchliệu Weka Mục tiêu luận văn dựa cơng cụ WEKA xâydựng mơ hình hồi quy tuyến tính dự đốn giá mặt hàng máy tính xách tay thị trường Việt Nam thơng qua việc phântíchliệu bán hàng Cơng ty cổ phần thương mại Nguyễn Kim Từ đó, hỗ trợ doanh nghiệp, nhà phân phối máy tính xách tay đưa giá bán cạnh tranh thị trường Bên cạnh đó, giúp người tiêu dùng ước lượng chi phí để mua máy tính xách tay phù hợp với nhu cầu thân Phương pháp nghiên cứu: Trong phạm vi luận văn này, sử dụng 03 phương pháp nghiêncứu khoa học để tiếp cận làm rõ vấn đề đề tài mà lựa chọn Đó phương pháp nghiêncứu sau: - Phương pháp phântích tổng hợp lý thuyết: Nghiêncứu tài liệu khác mơ hình hồi quy tuyến tính, phântíchliệu cơng cụ WEKA; phântích để tìm hiểu sâu sắc vấn đề tổng hợp để có nhìn tổng quan, đầy đủ vấn đề cần tìm hiểu - Phương pháp thực nghiệm khoa học: Chủ động tiến hành thu thập, xử lý liệu bán máy tính xách tay; sử dụng cơng cụ WEKA xâydựng mơ hình hồi quy tuyến tính để dự báo giá - Phương pháp phân tích, tổng kết kinh nghiệm: Nghiên cứu, phântích đánh giá mơ hình xâydựng để bước xâydựng mơ hình phù hợp với độ tin cậy, xác cao Bố cục luận văn: Luận văn trình bày với bố cục gồm 04 chương với nội dung sau: Chương - Đặt vấn đề: Phát biểu toán, lựa chọn miền ứngdụng giới thiệu phương pháp cơng cụ để giải tốn Chương - Mơ hình hồi quy tuyến tính cơng cụ hỗ trợ WEKA: Trình bày sở lý thuyết mơ hình hồi quy, vào cụ thể với mơ hình hồi quy tuyến tính Đồng thời, giới thiệu cơng cụ WEKA, xâydựng mơ hình hồi quy tuyến tính với hỗ trợ WEKA Chương - Thực nghiệm đánh giá kết quả: Sử dụng công cụ WEKA để xâydựng mơ hình hồi quy tuyến tính dự báo giá bán máy tính xách tay Công ty cổ phần thương mại Nguyễn Kim Tiến hành phân tích, xâydựng mơ hình đánh giá kết thu Chương - Kết luận: Trình bày kết đạt luận văn định hướng phát triển tương lai 10 Chương ĐẶT VẤN ĐỀ 1.1 Bài tốn phântíchliệuDữliệu tạo giây, phút đời sống xã hội đại Chúng liệu web, liệutừ cảm biến, tệp lưu nhật ký, liệu cá nhân, liệutừthiếtbị thông minh,… Từ khối liệu mà tìm kiếm, khai thác trích xuất thơng tin hữu ích Làm để có thơng tin vấn đề đặt Phântíchliệu chìa khóa giúp giải vấn đề nêu Vậy phântíchliệu gì? Phântíchliệuứngdụng thực tiễn kỹ thuật khai phá liệu (Data mining) Phântíchliệu q trình trích xuất thơng tin hữu ích từ tập liệu cung cấp Các bước trình phântíchliệu bao gồm: Kiểm định (Inspecting), làm (Cleaning), chuyển đổi (Transforming), mơ hình hóa (Modeling) phântích (Analysing) liệu nhằm mục đích tìm kiếm thơng tin, cho thấy kết luận, hỗ trợ đưa định Kiểm định Làm Chuyển đổi Mơ hình hóa Phântích Hình 1.1 Các bước q trình phântíchliệu Trước có máy tính, nhiều phương pháp phântích cho tập liệu nhỏ phát triển tập trung phântích biến riêng lẻ Ngày nay, khả tính tốn máy tính phát triển vượt bậc, phântíchliệuphântích đồng thời quan hệ nhiều biến Phântíchliệu chia thành phântíchliệu thăm dò EDA phântíchliệu khẳng định CDA Phântíchliệu thăm dò dùngliệu để xác định mối quan hệ biến độc lập với biến phụ thuộc hay xác định biến đưa vào mơ hình Phântíchliệu khẳng định sử dụngliệu để khẳng định giả thiết sai Hai phương pháp không tách rời mà ln để tìm thơng tin hữu ích từ tập liệu có Trước hết, sử dụng phương pháp EDA để xâydựng mơ hình phù hợp từ tập 29 Sau cùng, để xâydựng đánh giá mơ hình, WEKA hỗ trợ người sử dụng thơng qua tính Classify Explorer Người sử dụng cần thiết lập ba đối tượng cụ thể sau: - Bộ phân lớp (Classifer): Lựa chọn functions/LinearRegression Việc xâydựng mơ hình hồi quy tuyến tính WEKA thực sở phương pháp bình phương tối thiểu Có thể thực lựa chọn thuộc tính phương thức tham lam sử dụng loại bỏ lạc hậu xâydựng mơ hình đầy đủtừ tất thuộc tính loại bỏ dần thuộc tính đạt tiêu chí chấm dứt AIC Ngồi ra, việc xâydựng mơ hình thực với chế phát thuộc tính đa cộng tuyến chế ổn định trường hợp thối hóa, giảm tình trạng q tải thông cách xử phạt hệ số lớn Tiêu chuẩn thông tin Akaike (AIC) Nhà thống kê Akaike Hirotsugu người Nhật phù hợp mơ hình Mơ hình có tiêu chuẩn nhỏ độ thích hợp liệu mơ hình cao AIC tiêu chuẩn sử dụng phổ biến phântích chuổi thời gian tính theo cơng thức: =( ) (2 ⁄ ) - Các tùy chọn kiểm thử (Test options): Tùy chọn phương pháp kiểm thử WEKA cung cấp phương pháp, gồm: + Use training set: Sử dụng tập liệu mà phân loại huấn luyện + Supplied test set: Cung cấp tập liệu kiểm thử Người sử dụng lựa chọn tập liệu kiểm thử cách nháy vào nút “Set…” + Cross-validation: Tiến hành xác nhận chéo + Percentage split: Chia tập liệu thành phần, huấn luyện phần kiểm thử phần lại Phân chia tập liệu theo tỷ lệ phần trăm người sử dụng cài đặt - Lựa chọn thuộc tính dự đoán (biến phụ thuộc) 30 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Phát biểu toán thực tế Công ty Cổ phần thương mại Nguyễn Kim thương hiệu hàng đầu ngành bán lẻ điệntử tiêu dùng, đạt nhiều giải thưởng nước quốc tế, người tiêu dùng tin tưởng đánh giá cao Với uy tín thương hiệu Cơng ty, Nguyễn Kim thường xun giới thiệu hàng nghìn mặt hàng thiếtbịđiệntử tới người tiêu dùng thông qua trang thông tin điệntử https://www.nguyenkim.com Đây nguồn liệukinhdoanhthiếtbịđiệntử khổng lồ, hồn tồn khai thác để trích xuất thơng tin hữu ích Với mục đích nêu trên, tác giả tiến hành thu thập liệukinhdoanh mặt hàng máy tính xách tay Cơng ty Cổ phần thương mại Nguyễn Kim, xâydựng mô hình hồi quy tuyến tính tập liệu thu thập để dự báo giá bán sản phẩm Quá trình thực nghiệm tiến thành gồm 04 bước: Hình 3.1 Các thực nghiệm xâydựng mơ hình hồi quy tuyến tính để dự báo Trong đó, liệu đầu vào q trình thực nghiệm thơng tin mặt hàng máy tính xách tay cung cấp trang thông tin điệntử Công ty Cổ phần thương mại Nguyễn Kim Dữliệu đầu mơ hình hồi quy tuyến tính với biến phục thuộc giá bán mặt hàng máy tính xách tay, biến độc lập thông tin cấu hình, nhà cung cấp sản phẩm,… Thơng qua mơ hình hồi quy tuyến tính xâydựng được, người sử dụng tính tốn giá bán mặt hàng máy tính xách tay có thay đổi cấu hình hay nhà cung cấp sản phẩm 31 3.2 Tiến hành xâydựng mơ hình 3.2.1 Thu thập liệu Điều kiện tiên để xâydựng mơ hình hồi quy tuyến tính cần phải thu thập tập liệu xác, đáng tin cậy thuộc tính nhận giá trị số Do đó, liệukinhdoanh mặt hàng máy tính xác tay công ty điện máy lựa chọn phù hợp với ưu điểm như: - Thuộc tính giá bán (biến phụ thuộc) phụ thuộc nhiều vào thông số kỹ thuật dòng sản phẩm (biến độc lập) mà thuộc tính nhận giá trị số - Dữliệu bán hàng nhà phân phối cung cấp đầy đủ website thương mại điệntử Tuy nhiện, trình thu thập liệu gặp phải khơng khó khăn, điển hình là: - Thông tin sản phẩm cung cấp cách không thống theo khuôn dạng định - Các website thương mại điệntửthiết kế để hạn chế gây khó khăn cho việc khai thác liệu Sau khảo sát thực tế, liệu thu thập website thương mại điệntử Công ty cổ phân thương mại Nguyễn Kim với địa http://www.nguyenkim.com/may-tinh-xach-tay Dữliệu thu thập với thơng tin tên sản phẩm, vi xử lý CPU, ram, card hình, loại hình giá thành sản phẩm Website thương mại điệntử Công ty cổ phân thương mại Nguyễn Kim thiết kế tảng HTML Jsoup lựa chọn để phântích khai thác liệutừ tài liệu HTML Nó thư viện Java cung cấp API để phântích tài liệu HTML thành danh sách phầntử khai thác liệuphầntử Người sử dụng tải trực tiếp thư viện Jsoup dạng tập tin “jar” địa https://jsoup.org/download Jsoup phântích tài liệu HTML thành mơ hình DOM Người sử dụng cần hiễu rõ bố cục tài liệu HTML để truy cập xác đến phầntử cụ thể danh sách 32 a Tập tin Dom.html b Mơ hình DOM tập tin Dom.html Hình 3.2 Mơ hình DOM tập tin HTML đơn giản Jsoup bao gồm nhiều lớp đối tượng, ba lớp đối tượng quan trọng org.jsoup.Jsoup, org.jsoup.nodes.Document org.jsoup.nodes.Element Người sử dụng tìm hiểu cụ thể website https://jsoup.org Dữliệukinhdoanh mặt hàng máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim thu thập với thuộc tính tiêu biểu sau: TT 01 Tên thuộc tính NgayTT Khuôn dạng liệu 4/4/2016 Mô tả Ngày liệu thu thập 02 NhaPP Nguyen Kim Nhà phân phối sản phẩm 03 NhaCC Asus, Lenovo,… Nhà cung cấp sản phẩm 04 TenSP E402SA WX043D Tên sản phẩm 05 Gia 06 CPU_NhaCC 07 CPU_TocDo 08 CPU_Dem MB Cache 09 Ram_Loai SDRAM DDR3 10 Ram_DL GB 11 Ram_Bus 1600 MHz Tốc độ bus Ram 12 HDD_Loai SATA, SDD Loại ổ cứng 13 HDD_DL 500 GB, TB 14 Card_Loai 15 Card_DL 5.300.000 Giá bán sản phẩm Intel Celeron Tên nhà cung cấp CPU 1.60 GHz, 800 MHz Tốc độ CPU Dung lượng nhớ đệm CPU Loại Ram Dung lượng Ram Dung lượng ổ cứng Intel HD, GT 820M Loại card hình 2GB, Share Dung lượng card hình 33 16 MH_Loai 17 MH_KT 18 MH_DPG LED HD, Full HD Loại hình 14.0 inch, 15.6 inch Kích thước hình 1366 x 768 Pixels Độ phân giải hình Bảng 3.1 Danh sách thuộc tính tập liệu thu thập Qua trình khảo sát, chương trình thu thập liệu cài đặt sở ngơn ngữ lập trình Java có sử dụng thư viện Jsoup để khai thác thơng tin mặt hàng máy tính xách tay thương mại điệntử Công ty Cổ phần thương mại Nguyễn Kim Hình 3.3 Quá trình khai thác thơng tin sản phẩm Q trình thu thập liệu thực liên tục để theo dõi thay đổi giá bán dòng sản phẩm máy tính xác tay theo thuộc tính thu thập Cụ thể, với khoảng thời gian từ 04/4/2016 đến 19/7/2016, tập liệu thu thập định dạng “.csv” với 18 thuộc tính có 5.527 dòng liệu với 327 dòng sản phẩm 06 nhà cung cấp, 16 lần thu thập liệu 3.2.2 Tiền xử lý liệu Như trình bày Chương 2, liệu thu thập cần phải tiền xử lý trước đưa vào xâydựng mơ hình Ở đây, việc tiền xử lý liệu tiến hành theo 02 giai đoạn: - Giai đoạn 1: Loại bỏ liệudư thừa chuẩn hóa khn dạng liệu để WEKA đọc tập tin liệu “.csv” Cụ thể: 34 Tên thuộc tính ban đầu NgayTT Khn dạng liệu ban đầu 4/4/2016 Tên thuộc tính NgayTT Khuôn dạng liệu 2016-04-04 12:00:00 Gia 5.300.000 Gia 5300000 CPU_NhaCC Intel Celeron CPU_NhaCC Intel Celeron CPU_TocDo 1.60 GHz, 800 CPU_TocDo 1.60, 0.8 MHz CPU_Dem Ram_DL MB Cache GB CPU_Dem Ram_DL 1, 2, 3,… 2, 4,… Ram_Bus 1600 MHz Ram_Bus 1600, 1333,… HDD_Loai SATA, SDD, HDD SATA để trống SATA + SDD SDD SDD để trống 500 GB, TB, HDD_DL 0, 500, 1024 TB + 128 GB SDD_DL 0, 128 2GB, Share Card_DL 1, 2, 4, HDD_DL Card_DL “0” với card share MH_KT 14.0 inch, 15.6 inch MH_KT 14.0, 15.6 MH_DPG 1366 x 768 Pixels MH_DPG_W 1280, 1366, … MH_DPG_H 768, 800,… Tất giá trị chưa xác định biểu diễn “?” Bảng 3.2 Danh sách thuộc tính tiền xử lý Giai đoạn tiền xử lý này, chương trình cài đặt ngơn ngữ lập trình Java để tự động đọc liệutừ tập tin liệu ban đầu, xử lý giá trị dòng liệu ghi liệu vào tập tin Hình 3.4 Quá trình tiền xử lý liệu giai đoạn Kết thúc giai đoạn 1, tập tin liệu có 21 thuộc tính gồm: NgayTT, NhaPP, NhaCC, TenSP, Gia, CPU_NhaCC, CPU_TocDo, CPU_Dem, Ram_Loai, Ram_DL, Ram_Bus, HDD, SSD, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W, MH_DPG_H 35 - Giai đoạn 2: Tiến hành lọc liệu để loại bỏ ghi giống xử lý giá trị thiếu (missing value) cách sử dụng lọc liệu WEKA cung cấp Để loại bỏ ghi trùng lặp, sử dụng lọc RemoveDuplicates WEKA Các ghi coi trùng lặp chúng nhận giá trị thuộc tính hồn tồn giống Sau lọc liệu lần thứ nhất, tập tin liệu 5.099 dòng liệu a Lựa chọn lọc liệu b Dữliệu qua xử lý lọc Hình 3.5 Loại bỏ ghi giống tập tin liệu Để xử lý giá trị thiếu, người sử dụng cần sử dụng lọc RepalceMissingValue WEKA để thay giá trị thiếu dựa giá trị biết tập liệu huấn luyện Các giá trị thiếu thay giá trị trung bình cộng giá trị biết tất ghi a Lựa chọn lọc liệu 36 b Dữliệu qua xử lý lọc Hình 3.6 Xử lý giá trị thiếu tập liệu Cuối cùng, để hoàn tất việc tiền xử lý liệu, người sử dụng cần lưu lại tập liệu với định dạng “*.arff” 3.2.3 Lựa chọn thuộc tính Lựa chọn thuộc tính bước đóng vai trò quan trọng q trình xâydựng mơ hình Tập tin liệu thu thập sau tiền xử lý có 21 thuộc tính, thuộc tính “Gia” xác định thuộc tính dự báo hay biến phụ thuộc mơ hình hồi quy tuyến tính Người sử dụng cần sử dụng tính Select attributes Explorer để lựa chọn thuộc tính độc lập xâydựng mơ hình số 20 thuộc tính lại Phương thức tìm kiếm tập thuộc tính lựa chọn thơng qua phương pháp BestFirst Tập thuộc tính ban đầu chưa có thuộc tính lựa chọn Tìm kiếm tập thuộc tính chế leo đồi tham lam kết hợp với chế quay lui Phương thức đánh giá thuộc tính CfsSubsetEval lựa chọn để tìm tập thuộc tính có độ tương quan chặt chẽ với thuộc tính “Gia” dự đốn Bốn đối tượng tính Select attributes lựa chọn sau: - Thuộc tính dự đốn: (Num) Gia - Chế độ lựa chọn thuộc tính: Sử dụng tập huấn luyện đầy đủ Use full training set - Phương thức tìm kiếm: BestFirst 37 - Bộ đánh giá thuộc tính: CfsSubsetEval Kết 10 thuộc tính lựa chọn, bao gồm: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W Cần loại bỏ thuộc tính khơng lựa chọn tập tin liệu thu thập lưu lại tập tin liệu đầu vào sử dụng để xâydựng mô hình hồi quy tuyến tính 3.2.4 Xâydựng đánh giá mơ hình Để xâydựng mơ hình hồi quy tuyến tính, người sử dụng cần lựa tính Classify Explorer thiết lập đối tượng sau: - Bộ phân lớp: Lựa chọn functions/LinearRegression Ngoài ra, người sử dụng cần thiết lập thêm tùy chọn outputAdditionalStats = True để có thêm thơng tin kết mơ hình xâydựng Hình 3.7 Thiết lập bổ sung thông tin liệu đầu 38 - Các tùy chọn kiểm thử: Tiến hành kiểm thử xâydựng mô hình hồi quy tuyến tính 03 lần, lần lựa chọn 03 tùy chọn Use training set, Supplied test set Percentage split Trong đó: + Use training set: Sử dụng tập tin liệu đầu vào + Supplied test set: Chia tập tin liệu đầu vào thành 02 phần: Phần gồm liệu 15 lần thu thập để huấn luyện (4742 dòng liệu ≈ 93% liệu), phần gồm liệu lần thu thập cuối (357 dòng liệu ≈ 7% liệu) để kiểm thử + Percentage split: Chia tập tin liệu đầu vào thành phần: Phần có 66% liệu để huấn luyện, phần có 34% liệu lại để kiểm thử - Lựa chọn thuộc tính dự đốn: (Num) Gia Kết thu được: Kiểm thử Kiểm thử Kiểm thử Use training set Supplied test set Percentage split R^2 value 0.9655 0.9645 0.9655 Adjusted R^2 0.9651 0.96403 0.9651 2238.7534 1955.806 2238.7534 0.9826 0.987 0.9828 837,146 879,776 838,952 1,138,025 1,158,829 1,125,783 Root relative squared error 20.6454 % 18.5656 % 19.2251 % 16.1924 % 20.9419 % 18.5856 % Total Number of Instances 5,099 357 1,734 F-statistic Correlation coefficient Mean absolute error Root mean squared error Relative absolute error Bảng 3.3 Kết kiểm thử mơ hình Đánh giá mơ hình: Kết kiểm thử mơ hình hồi quy tuyến tính xâydựng WEKA tập tin liệu đầu vào chấp nhận Cụ thể sau: - Hệ số xác định r2 qua 03 lần kiểm thử đạt giá trị lớn 0.96 cho thấy 96% thay đổi biến phụ thuộc “Gia” giải thích tập biến độc lập lựa chọn 39 - Từ hệ số xác định r2 tính hệ số tương quan qua 03 lần kiểm thử đạt giá trị lớn 0.98 cho thấy biến phụ thuộc “Gia” có mối tương quan chặt chẽ với tập biến độc lập lựa chọn Tuy nhiên, cần phải thêm biến độc lập chưa lựa chọn vào mơ hình để khảo sát phù hợp mơ hình xâydựng Q trình thêm biến độc lập thực qua 05 lần, cụ thể sau: - Lần thứ 1: Thêm biến độc lập “HDD_DL”, mơ hình có 12 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W - Lần thứ 2: Thêm biến độc lập “Ram_Bus”, mơ hình có 13 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_DPG_W - Lần thứ 3: Thêm biến độc lập “MH_KT”, mơ hình có 14 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W - Lần thứ 4: Thêm biến độc lập “Ram_Loai”, mô hình có 15 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W - Lần thứ 5: Thêm biến độc lập “CPU_TocDo”, mô hình có 16 biến gồm NgayTT, NhaCC, Gia, CPU_NhaCC, CPU_TocDo, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W Kết thu sau: Bảng 3.4 Kết q trình thêm biến độc lập vào mơ hình 40 Qua 05 lần thêm biến độc lập vào mô hình, hệ số mơ hình cải thiện Trong đó: - ̅̅ Hệ số xác định điều chỉnh (Adjusted R^2) tăng 04 lần khảo sát đầu từ 0.9651 lên 0.96679 - Sai số trung bình tuyệt đối (Mean absolute error) giảm qua 04 lần khảo sát đầu từ 837,416 xuống 809,546 Tổng kết: Thêm biến độc lập Ram_Bus, Ram_Loai, HDD_DL, MH_KT vào mơ hình cần thiết Vậy, mơ hình hồi quy tuyến tính thiết lập với 15 biến, gồm: - Biến phụ thuộc: Gia - Biến độc lập: NgayTT, NhaCC, CPU_NhaCC, CPU_Dem, Ram_Bus, Ram_Loai, Ram_DL, HDD_DL, SSD_DL, Card_Loai, Card_DL, MH_Loai, MH_KT, MH_DPG_W 3.3 Tính tốn thử nghiệm độ xác dự báo Sau xâydựng mơ hình hồi quy tuyến tính, WEKA hỗ trợ người sử dụng khảo sát độ xác dự báo thơng qua việc so sánh giá sản phẩm thực tế giá sản phẩm dự đốn mơ hình hồi quy tuyến tính Q trình khảo sát hỗ trợ thơng qua tính đồ thị hóa sai số mơ hình hồi quy tuyến tính Hình 3.8 Mơ hình hóa sai số mơ hình 41 Ngồi ra, WEKA hỗ trợ trích xuất kết dự báo mơ hình thành tập tin liệu kết với định dạng “arff” Tuy nhiên, để thuận tiện cho việc đánh giá khảo sát, người sử dụng mở tập tin liệu kết định dạng “arff” WEKA lưu lại định dạng “csv” a Tập tin “arff” mở WEKA b Tập tin “csv” mở Excel Hình 3.9 Tập tin liệu kết Qua khảo sát tập tin liệu kết quả, thu số thông tin sau: - Sai số lớn nhất: 9.874.898đ 01 dòng liệu NhaCC 2406 Dell predictedGia 28,115,101.01 Gia 37,990,000.00 Error 9,874,898.99 CPU_NhaCC 'Intel Core i7' NhaCC predictedGia Gia 4743 HP 42,990,000.00 42,990,000.00 Error 5.99E-06 CPU_NhaCC 'Intel Core i7' 5015 Lenovo 15,989,999.99 15,990,000.00 0.005004 'Intel Core i5' 5099 5.99E-06 'Intel Core i7' - Sai số nhỏ nhất: ≈ 0đ với giá thực tế 02 dòng liệu - HP 42,990,000.00 42,990,000.00 Sai số nhỏ 500.000đ: có 2130/5099 dòng liệu chiếm ≈ 41,77% Sai số lớn 2.000.000đ: có 344/5099 dòng liệu chiếm ≈ 6,75% 42 Chương KẾT LUẬN Việc ứngdụngphântíchliệu vào cơng tác dự báo hướng nghiêncứu có nhiều triển vọng, áp dụng cho nhiều lĩnh vực đời sống xã hội Nó hỗ trợ, hoạch đĩnh chiến lược hay kế hoạch đầu tư phát triển hợp lý Bên cạnh đó, với phát triển khơng ngừng Ngành công nghệ thông tin, công cụ hỗ trợ phântíchliệu ngày phong phú hỗ trợ đắc lực người công tác dự báo Thơng qua q trình nghiêncứu mơ hình hồi quy tuyến tính cơng cụ hỗ trợ WEKA, luận văn tiến hành giải toán thực tế công tác dự báo Cụ thể, luận văn sâu nghiêncứu làm rõ nội dung sau: - Đưa sở lý thuyết mô hình hồi quy tuyến tính ứngdụng việc phântíchliệu để tiến hành dự báo - Tìm hiểu, nghiêncứu công cụ hỗ trợ WEKA việc xâydựng mơ hình hồi quy tuyến tính để tiến hành dự báo - Sử dụng công cụ hỗ trợ WEKA để giải toán thực tế phântíchliệu bán hàng dự báo giá bán sản phẩm máy tính xách tay Cơng ty cổ phần thương mại Nguyễn Kim Luận văn cho thấy hữu ích việc phântíchliệu để áp dụng, giải toán thực tế Tuy nhiên, số nguyên nhân khách quan chủ quan, luận văn tồn số hạn chế sau: - Dữliệu thu thập đơn vị dẫn đến công tác dự bảo dừng lại phạm vi cục - Chưa tìm hiểu hết tất tính cơng cụ hỗ trợ WEKA để giải toàn thực tế Để khắc phục hạn chế nêu trên, thời gian tới, luận văn tiếp tục nghiêncứu mở rộng phạm vi thu thập liệu, tìm hiểu rõ công cụ hỗ trợ WEKA công cụ hỗ trợ khác để tiến hành dự báo có tính khái quát xác 43 TÀI LIỆU THAM KHẢO Tiếng Việt Trần Ngọc Minh (2006), Kinh tế lượng, Học viện Cơng nghệ Bưu - Viễn thông, Hà Nội https://websrv1.ctu.edu.vn/coursewares/kinhte/phantichdulieu/chuong6 htm Tiếng Anh Ian H Witten, Eibe Frank, Mark A Hall (2011), Data Mining Practical Machine Learning Tools and Techniques Ramu Ramanathan (2002), Introductory Econometrics with Applications https://www.ibm.com/developerworks/vn/library/12/ba-predictiveanalytics1/ ... triển vượt bậc, phân tích liệu phân tích đồng thời quan hệ nhiều biến Phân tích liệu chia thành phân tích liệu thăm dò EDA phân tích liệu khẳng định CDA Phân tích liệu thăm dò dùng liệu để xác định... thêm dịch vụ phân tích kinh doanh Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụng phân tích liệu vào lĩnh vực kinh doanh Dữ liệu bán hàng công ty điện máy khối liệu đồ sộ với... dựa liệu có Vấn đề nghiên cứu ứng dụng phân tích liệu vào lĩnh vực phổ biến phát triển giới Tuy nhiên, Việt Nam, vấn đề chưa ứng dụng rộng rãi, lĩnh vực kinh doanh thương mại Trên sở nghiên cứu