1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu Dự đoán thuê phòng trọ

28 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Công nghệ này đã, đang và sẽ có nhiều ứng dụng trong các lĩnh vực thương mại, ngân hàng, y tế, giáo dục…Trong các mô hình phân lớp đã được đề xuất, cây quyết định được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp với các ứng dụng khai phá dữ liệu. Thuật toán phân lớp là nhân tố trung tâm trong một mô hình phân lớp

KHOA CÔNG NGH Ệ THÔNG TIN ĐỒ ÁN MÔN: KHAI PHÁ DỮ LIỆU TÊN ĐỀ TÀI: BÀI TOÁN DỰ ĐOÁN THUÊ PHÒNG TRỌ MỤC LỤC Lời mở đầu Chương 1: Tổng quan Giới thiệu khai phá liệu máy học 1.1 Lịch sử vai trò data mining 1.2 Ưu điểm thách thức data mining 1.3 Lịch sử vai trò machine learning 1.4 Ưu điểm hạn chế Học có giám sát khơng giám sát Trình bày tốn: 11 2.1 Input 11 2.2 Output 11 Phương pháp học máy sử dụng 11 3.1 Giới thiệu: 11 3.2 Ưu nhược điểm định 12 3.3 Cơng thức tính tốn 12 Chương 2: Thực nghiệm 15 Mơ tả tập ví dụ huấn luyện tập test 15 Mô tả Chương trình demo 16 2.1 IMPORT LIBRARIES 16 2.2 LOAD AND PREPARE DATA 16 2.3 DECISION TREE: TRAIN MODEL 17 2.4 Calculate Mean Accuracy on Training Data 17 2.5 Optimize the Decision Tree 17 2.6 Plot Accuracy Against Various Parameters 18 2.7 Display the Decision Tree 18 2.8 Visualize the Confusion Matrix 18 2.9 Calculate Mean Accuracy on Testing Data 19 Dataset 19 Kết thực thuật toán vào dataset 20 Chương 3: Kết luận 24 Tài liệu tham khảo 25 Lời mở đầu Phân lớp liệu hướng nghiên cứu khai phá liệu Cơng nghệ đã, có nhiều ứng dụng lĩnh vực thương mại, ngân hàng, y tế, giáo dục…Trong mơ hình phân lớp đề xuất, định coi công cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng khai phá liệu Thuật toán phân lớp nhân tố trung tâm mơ hình phân lớp Để hồn thành đồ án mơn học này, nhóm chúng em nhận nhiều giúp đỡ từ nhiều phía, nhóm chúng em xin chân thành cảm ơn: Sự giúp đỡ tận tình thầy Vũ Ngọc Thanh Sang - cung cấp kiến thức bổ ích dẫn nhóm em Cảm ơn đóng góp ý kiến từ bạn lớp, luận văn đồ án anh chị khố trước giúp nhóm tham khảo Tuy nhiên, cịn nhiều thiếu sót sai sót mà nhóm chưa hồn thành tốt, mong bạn thông cảm bỏ qua Chương 1: Tổng quan Giới thiệu khai phá liệu máy học 1.1 Lịch sử vai trò data mining Trước đây, Data mining cịn có tên gọi khác “Khám phá tri thức sở liệu” Thuật ngữ “Khai thác liệu” không sử dụng năm 1990 Thế nhưng, tảng bao gồm ngành khoa học đan xen: thống kê, trí tuệ nhân tạo học máy (Machine learning) Trong nhiều thập kỷ qua, phát triển Data mining với tiến sức mạnh xử lý tốc độ cho phép người vượt khỏi thực tiễn thủ công, tốn thời gian để phân tích liệu nhanh chóng, dễ dàng Các liệu thu thập ngày phức tạp có nhiều tiềm để khám phá kiến thức Các nhà bán lẻ, ngân hàng, nhà sản xuất, cung cấp viễn thông, công ty bảo hiểm… sử dụng Data mining để ứng dụng vào hoạt động kinh doanh, tối ưu hóa giá thành, khuyến mãi, nhân học, hoạt động doanh nghiệp mối quan hệ họ với khách hàng KPDL trình khảo sát phân tích khối lượng lớn liệu lưu trữ sở liệu, kho liệu…để từ trích xuất thơng tin quan trọng, có giá trị tiềm ẩn bên Do nhu cầu nghiệp vụ cần có cách nhìn thơng tin quy mơ tồn đơn vị Các liệu thu từ nhiều nguồn, đa số từ phần mềm nghiệp vụ như: phần mềm tài chính, kế toán, hệ thống quản lý tài nguyên doanh nghiệp, hệ thống quản lý khách hàng hay từ tác công cụ lưu trữ thông tin web… Đây khối liệu khổng lồ thông tin mà thể lộn xộn “nghèo” người dùng Kích thước khối liệu khổng lồ tăng với tốc độ nhanh chiếm nhiều dung lượng lưu trữ KPDL giúp trích xuất mẫu điển hình có giá trị biến chúng thành tri thức hữu ích Quá trình gồm số bước thể hình sau Ý nghĩa cụ thể bước sau: • Lựa chọn liệu liên quan đến tốn quan tâm Hình 2-1 Các bước xây dựng hệ thống KPDL • Tiền xử lý liệu, làm liệu - Chuyển đổi liệu dạng phù hợp thuận lợi cho việc khai phá • KPDL, trích xuất mẫu liệu (mơ hình) • Đánh giá mẫu • Sử dụng tri thức khai phá 1.2 Ưu điểm thách thức data mining Ưu điểm khai phá liệu: Khai phá liệu trình để thu thập, trích xuất, lưu trữ phân tích liệu cho hiểu biết cụ thể trí thơng minh hành động Hãy xem khai phá liệu vấn đề khai phá khoáng sản – bạn phải đào qua lớp vật liệu để khám phá thứ có giá trị cao Các cơng ty khắp lĩnh vực – quy mô, ngành tồn giới – dựa vào để thu thập thơng tin tình báo để sử dụng thứ từ ứng dụng hỗ trợ định cung cấp AI thuật toán học máy cho phát triển sản phẩm, chiến lược tiếp thị mơ hình tài Vấn đề cốt lõi khai phá liệu mơ hình thống kê áp dụng cho hồi quy tuyến tính logistic Kết hợp với phân tích dự đốn, từ phát loạt xu hướng, bất thường vấn đề trước mà công ty sử dụng để kinh doanh tốt Các khảo sát gần cho thấy 90% nhà lãnh đạo CNTT doanh nghiệp muốn sử dụng nhiều phân tích liệu tổ chức họ Họ chủ yếu quan tâm đến việc cải thiện việc định chiến lược, giảm thiểu rủi ro bảo mật tính dễ bị tổn thương tăng cường lập kế hoạch dự báo tài nguyên Ở đây, cách thức khai phá liệu sử dụng số chức kinh doanh chính: Tài chính: Phân tích liệu sâu để tạo mơ hình rủi ro xác cho việc cho vay, sáp nhập/mua lại khám phá hoạt động gian lận Hoạt động CNTT: khai phá liệu hỗ trợ thu thập, xử lý phân tích khối lượng liệu ứng dụng, mạng sở hạ tầng để khám phá hiểu biết bảo mật hệ thống CNTT hiệu suất mạng Tiếp thị: Bề mặt trước ẩn xu hướng hành vi người mua dự đoán hành vi khách hàng tương lai để xác định người mua xác Từ tạo nhiều chiến dịch nhắm mục tiêu để tăng tham gia quảng bá sản phẩm dịch vụ Nhân sự: Khai phá liệu từ hồ sơ ứng viên, từ cung cấp nhìn tồn diện ứng viên Xác định kết phù hợp cho vai trò cách sử dụng phân tích liệu để đánh giá trình độ, kinh nghiệm, kỹ năng, chứng vị trí cơng việc đảm nhiệm trước khai phá liệu điều bắt buộc để trì tính cạnh tranh đạt lợi chiến lược kỷ nguyên số kinh doanh Liên hệ với chúng tơi hơm để tìm hiểu cách thức Renova Cloud đơn giản hóa hợp lý hóa tất hoạt động khai phá phân tích liệu bạn đáp ứng tất mục tiêu kinh doanh dựa liệu bạn Hạn chế khai phá liệu: Mục tiêu kỹ thuật khai phá liệu lớn đưa thông tin yêu cầu chí phát mối quan hệ ẩn mẫu (pattern) hàng loạt tham số Việc phân tích dịng liệu nhanh lớn đưa tri thức có giá trị chí khái niệm mang tính lý thuyết So sánh với kết thu từ khai phá liệu thông thường, việc khai phá liệu lớn lĩnh vực có tiềm tối đa hóa tri thức hiểu biết lĩnh vực Tuy nhiên, theo nhà phân tích Gartner đặc điểm trội liệu lớn chữ V (Volume - kích thước, Velocity - biến đổi, Variety - đa dạng) (hoặc gọi tắt V3) Do đó, khai phá liệu lớn phải đối mặt với tính khơng đồng nhất, kích thước lớn, tốc độ, bảo mật, xác, tin cậy Sự đa dạng khơng đồng Các kỹ thuật khai phá liệu trước sử dụng để khai phá mẫu chưa biết mối quan hệ tập liệu nhỏ, có cấu trúc, đồng Sự đa dạng - đặc điểm quan trọng liệu lớn Đây kết tổng hợp gần không giới hạn nguồn liệu, hệ tất yếu tượng không đồng liệu Dữ liệu lớn đến từ nhiều nguồn khác từ mạng xã hội, website, trường đại học, báo, hội thảo đến công ty, doanh nghiệp với mối quan hệ xã hội phức tạp chúng Việc khai phá liệu lớn thách thức lớn đến mức khó dự đốn lẽ việc xử lý nguồn liệu gồm có cấu trúc, bán cấu trúc phi cấu trúc vấn đề phức tạp Các hệ thống sở liệu ngày phù hợp tốt với cấu trúc liệu có cấu trúc phù hợp phần với liệu bán cấu trúc chắn không phù hợp với liệu phi cấu trúc Tuy nhiên, tính khơng đồng liệu đem lại hội khám phá tri thức nguồn liệu lớn Xét ví dụ kinh điển khai phá liệu: xem xét mối quan hệ mặt hàng cửa hàng tạp hoá Các ghi tập liệu lưu trữ thuộc kiểu liệu (các mặt hàng) Cụ thể mối liên hệ chặt chẽ "bia bỉm“ hay "sữa“ sản phẩm phổ biến mua hầu hết khách hàng cho thấy mối liên hệ mạnh mẽ "sữa“ sản phẩm khác Trái ngược với đó, khai phá liệu lớn phải đối mặt với liệu bán cấu trúc không đồng Mở rộng ví dụ đơn giản cho trang bán hàng trực tuyến eBay Các liệu gồm kiểu đối tượng khác nhau: mặt hàng, người mua, người bán Các mối quan hệ tồn như: mặt hàng quan hệ "mua với“, người bán mặt hàng quan hệ "bán“ "bán bởi“, mua mặt hàng quan hệ "mua“ "mua bởi“, người mua người bán quan hệ "mua từ“ "bán cho“ Rõ ràng, mạng liệu có kiểu đối tượng quan hệ khác kĩ thuật khai phá liệu phát hết mối quan hệ tiềm ẩn nội mạng liệu Thực tế cho thấy việc xây dựng mơ hình đơn để khai phá liệu khơng đồng dẫn đến kết khai phá không chấp nhận Do vậy, cần thiết phải xây dựng hệ thống phức tạp, đa mơ hình Vucetic [5] giới thiệu thuật toán thú vị để xử lý liệu khơng đồng Theo đó, tác giả sử dụng kĩ thuật phân hoạch tập liệu ban đầu thành tập đồng áp dụng mơ hình chuyên biệt cho tập đồng Kỹ thuật phân hoạch giúp đẩy nhanh trình khám phá tri thức từ liệu lớn không đồng làm bỏ sót tri thức tiềm việc phân hoạch làm phá vỡ mối quan hệ quan trọng liệu Tương tự khai phá liệu, trình khai phá liệu lớn bắt đầu với việc lựa chọn liệu (từ nhiều nguồn), lọc liệu, làm sạch, giảm, chuyển đổi Tại bước tiền xử lý tồn thách thức Với lọc liệu, ta đảm bảo liệu bị loại bỏ không làm suy giảm nghiêm trọng chất lượng kết cuối khai phá phức tạp tính khơng đồng liệu lớn? Các vấn đề tương tự nảy sinh với bước tiền xử lý khác hoạt động trình khai phá liệu Quy mô liệu Dung lượng quy mô lớn chưa có liệu lớn địi hỏi công cụ quản lý khai phá liệu phải cải tiến tương ứng Điểm quan trọng với quy mơ cực lớn ta có nhiều hội để khám phá nhiều tri thức liệu thông thường (quy mô nhỏ) Những hướng tiếp cận áp dụng hợp lý đem lại hiệu khai phá liệu lớn: (1) điện tốn đám mây kết hợp với tính tốn song song; (2) tương tác người dùng (đồ hoạ - GUI dựa ngôn ngữ) - giúp việc tương tác người dùng hệ thống trở nên nhanh chóng hiệu - Tốc độ/tính chuyển động liên tục Đối với liệu lớn, tốc độ/chuyển động liên tục thực quan trọng Khả truy nhập nhanh khai phá liệu lớn không mong muốn chủ quan mà nhiệm vụ xử lý đặc biệt dòng liệu (data stream) (một định dạng phổ biến liệu lớn) - phải hồn thành việc xử lý/khai phá dịng liệu thời gian định, khơng kết xử lý/ khai phá trở nên có giá trị chí vơ giá trị Chẳng hạn, ứng dụng đòi hỏi chạy theo thời gian thực dự đoán động đất, dự đoán thị trường chứng khoán, thị trường ngoại hối… Tốc độ khai phá liệu phụ thuộc vào hai yếu tố chính: (1) thời gian truy cập liệu (được xác định chủ yếu hệ thống lưu trữ liệu); (2) hiệu thuật toán khai phá liệu Việc khai thác chương trình lập mục tiên tiến chìa khóa giải vấn đề tốc độ Cấu trúc số đa chiều đặc biệt hữu ích cho liệu lớn Ví dụ, kết hợp R-Tree KD-tree gần FastBit [2] (được phát triển nhóm nghiên cứu LBNL) sử dụng cho liệu lớn Bên cạnh đó, nhà nghiên cứu mong muốn thiết kế chương trình lập mục mới, hiệu vấn đề thách thức lớn cộng đồng nghiên cứu - Tính xác tin cậy Trước đây, hệ thống khai phá liệu thường sử dụng liệu từ nguồn tin cậy hạn chế, vậy, kết khai phá thường có độ xác cao Tuy nhiên, liệu lớn, liệu đến từ nhiều nguồn khác nhau, từ nguồn không tin cậy kiểm chứng Vì vậy, độ xác tin cậy nguồn liệu mà kéo theo kết khai phá vấn đề cần xem xét Để giải vấn đề (ít phần) việc xác thực liệu xác minh nguồn gốc liệu bước quan trọng toàn q trình khai phá tri thức Dữ liệu lớn có tính động (dynamic) cao, đó, hệ thống phân tích quản lý liệu lớn phải cho phép liệu quản lý thay đổi phát triển Vì vậy, "dữ liệu gốc“ (data provenance) thành phần thiếu hệ thống xử lý liệu lớn Dữ liệu gốc liên quan đến lịch sử phát triển, tiến hoá nguồn gốc mà liệu trích xuất hay thu thập Khi liệu phát triển, độ đo tin cậy cần thay đổi cập nhật, đó, độ đo khơng nên thiết lập - cố định Các nghiên cứu rằng, phương pháp học bán giám sát (semi-supervised) với liệu thực cung cấp độ xác độ tin cậy cao nguồn liệu khác Các phương pháp xử lý liệu lớn chạy tảng song song (nền tảng đám mây - PaaS IaaS) với khả mở rộng nhiều nguồn liệu Nguồn gốc liệu góp phần trực tiếp vào độ xác tin cậy kết khai phá liệu Tuy nhiên, thông tin nguồn gốc liệu lúc có sẵn ghi chép Việc khai phá liệu sử dụng để phát xác minh nguồn gốc liệu World Wide Web - xem nguồn liệu lớn sở tri thức mang đầy đủ thông tin cần thiết để đưa câu trả lời tốt cho nhiều câu hỏi hóc búa, kích thước kho lưu trữ liệu lớn tiếp tục tăng với tốc độ chưa có Cơng nghệ khai phá liệu lớn sớm trả lời nhiều câu hỏi lớn nhân loại khai phá toàn World Wide Web địi hỏi vượt trội trí tuệ người Bảo mật Dữ liệu riêng tư vấn đề cần xem xét khai phá liệu Vấn đề nghiêm trọng ứng dụng khai phá liệu lớn thường đòi hỏi thông tin cá nhân để tạo kết có liên quan đến cá nhân dịch vụ dựa địa điểm (chẳng hạn quảng cáo) Hơn nữa, liệu có từ phương tiện truyền thông hay mạng xã hội, thông tin cá nhân nhiều người thường có liên quan đến dễ dàng bị "đào xới“ ứng dụng khai phá liệu Một ví dụ đơn giản, giao dịch sống hàng ngày đưa lên mạng lưu vết đó: email, tin nhắn, blog, Facebook, mua sắm, toán hoá đơn trực tuyến, số điện thoại, địa nhà, ngày sinh… Hiện nay, nhiều thơng tin bí mật bảo vệ (với mức độ định), chẳng hạn cơng ty thẻ tín dụng nắm giữ bí mật thơng tin nhận dạng chủ thẻ Theo thời gian, thông tin cá nhân người nằm rải rác mạng Tuy nhiên, điều khơng có nghĩa khơng bị "đào xới“ lên vào ngày tương lai Tất vấn đề thời gian Mọi người dễ dàng có đặc quyền sử dụng công cụ mạnh mẽ (qua SaaS đám mây) Nếu khơng có chắn bảo vệ cho riêng tư bạn, kẻ xấu mở tài khoản thẻ tín dụng tên bạn dễ dàng lấy tiền bạn ngân hàng Tất thứ dường trở thành có thể! Rõ ràng, cần có sách đắn phương pháp tiếp cận để quản lý việc chia sẻ liệu cá nhân, tạo điều kiện cho hoạt động khai phá liệu hợp pháp - Sự tương tác Sự tương tác khả tính hệ thống khai phá liệu cho phép người dùng tương tác cách nhanh chóng đầy đủ (phản hồi/can thiệp/hướng - dẫn từ người dùng) Sự tương tác trở thành vấn đề quan trọng khai phá liệu lớn Nó liên quan đến ba chữ V Sử dụng thơng tin phản hồi/hướng dẫn giúp thu hẹp khối lượng liệu, đẩy nhanh tốc độ xử lý, tăng khả mở rộng hệ thống Hệ thống tương tác cho phép người dùng có khả hình dung, đánh giá (tiền đánh giá) giải thích kết khai phá trung gian cuối 1.3 Lịch sử vai trò machine learning Trường hợp mạng nơ-ron vào năm 1943, nhà sinh lý học thần kinh Warren McCulloch nhà toán học Walter Pitts viết báo nơron cách chúng hoạt động Họ định tạo mơ hình cách sử dụng mạch điện, mạng nơ-ron đời Năm 1950 Alan Turing tạo Bài kiểm tra Turing tiếng giới Bài kiểm tra đơn giản - để máy tính vượt qua, phải thuyết phục người người khơng phải máy tính Năm 1952 chứng kiến chương trình máy tính học chạy Đó trị chơi chơi cờ, tạo Arthur Samuel Frank Rosenblatt thiết kế mạng nơ-ron nhân tạo vào năm 1958, gọi Perceptron Mục tiêu việc nhận dạng mẫu hình dạng Một trường hợp sớm khác mạng nơ-ron vào năm 1959, Bernard Widrow Marcian Hoff tạo hai mơ hình chúng Đại học Stanford Đầu tiên gọi ADELINE, phát mẫu nhị phân Thế hệ gọi MADELINE, loại bỏ tiếng vọng đường dây điện thoại, có ứng dụng hữu ích giới thực ● Những năm 1980 1990: Năm 1982 năm mà mối quan tâm đến mạng nơ-ron bắt đầu tăng trở lại, John Hopfield đề xuất tạo mạng lưới có đường hai chiều, tương tự cách nơron thực hoạt động Hơn nữa, vào năm 1982, Nhật Bản tuyên bố họ tập trung vào mạng nơ-ron tiên tiến hơn, nhằm khuyến khích tài trợ Mỹ vào khu vực tạo nhiều nghiên cứu lĩnh vực Mạng nơron sử dụng lan truyền ngược (được giải thích chi tiết phần Giới thiệu Mạng thần kinh) bước quan trọng đến vào năm 1986, ba nhà nghiên cứu từ khoa tâm lý học Stanford định mở rộng thuật toán Widrow Hoff tạo vào năm 1962 Do đó, điều cho phép nhiều lớp sử dụng mạng nơ-ron, tạo gọi 'người học chậm', học thời gian dài Cuối năm 1980 1990 không mang lại nhiều điều cho lĩnh vực Tuy nhiên vào năm 1997, máy tính Deep Blue IBM, máy tính chơi cờ vua, đánh bại nhà vô địch cờ vua giới Kể từ đó, có nhiều tiến lĩnh vực này, chẳng hạn vào năm 1998, nghiên cứu Phịng thí nghiệm AT&T Bell nhận dạng chữ số cho kết xác tốt việc phát mã bưu điện viết tay từ ● Nút lá: mang tên lớp C Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Các nhánh: đường nối với nút thể giá trị cụ thể cho biến Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định 3.2 Ưu nhược điểm định So với phương pháp khai phá liệu khác, định phương pháp có số ưu điểm: ● Cây định dễ hiểu Người ta hiểu mơ hình định sau giải thích ngắn ● Việc chuẩn bị liệu cho định không cần thiết Các kỹ thuật khác thường địi hỏi chuẩn hóa liệu, cần tạo biến phụ (dummy variable) loại bỏ giá trị rỗng ● Cây định xử lý liệu có giá trị số liệu có giá trị tên thể loại Các kỹ thuật khác thường chuyên để phân tích liệu gồm loại biến Chẳng hạn, luật quan hệ dùng cho biến tên, mạng nơ-ron dùng cho biến có giá trị số ● Cây định mơ hình hộp trắng Nếu quan sát tình cho trước mơ hình, dễ dàng giải thích điều kiện logic Boolean Mạng nơ-ron ví dụ mơ hình hộp đen, lời giải thích cho kết q phức tạp để hiểu ● Có thể thẩm định mơ hình kiểm tra thống kê Điều làm cho ta tin tưởng vào mơ hình ● Cây định xử lý tốt lượng liệu lớn thời gian ngắn Có thể dùng máy tính cá nhân để phân tích lượng liệu lớn thời gian đủ ngắn phép nhà chiến lược đưa định dựa phân tích định Nhược điểm định - khó giải vấn đề có liệu phụ thuộc thời gian liên tục - dễ xảy lỗi có nhiều lớp chi phí tính tốn để xây dựng mơ hình định CAO 3.3 Cơng thức tính tốn Cây định học (xây dựng) từ liệu huấn luyện Với liệu xây dựng nhiều định Quá trình học trình tìm kiếm định phù hợp với liệu huấn luyện 12 3.3.1 Thuật toán C4.5 thuật toán dùng để xây dựng định đề xuất Quinlan [7] năm 1993 , mở rộng ID3 Đặc điểm C4.5: ● Cho phép liệu đầu vào thuộc tính liên tục ● Cho phép thao tác với thuộc tính có liệu không xác định (do bị mát liệu) ● Đưa phương pháp cắt tỉa giản lược luật để phù hợp với liệu lớn ● C4.5 sử dụng chế lưu trữ liệu thường trú nhớ, đặc điểm làm C4.5 thích hợp với sở liệu nhỏ, chế xếp lại liệu nút trình phát triển định ● C4.5 chứa kỹ thuật cho phép biểu diễn lại định dạng danh sách thứ tự luật if-then (một dạng quy tắc phân lớp dễ hiểu) Kỹ thuật cho phép làm giảm bớt kích thước tập luật đơn giản hóa luật mà độ xác so với nhanh tương ứng định tương đương C4.5 có chế sinh định hiệu chặt chẽ việc sử dụng độ đo lựa chọn thuộc tính tốt Information Gain Các chế xử lý với giá trị lỗi, thiếu tránh phù hợp liệu C4.5 với chế cắt tỉa tạo nên sức mạnh C4.5 Thêm vào đó, mơ hình phân lớp C4.5 cịn có phần chuyển đổi từ định sang luật dạng if-then, làm tăng độ xác tính dễ hiểu kết phân lớp Đây tiện ích có ý nghĩa người sử dụng Độ đo GainRatio sử dụng thuật toán C4.5 cải tiến thuật toán ID3 xây dựng Quinlan thước đo cải tiến số Information Gain Tiêu chuẩn đánh giá thuộc tính GainRatio xác định cách chia độ tăng thông tin cho thông tin chia (khi SI(S,A)=0 cần có phương án xử lý riêng) ● Khởi đầu: nút thời nút gốc chứa toàn tập liệu huấn luyện ● Tại nút thời n, lựa chọn thuộc tính: ○ Chưa sử dụng nút tổ tiên ○ Cho phép phân chia tập liệu thời thành tập cách tốt 13 ○ Với giá trị thuộc tính chọn thêm nút bên ○ Chia ví dụ nút thời nút theo giá trị thuộc tính chọn ● Lặp (đệ quy) khi: ○ Tất thuộc tỉnh sử dụng nút phía trên, ○ Tất ví dụ nút thời có nhãn phần loại ○ Nhãn nút lấy theo đa số nhãn ví dụ nút thời 3.3.2 Tiêu chuẩn chọn thuộc tính ID3 ● Tại nút n ○ Tập (con) liệu ứng với nút ○ Cần lựa chọn thuộc tính cho phép phân chia tập liệu tốt ● Tiêu chuẩn: ○ Dữ liệu sau phân chia đồng tốt ○ Đo độ tăng thông tin (Information Gain - IG) ○ Chọn thuộc tính có độ tăng thơng tin lớn ○ IG dựa entropy tập (con) liệu Entropy ● Trường hợp tập liệu s có loại nhãn: (+) sai (-) Entropy(S) = - p+ log2 p+ -p_log2p_ Với: p+: % số mẫu p_: % số mẫu sai ● Trường hợp tổng quát: có C loại nhãn Entropy(S) = ∑ci=1 -pilog2pi Với: pi: % ví dụ S thuộc loại i 3.3.3 Độ tăng thông tin IG Với tập (con) mẫu S thuộc tính A IG(S,A)= Entropy(S) - ∑_(V∈values(A)).|S៴ | / |S|.Entropy(S៴) Trong đó: ★ value(A): tập giá trị A ★ Sv tập S bao gồm mẫu có giá trị A v ★ |S| số phần từ S 3.3.4 Các đặc điểm ID3 ● ID3 thuật tốn tìm kiếm định phù hợp với liệu huấn luyện ● Tìm kiếm theo kiểu tham lam, rỗng ● Hàm đánh giá độ tăng thơng tin ● ID3 có khuynh hướng (bias) lựa chọn đơn giản ○ Ít nút ○ Các thuộc tính có độ tăng thơng tin lớn nằm gần gốc 14 3.3.5 Training error test error ● Training error (lỗi huấn luyện) ○ Là lỗi đo tập liệu huấn luyện ○ Thường đo sai khác giá trị tính tốn mơ hình giá trị thực liệu huấn luyện ○ Trong trình học ta cố gắng làm giảm tới mức tối thiểu lỗi huấn luyện ● Test error (lỗi kiểm tra) ○ Là lỗi đo tập liệu kiểm tra ○ Là ta thực quan tâm 3.3.6 Chống vừa liệu cắt tỉa (Overfitting) ● Chia liệu thành hai phần: ○ Huấn luyện ○ Kiểm tra ● Tạo đủ lớn liệu huấn luyện ● Tính độ xác tập kiểm tra ● Loại bỏ cho kết liệu kiểm tra cải thiện ● Lặp lại khơng cịn cải thiện kết Chương 2: Thực nghiệm Mơ tả tập ví dụ huấn luyện tập test - Mô tả tập huấn luyện: yếu tố liên quan đến việc thuê nhà trọ - Tập huấn luyện có 149 mẫu với thuộc tính: ● Khoảng cách (km) ● Diện tích (m2) ● Nhà để xe (có/ khơng) ● Nhà vệ sinh riêng (có/ khơng) ● Gần bệnh viện (có/ khơng) ● Gần chợ (có/ khơng) ● Giá th (triệu) ● Th (có/ khơng) - Tập test có 99 mẫu có thuộc tính: ● Khoảng cách (km) ● Diện tích (m2) ● Nhà để xe(có/ khơng) ● Nhà vệ sinh riêng (có/ khơng) ● Gần bệnh viện (có/ khơng) ● Gần chợ (có/ khơng) ● Giá th (triệu) 15 ● Th (có/ khơng) - Số cột X vào Mơ tả Chương trình demo Đoạn code file DecisionTrees.ipynb gửi theo cáo cáo chạy Colab Google 2.1 IMPORT LIBRARIES Chạy thư viện python 2.2 LOAD AND PREPARE DATA Nhập liệu vào với file csv, gồm tree_trn.csv file liệu để training file tree_tst.csv file liệu test cho định 16 2.3 DECISION TREE: TRAIN MODEL Một phương pháp đơn giản để tìm hiểu định tạo đối tượng DecisionTreeClassifier phù hợp với liệu huấn luyện (training) Đối tượng có phương thức score() trả độ xác mơ hình liệu cho 2.4 Calculate Mean Accuracy on Training Data 2.5 Optimize the Decision Tree 17 2.6 Plot Accuracy Against Various Parameters 2.7 Display the Decision Tree 2.8 Visualize the Confusion Matrix 18 2.9 Calculate Mean Accuracy on Testing Data Dataset Bao gồm thuộc tính: Khoảng cách (km) Diện tích (m2) Chỗ để xe (có / khơng) Nhà vệ sinh riêng (có / khơng) Gần bệnh viện (có / khơng) Gần chợ (có / khơng) Giá th (triệu VNĐ) Th (có / khơng) Vài dòng liệu file tree_trn.csv 19 Kết thực thuật toán vào dataset Dữ liệu huấn luyện Tải liệu huấn luyện từ tệp CSV file đính kèm (tree_trn.csv) Tách ma trận dự liệu khỏi biến lớp Hiển thị bảng định thuê từ giá trị (1 “thuê” “không thuê”) từ nhứng số liệu yếu tố định Vài dòng đâu tiên liệu huấn luyện (file tree_trn.csv) Để thuật toán xây dựng định hiệu quả, đáng tin cậy, trước tiên phải lượng hóa liệu nhằm có tập liệu huấn luyện Tập liệu huấn luyện có tầm quan trọng lớn, xác, bao qt hầu hết trường hợp xảy thực tế tập luật rút từ định xác đưa kết có độ tin cậy lớn Minh họa việc ứng dụng hệ hỗ trợ định việc phân loại thuê trọ, tiến hành thử nghiệm với liệu Tap_Test.csv Tập liệu kết xuất từ chương trình lưu trữ Dataset Với liệu có nhiều thơng tin ảnh hưởng đến kết xét duyệt Tuy nhiên ta cần quan tâm trọng phân tích yếu tố liên quan tới việc thuê Những thuộc tính chủ yếu gồm: Khoảng cách, diện tích, thơng thống, internet, gần trường học, gần siêu thị, gác, giá thuê Từ thuộc tính chủ yếu để kết luận có th hay khơng Tính độ xác trung bình liệu đào tạo Dựa vào hình trên, ta thấy liệu đào tạo có độ xác 20 Biểu đồ độ xác với thơng số khác - Biểu đồ thể độ xác dựa gá trị khác max_leaf_nodes Các độ đo gini (màu cam) entropy (màu xanh) vẽ riêng biệt Độ xác đối lập tham số dựa thông số khác khai thác liệu 21 Cây định Sử dụng plot_tree() để thị định Hai nhãn lớp có hai sắc thái khác để phân biệt chúng Mỗi nút có nhánh con, cịn nút khơng có nhánh nút định có nên th hay khơng (nút màu xanh có th nút màu cam khơng th) 22 Chuẩn hóa điểm số hiển thị theo tỷ lệ hàng Bản đồ Điểm chuẩn giúp bạn hiểu liệu cách tơ màu cho liệu dựa điểm chuẩn Trong đồ trên, giá trị gần mức trung bình có màu xanh lam Các khu vực cao mức trung bình chuyển dần sang màu vàng Độ đâm màu vàng tăng lên giá trị tăng lên Phần màu tím dần cho biết khu vực mức trung bình Các cực xa trung bình dần chuyển sang màu tím Theo cách này, màu sắc dùng để diễn đạt chi tiết sắc độ ẩn liệu Tính độ xác trung bình liệu thử nghiệm Dựa vào hình trên, độ xác liệu thử nghiệm mức trung bình khoảng nửa Nên ta kết luận liệu thử nghiệm tập giá trị thử nghiệm không đạt yêu cầu 23 Chương 3: Kết luận Qua trình học tập nghiên cứu môn khai phá liệu với giúp đỡ thầy TS.Vũ Ngọc Thanh Sang, nhóm hồn thành đề tài mơn khai phá liệu “Dự đốn thuê nhà trọ” Bài tập lớn thu nội dung sau: ● Trang bị cho thành viên kiến thức lịch sử khai phá liệu học máy, phương pháp học có giám sát học khơng giám sát ● Nắm bắt cách tính tốn, tạo lập mẫu huấn luyện, tập test viết chương trình code ngơn ngữ Python cho phương pháp học định ● Rèn luyện cho sinh viên kỹ làm việc theo nhóm Do thời gian kinh nghiệm hạn chế nên khơng đạt tới hồn hảo kỳ vọng Nhóm mong nhận đánh giá góp ý từ phía thầy để rút kinh nghiệm hồn thiện 24 Tài liệu tham khảo [1] BEYER, M.A, LANEY, D.: The Importance of ‘big data': a Definition Gartner(2012) [2] DUNREN CHE, MEJDL SAFRAN, and ZHIYONG PENG, From Big Data to Big Data Mining: Challenges, Issues, and Opportunities, Database Systems for Advanced Applications, pp 1-15, Springer Berlin Heidelberg (2013) [3] LANEY, D.: 3D Data Management Controlling Data Volume, Velocity and Variety Gartner (2001) [4] NewVantage Partners: Big Data Executive Survey 2013, http://newvantage.com/wpcontent/uploads/2013/02/NVP-Big- Data-Survey-2013Summary-Report.pdf [5] VUCETIC S., OBRADOVIC Z.: Discovering Homogeneous Regions in Spatial Data through Competitors! In: 17th International Conference of Machine Learning, pp 1095-1102 Stanford, CA (2000) [6] WEI FAN, ALBERT BIFET, Mining Big Data: Current Status, and Forecast to the Future, SIGKDD Explorations, Volume 14, Issue 2, pp 1-5 (2013) [7] Những Thách Thức Trong Việc Khai Phá Dữ Liệu Lớn Ictvietnam.Vn, 2022, https://ictvietnam.vn/nhung-thach-thuc-trong-viec-khai-pha-du-lieu-lon-14812.htm Truy cập vào tháng năm 2022 [8] "Data Mining Là Gì? Lợi Ích Khai Phá Dữ Liệu Với Công Nghệ 4.0 – Renova Cloud %" Renovacloud, 2019, https://renovacloud.com/data-mining-la-gi-loi-ichkhai-pha-du-lieu-voi-cong-nghe-4-0/ Truy cập vào tháng năm 2022 25 26 ... liệu có kiểu đối tượng quan hệ khác kĩ thuật khai phá liệu phát hết mối quan hệ tiềm ẩn nội mạng liệu Thực tế cho thấy việc xây dựng mơ hình đơn để khai phá liệu khơng đồng dẫn đến kết khai phá. .. phá tri thức từ liệu lớn khơng đồng làm bỏ sót tri thức tiềm việc phân hoạch làm phá vỡ mối quan hệ quan trọng liệu Tương tự khai phá liệu, trình khai phá liệu lớn bắt đầu với việc lựa chọn liệu. .. hoạt động khai phá phân tích liệu bạn đáp ứng tất mục tiêu kinh doanh dựa liệu bạn Hạn chế khai phá liệu: Mục tiêu kỹ thuật khai phá liệu lớn đưa thơng tin u cầu chí phát mối quan hệ ẩn mẫu (pattern)

Ngày đăng: 28/12/2022, 22:30

Xem thêm: