Tiểu luận Khoa học dữ liệu UEH Tổng quan phần mềm orange

17 123 1
Tiểu luận Khoa học dữ liệu UEH  Tổng quan phần mềm orange

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHẦN MỀM ORANGE Lập trình và thống kê toán là hai trong nhiều kỹ năng cần có để triển khai xây dựng các mô hình phân tích phục vụ cho những nghiên cứu từ đơn giản phức tạp Tuy nhiên, những người không.

PHẦN MỀM ORANGE Lập trình thống kê tốn hai nhiều kỹ cần có để triển khai xây dựng mơ hình phân tích phục vụ cho nghiên cứu từ đơn giản phức tạp Tuy nhiên, người hay chưa hiểu sau vào lập trình sử dụng phần mềm để phân tích xử lý thơng tin mức mà không nhiều thời gian Điển hình phần mềm quen thuộc Excel (Windows), Libre office Calc (Linux), Numbers (Mac OS) Ta làm thống kê bảng liệu (sum, count, avg, stddev, quantile, etc.), transform liệu, tải liệu từ nhiều nguồn, visualize biểu đồ trực quan, chí ta làm data mining ta cài thêm plugin cho chúng Trong thời đại tự động hố, máy móc thay người, chí rút ngắn thời gian thực từ – ngày xuống vài giờ, vài phút, nhờ mà người tiết kiệm thời gian, chi phí cơng sức gấp nhiều lần trước Orange công cụ Data mining nhắm đến mục tiêu tự động hoá Đây phần mềm dễ sử dụng nhờ có giao diện nhỏ gọn, toolbox xếp ngăn nắp hợp lý, dễ dàng tải xuống Orange làm Orange cung cấp cho người dùng tập toolbox tinh gọn giúp ta bắt tay vào phân tích liệu gồm: Data: dùng để rút trích, biến đổi, nạp liệu (ETL process) Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt Model: gồm hàm machine learning phân lớp liệu, có Neural Network gồm hyper-parameter để bạn xây dựng nhanh Deep learning Evaluate: các phương pháp đánh giá mơ hình máy học Unsupervised: gồm hàm machine learing gom nhóm liệu Others: các cơng cụ giúp ghi workflow ta làm việc Add ons: giúp bạn mở rộng chức nâng cao xử lý Big Data với Spark, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội, etc Đây có lẽ điểm cộng Orange sử dụng Weka phần mềm khơng thể xử lý Big Data tốc độ huấn luyện chậm SVM (Support Vector Machines) Ý nghĩa khoa học thực tiễn SVM phương pháp phân lớp đại hiệu quả, nắm phương pháp tạo tảng giúp việc phát triển giải pháp phân loại dự đoán,… xây dựng ứng dụng quan trọng thực tế Ứng dụng phân lớp SVM cho toán phân lớp quan điểm toán nghiên cứu phát triển rộng rãi có ý nghĩa học thuật lẫn ứng dụng thực tế Giới thiệu Bài tốn phân lóp (Classification) dự dốn (Prediction) hai tốn Bản có nhiều ứng dụng tất lĩnh vực như: học máy, nhận dạng, trí tuệ nhân tạo,… Phuong phap SVM (Support Vector Machines) coi công cụ mạnh cho nhiều toán phân lớp phi tuyén tinh tác già Vapnik Chervonenkis phát triển mạnh mẽ vào năm 1995 Phương pháp thực phân lớp dựa ngun lý Cực tiểu hố rủi ro có cấu trúc SRM (Structural Risk Minimization), xem phương pháp phân lớp giám sát không tham số tinh vi Các hàm công cụ đa dạng SVM cho phép tạo không gian chuyển đổi để xây dựng mặt phẳng phân lớp Định nghĩa SVM Là phương pháp dựa tảng lý thuyết thơng kê nên có tảng tốn học chặt chẽ để đảm bảo kết tìm xác Là thuật tốn học giám sát (supervied learning) sử dụng cho phân lớp liệu Là phuong pháp thử nghiệm, đưa phương pháp thử nghiệm, đưa phương pháp mạnh xác số thuật toán tiếng phân lớp liệu SVM phương pháp có tính tổng qt cao nên áp dụng cho nhiều tốn nhận dạng phân loại Ý tưởng phương pháp Cho trước tập huấn luyện, biểu diễn không gian vector, tài liệu điểm, phương pháp tìm siêu phẳng định tốt chia điểm khơng gian thành hai lớp riêng biệt tương ứng lóp + lóp - Chất lượng siêu phẳng định khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khi đó, khoảng cách biên lớn mặt phẳng định tốt, đồng thời việc phân loại xác Mục đích phương pháp SVM tìm khoảng cách biên lớn nhất, điều minh hoạ sau: Hình: Siêu phẳng phân chia liệu học thành hai lớp + – với khoảng cách biên lớn Các điểm gần (điểm khoanh trịn) Support Vector Các bước phương pháp SVM Phương pháp SVM yêu cầu liệu diễn tả vector số thực Nếu liệu đầu vào chưa phải dạng số ta cần tìm cách chuyển chúng dạng số SVM Tiền xử lý liệu: Thực biến đổi liệu phù hợp cho q trình tính tốn, tránh số q lớn mơ tả thuộc tính Thường nên co giãn (scaling) liệu chuyển đoạn [-1, 1] hoặc[O, 1] Chọn hàm hạt nhân: Lựa chọn hàm hạt nhân phù hợp tương ứng cho tốn cụ thể để đạt độ xác cao trình phân lớp Thực việc kiểm tra chéo để xác định tham số cho ứng dụng Điều định đến tính xác trình phân lớp Sử dụng tham số cho việc huấn luyện với tập mẫu Trong trình huấn luyện sử dụng thuật toán tối ưu hoá khoảng cách siêu phẳng trình phân lớp, xác định hàm phân lớp không gian đặc trưng nhờ việc ánh xạ liệu vào không gian đặc trưng cách mô tả hạt nhân, giải cho hai trường hợp liệu phân tách khơng phân tách tuyến tính khơng gian đặc trưng Phân lớp dữ liệu Ngày phân lớp dữ liệu (classification) là một những hướng nghiên cứu chính của khai phá dữ liệu Thực tế đặt nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn người có thể trích rút các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước Trong đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ, của ngày hôm và các ngày trước đó Hay nhờ các luật về xu hướng mua hàng của khách hàng siêu thị, các nhân viên kinh doanh có thể những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán Một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu nhiều lĩnh vực khác như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ này cũng ứng dụng nhiều lĩnh vực khác như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán đời trước đều sử dụng cơ chế dữ liệu cư trú bộ nhớ (memory resident), thường thao tác với lượng dữ liệu nhỏ Một số thuật toán đời sau này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi Cây quyết định ứng dụng phân lớp dữ liệu Định nghĩa Trong nhiều năm qua, nhiều mô hình phân lớp dữ liệu lĩnh vực khác như mạng notron, mô hình thông kê tuyến tính bậc 2, cây quyết định, mô hình di truyền đã được các nhà khoa học đề xuất sử dụng nghiên cứu Trong số những mô hình đó, cây quyết định được đánh giá là một công cụ tiềm năng, sử dụng rộng rãi và đặc biệt phù hợp cho khai phá liệu nói chung và phương pháp phân lớp dữ liệu nói riêng Cây định có ưu điểm như: không nhiều thời gian để xây dựng; gọn gàng, dễ hiểu sử dụng Hơn nữa mơ hình có thể dễ dàng được chuyển đổi sang các câu lệnh SQL nhằm được sử dụng để truy nhập cơ sở data cho tối ưu Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi là chính xác hơn so với các phương pháp phân lớp khác Thuật toán K-Means với toán phân cụm liệu 1.Giới thiệu kỹ thuật phân cụm (Clustering Techniques) Phân cụm kỹ thuật rất quan trọng Data Mining, thuộc lớp phương pháp Unsupervised Learning trong Machine Learning Ta hiểu phân cụm quy trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm tương tự (similar) đối tượng khác cụm khơng tương tự (Dissimilar) Phân cụm liệu ? Khái niệm: Là trình phân chia tập data ban đầu thành cụm nhằm cho liệu cụm “tương tự” (similar) với liệu cụm khác “không tương tự” (dissimilar) với Mục đích phân cụm tìm chất bên nhóm liệu Các thuật toán phân cụm (Clustering Algorithms) sinh cụm (clusters) Tuy nhiên, khơng có tiêu chí xem tốt để đánh hiệu của phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection  Kỹ thuật phân cụm áp dụng nhiều lĩnh vực như:  Marketing: Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ cơng ty để giúp cơng ty có chiến lược kinh doanh hiệu hơn;  Biology: Phận nhóm động vật thực vật dựa vào thuộc tính chúng;  Libraries:  Theo dõi độc giả, sách, dự đoán nhu cầu độc giả…;  Insurance, Finance: Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đốn xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds);  WWW:  Phân loại tài liệu (document classification);  phân loại người dùng web (clustering weblog);… Những vấn đề tồn phân cụm liệu - Hiện kỹ thuật clustering khơng thể hết địi hỏi, u cầu cách đầy đủ - Giao dịch với số lượng lớn mẫu mẫu tin data gặp vấn đề thời gian; - Hiệu phân cụm liệu phụ thuộc vào định nghĩa “khoảng cách” (đối với phân cụm liệu dựa khoảng cách) Nếu không tồn thước đo khoảng cách cụ thể người thực phải “tự xác định”, cho dù điều phức tạp không gian đa chiều - Kết phân cụm liệu giải thích theo nhiều lối khác (trong nhiều trường hợp giải thích theo ý riêng người.) Các kỹ thuật phân cụm phân loại sau (xem hình) Thuật Tốn K-Means K-Means thuật tốn vơ quan trọng sử dụng rộng rãi phương pháp phân cụm liệu Mục tiêu K-Means tìm cách phân nhóm đối tượng (objects) cho vào K cụm (K số cụm xác định trước, số nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid) bé Mơ tả thuật tốn K-Means sau    Thuật toán K-Means thực qua bước sau: 1.    Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm 2.    Tính khoảng cách đối tượng đến K tâm (thường dùng khoảng cách Euclidean) 3.    Nhóm đối tượng vào nhóm gần 4.    Xác định lại tâm cho nhóm 5.    Thực lại bước khơng có thay đổi nhóm đối tượng TÀI LIỆU THAM KHẢO https://lib.hpu.edu.vn/bitstream/handle/ 123456789/18298/41_PhamVanSon_CT1201.pdf http://bis.net.vn/forums/t/374.aspx

Ngày đăng: 25/04/2023, 10:08

Tài liệu cùng người dùng

Tài liệu liên quan