Tiểu luận Khoa học dữ liệu UEH Tổng quan phần mềm orange

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	17
Dung lượng	716,45 KB

Nội dung

PHẦN MỀM ORANGE Lập trình và thống kê toán là hai trong nhiều kỹ năng cần có để triển khai xây dựng các mô hình phân tích phục vụ cho những nghiên cứu từ đơn giản phức tạp Tuy nhiên, những người không.

PHẦN MỀM ORANGE Lập trình thống kê tốn hai nhiều kỹ cần có để triển khai xây dựng mơ hình phân tích phục vụ cho nghiên cứu từ đơn giản phức tạp Tuy nhiên, người hay chưa hiểu sau vào lập trình sử dụng phần mềm để phân tích xử lý thơng tin mức mà không nhiều thời gian Điển hình phần mềm quen thuộc Excel (Windows), Libre office Calc (Linux), Numbers (Mac OS) Ta làm thống kê bảng liệu (sum, count, avg, stddev, quantile, etc.), transform liệu, tải liệu từ nhiều nguồn, visualize biểu đồ trực quan, chí ta làm data mining ta cài thêm plugin cho chúng Trong thời đại tự động hố, máy móc thay người, chí rút ngắn thời gian thực từ – ngày xuống vài giờ, vài phút, nhờ mà người tiết kiệm thời gian, chi phí cơng sức gấp nhiều lần trước Orange công cụ Data mining nhắm đến mục tiêu tự động hoá Đây phần mềm dễ sử dụng nhờ có giao diện nhỏ gọn, toolbox xếp ngăn nắp hợp lý, dễ dàng tải xuống Orange làm Orange cung cấp cho người dùng tập toolbox tinh gọn giúp ta bắt tay vào phân tích liệu gồm: Data: dùng để rút trích, biến đổi, nạp liệu (ETL process) Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt Model: gồm hàm machine learning phân lớp liệu, có Neural Network gồm hyper-parameter để bạn xây dựng nhanh Deep learning Evaluate: các phương pháp đánh giá mơ hình máy học Unsupervised: gồm hàm machine learing gom nhóm liệu Others: các cơng cụ giúp ghi workflow ta làm việc Add ons: giúp bạn mở rộng chức nâng cao xử lý Big Data với Spark, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội, etc Đây có lẽ điểm cộng Orange sử dụng Weka phần mềm khơng thể xử lý Big Data tốc độ huấn luyện chậm SVM (Support Vector Machines) Ý nghĩa khoa học thực tiễn SVM phương pháp phân lớp đại hiệu quả, nắm phương pháp tạo tảng giúp việc phát triển giải pháp phân loại dự đoán,… xây dựng ứng dụng quan trọng thực tế Ứng dụng phân lớp SVM cho toán phân lớp quan điểm toán nghiên cứu phát triển rộng rãi có ý nghĩa học thuật lẫn ứng dụng thực tế Giới thiệu Bài tốn phân lóp (Classification) dự dốn (Prediction) hai tốn Bản có nhiều ứng dụng tất lĩnh vực như: học máy, nhận dạng, trí tuệ nhân tạo,… Phuong phap SVM (Support Vector Machines) coi công cụ mạnh cho nhiều toán phân lớp phi tuyén tinh tác già Vapnik Chervonenkis phát triển mạnh mẽ vào năm 1995 Phương pháp thực phân lớp dựa ngun lý Cực tiểu hố rủi ro có cấu trúc SRM (Structural Risk Minimization), xem phương pháp phân lớp giám sát không tham số tinh vi Các hàm công cụ đa dạng SVM cho phép tạo không gian chuyển đổi để xây dựng mặt phẳng phân lớp Định nghĩa SVM Là phương pháp dựa tảng lý thuyết thơng kê nên có tảng tốn học chặt chẽ để đảm bảo kết tìm xác Là thuật tốn học giám sát (supervied learning) sử dụng cho phân lớp liệu Là phuong pháp thử nghiệm, đưa phương pháp thử nghiệm, đưa phương pháp mạnh xác số thuật toán tiếng phân lớp liệu SVM phương pháp có tính tổng qt cao nên áp dụng cho nhiều tốn nhận dạng phân loại Ý tưởng phương pháp Cho trước tập huấn luyện, biểu diễn không gian vector, tài liệu điểm, phương pháp tìm siêu phẳng định tốt chia điểm khơng gian thành hai lớp riêng biệt tương ứng lóp + lóp - Chất lượng siêu phẳng định khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khi đó, khoảng cách biên lớn mặt phẳng định tốt, đồng thời việc phân loại xác Mục đích phương pháp SVM tìm khoảng cách biên lớn nhất, điều minh hoạ sau: Hình: Siêu phẳng phân chia liệu học thành hai lớp + – với khoảng cách biên lớn Các điểm gần (điểm khoanh trịn) Support Vector Các bước phương pháp SVM Phương pháp SVM yêu cầu liệu diễn tả vector số thực Nếu liệu đầu vào chưa phải dạng số ta cần tìm cách chuyển chúng dạng số SVM Tiền xử lý liệu: Thực biến đổi liệu phù hợp cho q trình tính tốn, tránh số q lớn mơ tả thuộc tính Thường nên co giãn (scaling) liệu chuyển đoạn [-1, 1] hoặc[O, 1] Chọn hàm hạt nhân: Lựa chọn hàm hạt nhân phù hợp tương ứng cho tốn cụ thể để đạt độ xác cao trình phân lớp Thực việc kiểm tra chéo để xác định tham số cho ứng dụng Điều định đến tính xác trình phân lớp Sử dụng tham số cho việc huấn luyện với tập mẫu Trong trình huấn luyện sử dụng thuật toán tối ưu hoá khoảng cách siêu phẳng trình phân lớp, xác định hàm phân lớp không gian đặc trưng nhờ việc ánh xạ liệu vào không gian đặc trưng cách mô tả hạt nhân, giải cho hai trường hợp liệu phân tách khơng phân tách tuyến tính khơng gian đặc trưng Phân lớp dữ liệu Ngày phân lớp dữ liệu (classification) là một những hướng nghiên cứu chính của khai phá dữ liệu Thực tế đặt nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn người có thể trích rút các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước Trong đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ, của ngày hôm và các ngày trước đó Hay nhờ các luật về xu hướng mua hàng của khách hàng siêu thị, các nhân viên kinh doanh có thể những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán Một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu nhiều lĩnh vực khác như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ này cũng ứng dụng nhiều lĩnh vực khác như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán đời trước đều sử dụng cơ chế dữ liệu cư trú bộ nhớ (memory resident), thường thao tác với lượng dữ liệu nhỏ Một số thuật toán đời sau này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi Cây quyết định ứng dụng phân lớp dữ liệu Định nghĩa Trong nhiều năm qua, nhiều mô hình phân lớp dữ liệu lĩnh vực khác như mạng notron, mô hình thông kê tuyến tính bậc 2, cây quyết định, mô hình di truyền đã được các nhà khoa học đề xuất sử dụng nghiên cứu Trong số những mô hình đó, cây quyết định được đánh giá là một công cụ tiềm năng, sử dụng rộng rãi và đặc biệt phù hợp cho khai phá liệu nói chung và phương pháp phân lớp dữ liệu nói riêng Cây định có ưu điểm như: không nhiều thời gian để xây dựng; gọn gàng, dễ hiểu sử dụng Hơn nữa mơ hình có thể dễ dàng được chuyển đổi sang các câu lệnh SQL nhằm được sử dụng để truy nhập cơ sở data cho tối ưu Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi là chính xác hơn so với các phương pháp phân lớp khác Thuật toán K-Means với toán phân cụm liệu 1.Giới thiệu kỹ thuật phân cụm (Clustering Techniques) Phân cụm kỹ thuật rất quan trọng Data Mining, thuộc lớp phương pháp Unsupervised Learning trong Machine Learning Ta hiểu phân cụm quy trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm tương tự (similar) đối tượng khác cụm khơng tương tự (Dissimilar) Phân cụm liệu ? Khái niệm: Là trình phân chia tập data ban đầu thành cụm nhằm cho liệu cụm “tương tự” (similar) với liệu cụm khác “không tương tự” (dissimilar) với Mục đích phân cụm tìm chất bên nhóm liệu Các thuật toán phân cụm (Clustering Algorithms) sinh cụm (clusters) Tuy nhiên, khơng có tiêu chí xem tốt để đánh hiệu của phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection Kỹ thuật phân cụm áp dụng nhiều lĩnh vực như:  Marketing: Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ cơng ty để giúp cơng ty có chiến lược kinh doanh hiệu hơn;  Biology: Phận nhóm động vật thực vật dựa vào thuộc tính chúng;  Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu độc giả…;  Insurance, Finance: Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đốn xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds);  WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);… Những vấn đề tồn phân cụm liệu - Hiện kỹ thuật clustering khơng thể hết địi hỏi, u cầu cách đầy đủ - Giao dịch với số lượng lớn mẫu mẫu tin data gặp vấn đề thời gian; - Hiệu phân cụm liệu phụ thuộc vào định nghĩa “khoảng cách” (đối với phân cụm liệu dựa khoảng cách) Nếu không tồn thước đo khoảng cách cụ thể người thực phải “tự xác định”, cho dù điều phức tạp không gian đa chiều - Kết phân cụm liệu giải thích theo nhiều lối khác (trong nhiều trường hợp giải thích theo ý riêng người.) Các kỹ thuật phân cụm phân loại sau (xem hình) Thuật Tốn K-Means K-Means thuật tốn vơ quan trọng sử dụng rộng rãi phương pháp phân cụm liệu Mục tiêu K-Means tìm cách phân nhóm đối tượng (objects) cho vào K cụm (K số cụm xác định trước, số nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid) bé Mơ tả thuật tốn K-Means sau Thuật toán K-Means thực qua bước sau: 1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm 2. Tính khoảng cách đối tượng đến K tâm (thường dùng khoảng cách Euclidean) 3. Nhóm đối tượng vào nhóm gần 4. Xác định lại tâm cho nhóm 5. Thực lại bước khơng có thay đổi nhóm đối tượng TÀI LIỆU THAM KHẢO https://lib.hpu.edu.vn/bitstream/handle/ 123456789/18298/41_PhamVanSon_CT1201.pdf http://bis.net.vn/forums/t/374.aspx

Ngày đăng: 25/04/2023, 10:08