... training set Khaiphá web: Khaiphá web để phân tích tiện ích web Có năm thành phần để đặc tả tác vụ khaiphá liệu: Dữliệu cụ thể khaiphá (task-relevant data): phầnliệu từ liệu nguồn quan ... (data mining tasks/functions) Từ liệu có, trình khaipháliệu tìm mối quan hệ liệu theo đặc điểm tùy theo cách khaiphá gọi tác vụ khaipháliệu Một số tác vụ khaipháliệu như: Kết hợp: tìm luật ... trúc liệ để khaiphá Là liệu luư trữ như: tập tin truyền thống, sở liệu quan hệ, sở liệu giao tác hay kho liệu, sở liệu hướng ứng dụng… Tri thức đạt từ trình khaiphá liệu? Với lượng liệu đầu...
... Phầnmềmkhaipháliệu RapidMiner 45 3.2.1 Giới thiệu chung 45 Đ ại 3.2.2 Luật kết hợp phầnmềmkhaipháliệu RapidMiner 49 3.2.2.1 Thêm phầnmềmWeka Extension vào phầnmềm ... Chương 1: Tổng quan khám phá tri thức khaipháliệu Chương bao gồm số lý thuyết khaipháliệukhái niệm, Đ ại kỹ thuật khai phá, ứng dụng khaiphá liệu, … Chương 2: Khaipháliệu với luật kết hợp ... Quá trình khaipháliệu [3] Tr Hình 1.2: Quá trình khaipháliệu (Nguồn: http://www.uet.vnu.edu.vn) Gom liệu Tập hợp liệu bước trình khaipháliệu Đây bước khai thác CSDL, kho liệu chí liệu từ...
... với mẫu liệu Tic Tac Toe.arff Test set Dữliệu xây dựng mô hình Dữliệu để xây dựng mô hình: liệu gốc (original dataset), liệu phải có thuộc tính phân lớp (categorical attribute) Dữliệu gốc ... RandomTree REPTree RandomForest Thực nghiệm Dữliệu chia làm 10 Folds trình Train/Test Model thực lặp lại 10 lần Tại lần Train/Test Model, phầnliệu dùng để Test phần lại dùng để Train Sử dụng công cụ ... Chia nhỏ tập liệu theo phương pháp CV (Cross-Validation) trình huấn luyện kiểm lỗi mô hình phân lớp Đây kỹ thuật chủ yếu sử dụng xây dựng predictive Model Trong liệu gốc chia thành n phần (n-fold),...
... chơi , nhà phát hành game kết luận họ có chơi game hay không Thuật toán phân lớp lựa chọn áp dụng liệu II Thực nghiệm WEKA Tiền xử lý liệu: Trong qui trình khaiphá liệu, công việc xử lý liệu trước ... bước làm cho liệu có ban đầu qua thu thập liệu (gọi liệu gốc original data) áp dụng (thích hợp) với mô hình khaipháliệu (data mining model) cụ thể Các công việc cụ thể tiền xử lý liệu bao gồm ... hóa liệu) : Nếu bạn có liệu liên tục vài mô hình áp dụng cho liệu rời rạc (như luật kết hợp ) bạn phải thực việc rời rạc hóa liệu Trong toán , bước tiền xử lý liệu cụ thể sau: - Khởi động WEKA...
... thiệu tiền xử lý liệu (Data Preprocessing) - Trong qui trình khaiphá liệu, công việc xử lý liệu trước đưa vào mô hình cần thiết, bước làm cho liệu có ban đầu qua thu thập liệu (gọi liệu gốc original ... Lọc mẫu (instances, patterns) liệu cho mô hình • Clean data: Làm liệu xóa bỏ liệu bất thường (Outlier) Transformation: Chuyển đổi liệu cho phù hợp với mô chuyển đổi liệu từ numeric qua nomial hay ... Discretization (rời rạc hóa liệu) : Nếu bạn có liệu liên tục vài mô hình áp dụng cho liệu rời rạc (như luật kết hợp chẳn hạn) bạn phải thực việc rời rạc hóa liệu 2- Tiền xử lí liệu với toán chọn - Trong...
... -Cây định -95% liệu để xây dựng, 5% liệu test 2011 Meta Data -90% d liệu ểxâydựng, 10% d liệu test -85% d liệu ểxâydựng, 15% liệu test 2011 Meta Data -70% d liệu ểxâydựng, 30% d liệu test 2011 ... iscrim,ITrule,IndCART,KNN,Kohonen,LVQ,LogDisc,NewId,QuaDisc,RBF,Smart} Norm_error real -Training data 3.TIến hành Weka -Đưa liệu vào Weka 2011 Meta Data -Sử dụng toàn liệu để training 2011 Meta Data -Nội dung kếtquả === Classifier model ... 15% liệu test 2011 Meta Data -70% d liệu ểxâydựng, 30% d liệu test 2011 Meta Data -50% d liệu ểxâydựng, 50% d liệu test 2011 Meta Data ...
... THỰC NGHIỆM TRÊN WEKA Tiền xử lý liệuDữliệu ban đầu ta lấy mạng lưu lại dạng “.text” để đọc Weka ta làm sau: Đầu tiên mở Microsoft Exel 2010 nhấn “Ctr+O” chọn đến file text liệu lưu Tiếp theo ... cho liệu Workbenh bao gồm phương thức chuẩn cho vấn đề khaipháliệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, thuộc tính kết hợp.Cụ thể đề tài em tìm hiểu toán phân lớp weka ... III PHÂN TÍCH BÀI TOÁN Mục đích: tạo định Weka xem khả phê duyệt tín dụng Phê duyệt Dữliệu thuộc tính liên quan Weka decision tree Không phê duyệt Đọc liệu đầu vào sau áp dụng toán phân lớp dựa...
... 11/2011 Vũ Tuấn Anh- Khaipháliệu -85% d liệu ểxâydựng, 15% test 13 11/2011 Vũ Tuấn Anh- Khaipháliệu -80% d liệu ểxâydựng, 20% test 14 11/2011 Vũ Tuấn Anh- Khaipháliệu -60% d liệu ểxâydựng, 40% ... Vũ Tuấn Anh- Khaipháliệu 3.Tiến hành Weka -Đưa liệu vào Weka -Sử dụng toàn liệu để Training: 11/2011 Vũ Tuấn Anh- Khaipháliệu *Nội dung kếtquả === Run information === Scheme: weka. classifiers.trees.J48 ... Anh- Khaipháliệu a b c d < classified as 28 0 | a = van 19 0 | b = saab 0 26 | c = bus 16 | d = opel -Câyquyếtđịnh: -95% d liệu ểxâydựng, 5% test 11 11/2011 Vũ Tuấn Anh- Khaipháliệu -90% d liệu ểxâydựng,...
... Thực nghiệm Weka Tiền xử lý dữ liệu - Trong qui trình khaiphá liệu, công việc xử lý liệu trước đưa vào mô hình cần thiết, bước làm cho liệu có ban đầu qua thu thập liệu (gọi liệu gốc original ... Lọc mẫu (instances, patterns) liệu cho mô hình o Clean data: Làm liệu xóa bỏ liệu bất thường (Outlier) Transformation: Chuyển đổi liệu cho phù hợp với mô chuyển đổi liệu từ numeric qua nomial hay ... Discretization (rời rạc hóa liệu) : Nếu bạn có liệu liên tục vài mô hình áp dụng cho liệu rời rạc (như luật kết hợp chẳn hạn) bạn phải thực việc rời rạc hóa liệu _ Khởi động Weka explorer Open file,...
... mô hình khaiphá luật kết hợp không làm việc với kiểu liệu liên tục Quá trình goi rời rạc hóa liệu (Discretization) Nạp liệu (Loading the Data) Thông thường, định dạng chuẩn file liệuWeka la ... “income” ta lưu lại file liệu cuối có tên “bank-data-final.arff” B ,Khai phá luật kết hợp(Association rule mining) Bây giờ, với file liệu qua trình lọc thuộc tính id rời rạc hóa liệu thuộc tính “children”, ... việc liệu nominal (như association rule mining) Sau kết thực thuật toán Apriori để phát luật kết hợp file liệu “bank-data-final.arff” Click vào tab "Associate" để mở giao diện thuật toán khai phá...
... thiệu tiền xử lý liệu (Data Preprocessing) Trong qui trình khaiphá liệu, công việc xử lý liệu trước đưa vào mô hình cần thiết, bước làm cho liệu có ban đầu qua thu thập liệu (gọi liệu gốc ordinal ... Sử dụng weka để phân lớp cho dataset Computer Hardware Quy trình thực huấn luyện phân lớp với mẫu liệu machine.arff Dữliệu để xây dựng mô hình: + Dữliệu gốc (original dataset) tập liệu file ... làm liệu Vũ Trung Kiên – Lớp CNPM – Sử dụng weka để phân lớp cho dataset Computer Hardware o Rời rạc hóa liệu: data set bao gồm phần lớn liệu kiểu liên tục nên ta cần tiến hành rời rạc hóa liệu...
... GredySteepWise Thu kết Page KHAIPHÁDỮLIỆU === Run information === Evaluator: weka. attributeSelection.WrapperSubsetEval -B weka. classifiers.bayes.NaiveBayes -F -T 0.01 -R -Search :weka. attributeSelection.GreedyStepwise ... Lưu lại liệu SE2.Ta sử dụng dataset để phân lớp Thuật toán phân lớp 1.Thực thuật toán Đối với dataset sử dụng thuật toán phân lớp: định J48 Với liệu chia thành 10 phần Page KHAIPHÁDỮLIỆU Kết ... b = negative Với liệu chia theo tỷ lệ 75%, 25% Kết === Run information === Page 13 0.973 KHAIPHÁDỮLIỆU Scheme :weka. classifiers.trees.J48 -C 0.25 -M Relation: sick-euthyroid -weka. filters.unsupervised.attribute.Remove-R1,2,3,8,10,14,15,19,21,22,25...
... Training set : gồm 783 mẫu liệu Testing set : gồm 178080 mẫu dựliệu 12 thuộc tính III Thuật toán phân cụm K Mean Phân cụm kỹ thuật quan trọng khaiphá liệu, thuộc lớp phương pháp Unsupervised Learning ... DataSet : El Nino Link : http://archive.ics.uci.edu/ml/datasets/El+Nino Bài toán thực : KhaipháliệuWeka với toán phân cụm Thuật toán: Simple K-Mean I.Giới thiệu El-Nino ban đầu tên dòng hải ... bảo hiểm dịch vụ tài chính, dự đoán xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds); • WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering...
... Lấy 50% liệu để xây dựng cây, 50% để test: Khaipháliệu 15 Lần thứ sáu: Lấy 30% liệu để xây dựng cây, 70% để test: Lần thứ bảy: Lấy 91% liệu để xây dựng cây, 9% để test: Khaipháliệu 16 ... 0, 1, 2, III TIẾN HÀNH THỰC NGHIỆM TRÊN WEKA Tiền xử lý liệu Tiến hành khởi chạy weka. Trong giao diện đồ họa Weka, chọn Explorer Trong weka lưu trữ liệu định dạng ARFF File ARFF bao gồm danh ... trình sở liệu cho phép bạn chuyển liệu thành tập tin mà giá trị thuộc tính tách dấu phẩy Khaipháliệu định dạng file arff.Bạn cần đưa file vào trình soạn thảo văn từ vi xử lý; thêm tên tập liệu...
... marital-status… Phần III: Tiền xử lí liệu Giới thiệu tiền xử lý liệu (Data Preprocessing) - Trong qui trình khaiphá liệu, công việc xử lý liệu trước đưa vào mô hình cần thiết, bước làm cho liệu có ban ... liệu có ban đầu qua thu thập liệu (gọi liệu gốc original data) áp dụng (thích hợp) với mô hình khaipháliệu (data mining model) cụ thể Các công việc cụ thể tiền xử lý liệu bao gồm công việc như: ... liệu) : Nếu bạn có liệu liên tục vài mô hình áp dụng cho liệu rời rạc (như luật kết hợp chẳn hạn) bạn phải thực việc rời rạc hóa liệu Tiền xử lí liệu với toán chọn Trong toán này, tiền xử lý liệu...
... cửa số Preprocess WEKA sau: Khaipháliệu Bạn chỉnh sửa liệu cách click vào liệu xuất để bạn chỉnh sửa Khaipháliệu , lúc bảng Xây dựng định: - Bước ta sử dụng tất liệu để trainning cho cây: ... Lấy 85% liệu để xây dựng cây, 15% để test: Khaipháliệu 15 Lần thứ tư: Lấy 45% liệu để xây dựng cây, 55% để test: Lần thứ năm: Lấy 50% liệu để xây dựng cây, 50% để test: Khaipháliệu 16 ... toán nhân tạo liệu rút phản ứng tiêu cực từ nhà phê bình báo Khaipháliệu II XÂY DỰNG CƠ SỞ DỮLIỆU Đề tài sử dụng dataset AutoUniv cung cấp giá trị thuộc tính phân loại cho 1000 liệu Thông tin...
... package weka. classifiers; import weka. core.Attribute; import weka. core.Capabilities; import weka. core.Capabilities.Capability; import weka. core.Instance; import weka. core.Instances; import weka. core.RevisionUtils; ... mà giá trị lại Thuật toán xây dựng định: Dữliệu vào: Tập liệu D, tập danh sách thuộc tính, tập nhãn lớp Dữliệu ra: Mô hình định Thuật toán: Tạocây(Tập liệu E, tập danh sách thuộc tính F, tập ... ta thu bảng số liệu sau: Chúng ta sử dụng thuật toán c4.5 để giải do: có thuộc tính temperature humidity có kiểu liệu numeric thuộc tính kiểu số Khai báo : @RELATION golf // tên liệu @ATTRIBUTE...
... Khám phá tri thức sở liệu hay gọi khaipháliệu (Data Mining - DM) phát triển ứng dụng rộng rãi nhiều ngành, có tính hiệu cao, hỗ trợ việc định nhanh chóng có độ xác cao Nó áp dụng nhiệm vụ phát ... trúc hệ thống FWI Trong FFMC – biểu diễn tính dễ cháy nhiên liệu đốt qua đánh giá độ ẩm nhiên liệu DMC – biểu diễn mức độ tiêu thụ nhiên liệu trung bình DC – biểu diễn mức độ hạn hán Ba yếu tố ảnh ... số nhiên liệu có sẵn sàng cháy FWI – số cường độ cháy, suy từ thành phần Fuel Moisture Code Fire Behavior, giá trị cao cho thấy mức độ cháy xảy nghiêm trọng Trong tiểu luận sử dụng liệu vụ cháy...
... @relation, Khai báo tên thuộc tính từ khóa @attribute, từ khóa @data để bắt đầu đưa liệu vào Ví dụ hình : Báo cáo môn Khaipháliệu Sau tạo xong file arff tiến hành đọc liệu vào weka Báo cáo môn Khaiphá ... cáo môn Khaipháliệu Lần thứ tư: Lấy 85% liệu để xây dựng cây, 15% để test: Lần thứ năm: Lấy 50% liệu để xây dựng cây, 50% để test: 16 Báo cáo môn Khaipháliệu Lần thứ sáu: Lấy 96% liệu ... pháliệu Ta thấy xuất liệu cửa số Preprocess WEKA sau: Chuyển kiểu liệu attribute từ numeric sang nominal:chọn choose filter chọnNumericToNominal Báo cáo môn Khaipháliệu Bạn chỉnh sửa liệu...
... @relation, Khai báo tên thuộc tính từ khóa @attribute, từ khóa @data để bắt đầu đưa liệu vào Sau tạo xong file arff tiến hành đọc liệu vào wekaKhaipháliệu Ta thấy xuất liệu cửa số Preprocess WEKA ... 50% liệu để xây dựng cây, 50% để test: 17 Khaipháliệu 17 Lần thứ sáu: Lấy 30% liệu để xây dựng cây, 70% để test: Lần thứ bảy: Lấy 91% liệu để xây dựng cây, 9% để test: 18 Khaipháliệu ... 65% liệu để xây dựng cây, 35% để test: Lần thứ chín: Lấy 97% liệu để xây dựng cây, 3% để test: Lần thứ thứ 10: Lấy 92% liệu để xây dựng cây, 8% để test: 19 Khaipháliệu 19 20 Khaiphá liệu...