Nó hiện diện trong tất cả lĩnh vực ứng dụng công nghệ thông tin hiện nay, cụ thể là chăm sóc sức khỏe và bán lẻ; các thuật toán cơ bản vê khai phá dữ liệu cùng một số nền tảng công nghệ
Trang 1TRƯỜNG ĐẠI HỌC HẢI PHÒNG KHOA CÔNG NGHẸ THÔNG TIN
Hải Phòng 2024
Trang 2MUC LUC
5 Các kỹ thuật trong khai phá dữ liệu - 01211211 121112111 1111 111151111111 5812111111111 Hye 5 5.1 Kỹ thuật phân tích phân loại (Classificafion ẢnQÌJSÏ) ác HH nh HH1 HH ke 5 3.2 Kỹ thuật Association RHÌG L€QPHÚH nh nh ng nh kế h1 kg 11 re reg 6 3.3 Kỹ thuật phát hiện bất thường (Anomaly or Quilier DefeCHiOHj ào nhe nhu ườu 6 J.4 Kỹ thuật phan tich theo cum (Clustering |HQÏVSÍS), cà ch nh nh Hành Hà na nà tàu 6 5.5 Kỹ thuật phân tich héi quy (regression analysis) wb 3.6 KV thudit de bdo (prediction) na ố 7 («)Cac kỹ thuật khai phá dữ liệu khác 7 F.S8//777812277//2/771270/::724/ 5588000888 7 F.S›7//;;;08/2211/27,88422 1/0110 1n7075868Ẽ6 f.a Ẽ.Ẽ.ố.Ẽ.Ẽ.Ẽ 7
6 Một số nền tảng thông dụng phục vụ khai phá dữ liệu 22222 22122212221 2222 E1 co 7 727/71/2220 717758 ——— ố.ố.ố.ốỐ.ố.Ố 7
Z7zzz;.i7/z:/788EPPPAEẼ7ẼAh === 8 I8)x2:212PJ21/27(0⁄01/11/-0EEEEEEEE-‹a4 8
CHƯƠNG II: GIỚI THIỆU WEKA :2222222222222253111122222111 1212111111112 9
1 Khái niệm về ứng dụng wekea 2 2S 22 2212121212 2110201121222 22tr 9
2 Lịch sử phát triển nên phần mềm Welia, S0 T22 10211211 HH2 ng gu 9
3 Một số tính ¡019i 8,2) 7000 “im 9
Trang 3
1 Nominal: 10 2.Numeric: 10
6 Các chức năng của Welk ccc eccecenecteeteenecesecneeseenseeneenseteeteetsectentseneeseseneeeteetiennies 11
HG tro kt nOi thong tit occ cccccccscscscscsesescsescscsesssetiescscscscsusetesessscscecscscsnsetesttscseseseseretes 11 FZ/;8.1:7/zz81ã-77/2 1000007088 11 Thực nghiêm mÔ hÌHÌ TH HH Hàn Hà HH HH HH HH HH key 11 Biểu đồ trực 7n 11
7 Uu diém cia phan mém khai phá dữ liệu Weka, 0 25 2222 2211122111221 2e 11
1 Giới thiệu bai toan
1 Khái niệm bayes
2 Khai niệm vote
3 Mô tả bài toán che Hee
I Khai pha dữ liệu file vote với kỹ thuật phân lớp, - - 022121112112 11221 2 ty He 15
1, Phân lớp trường votfe với thuật toán Bayes.net - 2.0 021122111 121112111111210 122811112221 rờ 15
Trang 4x) Hiển thị mô hình phân lớp và dịch nghĩa cúc dữ liêu trong mô hình
đó là khai phá dữ liệu Nó hiện diện trong tất cả lĩnh vực ứng dụng công nghệ thông tin hiện nay, cụ thể là chăm sóc sức khỏe và bán lẻ; các thuật toán cơ bản vê khai phá dữ liệu cùng một số nền tảng công nghệ cơ bản Phần báo cáo đề tài dưới đây sẽ làm rõ hơn về van đề này cùng kết hợp với phần thực hành phân tích dữ liệu trường vote trên Ứng dụng weka
Chúng em xin chân thành cảm ơn cô Vũ Thị Sơn đã giảng giải tận tâm và sự hướng dẫn nhiệt tình trong các buổi học vừa qua Nhờ có sự hướng dẫn của cô về môn học đã giúp chúng em hoàn thành được bài báo cáo này Do kiến thức còn hạn hẹp nên bài báo cáo của nhóm em sẽ có nhiều thiếu xót Vì vậy, chúng em rất mong chờ lời góp ý của cô để bài báo cáo của nhóm em có thể hoàn thiện, chỉnh chu hơn nữa Một lần nữa nhóm em xin được gửi lời cảm ơn sâu sắc đến cô.
Trang 5CHƯƠNG I: GIỚI THIỆU MÔN HỌC
1 Khai phá dữ liệu là gì?
Khai phá đữ liệu (datamining) được định nghĩa như là một quá trình chat loc hay khai phá
tri thức từ một lượng lớn đữ liệu Một ví dụ hay được sử dụng là việc khai thác vàng từ đá và cát,
Dataming được ví như công việc "Đãi cát tìm vàng” trong một tập hợp lớn các dữ liệu cho trước
Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các đữ
liệu thô Có nhiều thuật ngữ hiện được đùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích đữ liệu/mẫu), data archaeoloogy (khảo cô dữ liệu), datadredging(nao vét dit
liệu),
2 Lịch sử phát triển
Khai phá đữ liệu bắt đầu được quan tâm và phát triển từ những năm 1960 Ban đâu, đó là
quá trình xử lý các tệp dữ liệu Tiếp theo đó, vào những năm từ 1970 tới 1980 đã chuyến sang xử
lý trên các hệ quản trị cơ sở đữ liệu Trong các cơ sở dữ liệu xử lý giao dịch trực tuyến OLTP
(online transaction processing) cac céng cụ mô hình hóa đữ liệu và xử lý truy vấn được tích hợp
hoạt động Từ các hệ thống quản trị cơ sở dữ liệu, có ba nhánh phat triển chính Nhánh 1: Hệ
thống cơ sở đữ liệu nâng cao được phát triển từ giữa những năm 1980 tới hiện tại đã giới thiệu
mô hình dữ liệu hướng ứng dụng Nhánh 2 là Kho đữ liệu và khai phá đữ liệu được phát triển từ giữa năm 1980 tới hiện tại Nhánh 3 là Hệ thống cơ sở đữ liệu trên nền web được phát triển từ những năm 1990 tới hiện tại trong các ứng đụng khai phá Web và hệ thống cơ sở đữ liệu trên nền tảng công nghệ XML Cá ba nhánh này hiện tại được kết hợp lại thành Hệ thống thông tin tích
hợp thế hệ mới từ năm 2000
3 Các bước trong đata mining
Các bước quan trọng khi Data Mining bao gom:
Đước 1: Làm sạch đữ liệu — Trong bước này, dữ liệu được làm sạch sao cho không có tạp âm hay
bât thường trong dữ liệu
Bước 2: Tích hợp đữ liệu — Trong quá trình tích hợp dữ liệu, nhiều nguồn dữ liệu sẽ kết hợp lại
thành một
Đước 3: Lựa chọn đữ liệu — Trong bước này, dữ liệu được trích xuất từ cơ sở đữ liệu
Bước 4: Chuyển đổi đữ liệu — Trong bước này, dữ liệu sẽ được chuyển đổi để thực hiện phân tích
tom tắt cũng như các hoạt động tông hợp
Bước 5: Khai phá dữ liệu — Trong bước này, chúng tôi trích xuất dữ liệu hữu ích từ nhóm dữ liệu hiện có
Bước 6: Đánh giá mẫu — Chúng tôi phân tích một số mẫu có trong đữ liệu
Bước 7: Trình bày thông tin — Trong bước cuối cùng, thông tin sẽ được thể hiện dưới dạng cây, bảng, biêu đồ và ma trận
Trang 6Trong khai phá dữ liệu, thuật toán đóng vai trò quan trọng để xử lý khối lượng không lồ thông tin từ đó tìm ra các thông tin có ích Có rất nhiều thuật toán và việc ứng dụng là tô hợp của nhiều thuật toán Trong đó, học máy có thé coi là thuật toán cơ bán nhất Học máy là quá trình rèn luyện cho máy tính có khả năng có trí thông minh nhân tạo trên cơ sở đữ liệu đầu vào mang tính lịch sử Từ đó, máy tính sẽ đưa ra thông tin có ích đối với các tình huống trong tương lai Học máy có giảm sát:
Trong quá trình học có giám sát, một tập hợp các mẫu có nhãn được đưa cho máy và máy phải tìm ra mối quan hệ giữa các mẫu và nhãn Mục tiêu trong các thuật toán này là giảm lỗi trong xử lý dữ liệu của tương lai Mot số ví đụ về thuật toán học có giám sát bao gồm Cây quyết định, Rừng ngẫu nhiên, Mạng thần kinh nhân tạo, Máy vectơ hỗ trợ và Mạng Bayes
Học máy không giám sát:
Các mẫu được sử dụng trong học tập không có giám sát và không được dán nhãn Trong
các thuật toán này, một hàm chi phí và một thước đo khoảng cách được định nghĩa; các thuật
toán phải giảm giá trị của hàm chỉ phí theo thước đo khoáng cách Dự đoán đầu vào trong tương
lai, ra quyết định, phân cụm hoặc nhóm, giảm kích thước, v.v Một số ví dụ về thuật toán học không giám sát bao gôm phân cụm K-mean, mô hình chuối Markov, thuật toán tôi đa hóa kỳ vọng, phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu (DBSCAN) và thuật toán
Apriori
Hoc máy bán giám sắt:
Các mâu được sử dụng trong phương pháp bán giám sát là sự kết hợp của các mẫu có nhãn và không đán nhãn Cách tiếp cận này yêu cầu ít đữ liệu hơn các phương pháp khác, chăng hạn như học có giám sát và học không giám sát, giúp giảm chi phí tài nguyên
Học máy tăng CƯỜNG:
Trong trường hợp này, máy được mô tả như một tác nhân và xung quanh là môi trường Thông tin không được cung cấp cho máy trong quá trình học tăng cường nhưng máy có thé tương tác với môi trường bằng một số hành động và nhận thông tin và phản hồi Khi máy nhận
được phản hồi, nó có thể học cách cải thiện bản thân để có thể nhận được nhiều phản hồi tốt hơn
trong tương lai
5, Các kỹ thuật trong khai phá dữ liệu
3.1 Kỹ thuật phân tích phân loại (Classification Analusis)
Kỹ thuật khai phá đữ liệu đầu tiên là kỹ thuật phân tích phân loại Đây là kỹ thuật cho
Trang 7Bạn có thể sử dụng kỹ thuật này để phân loại khách hàng, mặt hàng, v.v bằng cách mô tá nhiều thuộc tính để phân loại đối tượng vào một lớp cụ thé
Chúng ta thường sử dụng kỹ thuật khai thác đữ liệu nay dé lấy các thông tin quan trọng từ
dữ liệu và siêu dữ liệu Vì vậy, trong phân tích phân loại, chúng ta cần áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng
Vi du, Email Outlook sử dụng các thuật toán nhất định để mô tả một email là hợp pháp hoặc spam Hay các doanh nghiệp có thể áp dụng kỹ thuật này đề phân loại khách hàng theo đối tượng hay độ tuôi
3.2 Kỹ thuật Association Rule Learning
Kỹ thuat Association Rule Learning trong khai phá đữ liệu được sử đụng để xác định mối quan hệ giữa các biến khác nhau trong cơ sở đữ liệu Ngoài ra, nó còn được sử dụng để “ giải nén” các mẫu ấn trong dữ liệu Association Rule rất hữu ích để kiểm tra, dự đoán hành vi và thường được áp dụng trong ngành bán lẻ
Thêm vảo đó, các doanh nghiệp sử dụng kỹ thuật nay để xác định hành vi mua sắm, phân tích dữ liệu trong giỏ hàng của khách hàng tiêm năng Trong lĩnh vực Công nghệ Thông tin, các lập trình viên sử dụng kỹ thuật này đề xây dựng các chương trình Machine Learning
5.3 Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection)
Về cơ bán, kỹ thuật khai phá đữ liệu (Data Mining) này dùng đề nhân mạnh vào việc quan sát các mục dữ liệu trong bộ dữ liệu để tìm ra các tập đữ liệu không khớp với mẫu dự kiến Bắt thường ở đây có thế đề cập đến độ lệch, sự khác thường, các nhiễu và ngoại lệ
¬ bat thường được xem là khá quan trọng vì nó có thể cung cấp một số thông tin can Ộ
thiệt Nó có thê là một dữ liệu khác biệt so với mức trung bình chung trong một tập đữ liệu Điêu
này chỉ ra răng một cái gì đó khác thường đã xảy ra và các nhà phân tích đữ liệu cân chủ ý
Kỹ thuật này có thế được sử dụng trong nhiều lĩnh vực khác nhau Chẳng hạn như phát hiện xâm nhập hay theo đối sức khỏe
3.4 Kỹ thuật phân tích theo cụm (Chustering Analusis)
Ộ “Cụm” có nghĩa là một nhóm các đối tượng đữ liệu Các đối tượng tương tự nhau thì sẽ
năm trong một cụm Kết quả là các đôi tượng tương tự nhau trong cùng một nhóm
Về cơ bán, kỹ thuật khai phá đữ liệu này thường được ứng dụng để tạo hồ sơ khách hàng Hoặc trong lĩnh vực Marketing, đây được xem là việc chia phân khúc khách hàng
Khai phá dữ liệu 02
Kỹ thuật phân tích theo cụm là phân tích các kết quá tương tự nhau thành một nhóm
Trang 8Theo thuật ngữ thông kê, phân tích hỏi quy được sử dụng dé xác định và phân tích mỗi quan hệ giữa các biến Nó giúp bạn hiểu giá trị đặc trưng của sự thay đổi ở các biến phụ thuộc
3.6 Kỹ thuật dự bdo (prediction)
Trong khai phá dữ liệu, kỹ thuật dự báo được ứng dụng ở một số trường hợp đặc biệt Nó được sử dụng để khám phá mối quan hệ giữa các biến độc lập và phụ thuộc
Chang han, ban co thế sử dụng kỹ thuật dự báo cho việc ban hang để dự đoán lợi nhuận cho tương lai Giả sử, bán hàng là một biến độc lập, lợi nhuận có thé là một biến phụ thuộc Khi
đó, chúng ta có thể vẽ đường cong hỏi quy đề dự đoán lợi nhuận
(x)Các kỹ thuật khai phá dữ liêu khác
Kỹ thuật Sequertial PatIerns
Đây là một kỹ thuật quan trọng trong khai phá dữ liệu Kỹ thuật này giúp tìm cách khám phá các mẫu tương tự
Trong bán hàng, với đữ liệu lịch sử giao dịch, doanh nghiệp có thể xác định một nhóm
các mặt hàng mà khách hàng thường mua với nhau tại các mốc thời gian khác nhau trong một năm Tận dụng điều đó, các doanh nghiệp có thê sử dụng thông tin này để giới thiệu sản phẩm đến khách hàng và tạo ra nhiều lợi nhuận hơn
Kỹ thuật Decision Trees
Decision Trees là một thuật ngữ rât quan trọng trong khai phá dữ liệu Nó đóng một vai trò quan trọng trong quá trình khai phá dữ liệu bởi vì mô hình này rất dé hiéu cho người dùng Trong kỹ thuật Decision Trees, gốc cây là một câu hỏi đơn giản có nhiều câu trả lời Ngoài ra, mỗi câu hỏi dẫn đến bộ câu hỏi khác Và nó sẽ giúp chúng ta xác định dữ liệu Vì vậy, chúng ta có thê đưa ra quyết định cuối cùng nhờ vào kỹ thuật này
6, Mật số nền tảng thông dụng phục vụ khai phá dữ liệu
Đề khai phá đữ liệu, bên cạnh việc thực hiện các công cụ, hệ quản trị dữ liệu truyền thông thì trên thế giới có nhiều nền táng công nghệ đề hỗ trợ việc khai phá đữ liệu Các nền táng có thé
là các công cụ chuyên biệt phục vụ cho Các chuyên gia dữ liệu hoặc được sử dụng làm cơ sở dé xây dựng các hệ thống thông tin quản lý tổng thế phù hợp với mỗi giải pháp cụ thể Một số các nên tảng khai phá dữ liệu có thể kê đến bao gồm:
Trang 9Weka la mét phan mém khai thac dit ligu ma nguồn mở được phát triển tại Đại học Wichita Giống như RapidMiner, Weka khong can lập trình mã nguồn và sử dụng giao diện GUI đơn gián Weka có thê gọi trực tiếp các thuật toán học máy hoặc nhập chúng bằng mã Java Nó cung cấp một loạt các công cụ như trực quan hóa, tiền xử lý, phân loại, phân cụm, v.v ( Đây là ứng dụng sẽ được dùng để phân tích đữ liệu trường vote như đã nói ở trên)
KNime:
KNime là một bộ khai phá dữ liệu mạnh mẽ, chủ yếu được sử dụng cho tiền xử lý đữ liệu Đó là, ETL (Trích xuất, Chuyên đổi, Nạp) Nó tích hợp nhiều thành phần khác nhau của khoa học máy tính và khai phá đữ liệu để cung cấp một nền tảng cho các hoạt động phù hợp Apache Mahout:
Apache Mahout là một phần mo rong cua Nén tang Big Data Hadoop Cac nha phat trién tai Apache da phat trién Mahout dé giai quyét nhu cầu ngày càng tăng về khai phá đữ liệu và hoạt động phân tích trong Hadoop Nó chứa các chức năng học máy khác nhau
Oracle DataMining:
Oracle DataMining là một công cụ đề phân loại, phân tích và dự đoán đữ liệu Nó cho phép người dùng thực hiện khai phá dữ liệu trên cơ sở dữ liệu SQL đề trích xuất các bảng và biểu đồ theo các chiều nhất định
TeraData:
còn được gọi là Cơ sở đữ liệu TeralData cung cấp dịch vụ kho chứa các công cụ khai phá
đữ liệu Nó có thể lưu trữ đữ liệu dựa trên mức độ sử dụng của chúng, nghĩa là, nó lưu trữ dữ liệu
ít được sử dụng trong phân “slow' và cho phép truy cập nhanh vào đữ liệu được sử đụng thường
xuyên
Orange:
Orange duge biét dén boi việc tích hợp các công cụ khai phá dữ liệu và học máy Nó được việt băng Python và cung cập trực quan tương tác và thấm mỹ cho người dùng
Trang 10nN
CHƯƠNG II: GIỚI THIỆU WEKA
Khái niệm về ứng dụng weka
weka là một phần mềm mã nguồn mở dùng đề phân tích đữ liệu và khai thác tri thức Lịch sử phát triển nên phần mềm Weka
Vào năm 1993: Đại học Waikato của New Zealand đã bắt đầu xây dựng nên các phiên bán đầu tiên của phần mềm khai phá dữ liệu Weka
Vào năm 1997: Xây dựng lại phần mềm Weka từ đầu bằng ngôn ngữ lập trình Java, có cài đặt
thêm các thuật toán mô hình hóa
Năm 2005: Phần mềm Weka đã xuất sắc nhận được giải thưởng danh giá SIGKDD Data Mining and Knowledge Discovery Service Award
Vào năm 2007: Phần mềm này đã vinh dự được đứng thứ 241 trong top những phần mềm có lượt tải nhiều nhất trên Sourceforge.net
Một số tính năng của weka
'Weka cho phép nhập, xử lý và trích xuất thông tin từ các tập dữ liệu khác nhau
Weka cung cấp các thuật toán đề phân tích cụm (elustering) dữ liệu và tìm kiếm những nhóm
dữ liệu tương tự nhau
3.Phân tích thành phân chính:
Weka cung cấp các công cụ dé phân tích thành phần chính (PCA) của đữ liệu và giám số chiều của dữ liệu
4.Phân loại và hỏi quy:
Weka cung cấp nhiều thuật toán khác nhau dé phân loại và hồi quy đữ liệu
Trang 114 Một số chức năng của Weka
Chức năng này cho phép người dùng tạo và thực hiện các thí nghiệm để so sánh hiệu quá
của các thuật toán khác nhau trên các tập dữ liệu khác nhau Experimenter cung cấp các công cụ để xác định các đặc tính của thuật toán và hiển thị kết quả của các thí nghiệm
dưới dạng biểu đồ và bảng
3.Knowledge Flow:
Chức năng này cho phép người dùng xây dựng các luồng xử lý đữ liệu (data flow) phire tạp bằng cách kết hợp các thuật toán khác nhau trong một quy trình làm việc liên tục Knowledge Flow cung cap một giao diện trực quan đề người dùng có thể thực hiện các thao tác kéo và thả để xây đựng quy trình
Kiéu đữ liệu này đại diện cho các giá trị không có thứ tự nhất định Ví dụ, một tập đữ liệu
của các loài động vật có thể có một thuộc tính "loài" với các giá trị là "bò", "gà", "lon",
Trang 123 String:
Kiểu dữ liệu này đại diện cho các chuỗi ký tự Ví dụ, một tập dữ liệu có thể có một thuộc tính "tên" đề đại diện cho tên của các người
4.Datc:
Kiểu dữ liệu này đại diện cho các giá trị ngày tháng Ví dụ, một tập dữ liệu có thể có một
thuộc tính "ngày sinh" đề đại điện cho ngày sinh của các người
5.Relational:
Kiéu đữ liệu này đại điện cho các bảng dữ liệu có quan hệ với nhau Ví dụ, một tập đữ
liệu về các khách hàng và đơn hàng có thê được biéu dién băng các bảng dữ liệu khác nhau, với các quan hệ giữa các báng được mô ta bằng các khóa ngoại
6.Sparse:
Kiéu dit liệu này được sử dụng khi tập dữ liệu có nhiều giá trị 0, và chỉ lưu trữ các giá trị khác 0 Điêu này giúp giảm dung lượng lưu trữ và tốc độ xử lý dữ liệu
6 Các chức năng của weka
Hỗ trợ kết nỗi thông tin
Weka có các ứng dụng con ArffViewer có tính năng giúp trình điễn nội dung của các tập
dữ liệu có định dạng * ARFF thành bảng tải liệu và Sq[Viewer cho phép liên kết được với cơ sở
tai ligu (MySQL, PostGre ) va con hỗ trợ truy vấn đề lấy thông tin
Khảo sát cơ sở đữ liệu
Đây chính là tính năng giúp thực nghiệm được những trách nhiệm khai thác tài liệu như : phân lớp, gom nhóm hệ thống các tài liệu, tiền xử lý tài liệu và khai thác luật tích hợp Thực nghiệm mô hình
Thực nghiệm mô hình được biết đến là ú ứng dụng con giúp cung cấp phương tiện có thé kiểm chứng, đánh giá các mô hình học từ đó có thê so sánh với nhau dé đưa ra được các đánh giá tong quan
Biểu đồ trực qua
Weka tương hễ giúp người dùng biểu điễn được trực quan tải liệu bằng đa dạng các dang
đô thị khác nhau thông qua nhiều biểu đỗ thông dụng : cây, đồ thị, biếu đồ vùng, biểu đồ trục
7 Ưu điểm của phần mềm khai phá dữ liệu Weka
Phần mềm mã nguồn mở Weka được bắt đầu phát triển mạnh mẽ vào những năm 1997 và ngày càng được sử dụng phô biến ở trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt là trong mục đích giáo dục và nghiên cứu bởi các ưu điểm nỗi trội sau đây:
° Tổng hợp được toàn diện các kỹ thuật tiền xử lý cũng như các mô hình hóa đữ liệu
« - Phần mém nay hoàn toàn được sử dụng I cách miên phí theo Giấy phép Công cộng GNU (đây chính là giấy phép cung cấp bản quyền phần mềm miễn "phí, đảm báo giúp cho người dùng được tự do chạy, nghiên cứu và thay đối hệ thống phần mềm)
II
Trang 13Tat ca các kỹ thuật của phần mềm khai phá đữ liệu Weka đều được đựa trên giá định rang dir liệu đã có sẵn ở dưới dạng một tệp phăng hoặc là quan hệ, trong đó mỗi điểm của dữ liệu sẽ được mô tá bằng một số các thuộc tính cô định (thông thường sẽ là thuộc tính số hoặc thuộc tính danh nghĩa Và một số các loại thuộc tính khác cũng đã được hé trợ)
Do phần mềm này được viết bởi ngôn ngữ lập trình Java nên Weka đã có tính di động khi mà
nó có thê chạy được trên đa số các nên tảng điện toán hiện đại nào đã được thử nghiệm như la: Linux, Windows hoac la Macintosh
Giao điện với đồ họa được thiết kế thông minh, hiện đại giúp người đùng để dàng trong quá
trình sử dụng
Weka còn hỗ trợ cung cấp các quyền truy cập vào hệ thống cơ sở dir ligu SQL bang cach str dung Java Database Connectivity va no co thé xu ly và kêt quả sẽ được trả về bởi lệnh truy vấn cơ sở dữ liệu
Weka còn giúp hỗ trợ được thêm một số nhiệm vụ khai thác đữ liệu tiêu chuẩn, cụ thé hon do
là giúp xử lý trước dữ liệu, phân cụm/phân loại, hồi quy, trực quan hóa và cuối cùng là lựa
chọn tính năng
12