Weka hỗ trợ khá nhiều định dạng như:
ARFF: *.arff
CVS files: *.cvs
C4.5 files: *.name, *.data
XRFF files: *.xrff
Trong đĩ, ARFF là định dạng chính được sử dụng phổ biến nhất trong Weka. ARFF là định dạng được sử dụng chính trong Weka, được biểu diễn dưới một dạng file text cĩ thể đọc được một cách đơn giản bằng các chương trình như notepad… mà khơng cần phải cĩ chương trình chuyên dụng. Các dữ liệu trong file là giá trị thuộc tính của các thể hiện (instance) cĩ chung tập hợp các thuộc tính. ARFF dễ thao tác và dễ hiểu, người dùng cĩ thể tự tạo cho mình một file ARFF khi hiểu về những quy định chuẩn của nĩ. Tuy nhiên, vì là định dạng chuyên dụng cho mỗi chương trình Weka nên những ứng dụng khác khơng thể đọc được nĩ. Do đĩ, khi sử dụng kết hợp Weka với các chương trình khác thì người dung buộc phải xây dựng các module để chuyển kiểu dữ liệu từ ARFF sang kiểu dữ liệu tương ứng với chương trình đĩ. Cấu trúc tập tin *.ARFF bao gồm các thành phần:
Data: gồm nhiều dịng, mỗi dịng thể hiện giá trị của các thuộc tính cho một mẫu.
% Title: Iris Plants Database @RELATION iris
@ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris virginica}
@DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa
Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồm: - numeric: là kiểu dữ liệu số, gồm real và integer - nominal: là kiểu dữ liệu danh sách.
- string: là kiểu dữ liệu dạng chuỗi
- date: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)