Các chỉ số thất bại: theo dõi các tham số nội bộ của ổ cứng để cải thiện độ tin cậy đƣợc IBM triển khai lần đầu tiên vào năm 1992. IBM đã đặt tên cho hệ thống này là Phân tích dự đốn lỗi. Năm 1995, Seagate tạo ra một phiên bản mới nhằm tƣơng thích với các nhà sản xuất phần cứng khác. Do đĩ, IBM, Quantum, Western Digital và Seagate đã hợp tác để phát triển một hệ thống giám sát ổ cứng mới dựa trên Phân tích Lỗi của IntelliSafe và Dự đốn. Kết quả của sự hợp tác này là Cơng nghệ tự giám sát, phân tích và báo cáo (S.M.A.R.T.). Cơng nghệ này hiện nay đƣợc sử dụng nhƣ một hệ thống giám sát trong hầu hết các ổ cứng và các máy chủ. Một số thơng số và hoạt động bên trong, ví dụ: Tổng số vịng quay, thời gian quay và số lần thử lại hiệu chỉnh ổ đĩa, đƣợc lƣu trữ trong thời gian chạy. Ngày nay, hầu hết các nhà sản xuất ổ đĩa đều bao gồm S.M.A.R.T. là một hệ thống giám sát ổ đĩa [13].
Tuy nhiên, mỗi nhà sản xuất ổ đĩa cĩ thể xác định bộ thuộc tính riêng của mình để theo dõi và cĩ ngƣỡng cho các tham số khơng nên vƣợt quá. Tuy nhiên, vẫn cịn một tập hợp con của S.M.A.R.T. các thuộc tính mà hầu hết các nhà sản xuất ổ đĩa đều theo dõi chung, ví dụ: thời gian quay vịng, tỷ lệ lỗi đọc và số lần bắt đầu / dừng.
Các kiểu lỗi ổ cứng: Lỗi của ổ cứng cĩ thể đƣợc tách thành hai loại: lỗi cĩ thể dự đốn đƣợc và lỗi khơng thể đốn trƣớc. Những lỗi cĩ thể dự đốn đƣợc xảy ra do các quá trình cơ học chậm chẳng hạn nhƣ hao mịn. Kể từ khi S.M.A.R.T. cơng nghệ chỉ sử dụng ngƣỡng của các tham số riêng lẻ, nĩ chỉ cĩ thể phát hiện các hiệu ứng suy giảm chậm gây ra bởi các lỗi cơ học cĩ thể dự đốn đƣợc. Theo Seagate, lỗi cơ học hầu hết cĩ thể dự đốn đƣợc và chiếm khoảng 60% lỗi. Do đĩ, tỷ lệ phát hiện chỉ dựa trên S.M.A.R.T. ngƣỡng là
34
khơng đủ. Ngƣợc lại, những lỗi khơng thể đốn trƣớc thƣờng xuất hiện khá tự phát. Những lý do cho những lỗi khĩ lƣờng nhƣ vậy thƣờng cĩ tính chất điện tử hoặc những thất bại vật lý đột ngột. Mặc dù chỉ sử dụng các ngƣỡng của nhà sản xuất khơng bao gồm cả hai loại lỗi, một nghiên cứu của Google cho thấy một số S.M.A.R.T. các thuộc tính, ví dụ: (ngoại tuyến) số khu vực khơng chính xác và số sự kiện phân bổ lại, cĩ liên quan chặt chẽ đến các lỗi của ổ cứng [13].