TRÌNH TỰ THỰC HIỆN

Một phần của tài liệu TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (Trang 43)

Bước 1:

Nạp dữ liệu, chương trình mặc định load dữ liệu theo đường dẫn tới file word.train và word.test đặt cùng thư mục với file chạy của chương trình.

Nạp lại dữ liệu bằng cách chọn đường dẫn tới file word.train, chọn đường dẫn tới file word.test sau đó ấn “Nạp lại dữ liệu”.

Bước 2:

Chọn “Học từ tập mẫu”.

Ở bước này, chương trình cần một khoảng thời gian khoảng 17 giây để thực hiện các công việc sau

+ Tính tần suất xuất hiện của các lớp tài liệu trên toàn bộ các tài liệu từ file word.train.

+ Tìm ra lớp có số tài liệu lớn nhất từ file word.train. 1/Số tài liệu lớn nhất được chọn làm

+ Tính tần suất xuất hiện của các từ trong từ điển đối với tài liệu mẫu được chọn. theo từng lớp. Thật ra là nạp dữ liệu cho mảng hai chiều: A[số lớp][kích thước từ điển]

Bước 3:

Chọn tài liệu cần dự đoán lớp trên lưới dữ liệu test. Có thể sử dụng tiện ích: “Chọn tất” để chọn tất cả các tài liệu trên lưới, “Đảo chọn”: chọn tập bù của tập các tài liệu được chọn. Khi không muốn chọn, kích “Bỏ chọn trên lưới”

Bước 4:

Chọn “Phân lớp”:

+ Chương trình tự động tính toán và chỉ ra tài liệu được chọn thuộc lớp tài liệu nào, so sánh với nhãn lớp thực tế và đưa ra kết luận: tài liệu được chọn được phân lớp đúng hay sai.

+ Các kết quả thống kê số tài liệu dự đoán, số tài liệu dự đoán đúng, số tài liệu dự đoán sai được tính toán và hiển thị trên tab “Tổng hợp kết quả”.

KẾT LUẬN

Thông qua việc trình bầy về DataWarehuose tôi muốn phác hoạ một cách tổng thể quá trình hình thành kho dữ liệu, những lĩnh vực đã được ứng dụng thành công, những hướng nghiên cứu tiêu biểu, những vấn đề hiện đang ngỏ của hướng nghiên cứu và ứng dụng. Cùng với việc kết hợp với những kiến thức về Data Mining đã học, tôi càng hiểu hơn về những vấn đề trong lưu trữ, sử dụng, tìm kiếm thông tin. Hiện nay nó đã trở thành những hướng nghiên cứu và ứng dụng rất quan trọng của lĩnh vực khai phá dữ liệu, một trong những lĩnh vực thời sự của công nghệ thông tin hiện nay. Sở dĩ như vậy vì các nghiên cứu lý thuyết thường được ứng dụng ngay vào xây dựng sản phẩm phần mềm để áp dụng vào thực tiễn nhằm khám phá, phát hiện được những tri thức mới, tiềm ẩn, tiềm năng có lợi từ các Kho dữ liệu hoặc các Cơ sở dữ liệu lớn thậm chí cực lớn mà chính bản thân người sử dụng, người quản lý các Kho dữ liệu hoặc Cơ sở dữ liệu đó cũng chưa hình dung được.

Để khai phá dữ liệu đã có nhiều thuật toán được đưa ra, mỗi thuật toán có những ưu và nhược điểm nhất định. Trong phạm vi bài tiểu luận này chỉ nêu qua về các kỹ thuật cũng như là các thuật toán trong khai phá dữ liệu, phần demo đã mô tả một cách khái quát thuật toán Naïve Bayes, với vectơ biểu diễn tài liệu thông qua từ điển dữ liệu là vectơ Boolean.

Tôi xin chân thành cảm ơn!

TÀI LIỆU THAM KHẢO

1- PGS.TS. Đỗ Phúc, Bài giảng khai phá dữ liệu & nhà kho dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh, 2012

2- Đoàn Văn Ban, Phương pháp thiết kế và khai thác kho dữ liệu, Viện Công Nghệ thông tin, 1997

3- J. Han, M. Kamber, Data Mining:Concepts and Techniques, Second Edition, Morgan Kaufmann Publishers, 2006

4- A. Berson, S J. Smith, Data Warehousing, Data Ming, & OLAP, McGraw Hill, 1997

5- B. Devlin: Data Warehouse From Architecture To Implementation. Addison Wesley Longman.1997

6- Informix Software: An Intrduction do Data Warehousing, 1996

7- J. Bischoff & T. Alexander, Data Warehouse: Practical Advice from the

Experts, Prentice Hall, 2002

8- http://en.wikipedia.org/wiki/Apriori algorithm

9- http://en.wikipedia.org/wiki/Support_vector_machine 10- Các tài liệu khác trên Internet.

Một phần của tài liệu TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (Trang 43)

Tải bản đầy đủ (DOC)

(45 trang)
w