1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ quản trị cơ sở dữ liệu oracle

51 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 2,74 MB

Nội dung

Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle MỤC LỤC MỤC LỤC LỜI CẢM ƠN LỜI NÓI ĐẦU Chƣơng PHÂN CỤM DỮ LIỆU 1.1 Kỹ thuật phân cụm liệu 1.2 Các ứng dụng phân cụm liệu .6 1.3 Các kiểu liệu độ đo tƣơng tự 1.3.1 Phân loại kiểu liệu dựa kích thƣớc miền 1.3.2 Phân loại kiểu liệu dựa hệ đo 1.4 Một số kỹ thuật tiếp cận phân cụm liệu .8 1.4.1 Phân cụm phân hoạch 1.4.2 Phân cụm liệu phân cấp .8 1.4.3 Phân cụm liệu dựa mật độ .9 1.4.4 Phân cụm liệu dựa lƣới 1.4.5 Phân cụm liệu dựa mơ hình 10 1.4.6 Phân cụm liệu có ràng buộc 10 1.5 Các yêu cầu cho kỹ thuật PCDL .10 1.6 Giới thiệu thuật toán phân cụm liệu điển hình .11 1.7 Bài toán phân cụm liệu 13 Chƣơng HỆ QUẢN TRỊ CSDL ORACLE 14 2.1 Giới thiệu Oracle 14 2.2 Cấu trúc sở liệu (CSDL): 15 2.3 Sử dụng phân cụm (CLUSTERING ) Oracle 16 2.4 Phân loại tài liệu văn Oracle 21 Chƣơng MƠ HÌNH USE CASE 24 3.1 Giới thiệu Use Case phân tích thiết kế hƣớng đối tƣợng 24 3.2 Mơ hình hóa Use Case 24 3.3 Biểu đồ Use Case 27 3.4 Quan hệ Use Case 27 3.4.1 Miêu tả Use Case .27 3.4.2 Thử nghiệm Use Case 30 Chƣơng CHƢƠNG TRÌNH ỨNG DỤNG 31 4.1 Bài toán quản lý văn đến văn 31 4.2 Mơ hình usecase hệ thống quản lý văn đến 31 4.2.1 Quy trình tạo, gửi 31 4.2.2 Quy trình nhận, đến 33 4.2.3 Quản trị viên hệ thống: 34 4.3 Đặc Tả User Case 34 4.4 CSDL đƣợc tạo Oracle 39 4.5 Bảng MSTB_CÔNG VĂN .39 4.6 Bảng MSTB_CLUSTERS .40 4.7 Bảng MSTB_CLUSTER_RESULT .40 4.8 View tất nhân viên .41 4.9 View nhân viên .42 4.10 Sequences 42 4.11 Trong Packages chứa Procedures p()prtb_vanban,p()prtb_cluster 43 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.12 Giới thiệu chƣơng trình ứng dụng .43 4.12.1 Trang Đăng nhập 43 4.12.2 Trang chủ .44 4.12.3 Trang Soạn văn .44 4.12.4 Trang Danh sách nhân viên 45 4.12.5 Trang tạo nhân viên 45 4.12.6 Trang danh sách phòng ban 46 4.12.7 Trang danh sach văn đến 46 4.12.8 Trang tạo phong ban .47 4.12.9 Trang thông tin cá nhân .47 4.12.10 Trang tra cứu theo nội dung 48 4.12.11 Trang tra cứu theo phân cụm kết chạy trƣơng trình 48 4.13 Chƣơng trình đƣợc thiết kế Microsoft Visual Studio 2005 48 4.14 Kết thực chƣơng trình 49 KẾT LUẬN 50 Chƣơng TÀI LIỆU THAM KHẢO 51 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle LỜI CẢM ƠN Trƣớc hết em xin gửi lời cảm ơn chân thành tới cô giáo ThS.Nguyễn Thị Xuân Hƣơng KS Đào Quang Huynh tận tình bảo hƣớng dẫn em hồn thành tốt đề tài tốt nghiệp Em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thơng tin trƣờng Đại Học Dân Lập Hải Phịng giảng dạy bảo cho em 1,5 năm học trƣờng, để em có đƣợc kiến thức phục vụ cho trình làm tốt nghiệp Cuối em xin bày tỏ lòng biết ơn tới ngƣời thân gia đình bạn bè chia sẻ động viên em suốt q trình học tập Hải Phịng, ngày tháng Sinh viên Phạm Minh Tiến năm 2009 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle LỜI NÓI ĐẦU Từ vài thập niên trở lại đây, với tác động mạnh mẽ tiến công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội phát triển bùng nổ, lƣợng liệu đƣợc tạo ngày lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến suất chất lƣợng cho công tác quản lý, hoạt động kinh doanh,…Nhƣng yêu cầu thông tin lĩnh vực hoạt động đó, đặc biệt lĩnh vực làm định, ngày đòi hỏi cao hơn, ngƣời định khơng cần liệu mà cịn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Cho đến năm 90 kỷ trƣớc, nhu cầu khám phá tri thức thực bùng nổ, theo đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu, … đời, số phân cụm liệu (Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật đƣợc áp dụng phân cụm liệu phần lớn đƣợc kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lƣợng hố, Đến nay, có nhiều ứng dụng phân cụm liệu cho việc giải vấn đề lĩnh vực nhƣ tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, …Trong thời gian gần đây, lĩnh vực PCDL, ngƣời ta tập trung chủ yếu vào nghiên cứu, phân tích mơ hình liệu phức tạp nhƣ liệu văn bản, Web, hình ảnh Hiện nay, Oracle hệ quản trị CSDL đƣợc sử dụng rộng rãi, đặc biệt quan, tổ chức có nhu cầu lƣu trữ lƣợng liệu lớn Tuy nhiên, với khối liệu khổng lồ nhƣ vậy, việc khai thác hữu ích thơng tin yêu cầu cáp thiết Từ phiên Oracle9i tích hợp kỹ thuật khai phá liệu phiên để trợ giúp cho ngƣời sử dụng tìm kiếm thơng tin cần khai thác Vì vậy, em chọn đề tài “ Tìm hiểu kĩ thuật phân cụm liệu hệ quản trị sở liệu Oracle ”làm đề tài tốt nghiệp cho với mục đích vận dụng kiến thức học nghiên cứu vấn đề để xây dựng ứng dụng hệ quản trị CSDL Oracle có áp dụng kỹ thuật phân cụm Nội dung đồ án gồm chƣơng: Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle Chƣơng 1: Phân cụm liệu : chƣơng em trình bày tổng quan phân cụm liệu bao gồm kiểu liệu phân cụm , ứng dụng kỹ thuật phân cụm liệu Chƣơng 2: Hệ quản trị sở liệu Oracle Giới thiệu hệ quản trị sở liệu Oracle phân cụm liệu Oracle Chƣơng 3: Mô hình Use Case Giới thiệu mơ hình Use Case , biểu đồ quan hệ use case Chƣơng 4: Chƣơng trình ứng dụng: Giới thiệu chƣơng trình ứng dụng quản lý văn đến , sử dụng mơ hình Use case , sở liệu Oracle có sử dụng kĩ thuật phân cụm liệu để phân cụm văn đến Oracle Phần kết luận trình bày tóm tắt kết thu đƣợc đề xuất cho hƣớng phát triển đề tài Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle Chƣơng PHÂN CỤM DỮ LIỆU 1.1 Kỹ thuật phân cụm liệu PCDL kĩ thuật Data Mining ( khai phá liệu ), nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn cần quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định Mục tiêu phƣơng pháp phân cụm liệu nhóm đối tƣợng tƣơng tự tập liệu vào cụm cho đối tƣợng thuộc lớp “tƣơng đồng”còn đối tƣợng thuộc cụm khác “không tƣơng đồng” Phân cụm liệu đƣợc sử dụng nhiều ứng dụng phân loại văn bản, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… 1.2 Các ứng dụng phân cụm liệu Một số ứng dụng điển hình phân cụm liệu lĩnh vực sau: Thương mại: Trong thƣơng mại, PCDL giúp thƣơng nhân khám phá nhóm khách hàng quan trọng có đặc trƣng tƣơng đồng đặc tả họ từ mẫu mua bán CSDL khách hàng Sinh học: Trong sinh học, PCDL đƣợc sử dụng để xác định loại sinh vật, phân loại Gen với chức tƣơng đồng thu đƣợc cấu trúc mẫu Phân tích liệu khơng gian: PCDL trợ giúp ngƣời dùng tự động phân tích xử lý liêu không gian nhƣ nhận dạng chiết xuất đặc tính mẫu liệu quan tâm tồn CSDL khơng gian Lập quy hoạch thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lý,…nhằm cung cấp thông tin cho quy hoạch đô thị Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm Địa lý: Phân lớp động vật thực vật đƣa đặc trƣng chúng Web Mining: PCDL khám phá nhóm tài liệu quan trọng, có nhiều ý nghĩa mơi trƣờng Web Các lớp tài liệu trợ giúp cho việc khám phá tri thức từ liệu,… Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 1.3 Các kiểu liệu độ đo tƣơng tự Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm cho đối tƣợng cụm “tƣơng tự” Việc tính “khoảng cách” đối tƣợng, hay phép đo tƣơng tự cặp đối tƣợng để phân chia chúng vào cụm khác Dựa vào hàm tính độ tƣơng tự cho phép xác định đƣợc hai đối tƣợng có tƣơng tự hay khơng Theo quy ƣớc, giá trị hàm tính độ đo tƣơng tự lớn tƣơng địng đối tƣợng lớn ngƣợc lại Hàm tính độ phi tƣơng tự tỉ lệ nghịch với hàm tính độ tƣơng tự Các kiểu liệu thƣờng đƣợc sử dụng PCDL Trong PCDL, đối tƣợng liệu cần phân tích người, nhà, tiền lương, thực thể phần mềm,… Các đối tƣợng thƣờng đƣợc diễn tả dƣới dạng thuộc tính Có cách phân loại kiểu thuộc tính: Dựa kích thƣớc miền (Domain size) & Dựa hệ đo (Measurement Scale) 1.3.1 Phân loại kiểu liệu dựa kích thước miền Thuộc tính liên tục (Continuous Attribute): nghĩa hai giá trị tồn vơ số giá trị khác Thí dụ nhƣ thuộc tính màu, nhiệt độ cƣờng độ âm Thuộc tính rời rạc (DiscretteAttribute): Nếu miền giá trị tập hữu hạn, đếm đƣợc Thí dụ nhƣ thuộc tính số serial sách, số thành viên gia đình, … Lớp thuộc tính nhị phân trƣờng hợp đặc biệt thuộc tính rời rạc mà miền giá trị có phần tử đƣợc diễn tả nhƣ: Yes / No Nam/Nữ, False/true,… 1.3.2 Phân loại kiểu liệu dựa hệ đo Giả sử có hai đối tƣợng x, y thuộc tính xi, yi tƣơng ứng với thuộc tính thứ i chúng Chúng ta có lớp kiểu liệu nhƣ sau: Thuộc tính định danh (nominal Scale, tên): x y hai đối tƣợng thuộc tính xác định x y x=y Thí dụ nhƣ thuộc tính nơi sinh thuộc tính đội bóng chơi cho giải vơ địch quốc gia Việt Nam Thuộc tính có thứ tự (Ordinal Scale): thuộc tính định danh có thêm tính thứ tự, nhƣng chúng không đƣợc định lƣợng Nếu x y hai thuộc tính Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle thứ tự ta xác định x y x=y x>y xyi ta nói x cách y khoảng xi – yi tƣơng ứng với thuộc tính thứ i Thí dụ thuộc tính khoảng nhƣ thuộc tính số kênh truyền hình Thuộc tính tỉ lệ (Ratio Scale): thuộc tính khoảng nhƣng đƣợc xác định cách tƣơng đối so với điểm mốc đầy ý nghĩa, thí dụ thuộc tính chiều cao cân nặng lấy điểm làm mốc Chó ý: Thuộc tính định danh thuộc tính có thứ tự gọi chung thuộc tính hạng mục Thuộc tính khoảng thuộc tính tỉ lệ đƣợc gọi thuộc tính số 1.4 Một số kỹ thuật tiếp cận phân cụm liệu Các kỹ thuật áp dụng để giải vấn đề phân cụm liệu hƣớng tới mục tiêu chung: Chất lượng cụm khám phá tốc độ thực thuật tốn Hiện nay, kỹ phân cụm liệu phân loại theo cách tiếp cận sau 1.4.1 Phân cụm phân hoạch Ta phân tập liệu có n phần tử cho trƣớc thành k nhóm liệu cho: phần tử liệu thuộc nhóm liệu nhóm liệu có tối thiểu phần tử liệu Một số thuật toán phân cụm phân hoạch điển hình nhƣ k-means, PAM, CLARA, CLARANS,… 1.4.2 Phân cụm liệu phân cấp Phân cụm phân cấp xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp đƣợc xây dựng theo kỹ thuật đệ quy Cây phân cụm đƣợc xây dựng theo hai phƣơng pháp tổng quát: Phƣơng pháp “dƣới lên” (Bottom up): Phƣơng pháp bắt đầu với đối tƣợng đƣợc khởi tạo tƣơng ứng với cụm riêng biệt, sau tiến hành nhóm Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle đối tƣợng theo độ đo tƣơng tự (nhƣ khoảng cách hai trung tâm hai nhóm), q trình đƣợc thực tất nhóm đƣợc hịa nhập vào nhóm (mức cao phân cấp) điều kiện kết thúc thỏa mãn Nhƣ vậy, cách tiếp cận sử dụng chiến lƣợc ăn tham trình phân cụm Phƣơng pháp “trên xuống” (Top Down): Bắt đầu với trạng thái tất đối tƣợng đƣợc xếp cụm Mỗi vịng lặp thành cơng, cụm đƣợc tách thành cụm nhỏ theo giá trị phép đo độ tƣơng tự đối tƣợng cụm, điều kiện dừng thỏa mãn Cách tiếp cận sử dụng chiến lƣợc chia để trị q trình phân cụm Thí dụ: Hình dƣới thí dụ sử dụng hai chiến lƣợc phân cụm phân cấp khác nhƣ trình bày Bƣớc B Chƣơng a Bƣớc Bƣớc Bƣớc 1.1 Botto ƣớc m up ab b abcde c cde d de e Bƣớc Bƣớc Bƣớc Bƣớc Bƣớc Hình 4: Các chiến lƣợc phân cụm phân cấp 1.1.1 To p Down Một số thuật tốn phân cụm phân cấp điển hình nhƣ CURE, BIRCH, … 1.4.3 Phân cụm liệu dựa mật độ Phƣơng pháp nhóm đối tƣợng theo hàm mật độ xác định Mật độ đƣợc định nghĩa nhƣ số đối tƣợng lân cận đối tƣợng liệu theo ngƣỡng Một số thuật toán PCDL dựa mật độ điển hình nhƣ DBSCAN, OPTICS, DENCLUE, … 1.4.4 Phân cụm liệu dựa lưới Phương pháp chủ yếu tập trung áp dụng cho lớp liệu không gian Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle Một số thuật tốn PCDL dựa cấu trúc lƣới điển hình nhƣ: STING, WAVECluster, CLIQUE,… 1.4.5 Phân cụm liệu dựa mơ hình Có hai tiếp cận chính: Mơ hình thống kê Mạng Nơ ron 1.4.6 Phân cụm liệu có ràng buộc Để phân cụm liệu khơng gian hiệu hơn, nghiên cứu bổ sung cần đƣợc thực để cung cấp cho ngƣời dùng khả kết hợp ràng buộc thuật toán phân cụm 1.5 Các yêu cầu cho kỹ thuật PCDL Hầu hết nghiên cứu phát triển thuật toán phân cụm liệu nhằm thoả mãn yêu cầu sau: Có khả mở rộng (Scalability): Một số thuật tốn ứng dụng tốt cho tập liệu nhỏ ( khoảng 200 ghi liệu ) nhƣng không hiệu áp dụng cho tập liệu lớn (Khoảng triệu ghi) Thích nghi với kiểu liệu khác nhau: Thuật tốn áp dụng hiệu cho việc phân cụm tập liệu với nhiều kiểu liệu khác nhƣ liệu kiểu số, kiểu nhị phân, liệu kiểu hạng mục, thích nghi với kiểu liệu hỗn hợp liệu đơn Khám phá cụm với hình thù bất kỳ: hầu hết CSDL có chứa nhiều cụm liệu với hình thù khác nhƣ: hình lõm, hình cầu, hình que, …Vì vậy, để khám phá đƣợc cụm có tính tự nhiên thuật tốn phân cụm cần phải có khả khám phá cụm có hình thù Tối thiểu lượng tri thức cần cho xác định tham số vào: giá trị đầu vào thƣờng ảnh hƣởng đến thuật toán phân cụm phức tạp để xác định giá trị vào thích hợp CSDL lớn Ít nhạy cảm với thứ tự liệu vào: Cùng tập liệu, đƣa vào xử lý cho thuật toán PCDL với thứ tự vào đối tƣợng liệu lần thực khác khơng ảnh hƣởng lớn đến kết phân cụm Khả thích nghi với liệu nhiễu cao: Hầu hết liệu phân cụm Data Mining chứa đựng liệu lỗi, liệu khơng đầy đủ, liệu 10 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle Phê duyệt: - Tóm tắc: Use Case mô tả cách thức văn đƣợc lãnh đạo phê duyệt - Dòng kiện: + Dòng kiện chính: Use Case bắt đầu văn đƣợc kiểm tra tới lãnh đạo xem phê duyệt gửi Lƣu trữ + Dòng kiện khác: Không đồng ý yêu cầu làm lại - Các u Cầu đặt biệt: Khơng có - Điều kiện tiên quyết: Phải có checker cua kiểm sát viên PostConditions: Use Case thành công,công văn đƣợc gửi ký, lƣu trữ Lƣu văn đến : - Tóm tắc: Use case mơ tả hoạt động lƣu văn đến - Dòng kiện: + Dòng kiện chính:Use Case đƣợc bắt đầu văn đƣợc gửi đến 1.Hệ thống lƣu văn theo mức độ nhƣ công văn khẩn, công văn nội 2.Gửi thông tin đến phận xử lý - Post-Conditions: Nếu Use Case thành văn đến đƣợc lƣu vào hệ thống,ngƣợc lại hệ thống không thay đổi - Điểm mở rộng: Khơng có Xử lý văn đến: - Tóm tắc: Use Case mơ tả xử lý văn đến nhƣ kiểm tra nội dung, hình thức - Dịng kiện: + Dịng kiện chính: Use Case đƣợc bắt đầu văn chuyển đến 1.Kiểm soát viên checker 2.Đồng ý chuyển tới phê duyệt ( xem ) chờ đạo triển khai 37 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle - Điều kiện tiên quyết: Có văn lƣu - Post-Conditions: Nếu Use Case thành công, văn đƣợc duyệt trả lời - Điểm mở rộng: Khơng có Phê duyệt: - Tóm tắc: Use Case mơ tả cách thức văn đến đƣợc lãnh đạo phê duyệt - Dịng kiện: + Dịng kiện chính: Use Case bắt đầu văn tới 1.lãnh đạo xem phê duyệt Lƣu trữ + Dòng kiện khác: Khơng - Các u Cầu đặt biệt: Khơng có - Điều kiện tiên quyết: Phải có checker cua kiểm sát viên PostConditions: Use Case thành công,công văn đƣợc xem lƣu trữ, trả lời - Điểm mở rộng: Khơng có Đăng Nhập: - Tóm tắc: Use Case mơ tả cách nhân viên đăng nhập vào hệ thống - Dịng kiện: + Dịng kiện chính: Use Case bắt đầu nhân viên đăng nhập Hệ thống yêu cầu nhân viên nhập Tên Mật Nhân viên nhập Tên Mật Hệ thống kiểm chứng cho nhân viên đăng nhập vào hệ thống + Dòng kiện khác: Khi nhân viên nhập sai tên mật hệ thống thông báo lổi cho nhân viên chọn đăng nhập tiếp kết thúc Use Case - Các Yêu Cầu đặt biệt: Khơng có - Điều kiện tiên quyết: Khơng có - Post-Conditions: Nếu đăng nhập thành cơng nhân viên đƣợc 38 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle phép thao tác với quyền hệ thống,ngƣợc lại hệ thống không thay đổi - Điểm mở rộng: Khơng có 4.4 CSDL đƣợc tạo Oracle 4.5 Bảng MSTB_CƠNG VĂN 39 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.6 Bảng MSTB_CLUSTERS 4.7 Bảng MSTB_CLUSTER_RESULT 40 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.8 View tất nhân viên 41 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.9 View nhân viên 4.10 Sequences 42 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.11 Trong Packages chứa Procedures p()prtb_vanban,p()prtb_cluster 4.12 Giới thiệu chƣơng trình ứng dụng 4.12.1 Trang Đăng nhập 43 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.12.2 Trang chủ 4.12.3 Trang Soạn văn 44 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.12.4 Trang Danh sách nhân viên 4.12.5 Trang tạo nhân viên 45 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.12.6 Trang danh sách phòng ban 4.12.7 Trang danh sach văn đến 46 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.12.8 Trang tạo phong ban 4.12.9 Trang thông tin cá nhân 47 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.12.10 Trang tra cứu theo nội dung 4.12.11 Trang tra cứu theo phân cụm kết chạy trương trình 4.13 Chƣơng trình đƣợc thiết kế Microsoft Visual Studio 2005 Danh mục cần thiết kế 48 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.14 Kết thực chƣơng trình Chƣơng trình thực với liệu với 500 văn Nhận xét: Đây chƣơng trình thực phân cụm toán cụ thể Quản lý văn bản, qua kiểm nghiệm đƣợc kết thuật toán phân cụm liệu k_mean hệ quản trị sở liệu Oracle Chƣơng trình chạy với liệu đầu vào văn đến phân cụm toàn văn đến với số cụm K chọn ngẫu nhiên theo kinh nghiệm chuyên gia chạy chƣơng trình cho kết cụm số đƣợc phân, cụm có tiêu chí, nội dung tƣơng đồng nhau, hỗ trợ cho trình tra cứu tìm số giống Ƣu điểm: Chƣơng trình có khả ứng dung thực tế cao, chạy csdl lớn, nhanh Tuy nhiên, hạn chế định nhƣ số cụm K chọn ngẫu nhiên theo kinh nghiệm chuyên gia 49 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle KẾT LUẬN Trong đồ án này, em trình bày tổng quan nét đặc trƣng lĩnh vực Data Mining bao gồm vấn đề cần khám phá tri thức, hƣớng tiếp cận nghiên cứu tiêu biểu, PCDL phƣơng pháp khám phá tri thức quan trọng Data Mining có nhiều ý nghĩa khoa học nhƣ thực tiễn Đồ án tìm hiểu đƣợc số vấn đề việc phân cụm liệu hệ quản trị csdl Oracle nhƣ thủ tục, gói liệu tích hợp Oracle Các cách gọi, sử dụng thuật toán phân cụm Đồ án xây dựng đƣợc chƣơng trình nhỏ quản lý văn có ý nghĩa tƣơng đối cao làm tiền đề cho việc phát triển ứng dụng sau Hƣớng phát triển tiếp theo: Đồ án đề cập đến số phƣơng pháp nhƣ kỹ thuật áp dụng PCDL Với tiền đề đó, thời gian tới, tơi tiếp tục tìm hiểu mơ hình liệu đặc thù, lựa chọn một kỹ thuật PCDL phù hợp nhằm xây dựng ứng dụng đáp ứng toán thực tiễn Hƣớng nghiên cứu cụ thể nhƣ sau: o Xây dựng phát triển kỹ thuật phân cụm cho lớp liệu Web, văn bản, hình ảnh o Kết hợp kỹ thuật phân cụm với các kỹ thuật mờ, mạng nơ ron đề giải số ứng dụng khác thực tế Do thời gian nghiên cứu trình độ có hạn, báo cáo khơng tránh khỏi có hạn chế thiếu sót Em xin đƣợc tiếp thu ý kiến đánh giá, bảo thầy giáo nhƣ bạn bè 50 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle Chƣơng TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Ngọc, Thuật toán phân cụm liệu dựa mật độ, Đồ án tốt nghiệp, ĐHDL Hải Phòng, 2008 [2] Trần Thị Quỳnh, Phân cụm liệu nửa giám sát giải thuật di truyền, Đồ án tốt nghiệp, ĐHDL Hải Phòng, 2008 [3] Kluwer Academic Publishers, Holland, Extensions To the k-means Algorithm for Clustering Large Data Sets With Categorical Value [4] Periklis Andritsos, Data Clusting Techniques, Department of Computer Science, University Toronto, 2002 [5] Petrolimex : [1] http://www.oravn.com/ [2] http://www.oracle.com/technology/index.html 51 ... bày tổng quan phân cụm liệu bao gồm kiểu liệu phân cụm , ứng dụng kỹ thuật phân cụm liệu Chƣơng 2: Hệ quản trị sở liệu Oracle Giới thiệu hệ quản trị sở liệu Oracle phân cụm liệu Oracle Chƣơng... tất nhân viên 41 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.9 View nhân viên 4.10 Sequences 42 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.11 Trong Packages chứa... MSTB_CƠNG VĂN 39 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.6 Bảng MSTB_CLUSTERS 4.7 Bảng MSTB_CLUSTER_RESULT 40 Tìm hiểu kỹ thuật phân cụm liệu xử lý liệu hệ QTCDL Oracle 4.8 View

Ngày đăng: 06/04/2021, 18:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w