1.Giới thiệu Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z. Pawlak và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ và không chắc chắn. Phương pháp này đóng vai trò hết sức quan trọng trong lĩnh vực trí tuệ nhận tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng. Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ. Ví dụ, nếu các đối tượng là những bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông tin về bệnh nhân. Như vậy tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống của tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử của tập hợp. Rõ ràng, có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó, và ta nói chúng có quan hệ bất khả phân biệt với nhau. Đây chính là quan hệ mấu chốt và là điểm xuất phát của lý thuyết tập thô : biên giới của tập thô là không rõ ràng, và để xác định nó chúng ta phải đi xấp xỉ nó bằng các tập hợp khác nhằm mục đích cuối cùng là trả lời được (tất nhiên càng chính xác càng tốt) rằng một đối tượng nào đó có thuộc tập hợp hay không. Lý thuyết tập thô với cách tiếp cận như vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội.
Trang 1LỜI MỞ ĐẦU
Lý thuyết tập thô được Balan Zdzilaw Pawlak đề xuất ra vào đầu những năm 80của thế kỷ 19 Nó cung cấp một công cụ để phân tích, suy diễn dữ liệu không chínhxác để phát hiện ra mối quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu.Một hướng tiếp cận mới về tính không chắc chắn và không chính xác của dữ liệu.Ngay từ khi mới ra đời, lý thuyết tập thô đã thu hút được nhiều sự quan tâm vàngày càng được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau của khoa học máytính Lý thuyết tập thô là cơ sở quan trọng cho lĩnh vực trí tuệ nhân tạo và khoahọc nhận thức, đặc biệt có ý nghĩa trong các lĩnh vực như học máy, phát hiện trithức, phân tích quyết định, phương pháp suy diễn và nhận dạng mẫu Tập thô cũng
có đóng góp quan trọng trong các lĩnh vực hệ chuyên gia, hệ hỗ trợ quyết định vàkhai phá dữ liệu, Web ngữ nghĩa…
Dưới sự hướng dẫn của giảng viên: Ths: An Văn Minh nhóm 16 chúng em đã tìmhiểu về đề tài “ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN
XỬ LÝ TIẾNG NÓI”
Do thời gian, cũng như luợng kiến thức và tài liệu tìm kiếm hạn chế nên bài làmcủa nhóm còn nhiều thiếu sót mong thầy và các bạn góp ý để bài làm của chúng emđuợc hoàn chỉnh hơn
Trang 2MỤC LỤC
LỜI MỞ ĐẦU 1
MỤC LỤC 2
Chương I:Cơ sở lý thuyết 3
1.Giới thiệu 3
2.Các Khái Niệm Cơ Bản 4
2.1 Hệ Thông Tin 4
2.2 Hệ Quyết Định 5
2.3 Quan Hệ Bất Khả Phân Biệt 6
2.4 Xấp xỉ tập hợp 9
2.5 Sư phụ thuộc giữa các tập thộc tính 11
2.6 Rút gọn thuộc tính 12
2.7 Ma trận phân biệt 14
Chương II: Ứng dụng của lý thuyết tập thô trong bài toán xử lý tiếng nói 15
1.Tổng quan 15
2 Vector đặc trưng trong xử lý tiếng nói 15
3 Lấy mẫu 16
4.lọc tín hiệu 17
5 rút trích đặc trưng 18
6.trích trọn đặc trưng MFCC 20
6.1 Tiền nhấn (Pre-emphasis): 22
6.2 Cửa sổ hóa (Windowing): 22
6.3.Biến đổi Fourier nhanh (Fast Fourier Transform -FFT): 23
6.4 Lọc qua bộ lọc Mel-scale : 23
6.5 Tính log năng lượng phổ: 24
Trang 3dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp vànhận dạng.
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cầnphải có thông tin về mọi đối tượng trong tập vũ trụ Ví dụ, nếu các đối tượng lànhững bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thànhthông tin về bệnh nhân Như vậy tập thô có quan điểm hoàn toàn khác với quanđiểm truyền thống của tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhấtbởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử củatập hợp Rõ ràng, có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào
đó, và ta nói chúng có quan hệ bất khả phân biệt với nhau Đây chính là quan hệmấu chốt và là điểm xuất phát của lý thuyết tập thô : biên giới của tập thô là không
rõ ràng, và để xác định nó chúng ta phải đi xấp xỉ nó bằng các tập hợp khác nhằmmục đích cuối cùng là trả lời được (tất nhiên càng chính xác càng tốt) rằng một đốitượng nào đó có thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận nhưvậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội
Trang 42.Các Khái Niệm Cơ Bản
2.1 Hệ Thông Tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện cho mộttrường hợp, một sự kiện, một bệnh nhân hay đơn giản là một đối tượng Mỗi cộtcủa bảng thể hiện một thuộc tính (là một giá trị, một quan sát, một đặc điểm, …)được “đo lường” cho từng đối tượng Ngoài ra giá trị của thuộc tính cũng có thểđược cung cấp bởi chuyên gia hay bởi người sử dụng Một bảng như vậy được gọi
là một hệ thông tin
Một cách hình thức, hệ thông tin là một cặp A = (U, A) trong đó U là tập hữuhạn không rỗng các đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn khôngrỗng các thuộc tính sao cho a : U → Va với mọi a ∈ A Tập Va được gọi là tập giátrị của thuộc tính a
Ví dụ 1: Bảng dữ liệu trong Bảng 1dưới đây cho ta ví dụ về một hệ thông tin
Trang 52.2 Hệ Quyết Định.
Tập vũ trụ được phân chia thành các tập đối tượng con bởi một tập các thuộc tínhphân biệt được gọi là tập thuộc tính quyết định Nói cách khác tập vũ trụ đã đượcphân lớp bởi thuộc tính quyết định Hệ thông tin trong trường hợp này được gọi làmột hệ quyết định Như vậy hệ quyết định là một hệ thông tin có dạng A = (U, C ∪D) trong đó A = C ∪ D, C và D lần lượt được gọi là tập thuộc tính điều kiện và tậpthuộc tính quyết định của hệ thông tin
Ví dụ 2 : Bảng 2 dưới đây thể hiện một hệ quyết định, trong đó tập thuộc tính
điều kiện giống như trong Bảng 1 và một thuộc tính quyết định {Mùa } được thêmvào nhận hai giá trị kết xuất là “Xuân”, “Hạ”, “Thu”, “Đông”
Ngà
y
Bảng 2: hệ quyết định.
Trang 62.3 Quan Hệ Bất Khả Phân Biệt
2.3.1 sự dư thừa thông tin
Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về các đối tượngtrong thế giới thực Tuy nhiên trong nhiều trường hợp bảng này có thể được tinhgiảm do tồn tại ít nhất hai khả năng dư thừa thông tin sau đây :
Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại được thể hiện lặplại nhiều lần
Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ đi các thuộc tính này thìthông tin do bảng quyết định cung cấp mà chúng ta quan tâm sẽ không bị mất mát
Ví dụ 3 : Trong bảng ở Bảng 1, nếu chúng ta chỉ quan tâm tới tập thuộc tính {Nhiệt
độ, Thời tiết, Độ ẩm} của các đối tượng thì ta sẽ có nhận xét : có thể bỏ đi thuộctính “Độ ẩm” mà thuộc tính “Nhiệt độ” , “Thời tiết” nhận hai giá trị “Nóng”,
“Nắng” thì có thể nói ngay rằng giá trị của nó tại thuộc tính “Độ ẩm” là “Cao”.Ngà
Trang 72.3.2 Quan Hệ Tương Đương-Lớp Tương Đương
Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói trên qua khái niệm quan hệtương đương Một quan hệ hai ngôi R ⊆ XxX được gọi là quan hệ tương đương khi
và chỉ khi :
R là quan hệ phản xạ : xRx, ∀x ∈ X
R là quan hệ đối xứng : xRy ⇒ yRx, ∀x, y ∈ X
R là quan hệ bắc cầu : xRy và yRz ⇒ xRz, ∀x, y, z ∈ X
Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớptương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các đốitượng có quan hệ R với x
Tiếp theo, xét hệ thông tin A = (U, A) Khi đó mỗi tập thuộc tính B ⊆ A đềutạo ra tương ứng một quan hệ tương đương IND A :
IND A (B) = {( x, x' ) ∈ U 2 | ∀a ∈ B, a( x) = a( x' )}
IND A (B) được gọi là quan hệ B -bất khả phân biệt Nếu ( x, x' ) ∈ IND A(B) thì các đối tượng x và x' là không thể phân biệt được với nhau qua tập thuộctính B Với mọi đối tượng x ∈ U, lớp tương đương của x trong quan hệ IND A (B)được kí hiệu bởi [ x] Nếu không bị nhầm lẫn ta viết IND(B) thay cho IND A (B).Cuối cùng, quan hệ B -bất khả phân biệt phân hoạch tập đối tượng U thành các lớptương đương mà ta kí hiệu là U | IND( B)
Ví dụ 4 : Tập thuộc tính {Thời tiết,Nhiệt dộ,,Độ ẩm} trong Bảng 1 phân tập đốitượng {1,2, ,9} thành tập lớp tương đương sau : U | IND( B) = {{1,5}, {2 }, {3,8},{4},{7},{6},{9} }
Trang 8Ta thấy, chẳng hạn, do đối tượng 1 và đối tượng 5 thuộc cùng một lớp tươngđương nên chúng không phân biệt được với nhau qua tập thuộc tính {Thời tiết,Nhiệt độ, Độ ẩm}.
2.3.3 Thuật toán xác định lớp tương đương
Trang 9Thì : P = P ∪ {y}
O = O \ {y}
Hết nếu Hết với mọi
Để làm rõ ý tưởng quan trọng này ta xem ví dụ dưới đây
Ví dụ 5 : Xét hệ quyết định điều tra vấn đề da cháy nắng sau đây:
Bảng 3: Một hệ quyết định điều tra vấn đề da cháy nắng
Trong hệ quyết định trên, thuộc tính Kết quả là thuộc tính quyết định và hai thuộc
tính giữa là thuộc tính điều kiện Tập thuộc tính điều kiện C = {Trọng lượng, Dùng
thuốc} phân hoạch tập các đối tượng thành các lớp tương đương :
Trang 10Nhận xét rằng tất cả các đối tượng thuộc cùng một lớp tương đương đều cócùng giá trị tại thuộc tính quyết định Do đó ta có thể mô tả thuộc tính quyết địnhnhư sau :
Kết quả sẽ là không cháy nắng nếu và chỉ nếu trọng lượng là nhẹ và có dùngthuốc hoặc trọng lượng trung bình và không dùng thuốc
Kết quả sẽ là cháy nắng nếu và chỉ nếu trọng lượng là nặng và không dùng thuốc
Ta nói hai khái niệm Cháy nắng và Không cháy nắng trong thuộc tính Kếtquả có thể được định nghĩa rõ ràng qua 2 thuộc tính Trọng lượng và Dùng thuốc.Tuy vậy không phải lúc nào cũng có thể định nghĩa một khái niệm nào đó một cách
rõ ràng như vậy
Ta có những khái niệm sau:
Cho hệ thông tin A = (U, A), tập thuộc tính B ⊆ A, tập đối tượng X ⊆ U.Chúng ta có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các thuộc tính trong B từviệc xây dựng các tập hợp B -xấp xỉ dưới và B -xấp xỉ trên được định nghĩa nhưsau :
B -xấp xỉ dưới của tập X : BX- ={x |[x]B ⊆ X}
B -xấp xỉ trên của tập X : BX+ = {x |[x]B ∩ X ≠∅}
Tập hợp BX- là tập các đối tượng trong U mà sử dụng các thuộc tính trong
B ta có thể biết chắc chắn được chúng là các phần tử của X
Tập hợp BX+là tập các đối tượng trong U mà sử dụng các thuộc tính trong B
ta chỉ có thể nói rằng chúng có thể là các phần tử của X
Trang 11Tập hợp BNB (X) = BX+ \BX- được gọi là B -biên của tập X và chứanhững đối tượng mà sử dụng các thuộc tính của B ta không thể xác định đượcchúng có thuộc tập X hay không
Tập hợp U \ BX được gọi là B -ngoài của tập X , gồm những đối tượng mà
sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X
Một tập hợp được gọi là thô nếu đường biên của nó là không rỗng, ngược lại
ta nói tập này là rõ Lưu ý rằng do khái niệm biên của một tập đối tượng gắn liềnvới một tập thuộc tính nào đó nên khái niệm thô hay rõ ở đây cũng gắn liền với tậpthuộc tính đó
Trong đa số trường hợp, người ta luôn muốn hình thành các định nghĩa củacác lớp quyết định từ các thuộc tính điều kiện
2.5 Sư phụ thuộc giữa các tập thộc tính
Một vấn đề quan trọng trong phân tích dữ liệu là khám phá sự phụ thuộc giữa cácthuộc tính Một cách trực giác, một tập thuộc tính D được cho là phụ thuộc hoàntoàn vào tập thuộc tính C, ký hiệu C ⇒ D, nếu tất cả các giá trị của các thuộc tínhtrong D có thể được xác định duy nhất bởi các giá trị của các thuộc tính trong C.Nói cách khác, D phụ thuộc hoàn toàn vào C nếu tồn tại một ánh xạ từ các giá trịcủa tập C tới các giá trị của tập D Khái niệm phụ thuộc thuộc tính được thể hiệndưới dạng hình thức như sau:
Cho C và D là các tập con của tập thuộc tính A Ta nói D phụ thuộc C với
độ
phụ thuộc k (0 ≤ k ≤1), kí hiệu C ⇒k D nếu :
k=ảnh long gõ
Trang 12được gọi là C -vùng dương của D Đây là tập các đối tượng của U mà bằng cách sửdụng tập thuộc tính C ta có thể phân chúng một cách duy nhất vào các phân hoạchcủa U theo tập thuộc tính D
Xét hệ thông tin A = (U, A) và hai tập thuộc tính P, Q ⊆ A Thuộc tính a ∈
P được gọi là có thể bỏ được (dispensible) trong P nếu IND(P) = IND(P −{a}),
Trang 13có thể bỏ được không làm tăng / giảm khả năng phân loại khi có / không có mặtthuộc tính đó trong P Tập tất cả các thuộc tính không thể bỏ được trong P đượcgọi là lõi (core) của P, ký hiệu CORE(P) Lưu ý rằng lõi có thể là tập rỗng, và khi
đó mọi tập con của P với lực lượng bằng card (P) − 1 đều giữ nguyên khả năngphân loại của P
Khi loại ra khỏi P một số thuộc tính có thể bỏ được thì ta được một tập rútgọn của P Nói cách khác, rút gọn của một tập thuộc tính P là tập thuộc tính B ⊆ Pgiữ nguyên khả năng phân loại của P, hay IND(B) = IND(P) Dễ dàng thấy rằng, vìlõi của P là tập các thuộc tính không thể bỏ được của P nên tất cả các rút gọn của Pđều chứa tập thuộc tính lõi
Một rút gọn B của tập thuộc tính P được gọi là rút gọn hoàn toàn nếu vớimọi tập
thuộc tính B'⊂ B, B ' không là rút gọn của P Như vậy rút gọn hoàn toàn là tậpthuộc tính nhỏ nhất trong tất cả các rút gọn có thể có của P và được ký hiệu làRED(P)
Tính chất : Tập thuộc tính lõi của P là giao của tất cả các rút gọn hoàn toàn
của P, tức là CORE(P) = ∩ RED(P)
POS{P− a}(Q), ngược lại là Q - không thể bỏ được (Q-indispensible) Tập tất
cả các thuộc tính Q - không thể bỏ được trong P được gọi là Q - lõi tương đối (Q
- relative core) Thuộc tính a được gọi là Q - có thể bỏ được (Q - dispensible)trong P nếu POSP(Q) = của P hay Q - lõi (Q - core) của P và được ký hiệu làCOREQ (P)
Tập thuộc tính B ⊆ P được gọi là Q - rút gọn (Q - reduct) của P khi và chỉkhi POSB (Q) = POSP (Q) Một tập Q - rút gọn B của P là Q - rút gọn hoàn toànnếu với mọi tập thuộc tính B'⊂ B, B ' không là Q - rút gọn của P Như vậy, Q -
Trang 14rút gọn hoàn toàn của P là tập thuộc tính nhỏ nhất trong tất cả các Q - rút gọn của
P và được ký hiệu là REDQ (P)
Tính chất : Tập thuộc tính Q - lõi của P là giao của tất cả các tập thuộc tính
Q -rút gọn tương đối của P , tức là : COREQ(P) = ∩ REDQ(P)
2.7 Ma trận phân biệt.
Định nghĩa : Xét hệ thông tin (U, A) giả sử B A Ta định nghĩa ma trận B phân biệt được, kí hiệu M(B), là ma trận đối xứng cấp n n mà mỗi phần tử của nóđược xác định như sau: cij a B : a(xi ) a(x j ) , i, j 1,n
-Mỗi phần tử của ma trận cij là tập hợp các thuộc tính để phân biệt hai đốitượng xi và xj
Trang 15Chương II: Ứng dụng của lý thuyết tập thô trong bài toán xử lý
tiếng nói.
1.Tổng quan.
Âm thanh là dạng tín hiệu tương tự, nhưng để có thể lưu trữ trên máy tínhcũng như làm máy tính có thể hiểu được nó thì nó phải được số hóa Dữ liệu âmthanh co hai dạng chính là âm thanh nén và âm thanh không nén Âm thanh dạngnén cũng có hai loại là nén có sự mất mát và nén không có sự mất mát
Để chuyển âm thanh từ dạng tương tự về dạng số, thì âm thanh cần được lấymẫu Trong xử lý tín hiệu thì lấy mẫu là chuyển đổi một tín hiệu liên tục thành mộttín hiệu rời rạc Có thể hiểu đơn giản là biến dổi một sóng âm thanh thành mộtchuỗi các mẫu, mỗi mẫu chứa một giá trị hoặc một tập hợp giá trị trên trục thờigian
2 Vector đặc trưng trong xử lý tiếng nói
Tiếng nói thu được vốn có kích thước khán lớn, máy tính cá nhân gần nhưkhông đủ bộ nhớ cho quá trình xậy dựng mô hình cũng như nhận dạng lượng dữliệu lớn đó
Để giải quyết vấn đề trên người ta chỉ tríc rút ra những thông tin cần thiếtnhất từ dãy tín hiệu mà ta thu được Các tín hiệu này được gọi là đặc trưng của tínhiệu gốc hay tín hiệu âm thanh Các đặc trưng nayfphair thỏa mãn các điều kiệnsau:
- Nhỏ hơn nhiều lần so với tín hiệu gốc
- Có khả năng diễn đạt thông tin tiếng nói ban đầu
- Ít thay đổi theo môi trường, độ ồn của nền
Có nhiều đặc chưng, nhưng ta có thể chia làm ba nhóm đặc chưng chính:
Trang 16Đặc trưng trích ra nhờ sự mô phỏng bộ máy phát âm của con người Các đặctrưng của nhóm này sử dụng phương pháp dự báo tuyến tính để rút ra các đặctrưng Các đặc trưng của nhóm này như:
- COR: được đưa ra bới Box và Jenkins năm 1976
- LPC: được đưa ra bởi Atal và Itakura những năm 1970
Đặc trưng được trích ra nhờ kha năng cảm nhận thính giác của con người Cácđặc trưng của nhóm này sử dụng phương pháp phân tích cepstral(phép biến đổifourier của phổ năng lượng tín hiệu) Các đặc trưng của nhóm này như:
- LSP: đưa ra bởi Fumitada và Itakura những năm 1970
- MFCC: đưa ra bới Bridle và Brow những năm 1970
Đặc trưng được dựa trên âm học về cao độ, ngữ điệu, dấu nhấn, thíc hợp chonhận dạng ngôn ngữ nói
Các đặc trưng của nhóm 3 ít được sử dụng cho nhận dạng âm tiết mà đa phần làhai nhóm đầu
Quá trình trên sẽ tạo ra một chuỗi các số biểu diễn cho tín hiệu, và có thể xử lýđược bởi máy tính
Trang 17Hình 1: Ví dụ về lấy mẫu tín hiệu f(t) trên miền thời gian
4.lọc tín hiệu.
Bộ lọc số có vai trò rất quan trọng trong xử lý tiếng nói, chúng được dùngvới 2 mục đích chính:
Tách tín hiệu cần thiết: Các tín hiệu ban đầu thường chứa đựng các nhiễu
hoặc các tín hiệu không mong muốn khác, các nhiễu này làm giảm đáng kể chấtlượng của tín hiệu và cần phải tách riêng các tín hiệu cần thiết
Ví dụ: Đối với âm thanh được thu, tín hiệu âm thường chứa thêm các tiếng ồncủa môi trường, chẳng hạn như tiếng ồ ồ của quạt trần thổi vào micro; còn đối vớiảnh chụp thì là các điểm lốm đốm trên những tấm ảnh cũ khi được quét vào…
Khôi phục các tín hiệu bị biến dạng: Có một số trường hợp vì một nguyên
nhân nào đó (thường là nguyên nhân liên quan đến thiết bị) sẽ tạo ra các tín hiệuvào bị méo mó Vì vậy cần phải chỉnh lại để tăng chất lượng của tín hiệu số
Ví dụ: Các micro cũ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt”(forcus len) của các máy quét bị mờ sẽ làm cho các ảnh được quét bị mờ theo
Trong thực tế kỹ thuật, có hai bộ lọc tuyến tính dùng để lọc tín hiệu: