Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến

Tài liệu Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến: Công nghệ thông tin & Cơ sở toán học cho tin học T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means tính toán hạt cải tiến.” 176 PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TOÁN HẠT CẢI TIẾN Trương Quốc Hùng*, Ngô Thành Long, Phạm Thế Long Tóm tắt: Xây dựng không gian hạt giảm chiều dựa trên tính toán hạt là một bước tiền xử lý nhằm loại bỏ những thuộc tính không cần thiết và tìm kiếm ngoại lai đối với bài toán phân cụm dữ liệu không chắc chắn và quy mô lớn. Trong khi đó thuật toán C-Means khả năng mờ loại hai khoảng thực hiện hiệu quả trong xử lý dữ liệu không chắc chắn và có nhiễu. Tận dụng các ưu điểm đó, chúng tôi đề xuất phương pháp phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM). Phương pháp này sử dụng tính toán hạt để tạo ra các hạt giảm chiều, sau đó sử dụng lực hấp dẫn hạt để xác định tâm mỗi hạt nhằm cải tiến phép đo khoảng cách giữa hạt với tâm cụm. Các kết quả thực nghiệm trên các tập ...

pdf11 trang | Chia sẻ: quangot475 | Lượt xem: 313 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Công nghệ thông tin & Cơ sở toán học cho tin học T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means tính toán hạt cải tiến.” 176 PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TOÁN HẠT CẢI TIẾN Trương Quốc Hùng*, Ngô Thành Long, Phạm Thế Long Tóm tắt: Xây dựng không gian hạt giảm chiều dựa trên tính toán hạt là một bước tiền xử lý nhằm loại bỏ những thuộc tính không cần thiết và tìm kiếm ngoại lai đối với bài toán phân cụm dữ liệu không chắc chắn và quy mô lớn. Trong khi đó thuật toán C-Means khả năng mờ loại hai khoảng thực hiện hiệu quả trong xử lý dữ liệu không chắc chắn và có nhiễu. Tận dụng các ưu điểm đó, chúng tôi đề xuất phương pháp phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM). Phương pháp này sử dụng tính toán hạt để tạo ra các hạt giảm chiều, sau đó sử dụng lực hấp dẫn hạt để xác định tâm mỗi hạt nhằm cải tiến phép đo khoảng cách giữa hạt với tâm cụm. Các kết quả thực nghiệm trên các tập dữ liệu khác nhau cho thấy phương pháp công bố có kết quả tốt hơn so với các phương pháp trước đó. Từ khóa: Phân cụm mờ; Trích chọn đặc trưng; Phân cụm C-means khả năng mờ; Tính toán hạt; Lực hấp dẫn hạt. 1. MỞ ĐẦU Thuật toán phân cụm có nhiều dạng khác nhau như phân cụm rõ như K-means [1], phân cụm mờ loại một FCM [2], phân cụm mờ dựa trên khả năng PCM [3] hay kết hợp giữa FCM và PCM (FPCM) [4]. Gần đây có nhiều nghiên cứu đề xuất các hướng cải tiến nhằm nâng cao chất lượng phân cụm của thuật toán FPCM [5]-[8]. Ngoài ra, để xử lý tốt hơn tính không chắc chắn, có nhiều phương pháp sử dụng kỹ thuật logic mờ loại hai được đề xuất [9]-[14]. Trong đó nhóm E. Rubio đã đề xuất phương pháp phân cụm C-Means khả năng mờ loại hai khoảng (IT2FPCM) là một mở rộng của FPCM sử dụng tập mờ loại hai khoảng [15]. Các mở rộng này góp phần giảm ảnh hưởng của nhiễu và xử lý tính không chắc chắn của thuật toán FCM gốc tốt hơn. Tuy nhiên, những thuật toán này vẫn tồn tại hạn chế trong phân cụm dữ liệu lớn và nhiều chiều như tốc độ thực hiện chậm và độ chính xác bị ảnh hưởng bởi các thuộc tính nhiễu. Một trong những hướng giải quyết bài toán phân cụm dữ liệu lớn, nhiều chiều là tìm cách loại bỏ nhiễu và các thuộc tính dư thừa hay rút gọn thuộc tính của dữ liệu [16], [21]. Có nhiều thuật toán heuristic rút gọn thuộc tính đã được công bố. Trong khi J. Qian đề xuất một số thuật toán giảm thuộc tính cho dữ liệu lớn sử dụng map-reduce [17] thì nhóm L.Sun đã thiết kế một phương pháp lựa chọn thuộc tính dựa trên hệ số entropy thô [18], [19] hoặc tính toán hạt [20]. Trong khi đó nhóm Q.H.Hu giới thiệu một phương pháp lựa chọn thuộc tính bằng cách kết hợp tính toán hạt và lý thuyết xấp xỉ [21]. Tuy nhiên, các phương pháp lựa chọn thuộc tính này cần gán nhãn như các mẫu huấn luyện và thường áp dụng vào bài toán phân lớp. Gần đây, tính toán hạt là một công cụ mạnh để nghiên cứu giải quyết bài toán phức tạp, dữ liệu lớn, thông tin không chắc chắn và dữ liệu nhiều chiều [22], [23]. Tính toán hạt trở thành một phương pháp mới có thể mô phỏng suy nghĩ của con người và giải quyết các bài toán trí tuệ tính toán có liên quan đến ý tưởng hạt và logic hạt [24] và nó cũng được sử dụng như một nền tảng cho các phương pháp rút gọn thuộc tính [21], [20]. Có nhiều mô hình lai giữa tính toán hạt và các phương pháp khác được đề xuất và tạo ra một loại hình mới của các thuật toán học máy. Những mô hình này dựa trên cấu trúc hạt đối với nhiều loại dữ liệu hoặc phương pháp học khác nhau [25], [26]. Trong công bố gần đây, chúng tôi đã áp dụng tính toán hạt để thực hiện rút gọn thuộc tính cho bài toán phân cụm nhằm giảm ảnh hưởng xấu từ số chiều lớn của tập dữ liệu [28]. Bên cạnh đó các nghiên cứu về lực hấp dẫn hạt dựa trên ý tưởng của định luật vạn vật hấp dẫn Newton là Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 177 một trong những hướng nghiên cứu thu hút nhiều sự chú ý. Dựa trên ý tưởng này nhóm M.A. Sanchez đã trình bày phương pháp mới để tìm kiếm các hạt thông tin mờ từ dữ liệu đa chiều [29]. Nhóm tác giả M. Alswaitti cũng đề xuất thuật toán phân cụm dữ liệu dựa trên lực hấp dẫn được tối ưu hóa [30]. Trên cơ sở đó, phương pháp phân cụm C-means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM) được đề xuất. Phương pháp này tận dụng khả năng của IT2FPCM trong xử lý nhiễu kết hợp tính toán hạt để loại bỏ ảnh hưởng của các thuộc tính dư thừa và các đối tượng nhiễu. Ngoài ra lực hấp dẫn hạt cũng được sử dụng để xác định tâm của mỗi hạt, qua đó cải tiến phép đo khoảng cách giữa hạt và tâm cụm. Các phần còn lại của bài báo này được tổ chức như sau: Phần 2 giới thiệu ngắn gọn một số kiến thức cơ sở về phân cụm C-Means khả năng mờ loại hai khoảng, tính toán hạt và lực hấp dẫn hạt; Phần 3 đề xuất phân cụm IT2FPCM dựa trên tính toán hạt cải tiến; Phần 4 đưa ra một số kết quả thực nghiệm và Phần 5 phát biểu kết luận và đề xuất hướng nghiên cứu tiếp theo. 2. KIẾN THỨC CƠ SỞ 2.1. Phân cụm C-Means khả năng mờ loại 2 khoảng Thuật toán phân cụm C-Means khả năng mờ loại 2 khoảng là một mở rộng của thuật toán phân cụm C-Means khả năng mờ loại 1 sử dụng tập mờ loại 2 [15]. Các trọng số mũ mờ m và trọng số mũ khả năng p là các khoảng giá trị tương ứng: m = [m,m]; p = [p, p]. Ma trận phân hoạch mờ u nằm trong khoảng u, u, trong đó u, u là các cận dưới và cận trên của khoảng thuộc mờ độ thuộc của dữ liệu x vào cụm v. Ma trận phân hoạch khả năng t nằm trong khoảng t, t, trong đó t, t là các cận dưới và cận trên của khoảng thuộc khả năng độ thuộc của dữ liệu x vào cụm v. Chúng được xác định như sau: = , (1) = , (2) = , (3) = , (4) trong đó, 1 ≤ ≤ , 1 ≤ ≤ ; , lần lượt là số cụm và số phần tử dữ liệu. Tâm cụm nằm trong khoảng , , trong đó , là các cận dưới và cận trên của tâm cụm thứ . Chúng được xác định như sau: = ∑ ( + ) ∑ ( + ) (5) Công nghệ thông tin & Cơ sở toán học cho tin học T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means tính toán hạt cải tiến.” 178 = ∑ ( + ) ∑ ( + ) (6) trong đó, = ; = . Giảm kiểu để xác định ma trận phân hoạch mờ, ma trận phân hoạch khả năng và tâm cụm: = + 2 (7) = ̅ + 2 (8) = + 2 (9) 2.2. Tính toán hạt 2.2.1. Hạt thông tin và tính chất hạt Hạt thông tin [28] được định nghĩa là = ,(), trong đó liên quan đến khái niệm của hạt thông tin, và () mô tả sự mở rộng của hạt thông tin. Đối với hệ thống phân cụm = (, ), tính chất hạt của hệ thống với tập thuộc tính và tập hạt = {} được biểu diễn là (), ⊆ được xác định như sau: () = |()| || ,() ∈ |/| (10) 2.2.2. Mức độ ảnh hưởng của thuộc tính dựa trên tính chất hạt Sự ảnh hưởng của mỗi tập thuộc tính trong hệ thống phân cụm [28] được xác định dựa trên tính chất hạt. Trong một hệ thống phân cụm = (, ), mức độ ảnh hưởng của thuộc tính ∈ biểu diễn là {}() và được xác định như sau: {}() = ( − ) − () (11) Giá trị của {}() càng lớn thì mức độ ảnh hưởng của thuộc tính a càng lớn, ngược lại thuộc tính ∈ là dư thừa đối với A nếu giá trị ( − ) bằng với (). Thuật toán rút gọn được trình bày ngắn gọn như sau: Thuật toán 1: Rút gọn thuộc tính dựa trên tính toán hạt 1 Đầu vào: Một hệ thống thông tin hạt = (, ) trong đó ≠ ∅ là tập các đối tượng và ≠ ∅ là tập các thuộc tính. 2 Đầu ra: tập rút gọn thuộc tính tối thiểu của , biểu diễn là 3 Bước 1: Xác định lõi tập thuộc tính () như sau: Tính mức độ quan trọng của mỗi thuộc tính của A được biểu diễn là {}() theo công thức (11), nếu {}() ≠ 0 thì chọn thuộc tính vào (). 4 Bước 2: 4.1 Gán ≔ () 4.2 Nếu () = () thì điều kiện dừng thỏa mãn 4.3 repeat: 4.3.1 Với mỗi thuộc tính ∈ − , tính toán mức độ ảnh hưởng của nó đối với ∪ {}: (). 4.3.2 Tìm thuộc tính mà mức độ ảnh hưởng đối với là lớn nhất () = max′∈ ′ 4.3.3 Thêm thuộc tính vào lõi: ≔ ∪ until GK(C) = GK(A) Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 179 2.2.3. Không gian hạt và trích chọn đặc trưng Phương pháp xây dựng không gian hạt và trích chọn đặc trưng [28] được xác định như sau: Các đối tượng = {, , , } được phân cụm vào cụm theo mỗi thuộc tính thứ bằng thuật toán FPCM [4], ∈ . Trên mỗi thuộc tính thứ , các cụm được gán nhãn bằng cách đánh số tăng dần từ 1 đến tương ứng với giá trị tăng dần của dữ liệu trong các cụm. Ma trận nhãn cụm được hình thành từ các phần tử (, ) là nhãn của đối tượng thứ trên thuộc tính thứ , 1 ≤ (, ) ≤ , = [(, )](×). Từ các giá trị {, , , } của một hàng trong ma trận nhãn cụm , chúng ta xây dựng một hạt = {,()}, trong đó = {, , , },() = { ∈ ∶ (, 1) = ∧ (, 2) = ∧ ∧ (, ) = }. Như vậy một không gian hạt G được hình thành từ tập các hạt, = {}, = 1,2, , với là số hạt, 1 ≤ ≤ , biểu diễn = ||. Chú ý ta chỉ xét những hạt với = { , , , }, ∃ ≠ với ≠ Phương pháp xây dựng không gian hạt và trích chọn đặc trưng có thể được mô tả ngắn gọn như sau: Thuật toán 2: Xây dựng không gian hạt và trích chọn đặc trưng 1 Đầu vào: Tập dữ liệu = {}, = 1. . , = , , , , là số cụm và là tham số lọc nhiễu. 2 Đầu ra: Tập thuộc tính là tập rút gọn tối thiểu của và không gian hạt 3 Bước 1: 3.1 Thực hiện thuật toán 1 trên mỗi thuộc tính ∈ để thành lập ma trận nhãn cụm = [(, )](×) trong đó (, ) là nhãn cụm đối tượng thứ trên thuộc tính thứ . 3.2 Loại bỏ các đối tượng và các thuộc tính ngoại lai theo thứ tự các công thức: ≔ − {} nếu () < ớ ∀ = 1,2. . . , à = 1,2, . . . , (12) ≔ − {} nếu (1, ) = (2, ) = ⋯ = ( ′, ) (13) 4 Bước 2: Xây dựng không gian hạt 4.1 Khởi tạo G = ∅, r = 0, ID = {1,2, , n}, k = 0, trong đó là chỉ số hàng của ma trận , là tập chỉ số và là số hạt. 4.2 repeat 4.2.1 = + 1 4.2.2 repeat = + 1 until ∈ 4.2.3 Thiết lập theo các giá trị của hàng thứ trong ma trận : = (, 1), (, 2), , (, ) trong đó là số thuộc tính trong tập sau khi đã loại các ngoại lai. 4.2.4 Tìm () = { ∈ : (, 1) = (, 1) ∧ (, 2) = (, 2) ∧ ∧ (, ) = (, )} if |()| > 0 then 4.2.4.1 for each ∈ (): = − {}, = − {} 4.2.4.2 = (,()) 4.2.4.3 if not (, 1) = (, 2) = ⋯ = (, ) then = ∪ {} until = ∅ 5 Bước 3: Thực hiện thuật toán 1 trên tập hạt G để thu được tập rút gọn tối thiểu C của A Công nghệ thông tin & Cơ sở toán học cho tin học T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means tính toán hạt cải tiến.” 180 2.2.4. Lực hấp dẫn hạt Định luật vạn vật hấp dẫn của Newton là một trong những lý thuyết cơ bản và quan trọng nhất trong vật lý cơ học. Theo định luật vạn vật hấp dẫn thì mỗi khối điểm hút mỗi khối điểm khác bởi một lực theo phương đường thẳng cắt hai điểm. Lực này tỷ lệ thuận với tích của hai khối lượng và tỷ lệ nghịch với bình phương khoảng cách giữa hai điểm: = ‖, ‖ (14) trong đó, là lực hút giữa hai khối, là hằng số hấp dẫn có giá trị là 6.674 ∗ 10 , và là khối lượng của khối thứ nhất và khối thứ hai, và ‖, ‖ là khoảng cách giữa hai tâm khối. Định luật này lý giải các khối điểm trong không gian có lực tương tác đối với tất cả các khối điểm còn lại trong vũ trụ, đây cũng là ý tưởng chính của thuật toán phân cụm dựa trên lực hấp dẫn hạt FGGCA [29]. Thuật toán này mô phỏng các lực hấp dẫn trong không gian, ở đó mỗi điểm dữ liệu được coi như một khối đơn có khối lượng giả định là 100 kg. Các điểm dữ liệu hay khối có trọng lượng được xem xét bởi các thuộc tính gồm: vị trí , khối lượng và mật độ lực hấp dẫn . Khi đó điểm dữ liệu thứ trong hạt thứ được biểu diễn bởi = (,, ), với 1≤ ≤ |()|, 1≤ ≤ ||. 3. PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TOÁN HẠT CẢI TIẾN 3.1. Xác định trọng tâm hạt dựa trên lực hấp dẫn Để xác định trọng tâm của mỗi hạt thu được từ thuật toán 2 chúng tôi thực hiện theo trình tự sau: Bước đầu tiên, tính toán lực tương tác giữa tất cả các điểm dữ liệu trong mỗi hạt hay lực hấp dẫn tác động của mỗi điểm đối với tất cả các điểm khác trong mỗi hạt: = ( .) × ( .) . , . (15) Tổng lực hấp dẫn của một điểm đối với tất cả các điểm khác trong mỗi hạt tạo nên mật độ lực hấp dẫn của điểm đó: . = ∑ |()| , với ≠ (16) Bước thứ hai, trong mỗi hạt sắp xếp tất cả các điểm dữ liệu theo thứ tự giảm dần của mật độ lực hấp dẫn tương ứng. Sau khi được sắp xếp, phần tử đầu tương ứng với điểm có mật độ lực hấp dẫn cao nhất và phần tử cuối tương ứng với điểm có mật độ lực hấp dẫn thấp nhất. Bước thứ ba, trong mỗi hạt xét theo thứ tự ưu tiên từ các điểm có mật độ lực hấp dẫn cao đến các điểm có mật độ hấp dẫn nhỏ hơn. Với điểm đang xét tìm hạt gần nhất so với , sau đó thực hiện ghép và như sau: = ∪ (17) Như vậy sau khi ghép, biến mất và còn lại sẽ có sự thay đổi về khối lượng và vị trí. Cụ thể khối lượng của sẽ được thêm phần khối lượng của : . = . + . (18) Vị trí mới của được cập nhật bằng tâm trọng lực của khối lượng hai điểm , trước đó, được biểu diễn bởi: = . . + . . , . (19) Tiếp theo là tính toán hệ số chia tỷ lệ , được biểu diễn bằng phương trình (20). Vị trí Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 181 mới của được cập nhật bằng phương trình (21), nghĩa là vị trí của được xác định bởi độ xê dịch về phía một đoạn: λ = Ρ . , . (20) . = . + λ( . − . ) (21) Sau mỗi quá trình trên, trong mỗi hạt số lượng điểm sẽ giảm trong khi đó khối lượng chung từ tất cả các điểm trong mỗi hạt vẫn giữ nguyên. Để tìm các trọng tâm hạt, thực hiện lặp lại tiếp quá trình trên đến khi số điểm trong mỗi hạt còn lại bằng 1. Vị trí của các điểm kết quả chính là các trọng tâm của các hạt. Thuật toán 3: Thuật toán tìm trọng tâm hạt 1 Đầu vào: Không gian hạt = {} với 1 ≤ ≤ ||, || là số hạt trong không gian hạt . 2 Đầu ra: Tập các trọng tâm hạt = {} 3 For each = to || 4 Bước 1: 3.1 Gán số điểm ban đầu = |()| 3.2 Khởi tạo: Khởi tạo các điểm dữ liệu , , , trong hạt thứ , trong đó: . = 100, . = 0 ( . và . tương ứng là khối lượng và mật độ hấp dẫn của hạt thứ ) 5 Bước 2: repeat: 5.1 Tính tất cả các lực hấp dẫn tương tác trong hạt thứ : = ( .)×( .) ., . với ≠ , 1 ≤ , ≤ , hằng số hấp dẫn = 6.674 × 10 5.2 Tính mật độ hấp dẫn cho mỗi điểm: . = ∑ với ≠ 5.3 Sắp xếp các điểm trong hạt thứ theo mật độ hấp dẫn giảm dần của . 5.4 Thực hiện ghép các điểm Tìm gần nhất, thực hiện ghép hai điểm và , với ∀, , 1 ≤ ≤ − 1; ≤ ≤ 5.4.1 Xác định trọng lượng mới của điểm ghép: . = . + . 5.4.2 Xác định tâm trọng lực: = . . . . , . 5.4.3 Xác định hệ số tỷ lệ : = ., . 5.4.4 Xác định vị trí mới của điểm ghép: . = . + . − . 5.4.5 Cập nhật số lượng điểm còn lại trong hạt: = − 1 until: = 1 6 Bước 3: Trọng tâm hạt thứ : = 7 Next 3.2. Thuật toán C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM) Xem xét hệ thống phân cụm hạt = (, ), không gian hạt = {}, = 1. . và = ||. Hạt đầu vào = ,() với = , , , ′, trong đó ′ = || là số thuộc tính. Công nghệ thông tin & Cơ sở toán học cho tin học T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means tính toán hạt cải tiến.” 182 Thực hiện phương pháp tìm trọng tâm hạt dựa trên lực hấp dẫn, tương ứng mỗi hạt sẽ thu được trọng tâm hạt . Khi đó, khoảng cách giữa một hạt và tâm cụm , 1 ≤ ≤ được xác định bằng là khoảng cách giữa trọng tâm hạt và tâm cụm : = ‖ − ‖ (22) Ma trận phân hoạch mờ nằm trong khoảng , , trong đó , là các cận dưới và cận trên của khoảng thuộc mờ độ thuộc của hạt vào cụm . Ma trận phân hoạch khả năng sẽ nằm trong khoảng , , trong đó , là các cận dưới và cận trên của khoảng thuộc khả năng độ thuộc của hạt vào cụm . Chúng được xác định theo các công thức (1), (2), (3) và (4), trong đó = 1,2, , ; = 1,2, , ; được tính bởi công thức (22). Các cận dưới và cận trên , của tâm cụm thứ được xác định như sau: = ∑ ( + ) × . × || ∑ + × || (23) = ∑ ( + ) × . × || ∑ + × || (24) trong đó = 1,2, , ; = , = và || số điểm dữ liệu trong hạt . Tiếp theo thực hiện giảm kiểu để xác định ma trận phân hoạch mờ, ma trận phân hoạch khả năng và tâm cụm theo các công thức (7), (8) và (9). Thuật toán C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM) được trình bày ngắn gọn như sau: Thuật toán 4: AGrIT2FPCM 1 Đầu vào: Hệ thống phân cụm (, ) trong đó tập dữ liệu = {, , , }, tập các thuộc tính = , , , , số cụm , sai số và tham số nhiễu . 2 Đầu ra: ma trận độ thuộc khả năng , ma trận độ thuộc mờ và ma trận tâm . 3 Bước 1: Áp dụng thuật toán 2 trên hệ thống phân cụm (, ) để thu được tập thuộc tính là rút gọn tối thiểu của và không gian hạt G. 4 Bước 2: Áp dụng thuật toán 3 trên không gian hạt để thu được tập các trọng tâm hạt = {} 5 Bước 3: Áp dụng thuật toán IT2FPCM trên hệ thống phân cụm = (, ) như sau: 5.1 Gán số bước lặp = 0 5.2 repeat: 5.2.1 = + 1 5.2.2 Cập nhật ma trận độ thuộc khả năng () dùng công thức (3), (4) và (8). 5.2.3 Loại bỏ hạt ngoại lai hoặc nhiễu = { ∈ :max () ≥ , ∀ = 1,2, , } 5.2.4 Cập nhật ma trận độ thuộc mờ () dùng công thức (1), (2) và (7). 5.2.5 Cập nhật ma trận tậm cụm () = () , () , , () dùng công thức (23), (24) và (9). until: () − () ≤ 6 Gán dữ liệu vào cụm thứ nếu > , = 1,2, . . , à ≠ . 4. THỰC NGHIỆM Trong phần này, một số tập dữ liệu nổi tiếng đã công bố được sử dụng trong các thực Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 183 nghiệm. Để phân tích so sánh các kết quả phân cụm, bài báo sử dụng các phương pháp phân cụm khác nhau bao gồm: FPCM [4], GrFPCM (thực hiện FPCM [4] trên không gian hạt từ thuật toán 2) và AGrIT2FPCM, trong đó AGrIT2FPCM là các thuật toán được đề xuất trong nghiên cứu này. Các thuật toán được thực hiện trên chương trình VC++ và chạy trên máy tính Intel core i7-3517U CPU 1.90GHz - 2.40GHz, RAM 8.0 GB. Thông qua các điều chỉnh trong các thực nghiệm, các kết quả phân cụm ổn định với các tham số được thiết lập như sau: = 1.5, = 2.5, = 1.5, = 2.5, = 2, = 2, tham số nhiễu θ = 0.1 và = 0.0001. Các kết quả thực hiện phân cụm được đánh giá qua các chỉ số tỷ lệ xác thực đúng và tỷ lệ xác thực sai [31] được định nghĩa như sau: TPR = ; FPR = (25) trong đó TP là số dữ liệu phân lớp chính xác, FN là số dữ liệu phân lớp lỗi – không chính xác, FP là số dữ liệu phân lớp không chính xác và TN là số dữ liệu phân lớp lỗi chính xác. Các thuật toán cho giá trị TPR cao hơn và giá trị FTR thấp hơn tương ứng với độ chính xác phân cụm cao hơn. Bảng 1. Các tập dữ liệu thử nghiệm. Tập dữ liệu Số phần tử Số thuộc tính Số lớp Số thuộc tính sau khi rút gọn WDBC 569 30 2 4 DNA 106 57 2 2 Madelon 4400 500 2 12 Lymphoma 45 4026 2 15 Leukaemia 38 7129 2 6 Global Cancer Map(GCM) 190 16063 14 16 Embryonal Tumours 60 7129 2 8 Colon 62 2000 2 9 Các tập dữ liệu được sử dụng bao gồm: Wis-consin Diagnostic Breast Cancer (WDBC), E. coli promoter gene sequences (DNA), Madelon và năm tập dữ liệu ung thư khác (Lymphoma, Leukaemia, Global Cancer Map (GCM), Embryonal Tumours và Colon) [28]. Chi tiết của các tập dữ liệu và tập các thuộc tính rút gọn tối thiểu được thể hiện trong Bảng 1. Bảng 2. Kết quả thử nghiệm. Tập dữ liệu FPCM GrFPCM AGrIT2FPCM Chỉ số FS TPR FPR FS TPR FPR FS TPR FPR WDBC 30 92.6% 2.8% 4 95.4% 1.9% 4 96.1% 1.6% DNA 57 91.5% 2.80% 2 96.20% 1.90% 2 97.20% 1.90% Madelon 500 90.8% 3.30% 12 94.80% 2.10% 12 95.80% 1.90% Lymphoma 4026 88.9% 2.20% 15 95.60% 2.20% 15 95.60% 2.20% Leukaemia 7129 81.6% 7.90% 6 94.70% 2.60% 6 97.40% 2.60% Global Cancer Map 16063 90.0% 5.30% 16 96.80% 1.10% 16 97.90% 1.10% Embryonal Tumours 7129 88.3% 8.30% 8 95.00% 1.70% 8 96.70% 1.70% Colon 2000 80.6% 9.70% 9 93.50% 3.20% 9 95.20% 3.20% Các tập dữ liệu trong bảng 1 được phân cụm bởi FPCM, GrFPCM và AGrIT2FPCM với số cụm là số lớp. Trong khi FPCM thực hiện phân cụm trên các tập dữ liệu đầy đủ các 184 thu các thu trong B xu FTR th các t toán đ trên tính toán h nh đề xuất sử dụng tính toán hạt v năng x định trọng tâm hạt để cải tiến phép đo khoảng cách giữa hạt với tâm cụm. Các nghi phương pháp đ giải thuật di truyền) cụm sử dụng h [1] [2] [3] [4] ộc tính thì GrFPCM và AGrIT2FPCM th Các k ất AGrIT2FPCM có đ ậ Bài báo này đ ằm giữ lại các thuộc tính chính v ệm đ M . . . . ộ ả ấ p d ề xu ử lý tính không chắc chắn. Ngo ột số h T. Kanung Implementation” 24, J.C. Bezdek, R. Ehrlich, W. Full, “ Computers & Geosciences, R. Krishnapuram, J. Keller, Fuzzy Syst., N.R. Pal, K.Pal, J.C. Bezdek, Sixth IEEE International Conference on Fuzzy Systems, c tí ết qu ng 2 và đư p hơn. Thu ữ li ấ ược thực hiện tr No. 7 (2002), pp. 881 T. Q. Hùng, N. T. Long, P. T. Long, “Phân c nh rút g ệu và t t đề ư ả phân c u có giá tr ạt cải tiến. Ph ề xuất tốt h ớng nghi àm thu ọ ợ ậ ỷ ã trình bày thu et al Vol. n là đ c th t toán AGrIT2FPCM thu đư lệ để tối ộc loại hai dạng hạt. , ầ ụm qua các ch ể hi ộ xác th ị ơn so v ên c , “An Efficient k IEEE Trans. On Pattern Analysis and 1, No. 2 (1993), pp. 98 u ra c ện tr chính xác cao hơn tương trên 95 %. Hình 1 ên m ứu tiếp theo nh ưu các tham s ự ực đúng hay ch ương pháp này th à hàm thu ột số tập dữ liệu đ TÀI LI -893. ủa Thu c quan b . ật toán phân cụm C à lo ới các ph Vol. 10 “A possibilistic “A mixed c Biể 5 ài ra ật toán 2. ỉ số u đ . K ại đi các thuộc tính d ỆU THAM KHẢO FCM: The Fuzzy c , No. 2 Công ngh ho ằng bi ồ k ẾT LUẬN ộc loại hai khoảng c , d ương pháp phân c ư s ố của thuật toán phân cụm hoặc mở rộng phân -Means Clustering Algorithm: Analysis and ực hi ặc ch ỉ s ết qu ựa tr ử dụng các ph - -110. -means clustering model“ ểu đ ợ ố TPR c ả ực hiện rút gọn các thuộc tính của dữ liệu ên l 3 (1984), pp 191 ệ thông tin & C ện phân c ất lư ồ c TPR cao nh thử - ực hấp dẫn hạt, ph ã công b approach to clustering“, ụm C ợ trong ứng v ủ nghi Means kh - ng c ớ a t - Means tính toán h ụm trên không gian h ủ hình 1. i các giá tr ất c ệm ư th òn có ý ngh ố cho thấy các kết quả của ụm khác. ương pháp ti Means Clustering Algorithm Vol. 1 a phân c ấ ả các b . ả năng mờ loại hai khoảng ừa. H Machine -203. ơ s Trong đó t và FPR nh , (1997), pp. 11 ở toán học cho tin học ộ ơn n ương pháp này xác , Proceedings of the ụm đư ị TPR cao hơn và dữ ữa, ph ĩa nâng cao khả ến hóa (nh Intelligence thu liệ ạt cải tiến. ợc báo cáo ậ ỏ nh u theo thu ương IEEE Trans. ạt G v t toán đ ất trong -21 pháp th ư các , Vol. . ” ới ề ật ực ”, Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 185 [5]. S. Askari et al, "Generalized Possibilistic Fuzzy C-Means with novel cluster validity indices for clustering noisy data", Applied Soft Computing, Vol. 53, (2017), pp. 262- 283. [6]. S. Askari et al, "Generalized entropy based possibilistic fuzzy C-Means for clustering noisy data and its convergence proof", Neurocomputing, Vol. 219, (2017), pp. 186-202. [7]. M. B. Ferraro, P. Giordani, "Possibilistic and fuzzy clustering methods for robust analysis of non-precise data", International Journal of Approximate Reasoning, Vol. 88, (2017), pp. 23-38. [8]. J. Aparajeeta et al, "Modified possibilistic fuzzy C-means algorithms for segmentation of magnetic resonance image", Applied Soft Computing, Vol. 41, (2016), pp. 104-119. [9]. N. Karnik, M. Mendel, "Operations on type-2 set", Fuzzy Set Syst., Vol. 122, No. 2, (2001), pp. 327–348. [10]. M. Mendel, "Uncertain Rule-Based Fuzzy Logic Systems: Introduction and new directions", Prentice-Hall Inc., Upper Saddle River (2001). [11]. C. Hwang, F.C Rhee, "Uncertain fuzzy clustering: interval type-2 fuzzy approach to C- means", IEEE Trans. Fuzzy Syst., Vol. 15, No. 1 (2007), pp. 107-120. [12]. M.H.F Zarandi et al, "Type-II fuzzy possibilistic C-mean clustering", In: IFSA/EUSFLAT Conference, (2009), pp. 30–35. [13]. E. Rubio and O. Castillo, “Optimization of the Interval Type-2 Fuzzy C-Means using Particle Swarm Optimization”, NaBIC, (2013), pp. 10-15. [14]. J. P. Sarkar et al, "Rough Possibilistic Type-2 Fuzzy C-Means clustering for MR brain image segmentation", Applied Soft Computing, Vol. 46, (2016), pp. 527-536. [15]. E. Rubio et al, "A new Interval Type-2 Fuzzy Possibilistic C-Means clustering algorithm", In: NAFIPS/WConSC Conference, (2015), pp. 1-5. [16]. B. M. Joshi et al, “High Dimensional Unsupervised Clustering Based Feature Selection Algorithm”, International Journal of Engineering Science and Technology (IJEST), Vol. 4, No. 5 (2012), pp.2022-2029. [17]. J. Qian, L. Ping, et al, "Hierarchical attribute reduction Algorithms for big data using Map Reduce", Knowledge-based Systems, Vol. 73, (2015), pp.18-31. [18]. L. Sun et al, "New Approach for Feature Selection by Using Information Entropy", Journal of Information and Computational Science, Vol. 8, (2011), pp.2259-2268. [19]. L. Sun et al, "Feature Selection Using Rough Entropy-Based Uncertainty Measures in Incomplete Decision Systems", Knowledge Based Systems, Vol. 36, (2012), pp.206-216. [20]. L. Sun et al, "Granular Space-Based Feature Selection and Its Applications", Journal of Software, Vol. 8, No. 4 (2013), pp.817-826. [21]. Q. H. Hu et al, "Mixed Feature Selection Based on Granulation and Approximation", Knowledge-Based System, Vol. 21, (2008), pp.294-304. [22]. L.-y. Gao et al, "Research on Granular Computing Cased on Rough Set Theory and Its Application", Control and APG, Vol. 24, No. 12-3 (2008), pp.189-191. [23]. H. Li, "Research on Knowledge Reduction based on Knowledge Granularity", Journal of Suzhou University, Vol. 25, No. 2 (2010), pp.16-19. [24]. W. Pedrycz, "From fuzzy data analysis and fuzzy regression to granular fuzzy data analysis", Fuzzy Sets and Systems, Vol. 274, (2015), pp.12-17. [25]. S. Ding et al, "Research on the hybrid models of granular computing and support vector machine", Artificial Intelligence Review, Vol. 43, No. 4 (2015), pp.565-577. [26]. Y. Qian, Y. Li, J. Liang, "Fuzzy Granular Structure Distance", IEEE Trans. on Fuzzy Systems , Vol. 23, No. 6 (2015), pp. 2245-2259. [27]. H. Runxin and H. Nian, "The Reduction of Facial Feature Based on Granular Công nghệ thông tin & Cơ sở toán học cho tin học T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means tính toán hạt cải tiến.” 186 Computing", Electronics and Signal Processing, LNEE 97, (2011), pp. 1015-1021. [28]. H. Q. Truong et al, "Advanced Fuzzy Possibilistic C-means Clustering Based on Granular Computing", IEEE International Conference on Systems, Man, and Cybernetics, (2016). [29]. M.A. Sanchez et al, “Fuzzy granular gravitational clustering algorithm for multivariate data”, Information Sciences, Vol. 279, (2014), pp. 498-511. [30]. M. Alswaitti et al, "Optimized gravitational-based data clustering algorithm", Engineering Applications of Artificial Intelligence, Vol. 73, (2018), pp. 126-148. [31]. Kohavi R, Provost F, "Glossary of Terms", Machine Learning, Vol. 30, (1998), pp. 271-274. ABSTRACT INTERVAL TYPE-2 FUZZY POSSIBILISTIC C-MEANS CLUSTERING BASED ON ADVANCED GRANULAR COMPUTING The feature selection granular space construction is preprocessing step to remove redundant features and detect outlier for clustering problems which often are used to deal with large and high dimensional datasets. Meanwhile the Interval Type 2 Fuzzy Possibilistic C-Means Clustering algorithm is effective in processing uncertainty and noisy data. Utilizing this advantages, we propose the method of Interval Type 2 Fuzzy Possibilistic C-Means Clustering based on advanced Granular Computing (AGrIT2FPCM). In this method, Granular Computing is used to create dimensional reduction granules, then the method of Granular Gravitational Forces is used to determine the centroid of granules to improve the measurement of the distance between the granules and centroids of the cluster. Experimental results reported for various datasets in comparison with other approaches exhibit the advantages of the proposed method. Keywords: Fuzzy clustering; Feature selection; Fuzzy possibilistic C-means clustering; Granular computing; Granular gravitational. Nhận bài ngày 24 tháng 12 năm 2018 Hoàn thiện ngày 09 tháng 01 năm 2019 Chấp nhận đăng ngày 12 tháng 02 năm 2019 Địa chỉ: Học viện Kỹ thuật quân sự. *Email: truongqhung@gmail.com.

Các file đính kèm theo tài liệu này:

  • pdf20_hung_0165_2150318.pdf