Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên

Tài liệu Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên: Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 23 ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2 1Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên, 2Đại học Nội vụ Hà Nội TÓM TẮT Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán g...

8 trang | Chia sẻ: quangot475 | Lượt xem: 575 | Lượt tải: 0Free

Bạn đang xem nội dung tài liệu Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 23 ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2 1Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên, 2Đại học Nội vụ Hà Nội TÓM TẮT Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê. Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản lượng cây nông nghiệp của tỉnh Thái Nguyên. Keywords: Dữ liệu thống kê, dự báo, thông tin địa lý, phân cụm mờ, phân cụm bán giám sát, độ đo, sản lượng cây nông nghiệp GIỚI THIỆU* Khai phá dữ liệu là một khái niệm ra đời vào cuối những năm 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ liệu (CSDL) và có thể xem là một bước trong quá trình khám phá tri thức. Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ CSDL, các tri thức này sẽ hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo dục, kinh doanh, dự báo, Trong những năm trở lại, đây việc nghiên cứu về khai phá dữ liệu đã có xu hướng chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không gian [12, 17]. Sự thay đổi này không những giúp hiểu được dữ liệu không gian mà còn giúp khám phá được mối quan hệ giữa dữ liệu không gian và phi không gian, các mô hình dựa trên tri thức không gian, phương pháp tối ưu câu truy vấn, tổ chức dữ liệu trong cơ sở dữ liệu không gian, ... Khai phá dữ liệu không gian được sử dụng nhiều trong các hệ thống thông tin địa lý (GIS) [5], viễn thám [16], khai phá dữ liệu * Email: [email protected] ảnh, ảnh y học [1], Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều hình thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian, Các dữ liệu về kinh tế, xã hội, môi trường đều gắn với các địa phương, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá dữ liệu. Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được sử dụng khá nhiều. Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ hay dựa trên mô hình [6,18], dựa trên đồ thị và phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng. Trong các phương pháp phân cụm bao gồm phân cụm có giám sát, phân cụm không giám sát và phân cụm bán giám sát thì các thuật toán phân cụm bán giám sát, đặc biệt là phân cụm bán giám sát mờ rất hiệu quả trong các lĩnh vực như xử lý ảnh [4, 6, 9], nhận dạng mẫu, nhận dạng khuôn mặt [1, 7], đánh giá rủi ro [3], dự báo phá sản [8]. Trong báo cáo này, Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 24 nhóm tác giả đề cập đến các thuật toán phân cụm bán giám sát mờ với dữ liệu thông tin về một số chỉ số về sản lượng cây nông nghiệp trên địa bàn tỉnh Thái Nguyên. Trên cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm bán giám sát mờ với dữ liệu không gian, chúng tôi sẽ áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm bán giám sát mờ. Do vậy, đóng góp chính của bài báo đã đưa ra một mô hình kết hợp phân cụm bán giám sát mờ với hệ thống thông tin địa lý (GIS: geographic information system) để phân tích và dự báo các số liệu thống kê thông qua việc thu thập các số liệu thống kê về sản lượng cây lương thực có hạt phân theo huyện/thị xã/thành phố của tỉnh Thái Nguyên từ 2011 đến 2015, từ đó cài đặt thực nghiệm mô hình đề xuất với các số liệu thống kê thu thập được. Ý nghĩa của nghiên cứu này đưa ra một mô hình hiệu quả trong việc phân tích các số liệu thống kê để từ đó dự báo số liệu trong thời gian sắp tới. Quá trình phân tích và dự báo này có ý nghĩa rất lớn với nhà quản lý và doanh nghiệp để hoạch định các chiến lược phát triển nông nghiệp tại tỉnh Thái Nguyên trong thời gian tiếp theo. Trong các phần tiếp theo của báo cáo chúng tôi trình bày như sau: phần 2, trình bày về các kiến thức cơ sở bao gồm kiến thức về phân cụm bán giám sát mờ và kiến thức về dữ liệu địa lý. Phần 3 đưa ra mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Phần 4 là một số kết quả thực nghiêm mô hình kết hợp đề xuất dựa trên bộ dữ liệu thực tế. Cuối cùng là kết luận và các hướng phát triển trong thời gian tới. KIẾN THỨC CƠ SỞ Phân cụm Phân cụm dữ liệu [2] là quá trình nhóm một tập các phần tử dữ liệu trong tập dữ liệu vào các cụm sao cho các phần tử dữ liệu thuộc cùng một cụm là tương đồng cao, còn các phần tử dữ liệu thuộc các cụm khác nhau sẽ tương đồng thấp. Phân cụm dữ liệu cứng là phương pháp phân cụm mà mỗi phần tử thuộc CSDL chỉ thuộc vào đúng một cụm. Còn trong phân cụm dữ liệu mờ, mỗi phần tử dữ liệu có thể thuộc vào nhiều hơn một cụm và tương ứng với các điểm dữ liệu là ma trận độ thuộc, với các giá trị phần tử của ma trận này sẽ chỉ ra mức độ các phần tử dữ liệu thuộc vào các cụm khác nhau [2]. Phân cụm mờ Thuật toán phân cụm mờ (Fuzzy C-Means clustering – FCM) được Bezdek [2] đề xuất dựa trên độ thuộc ukj của phần tử dữ liệu Xk từ cụm j. Hàm mục tiêu được xác định như sau: min 1 2 1    N k jk C j m kj VXuJ (1) + m là số mờ hóa + C là số cụm, N là số phần tử dữ liệu, r là số chiều của dữ liệu. + ukj là độ thuộc của phần tử dữ liệu Xk vào cụm j. + r k RX  là phần tử thứ k của dữ liệu  NXXXX ,...,, 21 . + Vj là tâm của cụm j. Khi đó ràng buộc của bài toán là:   Nkuu kj C j kj ,1;1,0;1 1   (2) Giải bài toán tối ưu (1)-(2) bằng phương pháp Lagrange ta xác định được nghiệm tối ưu bao gồm tâm của cụm dựa vào phương trình (3) và độ thuộc dựa vào phương trình (4) dưới đây: (3)               C i m ik jk kj VX VX u 1 1 1 1 (4) Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 25 Khi đó các bước của thuật toán FCM được trình bày trong bảng 1. Bảng 1. Fuzzy C-Means clustering Input Tập dữ liệu X gồm N phần tử trong không gian r chiều; số cụm C; số mờ hóa m; ngưỡng  ; số lần lặp lớn nhất MaxStep>0. Output Ma trận U và tâm cụm V. FCM Bước 1: Đặt t=0 Bước 2:    CjNkrandomu tkj ,1;,1;  thỏa mãn điều kiện (2) Bước 3 : Repeat t=t+1 Tính    CjV tj ,1;  bởi công thức (3) Tính    CjNku tkj ,1;,1;  bởi công thức (4) Bước 4 : Until      1tt UU hoặc t > MaxStep Phân cụm bán giám sát mờ Thông tin bổ trợ: Các thuật toán phân cụm bán giám sát mờ xây dựng dựa trên các thuật toán phân cụm mờ kết hợp với các thông tin bổ trợ được người dùng cung cấp. Các thông tin bổ trợ nhằm mục đích hướng dẫn, giám sát và điều khiển quá trình phân cụm. Thông tin bổ trợ thường được xây dựng dựa trên 3 loại cơ bản [15] là : + Các ràng buộc Must-link và Cannot-link: Ràng buộc Must-link yêu cầu 2 phần tử nên thuộc vào cùng 1 cụm, ngược lại ràng buộc Cannot-link chỉ ra 2 phần tử không nên thuộc cùng 1 cụm. + Các nhãn lớp của một phần dữ liệu: Một phần của dữ liệu được gán nhãn và phần còn lại không được gán nhãn. + Độ thuộc được xác định trước. Thuật toán phân cụm bán giám sát mờ chuẩn (Semi-Supervised Standard Fuzzy Clustering-SSSFC) Yasunori et al. [14] đã đề xuất một thuật toán phân cụm bán giám sát mờ. Khi đó hàm mục tiêu [14] được xác định như sau: 2 1 1 ( , ) | | || || min N C m kj kj k j k j J U V u u X V       (5) Với điều kiện ràng buộc (2), khi đó hàm độ thuộc bổ trợ của phần tử kX với cụm jC là  1,0kju đồng thời thỏa mãn:   CjNkuuU kjkj ,1,,1,1,0|  , 1 1   C j kju ,  Nk ,1 Khi đó dựa vào điều kiện (2) và hàm mục tiêu (5) chúng ta có 1 1 , 1,C N m kj kj k k j N m kj kj k u u X V j u u         (6) Và kju được xác định theo 2 trường hợp sau - 1m :                                C i m ik m jk C i kjkjkj VX VX uuu 1 1 2 1 2 1 1 1 1 , Nk ,1 , Cj ,1 . (7) - 1m :          ., minarg,1 1 2 otherwiseu VXkuu u kj C j ik i kjkj kj , Nk ,1 , Cj ,1 . (8) Các bước thực hiện thuật toán SSSFC được mô tả cụ thể trong bảng 2 dưới đây: Bảng 2. Semi-Supervised Standard Fuzzy Clustering Input Tập dữ liệu X gồm N phần tử , số cụm C, ma trận độ thuộc bổ trợ U , ngưỡng  , số lần lặp tối đa maxStep > 0. Output Ma trận U và tâm cụm V. SSSFC Bước 1: Đặt t = 0 Bước 2: Khởi tạo ngẫu nhiên )(t jV ; ( Cj ,1 ) Bước 3: Repeat Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 26 Tính U (t) bởi kju ( Nk ,1 ; Cj ,1 ) theo công thức (7) với 1m hoặc công thức (8) với 1m . t = t + 1 Tính )1( t jV ( Cj ,1 ) bởi công thức (6) Bước 4: Until   )1()( tt VV hoặc t > maxStep Hệ thống thông tin địa lý và dữ liệu địa lý. Hệ thống thông tin địa lý Hệ thống thông tin địa lý (Geographical Information System – GIS) là tập hợp các công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin địa lý cho một mục đích chuyên biệt. Ngoài ra cũng có nhiều định nghĩa khác về GIS [11]. Dữ liệu địa lý. Dữ liệu địa lý là dữ liệu bao gồm dữ liệu không gian và dữ liệu thuộc tính [19] được kết hợp với nhau một cách tương ứng. Dữ liệu không gian là những mô tả số của các đối tượng thực tế được thể hiện hình ảnh bản đồ [19]. Đó có thể là thửa đất, con đường, sông ngòi, hồ ao, rừng núi, tòa nhà, sân bay, bến cảng .. Chúng bao gồm toạ độ, quy luật và các ký hiệu dùng để thể hiện thành một hình ảnh cụ thể trên bản đồ. Hệ thống thông tin địa lý dùng các dữ liệu không gian để tạo ra một bản đồ hay hình ảnh bản đồ trên màn hình hoặc trên giấy thông qua thiết bị ngoại vi, v.v. Có hai mô hình dữ liệu không gian được sử dụng đồng thời trong hệ thống thông tin địa lý, là mô hình vector và mô hình raster. Mỗi mô hình có những ưu điểm và nhược điểm riêng. Mô hình vector: Mô tả vị trí và phạm vi của các đối tượng không gian bằng tọa độ cùng các kết hợp hình học gồm các điểm nút, các cung trên đường biên, các vùng mặt phẳng và quan hệ giữa chúng. Về mặt hình học, các đối tượng được phân biệt thành 3 dạng: đối tượng dạng điểm (point) được xác định bằng một cặp tọa độ (X,Y), đối tượng dạng đường (line) là một chuỗi các cặp tọa độ (X,Y) liên tục và đối tượng dạng vùng (region hay polygon) là khoảng không gian được giới hạn bởi một tập hợp các cặp tọa độ (X,Y) trong đó điểm đầu và điểm cuối trùng nhau. Với đối tượng vùng, mô hình vector phản ánh đường bao của vùng [19]. Mô hình raster: Có thể hiểu đơn giản là một “ảnh” chứa các thông tin về một chuyên đề. Nó mô hình hóa bề mặt trái đất và các đối tượng trên đó bằng một lưới (đều hoặc không đều) gồm các hàng và cột. Những phần tử nhỏ này gọi là những pixel hay cell. Giá trị của pixel là thuộc tính của đối tượng [19]. Kích thước pixel càng nhỏ thì đối tượng càng được mô tả chính xác. Một mặt phẳng chứa đầy các pixel tạo thành raster. Dữ liệu thuộc tính diễn tả các đặc tính của các đối tượng thực tế được thể hiện trên bản đồ [11]. Dữ liệu thuộc tính có thể là định tính - mô tả chất lượng như xếp hạng độ màu mỡ của thửa đất, mức độ phát triển kinh tế một tỉnh... hay là định lượng như chiều dài đoạn đường, diện tích thửa đất, độ sâu hồ nước, dân số của một đơn vị hành chính (xã, huyện, tỉnh..) cụ thể. Về nguyên tắc, số lượng các thuộc tính của một đối tượng là không có giới hạn. Để quản lý dữ liệu thuộc tính của các đối tượng địa lý trong CSDL, GIS đã sử dụng phương pháp gán các giá trị thuộc tính cho các đối tượng thông qua các bảng số liệu. Mỗi bản ghi đặc trưng cho một đối tượng địa lý, mỗi cột của bảng tương ứng với một kiểu thuộc tính của đối tượng đó. Thông thường hệ thống thông tin địa lý có 4 loại số liệu thuộc tính [11]: Đặc tính của đối tượng; Số liệu hiện tượng, tham khảo địa lý; Chỉ số địa lý; Quan hệ giữa các đối tượng trong không gian. LƯỢC ĐỒ TỔNG QUÁT CỦA PHÂN CỤM DỮ LIỆU ĐỊA LÝ Đề xuất sơ đồ tổng quan Trong Hình 1 nhóm tác giả đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với mô hình hệ thống thông tin địa lý để phân Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 27 tích và dự báo số liệu thống kê. Trong mô hình này, chúng tôi sử dụng phân cụm bán giám sát mờ để phân chia dữ liệu ban đầu thành các cụm có cùng đặc tính. Sau khi phân cụm sau, kết hợp với các thuộc tính không gian biểu diễn dữ liệu trên bản đồ, phân tích sự xếp chồng nhau để dự báo dữ liệu trong thời gian tới. Hình 1. Sơ đồ tổng quát Phân tích tích dữ liệu bằng phân cụm Với dữ liệu đầu vào cần phân tích, nhóm tác giả sử dụng thuật toán FCM phân cụm thu được ma trận độ thuộc, lấy ma trận độ thuộc của thuật toán FCM làm thông tin bổ trợ của phân cụm bán giám sát mờ. - Bước 1: Từ dữ liệu đầu vào, sử dụng thuật toán phân cụm FCM, xác định ma trận độ thuộc của các điểm dữ liệu vào các cụm. - Bước 2: Tại mỗi điểm dữ liệu gán giá trị của cụm có độ thuộc nhỏ nhất bằng 0. Khi đó ta thu được ma trận thông tin bổ trợ. Sau khi có thông tin bổ trợ, sử dụng phân cụm bán giám sát mờ (SSSFC) để phân tích dữ liệu. Khi đó thông tin đầu vào của phân cụm bán giám sát mờ là dữ liệu phân tích và thông tin bổ trợ thu được từ quá trình phân tích trên. Sử dụng GIS để dự báo Dựa trên các dữ liệu phân tích số liệu của từng vùng với các mức độ khác nhau (trong các cụm khác nhau). Dựa trên các dữ liệu không gian kết hợp với các số liệu phân tích hàng năm hiện thị các mức độ của các khu vực theo từng năm dựa trên công nghệ ArcGIS. Xếp chồng các mức độ phân bố theo thời gian để phân tích sự phát triển trong các năm đã qua từ đó dự báo cho năm tiếp theo. KẾT QUẢ ĐÁNH GIÁ Chuẩn bị dữ liệu vào: Dữ liệu địa lý: Dữ liệu không gian cần chuẩn bị là dữ liệu không gian của tỉnh Thái Nguyên chi tiết đến các Huyện/Thị xã/Thành phố gồm các lớp dữ liệu sau: 1/ Lớp ranh giới tỉnh; 2/ Lớp ranh giới Huyện. Dữ liệu thuộc tính: Trong báo cáo này sẽ sử dụng dữ liệu sản lượng cây lương thực có hạt phân theo huyện/thị xã/thành phố của tỉnh Thái Nguyên được lấy từ nguồn niên giám thống kê của Chi cục thống kê tỉnh Thái Nguyên năm 2016. Tập tin bao gồm các dòng và các cột. Vị trí với dòng và cột thể hiện dữ liệu tương ứng: dòng là số đối tượng huyện/thị xã/thành phố, cột là số liệu sản lượng cây lương thực có hạt của các huyện/thị xã/thành phố thuộc tỉnh Thái Nguyên tương ứng với các năm số liệu được thống kê. Các kết quả thực nghiệm Kết quả phân tích số liệu của sản lượng cây lương thực có hạt hàng năm với phân tích phân cụm với số cụm là 3 tương ứng với mức độ ở các khu vực: cao, trung bình, thấp. Giá trị trung tâm của các mức được xác định ở các tâm cụm (theo bảng 3). Bảng 3. Kết quả xác định tâm của phân cụm Cụm 2012 2013 2014 2015 2016 1 21,578 30,018 29,193 31,457 32,240 2 37,972 49,999 49,294 52,313 51,924 3 62,927 68,218 69,902 72,661 72,799 Dữ liệu vào và tham số Phân tích dữ liệu bằng phân cụm bán giám sát mờ Sử dụng GIS dự báo từ dữ liệu phân tích Kết quả dự báo Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 28 Bảng 4. Kết quả phân cụm Từ kết quả phân cụm (bảng 4) dựa vào số liệu sản lượng cây lương thực có hạt hàng năm của các huyện/thị xã/thành phố, dựa vào thông tin không gian của các huyện/thị xã/thành phố trên bản đồ tỉnh Thái Nguyên xây dựng được bản đồ phân bổ sản lượng cây nông nghiệp có hạt của các huyện/thị xã/thành phố trong các năm 2012 đến năm 2016 (kết quả phân bố trong hình 2). Xây dựng bản đồ xếp chồng theo thời gian từ năm 2012 đến năm 2015 ta có được bản đồ dự báo sản lượng cây nông nghiệp có hạt của năm tiếp theo (kết quả phân bố trong hình 2) từ đó ta dự báo được sản lượng cây nông nghiệp có hạt có thể đạt được ở mức nào. Ví dụ: sản lượng cây nông nghiệp có hạt của huyện Đại Từ trong các năm 2012 đến năm 2015 luôn ở mức cao (trên bản đồ phân bố là màu đỏ) vậy dự báo sản lượng cây nông nghiệp có hạt của huyện Đại Từ trong năm tiếp theo năm 2016 vẫn ở mức cao (trên bản đồ dự báo là màu đỏ) điều này là phù hợp với bản đồ phân bố thực tế năm 2016; sản lượng cây nông nghiệp có hạt của huyện Võ Nhai năm 2012 (trên bản đồ phân bổ là màu xanh nhạt) ở mức thấp, nhưng các năm 2013, 2014 và 2016 ở mức trung bình (trên bản đồ phân bổ là màu xanh thẫm) vậy dự báo sản lượng cây nông nghiệp có hạt của huyện Võ Nhai năm tiếp theo (2016) ở mức trung bình (trên bản đồ dự báo là màu xanh thẫm) phù hợp với bản đồ phân bố thực tế 2016. Từ các kết quả dự báo phân bố sản lượng cây lương thực có hạt của các huyện/thị xã/thành phố trên bản đồ thu được so với các kết quả thực tế của Chi cục thống kê tỉnh Thái Nguyên của năm 2016 là hoàn toàn trùng khớp. Bản đồ phân bố năm 2012 Bản đồ phân bố năm 2013 Bản đồ phân bố năm 2014 Bản đồ phân bố năm 2015 Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 29 Bản đồ dự báo phân bố năm 2016 Bản đồ phân bố năm 2016 Hình 2. Kết quả phân bổ các năm và dự báo trên GIS KẾT LUẬN Trong bài báo này chúng tôi đã đề xuất ứng dụng của phương pháp phân cụm mờ và phân cụm bán giám sát mờ áp dụng trong việc phân tích dữ liệu địa lý. Những đóng góp chính của nhóm nghiên cứu là: i) Xây dựng được mô hình tổng quát ứng dụng phân cụm mờ bán giám sát áp dụng vào phân tích số liệu thông tin địa lý; ii) Đã cài đặt thực nghiệm thuật toán SSSFC để phân tích số liệu thống kê về sản lượng cây lương thực có hạt. iii)Từ các số liêu phân tích ở phân cụm xây dựng các bản đồ phân bố sản lượng cây lương thực có hạt cho các huyện/thị xã/thành phố của tỉnh Thái Nguyên trong các năm 2012-2015 từ đó dự báo về mức độ sản lượng của cây lương thực có hạt của tỉnh Thái Nguyên cho các năm tiếp theo. Kết quả này cũng có thể được áp dụng cho tập dữ liệu GIS thuộc các lĩnh vực khác. TÀI LIỆU THAM KHẢO 1. Agarwal, M., Agrawal, H., Jain, N., & Kumar, M. (2010). Face recognition using Principle component analysis, and neural network eigenface. Print Signal Acquisition and Processing, 2010. ICSAP'10. International Conference on (pp. 310-314). IEEE. 2. Bezdek, JC (1981). Pattern recognition Algorithms with fuzzy objective function. Kluwer Academic Publishers. 3. Chen, J., Zhao, S., & Wang, H. (2011). Risk analysis of flood disaster based on fuzzy clustering method. Energy Procedia, 5, 1915-1919. 4. Chuang, KS, Tzeng, HL, Chen, S., Wu, J., & Chen, TJ (2006). Fuzzy c-means clustering with spatial information for image segmentation. Computerized medical imaging and graphics, 30 (1), 9-15. 5. Hu, C., Meng, L., & Shi, W. (2008). Fuzzy clustering validity for spatial data. Geo-spatial information science, 11 (3), 191-196. 6. Li, J., Bioucas-Dias, JM, & Plaza, A. (2010). Semisupervised hyperspectral image segmentation using active learning with multinomial logistic regression. Geoscience and Remote Sensing, IEEE Transactions on, 48 (11), 4085-4098. 7. Lu, J., Yuan, X., & Yahagi, T. (2007). A method of face recognition based on fuzzy c- means clustering and associated sub-NNS. Neural Networks, IEEE Transactions on, 18 (1), pp. 150-160. 8. Martin, A., Gayathri, V., Saranya, G., Gayathri, P., & Venkatesan, P. (2011). A hybrid model for bankruptcy prediction using genetic algorithm, fuzzy c-means for MARS. arXiv preprint arXiv: 1103.2110 . 9. Rezaee, MR, van der Zwet, PM, Lelieveldt, BP, Van Der Geest, RJ, & Reiber, JH (2000). A multiresolution image segmentation technique based on fuzzy clustering and segmentation pyramidal. Image Processing, IEEE Transactions on, 9(7), 1238-1248. 10. Rousseeuw, PJ (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster ana lysis. Journal of Computational and Applied Mathematics, 20, 53-65. 11. Niên giám thống kê năm 2016 – Cục thống kê tỉnh Thái Nguyên 12. Vendramin, L., Campello, RJ, & Hruschka, ER (2010). Relative clustering validity criteria: A comparative overview. Statistical Analysis and Data Mining: The ASA Data Science Journal, 3 (4), 209-235. Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 30 13. Xu, X., Xu, S., Jin, L., & Song, E. (2011). Characteristic analysis of Otsu threshold and its applications. Pattern recognition letters, 32 (7), 956-961. 14. Yasunori, E., Yukihiro, H., Makito, Y., & Sadaaki, M. (2009, August). On semi-supervised fuzzy c-means clustering. Print Fuzzy Systems, 2009. FUZZ-IEEE 2009 IEEE International Conference on (pp. 1119-1124). IEEE. 15. Zhang, H., & Lu, J. (2009). Semi-supervised fuzzy clustering: A kernel-based approach. Knowledge-Based Systems, 22 (6), 477-481. 16. Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial interaction – modification model and applications to geo-demographic analysis. Knowledge-Based Systems. 17. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011), Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm, International Journal of Machine Learning and Computing. 18. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), A Novel Intuitionistic Fuzzy Clustering Method for Geo- Demographic Analysis, Expert Systems with Applications. 19. TS. Lê Hoàng Sơn, Nguyễn Thọ Thông (2015), Giáo trình lập trình ứng dụng WebGIS, Nhà xuất bản giáo dục. ABSTRACT APPLICATION OF MONITORING FOR SALES IN ANIMAL AND FOREST RESOURCES OF THAI NGUYEN AGRICULTURAL PRODUCT Nguyen Thu Huong 1* , Tran Duy Minh 1 , Nguyen Thu Huyen 2 1University of Information and Comminication Technology - TNU 2Ha Noi University of Home Affair Data analysis and data processing is one of the issues that many and many scientists are concerned about. From the statistics we analyze to obtain useful information for the user and at the same time forecast future data is one of the problems that many scientists have been interested in. To solve this problem, recently people have been interested in computational methods combined with Geographic Information Systems (GIS) for statistical analysis and forecasting. In this paper, we introduce a novel model based on the combination between semi-supervised fuzzy clustering and GIS applied into analyzing and predicting problem. In which, semi-supervised fuzzy clustering is used to analyze the given statistics data and GIS is used to predict the data in the near future. On the basis of the new model, we experimented with the actual data on some indicators of agricultural production in Thai Nguyen. Keywords: Statistics data, Prediction, Fuzzy clustering, Validity indices, Semi-supervised clustering, Geography Information System Ngày nhận bài: 05/9/2018; Ngày hoàn thiện: 06/10/2018; Ngày duyệt đăng: 30/11/2018 * Email: [email protected]

Các file đính kèm theo tài liệu này:

120_148_1_pb_8028_2125105.pdf