Luận văn Giải pháp phát hiện và ngăn chặn truy cập trái phép vào mạng

Tài liệu Luận văn Giải pháp phát hiện và ngăn chặn truy cập trái phép vào mạng: ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN PHƯƠNG CHÍNH GIẢI PHÁP PHÁT HIỆN VÀ NGĂN CHẶN TRUY CẬP TRÁI PHÉP VÀO MẠNG LUẬN VĂN THẠC SĨ Hà Nội – 2009 LỜI CẢM ƠN Lời đầu tiên, tôi xin chân thành cảm ơn PGS. TS Nguyễn Văn Tam, Viện công nghệ thông tin, người đã gợi ý đề tài và tận tình hướng dẫn cho tôi hoàn thành luận văn cao học này. Tôi cũng xin gửi lời cảm ơn chân thành tới Phòng đào tạo sau đại học và các thầy cô giáo trong khoa Công nghệ - Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội đã giảng dạy, truyền đạt và tạo điều kiện học tập tốt nhất cho tôi suốt quá trình học cao học cũng như thời gian thực hiện luận văn cao học. Hà Nội, tháng 06 năm 2009 Nguyễn Phương Chính I MỤC LỤC LỜI CẢM ƠN BẢNG CÁC TỪ VIẾT TẮT, KÝ HIỆU MỤC LỤC MỞ ĐẦU.....................................................................................................................1 Đặt vấn đề ...........................................................

80 trang | Chia sẻ: haohao | Lượt xem: 1430 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Giải pháp phát hiện và ngăn chặn truy cập trái phép vào mạng, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN PHƯƠNG CHÍNH GIẢI PHÁP PHÁT HIỆN VÀ NGĂN CHẶN TRUY CẬP TRÁI PHÉP VÀO MẠNG LUẬN VĂN THẠC SĨ Hà Nội – 2009 LỜI CẢM ƠN Lời đầu tiên, tôi xin chân thành cảm ơn PGS. TS Nguyễn Văn Tam, Viện công nghệ thông tin, người đã gợi ý đề tài và tận tình hướng dẫn cho tôi hoàn thành luận văn cao học này. Tôi cũng xin gửi lời cảm ơn chân thành tới Phòng đào tạo sau đại học và các thầy cô giáo trong khoa Công nghệ - Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội đã giảng dạy, truyền đạt và tạo điều kiện học tập tốt nhất cho tôi suốt quá trình học cao học cũng như thời gian thực hiện luận văn cao học. Hà Nội, tháng 06 năm 2009 Nguyễn Phương Chính I MỤC LỤC LỜI CẢM ƠN BẢNG CÁC TỪ VIẾT TẮT, KÝ HIỆU MỤC LỤC MỞ ĐẦU.....................................................................................................................1 Đặt vấn đề ................................................................................................................1 Nội dung của đề tài ..................................................................................................1 Cấu trúc luận văn .....................................................................................................2 CHƯƠNG 1. TỔNG QUAN VỀ HỆ THỐNG IPS ......................................................3 1.1 Lịch sử ra đời .......................................................................................................3 1.2 Hệ thống IDS .........................................................................................................4 1.2.1 Một hệ thống IDS bao gồm các thành phần .....................................................4 1.2.2 Phân loại các hệ thống IDS..............................................................................5 1.2.2.1 Network-based Intrusion Detection System (NIDS) ..................................5 1.2.2.2 Host-based Intrusion Detection System (HIDS) ........................................7 1.2.2.3 Hybrid Intrusion Detection System ...........................................................8 1.3 Hệ thống IPS..........................................................................................................9 1.3.1 Phân loại IPS .................................................................................................10 1.3.2 Các thành phần chính ....................................................................................11 1.3.2.1 Module phân tích gói (packet analyzer)..................................................11 1.3.2.2 Module phát hiện tấn công .....................................................................11 1.3.2.3 Module phản ứng ....................................................................................14 1.3.3 Mô hình hoạt động ........................................................................................15 1.3.4 Đánh giá hệ thống IPS ...................................................................................17 1.4. Kết chương .........................................................................................................18 I CHƯƠNG 2 : TÌM HIỂU VÀ NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRONG HỆ THỐNG IPS .................................................................... 21 2.1 Tổng quan về phương pháp phát hiện bất thường .................................................21 2.1.1 Thế nào là bất thường trong mạng?................................................................21 2.1.2 Các nguồn dữ liệu dùng cho phát hiện bất thường .........................................22 2.1.2.1 Network Probes ......................................................................................23 2.1.2.2 Lọc gói tin cho việc phân tích luồng ( Packet Filtering ) ........................23 2.1.2.3 Dữ liệu từ các giao thức định tuyến.........................................................24 2.1.2.4 Dữ liệu từ các giao thức quản trị mạng....................................................24 2.1.3 Các phương pháp phát hiện bất thường..........................................................25 2.1.3.1 Hệ chuyên gia ( Rule-based ) ..................................................................25 2.1.3.2 Mạng Nơ-ron ( Artificial Neural Network)..............................................27 2.1.3.3 Máy trạng thái hữu hạn ..........................................................................31 2.1.3.4 Phân tích thống kê...................................................................................32 2.1.3.5 Mạng Bayes ............................................................................................34 2.2. Kết chương .........................................................................................................35 CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN KHAI PHÁ DỮ LIỆU .......................................................................................................... 36 3.1 Khai phá dữ liệu...................................................................................................36 3.2 Các thuật toán phát hiện bất thường trong khai pháp dữ liệu ...............................39 3.2.1 Đánh giá chung về hệ thống ..........................................................................39 3.2.2 Phần tử dị biệt ...............................................................................................41 3.2.2.1 Phương pháp điểm lân cận gần nhất (NN) ...............................................42 3.2.2.2 Phương pháp pháp hiện điểm dị biệt dựa trên khoảng cách Mahalanobis 43 3.2.2.3 Thuật toán LOF.......................................................................................44 3.2.2.4 Thuật toán LSC-Mine .............................................................................48 3.3 Mô hình phát hiện bất thường dựa trên kỹ thuật KPDL .......................................50 I 3.3.1 Module lọc tin ...............................................................................................51 3.3.2 Module trích xuất thông tin ...........................................................................51 3.3.3 Môđun phát hiện phần tử di biệt ....................................................................52 3.3.4 Module phản ứng...........................................................................................55 3.3.5 Module tổng hợp ...........................................................................................55 3.4 Giới thiệu về hệ thống phát hiện xâm nhập MINDS .............................................58 3.4.1 Giới thiệu hệ thống ........................................................................................58 3.4.2 So sánh SNORT và MINDS ..........................................................................64 3.4.3.1 Tấn công dựa trên nội dung.....................................................................64 3.4.3.2 Hoạt động scanning................................................................................65 3.4.3.3 Xâm phạm chính sách ............................................................................66 3.5 Kết chương .........................................................................................................66 KẾT LUẬN ............................................................................................................... 68 Hướng phát triển của luặn văn:...............................................................................69 TÀI LIỆU THAM KHẢO II BẢNG CÁC TỪ VIẾT TẮT, KÝ HIỆU Từ viết tắt Đầy đủ Tiếng Việt IPS IDS NIDS HIDS OOB IPS In-line IPS UDP TCP FTP DNS ROC DoS OSPF SNMP MIB FCM MLP SOM Intrusion Prevension System Instrusion Detection System Network-based Intrusion Detection System Host-based Intrusion Detection System Out of band Intrusion Prevension System In line Intrusion Prevension System User Datagram Protocol Transmission Control Protocol File Transfer Protocol Domain Name Server Recevier Operating Characteristic Curve Denial of Service Open shortest path first Simple Network Management Protocol Management information base Fuzzy cognitive map Multi-layered Perceptron Self-Organizing Maps Hệ thống ngăn chặn truy cập trái phép Hệ thống phát hiện truy cập trái phép Hệ thống phát hiện truy cập cho mạng Hệ thống phát hiện truy cập cho máy trạm Hệ thống IPS bố trí bên ngoài Hệ thống IPS bố trí thẳng hàng Giao thức truyền dữ liệu UDP Giao thức truyền dữ liệu TCP Giao thức truyền file FTP Dịch vụ phân giải tên miền Đường cong đặc trưng hoạt động Tấn công từ chối dịch vụ Giao thức định tuyến OSPF Tập hớp giao thức quản lý mạng đơn giản Cơ sở quản lý thông tin Bản đồ nhận thức mờ Kiến trúc nhận thức đa tầng Bản đồ tổ chức độc lập II FSM IDES NIDES EMERALD LOF MINDS Finite states machine Intrusion Detection Expert System Next Generation Intrusion Detection Expert System Event Monitoring Enabling Responses to Anomalous Live Disturbances Local Outlier Factor Minnesota Intrusion Detection System Máy trạng thái hữu hạn Hệ thống chuyên gia phát hiện truy cập trái phép Thế hệ tiếp theo của hệ thống chuyên gia phát hiện truy cập trái phép Hệ thống phát hiện truy cập EMERALD Nhân tố dị biệt địa phương Hệ thống phát hiện truy cập Minnesota III THÔNG TIN HÌNH VẼ/BẢNG Hình vẽ/bảng Trang Hình 1.1 : Hệ thống Network-based Intrusion Detection Hình 1.2 : Hệ thống Host-based Intrusion Detection Hình 1.3: Hệ thống Hybrid Intrusion Detection Hình 1.4 : Mô hình thêm luật phương pháp phát hiện dựa trên dấu hiệu Hình 1.5: Mô hình thêm luật phương pháp phát hiện dựa trên phát hiện bất thường Hình 1.6 : Mô hình hoạt động của hệ thống IPS Hình 1.7 : Minh họa đường cong ROC Hình 2.1: Mô hình hệ thống phát hiện bất thường dựa trên tập luật Hình 2.2: Mô hình mạng nơron Hình 2.3: Cấu trúc một hệ thống phát hiện bất thường sử dụng SOM Hình 2.4: Công thức chuẩn hóa dữ liệu đầu vào Hình 2.5: Thiết kế của mạng SOM Hình 2.6: Mô hình FSM cho kết nối TCP Hình 3.1: Gán giá trị để lượng hóa các cuộc tấn công trên sơ đồ Hình 3.2: Minh họa bài toán phát hiện phần tử dị biệt. Hình 3.3: Minh họa phương pháp điểm lân cận gần nhất phát hiện phần tử dị biệt. Hình 3.4: Ưu điểm của phương pháp dựa trên khoảng cách Mahalanobis khi tính các khoảng cách. Hình 3.5: Ví dụ khoảng cách R-dis (reach-dist) Hình 3.6: Ưu điểm của phương pháp LOF Hình 3.7: Thuật toán LSC-Mine Hình 3.8: Mô hình hệ thống phát hiện bất thường sử dụng kỹ thuật KPDL Hình 3.9: Đường cong ROC của các thuật toán 6 8 9 12 13 15 18 26 27 29 30 30 31 40 41 43 44 45 47 50 50 54 III Hình 3.10: Mô tả hoạt động của môđun tổng hợp Hình 3.11: Mô hình hoạt động của hệ thống MINDS Hình 3.12: Bảng kết quả đầu ra của hệ thống MINDS – cột đầu tiên là giá trị bất thường Bảng 3.1: Danh sách các cảnh báo chưa rút gọn Bảng 3.2: Danh sách các cảnh báo sau khi đã rút gọn Bảng 3.3: Những đặc điểm chọn “dựa trên thời gian” Bảng 3.4: Những đặc điểm chọn “dựa trên kết nối” 56 59 62 57 58 60 60 1 MỞ ĐẦU Đặt vấn đề Vấn đề an toàn, an ninh mạng không mới nhưng càng ngày càng trở nên quan trọng cùng với sự phát triển theo chiều rộng và chiều sâu của xã hội thông tin. Lấy ví dụ đơn giản như gần đây rất nhiều trang web, các hệ thống mạng ở Việt Nam bị hacker tấn công gây hậu quả đặc biệt nghiêm trọng. Hơn nữa các cuộc tấn công hiện nay ngày một tinh vi, phức tạp và có thể đến từ nhiều hướng khác nhau. Trước tình hình đó các hệ thống thông tin cần phải có những chiến lược, những giải pháp phòng thủ theo chiều sâu nhiều lớp. IPS (Intrusion Prevension System – Hệ thống ngăn chặn truy nhập trái phép) là một hệ thống có khả năng phát hiện trước và làm chệch hướng những cuộc tấn công vào mạng. IPS đáp ứng được yêu cầu là một hệ thống phòng thủ chiến lược theo chiều sâu, nó hoạt động dựa trên cơ sở thu thập dữ liệu mạng, tiến hành phân tích, đánh giá, từ đó xác định xem có dấu hiệu của một cuộc tấn công hay không để đưa ra các cảnh báo cho các nhà quản trị mạng hoặc tự động thực hiện một số thao tắc nhằm ngăn chặn hoặc chấm dứt tấn công. Các hệ thống IPS hiện nay có hai hướng tiếp cận chính là dựa trên dấu hiệu và dựa trên phát hiện bất thường. Đối với hướng dựa trên dấu hiệu, hệ thống sẽ sử dụng các mẫu tấn công từ các lần tấn công trước tiến hành so sánh để xác định dữ liệu đang xét có phải là một cuộc tấn công không, hướng này được sử dụng tương đối rộng rãi nhưng có điểm yếu là chỉ phát hiện được các dạng tấn công đã biết trước. Đối với hướng dựa trên phát hiện bất thường, hệ thống sẽ xây dựng các hồ sơ mô tả trạng thái bình thường, từ đó xét được một hành động là bất thường nếu các thông số đo được của hành động đó có độ khác biệt đáng kể với mức “bình thường”. Hướng tiếp cận này có nhiều ưu điểm hơn cách tiếp cận dựa trên dấu hiệu do nó có khả năng phát hiện ra các cuộc tấn công mới. Nội dung của đề tài Xuất phát từ vấn đề nêu trên, nội dung của đề tài sẽ bao gồm những vấn đề sau: 2  Nghiên cứu, tìm hiểu các vấn đề tông quan về hệ thống IPS bao gồm phân loại, chức năng cơ bản và hoạt động, các hướng phát triển.  Tìm hiểu hệ thống IPS dựa trên phát hiện bất thường, phân tích ưu nhược điểm của hướng tiếp cận này. Nghiên cứu các kỹ thuật được sử dụng như: Phân tích thống kê, mạng Neutral, Hệ chuyên gia, Máy trạng thái hữu hạn, Khai phá dữ liệu ….  Nghiên cứu cụ thể một kỹ thuật sử dụng trong phát hiện bất thường đó là kỹ thuật Khai phá dữ liệu (data mining). Đưa ra các đánh giá, so sánh hệ thống sử dụng kỹ thuật nay so với các kỹ thuật khác. Cấu trúc luận văn Luận văn sẽ được chia thành 3 chương chính dựa vào nội dung nêu trên:  Chương 1: Giới thiệu tổng quan về hệ thống IPS , những thành phần và chức năng chính của hệ thống.  Chương 2: Tìm hiểu các phương pháp phát hiện tấn công dựa trên phát hiện bất thường đang được áp dụng hiện nay như: Phân tích thống kê, Mạng Neutral, Hệ chuyên gia….  Chương 3: Tìm hiểu về kỹ thuật Khai phá dữ liệu cũng như hệ thống IPS có sử dụng phương pháp phát hiện bất thường ứng dụng khai phá dữ liệu. 3 CHƯƠNG 1. TỔNG QUAN VỀ HỆ THỐNG IPS 1.1 Lịch sử ra đời Hệ thống Firewall (tường lửa) cổ điển đã được ứng dụng trong hệ thống mạng để bảo vệ mạng khỏi các cuộc tấn công hoặc truy nhập trái phép từ rất lâu. Tuy nhiên trong quá trình hoạt động Firewall đã thể hiện nhiều nhược điểm cố hữu. Thứ nhất, hệ thống Firewall là một hệ thống thụ động, Firewall hoạt động trên cơ sở các tập luật, các luật trên Firewall phải được người quản trị cấu hình hay chỉ định cho phép hay không cho phép gói tin đi qua. Bản thân hệ thống Firewall không thể nhận biết được các mối nguy hại đến từ mạng mà nó phải được người quản trị mạng chỉ ra thông qua việc thiết lập các luật trên đó. Thứ hai, Hệ thống Firewall hoạt động chủ yếu ở lớp mạng trở xuống, Firewall ngăn chặn các truy nhập thông qua các trường địa chỉ IP đích và nguồn, các cổng dịch vụ (TCP/UDP), một số Firewall còn ngăn chặn ở lớp vật lý thông qua địa chỉ MAC Address. Như vậy, các thông tin mà Firewall dùng để ngăn chặn các truy nhập là ở trong phần tiêu đề của gói tin, Firewall cổ điển không thể đọc thông tin trong phần tải của gói tin (Pay Load) là nơi chứa nội dung thông tin được truyền đi, nơi tiềm ẩn các mã nguy hiểm gây hại cho hệ thống. Thứ ba, do không có khả năng đọc nội dung gói tin nên hệ thống Firewall chỉ có khả năng bảo vệ vòng ngoài của hệ thống, bản thân nó không có khả năng chống các cuộc tấn công xuất phát từ bên trong mạng. Trong bối cảnh đó, IDS ra đời như là một sự bổ sung cho hệ thống Firewall cổ điển. IDS có khả năng bắt và đọc gói tin, phân tích gói tin để phát hiện ra các nguy cơ tấn công tiềm ẩn trong nội dung của gói tin. Tuy nhiên IDS lại chỉ sinh ra các cảnh báo cho hệ thống hoặc cho người quản trị mạng, có nghĩa hoạt động IDS chỉ mang tính chất cảnh báo và trợ giúp thông tin cho người quản trị mạng, căn cứ trên các thông tin cảnh báo về bảo mật, người quản trị mạng phải tiến hành ra lệnh cho Firewall ngăn chặn cuộc tấn công. Như thế bản thân hệ thống IDS vẫn là một hệ thống thụ động. IDS là sự bổ sung cần thiết cho hệ thống an ninh cổ điển, tuy nhiên nó chưa triệt để, do đó người ta phải kết hợp hoạt động của IDS với hệ thống Firewall để tạo ra một 4 hệ thống an ninh có khả năng phát hiện dấu hiệu các cuộc tấn công và chủ động ngăn chặn các cuộc tấn công đó. Hệ thống như vậy được biết đến với cái tên hệ thống ngăn chặn truy nhập IPS. Các phần tiếp theo sẽ trình bày về cấu trúc cũng như hoạt động của hệ thống IDS và IPS. 1.2 Hệ thống IDS IDS là từ viết tắt tiếng anh của Intrusion Detection System hay còn gọi là hệ thống phát hiện các truy nhập trái phép. IDS có nhiệm vụ rà quét các gói tin trên mạng, phát hiện các truy nhập trái phép, các dấu hiệu tấn công vào hệ thống từ đó cảnh báo cho người quản trị hay bộ phận điều khiển biết về nguy cơ xảy ra tấn cống trước khi nó xảy ra. Một hệ thống phát hiện các truy nhập trái phép có khả năng phát hiện tất cả các luồng dữ liệu có hại từ mạng vào hệ thống mà các Firewall không thể phát hiện được. Thông thường các cuộc tấn công trên mạng thuộc các kiểu tấn công: từ chối dịch vụ, phá hoại các dữ liệu trên các ứng dụng, các cuộc tấn công vào máy trạm như thay đổi quyền trên máy, đăng nhập bất hợp pháp và truy nhập vào các tệp tin nhạy cảm hoặc là các loại Virus, Trojan, Worm độc hại khác. 1.2.1 Một hệ thống IDS bao gồm các thành phần  Bộ phát hiện (Sensor): Là bộ phận làm nhiệm vụ phát hiện các sự kiện có khả năng đe dọa an ninh của hệ thống mạng, bộ phát hiện có chức năng rà quét nội dung của các gói tin trên mạng, so sánh nội dung với các mẫu và phát hiện ra các dấu hiệu tấn công hay còn gọi là sự kiện.  Bộ giao diện (Console):Là bộ phận làm nhiệm vụ giám sát các sự kiện, các cảnh báo được phát hiện và sinh ra từ các Sensor và điều khiển hoạt động của các bộ Sensor.  Bộ xử lý (Engine): Có nhiệm vụ ghi lại tất cả các báo cáo về các sự kiện được phát hiện bởi các Sensor trong một cơ sở dữ liệu và sử dụng một hệ thống các luật để đưa ra các cảnh báo trên các sự kiện an ninh nhận được cho hệ thống hoặc cho người quản trị. Như vậy, hệ thống IDS hoạt động theo cơ chế “phát hiện và cảnh báo”. Các Sensor là bộ phận được bộ trí trên hệ thống tại những điểm cần kiểm soát, Sensor bắt 5 các gói tin trên mạng, phân tích gói tin để tìm các dấu hiệu tấn công, nếu gói tin có dấu hiệu tấn công, Sensor lập tức đánh dấu đấy là một sự kiện và gửi báo cáo kết quả về cho Engine, Engine ghi nhận tất cả các báo cáo của tất cả các Sensor, lưu các báo cáo vào trong cơ sở dữ liệu của mình và quyết định đưa ra mức cảnh báo đối với sự kiện nhận được. Console làm nhiệm vụ giám sát các sự kiện và các cảnh báo, đồng thời điều khiển hoạt động của các Sensor. Các mẫu (Signatures): Các Sensor hoạt động theo cơ chế “so sánh với mẫu”, các Sensor bắt các gói tin trên mạng, đọc nội dung gói tin và so sánh các xâu trong nội dung gói tin với hệ thống các mẫu tín hiệu nhận biết các cuộc tấn công hoặc mã độc gây hại cho hệ thống, nếu trong nội dung gói tin có một xâu trùng với mẫu, Sensor đánh dấu đó là một sự kiện bình thường hay đã có dấu hiệu của sự tấn công từ đó sinh ra cảnh báo. Các tín hiệu nhận biết các cuộc tấn công được tổng kết và tập hợp thành một bộ gọi là mẫu hay signatures. Thông thường các mẫu này được hình thành dựa trên kinh nghiệm phòng chống các cuộc tấn công, người ta thành lập các trung tâm chuyên nghiên cứu và đưa ra các mẫu này để cung cấp cho hệ thống IDS trên toàn thế giới. 1.2.2 Phân loại các hệ thống IDS Có nhiều mô hình và cách để phân loại các hệ thống IDS, có thể dựa theo loại và vị trí đặt của các Sensor hoặc phương pháp sử dụng của Engine để sinh ra các cảnh báo. Hầu hết các IDS đơn giản đều kết hợp ba thành phần Sensor, Console, Engine vào trong một thiết bị phần cứng hoặc một ứng dụng. 1.2.2.1 Network-based Intrusion Detection System (NIDS) Network-based Instrusion Detection System (Hệ thống phát hiện truy nhập cho mạng) là một giải pháp độc lập để xác định các truy nhập trái phép bằng cách kiểm tra các luồng thông tin trên mạng và giám sát nhiều máy trạm, Network Instrusion Detection Systems truy nhập vào luồng thông tin trên mạng bằng cách kết nối vào các Hub, Switch được cấu hình Port mirroring hoặc Network tap để bắt các gói tin, phân tích nội dung gói tin và từ đó sinh ra các cảnh báo. 6 Hình 1.1: Hệ thống Network-based Intrusion Detection Port mirroring được sử dụng trong một switch mạng để gửi một bản sao của tất cả các gói tin trên mạng khi nó đi qua cổng của Switch tới một thiết bị giám sát mạng trên cổng khác của Switch đó. Nó thường được sử dụng để các thiết bị mạng cần giám sát luồng trên mạng, ví dụ hệ thống IDS, Port mirroring trên Switch của Cisco System thường được gọi là Switched Port Analyzer (SPAN) hoặc của 3Com là Roving Analysis Port (RAP). Network tap là một thiết bị phần cứng cung cấp phương tiện để truy nhập vào luồng dữ liệu đi ngang qua một máy tính mạng. Các máy tính mạng bao gồm cả Internet là một tập hợp các thiết bị như máy tính, router, switch và nối với các hệ thống khác. Các kết nối có thể được tạo ra bằng nhiều công nghệ khác nhau như là Etherenet, 802.11, FDDI và ATM. Trong nhiều trường hợp nó được xem như là một thành phần thứ 3 để giám sát luồng dữ liệu trao đổi giữa hai điểm trên mạng, điểm A và điểm B. Nếu mạng giữa điểm A và điểm B chứa một kết nối vật lý, một network tap là giải pháp tốt cho việc giám sát. Network tap có ít nhất là 3 cổng kết nối, một cổng A, một cổng B, và một cổng giám sát. Để đặt Network tap giữa điểm A và điểm B, cáp mạng giữa hai điểm A, B được thay thế bằng một cặp dây, một dây đấu vào cổng A và dây kia đấu vào cổng B. Network tap cho qua tất cả các dữ liệu giữa A và B vì thế giao tiếp giữa hai điểm A và B vẫn diễn ra bình thường, tuy nhiên dữ liệu trao đổi đã bị Network tap sao chép và đưa vào thiết bị giám sát thông qua cổng giám sát. 7 Trong hệ thống Network-based Intrusion Detection System (NIDS), các Sensor được đặt ở các điểm cần kiểm tra trong mạng, thường là trước miền DMZ hoặc ở vùng biên của mạng, các Sensor bắt tất cả các gói tin lưu thông trên mạng và phân tích nội dung bên trong của từng gói tin để phát hiện các dấu hiệu tấn công trong mạng. Theo chức năng sử dụng, hệ thống NIDS còn được phân thành hai hệ thống nhỏ đó là Protocol-based Intrusion Detection System (PIDS – Hệ thống phát hiện truy cập dựa trên giao thức) và Application Protocol-based Intrusion Detection System (APIDS – Hệ thống phát hiện truy nhập dựa trên ứng dụng). PIDS và APIDS được sử dụng để giám sát các giao vận và giao thức không hợp lệ hoặc không mong muốn trên luồng dữ liệu hoặc hạn chế các ngôn ngữ giao tiếp. Hệ thống Protocol-based Intrusion Detection System (PIDS) chứa một hệ thống (System) hoặc một thành phần (Agent) thường được đặt ngay trước một máy chủ, giám sát và phân tích các giao thức trao đổi giữa các thiết bị được nối mạng (Một máy trạm hoặc một hệ thống). Một hệ thống Application Protocol-based Intrusion Detection System (APIDS) bao gồm một hệ thống (System) hoặc một thành phần (Agent) thường nằm giữa một nhóm các máy chủ, giám sát và phân tích các trao đổi ở lớp ứng dụng của một giao thức định sẵn. Ví dụ; trên một máy chủ web với một cơ sở dữ liệu thì nó giám sát giao thức SQL để ngăn chặn các truy nhập vào ứng dụng khi trao đổi với cơ sở dữ liệu. 1.2.2.2 Host-based Intrusion Detection System (HIDS) Trong hệ thống HIDS (Hệ thống phát hiện truy nhập dựa trên máy trạm), các Sensor thường thường là một phần mềm trên máy trạm (Software agent), nó giám sát tất cả các hoạt động của máy trạm mà nó nằm trên đó. Hệ thống Host-based Intrusion Detection System bao gồm thành phần (Agent) cài đặt trên các máy trạm, nó xác định các truy nhập trái phép vào hệ thống bằng cách phân tích các trao đổi của hệ thống, các bản ghi của các ứng dụng, sự sửa đổi các tệp tin trên hệ thống (Các file dạng binary, mật khẩu của file, dung lượng và các acl của các cơ sở dữ liệu) các hoạt động và trạng thái khác của hệ thống để từ đó phát hiện ra các dấu hiệu truy nhập trái phép vào hệ thống. Khi phát hiện ra các truy nhập trái phép, Agent lập tức sinh ra một sự kiện và gửi báo cáo về Engine, Engine lưu các báo cáo 8 của Agent vào cơ sở dữ liệu và tiến hành phân tích thông tin để đưa ra các cảnh báo cho người quản trị hoặc hệ thống. Hình 1.2: Hệ thống Host-based Intrusion Detection 1.2.2.3 Hybrid Intrusion Detection System Hybrid Intrusion Detection System là một hệ thống lai giữa hệ thống Network- based IDS và Hệ thống Host-based IDS. Nó kết hợp một hoặc nhiều các thành phần thích hợp của hai hệ thống lại với nhau. Các thông tin thu thập được trên máy trạm (Host agent data) kết hợp với thông tin thu thập được ở trên mạng để có được sự phân tích một cách chi tiết về hiện trạng hệ thống mạng. 9 Hình 1.3: Hệ thống Hybrid Intrusion Detection 1.3 Hệ thống IPS IPS là viết tắt tiếng anh của Intrusion Prevention System hay thường được gọi là hệ thống ngăn chặn truy nhập trái phép. Hiện nay, hệ thống IDS/IPS đã được triển khai rộng rãi trên toàn thế giới, với đặc điểm mô hình triển khai đơn giản, cách thức phát hiện các truy nhập hiệu quả đã góp phần nâng cao độ tin cậy của hệ thống an ninh. IPS là hệ thống kết hợp giữa hệ thống IDS và hệ thống Firewall, nó có ba thành phần chính đó là: Hệ thống Firewall, hệ thống IDS và thành phần trung gian kết nối hai hệ thống trên lại với nhau. Firewall: là thành phần bảo vệ hệ thống mạng ở vùng biên, Firewall căn cứ trên tập luật mà nó được thiết lập từ trước để xác định cho phép hay không cho phép các gói tin được hay không được phép đi qua nó. IDS: làm nhiệm vụ rà quét tất cả các gói tin trước khi hoặc sau khi đi vào mạng, đọc nội dung gói tin, phát hiện ra các dấu hiệu tấn công chứa đựng trong gói tin, nếu phát hiện có dấu hiệu tấn công, nó sinh ra cảnh báo cho hệ thống. Thành phần trung gian kết nối: Thành phần trung gian kết nối nhận các cảnh báo và thông tin đưa ra từ hệ thống IDS, phân tích mức độ cảnh báo, tiến hành tác động lên hệ thống Firewall để cấu hình lại tập luật trên đó nhằm ngăn chặn các cuộc tấn công. 10 Như vậy, hệ thống IPS là một hệ thống chủ động, có khả năng phát hiện và ngăn ngừa các truy nhập trái phép, có khả năng ngăn chặn các cuộc tấn công, các nguy cơ tiềm ẩn trong nội dung của gói tin. Vì vậy hình thành nên một thế hệ Firewall mới có khả năng hoạt động ở lớp ứng dụng hay còn gọi là Application Layer Firewall. 1.3.1 Phân loại IPS Có nhiều cách để phân loại IPS, nhưng thông thường người ta dựa vào kiểu IDS được sử dụng, như vậy chúng ta có các kiểu IPS phổ biến là NIPS (Network-based Intrusion Prevention System) sử dụng trên cả một hệ thống mạng, HIPS (Host-based Intrusion Prevention System) sử dụng trên các máy tính riêng lẻ, và Hybrid Intrusion Prevention System kết hợp của 2 hệ thộng NIPS và HIPS. IPS không đơn giản chỉ dò các cuộc tấn công, chúng còn khả năng ngăn chặn các cuộc hoặc cản trở các cuộc tấn công đó. Chúng cho phép tổ chức ưu tiên, thực hiện các bước để ngăn chặn lại xự xâm nhập. Phần lớn hệ thống IPS được đặt ở vành đai mạng, đủ khả năng bảo vệ tất cả các thiết bị trong mạng. Do đó nếu phân loại theo mô hình triển khai sẽ có hai kiểu chính là out-of-band IPS và in-line IPS:  Out-of-band IPS (OOB IPS): hệ thống IPS đứng “dạng chân” trên firewall. Như vậy luồng dữ liệu vào hệ thống mạng sẽ cùng đi qua firewall và IPS. IPS có thể kiểm soát luồn dữ liệu vào, phân tích và phát hiện các dấu hiệu của sự xâm nhập, tấn công. Với vị trí này, OOB IPS có thể quản lý firewall, chỉ dẫn nó chặn lại các hành động nghi ngờ.  In-line IPS: Vị trí IPS nằm trước firewall, luồng dữ liệu phải đi qua chúng trước khi tới firewall. Điểm khác chính so với OOB IPS là có thêm chức năng traffic- blocking. Điều đó làm cho IPS có thể ngăn chặn luồng giao thông nguy hiểm nhanh hơn so với OOB IPS. Tuy nhiên vị trí này sẽ làm cho tốc độ luồng thông tin qua ra vào mạng chậm hơn. Với mục tiêu ngăn chặn các cuộc tấn công, hệ thống IPS phải hoạt động theo thời gian thực. Tốc độ họat động của hệ thống là một yếu tố rất quan trọng. Quá trình phát hiện xâm nhập phải đủ nhanh để có thể ngăn chặn các cuộc tấn công ngay lập tức. Nếu không đáp ứng được điều này thì các cuộc tấn công đã được thực hiện xong và hệ thống IPS là vô nghĩa. 11 1.3.2 Các thành phần chính Hệ thống IPS gồm 3 module chính: module phân tích gói, module phát hiện tấn công ( kế thừa từ IDS), module phản ứng. Dưới đây ta xét cụ thể các module đó: 1.3.2.1 Module phân tích gói (packet analyzer) Module này có nhiệm vụ phân tích cấu trúc thông tin trong các gói tin. Card mạng (NIC) của máy giám sát được đặt ở chế độ “không phân biệt” (promiscuous mode), tất cả các gói tin qua chúng đều được copy lại và chuyển lên lớp trên. Bộ phân tích gói đọc thông tin từng trường trong gói tin, xác định chúng thuộc kiểu gói tin nào, dịch vụ gì… Các thông tin này được chuyển đến module phát hiện tấn công. 1.3.2.2 Module phát hiện tấn công Đây là module quan trọng nhất trong hệ thống, có khả năng phát hiện các cuộc tấn công. Nó chính là hệ thống IDS mà chúng ta đã xem xét ở trên. Nó cũng chính là thành phần mà chúng ta áp dụng các phương pháp khác nhau để cải tiển nhằm nâng cao hiệu quả hoạt động. Việc nghiên cứu, tìm hiểu các phương pháp nhằm tăng khả năng phát hiện tấn công chính là mục đích chính của luận văn này. Có một số phương pháp để phát hiện các cuộc tấn công, xâm nhập đó là: Misuse Detection (dò sự lạm dụng) và Anomaly Detection (dò sự không bình thường). Misuse Detection: Phương pháp này phân tích các hoạt động của hệ thống, tìm kiếm các sự kiện giống với các mẫu tấn công đã biết trước. Thông thường hệ thống sẽ lưu trữ trong cơ sở dữ liệu những gói tin có liên quan đến kiểu tấn công từ trước dưới dạng so sánh được, trong quá trình xử lý sự kiện sẽ được so sánh với các thông tin trong cơ sở dữ liệu nếu giống hệ thống sẽ đưa ra cánh báo hoặc ngăn chặn. Các mẫu tấn công biết trước này gọi là các dấu hiệu tấn công. Do vậy phương pháp này còn được gọi là phương pháp dò dấu hiệu (Signature Detection). 12 Hình 1.4 : Mô hình thêm luật phương pháp phát hiện dựa trên dấu hiệu Một số ví dụ cho các dấu hiệu như: một lệnh telnet cố gắng sử dụng “username” là “root’ để truy cập điều này trái với quy định trong các chính sách về bảo mật, hay một thư điện tử với tiêu đề “Free pictures” và kèm theo một tệp tin “freepics.exe” nó hội tụ đầy đủ tính chất của một “malware” hoặc “trojan”, thông tin bản ghi quá trình hoạt động của một hệ điều hành có giá trị là 645, nó cho thấy chức năng kiểm tra quản lý của host bị vô hiệu hóa…. Kiểu phát hiện tấn công bằng dấu hiệu có ưu điểm là phát hiện các cuộc tấn công nhanh và chính xác, không đưa ra các cảnh báo sai làm giảm khả năng họat động của mạng và giúp người quản trị xác định các lỗ hổng bảo mật trong hệ thống của mình. Tuy nhiên, phương pháp này có nhược điểm là không phát hiện được các cuộc tấn công không có trong mẫu, các kiểu tấn công mới, do vậy hệ thống luôn phải cập nhật các mẫu tấn công mới dẫn đến tình trạng cơ sở dữ liệu sẽ trở nên rất lớn, hơn nữa dấu hiệu càng cụ thể càng ít gây cảnh báo nhầm nhưng lại gây khó khăn cho việc phát hiện các biến thể như trong ví dụ ở trên nếu đối tượng tấn công thay đổi tên của tệp đính kèm thành “freepics2.exe” mà hệ thống lại so sánh với “freepics.exe” sẽ không khớp với nhau nên không đưa ra cảnh báo. Anomaly Detection: Đây là kỹ thuật dò thông minh bằng cách nhận dạng các hành động không bình thường của mạng. Quan niệm của phương pháp này về các cuộc tấn công khác so với các hoạt động thông thường. Ban đầu, chúng lưu trữ các mô tả sơ lược về các họat động bình thường của hệ thống. Các cuộc tấn công sẽ có những hành động khác so với trạng thái bình thường do đó có thể nhận dạng được chúng. 13 Hình 1.5 : Mô hình thêm luật phương pháp phát hiện dựa trên phát hiện bất thường Có một số kỹ thuật giúp thực hiện dò sự không bình thường của các cuộc tấn công như dưới đây:  Threshold Detection (Dò theo ngưỡng): kỹ thuật này nhấn mạnh thuật ngữ đếm (“count”). Các mức ngưỡng (threshold) về các họat động bình thường được đặt ra, nếu có sự bất thường nào đó như login với số lần quá quy định, số lượng các tiến trình họat động trên CPU, số lượng một loại gói tin được gửi vượt quá mức…  Self-learning Detection (Dò tự học): kỹ thuật dò này bao gồm hai bước, khi thiết lập hệ thống phát hiện tấn công, nó sẽ chạy ở chế độ tự học thiết lập một profile về cách cư xử của mạng với các họat động bình thường. Sau thời gian khởi tạo, hệ thống sẽ chạy ở chế độ sensor theo dõi các hoạt động bất thường của mạng so sánh với profile đã thiết lập. Chế độ tự học có thể chạy song song với chế độ sensor để cập nhật bản profile của mình nhưng nếu dò ra tín hiệu tấn công thì chế độ tự học phải dừng lại tới khi cuộc tấn công kết thúc.  Anomaly protocol detection (Dò theo bất thường): kỹ thuật dò này căn cứ vào họat động của các giao thức, các dịch vụ của hệ thống để tìm ra các gói tin không hợp lệ, các họat động bất thường là dấu hiệu của sự xâm nhập, tấn công. Kỹ thuật này rất hiệu quả trong việc ngăn chặn các hình thức quét mạng, quét cổng để thu thập thông tin của các hacker. Phương pháp dò sự không bình thường của hệ thống rất hữu hiệu trong việc phát hiện các cuộc tấn công kiểu từ chối dịch vụ. Ưu điểm của phương pháp này là có thể phát hiện ra các kiểu tấn công mới, cung cấp các thông tin hữu ích bổ sung cho phương pháp dò sự lạm dụng, tuy nhiên chúng có nhược điểm là thường tạo ra một số lượng tương đối lớn các cảnh báo sai làm giảm hiệu suất họat động của mạng. Tuy 14 nhiên phương pháp này sẽ là hướng được nghiên cứu nhiều hơn, hoàn thiện các nhược điểm, đưa ra ít cảnh báo sai để hệ thống chạy chuẩn xác hơn. Chúng ta sẽ tìm hiểu kỹ hơn về các phương pháp sử dụng để phát hiện bất thường trong Chương 2 : “Tìm hiểu và nghiên cứu các phương pháp phát hiện tấn công trong hệ thống IPS ” và Chương 3: “Phương pháp phát hiện bất thường dựa trên Khai phá dữ liệu” là nội dung chính của luận văn. 1.3.2.3 Module phản ứng Khi có dấu hiệu của sự tấn công hoặc xâm nhập, module phát hiện tấn công sẽ gửi tín hiệu báo hiệu có sự tấn công hoặc xâm nhập đến module phản ứng. Lúc đó module phản ứng sẽ kíck hoạt firewall thực hiện chức năng ngăn chặn cuộc tấn công. Tại module này, nếu chỉ đưa ra các cảnh báo tới người quản trị và dừng lại ở đó thì hệ thống này được gọi là hệ thống phòng thủ bị động. Module phản ứng tùy theo hệ thống mà có các chức năng khác nhau. Dưới đây là một số kỹ thuật ngăn chặn:  Terminate session (Chấm dứt phiên): cơ chế của kỹ thuật này là hệ thống IPS gửi gói tin reset, thiết lập lại cuộc giao tiếp tới cả client và server. Kết quả cuộc giao tiếp sẽ được bắt đầu lại, các mục đích của hacker không đạt được, cuộc tấn công bị ngừng lại. Tuy nhiên phương pháp này có một số nhược điểm như thời gian gửi gói tin reset đến đích là quá lâu so với thời gian gói tin của hacker đến được Victim, dẫn đến reset quá chậm so với cuộc tấn công, phương pháp này không tác dụng với các giao thức hoạt động trên UDP như DNS, ngoài ra gói Reset phải có trường Sequence number đúng (so với gói tin trước đó từ client)thì server mới chấp nhận, do vậy nếu hacker gửi các gói tin với tốc độ nhanh và trường Sequence number thay đổi thì rất khó thực hiện được phương pháp này.  Drop attack (Loại bỏ tấn công): kỹ thuật này dùng firewall để hủy bỏ gói tin hoặc chặn đường một gói tin đơn, một phiên làm việc hoặc một luồng thông tin giữa hacker và victim. Kiểu phản ứng này là an toàn nhất nhưng lại có nhược điểm là dễ nhầm với các gói tin hợp lệ.  Modify firewall polices (Thay đổi chính sách tường lửa): kỹ thuật này cho phép người quản trị cấu hình lại chính sách bảo mật khi cuộc tấn công xảy ra. Việc cấu 15 hình lại là tạm thời thay đổi các chính sách điều khiển truy cập bởi người dùng đặc biệt trong khi cảnh báo tới người quản trị.  Real-time Alerting (Đưa thông báo thời gian thực): gửi các cảnh báo thời gian thực đến người quản trị để họ lắm được chi tiết các cuộc tấn công, các đặc điểm và thông tin về chúng.  Log packet (Lưu các gói tin log): Các dữ liệu của các gói tin sẽ được lưu trữ trong hệ thống các file log. Mục đích để các người quản trị có thể theo dõi các luồng thông tin và là nguồn thông tin giúp cho module phát hiện tấn công hoạt động. Ba module trên họat động theo tuần tự tạo nên hệ thống IPS hoàn chỉnh. Một hệ thống IPS được xem là thành công nếu chúng hội tụ được các yếu tố: thực hiện nhanh, chính xác, đưa ra các thông báo hợp lý, phân tích được toàn bộ thông lượng, cảm biến tối đa, ngăn chặn thành công và chính sách quản lý mềm dẻo. 1.3.3 Mô hình hoạt động Từ cấu tạo của IPS ta có thể thấy mô hình hoạt động của một hệ thống IPS bao gồm 5 giai đoạn chính: Giám sát, Phân tích, Liên lạc, Cảnh báo và Phản ứng. Hình 1.6 : Mô hình hoạt động của hệ thống IPS. Giám sát Phân tích Liên lạc Cảnh báo Phản ứng 16  Giám sát: có nhiệm vụ thu thập các thông tin về lưu thông trên mạng, công việc sẽ do các Sensor đảm nhiệm. Kết quả của quá trình này sẽ là các thông tin đầy đủ về trạng thái của toàn mạng. Nhưng nhìn chung chúng ta thường khó có thể thu thập được một lượng thông tin toàn diện như vậy vì nó sẽ tiêu tốn rất nhiều tài nguyên do đó người ta thường thu thập thông tin theo thời gian nghĩa là thu thập liên tục trong một khoảng thời gian hoặc thu thập theo từng chu kì nhất định.  Phân tích: đây chính là giai đoạn thiết yếu nhất trong một hệ thống IPS. Sau khi thu thập thông tin hệ thống sẽ tiến hành phân tích tùy theo môi trường mạng có các cách phân tích khác nhau. Nhưng nói chung hệ thống sẽ xem xét trong luồng những thông tin thu được những dấu hiệu khả nghi để đưa ra cảnh báo. Như đã biết ở trên có 2 cách chính để phát hiện dấu hiệu khả nghi là đối sánh mẫu và phân tích hành vi bất thường.  Liên lạc: giai đoạn này cũng là một giai đoạn quan trọng trong hệ thống, nó đảm bảo các thành phần trao đổi thông tin được với nhau khi cần thiết như gửi các thông tin khi phát hiện tấn công cho bộ phận đưa ra cảnh báo hoặc gửi các thông tin về cấu hình.  Cảnh báo: kết thúc quá trình phân tích nếu hệ thống nhận thấy được dấu hiệu tấn công sẽ đưa ra các cảnh báo cho hệ thống. Các cảnh bảo như: một máy cố truy cập vào một máy không được phép hoặc sử dụng các account như “root” từ ngoài mạng hay sử dụng các dịch vụ không hợp lệ…  Phản ứng: sau khi nhận được các cảnh báo hệ thống IPS sẽ đưa ra các phản ứng của riêng mình mà không cần đợi quản trị mạng đảm bảo kịp thời ngăn chặn và giảm thiểu tối đa những tác động do các cuộc tấn công gây ra. Các phản ứng của IPS thường là: o Ngắt kết nối mạng hoặc phiên làm việc của người dùng được sử dụng cho hành động tấn công. o Khóa quyền truy cập đến đối tượng đích từ tài khoản người dùng gây tấn công, khóa địa chỉ IP… o Khóa tất cả các quyền truy cập vào đối tượng đích, các dịch vụ, các ứng dụng và các tài nguyên khác. 17 o Các IPS tiên tiến còn có khả năng thay đổi môi trường bảo mật như thay đổi cấu hình sang một loại điều khiển bảo mật khác để ngăn chặn tấn công. o Các IPS cũng có thể thay thế nội dung tấn công bằng cách loại bỏ các phần mã nguy hiểm trong gói tin… 1.3.4 Đánh giá hệ thống IPS Để đánh giá chất lượng hệ thống IPS người ta đưa ra các định nghĩa:  False Positive: Hệ thống sinh ra các cảnh báo khi các luồng dữ liệu bình thường đi qua, không có tấn công. Loại cảnh báo này là không thể tránh khỏi nếu quá nhiều sẽ gây nhiễu.  True Positive: Hệ thống sinh ra các cảnh báo khi các cuộc tấn công thực sự diễn ra. Càng nhiều cảnh bào này hệ thộng IPS càng được đánh giá cao đây là mục tiêu hàng đầu để cải tiến hệ thống.  False Negative: có ý nghĩa ngược với False Positive, cảnh báo xảy ra khi hệ thống không nhận ra được các cuộc tấn công, nguyên nhân có thể do thông tin về dạng tấn công chưa được biết. Các cảnh bảo này được các hệ thống IPS cố gắng tối thiểu hóa.  True Negative: Các luồng dữ liệu bình thường đi qua và hệ thống không sinh cảnh báo.  Đánh giá các hệ thống IPS người ta chủ yếu dựa vào 2 thông số False Positive ( cảnh báo sai ), True Positive ( cảnh báo đúng ), dùng tỷ lệ của 2 yếu tố này chúng ta có thể xây dựng nên đường cong ROC ( Recevier Operating Characteristic Curve). 18 Hình 1.7 Minh họa đường cong ROC. 1.4. Kết chương Phát hiện truy cập trái phép là tiến trình theo dõi sự kiện xảy ra trong hệ thống máy tính hoặc mạng và phân tích chúng để tìm ra những dấu hiệu của các mối nguy hiểm có thể xảy ra, chúng vi phạm hoặc sắp vi phạm các chính sách bảo mật của hệ thống máy tính, các chính sách được chấp nhận sử dụng, hoặc các chuẩn bảo mật thông thường. Ngăn chặn truy cập trái phép là tiến trình hoạt động bao gồm cả phát hiện truy cập và cố gắng ngăn chặn những mối nguy hiểm được phát hiện. Hệ thống ngăn chặn truy cập trái phép tập trung chủ yếu vào việc phát hiện các mối đe dọa có thể đối với hệ thống, ghi lại thông tin về chúng, cố gắng ngăn chặn và thông tin cho người quản trị mạng. Ngoài ra IPS còn được sử dụng cho các mục đích khác như phát hiện các lỗi trong chính sách bảo mật, lập tài liệu các mối đe dọa đã biết, cản trở những cá nhân vi phạm chính sách bảo mật. IPS đang ngày càng trở nên cần thiết và là một thành phần bảo mật không thể thiếu trong các hệ thống. Có nhiều loại IPS khác nhau phụ thuộc vào loại của các sự kiện mà chúng có thể nhận ra và các phương thức chúng sử dụng để phát hiện các mối đe dọa. Thông thường người ta chia IPS thành các loại : NIPS (Network-based Intrusion Prevention System) theo dõi và phát hiện sự cố trên một hệ thống mạng, HIPS (Host-based Intrusion Prevention System) theo dõi và xử lý sự cố trên các máy tính riêng lẻ, và Hybrid Intrusion Prevention System kết hợp của 2 hệ thống NIPS và HIPS thu thập thông tin 19 trên máy trạm kết hợp với thông tin thu thập được ở trên mạng để có được sự phân tích một cách chi tiết về hiện trạng hệ thống mạng. Ngoài ra người ta còn phân loại hệ thống IPS dựa trên quá trình triển khai :  Out-of-band IPS (OOB IPS) luồng dữ liệu vào hệ thống mạng sẽ cùng đi qua firewall và IPS, IPS có thể quản lý firewall, chỉ dẫn nó chặn lại các hành động nghi ngờ.  In-line IPS: luồng dữ liệu phải đi qua IPS trước khi tới firewall nhờ đó có thể ngăn chặn luồng giao thông nguy hiểm nhanh hơn so với OOB IPS, tuy nhiên sẽ làm cho tốc độ luồng thông tin ra vào mạng chậm hơn. Hệ thống IPS bao gồm 3 module chính : module phân tích gói tin, module phát hiện tấn công và module phản ứng trong đó module phát hiện tấn công đóng vai trò đặc biệt, có thể nói là quan trọng nhất. Module phát hiện tấn công được cài đặt theo nhiều phương pháp khác nhau nhưng nhìn chung được chia thành 2 phương pháp chính: phương pháp phát hiện dựa trên dấu hiệu ( mẫu) và phương pháp dò dựa trên phát hiện bất thường. Phương pháp phát hiện dựa trên dấu hiệu sử dụng các mẫu tấn công đã có sẵn trong cơ sở dữ liệu so sánh với các dấu hiệu hiện tại nhằm xác định xem nó có phải là một cuộc tấn công hay không. Phương pháp này được sử dụng rộng rãi trước đây vì nó có ưu điểm là cảnh báo chính xác, nhanh chóng, người quản trị có khả năng chỉnh sửa tập các dấu hiệu. Tuy nhiên phương pháp này có rất nhiều nhược điểm như nó đòi hỏi phải mô tả một cách chính xác các dấu hiệu điều này là rất khó, cũng vì phải so sánh các mẫu chính xác tuyệt đối nên chúng ta cũng phải tốn nhiều tài nguyên để lưu trữ các mẫu bao gồm cả các biến thể của chúng nếu không hệ thống sẽ không nhận ra được, nó phụ thuộc khá nhiều vào công việc của người quản trị khi thường xuyên phải cập nhật các cuộc tấn công mới trong khi các cuộc tân công ngày càng trở nên tinh vi và đa dạng hơn. Phương pháp dò dựa trên phát hiện bất thường hoạt động dựa trên nguyên tắc, sẽ định ra các trạng thái hoạt động bình thường của hệ thống, các IPS sẽ dò và so sánh nếu tồn tại các cuộc tấn công sẽ có các hành động bất thường. Hệ thống IPS dựa trên phát hiện bất thường xây dựng các profile về hoạt động bình thường của mạng làm cơ sở so sánh. Hệ thống này hạn chế được nhiều nhược điểm của hệ thống sử dụng mẫu 20 so sánh. Nó có khả năng dò ra các cuộc tấn công chưa biết là rất cao, đồng thời tốn ít tài nguyên hơn cho việc xây dựng các profile về hoạt động bình thường của hệ thống so với việc xây dựng các mẫu tấn công. Vấn đề chủ yếu của hệ thống này là việc xây dựng các profile là tương đối khó để phản ánh toàn diện trạng thái bình thường xét về mặt không bị tấn công, nó có thể đưa ra rất nhiều cảnh báo sai khi hệ thống hoạt động trái bình thường nhưng bởi các nguyên nhân khác không phải các cuộc tấn công. Nhưng tóm lại hệ thống này rõ ràng có nhiều ưu điểm hơn hệ thống dựa trên mẫu nếu được cải tiến tốt, trong chương kế tiếp của luận văn sẽ chủ yếu tập trung tìm hiểu, đánh giá các cách cải tiến phương pháp này. 21 CHƯƠNG 2 : TÌM HIỂU VÀ NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRONG HỆ THỐNG IPS Hệ thống IPS sử dụng 2 phương pháp chính để phát hiện tấn công là phương pháp so sánh mẫu và phương pháp so sánh dựa trên bất thường. Như chúng ta đã biết phương pháp so sánh mẫu có khá nhiều khuyết điểm và hiện nay không được sử dụng rộng rãi nữa, hầu hết các hệ thống IPS hiện nay chủ yếu hỗ trợ và phát triển phương pháp so sánh dựa trên bất thường với khả năng phát hiện ra các kiểu tấn công mới vì thế trong chương này cũng như xuyên suốt luận văn tôi sẽ chủ yếu tập trung tìm hiểu và nghiên cứu các phương pháp phát hiện tấn công bằng phát hiện bất thường. Luận văn sẽ lần lượt đi qua các phương pháp cơ bản trong hệ thống sử dụng phát hiện bất thường trong đó sẽ đi sâu vào phương pháp sử dụng Datamining ( Khai phá dữ liệu ), là hướng nghiên cứu được nói đến nhiều nhất hiện nay. 2.1 Tổng quan về phương pháp phát hiện bất thường 2.1.1 Thế nào là bất thường trong mạng? Những bất thường trong mạng thường dùng để chỉ những hoàn cảnh khi hoạt động của mạng đi chệch so với các trạng thái bình thường. Bất thường trong mạng có thể phát sinh từ nhiều nguyên nhân như các thiết bị mạng bị hỏng hóc, hệ thống mạng quá tải, hệ thống gặp phải các cuộc tấn công từ chối dịch vụ, và các cuộc xâm nhập phá vỡ khả năng vận chuyển của các dịch vụ mạng …. Những sự kiện bất thường sẽ phá vỡ trạng thái bình thường của một vài dữ liệu mạng mà chúng ta có thể đo được. Người ta sẽ dựa vào trạng thái của các dữ liệu này để xác định trạng thái của mạng là bình thường hay không bình thường. Các dữ liệu dùng để xác định trạng thái của mạng phụ thuộc vào một vài nhân tố đặc biệt như khả năng hoạt động của 1 hệ thống dựa trên dung lượng lưu thông, loại dữ liệu hệ thống sẵn có hay những loại ứng dụng chạy trên hệ thống… 22 Tóm lại những sự bất thường của hệ thống được xác định thông qua những thay đổi chớp nhoáng liên tục trong dữ liệu hệ thống trước hoặc trong khi 1 sự kiện bất thường đang xảy ra. Thuật ngữ “những thay đổi chớp nhoáng” dùng để diễn tả những thay đổi đột ngột trong dữ liệu xảy ra theo 1 trật tự thời gian giống như tần số hay tần suất. Khoảng thời gian diễn ra các thay đổi đột ngột này biến thiên theo bản chất của sự kiện bất thường đó. Bất thường trong mạng có thể được chia làm 2 lớp chính. Lớp thứ nhất liên quan đến những sự cố và những lỗi về hiệu năng của mạng như sự cố liên quan đến File Server, sự cố phân trang bộ nhớ qua mạng (paging across the network), broadcast storms, babbling node, hay tắc nghẽn đường truyền (transient congestion). Ví dụ cho sự cố File server đó là sự cố của một web server, xảy ra khi có một số lượng lớn yêu cầu tới server vượt quá khả năng đáp ứng. Sự cố phân trang qua mạng (paging network) xảy ra khi một chương trình ứng dụng phình to hơn dung lượng bộ nhớ giới hạn của máy trạm làm việc và bắt đầu phân trang bộ nhớ tới một File server, việc này không ảnh hưởng đến cá nhân người dùng nhưng nó ảnh hưởng đến các người dùng khác do sẽ gây ra sự thiếu hụt băng thông mạng. Vấn đề babbling node là tình huống khi một nốt mạng gửi ra ngoài những gói tin nhỏ trong một vòng lặp vô hạn để kiểm tra một vài thông tin như các báo cáo về trạng thái… Trong một vài trường hợp những lỗi phần mềm cũng có thể gây ra các bất thường trong mạng như những lỗi khi xây dựng giao thức mạng khiến cho một máy liên tục gửi các gói tin gây tắc nghẽn mạng… Lớp bất thường thứ 2 là những vấn đề liên quan đến an ninh mạng. Ví dụ của những bất thường dạng này là tấn công từ chối dịch vụ (DoS) và xâm nhập hệ thống. Tấn công DoS diễn ra khi các dịch vụ được cung cấp bởi 1 hệ thống bị 1 phần tử độc hại nào đó điều khiển. Bên cung cấp dịch vụ do đó có thể ngưng 1 dịch vụ trọng yếu như DNS chẳng hạn và điều này sẽ gây ra 1 sự sụp đổ thực sự của cả 1 hệ thống. Trong trường hợp mạng bị xâm nhập, các phần tử nguy hiểm ( virus, spyware, worm, troyjan… ) cũng có thể chiếm dung lượng lớn đường truyền khiến cho hệ thống chạy chậm đi và dẫn đến hiện tượng tắc nghẽn mạng. 23 2.1.2 Các nguồn dữ liệu dùng cho phát hiện bất thường Thu thập các loại dữ liệu về hiệu năng của mạng là công việc cơ bản cho việc phát hiện bất thường. Các loại bất thường có thể phát hiện được phụ thuộc vào bản chất của dữ liệu mạng. Trong phần này chúng ta sẽ xem xét một số nguồn có thể thu thập dữ liệu và phân tích sự thích hợp của chúng trong việc phát hiện bất thường. Bản chất của phương pháp phát hiện bất thường là xây dựng nên tập các hồ sơ trạng thái bình thường của mạng để so sánh do đó dữ liệu thu thập càng chính xác khả năng phát hiện càng cao, thuật toán càng hiệu quả. 2.1.2.1 Network Probes Network Probes [4] là các công cụ đặc biệt như lệnh ping và traceroute, được sử dụng để thu thập các thông số mạng cần thiết như thời gian trễ và tỉ lệ mất gói tin. Các công cụ Probing cung cấp các số liệu mạng một cách tức thời. Nhưng phương thức này không yêu cầu sự phối hợp của các nhà cung cấp dịch vụ mạng. Tuy vậy, các nhà cung cấp dịch vụ có thể chọn không cho phép các công cụ này hoạt động thông qua Firewall của họ. Hơn nữa các gói tin IP được sử dụng bởi các công cụ này không nhất thiết phải đi theo các quỹ đạo hoặc được các thiết bị mạng xử lý giống như các gói tin IP thông thường. Phương thức này cũng giả thiết tồn tại một con đường đối xứng giữa nguồn và đích đến. Trên mạng Internet, giả thiết này là không được đảm bảo. Do đó các thông số thu thập được từ các công cụ này có thể chỉ cho chúng ta cái nhìn ở mức thô về hệ thống mạng. Cho nên dữ liệu lấy từ các probing không có nhiều giá trị cho mục đích phát hiện bất thường. 2.1.2.2 Lọc gói tin cho việc phân tích luồng ( Packet Filtering ) Trong phương thức lọc gói tin [4], các luồng gói tin sẽ được thống kê, lấy mẫu bằng cách ghi lại các thông tin IP header của các gói tin ở các thời điểm khác nhau ở các vị trí khác nhau. Các thông tin thu được từ IP header có thể cung cấp chi tiết về hoạt động của mạng, chúng có thể được sử dụng trong việc phát hiện các bất thường về luồng. Một luồng thông tin được xác định bởi địa chỉ nguồn, địa chỉ đích và số hiệu cổng. Tóm lại phương pháp này cho phép có được thống kê chính xác về giao dịch 24 trong mạng nhưng khó áp dụng trong thực tế vì nó đòi hỏi những công nghệ lấy mẫu tinh vi cũng như các thiết bị phần cứng đặc biệt để lấy các thông tin từ các gói IP. 2.1.2.3 Dữ liệu từ các giao thức định tuyến Thông tin về các sự kiện mạng có thể được thu thập thông qua các giao thức định tuyến [4]. Ví dụ như sử dụng giao thức OSPF ( open shortest path first), nó có thể thu thập tất cả thông tin cập nhật về bảng định tuyến được trao đổi bởi các router. Dữ liệu thu được có thể xây dựng toplogy của mạng và cung cấp trạng thái cập nhật của đường truyền như về băng thông, độ trễ, mức độ tắc nghẽn mạng… 2.1.2.4 Dữ liệu từ các giao thức quản trị mạng Các giao thức quản trị mạng cung cấp tất cả thông tin thống kê về giao thông trên mạng. Những giao thức này hỗ trợ rất nhiều thông số có thể giám sát chính xác hoạt động thiết bị mạng. Những thông tin thu thập được có thể không cung cấp trực tiếp các thông số đo lường về giao thông mạng nhưng có thể dùng để nhận dạng các hành vi trên mạng do đó có thể được sử dụng trong phát hiện bất thường mạng. Sử dụng loại thông tin này đòi hỏi sự kết hợp với phần mềm quản trị mạng của nhà cung cấp dịch vụ. Tuy nhiên những giao thức này cung cấp một lượng thông tin phong phú và chất lượng. Tiếp theo chúng ta xem xét chi tiết một giao thức là SNMP ( Simple Network Management Protocol). SNMP hoạt động dựa trên mô hình client-server. Giao thức này cung cấp một cơ chế giúp các manager giao tiếp với agent. Một SNMP manager có thể giám sát hàng trăm SNMP agent khác nằm trên các thiết bị mạng. SNMP được cài đặt ở tầng ứng dụng và chạy trên giao thức UDP. SNMP manager có khả năng thu thập các dữ liệu quản lý được cung cấp bởi SNMP agent nhưng lại không có khả năng xử lý những dữ liệu này. SNMP server sẽ lưu giữ 1 cơ sở dữ liệu bao gồm những thông số quản lý được gọi là những thông số thông tin quản lý cơ bản MIB ( management information base). Các thông số này chứa các thông tin liên quan đến hoạt động của các chức năng khác nhau trên những thiết bị mạng. Bất kỳ thiết bị mạng nào cũng có một tập các thông số MIB đặc trưng cho các chức năng của nó. Các thông số MIB được định nghĩa dựa trên loại thiết bị cũng như tầng giao thức mà nó hoạt động. Ví dụ như bridges (cầu) hoạt động ở tầng liên kết dữ 25 liệu chứa các thông số cung cấp thông tin về trao đổi thông tin ở mức liên kết dữ liệu. Routers là thiết bị ở tầng mạng chứa các thông số cung cấp thông tin về tầng mạng. Lợi ích của việc sử dụng giao thức SNMP vì nó là một giao thức được phát triển rộng rãi và mang tính chuẩn hóa trên tất cả các thiết bị mạng. Nhờ đó các thông tin lấy được từ giao thức SNMP là các dữ liệu lý tưởng sử dụng cho việc phát hiện bất thường. Các thông số MIB được chia thành các nhóm : hệ thống, giao diện ( if), dịch địa chỉ ( address translation – af ), giao thức internet (ip), giao thức điều khiển tin nhắn internet (icmp), giao thức điều khiển giao vận (tcp), giao thức udp ( udp), giao thức cổng ngoài ( egp). Mỗi nhóm các thông số miêu tả chức năng của một giao thức chuyên biệt của thiết bị mạng. Tùy thuộc vào loại nút mạng nào được theo dõi, một nhóm các thông số cụ thể có thể được xem xét. Nếu nút đang được xem xét là router, nhóm thông số ip sẽ được nghiên cứu. Các thông số ip mô tả các đặc điểm trao đổi dữ liệu ở tầng mạng. Không có một thông số MIB nào có thể nắm bắt được mọi bất thường trong hệ thống hoặc những dấu hiệu bất thường hệ thống. Vì vậy, việc lựa chọn các thông số MIB phụ thuộc vào hoàn cảnh tìm ra những bất thường đó. Ví dụ trong trường hợp router, nhóm ip của MIB được chọn, ngược lại nều là bridge nhóm if được sử dụng. 2.1.3 Các phương pháp phát hiện bất thường Trong phần này chúng ta sẽ xem xét các phương pháp hay được sử dụng trong phát hiện bất thường. Các phương pháp này bao gồm hệ chuyên gia ( rule-based ), mô hình máy trạng thái hữu hạn, so sánh mẫu, phân tích thống kê, mạng nơ-ron. Chúng ta sẽ nghiên cứu cơ chế hoạt động điểm mạnh, điểm yếu của từng phương pháp. 2.1.3.1 Hệ chuyên gia ( Rule-based ) Phương pháp này được áp dụng từ rất sớm trong lĩnh vực dò lỗi hay phát hiện bất thường trong mạng. Trong hệ chuyên gia, một cơ sở dữ liệu toàn diện chứa tập luật miêu tả hành vi của hệ thống được sử dụng để xác định nếu một lỗi nào đó xảy ra. Trên thực tế phương pháp này ít được áp dụng do hệ thống chạy quá chậm không đáp ứng được yêu cầu của các ứng dụng thời gian thực và phụ thuộc nhiều vào cơ sở tri thức về các triệu chứng lỗi trước đó. Những triệu chứng này có thể là : dung lượng 26 đường truyền bị quá tải, số lượng kết nối TCP mở nhiều trên mức cho phép, thông lượng đạt mức tối đa … Phương pháp này còn có một nhược điểm là phụ thuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi hệ thống mạng được mở rộng do mỗi khi hệ thống có sự thay đổi thì cần có sự bổ sung về tập luật. Người ta có thể sử dụng mô hình hệ chuyên gia FCMs ( fuzzy cognitive maps) để khắc phục nhược điểm này. FCM có thể được sử dụng để tạo ra một mô hình thông minh có sự thừa kế và tác động qua lại với nhau của các triệu chứng mạng. Cơ chế hoạt động của phương pháp dựa vào tập luật có thể xác định như sau :  Giả thiết các sự kiện phát triển theo một trình tự nhất định.  Mô tả hành vi hoạt động bình thường của hệ thống dưới dạng các luật đã được rút gọn nhất có thể. Ví dụ như A1A2 ==> B1, sự kiện A1 xảy ra xong đến sự kiện A2 thì có thể xảy ra sự kiện B1 tiếp theo.  Ta có một tập luật, so sánh các chuỗi sự kiện đưa vào với tập luật, nếu các sự kiện đưa vào phù hợp với vế trái của một luật mà không trùng với về phải của luật thì có thể xem xét xác định bất thường ở đây. Như ở ví dụ trên trong thực tế sự kiện A1, sự kiện A2 xảy cuối cùng lại dẫn đến sự kiện C1 xảy ra thì có thể kết luận là có sự kiện bất thường diễn ra ở đây. Hình 2.1 : Mô hình hệ thống phát hiện bất thường dựa trên tập luật 27 2.1.3.2 Mạng Nơ-ron ( Artificial Neural Network) Như chúng ta đã biết ở trên, một trong những phương pháp phổ biến dùng để phát hiện bất thường là hệ chuyên gia, tuy nhiên phương pháp này có nhược điểm là phụ thuộc khá nhiều vào tập luật được định nghĩa trước bởi người quản trị và phải được cập nhật thường xuyên. Nhược điểm này có thể được khắc phục bằng cách áp dụng công nghệ mạng nơ-ron. Hệ thống phân tích bất thường sử dụng mạng nơron tập trung vào việc phát hiện các thay đổi trong hành vi của chương trình, theo đó mạng nơron sẽ học và dự đoán hành vi của người sử dụng và các chương trình ứng dụng. Ưu điểm của mạng nơron là thích ứng được với các kiểu dữ liệu không đầy đủ, dữ liệu với độ chắc chắn không cao và không cần cập nhật tri thức thường xuyên do nó có quá trình tự học, điểm yếu của mạng nơron là tốc độ xử lý, trong quá trình tự thu thập dữ liệu, phân tích và điểu chỉnh các nơron. Chúng ta sẽ đi vào chi tiết hơn. Mạng nơ-ron nhân tạo hay thường gọi ngắn gọn là mạng nơ-ron là một mô hình tính toán được xây dựng dựa trên các mạng nơ-ron sinh học. Nó gồm có một nhóm các nơ-ron nhân tạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút. Trong nhiều trường hợp, mạng nơ-ron nhân tạo là một hệ thống thích ứng (adaptive system) tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong chảy qua mạng trong quá trình học. Hình 2.2 Mô hình mạng nơron Một mạng nơron bao gồm các nút input, nút output và các nút trong các lớp ẩn ( hidden layer). Cấu trúc mạng nơ-ron được chia thành 2 loại: 28 Loại thứ nhất sử dụng các thuật toán đào tạo được giám sát (Supervised training algorithms), ở giai đoạn tự học, hệ thống sẽ nghiên cứu một đầu ra mong muốn cho mỗi đầu vào đã được định sẵn. Cấu trúc phổ biến của mạng nơ ron giám sát là kiến trúc nhận thức đa tầng MLP (Multi-layered Perceptron). MLP là mạng chuyển tiếp đa tầng ( feed-forward) bao gồm lớp đầu vào, một hoặc một vài lớp ẩn và lớp đầu ra. Lớp đầu ra cung cấp phản hồi của hệ thống đến các mẫu hoạt động áp dụng trong lớp đầu vào. Nghiên cứu hiện tại của MLP mới nhằm giải quyết mẫu bài toán phát hiện 3 lớp, nghĩa là tập trung xác định hệ thống là bình thường hoặc bị tấn công dạng neptune ( tấn công từ chối dịch vụ - SYN) và tấn công dạng Satan( tấn công bằng cách dò quét tự động mạng hoặc máy tính để tìm lỗ hổng xâm nhập), nó có thể mở rộng cho các trường hợp có nhiều dạng tấn công. Mục đích của MLP là chuyển giao những mẫu đầu vào cho một trong những nhóm mà chúng được đại diện xét theo khía cạnh các đầu ra ( bình thường, neptune hoặc satan ) của mạng nơ ron sao cho chúng thể hiện đặc tính của một thành viên lớp. Sự thể hiện mang tính biểu trưng này được dùng theo cách sau: số 1 ở cột biểu thị sự xuất hiện/ tồn tại dấu hiệu tương ứng của cột đó, còn số 0 biểu thị sự không tồn tại. Vì vậy chúng ta có 3 trường hợp có thể nhận biết được kết quả ở đầu ra, đó là: [1 0 0] - tình trạng bình thường,[ 0 1 0] cho tấn công dạng Neptune và [ 0 0 1] nếu gặp tấn công dạng satan. Loại thứ hai sử dụng các thuật toán đào tạo không qua giám sát (Unsupervised training algorithms): ở giai đoạn tự học, hệ thống sẽ nghiên cứu mà không xác định đầu ra mong muốn. Các bản đồ tổ chức độc lập (SOM - Self-Organizing Maps) là một dạng tiêu biểu của loại này. Trong hệ thống phát hiện bất thường sử dụng SOM, người ta tập trung vào việc phân lớp các hành vi từ đó phát hiện ra các hành vi nghi vấn. Tiến trình xử lý của hệ thống diễn ra như sau: các dữ liệu về mạng được thể hiện dưới dạng vectơ tham số đặc trưng, sau đó được lưu trong một Input vectơ để tiến hành phân lớp, việc phân lớp sẽ lặp đi lặp lại cho đến khi hội tụ, khi đã xây dựng nên được các SOM, hệ thống sẽ tiến hành xác định khoảng cách giữa hành vi đang xét với hành vi bình thường, nếu nó vượt quá ngưỡng cho phép thì có bất thường xảy ra ở đây. Ví dụ xét nguồn dữ liệu mạng được xét lấy từ các tệp logs ghi lại hành vi của người dùng:  Thời gian họat động của người dùng ( User activity times): Thời gian một người dùng hoạt động bình thường. 29  Các host người dùng đăng nhập ( User login hosts): Các host mà một người dùng đăng nhập bình thường.  Các host người dùng bên ngoài ( User foreign hosts): Các host mà người dùng truy bình thường nhập thông qua lệnh hệ thống như các host FTP.  Các tập lệnh (Command set): các lệnh mà người dùng bình thường sử dụng .  Sử dụng CPU ( CPU usage): Mức độ sử dụng CPU thông thường của một người dùng.  Sử dụng bộ nhớ ( Memory Usage): Mức độ sử dụng bộ nhớ thông thường của một người dùng. Hình 2.3 Cấu trúc một hệ thống phát hiện bất thường sử dụng SOM Hình 2.3 mô tả một kiến trúc hoành chỉnh cho một hệ thống phát hiện bất thường sử dụng SOM. Bộ phận phối hợp xử lý ( coordianting process) chịu trách nhiệm cho các kênh thông tin của mạng nơron. Mỗi một tính chất hành vi (Thời gian hoạt động của người dùng, các host đăng nhập … ) được mô hình hóa bởi một mạng SOM cũng như được kiểm tra bởi các quy tắc lọc cố định để phát hiện các lỗ hổng bảo mật đơn giản. Dữ liệu thu được từ hệ thống logs được lọc tiếp thông qua bộ phận tiền xử lý đầu 30 vào ( data preprocessing ) chỉ chọn những dữ liệu cần thiết. Như chúng ta đã biết đầu vào của mạng nơron là dữ liệu dạng vector bao gồm 6 thuộc tính đặc trưng cho thời gian hoạt động, các host người dùng đăng nhập, các host người dùng bên ngoài, các tập lệnh, việc sử dụng CPU, việc sử dụng bộ nhớ. Theo đó một số lượng lớn các biến của dữ liệu này cần được chuẩn hóa để mỗi vectơ đầu vào có giá trị trong khoảng [- 1,1]. Khoảng xác định này được lấy từ các hệ thống phát hiện bất thường bằng mạng nơron khác trước đây. Người ta sử dụng công thức trong hình 2.4 để chuẩn hóa dữ liệu: Hình 2.4 Công thức chuẩn hóa dữ liệu đầu vào Trong đó nv[i] là dữ liệu đã được chuẩn hóa của đặc điểm i, v[i] là giá trị của đặc điểm i, K là số đặc điểm có trong vectơ dữ liệu đầu vào. Nếu giá trị lấy từ người dùng vượt quá giá trị ngưỡng đặc biệt thu được thông qua mạng SOM chứng tỏ hành vi đó là không bình thường. Nếu dữ liệu đầu ra nằm trên giá trị ngưỡng đặc biệt hành vi đó cũng là bất thường. Hình 2.5 Thiết kế của mạng SOM 31 2.1.3.3 Máy trạng thái hữu hạn Mô hình máy trạng thái hữu hạn ( FSM – finite states machine ) phát hiện bất thường bằng cách mô hình hóa các trạng thái hoạt động bình thường của mạng, sau đó cho dữ liệu đi qua là chuỗi các hành vi cần dò bất thường, bất thường có thể xác định nếu chuỗi đi qua không đạt được trạng thái kết thúc. Mô hình FSM xây dựng dựa trên cơ sở đặt các chuỗi báo động ( sequence of alarm ) ở các điểm khác nhau trên mạng để ghi lại trạng thái của máy. Theo cách thông thường một máy trạng thái hữu hạn được định nghĩa bởi một tập Q = ( Q, ∑, q0, δ, F ) với:  Q : tập các trạng thái có thể  q0: trạng thái ban đầu  ∑: tập ngôn ngữ hữu hạn  δ: hàm chuyển Q x ∑  Q  F là tập con của Q: tập các trạng thái kết thúc. Người ta thường dùng máy trạng thái hữu hạn để xác định bất thường trong các giao thức, các giao thức này sẽ được theo dõi một cách độc lập và coi như không bị ảnh hưởng bới các sự kiện khác. Ví dụ với giao thức TCP chúng ta mô hình kiểm tra như trong hình 2.6. Hình 2.6 : Mô hình FSM cho kết nối TCP. q0 SYN? TRUE FALSE SYN /ACK? TRUE TRUE TRUE Success FALSE FALSE FALSE Anomaly ACK? GET? 32 Tóm lại phương pháp phát hiện bất thường sử dụng máy trạng thái hữu hạn có ưu điểm là chúng ta có thể xác định chính xác nguyên nhân gây ra bất thường phân biệt được đó có phải là một cuộc tấn công hay không vì xây dựng được mô hình hoạt động của các sự kiện. Nhưng trên thực tế phương pháp này rất khó triển khai do rất tốn tài nguyên, phải có một tập dữ liệu lớn đầy đủ về hoạt động mạng, có máy hiệu năng lớn để tính toán. Các sự kiện khác nhau phải xây dựng các mô hình riêng, độc lập để theo dõi. 2.1.3.4 Phân tích thống kê Sử dụng thống kê để xác định các sự kiện bất thường được sử dụng rộng rãi trong các hệ thống phát hiện truy nhập từ nhiều năm nay. Hệ thống hoạt động trên nguyên tắc thu thập dữ liệu của các thông số trên mạng và áp dụng một số kỹ thuật thống kê trên dữ liệu được thu thập để tạo ra các tập hồ sơ cho các thông số trong thời điểm hoạt động bình thường, ví dụ hệ thống có thể nghiên cứu sự phân phối của các thông số được giám sát. Hệ thống sau đó sẽ xem xét sự khác nhau giữa thông số đang xem xét ở thời điểm hiện tại với tệp hồ sơ của nó, thông thường nếu dữ liệu của thông số hiện tại cao hơn thì nhiều khả năng hệ thống bị tấn công. Hệ thống có thể sử dụng nhiều quy luật đơn giản để phát hiện ra sự khác nhau. Sự dụng ngưỡng ( threshold) là cách đơn giản nhất, khi thông số được theo dõi vượt quá ngưỡng đặt ra thì có cảnh báo. Các hệ thống sử dụng phân tích thống kê điển hình là Haystack(Smaha, 1988), IDES(Lunt et al, 1988), EMERALD(Porras and Neumann, 1997). Haystack(Smaha,1988) được phát triển cho việc phát hiện xâm nhập dựa trên tệp thông tin người dùng log. Hệ thống được phát triển cho cả 2 phương thức dựa trên so sánh mẫu và dựa trên bất thường. Đối với phương pháp dựa trên bất thường, từ các thống kê điều kiện trước đây hệ thống trên cả 2 loại : từng người dùng riêng lẻ và mô hình nhóm người dùng. Rất nhiều đặc điểm trong phiên làm việc của người dùng được theo dõi, bao gồm : thời gian làm việc, số lượng tệp tạo ra, số lượng trang được in ra… chúng sẽ được mô hình hóa như là các biến độc lập và ngẫu nhiên. Đối với từng đặc điểm, hệ thống sẽ xác định một khoảng giá trị được coi là bình thường, trong một phiên làm việc nếu yếu tố quan sát có giá trị nằm ngoài khoảng bình thường thì hệ 33 thống sẽ tính điểm dựa trên phân bố xác suất, một cảnh báo sẽ được sinh ra nếu điểm quá cao. Ngoài ra đối với người dùng Haystack còn xác định quyền cho từng người, nếu hành vi của ai đó vượt qua quyền được cho phép thì sẽ bị coi là bất thường. Nhược điểm lớn nhất của hệ thống Haystack là thiết kế chỉ chạy offline, không giám sát được thời gian thực. IDES ( Intrusion Detection Expert System – Lunt, 1988) là một trong những lớp hệ thống phát hiện xâm nhập đầu tiên. Dự án IDES được phát triển trong một số năm,sau khi hoàn thành thì nó được cải tiến thành NIDES ( Next Generation Intrusion Detection Expert System). Các hệ thống IDES dựa trên nguyên tắc hành vi người dùng trong các trường hợp thích hợp sẽ được tổng kết, tính toán thống kê, sau đó các hành động hiện tại sẽ được so sánh cùng các tệp hồ sơ tự nghiên cứu, và sự chênh lệch có thể được đánh dấu như là hành vi bất thường. IDES theo dõi ba loại đối tượng : người dùng, các host truy cập từ xa, các hệ thống đích. Trong đó có khoảng 36 thông số được xem xét: 25 cho người dùng, 6 cho các host truy cập từ xa, và 5 cho các hệ thống đích. IDES đo đạc các thông số này trong mỗi phiên người dùng và dựa vào các tham số đó sinh ra các tệp hồ sơ, chúng cũng được cập nhật để phản ánh hành vi của người dùng từng ngày. IDES sau đó cũng sử dụng một hệ chuyên gia để kiểm tra từng bản ghi mới ngoài những bản ghi đã biết. Ngoài ra hệ thống còn gán cho các bản ghi một trọng số đi kèm, cứ 30 ngày trọng số này giảm đi một nửa nhằm phân biệt các sự kiện xảy ra từ lâu với các sự kiện mới. Nhược điểm của phương pháp này là chỉ tính thống kê trên từng yếu tố quan sát nên không phát hiện được các cuộc tấn công ảnh hưởng trên diện rộng, tác động đến nhiều thành phần khác nhau của hệ thống. EMERALD ( Event Monitoring Enabling Responses to Anomalous Live Disturbances – Porras and Naumann, 1997 ) là một hệ thống phát hiện xâm nhập có khả năng mở rộng và tích hợp cùng các hệ thống khác, nó tập trung vào việc phát hiện những xâm nhập từ bên ngoài, và được thiết kế để hoạt động tốt trên 3 mức : mức phân tích dịch vụ, mức domain, mức cho các tổ chức. Kiến trúc của EMERALD được xây dựng trên các hệ thống theo dõi EMERALD địa phương, chúng được phân bố và hoạt động tương đối độc lập trên các mức khác nhau. Mỗi hệ thống theo dõi kết nối với các hệ thống theo dõi khác thông qua mạng, chúng kết hợp việc phân tích dựa trên dấu hiệu và thống kê hồ sơ để tạo ra khả năng bảo vệ thời gian thực cho các dịch vụ người 34 dùng mạng rộng lớn trên internet. Một hệ thống theo dõi EMERALD bao gồm 4 thành phần chính: đối tượng tài nguyên (resource object), phương tiện hồ sơ (profiler engine), phương tiện dấu hiệu ( signature engine ) và thiết bị giải quyết chung ( universal resolver ). Đối tượng tài nguyên nắm bắt tất cả các thông số cấu hình, duy trì danh sách các hệ thống khác có kết nối đến nó … Phương tiện hồ sơ thực hiện một số thao tác phát hiện bất thường trên các dữ liệu đã được kiểm tra, nó có thể phát triển trên các thành phần IDES và NIDES, các hồ sơ dữ liệu được cung cấp dưới dạng các lớp từ thành phần đối tượng tài nguyên. Phương tiện dấu hiệu cung cấp khả năng phát hiện dựa trên dấu hiệu, nó hoạt động cùng với một tập các quy tắc nhỏ. Thiết bị giải quyết chung đóng vai trò bộ xử lý trung tâm, nó tổng hợp các dữ liệu từ các thành phần địa phương, quyết định có hay không một sự xâm nhập xảy ra hoặc quyết định một phản ứng nào được sinh ra. Nó đồng thời cũng quản lý sự kết nối giữa các hệ thống theo dõi. Thiết bị giải quyết chung sử dụng một hệ chuyên gia để đưa ra kết luận từ các thông báo của phương tiện hồ sơ, phương tiện dấu hiệu và hệ thống theo dõi khác. 2.1.3.5 Mạng Bayes Mạng Bayes là mô hình đồ thị thể hiện mối quan hệ nguyên nhân – kết quả, dựa chủ yếu trên lý thuyết xác suất có điều kiện kết hợp với lý thuyết đồ thị để giải quyết hai vấn đề quan trọng là tính không chắc chắn và tính phức tạp, do đó được ứng dụng rộng rãi. Mạng Bayes hoạt động trên nguyên tắc mô tả mối quan hệ phụ thuộc giữa các biến, nó có thể hoạt động được trong trường hợp dữ liệu không đầy đủ và phân bố không đều như dữ liệu mạng. Ưu điểm của mạng Bayes là tính ổn định với dữ liệu đồng thời nó có khả năng đoán trước được kết quả của một hành vi do sử dụng mối quan hệ nhân quả. Các hệ thống phát hiện bất thường dựa trên mạng Bayes là mô hình của Valdes, có khả năng phát hiện các chuỗi tấn công phân tán trong khi từng tấn công tách biệt không sinh ra cảnh báo. Mô hình này sử dụng hệ thống Bayes để xây dựng mối quan hệ nguyên nhân kết quả giữa tấn công và các yếu tố quan sát. Sau đó dựa trên phân bố xác suất của các yếu tố quan sát được để tính xác suất có tấn công.Một mô hình khác là của Kruegel sử dụng cách tiếp cận là sử dụng nhiều bộ cảm ứng khác 35 nhau, đầu ra của các bộ cảm ứng này được tập hợp để sinh ra cảnh báo. Các bộ cảm ứng sẽ sử dụng phương pháp Bayes. Tóm lại việc sử dụng mạng Bayes cho phát hiện bất thường có ưu điểm là giảm được tỷ lệ cảnh báo sai. Tuy nhiên nó có hạn chế là hiệu suất hoạt động giảm khi các yếu tố quan sát tăng lên. 2.2. Kết chương Chương này nghiên cứu một cách chi tiết về hệ thống IPS dựa trên phát hiện bất thường, nó đặc biệt khác với hệ thống IPS dựa trên dấu hiệu, IPS dựa trên bất thường sẽ xây dựng một hệ thống thông tin mô tả trạng thái bình thường, từ đó làm cơ sở để xác định sự bất thường có nhiều khả năng dẫn đến tấn công. Phần sau của chương giới thiệu các khái niệm và kỹ thuật phát hiện bất thường với những ưu nhược điểm cụ thể. Có nhiều phương pháp phát hiện bất thường như Phân tích thống kê, Máy trạng thái hữu hạn, Mạng Nơ-ron, Hệ chuyên gia, Mạng Bayes… Tuy nhiên các phương pháp này có những điểm yếu nhất định như cần nhiều thời gian khi hệ thống thay đổi và phát triển và cần một quá trình đánh giá, đào tạo lại một cách có hệ thống. Nhưng điểm yếu lớn nhất của các phương pháp này là tính ổn định trong trường hợp dữ liệu lớn, số lượng yếu tố quan sát tăng, dữ liệu không đầy đủ, không chính xác. Để khắc phục những điểm yếu trên chúng ta có thể sử dụng phương pháp phát hiện bất thường dựa trên Khai phá dữ liệu được trình bày trong chương tiếp theo. 36 CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN KHAI PHÁ DỮ LIỆU Phương pháp phát hiện bất thường dựa trên khai phá dữ liệu là một phương pháp khá mới có nhiều ưu điểm hơn so với các phương pháp trước đây như khả năng tương tác cao với các CSDL ở dạng thô, có nhiều nhiễu hay dữ liệu không đầy đủ, biến đổi liên tục, những tính chất thường gặp ở dữ liệu mạng. Để tìm hiểu sâu về phương pháp này trước hết chúng ta sẽ xem xét qua một số khái niệm về khai phá dữ liệu. 3.1 Khai phá dữ liệu Trong thời đại công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu này, chúng ta có thể áp dụng các kỹ thuật trong Khai phá dữ liệu ( KPDL ) để lấy ra những thông tin hữu ích mà chúng ta quan tâm. Các thông tin thu được có thể vận dụng ngược trở lại nhằm cải thiện hiệu năng của hệ thống thông tin ban đầu. Định nghĩa về KPDL được phát biểu như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận mang tính ứng dụng hơn, Tiến sỹ Fayyad đã đưa ra một định nghĩa khác : “ KPDL thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích dẫn những thông tin ẩn, trước đây chưa biết và có khả năng hưu ích dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” Nói chung, KPDL là một quá trình học tri thức mới từ những dữ liệu thu thập được trước đó. KPDL có năm giai đoạn chính và có thể được lập lại nhiều lần ở một hay nhiều giai đoạn, chúng bao gồm:  Tìm hiểu nghiệp vụ và dữ liệu  Chuẩn bị dữ liệu  Mô hình hóa dữ liệu  Hậu xử lý và đánh giá mô hình  Triển khai tri thức 37 Tham gia chính trong quá trình KPDL là các nhà tư vấn và phát triển chuyên nghiệp trong lĩnh vực KPDL. Trong giai đoạn Tìm hiểu nghiệp vụ và dữ liệu, nhà tư vấn nghiên cứu kiến thức về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu. Việc nghiên cứu này được thực hiện qua việc tiếp xúc giữa nhà tư vấn và người dùng. Khác với phương pháp giải quyết vấn đề truyền thống khi bài toán được xác định chính xác ở bước đầu tiên, nhà tư vấn tìm hiểu các yêu cầu sơ khởi của người dùng và đề nghị các bài toán tiềm năng có thể giải quyết với nguồn dữ liệu hiện hữu. Tập các bài toán tiềm năng được tinh chỉnh và làm hẹp lại trong các giai đoạn sau. Các nguồn và đặc tả dữ liệu có liên quan đến tập các bài toán tiềm năng cũng được xác định. Giai đoạn Chuẩn bị dữ liệu sử dụng các kỹ thuật tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu để thích hợp với những yêu cầu của các giải thuật học. Phần lớn các giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu đơn và phẳng, do đó dữ liệu phải được trích xuất và biến đổi từ các dạng cơ sơ dữ liệu phân bố, quan hệ hay hướng đối tượng sang dạng cơ sở dữ liệu quan hệ đơn giản với một bảng dữ liệu. Các giải thuật tiền xử lý tiêu biểu bao gồm:  Xử lý dữ liệu bị thiếu hoặc mất: các dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp.  Khử sự trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ đi. Kỹ thuật này không được sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu.  Giảm nhiễu: nhiễu và các đối tượng tách rời (outlier) khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu.  Chuẩn hóa: miền giá trị của dữ liệu sẽ được chuẩn hóa.  Rời rạc hóa: các dữ liệu số sẽ được biến đổi ra các giá trị rời rạc.  Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có.  Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt. Các bài toán được giải quyết trong giai đoạn Mô hình hóa dữ liệu. Các giải thuật học sử dụng các dữ liệu đã được tiền xử lý trong giai đoạn hai để tìm kiếm các qui tắc ẩn và chưa biết. Công việc quan trọng nhất trong giai đoạn này là lựa chọn kỹ thuật 38 phù hợp để giải quyết các vấn đề đặt ra. Các bài toán được phân loại vào một trong những nhóm bài toán chính trong KPDL dựa trên đặc tả của chúng. Các mô hình kết quả của giai đoạn ba sẽ được hậu xử lý và đánh giá trong giai đoạn 4. Dựa trên các đánh giá của người dùng sau khi kiểm tra trên các tập thử, các mô hình sẽ được tinh chỉnh và kết hợp lại nếu cần. Chỉ các mô hình đạt được mức yêu cầu cơ bản của người dùng mới đưa ra triển khai trong thực tế. Trong giai đoạn này, các kết quả được biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng. Trong giai đoạn cuối, Triển khai tri thức, các mô hình được đưa vào những hệ thống thông tin thực tế dưới dạng các module hỗ trợ việc đưa ra quyết định. Mối quan hệ chặt chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho việc nghiên cứu trong KPDL. Một giải thuật trong KPDL không thể được phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường được xây dựng để giải quyết một mục tiêu cụ thể. Do đó, sự hiểu biết bối cảnh vận dụng là rất cần thiết. Thêm vào đó, các kỹ thuật được sử dụng trong các giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật sử dụng trong các giai đoạn tiếp theo. Trong KPDL, các bài toán có thể phân thành bốn loại chính. Bài toán thông dụng nhất trong KPDL là Phân lớp (Classification). Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ tạo ra bộ phân loại (classifier) dùng để phân các dữ liệu mới vào một trong những lớp (còn gọi là loại) đã được xác định trước. Nhận dạng cũng là một bài toán thuộc kiểu Phân loại. Với mô hình học tương tự như bài toán Phân loại, lớp bài toán Dự đoán (Prediction) sẽ tạo ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán. Bài toán tiêu biểu trong nhóm này là dự đoán giá sản phẩm để lập kế hoạch trong kinh doanh. Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường được mua kèm với nhau trong siêu thị. Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các đối tượng dữ liệu có tính chất giống nhau vào cùng một nhóm. 39 3.2 Các thuật toán phát hiện bất thường trong khai pháp dữ liệu Các phương pháp phát hiện xâm nhập truyền thống chủ yếu dựa vào những hiểu biết về những dấu hiệu của các vụ tấn công đã biết. Các sự kiện cần theo dõi sẽ được đối chiếu với các ký hiệu để phát hiện các cuộc xâm nhập. Các phương pháp này trích xuất đặc điểm từ những chuỗi dữ liệu mạng và phát hiện ra xâm nhập bằng cách so sánh những giá trị đặc điểm với 1 dãy các ký hiệu tấn công được cung cấp bởi các chuyên gia. Cơ sở dữ liệu dấu hiệu sẽ được chỉnh sửa bằng tay mỗi khi chúng ta tìm được 1 xâm nhập mới. Điểm hạn chế rõ rệt của các phương pháp dựa trên dấu hiệu là chúng không thể phát hiện các cuộc tấn công mới không có trong cơ sở dữ liệu. So với các phương pháp truyền thống thì Khai phá dữ liệu mang lại nhiều điểm cải tiến rõ rệt: khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ, biến đổi liên tục, đặc biệt là phương pháp này đòi hỏi mức độ sử dụng các chuyên gia không quá thường xuyên. Các ưu điểm này đem lại cho phương pháp phát hiện xâm nhập trái phép bằng Khai phá dữ liệu khả năng xử lý khối lượng dữ liệu lớn, có thể sử dụng trong các hệ thống thời gian thực. 3.2.1 Đánh giá chung về hệ thống Các kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu thường được chia làm 2 loại: phát hiện dựa trên dò sự lạm dụng và phát hiện bất thường. Trong phát hiện dò sự lạm dụng, các mẫu trong tập dữ liệu được gán nhãn là “bình thường” hoặc “bất thường” và một thuật toán học được áp dụng cho toàn bộ các dữ liệu đã gán nhãn. Kỹ thuật này sẽ được sử dụng trên các tập dữ liệu đầu vào khác nhau để phát hiện tấn công. Không giống với các hệ thống phát hiện xâm nhập dựa trên dấu hiệu, các mô hình của phương pháp dò sự lạm dụng được tạo ra một cách tự động và có thể tinh vi và chính xác hơn so với các dấu hiệu được tạo ra một cách thủ công. Một ưu điểm nổi bật của phương pháp phát hiện dò sự lạm dụng là phát hiện ra các hành vi tấn công đã biết và các biến thể của chúng có tính chính xác cao. Tuy nhiên nhược điểm dễ thấy của phương pháp này là khó có thể phát hiện các hành vi tấn công mang các đặc điểm đặc biệt chưa từng biết đến cũng như nó đòi hỏi phải gán nhãn bình thường hoặc bất thường việc này mất rất nhiều thời gian của các chuyên gia. Trong khi đó, phương pháp phát hiện bất thường xây dựng những mô hình về biểu hiện bất và đánh dấu 40 những nghi vấn trong tập dữ liệu. Vì vậy kỹ thuật này có khả năng xác định các dạng xâm nhập mới chưa được biết đến trước đó. Mặc dù chúng ta có thể nhận thấy sự ưu việt, mạnh mẽ của phương pháp này, nhưng chúng vẫn ẩn chứa một tỷ lệ báo động nhầm nhất định. Điều này là do các biểu hiện hệ thống chưa từng thấy trước đó (nhưng vẫn hợp lệ) bị liệt vào danh sách các bất thường và bị đánh dấu như các hành vi tiềm ẩn sự xâm nhập. Nói chung chúng ta thường gặp 2 loại tấn công vào hệ thống [5] : loại tấn công liên quan đến các kết nối đơn lẻ và loại tấn công liên quan đến nhiều kết nối(bursty attacks – tấn công bùng nổ). Giả sử trong 1 giao thông mạng tại 1 thời điểm nào đó cho trước, mỗi kết nối được gán 1 giá trị và được biểu thị theo 1 đường nằm dọc (hình 3.1). Giá trị này sẽ tương ứng với khả năng mà kết nối mạng bị xâm nhập. Hình 3.1 : Gán giá trị để lượng hóa các cuộc tấn công trên sơ đồ. Đại lượng đo lường phát sinh đầu tiên tương ứng với phần diện tích bề mặt giữa đường tấn công thực sự và đường tấn công giả định (bề mặt được gạch chéo \\\ như minh họa ở hình 3.1 – surface area). Nếu diện tích bề mặt dưới đường tấn công thực càng nhỏ thì thuật toán phát hiện xâm nhập càng hiệu quả. Tuy nhiên bản thân diện tích bề mặt chưa đủ để nắm bắt đầy đủ những khía cạnh khác của thuật toán phát hiện xâm nhập (ví dụ có bao nhiêu kết nối liên quan đến 1 tấn công, hay mất bao nhiêu thời gian để thuật toán xử lý phát hiện xâm nhập, vv… ). Vì vậy, các đại lượng đo lường khác có thể được dùng giúp mổ tả rõ ràng các vấn đề. Chúng được định nghĩa như sau:  Tỉ lệ phát hiện tấn công bùng nổ (BRD) được xác định cho mỗi cuộc tấn công bùng nổ và nó biểu thị tỉ số giữa tổng số kết nối mạng mang tính xâm nhập ndi có điểm số cao hơn ngưỡng xác định trước trong tấn công mang tính bùng nổ và 41 tổng số những kết nối mạng mang tính xâm nhập trong các điểm đầu cuối tấn công (Hình 3.1)  Thời gian phản ứng (tresponse)là khoảng thời gian bắt đầu từ khi xuất hiện tấn công đến khi kết nối mạng đầu tiên tìm được giá trị cao hơn ngưỡng đã định trước (xem tresponse phản ứng ở hình 3.1) 3.2.2 Phần tử dị biệt Chúng ta biết rằng trong Khai phá dữ liệu có một lớp bài toán là “phát hiện phần tử dị biệt – Outlier Detection”. Nhiệm vụ của lớp bài toán này là tìm ra các phần tử có đặc điểm khác biệt nhất trong một tập dữ liệu đã cho. Nếu ta coi dữ liệu mạng cần quan sát là một tập dữ liệu cho bài toán phát hiện phần tử dị biệt, các phần tử là các hành động bình thường trên mạng thì các phần tử dị biệt có thể tương ứng với các hành động tấn công. Như vậy chúng ta có thể đưa bài toán phát hiện bất thường về bài toán phát hiện phần tử dị biệt trong Khai phá dữ liệu. Hình 3.2 : Minh họa bài toán phát hiện phần tử dị biệt. Hầu hết các phương pháp tiếp cận phát hiện xâm nhập đã biết đều cố gắng xây dựng 1 loại mô hình trên các dữ liệu thông thường và sau đó kiểm tra mức độ thích hợp của những dữ liệu mới với mô hình đó từ đó rút ra kết luận bất thường là những mẫu chưa từng được quan sát trước đó. Với cách tiếp cận theo phương pháp phát hiện phần tử dị biệt thì bất thường là mẫu có nhiều khác biệt nhất so với các phần tử còn lại. 42 Dị biệt (Outlier) là gì? Trong cuốn sách “Statistical Design and Analysis of Experiments”, các tác giả Mason, Gunst, và Hess định nghĩa outlier như sau: “dị biệt là các giá trị cực so với các giá trị khác được quan sát trong cùng một điều kiện. Outlier có thể là một giá trị đơn lẻ, nhưng cũng có thể là giá trị từ hai hay nhiều biến số.” Vấn đề ở đây là thế nào là “giá trị cực”? Thật là khó trả lời. Không có câu trả lời định tính, nhưng có thể có câu trả lời định lượng. Có nhiều cách để đánh giá xem một số liệu có phải là outlier hay không. Trong kỹ thuật phát hiện điểm dị biệt dựa trên số liệu thống kê, các điểm dữ liệu được mô hình hóa bằng 1 bảng phân phối ngẫu nhiên. Các điểm này có được coi là thuộc vùng biên hay không sẽ phụ thuộc vào mối quan hệ của chúng với mô hình. Tuy nhiên, với mật độ lớn và ngày càng tăng, việc ước lượng bảng phân phối đa chiều của các điểm này ngày càng trở nên phức tạp và thiếu chính xác. Những thuật toán phát hiện dị biệt mà chúng ta sử dụng sẽ xem xét dưới đây lại dựa vào việc tính toán các khoảng cách không gian giữa các điểm và tính toán mật độ của các điểm lân cận. 3.2.2.1 Phương pháp điểm lân cận gần nhất (NN) Phương pháp này dựa trên khoảng cách D k (O) [5] của điểm lân cận gần nhất thứ k tính từ gốc/ điểm O. Ví dụ những điểm có các giá trị D k (O) lớn hơn thường có các điểm lân cận thưa thớt và chúng có khả năng là điểm dị biệt hơn những điểm nằm trong các cụm dày đặc. Trong phương pháp này, chúng ta chọn k = 1 và xác định 1 “ngưỡng xem xét” để quyết định liệu điểm đó có phải là 1 dị biệt hay không. Ngưỡng này chỉ dựa trên các dữ liệu luyện tập và nó được giới hạn trong 2%. Đối với toàn bộ các điểm dữ liệu trong bảng dữ liệu(giả sử chúng đều là dữ liệu bình thường), ngưỡng đó được tính dựa trên khoảng cách giữa chúng tới những điểm lân cận gần nhất, sau đó được sắp xếp lại. Những điểm dữ liệu kiểm tra nào có khoảng cách tới các điểm lân cận gần nhất lớn hơn ngưỡng đã định sẽ được xếp vào các dữ liệu dị biệt. 43 Hình 3.3 : Minh họa phương pháp điểm lân cận gần nhất phát hiện phần tử dị biệt. 3.2.2.2 Phương pháp pháp hiện điểm dị biệt dựa trên khoảng cách Mahalanobis Như đã biết dữ liệu để đào tạo trong mô hình tương ứng với các hành vi bình thường từ đó có thể tính ra được Trung vị và Độ lệch chuẩn của dữ liệu bình thường. Khoảng cách Mahalanobis giữa điểm dữ liệu p và Trung vị µ được tính như sau: Trong đó tổng Σ là ma trận hiệp phương sai của các dữ liệu bình thường. Tương tự như phương pháp trước, ngưỡng sẽ được tính dựa trên những điểm có khoảng cách gần nhất tính từ giá trị của các dữ liệu bình thường và nó bằng 2% trong tổng số các điểm. Mọi điểm dữ liệu kiểm tra có khoảng cách tới trung vị của các dữ liệu đào tạo bình thường lớn hơn ngưỡng đã định sẽ được xếp vào dạng phần tử dị biệt. Việc tính khoảng cách theo hệ mét Ơclit chuẩn không phải lúc nào cũng chính xác, nhất là khi các dữ liệu được phân bố giống như hình minh họa dưới đây. Bằng cách sử dụng hệ mét Ơclit, khoảng cách giữa p2 và điểm lân cận gần nó nhất lớn hơn khoảng cách từ điểm p1 đến điểm lân cận gần nó nhất. Rõ ràng trong trường hợp này, phương pháp dựa trên khoảng cách Mahalanobis sẽ hiệu quả hơn phương pháp hệ mét Ơ-cơ-lit. [5] 44 Hình 3.4 : Ưu điểm của phương pháp dựa trên khoảng cách Mahalanobis khi tính các khoảng cách. 3.2.2.3 Thuật toán LOF Ý tưởng chủ đạo của phương pháp này là gắn cho mỗi mẫu dữ liệu 1 mức độ dị biệt nào đó, được gọi là nhân tố dị biệt địa phương ( Local Outlier Factor). Như vậy đối với từng mẫu, mật độ phần tử lân cận đóng một vai trò đặc biệt. Một mẫu không phải được phân loại là “dị biệt” hay “không dị biệt” mà được đánh giá là mức độ “dị biệt” như thế nào, tùy theo giá trị LOF của mẫu đó. [7] Ký hiệu k-dis(x) là khoảng cách đến phần tử lân cận thứ k của mẫu x Ký hiệu Nk-dis(x) là số lượng phân tử lân cận của x có khoảng cách tới x bé hơn k-dis(x). Khoảng cách tiếp cận trung bình của một mẫu x đối với một mẫu y, ký hiệu là R – dis(x,y) được tính như sau: R – dis(x,y) = max(k – dis(x),d(x,y)) 45 Hình 3.5 : Ví dụ khoảng cách R-dis (reach-dist) Chẳng hạn có 7 phần tử như hình 3.5, R – dis(p1,O) và R – dis(p2,O) được tính trong trường hợp k = 3. Ta có thể tính được giá trị LOF của một phần tử p như sau: Với : Hàm lrd( ) chỉ mật độ tiếp cận địa phương của một mẫu, và được tính dựa trên tính nghịch đảo của R – dis(p,o) và MnPts ( số lượng mẫu tối thiểu) các phần tử lân cận của mẫu p. Thuật toán tính LOF cho các mẫu dữ liệu được thực hiện qua nhiều bước:  Tính k – dis(p) cho mẫu p  Tính R – dis(p,o) cho mẫu o  Tính hàm lrd( )  Tính LOF(p) Chúng ta sẽ áp dụng thuật toán trên cho một ví dụ nhỏ cụ thể như sau : Gọi D là cơ sở dữ liệu có 4 đối tượng ký hiệu lần lượt là P1, P2, P3 và P4 có các khoảng cách P1P4 = 4, P1P3 = 3, P1P4 = 7, P2P3 = 5, P2P4 = 6 và P3P4 = 8 thu được nhờ một hàm tính khoảng cách đã biết và xét với MinPts(k) = 2. [8] 46 Bước 1: tính kdistance của p: Mục đích tính kdistance của p là xác định các lận cận của p. Định nghĩa đơn giản, kdistance của p là khoảng cách lớn nhất từ đối tượng p khi mọi đối tượng trong tập dữ liệu được xem xét có ít nhất k lân cận. kdistance của p được ký hiệu là kdistance(p) và thu được bằng cách :  Đầu tiên, tính tất cả các khoảng cách của tất cả các đối tượng từ P1 qua một hàm tính khoảng cách. Các khoảng cách P1P2 = 4, P1P3 = 3, P1P4 = 7  Tiếp theo, chọn ra 2 khoảng cách nhỏ nhất không trùng nhau từ P1. Tất cả các khoảng cách từ P1 được sắp xếp và 2 khoảng cách nhỏ nhất được chọn. Min(P1P2=4,P1P3=3,P1P4=7)  Cuối cùng, giá trị lớn nhất trong 2 khoảng cách nhỏ nhất được lựa chọn ở trên là kdistance của P1. Do đó kdistance(P1) = max(3,4), suy ra kdistance(P1) = 4. kdistance của các đối tượng còn lại được tính tương tự. Bước 2: Tìm lân cận kdistance của p: Lân cận kdistance của p được ký hiệu là ( Nk(p) ), chứa tất cả các đối tượng với khoảng cách không lớn hơn kdistance(p). Cơ sở cho việc tính ra lân cận kdistance là tìm các lân cận gần nhất của mỗi đối tượng. Ví dụ lân cận kdistance của P1 bao gồm P2 và P3 từ kdistance(P1) = 4 và khoảng cách của P2, P3 từ P1 không lớn hơn 4( P1P2 = 4, P1P3 = 3). Bước 3: Tính khoảng cách có thể tới được của p ( reachability distance) Khoảng cách có thể tới được của đối tượng p với đối tượng o là khoảng cách lớn hơn trong 2 khoảng cách distance(p,o) và kdistance(o). reachdistk(p,o) = max{kdistance(o), distance(p,o)}. Mục đích là đảm bảo cho tất cả các đối tượng trong một lân cạn là đồng nhất. Thêm vào đó, LOF trở nên ổn định khi các đối tượng trong một lân cận là đồng nhất mặc dù MinPts(k) thay đổi. Sự thay đổi của khoảng cách có thể tới được (reachability distance) có thể điều khiển bằng việc chọn giá trị k lớn. Khoảng cách có thể tới của P1 được tính toán theo các bước: Đầu tiên, xác định lân cận kdistance của P1 ( Nk(P1) = (P2,P3)). Khoảng cách có thể tới của P1 được tính cùng mối liên hệ tới P2 và P3 khi chúng là lân cận của P1. Với P2 trong lân cận của P1: reachdistk(P1,P2) = max(kdistance(P2),distance(P1,P2)) = max(5,4) =5. Với P3 trong lân cận của P1: reachdistk(P1,P3) = max(kdistance(P3),distance(P1,P3)) = 47 max(5,3) =5. Do đó reachdistk(P1,o) = (5,5) nó bao gồm các khoảng cách tới được của các lân cận của P1. Bước 4: Tính mật độ tới được địa phương của p - local reachbility density Mật độ tới được địa phương của một đối tượng p, được ký hiệu là lrdk(p) là nghịch đảo của giá trị trung bình các khoảng cách tới được từ lân cận kdistance của p. Nó cung cấp một cách so sánh giữa các khoảng cách tới được. Mật độ tới được địa phương của P1 được tính như sau : lrdk(P1) = 1/{(5+5)/2} = 2/10, khi (5,5) là khoảng cách tới được địa phương của P1 và số các lân cận của kdistance là 2. Ta cũng có lrdk(P2) = 2/9, lrdk(P3) = 2/9, lrdk(P4) = 2/13. Bước 5: Nhân tố dị biệt địa phương của p Nhân tố dị biệt địa phương là tỷ số đánh giá một đối tượng là dị biệt hoặc không trong lân cận của nó. Nhân tố dị biệt địa phương của một đối tượng được ký hiệu là LOFk(p) là trung bình các tỷ số của mật độ tới được địa phương của p và k lân cận gần nhất của p. Ưu điểm của thuật toán LOF so với thuật toán dựa trên khoảng cách được thể hiện qua ví dụ sau: Hình 3.6 Ưu điểm của phương pháp LOF Nếu trong cách tiếp cận khoảng cách thì mẫu p2 không bị coi là tách biệt do khoảng cách từ p2 đến C2 gần hơn so với từ C1 đến C2. Trong khi đó với cách tiếp cận LOF, cả p1, p2 đều là phần tử dị biệt. 48 Hạn chế lớn nhất của thuật toán LOF nằm trong việc tính toán khoảng cách có thể tính được (reachability distance) được định nghĩa reachdistk(p,o) = max{kdistance(o),distance(p,o)}. Việc tính toán khoảng cách reachability của p bao gồm việc tính toán khoảng cách của tất cả các đối tượng trong lân cận của p, sau đó so sánh từng khoảng cách này với kdistance của lân cận đó, việc này sẽ rất tốn kém khi MinPts lớn. Hơn thế nữa, LOF phải tính toán cho tất cả các đối tượng trước khi một vài điểm dị biệt được phát hiện. Đây không phải là điều chúng ta mong muốn khi các phần tử dị biệt chỉ là một phần rất nhỏ trong toàn bộ tập dữ liệu. 3.2.2.4 Thuật toán LSC-Mine Thuật toán LSC-Mine [8] cơ bản dựa vào các định nghĩa của thuật toán LOF nhưng nó tránh được việc tính toán các khoảng cách reachability và các mật độ reachability địa phương - những thứ rất tốn kém khi sử dụng thuật toán LOF. Thay vào đó là tỷ số phân bố thưa thớt địa phương ( local sparsity ratio) nhận được từ việc tính toán các khoảng cách lân cận. Thêm vào đó, LSC-Mine loại bỏ bớt các đối tượng dữ liệu, không có khả năng trở thành điểm dị biệt nhờ nhân tố cắt xén ( pruning factor) cũng được tính toán từ khoảng cách của các lân cận. Các đối tượng dữ liệu còn lại nằm trong tập các ứng cử viên có thể trở thành điểm dị biệt. Tỷ số phân bố thưa thớt địa phương của một đối tượng p ký hiệu lsrk(p) được định nghĩa là tỷ số của số các số kdistance trong lân cận của p trên tổng số của tất cả các khoảng cách thực trong lân cận đó. Trong đó distofNk(P) bao gồm các khoảng cách thực của các đối tượng trong lân cận kdistance của p, tỷ số lsr đo sự tập trung của các đối tượng xung quanh đối tượng p. Các đối tượng với mức lsr thấp có khả năng cao trở thành các phần tử dị biệt. Điểm chú ý cuối cùng đó là các điểm dị biệt phụ thuộc vào hệ số “local sparsity” hơn là tỷ số. Nhân tố cắt xét được bắt nguồn từ việc cho rằng lrs của một đối tượng p trong một 49 tập dữ liệu không nên nhỏ hơn một tỷ số đồng dạng được tính toán từ tất cả dữ liệu nếu đối tượng đó không phải là dị biệt. Nhân tố cắt xén (Pf) là tỷ số giữa tổng của các khoảng cách tuyệt đối trên toàn bộ tổng của các khoảng cách lân cận thực. Công thức toán học là : Một khi Pf được xác định, bất kỳ đối tượng nào với lsr nhỏ hơn Pf sẽ được loại bỏ vì nó không thể thuộc danh sách các ứng cử viên trở thành điểm dị biệt. Với việc sử dụng Pf ta có thể loại bỏ hơn một nửa đối tượng của dữ liệu, đây chính là bước đột phá lớn của thuật toán LSC so với LOF. Hệ số phân bố thưa thớt địa phương của p ký hiệu là LSCk(p) là tỷ số trung bình của lsr của p trên kdistance các lân cận của nó. Một hệ số LSC cao đánh dấu lân cận xung quanh một đối tượng là không đông đúc và do đó có tiềm năng cao trở thành một điểm dị biệt, ngược lại một hệ số LSC thấp đánh dấu một lân cận đông đúc và vì vậy có tiềm năng tương đối thấp để trở thành điểm dị biệt. Hình sau sẽ miêu tả tuần tự các bước trong thuật toán LSC-Mine để xác định điểm dị biệt. Thuật toán LSC-Mine sẽ tính toán kdistance của từng đối tượng (1), (2) lân cận kdistance của chúng, (3) tỷ số lsr của nó, nhân tố cắt xén Pf (4), tập dữ liệu ứng cử không bị cắt xén (5), LSC của các đối tượng trong tập dữ liệu không bị cắt xén (6), và cuối cùng xếp loại các đối tượng có LSC cao nhất như là các điểm có khả năng cao nhất thành điểm dị biệt. 50 Hình 3.7 Thuật toán LSC-Mine 3.3 Mô hình phát hiện bất thường dựa trên kỹ thuật KPDL Hình 3.8 Mô hình hệ thống phát hiện bất thường sử dụng kỹ thuật KPDL 51 Hệ thống phát hiện bất thường dựa trên KPDL áp dụng kỹ thuật phát hiện phần tử dị biệt để xác định tấn công, nó bao gồm các module chính : module lọc thông tin nhằm hạn chế bớt khối lượng thông tin cần phân tích và theo dõi, Module trích xuất thông tin giúp trích xuất các yếu tố quan sát, module phát hiện phần tử dị biệt là module chính xác định các cuộc xâm nhập, module phản ứng (đối với hệ thống IPS) đưa ra các phản ứng tức thời ngăn chặn, chấm dứt các cuộc xâm nhập, module tổng hợp nhằm rút gọn cảnh báo gửi lên Chuyên gia và xây dựng luật rút gọn để bổ sung tri thức cho hệ thống, module này cũng sử dụng một kỹ thuật khác của KPDL là kỹ thuật tổng hợp (Summarization), ngoài ra hệ thống còn sử dụng một bộ lọc các cuộc tấn công với dấu hiệu đã biết được rút ra từ môđun tổng hợp. 3.3.1 Module lọc tin Dữ liệu cần phân tích của hệ thống được tổng hợp từ nhiều nguồn khác nhau như Sensor, thiết bị mạng, SNMP hoặc là các file log, khối lượng dữ liệu này là rất lớn nên không thể lưu trữ hết toàn bộ chúng, mà chúng ta phải sử dụng các kỹ thuật để lọc bớt thông tin, một trong những kỹ thuật hay được sử dụng nhất là kỹ thuật cửa sổ thời gian, ví dụ như chỉ lưu thông tin trong vòng một giờ trở lại. Nói chung, độ dài của cửa sổ thời gian phụ thuộc vào từng hệ thống mạng và do người quản trị chọn sao cho phù hợp. Nếu thời gian lưu thông tin ngắn, hệ thống có thể bỏ sót các cuộc tấn công, nhưng trong trường hợp thời gian dài có thể sẽ không đảm bảo tốc độ, không áp dụng được cho trường hợp thời gian thực. Dữ liệu cần phân tích chủ yếu được lưu trên file ở dưới dạng bản ghi, hệ thống sẽ truy cập các file này để lấy thông tin. Module lọc thông tin sẽ loại bỏ những thông tin thừa, các lưu lượng mạng mà hệ thống biết chắc không có tấn công. Thông thường các thông tin cầ

Các file đính kèm theo tài liệu này:

LUẬN VĂN-GIẢI PHÁP PHÁT HIỆN VÀ NGĂN CHẶN TRUY CẬP TRÁI PHÉP VÀO MẠNG.pdf