Bài giảng Khai phá dữ liệu

Tài liệu Bài giảng Khai phá dữ liệu: Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học: „ Giới thiệu về Khai phá dữ liệu ề„ Giới thiệu v công cụ WEKA „ Tiền xử lý dữ liệu „ Phát hiện các luật kết hợp „ Các kỹ thuật phân lớp và dự đoán „ Các kỹ thuật phân nhóm 2 Khai Phá Dữ Liệu Tại sao cần khai phá dữ liệu? „ Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes Th hậ d liệ à ồ i ủ d liệ‰ u t p ữ u v sự t n tạ c a ữ u „ Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ liệu, World Wide Web, xã hội số Cá ồ dữ liệ h hú‰ c ngu n u p ong p „ Kinh doanh: Internet, thương mại điện tử, giao dịch thương mại, chứng khoán,… „ Khoa học: Tín hiệu cảm biến tin sinh thí nghiệm mô , , phỏng/giả lập,… „ Xã hội: Tin tức, máy ảnh số, các mạng xã hội Chúng ta bị tràn ngập trong dữ liệu Nhưng lại thiếu (cần) tri„ – thức „ Khai phá dữ liệu: Giúp tự động phân t...

pdf30 trang | Chia sẻ: hunglv | Lượt xem: 1553 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Bài giảng Khai phá dữ liệu, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Cơng nghệ Thơng tin và Truyền thơng Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung mơn học: „ Giới thiệu về Khai phá dữ liệu ề„ Giới thiệu v cơng cụ WEKA „ Tiền xử lý dữ liệu „ Phát hiện các luật kết hợp „ Các kỹ thuật phân lớp và dự đốn „ Các kỹ thuật phân nhĩm 2 Khai Phá Dữ Liệu Tại sao cần khai phá dữ liệu? „ Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes Th hậ d liệ à ồ i ủ d liệ‰ u t p ữ u v sự t n tạ c a ữ u „ Các cơng cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ liệu, World Wide Web, xã hội số Cá ồ dữ liệ h hú‰ c ngu n u p ong p „ Kinh doanh: Internet, thương mại điện tử, giao dịch thương mại, chứng khốn,… „ Khoa học: Tín hiệu cảm biến tin sinh thí nghiệm mơ , , phỏng/giả lập,… „ Xã hội: Tin tức, máy ảnh số, các mạng xã hội Chúng ta bị tràn ngập trong dữ liệu Nhưng lại thiếu (cần) tri„ – thức „ Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất lớn để khám phá ra các tri thức, 3Khai Phá Dữ Liệu Khai phá dữ liệu – Định nghĩa „ Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức từ dữ liệu (Knowledge discovery from data) ẫ‰ Là việc trích rút ra được các m u hoặc tri thức quan trọng từ một lượng dữ liệu (rất) lớn „ quan trọng = khơng tầm thường, ẩn, chưa được biết đến, và cĩ thể hữu ích „ Các tên gọi khác ‰ Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD) - ‰ Trích rút tri thức (Knowledge extraction) ‰ Phân tích mẫu/dữ liệu (Data/pattern analysis) ‰ … „ Khai phá dữ liệu khác với… ‰ Tìm kiếm thơng tin (Information retrieval) ấ ố‰ Xử lý các câu truy v n (SQL) đ i với các cơ sở dữ liệu 4Khai Phá Dữ Liệu DM: Lịch sử phát triển „ 1989 IJCAI Workshop on Knowledge Discovery in Databases ‰ Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) „ 1991-1994 Workshops on Knowledge Discovery in Databases ‰ Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) „ 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) ‰ Journal of Data Mining and Knowledge Discovery (1997) „ ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations „ More conferences on data mining ‰ PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. „ ACM Transactions on KDD starting in 2007 5Khai Phá Dữ Liệu Các bước của quá trình KD 1.Tìm hiểu lĩnh vực của bài tốn (ứng dụng) ‰ Các mục đích của bài tốn, các tri thức cụ thể của lĩnh vực 2.Tạo nên (thu thập) một tập dữ liệu phù hợp 3.Làm sạch và tiền xử lý dữ liệu 4.Giảm kích thước của dữ liệu, chuyển đổi dữ liệu ‰ Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5.Lựa chọn chức năng khai phá dữ liệu Tĩm tắt hĩa (s mmari ation) phân loại/phân lớp hồi q /d‰ u z , , uy ự đốn, kết hợp, phân cụm 6.Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp 7 Tiến hành quá trình khai phá dữ liệu. 8.Đánh giá mẫu thu được và biểu diễn tri thức ‰ Hiển thị hĩa, chuyển đổi, bỏ đi các mẫu dư thừa, … 9 Sử dụng các tri thức được khám phá. 6Khai Phá Dữ Liệu Quá trình khám phá tri thức (1) „ Đây là cách nhìn của giới nghiên cứu về các hệ thống dữ liệu và kho dữ liệu „ Khai phá dữ liệu đĩng vai trị quan trọng trong quá trình khám phá tri thức Pattern Evaluation Task-relevant Data Data Mining Data Cleaning Data Warehouse Selection Data Integration 7Khai Phá Dữ Liệu Databases (Han and Kamber - Data mining: Concepts and Techniques) Quá trình khám phá tri thức (2) (Han and Kamber - Data mining: Concepts and Techniques) Input Data Data Mining Data Pre- Processing Post- Processing Data integration Normalization Feature selection Dimension reduction Pattern discovery Association & correlation Classification Clustering Pattern evaluation Pattern selection Pattern interpretation Pattern visualization „ Đây là cách nhìn của giới nghiên cứu về học máy và thố kê Outlier analysis … … … … ng 8Khai Phá Dữ Liệu Kiến trúc hệ thống khai phá dữ liệu Graphical User Interface Pattern Evaluation Knowledge Database or Data Data Mining Engine base data cleaning, integration, and selection Warehouse Server Database Data Warehouse World-Wide Web Other Info Repositories (Han and Kamber - Data mining: Concepts 9Khai Phá Dữ Liệu and Techniques) Khai phá dữ liệu cho kinh doanh Increasing potential to support business decisions End User Business Decision Making Data Presentation Analyst Data Analyst Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Summary, Querying, and Reporting DBA Data Preprocessing/Integration, Data Warehouses Data Sources 10Khai Phá Dữ Liệu Paper, Files, Web documents, Scientific experiments, Database Systems (Han and Kamber - Data mining: Concepts and Techniques) DM – Các lĩnh vực liên quan „ Cơng nghệ cơ sở dữ liệu (Database technology) „ Giải thuật (Algorithm) „ Thống kê (Statistics) „ Học máy (Machine learning) „ Nhận dạng mẫu (Pattern recognition) „ Hiển thị hĩa (Visualization) „ Tính tốn hiệu năng cao (High-performance computing) 11Khai Phá Dữ Liệu Phân tích dữ liệu „ Lượng dữ liệu rất lớn ‰ Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với những tập dữ liệu lên đến hàng terabytes hoặc thậm chí , petabytes „ Dữ liệu được biểu diễn trong khơng gian nhiều chiều (số lượng rất lớn các thuộc tính) ‰ Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) cĩ thể được biểu diễn bởi hàng chục ngàn thuộc tính „ Dữ liệu cĩ độ phức tạp (rất) cao Cá l ồ dữ liệ à dữ liệ th hậ từ á ả biế‰ c u ng u v u u n n c c mạng c m n ‰ Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian, chuỗi dữ liệu ‰ Dữ liệu cĩ cấu trúc, dữ liệu dạng đồ thị, các mạng xã hội ‰ Các cơ sở dữ liệu hỗn tạp ‰ Dữ liệu phụ thuộc khơng gian/thời gian, dữ liệu đa phương tiện „ Cần các chương trình (ứng dụng) phân tích dữ liệu mới, phức tạp hơn 12Khai Phá Dữ Liệu DM – Nhiều cách nhìn (quan điểm) „ Dữ liệu được khai phá ‰ Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ liệ h ớ đối t dữ liệ h th ộ khơ i dữ liệ liêu ư ng ượng, u p ụ u c ng g an, u n tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện, dữ liệu hỗn tạp, dữ liệu trên WWW, … T i thứ đ khá hᄠr c ược m p ‰ Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu hướng/dịch chuyển, phân tích ngoại lai (outlier) „ Các kỹ thuật được sử dụng ‰ Dựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống kê, hiển thị hĩa, … „ Các ứng dụng (bài tốn) thực tế ‰ Kinh doanh bán lẻ, viễn thơng, ngân hàng, phát hiện gian lận tài chính, khai phá dữ liệu sinh học, phân tích thị trường chứng ảkhốn, khai phá văn b n, khai phá Web, … 13Khai Phá Dữ Liệu DM – Các cách phân biệt „ Theo chức năng tổng quát ‰ Khai phá dữ liệu mơ tả: Tìm các mẫu (mà con người cĩ thể hiểu/diễn giải được) biểu diễn/mơ tả dữ liệu ‰ Khai phá dữ liệu dự đốn: Sử dụng một số biến để dự đốn giá trị (chưa biết, hoặc trong tương lai) của các biến khác „ Các cách nhìn (quan điểm) khác nhau dẫn đến các cách phân biệt khác nhau về Khai phá dữ liệu ể‰ Dựa theo dữ liệu: Những ki u dữ liệu nào được khai phá? ‰ Dựa theo tri thức: Những kiểu tri thức nào được khám phá? ‰ Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng? ‰ Dựa theo ứng dụng (bài tốn): Những kiểu ứng dụng (bài tốn) nào phù hợp để giải quyết? 14Khai Phá Dữ Liệu DM: Khái quát hĩa „ Tích hợp thơng tin và xây dựng các kho dữ liệu ‰ Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mơ hì h d liệ hiề hiề ( l i di i l d d l)n ữ u n u c u mu t - mens ona ata mo e „ Cơng nghệ khối dữ liệu (data cube) ể ế ề ề‰ Các phương pháp hiệu quả đ tính tốn k t hợp nhi u chi u của dữ liệu ‰ Xử lý phân tích trực tuyến (Online analytical processing – OLAP) „ Mơ tả khái niệm theo nhiều chiều: Sự đặc trưng và sự phân biệt ‰ Tổng quát hĩa tĩm tắt và tương phản các đặc tính của dữ liệu , , „ Vd: Các vùng khơ vs. các vùng ướt 15Khai Phá Dữ Liệu DM: Phân tích kết hợp và tương quan „ Các mẫu hoặc các tập mục (itemsets) thường xuyên ‰ Những mục (sản phẩm) nào thường xuyên được mua cùng nhau, trong siêu thị BigC? „ Kết hợp (association), tương quan (correlation), và nguyên nhân (causality) ‰ Ví dụ về một luật kết hợp (association rule) „ Bánh mỳỈ Sữa [0.5%, 75%] (độ hỗ trợ – support, độ ti ậ fid )n c y – con ence ‰ Các mục kết hợp ở mức cao, thì cũng tương quan ở mức cao? „ Làm thế nào để khám phá các mẫu (luật) như vậy trong các tập dữ liệu lớn? 16Khai Phá Dữ Liệu DM: Phân lớp và dự đốn „ Phân lớp (classification) và dự đốn (prediction) ‰ Xây dựng các mơ hình (các hàm mục tiêu) dựa trên một số ví dụ h /h ấ l ệọc u n uy n ‰ Mơ tả và phân biệt các lớp (các khái niệm) cho việc dự đốn trong tương lai ‰ Phân lớp các ví dụ mới hoặc dự đốn các giá trị kiểu số , „ Các phương pháp điển hình ‰ Cây quyết định (Decision tree learning), Phân lớp Nạve Bayes (Nạve Bayes classification) Máy vectơ hỗ trợ (Support vector , machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear regression), … „ Các ứng dụng điển hình ‰ Phát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với từng người), phân loại/dự đốn các loại bệnh, phân loại các trang Web, … 17Khai Phá Dữ Liệu DM: Phân cụm và phân tích ngoại lai „ Phân cụm (Cluster analysis) ‰ Phương pháp học khơng giám sát (unsupervised learning) – khơ ĩ hơ i ề h lớng c t ng t n v n ãn p ‰ Nhĩm dữ liệu lại thành các cụm (clusters) ‰ Nguyên tắc: Cực đại hĩa sự tương tự giữa các đối tượng trong cùng một cụm nhưng cực tiểu hĩa sự tương tự giữa các đối – tượng khác cụm ‰ Cĩ rất nhiều phương pháp và ứng dụng (bài tốn) „ Phân tích ngoại lai (Outlier analysis/detection) ‰ Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng khác (trong một cụm) Nhiễ ủ dữ liệ h là i lệ?‰ u c a u, ay ngoạ ‰ Các phương pháp: phân cụm, phân tích hồi quy, … ‰ Rất hữu ích trong các bài tốn phát hiện gian lận (giả mạo), hoặc phân tích các sự kiện hiếm khi xảy ra 18Khai Phá Dữ Liệu DM: Phân tích xu hướng và tiến triển „ Phân tích chuỗi (sequence), xu hướng (trend), và tiến triển (evolution) ‰ Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng) ‰ Khai phá các mẫu kiểu chuỗi (sequential patterns) Vd: Đầu tiên mua máy ảnh số sau đĩ mua các thẻ nhớ SD„ , dung lượng lớn, … ‰ Phân tích tính chu kỳ (Periodicity analysis) Phâ tí h h ỗi dữ liệ liê t th thời i (ti i ) à‰ n c c u u n ục eo g an me-ser es v chuỗi dữ liệu sinh học ‰ Phân tích dựa trên sự tương tự (Similarity-based analysis) „ Khai phá các luồng dữ liệu ‰ Cĩ thứ tự, thay đổi theo thời gian, cĩ thể vơ hạn, các luồng dữ liệu 19Khai Phá Dữ Liệu DM: Phân tích mạng và cấu trúc „ Khai phá đồ thị dữ liệu (Graph mining) ‰ Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ liệu XML) các cấu trúc con (dữ liệu Web) thường xuyên xảy ra , … „ Phân tích mạng thơng tin (Information network analysis) ‰ Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các mối quan hệ (các cạnh) „ Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạo ‰ Các mạng hỗn tạp (khác nhau) „ Vd: Một người cĩ thể tham gia nhiều mạng khác nhau (bạn bè, gia đình bạn cùng lớp/trường những người cùng sở thích nghe nhạc, , Rock,…) ‰ Các liên kết (links) mang rất nhiều thơng tin ngữ nghĩa: Khai phá các liên kết (Link mining) Kh i há W b (W b i i )„ a p e e m n ng ‰ WWW là một mạng thơng tin khổng lồ: PageRank (Google) ‰ Phân tích các mạng thơng tin Web Khám phá cộng đồng Web Khai phá ý kiến (Opinion mining) Khai„ , , phá dữ liệu truy cập Web (usage mining) 20Khai Phá Dữ Liệu Tất cả các mẫu đều quan trọng? „ Quá trình khai phá dữ liệu cĩ thể sinh (phát hiện) ra hàng ngàn mẫu – Khơng phải tất cả các mẫu đều quan trọng „ Các đánh giá về mức độ quan trọng của các mẫu ‰ Một mẫu là quan trọng, nếu nĩ: dễ hiểu đối với người dùng, vẫn đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất đị h) hữ d ới ẻ h ặ iú á hậ ột iả thiết à đĩn , u ụng, m m , o c g p x c n n m g n o của một người dùng „ Các đánh giá dựa trên mục tiêu (objective) và dựa trên chủ quan (subjective) ‰ Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu trúc của các mẫu Vd: dựa trên các giá trị độ hỗ trợ (support) độ tin cậy„ , (confidence) ‰ Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người dùng đối với dữ liệu „ Vd: sự ngạc nhiên, sự mới mẻ, … đối với người dùng 21Khai Phá Dữ Liệu Đánh giá mức độ quan trọng của mẫu „ Mức độ đơn giản (Simplicity) ‰ Độ dài của các luật kết hợp ‰ Kích thước của cây quyết định học được „ Mức độ tin cậy (Certainty/Confidence) ‰ Độ tin cậy (confidence) của các luật kết hợp ‰ Độ chính xác của phân lớp học được „ Mức độ tiện ích (Utility): khả năng hữu ích của mẫu ‰ Độ hỗ trợ của các luật kết hợp ‰ Ngưỡng nhiễu đối với phân lớp học được „ Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được biết đến 22Khai Phá Dữ Liệu Tìm tất cả các mẫu quan trọng? „ Tìm tất cả các mẫu quan trọng: Tính hồn chỉnh (completeness) ‰ Một hệ thống khai phá dữ liệu cĩ thể tìm được tất cả các mẫu quan trọng khơng? ‰ Chúng ta cĩ cần phải tìm tất cả các mẫu quan trọng khơng? ‰ Tìm kiếm vét cạn (exhaustive) vs. heuristic „ Chỉ tìm các mẫu quan trọng: Bài tốn tối ưu ‰ Một hệ thống khai phá dữ liệu cĩ thể tìm chỉ các mẫu quan trọng? ‰ Các phương pháp „ Trước hết cứ sinh (tìm) ra tất cả các mẫu sau đĩ loại bỏ đi các , mẫu khơng quan trọng „ (Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan trọng 23Khai Phá Dữ Liệu Hiển thị các mẫu tìm được „ Các người dùng khác nhau, các mục đích sử dụng khác nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các ẫ tì đm u m ược ‰ Hiển thị bằng: các luật, các bảng, biểu đồ so sánh, … „ Phân cấp khái niệm ‰ Tri thức khám phá được cĩ thể sẽ dễ hiểu hơn khi được biểu diễn ở mức khái quát hĩa cao hơn ‰ Sự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách hì khá hn n c n au „ Các kiểu tri thức khác nhau địi hỏi các cách biểu diễn khác nhau (đối với các mẫu tìm được) ‰ Luật kết hợp ‰ Phân lớp, ‰ Phân cụm ‰ … 24Khai Phá Dữ Liệu DM: Các ứng dụng tiềm năng „ Phân tích dữ liệu và hỗ trợ quyết định ‰ Phân tích và quản lý thị trường „ Quảng cáo cá nhân (target marketing), quản lý quan hệ khách hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross- selling), phân chia thị trường Phâ tí h à ả lý ủi‰ n c v qu n r ro „ Dự đốn, giữ khách hàng, phân tích cạnh tranh ‰ Phát hiện gian lận và phát hiện các mẫu bất thường (outliers) „ Các ứng dụng khác ‰ Khai phá văn bản (nhĩm tin – news group, email, tài liệu) Khai phá Web‰ ‰ Khai phá dữ liệu luồng (chuỗi) ‰ Phân tích dữ liệu sinh học và tin sinh 25Khai Phá Dữ Liệu Ứng dụng: Phân tích thị trường (1) „ Nguồn của dữ liệu từ đâu? ‰ Các giao dịch sử dụng thẻ tín dụng, các thẻ khách hàng thường ê á hiế iả iá á ộ i hà à ủ khá hxuy n, c c p u g m g , c c cu c gọ p n n n c a c hàng „ Quảng cáo cá nhân (Target marketing) ‰ Tìm ra (xác định) những nhĩm khách hàng “mẫu” cĩ cùng các đặc điểm về sở thích, mức thu nhập, thĩi quen chi tiêu, … ‰ Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên „ Phân tích thị trường (Cross-market analysis) ‰ Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra (hoặc giữa các đợt bán hàng), để đưa ra các dự đốn „ Lập hồ sơ khách hàng (Customer profiling) ‰ Những kiểu khách hàng nào mua những mặt hàng nào (phân nhĩm, hoặc phân loại) 26Khai Phá Dữ Liệu Ứng dụng: Phân tích thị trường (2) „ Phân tích yêu cầu khách hàng ‰ Xác định các sản phẩm phù hợp nhất cho các nhĩm khách hàng khác nhau ‰ Dự đốn những yếu tố nào sẽ thu hút được các khách hàng mới ấ ắ„ Cung c p những thơng tin tĩm t t ‰ Các báo cáo tĩm tắt theo nhiều chiều (yếu tố) ‰ Các thơng tin thống kê (xu hướng dịch chuyển) , 27Khai Phá Dữ Liệu Ứng dụng: Quản lý rủi ro „ Lập kế hoạch tài chính và đánh giá tài sản ‰ Phân tích và dự đốn luồng tiền mặt ‰ Phân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài sản ‰ Phân tích các chuỗi dữ liệu tài chính „ Lập kế hoạch sử dụng tài nguyên ‰ Tĩm tắt và so sánh các tài nguyên và sự khai thác (sử dụng) „ Cạnh tranh trong kinh doanh ‰ Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu hướng của thị trường ‰ Nhĩm các khách hàng theo từng lớp, và định giá cho từng lớp ‰ Xây dựng chiến lược giá trong một thị trường cạnh tranh cao 28Khai Phá Dữ Liệu Ứng dụng: Phát hiện gian lận „ Các phương pháp: Phân cụm và xây dựng mơ hình dự đốn gian lận, phân tích ngoại lai (outlier) „ Các ứng dụng: Chăm sĩc sức khỏe, bán lẻ, các dịch vụ sử dụng thẻ tín dụng, viễn thơng ể ỗ‰ Bảo hi m ơ-tơ: “kịch bản” một chu i các va chạm ‰ Rửa tiền: các giao dịch chuyển tiền đáng ngờ ‰ Bảo hiểm y tế: sự mĩc nối giữa bệnh nhân và bác sỹ các xét , nghiệm khơng cần thiết ‰ Viễn thơng: các kiểu cuộc gọi bất thường ‰ Cơng nghiệp bán lẻ: phát hiện các người làm thuê gian lận ‰ Chống khủng bố 29Khai Phá Dữ Liệu DM: Các vấn đề thách thức „ Tính hiệu quả (efficiency) và tính ổn định (scalability) của các giải thuật khai phá dữ liệu Cá á á ệ ồ„ c phương ph p khai ph dữ li u song song, phân tán, lu ng (stream), và tăng cường (incremental) „ Xử lý với dữ liệu cĩ số chiều (số thuộc tính) lớn „ Xử lý với dữ liệu chứa nhiễu (lỗi), khơng chắc chắn, khơng hồn chỉnh „ Đưa (tích hợp) vào quá trình khai phá dữ liệu các ràng buộc tri , thức chuyên gia, tri thức nền tảng (background knowledge) „ Đánh giá mẫu và tích hợp tri thức Kh i há á kiể dữ liệ ất khá h (dữ liệ ti i h W b„ a p c c u u r c n au u n s n , e , mạng thơng tin,…) „ Tích hợp khai phá dữ liệu vào các thiết bị hoạt động „ Bảo đảm tính an ninh, tồn vẹn, riêng tư trong khai phá dữ liệu 30Khai Phá Dữ Liệu

Các file đính kèm theo tài liệu này:

  • pdfL1-Gioi_thieu_khai_pha_du_lieu.pdf