

phương pháp phát hiện tại dữ liệu phi lý trong đo lường trực tuyến bình an thông tin tài chính, ngân hàng
Tóm tắt: Trong trong thời điểm gần đây, những nhà khoa học đã nghiên cứu, mô hình hóa các bài toán chuỗi thời gian thực tế trong nghành nghề dịch vụ tài chính, ngân hàng và ứng dụng các kỹ thuật học sản phẩm thống kê để giải quyết và xử lý chúng. Vào đó, câu hỏi phát hiện dữ liệu không bình thường trong kịch phiên bản trực tuyến đường là trong những bài toán được quan tâm thoáng rộng bởi năng lực ứng dụng cao trong các quá trình giám sát, phân tích dữ liệu thu thập được và báo cáo các quan lại sát phi lý để bảo đảm môi trường quản lý an toàn. Vào kịch bạn dạng trực tuyến, quy mô chỉ thực hiện dữ liệu lịch sử hào hùng và thuật toán vạc hiện không bình thường cần bảo vệ thời gian thực thi thấp. Cách thức phổ biến hóa thường được thực hiện là đưa định dữ liệu tuân theo phân phối chuẩn và cần sử dụng thuật toán ngưỡng nhằm phân loại. Trong bài viết này, công ty chúng tôi đề xuất một thuật toán nhị bước áp dụng thuật toán ngưỡng để tiền phân các loại và phương pháp phân nhiều để chứng thực nhãn của điểm tài liệu mới nhằm mục đích làm giảm phần trăm dương tính mang và âm tính giả. Các thí nghiệm được thực hiện trên hai cỗ dữ liệu gồm 1 bộ dữ liệu tự sinh với một bộ dữ liệu thực tế bào tả các giao dịch bởi thẻ tín dụng của bạn ở châu Âu. Kết quả thực nghiệm chỉ ra rằng rằng, thuật toán khuyến cáo làm giảm đáng kể xác suất dương tính giả và âm tính giả so với thuật toán thường xuất xắc sử dụng. Quy mô và thuật toán đề xuất có thể được ứng dụng rộng rãi trong các hệ thống đo lường và thống kê thông tin giúp các ngân hàng, tổ chức tài chủ yếu kịp thời vạc hiện các cuộc tấn công hoặc ăn gian trong thực hiện dịch vụ.
Bạn đang xem: Phát hiện sự khác biệt dữ liệu (Data Anomaly Detection)
A PROPOSED ABNORMAL DETECTION ALGORITHM FOR MONITORING INFORMATION SECURITY OF BANKING and FINANCE IN ONLINE SCENARIO
Abstract: Recently, many researchers have studied problems of time series processes in banking & finance sector và applied statistical learning techniques to lớn solve them. In particular, the abnormal detection problem in an online scenario is one of the most widely-studied problems due to lớn its high applicability in information security. In the online scenario, abnormal detection models are required to use only historical data và ensure low execution time. The popular statistical approaches often assumed that data followed a normal distribution and used threshold values for classification. In this paper, we propose a new two-step algorithm for abnormal detection in the online scenario. The first step uses a threshold algorithm lớn predict a label of a new data point. The second step validates the predicted label by using a clustering method to lớn reduce the false-positive & false-negative rates. Experimental results on an artificial dataset & a real credit thẻ transaction dataset show the efficiency và applicability of the proposed algorithm for information monitoring và abnormal warning in the banking & finance sector.

Hoạt cồn của ngành tài chính, bank đóng một vai trò quan trọng trong việc cấu hình thiết lập sự ổn định tài thiết yếu của mỗi quốc gia. Rộng nữa, sự ngày càng tăng dân số, phát triển kinh tế và công nghệ đã tăng nhanh nhu cầu sử dụng các dịch vụ ngân hàng, tài chủ yếu của bạn dân một bí quyết an toàn, hiệu quả. Bởi vì đó, những người ra đưa ra quyết định trong ngành này khôn cùng cần những công thế phân tích dữ liệu lớn để tham dự đoán, phân loại thông tin, kịp thời chuyển ra các cảnh báo khi dữ liệu thu thập được có dấu hiệu bất thường. Trong những năm ngay sát đây, nhiều nhà nghiên cứu và phân tích đã quy mô hóa những bài toán chuỗi thời hạn thực tế trong nghành nghề dịch vụ tài chính, ngân hàng và ứng dụng các kỹ thuật học thiết bị để giải quyết và xử lý chúng. Vào đó, bài toán phát hiện nay dữ liệu không bình thường trong kịch bản trực con đường là giữa những bài toán được quan tiền tâm rộng thoải mái bởi năng lực ứng dụng cao trong các quy trình giám sát, so sánh dữ liệu tích lũy được và report bất kỳ quan tiền sát bất thường nào để đảm bảo môi trường vận động và vận hành an toàn. Đây là một trong những chủ đề bao gồm tính vận dụng cao do phần lớn dữ liệu vận động và quản lý và vận hành đều đến từ các quá trình ngẫu nhiên theo thời hạn (ví dụ như số lượt đọc/ghi tài liệu hằng giờ đồng hồ của một sản phẩm trạm, tỷ lệ sử dụng khoáng sản số của một nhân viên bank hằng ngày, số lượt truy cập vào một trang web, hay các giao dịch tín dụng). Việc giám sát và phát hiện dữ liệu bất thường theo thời gian thực chất nhận được người quản lý điều hành kịp thời ngăn chặn và khắc phục các hành vi gian lậu hay phá hoại.
Hình 1: ví dụ như minh họa những điểm phi lý trong quá trình ngẫu nhiên theo thời gian

Bài toán phát hiện phi lý đề cập tới sự việc nhận dạng auto các hiện tượng lạ ngoại lệ được nhúng vào một lượng to dữ liệu bình thường (outlier detection) hoặc không lường trước được xuất hiện thêm theo thời hạn thực (novelty detection) (Hình 1). Trong các quy trình ngẫu nhiên theo thời gian, điểm ngoại lệ (outlier) thường được dùng làm biểu diễn gần như quan sát phi lý chỉ kéo dãn dài trong chốc lát, kế tiếp chuỗi thời gian trở lại bình thường. Điều này có nghĩa là chúng ta đã thu thập được những quan gần kề trong một khoảng thời gian trước với sau điểm ngoại lệ. Bởi vì đó, nó hay được áp dụng cho những bài toán phát hiện điểm bất thường dạng thức ngoại đường (offline detection). Trong bối cảnh tài liệu đến theo thời hạn thực (streaming data), có hai ràng buộc bổ sung đối với việc xây cất mô hình phân phát hiện bất thường là:
Nếu hai yêu ước này được thỏa mãn, phương pháp này được điện thoại tư vấn là phát hiện tại bất sở tại tuyến (Online detection).
Phát hiện bất thường là một trong những chủ đề đầy thách thức, công ty yếu là do khó có đủ kỹ năng và kiến thức và định nghĩa đúng mực của “tính bất thường” vào một sự việc cụ thể, điều này làm giảm kết quả của việc thực hiện những kỹ thuật học tập giám sát. Trong không ít trường hợp, không có định nghĩa chung được giới thiệu cho tính bất thường trước lúc phát hiện. Đồng thời, dữ liệu bất thường được nhúng trong một lượng phệ dữ liệu thông thường là không được để tạo ra một lớp new để rất có thể phân loại. Vì đó, phương thức phát hiện mới, kỳ lạ được định nghĩa cực tốt như một phương pháp học không giám sát, có nghĩa là không tất cả nhãn nào tất cả sẵn và việc phát hiện nay chỉ hoàn toàn có thể dựa trên các thuộc tính nội tại của dữ liệu.
Bất chấp thử thách của nó, trong những năm sát đây, phát hiện không bình thường trở thành một công ty đề ngày càng thu hút nhiều sự thân thương và các kỹ thuật đã có được nghiên cứu, lời khuyên để giải quyết. Các kỹ thuật này đã có được thực nghiệm chứng minh là có tác dụng trong một trong những trường hợp, trong những khi chúng có thể thất bại trong các trường hợp khác. Ví dụ, một số phương thức được xây dựng dựa trên giả định sẽ có những mô hình đúng mực của vấn đề đang xem xét, hoặc trả định đang biết những điều khiếu nại bất thường. đông đảo giả định này thường xuyên không công dụng trong nhân loại thực. Trong một số nghiên cứu vớt khác, phân phát hiện phi lý được hiểu dễ dàng và đơn giản là phát hiện ngoại lệ. Mặc dù nhiên, sự dễ dàng hóa này tạo thành các phương pháp không thể phát hiện ra những mẫu bắt đầu được hình thành bởi các quy trình ngẫu nhiên theo thời gian. Đặc biệt, phương thức phát hiện tính new được đề xuất dựa bên trên một kỹ thuật thứ vector hỗ trợ (Support Vector Machine - SVM), trong đó, một trong những mẫu mới bắt buộc được xác định trước vào tập dữ liệu đã có. Vắt vì sử dụng thuật toán One-class SVM, các cách thức phân nhiều loại bán giám sát và đo lường cũng sẽ được cách tân và phát triển trong đó quy mô được huấn luyện và đào tạo trên một trong những tập mẫu nhỏ đã được gán nhãn bình thường và bất thường, phương thức phân các loại không giám sát cũng rất được sử dụng chất nhận được tính điểm bất thường trong không khí được chiếu. Những tác đưa Nguyen, H.T cùng Thái, NH (2019) sẽ đề xuất phương pháp phát hiện tại điểm không bình thường trong cả kịch bạn dạng ngoại tuyến và trực tuyến, ứng dụng cho cả dữ liệu thời gian và không gian cho các cảm biến không dây. Phương pháp đề xuất được cách tân từ phương thức Hampel, dựa trên ngưỡng (rule-based), có thời gian thực thi rẻ nên có chức năng ứng dụng cho những hệ thống giám sát và đo lường trực tuyến. Mô hình có hạn chế là sử dụng giả định biết trước trưng bày của dữ liệu và là dữ liệu chủ quyền và đồng bộ (IID). Mặc dù nhiên, nếu tài liệu là không dừng (nonstationary), ví dụ như tồn trên các xu hướng hoặc tính thời vụ, thì cách thức này có thể nhận được nhiều tác dụng dương tính mang và/hoặc âm tính giả. Ví dụ, một điểm có thể được coi là bất thường còn nếu như không tính mang đến yếu tố mùa vụ (season) nhưng được xem như là một điểm thông thường nếu xem xét thêm nhân tố mùa vụ. Vị đó, vào kịch bản trực tuyến, việc không có dữ liệu khiến cho việc khẳng định điểm bất thường trở nên phức hợp hơn tương đối nhiều và vẫn luôn là chủ đề phân tích có tính thời sự.
Trong nội dung bài viết này, shop chúng tôi xem xét một quy trình ngẫu nhiên thời hạn rời rộc và lời khuyên một thuật toán phi tham số cách tân từ thuật toán ngưỡng nhằm làm giảm tỷ lệ dương tính đưa (dữ liệu mới bị xem như là điểm bất thường do nằm kế bên ngưỡng cho phép nhưng đã được phản ánh bởi một số trong những ít tài liệu trong quá khứ bao gồm tính mùa vụ) và giảm phần trăm âm tính giả (dữ liệu mới được nhìn nhận là bình thường do phía trong ngưỡng chất nhận được nhưng không được đề đạt bởi tài liệu trong quá khứ). Thuật toán của công ty chúng tôi được tạo thành hai bước. Bước thứ nhất sử dụng thuật toán ngưỡng nhằm tiền phân một số loại điểm dữ liệu mới. Bước thứ hai áp dụng thuật toán phân các để đảm bảo nhãn của điểm tài liệu mới. Bước xác thực này có tác dụng giảm khả năng xảy ra ngụy biện sinh thái (Ecological fallacy). Do đó, làm cho giảm tỷ lệ dương tính đưa và âm tính giả. Những thí nghiệm được tiến hành trên hai cỗ dữ liệu gồm một bộ dữ liệu tự sinh cùng một bộ tài liệu thực mô tả các giao dịch bởi thẻ tín dụng của người tiêu dùng ở châu Âu. Công dụng thực nghiệm chỉ ra rằng, thuật toán khuyến nghị giúp bớt thiểu xứng đáng kể con số dương tính mang và âm tính giả đối với thuật toán ngưỡng. Mô hình và thuật toán đề xuất rất có thể được ứng dụng thoáng rộng trong những hệ thống đo lường và tính toán thông tin giúp các ngân hàng, tổ chức triển khai tài thiết yếu kịp thời vạc hiện các cuộc tiến công hoặc ăn lận trong thực hiện dịch vụ.
Cho một quá trình ngẫu nhiên thời hạn rời rạc thay mặt đại diện bởi χ(t) trong những số ấy t=t0,t1,…,t
Nvà xjlà một trong những quan cạnh bên (các quan liền kề tuần trường đoản cú theo thời hạn rời rốc được call chung là điểm dữ liệu) của vượt trìnhxtại thời điểm tj. Những quan gần kề này hoàn toàn có thể là sự kiện, số lượt đọc/ghi dữ liệu, tỷ lệ sử dụng tài nguyên, ảnh, video, hoặc ngẫu nhiên đối tượng nào được thu thập theo thời gian. Đặt Sn-1=x0,x1,…,xn-1 là 1 mẫu bao hàm toàn bộ quan sát tích lũy được của quá trìnhxtính đến thời điểm tn-1. Tại thời khắc tn, hệ thống đo lường dữ liệu trực tuyến tiếp nhận quan sát mới xn. Hệ thống phân tích tài liệu cần dựa vào mẫu Sn-1đã tích lũy được nhằm phân các loại xnlà điểm bình thường hay phi lý với thời gian thực thi thấp.
Thuật toán ngưỡng (RB) áp dụng tham số ngưỡng để kiểm soát một điểm dữ liệu mới là thông thường (nếu nằm trong vòng cho phép) tuyệt bất thường. Ngưỡng thường xuyên được thực hiện là <μ-3σ, μ+3σ>, trong đó dữ liệu được giả định tuân theo triển lẵm chuẩn, μ là cực hiếm trung bình, σ là phương sai. Ngưỡng này dựa vào quy tắc thực nghiệm được diễn đạt như sau:
Cho X là quan sát từ đổi mới ngẫu nhiên gồm phân phối chuẩn, μ là giá trị trung bình của phân phối và σ là độ lệch chuẩn của nó, xác suất (P) để những giá trị của X nằm trong số khoảng tương xứng là:
P(μ - 1σ ≤ X ≤ μ + 1σ) ≈ 68,27%
P(μ - 2σ ≤ X ≤ μ + 2σ) ≈ 95,45%
P(μ - 3σ ≤ X ≤ μ + 3σ) ≈ 99,73%
Trong triết lý xác suất, bất đẳng thức Chebyshev tổng thể hơn, minh chứng rằng về tối thiểu chỉ 75% giá trị nên nằm trong nhị độ lệch chuẩn chỉnh của giá trị trung bình cùng 88,89% trong tía độ lệch chuẩn chỉnh đối với những phân phối tỷ lệ khác nhau, có nghĩa là áp dụng cho những phân phối phần trăm nói thông thường chứ không chỉ dành riêng cho phân phối chuẩn. Rõ ràng là:
Tuy nhiên, một điểm tài liệu mới hoàn toàn có thể được phân một số loại là bình thường bởi thuật toán ngưỡng (thuộc khoảng chừng <μ-3σ, μ+3σ>) tuy nhiên nó thực thụ có phân bổ khác với những điểm dữ liệu trong lịch sử vẻ vang (âm tính giả), hoặc nó được phân các loại là phi lý nhưng đã từng xảy ra có tính chu kỳ luân hồi (dương tính giả). Lấy ví dụ như minh họa cho những trường đúng theo này được trình bày trong Hình 2.
Hình 2: Minh họa một số trường hợp đại bại của thuật toán ngưỡng

Trong nội dung bài viết này, chúng tôi đề xuất một thuật toán cách tân từ thuật toán ngưỡng new (đặt thương hiệu là CRB) bằng phương pháp sử dụng bất đẳng thức Chebyshev để triển khai ngưỡng chi phí phân một số loại và phối kết hợp thuật toán phân cụm để chuẩn xác nhãn của điểm dữ liệu. Với mục tiêu làm giảm xác suất dương tính trả và âm tính giả, thuật toán phân các được áp dụng để phân chia dữ liệu thành các cụm tất cả tính thay mặt đại diện và xem xét tính gắn kết giữa những quan gần kề trong cụm. Thuật toán k-means được áp dụng để phân nhiều dữ liệu trong các số đó k ≥ m để bảo đảm bán kính béo nhất của những cụm ko vượt vượt một phương không đúng σ. Một cụm có tính đại diện thay mặt là nhiều có con số quan sát buổi tối thiểu nhằm được xem như là có sự mãi mãi của yếu tố mùa vụ. Số lượng quan sát buổi tối thiểu thường được xác minh theo khiếp nghiệm, một giá chỉ trị trong khoảng <3, 5> thường được áp dụng trong phần nhiều các vấn đề. Mức độ gắn kết (d) của các quan gần kề trong các ci có tâm là oi được đo do trung bình của bình phương khoảng cách từ những quan gần kề tới chổ chính giữa cụm:

Với sz(ci) là số lượng quan gần kề được phân vào nhiều ci, ∀i= (1,k). Độ đo này có lợi thế về mặt thời gian đo lường do tử số đã được xem trong quá trình phân cụm vị thuật toán k-means. Quá trình thực thi của thuật toán khuyến nghị được miêu tả trực quan lại trong Hình 3.
Hình 3: Thuật toán CRB phát hiện nay điểm dữ liệu bất thường trong kịch phiên bản trực tuyến

Ở cách tiền phân loại, thuật toán RB được áp dụng để khẳng định phân loại của điểm tài liệu mới. Ngưỡng được xem dựa trên tất cả các điểm dữ liệu lịch sử dân tộc đã tích lũy được (suy luận quần thể). Trường hợp điểm tài liệu mới bên trong ngưỡng mang đến phép, nhãn của điểm dữ liệu này được xác thực là thông thường nếu nó thuộc một cụm có tính đại diện. Bước xác thực này làm giảm kĩ năng xảy ra âm tính giả. Nếu điểm tài liệu mới nằm kế bên ngưỡng mang lại phép, nó chỉ thực sự là điểm bất hay khi thêm nó vào cụm sớm nhất sẽ làm sút mức độ kết nối tối thiểu của các cụm sẽ có. Bước chứng thực này làm cho giảm khả năng xảy ra dương tính giả. Việc phối kết hợp thuật toán ngưỡng (đóng phương châm suy luận dựa vào quần thể) và thuật toán phân nhiều (suy luận dựa trên cụm cá thể) giúp làm giảm nguy cơ tiềm ẩn xảy ra ngụy biện sinh thái.
Bài toán phạt hiện kì cục (Anomaly Detection) xuất xắc phát hiện tại điểm nước ngoài lai (Outlier) là một trong những dạng câu hỏi tìm những bạn dạng ghi, hoặc đều điểm quan lại sát bao gồm biểu hiện khác biệt rõ rệt đối với phần dữ liệu còn sót lại hoặc khác với quy phương pháp của tài liệu bình thường. Những điểm không bình thường này hay được điện thoại tư vấn là: điểm ngoại lai, nhiễu, không đúng số hoặc các ngoại lê.
Trong nhân loại của hệ thống phân tán và tài liệu lớn, việc theo dõi và quản lý hệ thống là tối quan trọng. Với hàng trăm ngàn đến mặt hàng ngàn phiên bản ghi rất cần được theo dõi, bài toán phát hiện tại bất thường có thể chỉ ra các chỗ bị không nên trong dữ liệu, điều hành và kiểm soát nhiễu loạn trong hệ thống. Trường đoản cú đó chúng ta cũng có thể cảnh báo cho các bên tương quan để phân tích nguyên nhân và tìm chiến thuật xử lý vấn đề.
1. Vai trò của bài xích toán
Khi so với dữ liệu, những dữ liệu bất thường thường gây nên cản trở vấn đề đưa ra đánh giá và dự đoán. Trong vô số nhiều trường hợp, các điểm không bình thường thường là dấu hiệu của một vụ việc nghiêm trọng đã diễn ra, rất có thể gây thiệt hại khủng và có thể tốn rất nhiều thời gian công sức để sửa chữa. Cũng chính vì vậy, việc phát hiện không bình thường giúp tránh khỏi những khủng hoảng không xứng đáng có có thể gây thiệt hại khủng về may mắn tài lộc và công sức; đôi khi giúp gửi ra những quyết định kế hoạch và phát triển đúng chuẩn hơn và tác dụng hơn. Ví dụ: đơn vị điện lực vẫn theo dõi nhằm mục đích phát hiện phi lý trong chỉ số tổng hợp của công tơ tự đó xác định công tơ hỏng/lỗi hoặc xác định hành vi trộm cắp điện để tiến hành kiểm tra. Hoặc bank khi phạt hiện không bình thường trong giao dịch thanh toán thẻ tín dụng rất có thể từ chối thanh toán giao dịch đó để đảm bảo an toàn quyền lợi của chúng ta và duy trì được đáng tin tưởng của ngân hàng. Bắt lại, câu hỏi phát hiện và xử lý không bình thường đóng vai trò đặc biệt trong việc vận hành kinh doanh, nghiệp vụ của các tập đoàn, tổ chức.
Tuy nhiên trong một vài trường hợp, việc lộ diện các bất thường không phải đã là một trong điều gì đấy tiêu cực. Có thể đó là dấu hiệu một điều gì đấy mới đang xuất hiện thêm và bài toán phát hiện tại ra hoàn toàn có thể giúp chuyển đổi nhận định về một vấn đề hoặc giúp bọn họ phát triển những phát minh mới. (Một mẩu truyện về phi lý dẫn mang lại phát hiện mới: trong cấu trúc tinh thể, các nhà khoa học vẫn thường nhận định rằng tinh thể có cấu tạo đối xứng, bởi vì vậy thường bác bỏ bỏ những công dụng hay kim chỉ nan về sựgiả tinh thể.Tuy nhiên, nhà công nghệ Dan Schetchman sẽ phát chỉ ra cấu trúcgiả tinh thểbất hay này của kim loại tổng hợp Nhôm-Mangan. Ông đang không dám công bố phát hiện của chính bản thân mình trong hai năm vì sợ hãi phản ứng từ xã hội khoa học cùng đi ngược lại sách vở! nhưng lại sau đó, ông đã ra mắt công trình với đã được trao giải Nobel năm 2011. Trong tương lai các nhà khoa học đã phát hiện nay ra các loại cấu trúc giả tinh thể không giống <1>)
Trong những công ty và tập đoàn lớn về IT, phát hiện không bình thường được sử dụng cho các mục đích:
Làm sạch mát dữ liệu, loại bỏ các nhiễu đụng hoặc dữ liệu bị sai: các dữ liệu thường cạnh tranh tránh khỏi gồm nhiễu cồn hoặc không nên sót. Vấn đề phát hiện và thay thế sửa chữa các sai sót với nhiễu đụng này vào khoa học dữ liệu đóng vai trò then chốt trong việc xây dựng và quản lý hệ thống dữ liệu. Xa hơn là nó rất có thể giúp đưa ra những ra quyết định và chiến lược dựa trên dữ liệu một cách chính xác và hiệu quảPhát hiện tại xâm nhập từ bên ngoài vào trong hệ thống: Để phát hiện ra đông đảo malware, trojans, virus, … đột nhập vào khối hệ thống đánh cắp dữ liệu, hoặc xác minh một cuộc tấn công mạng vào hệ thống.Phát hiện giả mạo: Được vận dụng trong các khối hệ thống tài thiết yếu ngân hàng, dùng để phát hiện những giao dịch lừa hòn đảo giả mạo
Phát hiện bất thường trong y tế / chăm sóc sức khỏe: phần đa hình ảnh hoặc các chỉ số bất thường rất có thể là tín hiệu của một bệnh tật hoặc ung thư



3. Cách thức xác định bất thường
Việc khẳng định các các loại bất thường rất có thể dùng cho những cách thức sau đây:
3.1. Phương pháp giám sát (Supervised Learning)
Ý tưởng chính: Dùng mô hình phân loại cho các điểm thông thường và không bình thường đã được tấn công nhãn, với dùng quy mô này nhằm phân các loại những tài liệu mới không được phân loại. Các quy mô phân các loại này rất có thể xử lý giỏi trong hồ hết trường đúng theo tỉ lệ không bình thường / bình thường bị lệch lớn.
Kỹ thuật này đòi hỏi phải bao gồm hiểu biết lẫn cả về dữ liệu thông thường và phi lý để có thể xây dựng mô hình phân nhiều loại để phân biệt những điểm bình thường và bất thường.
Có những loại phương thức giám cạnh bên chính:
Theo bộ quy tắc đã tất cả (rule-based): Tùy vào kinh nghiệm và nhiệm vụ của nghành nghề cần xúc tiến bài toán phát hiện nay bất thường, một bộ những quy tắc cùng điều kiện hoàn toàn có thể được hình thành để phát chỉ ra bất thường. Phương pháp làm này còn có nhược điểm là nếu có những bất thường không bên trong khuôn khổ nguyên tắc thì không phát hiện ra được, và cỗ quy tắc này cần được tiếp tục cập nhật. Hơn nữa, trong nhiều trường hợp, các phương thức rule-based thường xuyên có hiệu quả không cao.Theo mô hình mạng neuron (Neural Network): quy mô Neural network / học sâu tương đối thịnh hành trong các bài toán áp dụng máy học cùng phân loại.Mạng Bayesian (Bayesian network): Đây là mô hình xác suất tường minh, thường xuyên được mô tả là một đồ thị G (thường là đồ thị không tồn tại chu trình và có hướng), chứa các node và đường mô tả sự phụ thuộc giữa các tham biến với nhau, cùng sự phụ thuộc vào giữa các tham thay đổi được thể hiện định lượng vì chưng phân bố phần trăm có đk giữa chúng. Ví dụ thứ thị sau mô tả mối quan hệ giữa các biến a (thu nhập), b (khoản vay), c (thanh toán), d (mức độ an toàn) và e (vay bất động sản nhà đất hoặc vay khác)Các thuật toán phân loại, ví dụ điển hình SVM, Random
Forest, …
3.2. Phương thức không giám sát(Unsupervised Learning)
Đây là phương thức thông dụng độc nhất vô nhị để khẳng định bất thường. Ta không cần phải đánh nhãn để xác định bất thường xuyên khi phát hành mô hình. Yếu điểm của phương pháp này là không sáng tỏ được những dữ liệu nào mới là không bình thường thực sự, và rất có thể bắt cả những tài liệu không bất thường. Kỹ thuật này nhìn tổng thể sẽ có công dụng không đúng chuẩn bằng các cách thức có giám sát.Phương pháp xác minh bất thường không giám sát dùng các phương thức sau:
Rừng cô lập: phụ thuộc thuật toán Random Forest, một Isolation Forest đang xử lý rất nhiều tập hợp nhỏ dại dữ liệu được lấy chủng loại ngẫu nhiên theo dạng cây dựa vào một cỗ tham trở nên ngẫu nhiên. Những mẫu tài liệu sâu rộng ở trong cây đã ít có chức năng là bất thường cũng chính vì chúng phải nhiều lần giảm hơn từ cây. Tựa như như vậy, từ mọi nhánh ngắn thêm một đoạn sẽ phát hiển thị được phần đa điểm bất thường, bởi cây rất có thể phân biệt bọn chúng dễ dàngLocal Outlier Factor (thừa số không bình thường địa phương): Sự lệch khỏi phân bổ địa phương của một điểm tài liệu nào đó so với phần đông dữ liệu sát bên là vệt hiệu cho thấy sự bất thường. Thuật toán này khẳng định mẫu bất thường nhờ vào mật độ thấp hơn rõ rệt so với tỷ lệ các dữ liệu sát bên của chúng
Khoảng phương pháp Mahalanobis: Đây là một cách thức đơn giản, và rất hiệu quả trong những bài toán phân phát hiện phi lý mà chỉ có một loại tài liệu và dữ liệu bị mất cân bằng lớn. Khoảng cách Mahalanobis của những điểm tài liệu từ điểm trung tâm hoàn toàn có thể được vẽ như hình bên dưới đây. Các điểm có khoảng cách Mahalanobis càng bự thì càng có công dụng là các điểm bất thường
Auto-encoders:Auto-encoder là một quy mô mô tả mạng neuron theo dạng đặc trưng của neural network đấy. Sau khi được huấn luyện mô hình, mỗi một điểm của tài liệu sẽ được đặc thù bởi một bộ biến số trong không khí encode. Phương pháp hành xử của dữ liệu bình thường có thể được tế bào tả thông qua các tham đổi mới trong không khí encode này. Nếu bao gồm điểm dữ liệu bất thường, thì cỗ tham biến đổi trong không khí encode quan yếu encode điểm đấy được, dẫn tới sự việc xây dựng lại điểm tài liệu đó không thiết yếu xác, giúp ta xác định bất hay trong tế bào hình.
Ứng dụng của VAE (Variational auto Encoder) trong việc phân tích hình ảnh chụp não để phát hiện khối u phi lý <1>
Phân các K-means:Thuật toán k-means dựa trên ý chủ yếu như sau: 1/ Chọn K điểm ngẫu nhiên làm các tâm ban đầu. 2/ Phân từng điểm tài liệu vào cluster tất cả tâm ngay gần nó nhất. 3/ update tâm đến từng cluster bằng phương pháp lấy trung bình cùng của tất các các điểm tài liệu đã được gán vào cluster đó sau bước 2. Ta tái diễn bước này mang đến khi việc gán tài liệu vào từng cluster không biến đổi so cùng với vòng lặp trước nó thì ta dừng.
Để áp dụng k-means phát hiện nay bất thường, ta rất có thể biểu diễn phân bổ của các khoảng cách từ các điểm tới trọng điểm trên 1 histograms, và sử dụng cách thức tính z-scores để phát hiện không bình thường (hoặc các phương thức phát hiện phi lý khác thực hiện thống kê như Inner Quantile Range)
3.3. Cách thức bán đo lường và thống kê (Semi-supervised learning)
Là sự phối kết hợp giữa hai cách thức giám gần kề và không giám sát. Trong số đó phần dữ liệu được lọc ra vì chưng kỹ thuật không tính toán sẽ bởi các chuyên viên (các nghệ thuật viên, nhân viên) sẽ đo lường và tính toán để chỉnh lại hồ hết điểm phi lý / ko bất thường, do vậy mà phương thức này kha khá chính xác. Phương pháp nàycần phát âm biết về dữ liệu thông thường để rất có thể đưa ra quy mô học những cách hành xử của dữ liệu bình thường, bất kỳ dữ liệu nào vượt kế bên ngưỡng của không ít dữ liệu bình thường sẽ được xem là bất thường.
4. Phát hiện bất thường giao dịch thanh toán thẻ tín dụng thanh toán với Brightics AI
Để minh họa cho việc phát hiện tại bất thường, chúng tôi sẽ sử dụng bộ dữ liệu thanh toán giao dịch thẻ tín dụng thanh toán trên Kaggle:
Bộ tài liệu chứa những giao dịch được thực hiện bằng thẻ tín dụng thanh toán vào 2 ngày trong tháng 9 năm trước đó bởi chủ thẻ làm việc Châu Âu. Trong các số ấy có 492 vụ ăn gian được phát hiện trong tổng thể 284.807 giao dịch. Rất có thể thấy đấy là bộ dữ liệu rất mất cân bằng, do số lượng giao dịch lừa đảo chỉ chiếm khoảng 0,172% trong tất cả các giao dịch.
Do vấn đề bảo mật thông tin nên Kaggle không tiết lộ bộ dữ liệu gốc, nhưng sử dụng biến hóa PCA để lấy ra 28 biến new là: V1, V2, … V28 (đây là những thành phần chính đã có được sau biến hóa PCA). Ngoại trừ ra, đổi mới ‘Time’ cùng ‘Amount’ không qua trở thành đổi. Biến hóa ‘Thời gian’ biểu hiện số giây đang trôi qua giữa mỗi giao dịch so cùng với giao dịch đầu tiên trong tập dữ liệu. Phát triển thành ‘Amount’ là số tiền giao dịch. Biến phải dữ đoán là biến hóa “Class”, dìm giá trị 1 trong trường hợp gian lậu hoặc 0 nếu như ngược lại.
Đặc biệt, trong bài viết này cửa hàng chúng tôi sử dụng Brightics AI để khai phá và xây dựng quy mô dự đoán cho tập tài liệu này. Brightics AI, được xây dựng bởi vì Samsung, là căn cơ phân tích dữ liệu đã trở đề nghị rất thân quen thuôc trong xã hội làm dữ liệu tại Hàn Quốc. Nó cung ứng rất những function (hàm) gồm sẵn cho phép người dùng làm việc trọn vẹn với tài liệu từ: khai phá dữ liệu (EDA), trích chọn đặc thù (feature engineering), giảng dạy & kiểm định mô hình, trực quan lại hóa cùng xuất báo cáo, vv ko kể ra, brightics có phiên bản Brightics Studio miễn giá tiền (ít tác dụng hơn Brightics AI), chúng ta cũng có thể tải Brightics Studio để dùng thử tại link sau:https://github.com/brightics/studio/releases/tag/v1.2-2021.09
4.1. Phân tích khai thác dữ liệu (EDA)
Chúng ta thuộc xem qua một vài bản ghi trong tập tài liệu credit card:
Dữ liệu đã được chuẩn hóa phải không gặp gỡ trình trạng thiếu tài liệu (missing value). Ta có thể xem rõ ràng thông tin của từng thay đổi một, ví dụ như biến V1 sau đây:
4.2. Sàng lọc feature (Feature selection)
Vì số lượng biến trong cỗ dữ liệu tương đối nhiều nên bọn họ sẽ bắt buộc xem liệu tất cả biến nào không hỗ trợ phân biệt giao dịch bình thường & ăn gian thì bọn họ sẽ một số loại ra trước lúc đưa vào mô hình. Họ sẽ thực hiện kiểm định p-value. đối chiếu giữa 2 class. đưa thuyết của kiểm tra này là:Ho: là trung bình tổng thể và toàn diện (theo một biến nào đó: V1, V2,..) của nhị nhóm bất thường và bình thường là bởi nhau; tức là biến sẽ xét không giúp phân biệt thanh toán giao dịch bất thường.
H1: là mức độ vừa phải 2 toàn diện và tổng thể khác nhau.
Độ tin cậy: 95%. Mức ý nghĩa 0.05
Thực hiện kiểm tra này với tất cả các biến, tác dụng trả về như sau:
VD với kết quả trên:
+ trở nên V6, V7 tất cả p-value bác bỏ bỏ H0, công nhận H1. 2 biến này có chân thành và ý nghĩa thống kê giúp sáng tỏ 2 nhiều loại giao dịch
+ đổi thay V8, p-value dao động 0.06 > mức chân thành và ý nghĩa => không đủ đại lý để bác bỏ H0. Vậy ta thừa nhận H0 với độ tin yêu 95%. Vậy vươn lên là V8 không hỗ trợ phân biệt 2 loại thanh toán nên ta đang loại trở nên này ra.
Lần lượt xem hiệu quả của từng biến, ta sẽ loại được các biến V8, V15, V22, V23, V25, V26.
4.3 thể nghiệm một số quy mô và so sánh kết quả
(1) mô hình có giám sátChia tập dữ liệu thành bộ huấn luyện và bộ kiểm định theo tỷ lệ 7:3. Brightics cung ứng sẵn các hàm để phân chia dữ liệu, huấn luyện mô hình và nhận xét mô hình. Ở đây shop chúng tôi sẽ thí nghiệm với 2 quy mô là Random Forest với XGBoost. Công dụng của nhị mô hình như sau:
Kết quả quy mô XGBoost(2) mô hình không giám sát
Chúng tôi sẽ sử dụng quy mô Isolation Forest nhì lần với tài liệu thuộc nhóm bình thường và tài liệu thuộc nhóm bất thường
Kết quả thật sau:
Độ đúng đắn của nhóm giao dịch thanh toán bình thường: 0.89999 (tức là bao gồm 89,99% giao dịch thông thường được tế bào hình khu vực vào nhóm bình thường, còn lại mô hình nhận diện là vấn đề bất thường)Độ đúng đắn khi chạy quy mô với nhóm giao dịch thanh toán gian lận: 0,9024 (tức là gồm 90,24% thanh toán giao dịch bất thường xuyên được mô hình nhận diện là giao dịch bất thường)(3)Kết luận:Nhìn chung, tác dụng khi sử dụng Isolation Forest sẽ kém rộng 2 quy mô có giám sát và đo lường bên trên
Cùng chú ý lại toàn thể luồng thao tác làm việc của Brightics. Tổng thời hạn chạy toàn cục luồng, từ hàm tải tài liệu đến lúc có kết quả của các quy mô là 2 phút.
Xem thêm: Phân tích kết quả - khí máu động mạch
Trong thực tế, nếu được huấn luyện và giảng dạy đầy đủ, mô hình có giám sát luôn trả về hiệu quả có độ đúng mực cao rộng là quy mô không giám sát. Mặc dù nhiên, nếu tình hình dữ liệu không cho phép, quy mô không tính toán nên được áp dụng, sau đó áp dụng mô hình có đo lường sau khi tất cả thêm dữ liệu đầy đủ.
Tài liệu tham khảo:
1:https://en.wikipedia.org/wiki/Quasicrystal
2: Unsupervised Brain Anomaly Detection and Segmentation with Transformers
Walter Hugo Lopez Pinaya, Petru-Daniel Tudosiu, Robert Gray, Geraint Rees, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso