Precision and Recall for Time Series

time-series
anomaly-detection

#1

Precision and Recall for Time Series

Authors:Nesime Tatbul, Tae Jun Lee, Stan Zdonik, Mejbah Alam, Justin Gottschlich

(Submitted on 8 Mar 2018 (v1), last revised 2 Jan 2019 (this version, v3))

Abstract: Classical anomaly detection is principally concerned with point-based anomalies, those anomalies that occur at a single point in time. Yet, many real-world anomalies are range-based, meaning they occur over a period of time. Motivated by this observation, we present a new mathematical model to evaluate the accuracy of time series classification algorithms. Our model expands the well-known Precision and Recall metrics to measure ranges, while simultaneously enabling customization support for domain-specific preferences.

Comments:

11 pages, 32nd Conference on Neural Information Processing Systems (NeurIPS 2018), Montreal, Canada

Subjects:

Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

Cite as:

arXiv:1803.03639 [cs.LG]

(or arXiv:1803.03639v3 [cs.LG] for this version)


#2

Đóng góp chính:

Định nghĩa lại công thức Precision và Recall.

Tại sai lại phải định nghĩa lại

Trước hết, chúng ta hãy xem lại công thức Precision và Recall cổ điển:

Precision =\frac{T P}{T P+F P} và Recall =\frac{T P}{T P+F N}

Ở 2 công thức trên, chúng ta chỉ đơn thuần đi đếm số TP, FP, FN trên tập real condition và tập predicted condition dựa trên point-based data, tức là xem xét các điểm trên là các điểm độc lập và không có liên hệ gì với nhau. Trong khi đó với bài toán time series, dữ liệu ở cả 2 tập real và predicted conditionrange-based data nên ta cần xem xét thêm các yếu tố khác như:

  • Thứ tự của các điểm anomalies trong 2 tập này
  • Vị trị các các điểm trong các tập overlaps của 2 tập này.
  • Độ rộng của tập overlaps của 2 tập này.

Các tính chất trên hoàn toàn không được thể hiện ở 2 công thức Precision và Recall cổ điển. Vì vậy, chúng ta cần một công thức mới để định nghĩa lại Precision và Recall cho bài toán Anomalies detections với Time Series

Công thức mới như sau

Giới thiệu một vài ký hiệu:
Biểu tượng Ý nghĩa
R, R_i Tập hợp các cụm real anomalies, cụm real anomaly thứ i
P, P_i Tập hợp các cụm predicted anomalies, cụm predicted anomaly thứ i
N, N_r, N_p Tổng só các điểm, r --> real, p --> predicted
α số thực
\gamma(), \omega(), \delta() 3 hàm số
Công thức Recall cho range-based data

\operatorname{Recall}_{T}(R, P)=\frac{\sum_{i=1}^{N_{r}} \operatorname{Recall}_{T}\left(R_{i}, P\right)}{N_{r}}

Trong đó

\operatorname{Recall}_{T}\left(R_{i}, P\right)=\alpha \times \text {Existence} \text {Reward}\left(R_{i}, P\right)+(1-\alpha) \times \text {OverlapReward}\left(R_{i}, P\right)

\operatorname{ExistenceReward}\left(R_{i}, P\right)=\left\{\begin{array}{l}{1, \text { if } \sum_{j=1}^{N_{p}}\left|R_{i} \cap P_{j}\right| \geq 1} \\ {0, \text { otherwise }}\end{array}\right.

OverlapReward \left(R_{i}, P\right)= Cardinality Factor \left(R_{i}, P\right) \times \sum_{j=1}^{N_{p}} \omega\left(R_{i}, R_{i} \cap P_{j}, \delta\right)

CardinalityFactor\left(R_{i}, P\right)=\left\{\begin{array}{ll}{1} & {, \text { if } R_{i} \text { overlaps with at most one } P_{j} \in P} \\ {\gamma\left(R_{i}, P\right), \text { otherwise }}\end{array}\right.

Trên đây là giới thiệu cơ bản, chi tiết hơn về biến số \alpha, các hàm số \gamma, \omega, \delta cũng như cách tính Precision và ý nghĩa của từng công thức các bạn có thể tham khảo ở bài báo gốc hoặc bản tóm tắt ở slide của mình và chúng ta có thể cùng nhau trao đổi thêm dưới post này.

Cám ơn các bạn đã đọc.