Przeciek danych

Informacja z próby testowej przecieka do treningu i sztucznie podbija wynik.

Najczęstsze drogi przecieku to normalizacja liczona na całym zbiorze naraz, cechy zbudowane z okna sięgającego w przyszłość oraz dobór parametrów na pełnych danych. Look-ahead bias i przeciek danych częściowo się pokrywają: w obu test korzysta z czegoś, czego na żywo by nie było.

Powiązane pojęcia

  • Look-ahead bias
  • Walidacja krzyżowa
  • Próba treningowa/testowa