Definice a příklad vyhlazení dat
Obsah:
Co je to:
Vyhlazování dat je statistická technika, která zahrnuje odstranění odlehlých hodnot z datové sady
Jak to funguje (Příklad):
Řekněme například, že univerzita analyzuje data z trestné činnosti za posledních 10 let. Počet násilných zločinů vypadá takto:
Jak vidíte, většinu času univerzita zažívá méně než 15 trestných činů ročně. Nicméně v letech 2006 a 2007 zaznamenalo 44 lidí kvůli experimentálním požadavkům na hlášení ze strany týmu pro veřejnou bezpečnost univerzity. Zpravodajský experiment změnil definici násilné trestné činnosti tak, aby zahrnoval krádeže jakéhokoliv druhu během těchto let, což způsobilo velký nárůst počtu "násilných" zločinů na areálu. Zahrneme-li tyto roky do průměru - to znamená, pokud uděláme nějaké vyhlazování dat - univerzita zažila v průměru zhruba 19 násilných trestných činů ročně. Pokud však opustíme tyto roky, můžeme vidět, že reálnějším průměrem je 13 násilných trestných činů ročně - 32% rozdíl.
Proč to záleží:
Existuje mnoho způsobů, jak uklidnit data, průměry a algoritmy. Myšlenka spočívá v tom, že vyhlazení dat činí vzory více viditelné, a tím pomáhá předpovídat změny cen akcií, trendy zákazníků nebo jakékoliv jiné obchodní informace. Nicméně vyhlazování dat může přehlédnout klíčové informace nebo snížit viditelnost důležitých skutečností; jinými slovy, "zaokrouhlení okrajů" dat může značně zvýraznit některé údaje a ignorovat jiná data.