Vissza

6-lépéses kézikönyv adattisztításhoz

  Kata Rozmis

  2018.01.24. 11:08

A legtöbb üzleti analitikai projekt első akadályozó tényezője az adatok minőségének nem-megfelelősége. Hiába képezzük magunkat az elemző eszközök használatára, hiába győzzük meg a menedzsmentet egy tökéletesen kivitelezett mintaprojekttel, és hiába állítjuk magunk mellé a munkatársakat egy jól felépített stratégiával, ha az üzleti adatok, amiket elemezni szeretnénk nem elég “tiszták” ahhoz, hogy értékes elemzéseket lehessen belőlük készíteni.

Miért olyan fontos?

Ha jobban belegondolunk a szervezet napi működése során minden területen nagyon egyszerű “koszos” adatokat gyártani – sajnos sokkal egyszerűbb, mint jó minőségű adatforrásokat létrehozni. Vegyük például azt az esetet, ha egy adott megnevezést (projektnév, tárgyi eszköz, munkakör, feladatkategória, stb.) két munkatárs különbözőféleképpen rögzít, vagy esetleg ketten is felviszik a rendszerbe ugyanazt az adatsort, máris félrevezető lehet egy elemzés szempontjából.

pepper-3061211_1280

A vállalat munkatársai számára jelentéktelennek tűnhet egy-egy ilyen “hiba”, viszont mind a monitorozás, mind a kritikus területek megfigyelése – a döntés-előkészítésről nem is beszélve – nagy hátrányt szenvedhet, ha nem tudunk tiszta adatokból dolgozni.

Ennek ellenére nagyon nehéz meggyőzni a szervezetet és annak döntéshozóit arról, hogy az adattisztításba, és az adatminőség fenntartásába fektetett energia valóban megéri. Hiszen a már a rendszerekben található adatokat ellenőrizni nem kis feladat, a továbbiakban pedig betartani az adattisztaság érdekében bevezetett szabályokat felesleges procedúrának tűnhet mások számára. Hogy hogyan győzzük meg mégis mindenkit arról, hogy erre valóban szükség van, abban segítségünkre lehet Gahl Berkooz (aki jelenleg a General Motors analitikai üzletágának vezetője) cikke, amiben konkrét, kidolgozott javaslatokat találunk ezekre az esetekre. Olyanokat, mint például “az alacsony minőségű adat veszteséget termel az üzleti oldalon” vagy a “jó minőségű adatok csökkentik az IT projektek költségét”.

Az adattisztítás kulcsszavai

Amikor az adatok tisztaságáról van szó, két fogalmat érdemes elkülönítenünk: érvényesség és megbízhatóság. Mielőtt megnéznénk, hogyan néz ki egy adattisztítás projekt lépésről lépésre, ejtsünk néhány szót erről a két dologról. Mindkettő fontos, hiszen ezek nélkül az adatok elemzése során kinyert információ nem lehet hiteles, úgy pedig hogyan támaszkodhatnánk az eredményekre.

appetite-1239056_1280

Az érvényesség azt jelenti, hogy az adatok éppen azt mérik, amit szeretnénk, hogy mérjenek – vagy még inkább az elemzésünk kimenetele szempontjából megfelelően mérik az elemzendő területeket. Ebben az adatminőség-ellenőrzés szekcióban olyan dolgokat kell vizsgálnunk, hogy például a projektek során használt támogató eszközöket minden projekt alatt és minden projekttag feltölti-e az aktuális információkkal, vagy vannak olyan szignifikáns kivételek, amik hatással lehetnek a teljes adatmennyiség elemzésének végeredményére (mondjuk a kevésbé fontosnak ítélt projekteket, feladatokat nem rögzítik írásban, mert felesleges munkának érzik).

Vagy gondoljunk olyan egyszerű érvényesség-vizsgálatra, amikor ellenőrizzük, hogy az adatok az egész céget lefedik-e, esetleg a szervezeti egységekből megfelelő súllyal vannak jelen adott elemzésekhez. Az érvényesség-vizsgálat elvégzésére nincsen általános módszer – mindig az adott elemzési projekthez kell körültekintően megválasztani az ellenőrzendő tényezőket a munka megkezdése előtt. A cél, hogy az elkészülő elemzések által mutatott eredmények ugyanazt a területet fedjék le, mint a mérőszámok, amiket felhasználtunk.
Néhány kérdés, ami segíthet az érvényesség vizsgálatában:

  • Az adatok arról szólnak, amit mérni akarunk?
  • Torzíthatja valamilyen tényező az összegyűjtött adatokat?
  • Az adatok összegyűjtése világos és következetes volt?
  • Vannak kiugró értékek? Ha igen, mi ennek az oka?

spices-541974_1280

megbízhatóság azt jelenti, hogy az elemzésünkhöz szükséges mérőszámok minden esetben ugyanazt mérik – ugyanazt az elemzést többször vagy mások által elvégezve joggal várjuk el, hogy az eredmény minden esetben ugyanarról szóljon. A monitoring területén ennek különösen nagy jelentősége van, hiszen csak akkor van értelme időről időre vizsgálni a számunkra fontos mérőszámokat, ha az eredményünk megbízható adatokra épül, így összehasonlítható a korábbi értékekkel. Sőt, más szervezeti egységek ugyanezen adatokra épülő elemzéseivel is.

Az adat alapú működéssel éppen azt próbáljuk elkerülni, hogy ha mást kérdezünk meg ugyanarról az információról, más nézőpontból kapjunk választ. Az adatvezérelt modellek bevezetésének egyik legfontosabb célja, hogy mindenki ugyanabból az adatforrásból készíthesse el a riportjait. Így nem kerülünk azokba a feloldhatatlan konfliktusokba, amikor a döntéstámogatók miatt döntésképtelen a menedzsment – mert nem tudjuk, hogy ki dolgozott a legfrissebb, legteljesebb, legjobb “adatokból”. Hiába készült fel minden érintett maximálisan, ha meginog a felhasznált adatokba vetett bizalom. Márpedig ez könnyen előfordul, ha például a pénzügy és a HR riportjaiban különböző dolgozói létszám szerepel ugyanazon a napon, mert a különböző területeken másként értelmezik ezt a fogalmat.
A kérdések, amik segíthetnek megvizsgálni, hogy az adataink megbízhatóak-e:

  • Ugyanazokat az eredményeket kapjuk, ha pontosan ugyanazt az elemzést többször egymás után elvégezzük?
  • Az adatgyűjtés folyamata egyértelműen dokumentálva van?
  • Minden elemzés készítésekor ugyanazon folyamat lépésein keresztül jutunk az adatokhoz?

Adattisztítás projekt checklist

Ahhoz, hogy elkezdhessünk egy ilyen projektet, nem lesz elég megmutatnunk a fontosságát, és leellenőriznünk az adatok érvényességét és hitelességét. Nagyon sok további kritérium van még, aminek az adatoknak meg kell felelnie – vegyünk egy olyan egyszerű példát, hogy az adatoknak frissnek kell lennie ahhoz, hogy adott időszakra releváns eredményeket tudjunk bemutatni. Vagy gondoljunk a hiányzó adatok kérdésére. Vannak elemzések, ahol nem okoz gondot, ha nincsen minden sorhoz adat a rendszerben, de előfordulhat, hogy nagy jelentősége van mondjuk annak, ha hiányzó elemeket figyelmen kívül hagyunk a következtetés levonásakor. Sokszor a hiányzó adatok vizsgálatával is új “felfedezéseket” tehetünk. Kiderülhet például, hogy egyes szervezeti egységeknél adott információk azért nincsenek kitöltve, mert egy elavult verzióját használják az adminisztrációs rendszernek, ahol ezek a sorok nem szerepelnek.

shopping-list-2044706_1280

Abban, hogy minden szempontot megvizsgáljunk, amikor új elemzést kezdünk, segíthet az alábbi lista. Természetesen tovább bővíthetnénk a pontokat, de az alapvető hibák ezzel felszínre kerülnek. Ezután pedig akár mélyebben is foglalkozhatunk ezekkel, hogy az adatminőség az elemzés megkezdése előtt a legközelebb álljon a tökéleteshez.

 

  1. Az adatok naprakészek.
  2. Egyedi értékek nem szerepelnek többször – ha valaki például több projekten dolgozik egyszerre, a neve nem szerepel többször abban a listában, aminek alapján az összes, projekteken dolgozó kolléga létszámát vizsgáljuk.
  3. Az ugyanarra vonatkozó megnevezések minden felhasználandó adatforrásban megegyeznek – projektnevek, munkakörök, státuszok, stb.
  4. A hiányzó értékekkel tisztában vagyunk – tudjuk, hogy értelmezhető-e nélkülük az elemzés; kezeljük az általuk hordozott információt.
  5. Ismerjük és kezeljük a kiugró értékeket – még az elemzés elkezdése előtt érdemes megvizsgálnunk, hogy vannak-e olyan kiugró értékek az adatok között, amik nem értelmezhetőek, vagy legalábbis felülvizsgálandók az adatgazda által (pl. kiugró bevétel adott 1 db számlán, két számjegyű fizetés, stb. ). Ha ezek az értékek viszont helyesnek bizonyulnak, jó alapot szolgáltathatnak az elemzés elkezdéséhez.
  6. Az adatbevitel helyességét ellenőriztük – egyértelműen hibás egy munkavállalók nemét tartalmazó oszlopban a megadott kategóriákon kívüli érték. Dönteni kell ilyen esetekben arról, hogy a hibás adatok figyelmen kívül hagyása befolyásolja-e az elemzésünk eredményét.

A lista használatával, és a fentiek ismeretében remélem mindenkinek egyszerűbbé válik az adatelemzési projektek elkezdése. Sok sikert!
Ha kérdésetek, észrevételetek van a témában, vagy segítségre van szükségetek egy-egy analitika projekthez vagy akár az egész szervezetet átfogó adat-vezéreltté válásban, írjatok bátran kommentet, vagy keressetek privátban az oldal alján található elérhetőségeimen.

A cikk elkészítéséhez Erik Van Vulpen írásából merítettem, az alábbi infógrafikát is az ő blogjából hoztam ide.

HR-Data-Cleaning-Checklist


   

Megjegyzések
Még nincsenek hozzászólások. Légy első!

Blog kategória

Címkefelhő

Legutóbbi bloggerek

Tibor Sánta
Bejegyzések: 3
Csillagok: 2
Dátum: 2019.01.07.
Zsolt Hajnalka
Bejegyzések: 5
Csillagok: 5
Dátum: 2018.12.03.
Tamás Molnár
Bejegyzések: 6
Csillagok: 10
Dátum: 2018.11.19.
György Retek
Bejegyzések: 10
Csillagok: 18
Dátum: 2018.11.05.
Kata Rozmis
Bejegyzések: 16
Csillagok: 15
Dátum: 2018.05.11.

Kapcsolat