ManagementMania AppMania EduMania JobMania BusinessPages


  Citovat
Co je Čištění dat (Data cleansing)
Čištění dat je proces oprav, úprav a mazání dat, která jsou nesprávná, neúplná nebo duplikovaná. Čištění může být jednorázové nebo může být prováděno průběžně.

Čištění dat (anglicky Data Cleansing) je proces oprav, úprav a mazání dat, která jsou nesprávná, neúplná nebo duplikovaná. Čištění může být jednorázové nebo může být prováděno průběžně. Stejně tak ho můžeme dělat buď ručně nebo prostřednictvím různých softwarových nástrojů. Ideální je čištění provádět co nejblíže zdroji, kde jsou data pořizována - a to jak z pohledu technického (místního, čili ve zdrojovém systému), tak časového. Čím později jsou data čištěna, tím více se bude akumulovat znečištění zbytku informačního systému. Cílem čištění je zlepšení celkové konzistence dat vzniklých různými způsoby (z různých zdrojů).

Co se dělá při čištění dat?

Čištění dat má vždy dvě základní fáze, a to:

  • detekování chyb, při kterém dochází k identifikaci míst s chybami - jde o překlepy (typografické chyby), neúplnosti, nesprávnosti, duplicity, nesprávné hodnoty a podobně
  • oprava chyb, tedy oprava poškozených nebo nesprávných záznamů - jde o opravy, nahrazování, modifikace (úpravy) a mazání dat

Čištění dat v podnikových aplikacích probíhá na úrovni databáze s pomocí specializovaných nástrojů. Po vyčištění jsou nesprávné záznamy nahrazeny čistou sadou.

Proč je čištění dat třeba?

Informační systémy, aplikace a různé další evidence ve firmách téměř vždy obsahují nějaká data, která nejsou čistá. Je to způsobeno nekoordinací procesů, činností a jednotlivých částí informačního systému (jednotlivých aplikací), při kterých jsou stejné informace zaneseny na různá místa systému, jelikož o sobě jednotlivé složky neví nebo nejsou správným způsobem propojeny. Typickým příkladem je řada systémů a procesů, které pracují se záznamem zákazníka, ale vzájemně nejsou koordinovány. Důsledkem toho jsou informace o jednom zákazníkovi na více místech - například v ekonomickém systému, v CRM systému a dalších. Zákazník pak například změní svoji adresu, ale změna se projeví jen v ekonomickém systému. Další nejčastější příčinou vzniku chybných dat jsou různé překlepy, například ve jménu firmy. Ta je potom založena vícekrát a problém je na světě.

Problém špinavých dat se přirozeně zvětšuje s tím, jak roste objem dat na vstupu a také tím, jak roste složitost a komplexnost informačních systémů. Pokud systémy obsahují nekvalitní data, není možné, aby na výstupu byla data kvalitní. Jinými slovy z odpadu bude zase jen odpad.

Pokud nejsou data vyčištěna na vstupu, to je při jejich zadávání do komplexního integrovaného systému, problém znečištění se pak postupně roznáší i na další místa a náklady na čištění rostou exponenciálně. Datová hygiena, jak se někdy říká, nabývá na důležitosti s rostoucím množstvím systémů a zdrojů dat a informací.

Jaké jsou nejčastější důvody a zdroje špinavých dat?

Zdrojů a důvodů špinavých dat (vadných, duplikovaných, nekonzistentních atd.) bývá celá řada - zde uvádíme ty nejčastější z nich:

  • Špatné vkládání dat (entry errors), které zahrnuje překlepy, prohození písmen a různé přepisy stejně znějících slov.
  • Chybějící data v databázových polích, což může být způsobeno neúplným vyplněním dotazníků nebo jejich lajdáckým přepisem do databáze.
  • Chybějící podnikové nebo průmyslové standardy pro kódování dat, což je velkým problémem například v oblasti zdravotní péče.
  • Vícenásobné databáze roztroušené po různých částech organizace, v nichž jsou vždy data strukturována podle aktuální (a s ostatními nekompatibilní) potřeby oddělení.
  • Špatně dokumentovaná nebo zastaralá data.
  • Chyby způsobené přenosem (šum v přenosu), migrací nebo mergováním různých zdrojů
  • Rozdílné definice pojmů, nejednotný slovník pojmů, nejednotná metoda či metodika pro vkládání dat
  • Nejednotné formáty ve zdrojových systémech

Jakými způsoby, metodami a technologiemi se data čistí?

Čištění dat může probíhat jednorázově (například před migrací dat z jedné aplikace do druhé), ale většinou se jedná o průběžný, nikdy nekončící proces. Vždy záleží na tom, nakolik jsou data znečištěna a jak je uložený zdroj dat (v jakých systémech, jak jsou data dostupná atd.). V praxi se používají tyto metody a způsoby čištění dat:

  • Ruční čištění - může být vhodné a efektivní pro menší objemy dat, je náročné časově i finančně
  • Automatické čištění - pomocí specializovaných nástrojů, které využívají sofistikované algoritmy, díky nimž data rozdělují, standardizují, opravují, porovnávají a konsolidují

Funkce nástrojů pro čištění dat se pohybují od prostého čištění až k porovnávání, korekcím a konsolidování databázových položek z různých databází. Existují jak nástroje zabudované do konkrétní aplikace, tak nástroje specializované pouze na čištění dat, provozované například v cloudu. Při využití takových nástrojů je třeba postupovat opatrně, aby nedošlo k případnému zneužití nebo úniku dat.

Související pojmy a metody:

Související oblasti řízení:

předchozí další
Pomohl Vám tento článek?
Hodnocení:
Poslední aktualizace: 24.04.2018

Komentáře



Do diskuze nelze přispívat, protože je uzamčená


Lidé, kteří to umí