Big Data to technologia przetwarzania dużych zbiorów danych, która rozwijana latami osiągnęła imponujący poziom. Rósł bowiem nie tylko wolumen przechowywanych danych, ale i tempo ich przyrastania.
Współczesne Big Data jak np. Snowflake, to inteligentna baza danych w chmurze, która umożliwia analizę olbrzymich ilości danych w czasie rzeczywistym. Nie posiada limitów w ilości przetwarzanych danych ani liczbie jednoczesnych użytkowników.
Upublicznienie technologii bazującej na LLM i chatbot budzi nadzieję na uzyskanie jakości danych na poziomie gwarantującym możliwość zastosowania ich do automatyzacji procesów biznesowych bez czynnika ludzkiego. Być może tak się kiedyś stanie, ale póki co osiągnięcie tak wysokiej jakości danych, by stały się one zasobem firmy wykorzystywanym do generowania przyszłych korzyści ekonomicznych, nie jest domeną technologii.
Analiza danych gromadzonych przez Big Data doprowadziła do uzmysłowienia sobie, że problemy z danymi są w pewnym sensie powtarzalne. Z punktu widzenia inżyniera dane mogą być niekompletne, zduplikowane, nieaktualne, w złym formacie, a po kilku przetworzeniach można stracić jasność, jakie jest źródło ich pochodzenia. Przedstawiciele biznesu mówią krótko: występują różne wersje prawdy.
Coraz bardziej uwidaczniał się problem bezpieczeństwa danych, zwłaszcza teraz, gdy dane mogą być przetwarzane w chmurze. Ponadto ujawniły się nowe obszary ochrony danych, np. w ChatGPT należy bardzo ostrożnie formułować zapytania pod kątem zawartych w nich informacji o charakterze danych osobowych, bądź informacji poufnych.
Pierwsze podejście do poprawy jakości danych polegało na likwidacji problemów w ramach przedsięwzięć typu:
Szybko okazało się, że wspólnym elementem tych projektów jest potrzeba definiowania i przechowywania danych opisujących dane (metadane). W odpowiedzi na tę potrzebę opracowano wsparcie narzędziowe, czyli Data Catalog.
Ukoronowaniem podejścia „od problemu do rozwiązania” są projekty typu Data Management. Ich rezultatem jest architektura rozwiązania, narzędzia i procesy wypracowane w trakcie trwania projektu i ukierunkowane na kontrolę zgodności danych, zapewnienie dostępu i ich bezpieczeństwa. Przykładowo, centrum danych podstawowych (Master Data Management) zobowiązane jest do tworzenia danych zgodnie z przyjętą procedurą i wypracowanymi regułami jakości danych. Niestety, brak wyspecjalizowanego nadzoru nad procesami Data Management oraz ewoluowanie biznesu skutkują erozją jakości danych. Efekty Data Management nie były trwałe, co frustrowało sponsorów tych projektów. Oczekiwania biznesu są wyższe.
Długotrwałe drążenie tematu jakości danych czyli dążenie do dogłębnego zrozumienia, jakich danych potrzebują poszczególni interesariusze oraz jak rozumieją jakość danych, doprowadziło do poszerzenia zakresu analizy i wykreowania nowej umiejętności – definiowania danych użytecznych do osiągania celów biznesowych na poziomach: strategicznym, KPI procesów lub automatyzacji prac. Innymi słowy: oprócz analizy problemów z danymi dodano analizę, która ma wskazywać, jakie dane są celowe, użyteczne.
Dzisiaj coraz częściej można spotkać się z przekonaniem, że dane to obok strategii i procesów trzeci wymiar organizacji – wymiar danych.
Mowa tutaj o odpowiedzi na pytania typu: Jaki produkt? Na jakich rynkach? Jakimi kanałami? Przykładowo może to być określenie potencjału segmentu rynku: liczba firm adresatów produktu/usługi, ich potencjał zakupowy.
Przykładowo: alert z eskalacją generowany na bieżąco, dotyczący jakości technologii (kompletna, aktualna itd.), pozwala reagować, na czas zapewnić jej użyteczność do efektywnego planowania.
Przykładowo: identyfikacja, który proces, podproces odpowiada za niepowodzenia w osiąganiu wskaźnika „Dostawy doskonałe” na zakładanym poziomie.
Przykładowo: zebranie odpowiednich danych do uczenia maszynowego, czyli do tworzenia modeli komputerowych, które uczą się na podstawie danych i wykorzystują je do podejmowania przyszłych decyzji lub prognoz.
Dane są użyteczne wówczas, gdy znajdziemy korzyść z ich zastosowania – muszą być celowe. By doprowadzić do zastosowania danych użytecznych, interesariusze muszą mieć do nich zaufanie. Muszą one być wiarygodne. Trzeba mieć dostęp do źródła danych (bez względu na ilu poziomach były przetworzone) oraz do ich historii, a także możliwość weryfikacji spójności biznesowej danych. Nade wszystko jednak dane muszą być czytelne i łatwe do zrozumienia. Lista warunków koniecznych jest długa.
Problem polega na tym, że ustalanie co trzeba, a czego nie trzeba mieć w konkretnej organizacji wymaga czasu i wyspecjalizowanych zasobów. Na potrzebę posiadania wyspecjalizowanych zasobów wskazuje również doświadczenie z projektów Data Management – projekt się kończy i zaczyna się powolna erozja czystości danych z powodu braku wyspecjalizowanego nadzoru.
Ukierunkowanie na takie dane, które są nieodzowne do realizacji celów biznesowych, doprowadziło do wyodrębnienia projektów typu Data Governance, których istotnym rezultatem jest uruchomienie pracy wyspecjalizowanego zespołu ludzi odpowiedzialnych za wdrażanie wymiaru danych w organizacji.
Dziś granice pomiędzy tymi projektami się zatarły, ponieważ nadzór nad danymi (Data Governance) ma kluczowe znaczenie dla lepszej pracy zespołów odpowiedzialnych za jakość danych (Data Management). To już nie jest sytuacja typu „albo albo”. Nadzór nad danymi można postrzegać jako plan budowy nowego budynku, podczas gdy zarządzanie danymi jest aktem konstrukcyjnym.
Innymi słowy: nadzór nad danymi odpowiada za poziom strategiczny, zdefiniowanie: jakie dane są użyteczne i wiarygodne? Zarządzanie danymi odpowiada natomiast za uzyskanie poziomu wiarygodności danych w praktyce. Trzeba mieć oba komponenty, by zbudować ład danych, by dane stały się aktywem.
Rezultatem projektu Data Governance jest zespół wykonujący pracę w trybie procesowym – zamiana akcyjności na działania ciągłe. Skład zespołu danych odzwierciedla potrzebę nadzoru nad danymi ukierunkowaną na komunikację z biznesem w celu identyfikacji danych użytecznych oraz potrzebę wdrażania architektury, narzędzi i procesów budujących wiarygodność danych.
Według nomenklatury firmy doradczej Deloitte, zespół danych tworzą: Data Steward (opiekun danych) i Chief Data Officer (inspektor danych), którzy odpowiadają za strategię wykorzystania danych do realizacji celów biznesowych. Natomiast Data Quality Analyst (analityk jakości danych) i Data Architect (architekt danych) są odpowiedzialni za zarządzanie danymi.
Wykorzystanie sztucznej inteligencji (AI) może przynieść wiele dotychczas nieosiągalnych korzyści i stanowić świetne uzupełnienie zespołu. W tym wypadku, zamiast mówić o „sztucznej inteligencji”, trafniejszy wydaje się termin: „rozszerzona inteligencja”, czyli IA (ang. intelligence amplification). Monitorowanie jakości danych w czasie rzeczywistym (on line), automatyczne naprawianie danych, automatyczne tworzenie metadanych (danych opisujących dane)… – użyteczność AI rośnie w tempie szybszym, niż można się było spodziewać.
QBICO chce wspierać swoich klientów krok po kroku w budowaniu ładu danych:
Ekspert, wsad merytoryczny: Ireneusz Kuterek