Skip to content

Tunnista ja ratkaise datatieteen datalähtöiset haasteet

Datatieteilijät painivat useiden dataan pohjautuvien haasteiden kanssa. Datan laadulliset ongelmat ovat monisyisiä ja voivat liittyä esimerkiksi datan yksilöimiseen tai yhdistettävyyteen. Lähtökohtaisesti niitä kannattaa lähteä ratkomaan liiketoimintakriittisen datan mallintamisella ja standardoinnilla, jotka ovat datan hallinnan ytimessä. Lisäksi dataprosessit osana liiketoimintaprosesseja tulee saada kuntoon.

Koulutin hiljattain datatieteilijäkurssilla datan hallintaa (sekä data management että data governance) ja keskustelin kurssilaisten kanssa laajasti datalähtöisistä haasteista ja niiden mahdollisista ratkaisuista. Keskustelun oivallusten ja omien kokemusteni pohjalta kokosin tähän kirjoitukseen vinkkejä, joiden avulla voit lähteä taklaamaan dataan liittyviä kipupisteitä organisaatiossasi. Vinkit sopivat kaikenkokoisille yrityksille, jotka haluavat saada enemmän irti datastaan.

Ennen käytäntöön sukeltamista käsittelen lyhyesti datatieteen käsitettä, josta on useita eri määritelmiä. Tiivistäen totean, että kyseessä on poikkitieteellinen ala, jossa hyödynnetään muun muassa tiedonlouhintaa, statistiikkaa, algoritmeja ja koneoppimista tavoitteena jalostaa datasta oivalluksia. Datatiede tukee joko välillisesti tai suoraan liiketoimintaa ja lopulta asiakasta.

data sciencen haasteet

Tunnista ja hanki data, josta on hyötyä liiketoiminnallesi

Koska datatiede palvelee liiketoimintaa, on tärkeää perehtyä siihen, mitä dataa liiketoiminnassa käytetään. Tässä auttavat datastandardit, -mallit ja -sanastot, jotka kuvaavat ja määrittävät liiketoiminnan tarvitsemaa dataa.

Toisaalta on myös mahdollista tutkia olemassa olevaa dataa ja pyrkiä löytämään sieltä malleja (patterns). Datanlouhinnalla voidaan pyrkiä tunnistamaan dataa, josta voi olla hyötyä liiketoiminnalle. Tällöin voi myös tarkentua se, mitä dataa yritykseltä puuttuu. Olemassa olevan datan kartoittamiseen hyvä työkalu on datakatalogi. Se kuvaa, mitä dataa yritys käyttää, missä data on ja mistä se on saatavilla. Datakatalogi ehkäisee tilanteita, ettei datatieteilijöillä ole näkyvyyttä ja ajantasaista tietoa siitä, mitä dataa yrityksessä käytetään.

Datastandardit, -mallit ja -sanastot kuvaavat ja määrittävät liiketoiminnan tarvitsemaa dataa.

Tilanne voi kuitenkin olla myös se, että dataa ei ole tarvittavan datatieteen ratkaisun perustaksi tai että dataa on jonkin verran, muttei tarpeeksi. Näissä tilanteissa ratkaisun voi tarjota datan generoiminen tai hankkiminen ulkoisesta lähteestä.

Generoimisessa voidaan joutua odottamaan useampi kuukausi, jotta dataa on tarpeeksi datatieteen ratkaisun pohjaksi. Siksi generoiminen on usein hidas vaihtoehto.

Ulkopuolisista datan lähteistä voidaan kartoittaa, standardoida ja mallintaa dataa. Näillä menetelmillä saadaan luotua näkyvyyttä ja ymmärrystä saatavilla olevaan ulkoiseen dataan Tarpeen tullen kyseinen data saadaan nopeammin hankittua, jolloin datatieteen ratkaisussa päästään etenemään rivakammin.

data sciencen haasteet

Laita datan laadun hallinta kuntoon ja hyvästele huonolaatuinen data

Datan laatu vaikuttaa tekeillä olevan ratkaisun luotettavuuteen ja projektin kestoon. Datan laadulliset ongelmat voivat liittyä lukuisiin tekijöihin, kuten datan virheettömyyteen, täyttöasteeseen, yhdenmukaisuuteen tai vaikka muodon oikeellisuuteen.

Datan laadulliset ongelmat estävät usein tehdyn mallin tulosten yleistämisen. Esimerkiksi jos 200 datarekordista vain 20 on tarpeeksi hyvälaatuisia ja käyttökelpoisia, niiden pohjalta aikaansaatua tulosta ei voida vielä yleistää. Tässä vaiheessa datatieteilijä itse saattaa joutua käyttämään aikaa virheellisten ja/tai puutteellisten rekordien putsaukseen tai operaation tekee putsaustyöhön erikoistunut tiimi. Joka tapauksessa datatieteilijän työ viivästyy ja ratkaisun tilaaja joutuu odottamaan kauemmin.

Huonolaatuisen datan ongelmaan auttaa järjestelmällisesti toteutettu datan laadun hallinta, jota voidaan tehdä monin eri tavoin ja jonka tavoitteena on hyvälaatuinen ja luotettava liiketoimintakriittinen data. Onko yrityksessä olemassa esimerkiksi keskitettyä datan hallintaa, joka voisi ottaa kopin myös datan laadun seurannasta ja parantamisesta?

Datastandardit ovat datan laadun hallinnan perusta.

Datan laatuun liittyvät oleellisesti jo mainitut datastandardit, jotka ovat datan laadun hallinnan perusta. Onko yrityksessä standardoitu esimerkiksi asiakkaaseen liittyvä data? Datastandardi sisältää datan määritykset, laatuvaatimukset ja rakenteellisen kuvauksen, joiden pohjalta dataa luodaan ja sitä ylläpidetään. Läpi yrityksen jaetut yhtenevät säännöt datan laadulle varmistavat osaltaan hyvälaatuisen ja luotettavan datan.

Huolehdi dataesiintymien yksilöinnistä ja varmista, että data pystytään yhdistämään

Dataesiintymien yksilöimisen (uniqueness) ongelma liittyy siihen, ettei tietojärjestelmissä olevia esiintymiä tai tietokokonaisuuksia pystytä tunnistamaan ja erottelemaan varmuudella.

Esimerkiksi suuryrityksessä tilanne voi olla se, ettei kukaan osaa varmuudelle sanoa asiakkaiden täsmällistä lukumäärää. Kaikille asiakkaille ei ehkä ole olemassa henkilötunnusta tai y-tunnusta, tai sitten yksilöivää tunnistetta ei pystytä kohdentamaan kaikilta osin. Tilanteeseen on voinut johtaa kasvanut tekninen velka, legacy-järjestelmien määrän tuoma jäykkyys, tai vaikka lukuisat yritysostot, jotka ovat saaneet aikaan hyvin kompleksin järjestelmäkentän.

Tässä tapauksessa dataesiintymiä voidaan pyrkiä tunnistamaan erilaisilla erottelevilla piirteillä ja niiden yhdistelmillä. Esimerkiksi asiakkaita saatetaan pystyä tunnistamaan etunimi, sukunimi ja osoite -yhdistelmällä, varsinkin jos nimi- ja osoitedata on tarpeeksi kattavaa ja laadukasta.

Kestävin ratkaisu on kuitenkin hoitaa yksilölliset tunnisteet kuntoon. Tämä saattaa tarkoittaa merkittävää panostusta datan laadun parantamiseen kertaluontoisesti. Kuitenkin pitkällä aikajänteellä pitää saada kuntoon prosessit, joissa dataa luodaan. Tällöin oikeat yksilölliset tunnisteet saadaan asiakkaille heti alusta saakka oikeassa muodossa.

Tunnista ja ratkaise datatieteen datalähtöiset haasteet

 

Datamalleilla ja liiketoimintaprosesseilla näkyvyyttä (big) datan rakenteisiin

Yrityksellä saattaa olla paljonkin dataa kerättynä ja sitä voi generoitua jatkuvasti lisää tietovarastoon tai datajärveen, mutta jos datalta puuttuu rakenne, edessä on massiivinen ongelma. Kun data on rakenteetonta, sitä on haastavaa tai jopa mahdotonta yhdistää. Esimerkiksi huoltoyritys voi kerätä sensoridataa laitekannasta, mutta ei välttämättä pysty yhdistämään sitä laitteeseen, johon sensori on asennettuna. Tällöin kyseistä dataa ei voida käyttää tuotteen huoltovälin optimointiin ja seisonta-ajan minimointiin.

Kun data on rakenteetonta, sitä on haastavaa tai jopa mahdotonta yhdistää.

Rakenteeton data liittyy etenkin big dataan. Mutta tarvitseeko big datan edes olla rakenteellista? Big data on määritelmällisesti dataa, jota on paljon, jota generoituu paljon ja joka on moninaista. Datan moninaisuuteen liittyy datan rakenne. Data voi olla hyvin eri muodoissa, jotka eivät ole keskenään johdonmukaisia rakenteellisesti eivätkä semanttisesti. Esimerkkitapauksen sensoridata on kuitenkin huoltoliiketoiminnan kannalta niin oleellista, että se täytyy pystyä yhdistämään hyvin korkealla varmuudella huollettavaan laitteeseen.

Jo mainituista ratkaisuista varsinkin datamallit antavat datatieteilijälle ylätason näkyvyyttä organisaation keräämään ja käyttämään dataan ja auttavat varsinkin datan yhdistämisessä. Datamallit kuvaavat visuaalisesti datan rakenteita, sitä miten entiteetit eli tosielämän asiat liittyvät toisiinsa.

Liiketoimintaprosessit ovat toinen osa-alue, joka antaa datatieteilijälle näkyvyyttä yrityksen keräämään ja käyttämään dataan. Parhaimmillaan työnkulkuprosessit kuvaavat tehtävien lisäksi, mikä rooli tehtävän suorittaa, mitä dataa niissä hyödynnetään ja missä järjestelmissä tämä data sijaitsee.

Paras lääke datatieteen datalähtöisiin haasteisiin on systemaattinen datan ja sen laadun hallinta

Datatieteen datalähtöisiä haasteita on niin paljon, että käsittelemieni haasteiden ja ratkaisujen kokonaisuus ei varmastikaan ole tyhjentävä. Kirjoituksen teemat nousivat pintaan kouluttaessani datatieteilijäkurssilla, kun tarkastelimme datatiedettä datan hallinnan näkökulmasta. Myös oman kokemukseni mukaan mainitut seikat ovat hyvin tyypillisiä datatieteen datalähtöisiä kipupisteitä.

Haasteesta riippumatta datatieteen datalähtöisten haasteiden selättämiseen vaaditaan systemaattista datan ja datan laadun hallintaa. Esittelemäni ratkaisuajatukset ovat toimiviksi havaittuja käytännössä. Ne toivottavasti auttavat sekä tunnistamaan että ratkaisemaan näitä haasteita käytännössä niin, että datatiede voi palvella liiketoimintaasi entistä paremmin.

Arvo Perälä (kirjoittaja työskenteli Loihde Advancella joulukuuhun 2019).