Skip to content

Mitä tulee huomioida data science -tiimiä perustettaessa – Osa 2: Osaaminen ja rekrytointi

Täysin uutta liiketoimintafunktiota perustettaessa mielessä on paljon kysymyksiä. Mihin se sijoittuu organisaatiorakenteessa? Kenen pitäisi johtaa sitä, ja kenelle hän raportoi? Mitä investointeja täytyy tehdä? Hajautettu vai keskitetty? Ostetaanko ulkopuolista osaamista, kuinka paljon, ja mihin tarkoitukseen?

Tässä kolmiosaisessa blogisarjassa käsittelen kolmesta eri näkökulmasta, mitä kaikkea data science -praktiikkaa perustavan organisaation täytyy huomioida. Tässä osassa keskityn osaamiseen ja rekrytointiin.

Sarjan muut osat:

Osa 1: Organisaatio ja operatiivinen malli

Osa 3: Teknologiainvestoinnit

Blogisarjan tämä osa käsittelee data science -tiimin miehitystä – millaisella osaamisprofiililla kannattaa lähteä liikkeelle, kannattaako työntekijät palkata vai ostaa ulkoista osaamista, ja millaisia taitoja tiimiläiset tarvitsevat.

Ensimmäinen rekry: analyytikko vai insinööri?

Uutta tiimiä perustettaessa sen ensimmäisellä työntekijällä on suuri rooli. Hän asettaa suuntaviivat ja määrittää yleiset käytännöt, sekä vaikuttaa investointipäätöksiin ja tulevien tiimikavereidensa valintaan.

Data science tiimistä löytyy usein kahdenlaisia rooleja: analytiikasta vastaavia data scientisteja ja data-infrastruktuurista vastaavia ns. data engineerejä. Kummalla profiililla kannattaa rekrytoida ensimmäinen työntekijä? Vai pitäisikö hänen olla moniosaaja? Vai manageri?

Se, missä tilassa yrityksesi data tällä hetkellä on määrää pitkälti sen, kumman tyylistä osaamista tarvitaan alussa enemmän. Jos data on levällään Exceleissä, operatiivisten järjestelmien tietokannoissa ja SaaS-palveluissa, tai jos eri järjestelmissä syntyvä data ei ole yhdistettävissä tai sen laatu on kyseenalainen, analyytikolla ei ole edellytyksiä tehdä työtään. Tällaisessa tilanteessa tarvitaan data-insinööri perustamaan tarpeelliset tietovarastot, ETL/ELT-työt, datavirtojen käsittelyn prosessit, ja muut datan tallentamiseen ja yhdenmuotoistamiseen tarvittavat tekniset kyvykkyydet.

Toisaalta, jos haluat keskittyä alkuvaiheessa sellaiseen liiketoimintaprosessiin, jonka datan tiedät olevan ajantasaista, laadukasta ja helposti saatavilla, analyytikko voi päästä välittömästi vauhtiin.

Monitaiturin rekrytointi saattaa niin ikään olla hyvä vaihtoehto. Tällainen henkilö voi saman aikaisesti rakentaa tarvittavaa infraa, ja toisaalta toteuttaa ensimmäiset yksinkertaiset analyyttiset käyttötapaukset joilla tiimi todistaa arvonsa. Monitaituri kuitenkin on harvoin huippuosaaja jokaisessa asiassa, jonka takia on tärkeää pitää mielessä, mikä hänen roolinsa on kun tiimin koko kasvaa. Keskittyykö hän enemmän insinöörin, analyytikon, vai esimerkiksi tiimin vetäjän hommiin?

Manageria tämä tiimi tuskin tarvitsee kovin pian. Yksinkertaisella Kanban-taululla voidaan hoitaa töiden seuraaminen. Tärkeintä on löytää johtaja, joka tuntee liiketoiminnan riittävän hyvin ja jolla on mandaatti priorisoida tiimin tehtävät poikki liiketoimintayksiköiden, jottei tiimiä revitä joka suuntaan.

Konsultti vai oma työntekijä?

Tiettyjä data science -tiimin tehtäviä on mahdollista tai jopa mielekästä ulkoistaa. Jos organisaatiollasi on vielä hieman kotitehtäviä tehtävänään ennen kuin dataa voidaan hyödyntää liiketoiminnassa, perustamistyöt kuten dataintegraatiot, tietovarastojen pystyttäminen, datan laadun raportointi, yms. on täysin mahdollista ulkoistaa konsulteille.

Analyytikon sen sijaan täytyy tuntea liiketoimintaa melko hyvin voidakseen tehdä järkeviä hypoteeseja ja välttääkseen vääriä johtopäätöksiä. Mitä erikoistuneempi liiketoiminta on kyseessä, sitä tärkeämpää toimialaosaaminen on analyytikolle. Maallikon on helppo tehdä hypoteeseja verkkokaupan asiakaskäyttäytymisestä, mutta entäpä siitä, mitkä asiat ennustavat laatuongelmia kemiallisessa prosessissa tai kaivoskoneen hajoamista? Jos otat konsultin analyytikoksi, varmistu siitä, että hänellä on työparinaan käytettävissä liiketoiminnan asiantuntija, joka auttaa häntä tunnistamaan ne tekijät, jotka todennäköisesti selittävät kulloinkin ennustettavan ilmiön.

Lähtökohtaisesti data science -tiimin pitäisi olla olennainen osa uutta dataan perustuvaa liiketoimintaa, ja siksi erityisesti ydinliiketoimintaasi keskittyvä analytiikka kannattaa pitää talossa sisällä.

Ohjelmoija vai matemaatikko?

Suurimmassa osassa data scientist -rekryilmoituksia esitetään vaatimuksena joko R tai Python ohjelmointikielen osaaminen. Näistä molemmat ovat hyviä kieliä matemaattisten ongelmien ratkaisuun, ja erityisesti R:llä voi saada ihmeitä aikaan vain muutamalla koodirivillä. Kummankaan ohjelmointikielen osaaminen ei kuitenkaan auta, jos et tunne ongelman ratkaisussa tarvittavaa matematiikkaa. Toisaalta kokenut Java-ohjelmoija, joka tuntee Bayesilaista tilastotiedettä tai osaa selittää tukivektorikoneen toiminnan, todennäköisesti oppii vaivatta Pythonin tai R:n työnsä ohessa.

Jos vaadit rekrytoitavalta R:n tai Pythonin osaamista, pyri myös varmistamaan, että hän osaa tarvittavia matemaattisia menetelmiä. Paras tapa tähän on esittää jokin oikea tai edes kuvitteellinen haaste, ja kysyä, millä kulmalla hän lähtisi ratkaisemaan sitä. Tai jos pidät enemmän grillaushaastatteluista, hyviä kysymyksiä voisivat olla vaikkapa:

Uskon, että asiantuntijatiimin täytyy saada valita omat työkalunsa. Siksi blogin kolmas osa käsittelee teknologiainvestointeja. Sillä välin, onnea tiimin rekrytointiin!

Asko Relas (kirjoittaja työskenteli Loihde Advancella joulukuuhun 2018).

Lue myös sarjan muut osat:

Osa 1: Organisaatio ja operatiivinen malli

Osa 3: Teknologiainvestoinnit