Amazon tuo ensi vuonna uuden pilvipalvelimen, johon saa jopa kaksi teratavua eli 2000 gigatavua muistia. Jos läppärissäsi on 4 gigatavua niin muistin määrässä uusi alusta vastaa potkultaan viittäsataa läppäriä. Ihmettelet suurta määrää? Minä juhlin: ehkä vihdoinkin jotain käyttökelpoista myös meille?! Hitaampaa kovalevytilaa pilvistä saa tuhansia teratavuja.

Yksi päivän muotisanoista on edelleen big data. Tulkitsen big datan viittaavan paitsi suureen määrään tietoa, myös mahdollisuuteen joustavasti tulkita laajempia tietomääriä monesta vinkkelistä. Vanha vitsi sanalle ATK on automaattinen tietojen kätkentä. Olemme siirtyneet ATK-ajasta IT-aikaan ja mielestäni kätkettyä tietoa pitää pystyä myös hyödyntämään jos puhutaan big datasta.

Kysymykseni kuuluu: kuinka iso on big data? Ongelman voi jakaa sisällölliseen syvyyteen ja tallennustapaan joista seuraa tekniset mitat. Puhun näistä kaikista koska ne liittyvät toisiinsa.

Sisällöllisesti ajattelen big datan kokoavan yhteen kaiken olennaisen yhdestä alueesta saatavilla olevan datan. Sisällöllisellä syvyydellä ei ole teoriassa mitään rajaa. Käytännössä kuitenkin jokin määrä dataa on helposti saatavilla ja sen jälkeen kerääminen hankaloituu eli maksaa.

Kun sisältö on kerätty tieto kannattaa pakata ja säilöä vaikkapa sarakekantaan jotta se ei vie turhaa tilaa. Tallennustekniikka määrittää tekniset mitat eli koon kuten tarvittavan muistin määrän ja laskentatehon suorittimina joista seuraa kustannuksia.

Teknisinä mittoina me RELEXillä liitimme viimeisen vuosineljänneksen aikana muistipilveemme 14 000 gigatavua lisää keskusmuistia ja 1400 suoritinydintä. Järein testaamamme palvelin sisälsi 12 000 gigatavua muistia ja 480 loogista suoritinydintä. Nämä mitat ovat analyysiä eli hyödyntämistä varten ja tallennustilaa on taustalla paljon enemmän.

Vastaukseni kysymykseen on siis seuraava. Iso data on niin iso kuin sisällöllisesti on mahdollista kerätä ja kustannustehokkaasti teknisesti toteuttaa. Mitä enemmän dataa ja mitä vähemmän reunaehtoja sen pyörittämiseen, sitä enemmän big datasta voi syntyä tietoa.

Muisti halpenee ja prosessoreihin tulee lisää laskentaytimiä. Big data alustan alin taso ei maksa kovin paljon. Syy miksi organisaatiot eivät hyödynnä kasvanutta laskentatehoa täysimääräisesti ei ole laitteissa. Tehottoman raudan peruste voi olla, että ohjelmiston lisenssit on hinnoiteltu teknologialähtöisesti. Lisenssin hinta voi pompata astronomiseksi jos laskenta-alustaan liitetään tuhansia gigatavuja muistia ja satoja suoritinytimiä. Toinen vaihtoehto on, että ohjelmisto on rakenteeltaan vanhanaikainen eikä se osaa hyödyntää rinnakkaisuutta tai suurta muistialuetta.

Mikäli liiketoiminta valittaa hitaista ohjelmistoista niin kannattaa miettiä mistä kenkä puristaa. Aiheuttavatko suoritettavat operaatiot oikeasti hitautta aiheuttavan monimutkaisuuden? Vai onko laitteisto ja ohjelmistopinossa esteitä ulosmitata käden ulottuvilla oleva teho. Pinon alin kerros ovat tehokkaat palvelimet ja ne eivät maksa kovin paljon.

Tapio Pitkäranta
Tekninen johtaja, RELEX Solutions

Kyseinen blogikirjoitus on osa RELEXin ylläpitämää Supply Chain Thinking –blogia, ja julkaistaan  poikkeuksellisesti myös suomenkielisenä. Kirjoittaja Tapio Pitkäranta on puhumassa Big Data Forum Finlandin käynnistämistilaisuudessa 29.10.2015. Foorumi on Tietoyhteiskunnan kehittämiskeskus ry:n perustama big data -alan toimijoiden avoin, puolueeton ja riippumaton yhteistyöelin, joka on perustettu tuottamaan ja välittämään big data -osaamista, ja -teknologiaa yritysten, tutkimuksen ja oppilaitosten välillä.