perjantai 25. tammikuuta 2019

Pitääkö meidät kaikki digitoida?

Tämä kirjoitus sai aiheensa Yleisradion Ykkösaamusta. Siinä keskusteltiin suomalaisten terveys- ja genomidatasta. Keskustelijat kauhistelivat terveystiedon tallentamiseen tarvittavasta datamäärästä. Esimerkiksi kansalaisten Kanta-terveystietokannan arvioitu tuleva tilantarve olisi peräti 1,5 petatavua. Kauhisteltiin, miten Kelan resurssit tähän lähiaikoina riittää.  

Voisin lohduttaa kuulijoita. Pieni laskelma osoittaa, että tietokannan tarvitsema levytila voidaan hankkia esimerkiksi ostamalla 12 teratavun levymuisteja. Tarvitaan siis noin 120 fetajuustopaketin kokoista laitetta. Ne mahtuvat kevyesti tavalliseen instrumenttikaappiin. Koko komeus maksaisi noin 50 000 euroa. Koska tietokannat skaalautuvat hyvin, lisähenkilökuntaa ei tiedon säilöntätilan kasvattamiseen varmaankaan edes tarvittaisi. 

Mitä nuo yksiköt ovat? Teratavu on tuhat gigatavua (tai miljoona megatavua tai biljoona tavua). Tavallisen sylikoneen muistit alkavat olla yhden teratavun luokkaa.  Ja petatavu on tuhat teratavua.

Asia menee vaativammaksi, jos ihmisestä halutaan tallentaa koko genomi. Samassa keskustelussa arveltiin että yhden ihmisen genomi vaatii yhden gigatavun tallennustilan. Saattaa se näin olla, koska ihmisen DNA käsittää noin kolme miljardia emäsparia, ja tätä tietoa voidaan myös pakata. 

Kaikkien suomalaisten täydet genomitiedot tarvitsevat siis luokkaa 10 000 petatavua tallennustilaa. Se on jo aika paljon, mutta siinä vaiheessa kun dataa alkaa kertyä suuremmassa määrin, ja siihen menee vuosikymmeniä, niin myös muistien pakkaustiheydet ovat kasvaneet ja hinnat halventuneet.
Aikaa myöten koko maapallon väestön genomit luultavasti luetaan ja tallennetaan tietokantoihin. En ollenkaan epäile enkä kritisoi asiaa, sen perustelut ovat samat kun suomalaisten genomiprojektissa. Se palvelee tieteellistä tutkimusta ja parantaa väestön terveyttä. Sekä ennakoiva terveydenhuolto että sairauksien parantaminen ottavat isoja harppauksia eteenpäin.  

On syytä katsoa myös tulevaisuuteen. Planeettamme säilyttäminen ja sen eliöstön suojeleminen on kokonihmiskunnan strateginen tehtävä. Sen tärkeämpää ja vaikeampaa haastetta ei ole eikä tule. Tulevaisuudessa on siis syytä myös digitoida ja tallentaa koko biosfäärin, kaikkien eliöiden genomi. Työtä tehdään jo, mutta se pitää systematisoida. Se on valtavan iso ja ihmiskunnalle elintärkeä urakka. Jos joku epäilee elämän tarkoitusta tai etsii itselleen motivoivaa haastetta, tässä se olisi. Työ on niin valtava, että sen suuntaan vieviä mahdollisuuksia on rajattomasti. Nuori lukija voisi aloittaa vaikkapa opiskelemalla madollisimman hyvin matematiikan ja luonnontieteiden perusteet, jos vain on siihen taipumuksia. 

Sanoin jo että haasteet ovat myös suuria. Otetaan vaikka tämä. Mitä pitää tehdä, kun ihmiskunnan tulevaisuus alkaa riippua digitaalisesti tallennetuista tietokannoista. Se on kovaa teknologiaa. Digitaalisten tiedonkäsittelyvälineiden sukupolvet ovat vaihtuneet tiheästi, ja tulevat tekemään niin jatkossakin. Miten päästään siihen, että elektroninen tieto säilyy ja on luettavissa vuosikymmeniä ja jopa vuosisatoja. Jo nyt varastoissa on yli 50 vuotta vanhaa dataa, jonka lukemiseen ei löydy toimivia laitteita, ja itse tallennusvälineetkin alkavat rappeutua. Digitaalisen kirjoituksen elinkaari uhkaa jäädä lyhyemmäksi kuin keskiaikaisilla pergamenteilla ja antiikin papyruskääröillä. 

Vastaus on periaatteessa yksinkertainen. Meidän pitää kehittää teknologiariippumaton tapa tallentaa dataa. Sekin on iso ja haasteellinen urakka, sillä jo määritelmän mukaan tiedon tallennus edellyttää aina jotain teknologiaa. Mutta toki tämä on tehtävissä. 

Pidetään siis tämä ristiriitainen ja lähes mahdoton tavoite kirkkaana. Mutta koetetaan keksiä käytännöllisiä teknologisia oikoteitä siihen asti kun lopullinen ja epätodennäköinen läpimurto tapahtuu. Voisin asettaa välitavoitteita. Ensinnä, tallennusteknologiassa etsitään pitkäikäisiä ja luotettavia tallennusmedioita. Toiseksi, tietofarmien pitää rakentaa sellainen toimintastrategia, jossa tallennusvälineitä sisältöineen päivitetään hallitusti ja lähes jatkuvasti uuteen teknologiaan. 

Radikaaleja teknologioita voidaan etsiä myös luonnosta. DNA on ihmisten teknologiaan verrattuna ylivoimaisen kapasiteetin omaava ja uskomattoman pitkäikäinen tiedontallennusmedia. Se sisältää satoja miljoonia vuosia sitten tallennettua dataa. DNA on elävä ja omia virheitään korjaava media, ja tämä periaate on lupaava myös ihmisen luomalle datalle. Tiedon tallentamista DNA- molekyyliin onkin jo sekä tutkittu ja kokeiltu. Epäilemättä se saadaan aikanaan toimimaan jopa kohtuullisella tehokkuudella. Mutta ihminen voi koettaa panna jopa paremmaksi, sillä DNA tallennus kantaa mukanaan myös satojen miljoonien vuosien aikana tehtyjen turhien kokeilujen painolastia. 

Ja sitten toinen vaihtoehto. Elävästä luonnosta löytyy muitakin tärkeitä periaatteita, ja ehkä tärkein on ekologinen diversiteetti. Suunnaton rinnakkaisten ja erilaisten toimintamuotojen runsaus on sekä biologisen elämän voittokulun selitys, että sen henkivakuutus. Teknologia voi omaksua tämän periaatteen, ja ehkä sen myös tulee tehdä se.