Tichyn kosminen kulttuurilaari: ”D” is for data

Viimeaikainen keskustelu tekoälystä palautti mieleeni englanninkielisen lorun puolen vuosisadan takaa. Olin juuri valmistunut diplomi-insinööriksi, ja aloittanut työskentelyn Pitäjänmäellä Strömbergin tehtaalla. Minä ja työtoverini kirjoitimme tietokoneohjelmia. Se oli silloin varsin uutta, ja se oli tavattoman kiehtovaa. Näin tuo loru kuuluu:

”D” is for data, aren’t you glad!
Your data is never ever bad!
For all our software’s written so:
bad data makes the system blow!

En nyt käännä tarkemmin tätä lorua, se vain muistuttaa, miten tärkeää on syöttää tietokoneelle kelvollista dataa. Minun työni kannalta tämä oli tärkeä muistutus. Meidän tietokoneemme ohjasivat tehtailla erilaisia koneita tai kokonaisia koneryhmiä. Oli hyvin tärkeää, että tietokone ei hämmentyisi, vaikka se sattuisi joskus saamaan joltain anturilta tai käyttäjältä hieman outoa dataa. Missään tapauksessa prosessitietokone ei saa jumittua tai tehdä jotain sopimatonta. Kokemuksesta tiedän, että tehtaan johtaja on silloin hyvin hyvin vihainen.

Entä mikä yhteys tällä on tekoälyyn? Yhteys on seuraava. Tekoälysovellusten viimeaikainen läpimurto perustuu niin sanottuun syväoppimiseen. Näitä järjestelmiä opetetaan valtavilla määrillä dataa. Ja läpimurto on seurausta siitä, että internetin aikakaudella tällaisia valtavia datamääriä on helposti saatavilla mihin tahansa tarkoitukseen. Ja nyt hieman ammatillista kritiikkiä. Tällaista internetin vaikutusta kukaan niin sanottu ”asiantuntija” ei osannut ennustaa. En minäkään. Siis että netti romahduttaa nuorten ihmisten lukutaidon ja ympäröi meidät yhä lisääntyvällä määrällä tekoälysovelluksia, joista emme oikein tiedä, voiko niihin luottaa. Ja joita emme välttämättä edes tunnista tekoälyksi, sillä ne osaavat naamioitua taitavasti ja tekeytyä vaivatta myös oikeiksi ihmisiksi.

Tekoälyn ”opettaminen” on tässä hieman harhaanjohtava ilmaus. Pikemminkin on keksitty menetelmiä, joiden avulla tekoäly pystyy oppimaan asioita itsenäiseti. Ihminen ei mitenkään pysty valvomaan koneen oppimista, onhan jo käytetyn datan määrä valtava. Pikemminkin ohjailu tapahtuu valitsemalla opetuksessa käytettävää aineistoa ja valitsemalla ja säätämällä niitä malleja, jotka toimivat oppimisen kriteereinä.

Tekoälyn kehitys on siis johtanut hieman hankalaan tilanteeseen. Tekoäly voi toimia monissa tehtävissä hyödyllisellä tavalla, mutta miten paljon sen toimintaan voidaan luottaa kaikissa mahdollisissa käyttötilanteissa? Tekoäly pystyy jo nyt suorittamaan sellaisia asiantuntijatehtäviä, jotka tähän asti ovat olleet ihmisten hoitamia. Miten voimme tunnistaa, milloin olemme tekemisissä oikean ihmisen kanssa? Entä jos tekoäly toimii lääkärin tapaan, tekemällä diagnooseja ja hoitosuosituksia. Pitääkö sen olla oikean lääkärin valvonnassa? Siitäkin huolimatta, että sillä on tukenaan kattava lääketieteellinen tietopankki ja potilaskertomusarkisto, joka on laajempi, kuin kukaan ihmislääkäri pystyisi edes kertaalleen elämänsä aikana läpi lukemaan.

Ongelmat voidaan tiivistää kahteen kriittiseen tehtävään: tekoälyn validointi ja tekoälyn tunnistaminen.

Nämä ovat hankalia kysymyksiä. Epäilemättä tutkijat hakevat näihin ongelmiin kuumeisesti ratkaisuja. Tarvitsemme varmasti myös sääntelyä ja sitä tukevaa teknologiaa. Esimerkiksi dataan lisättyjä vesileimoja ja digitaalisia sormenjälkiä. Ja tarvitaan aivan varmasti lainsäädäntöä. Tutkikoot myös juristit, mitä keinoja ylipäätään on käytettävissä.

Mitä tähän nyt voisi sanoa? Ainakin sen, että ongelma on sentään kuitenkin havaittu. Ja ennen kuin se on ratkaistu, jos ylipäätään koskaan, ”ollaan varovaisia siellä ulkona”.

keskiviikko 17. toukokuuta 2023

”D” is for data

Tichyn kosminen kulttuurilaari

Lukijat

Blogiarkisto

Tietoja minusta