keskiviikko 7. tammikuuta 2015

Erään osallistumispyynnön käytettävyysanatomia


Aalto-yliopiston tutkimustietojärjestelmän (CRIS) hankintailmoituksessa käytettävyys on merkittävästi esillä. Hyvänä piirteenä esimerkiksi se, että käyttäjät ovat testikäyttäjinä eivätkä esimerkiksi arvioijina (käyttäjäraadit), mikä on usein käytetty mutta epävalidi tapa. Suurin ongelma on se, että vertailevat käytettävyystestit tehdään demoilla,  jolloin laadukkaastikin tehdyt testit voivat tuottaa vääriä tuloksia. Kirjoituksessa arvioidaan lisäksi pakollisten vaatimusten ja vertailukriteerien määrittämistä sekä piirteitä käytettävyystesteistä

Kaikkiaan hankinnassa käytetty menettelytapa ei takaa sitä, että hankittava järjestelmä olisi aidosti hyvä käytettävyydeltään  (mikä mielestäni pitäisi olla hankinnan käytettävyysosion ehdoton tavoite). 

------------------------
(Kirjoitin ja julkaisin tämän artikkelin jo vuosi sitten, mutta vedin pois sen, että se ei häiritsisi hankintaprosessia). 

Aalto yliopisto julkaisi alkuvuodesta 2014 hankintailmoituksen tutkimustietojärjestelmästä ("CRIS"). Järjestelmän tarkoitus on se, että tutkijat raportoivat tieteellisiä tuloksiaan (julkaisuja, tutkimusvierailuja, esityksiä jne.) kyseiseen järjestelmään. Toisaalta järjestelmän kautta esimiehet voivat seurata, mitä tuloksia tutkijat saavat aikaiseksi. 

Hankintailmoitus on muodoltaan osallistumispyyntö: siinä haetaan potentiaalisia toimittajia neuvottelumenettelyyn, joille sitten lopullinen tarjouspyyntö toimitetaan myöhemmin. Siis varsinaista tarjouspyyntöä ei ollut julkisesti saatavilla. 

Hankintailmoituksessa on kuitenkin määritelty varsin seikkaperäisesti, miten käytettävyys aiotaan ottaa huomioon hankinnassa: miten se tulee näkymään tarjouspyynnön pakollisissa vaatimuksissa ja vertailukriteereissä, mitä ovat käytetyt mittarit ja miten mittaukset on tarkoitus suorittaa. 

Tässä kirjoituksessa arvioin hankintailmoituksessa määriteltyjä käytettävyyslähestymistapoja.  

Tätä arviointia saa mielellään haastaa ja kommentoida. Erityisesti esitän tämän kutsun FlowIT:n porukalle. 

(Hankintailmoitus on ollut saatavilla pyynnöstä Aalto-yliopistolta. Itse sen tietenkin pyysin ja se on minulla, mutta en ole vielä varma, miten blogin lukijat sen voisivat saada. Ehkä tätä kirjoitusta voi jotenkin seurata, vaikka alkuperäistä osallistumispyyntöä ei olisikaan käsillä.)

Hankintailmoituksen käytettävyyssisältö

Hankintailmoituksen käytettävyysosio on aika seikkaperäinen, ja hieman monimutkainen. Ennen tarkempaa analyysia, yleiskatsaus hankintailmoituksen käytettävyysideaan: 

  • Käytettävyys on tarkoitus arvioida osana valintaprosessia tekemällä käytettävyystestejä toimittajien antamilla demojärjestelmillä. 
  • Testikäyttäjiä on kahdesta käyttäjäryhmästä (tutkijat, tutkimuspäälliköt), kumpiakin kuusi (6) kappaletta. Kaikki testikäyttäjät tekevät tehtävät useammalla järjestelmällä siten, että suoritusjärjestys vaihtelee. 
  • Käyttäjätehtäviä on viisi (5) kappaletta, joille kullekin on annettu aikaa 15 minuuttia. (Tulkitsen, että lähtökohtaoletus on se, että periaatteessa käyttäjien pitäisi kohtuudella suoriutua tehtävistä tässä ajassa). 
  • Käytettävyystesteissä mitataan käyttäjien suoriutumista tuloksellisuudella (effectiveness), tehokkuudella (efficiency) sekä käyttäjätyytyväisyydellä (satisfaction). On määritelty kaavat, miten näitä kutakin mitataan. 

Käytettävyys pakollisissa vaatimuksissa


Ensimmäinen kiinnostava asia on se, missä määrin käytettävyys on pakollinen vaatimus. Ja tässä osallistumisilmoituksessa käytettävyys löytyy pakollisista vaatimuksista.  

Pakollisia käytettävyysvaatimuksia ovat: 

  • tuloksellisuus (effectiveness): määritellään "kokonaistuloksellisuuden" (total effectiveness) kautta. Kokonaistuloksellisuus on käyttäjien onnistuneesti suorittamien tehtävien lukumäärä suhteessa kaikkiin annettuihin tehtäviin, ja sen minimirajaksi on asetettu 0,7. 
  • käyttäjätyytyväisyys (satisfaction): vähintään 30 pistettä (maksimi 50), kun käytetään positiivisen SUS-kyselyn kysymyksiä 

Käytettävyys vertailukriteereissä


Hankintailmoituksessa käytettävyys on vertailukriteereissä siten, että 

  • tehokkuudella (efficiency) on 10 % painoarvo 
  • käyttäjätyytyväisyydellä (satisfaction) 20 % painoarvo

(näiden tarkemmasta laskemisesta myöhemmin)

Hankintailmoituksen käytettävyysosioiden analyysi

Analysoin hankintailmoituksen käytettävyysosiota kahdessa vaiheessa: 

  • Analyysivaihe 1: Perustelen, miksi käytettävyyden arviointi esitetyllä tavalla on lähtökohtaisestikin ongelmallinen. Tavallaan sen vuoksi toinen arviointivaihe ei periaatteessa ole relevantti
  • Analyysivaihe 2: Arvioin kuitenkin - vaikka lähtökohta on ongelmallinen - hankintailmoituksen käytettävyyselementtejä tarkemmin, koska niissä on myös paljon hyvää ja sinällään ovat mielenkiintoisia.

Analyysivaihe 1

Lyhyesti sanottuna käytettävyysosion iso ongelma on se, että vertailevat käytettävyystestit tehdään demoilla. 

Miksi vertailevat käytettävyystestit demoilla on ongelma? 

  • Arvioinnin kohteena on järjestelmä, joka ei oteta sellaisenaan käyttöön vaan sovitetaan (konfiguroidaan tms.) Aalto-yliopiston ympäristöön. Oleellista tietenkin on, että lopullinen järjestelmä olisi sitten käytettävyydeltään hyvä.  
  • Oleellista siis on, että tarjottu järjestelmä on sellainen, joka antaa mahdollisuuden käytettävyydeltään hyvään asiakaskohtaiseen sovitukseen, ts. mikä on "järjestelmän käytettävyyskyvykkyys". 
  • Nyt arviointi tehdään demoilla, joka ei mittaa tuota kyvykkyyttä vaan sitä, millaisen demon toimittaja on saanut aikaiseksi. Arviointi mittaa siis demon eikä lopulliseen järjestelmän käytettävyyttä.  
  • Käytettävyystesteissä käyttäjien suoriutumiseen voi vaikuttaa ratkaisevasti pienetkin suunnitteluratkaisut (niin kuin Jacob Nielsen sanoo: "Details matter"). Sen vuoksi demoilla tehtävät käytettävyystestit voivat antaa vääriä tuloksia. Esimerkiksi jo yksi väärä termi - jonka voisi helposti muuttaa lopulliseen järjestelmään - voi ratkaisevasti "tuhota" käyttäjän suoriutumisen.

Eli oikea ratkaisu olisi arvioida järjestelmän käytettävyyskyvykkyyttä, eikä demoa. (Miten käytettävyyskyvykkyyden arviointi tehdään on oma haastava asiansa eikä tämän kirjoituksen aihe). 

Vielä toisella tavalla sanottuna: jos hankittava kohde olisi täysin valmisjärjestelmä, johon käyttöönotossa ei tehdä mitään asiakaskohtaisia sovituksia, niin silloin tällainen käytettävyystestauslähestymistapa olisi validi. 

Yhteenveto. Vaikka käytettävyystestit tehtäisiin kuinka oikein, niin se, että testaukset tehdään demoilla tarkoittaa sitä, että tulokset voivat olla epävalideja. Eli tämä yksittäinen asia tekee koko hankintailmoituksen käytettävyysosiosta ratkaisevasti epävalidin (= potentiaalisesti vääriä tuloksia antavan). 

HuomLaadulliset käytettävyystestit demoilla ovat (tietenkin) käytettävyystyön peruskauraa.

Analyysivaihe 2

Käyn kuitenkin läpi käytettävyysosiota tarkemmin, koska se on tehty selvästi harkiten ja huolellisesti. Siinä on sekä hyviä piirteitä että myös ongelmia.  

Huom!  Sanon vielä, että tätä analyysiosiota "2" pitää siis lukea siten, että kommentit ovat valideja ainoastaan tapauksessa, jos käytettävyystestit tehtäisiin lopullisella järjestelmällä. Jos testit tehdään demojärjestelmällä, niin - kuten yllä totesin - testit voivat tuottaa epävalideja tuloksia, vaikka ne tehtäisiin kuinka oikein. 

Käytettävyys pakollisissa vaatimuksissa

Käytettävyys on osana pakollisia vaatimuksia, ja se on hyvä asia. Pakollisissa vaatimuksissa käytettävyyden attribuutteja ovat tuloksellisuus ja käyttäjätyytyväisyys, jotka ovat hyviä perusattribuutteja. 

Pakollisten käytettävyysvaatimusten pitäisi olla sellaiset, että kun järjestelmä täyttää ne, niin sen pitäisi olla riittävän hyvä.

Nyt pakolliseksi - eli riittävän hyvän - käytettävyyden tasoksi on asetettu:

  • Tuloksellisuus: määritellään mittarin "kokonaistuloksellisuuden" (total effectiveness) kautta. Kokonaistuloksellisuus on kaikkien käyttäjien onnistuneesti suorittamien tehtävien lukumäärä suhteessa kaikkiin annettuihin tehtäviin, ja pakolliseksi vaatimukseksi on asetettu vähintään 0,7. Eli käyttäjien pitää onnistua 70 % tehtävistään. 
  • Käyttäjätyytyväisyys (satisfaction): vähintään 30 pistettä, kun käyteään positiivisen SUS-kyselyn kysymyksiä (maksimi 50)

Mielestäni nuo eivät osu ihan kohdalleen: 

  • 70%:n onnistumisastevaatimus on aika matala. Tarkoittaa, että käyttäjä saisi epäonnistua tehtävissään varsin usein. Kuitenkin tehtävät lienevät sellaisia, joissa tutkijoiden olisi onnistuttava käytännössä aina? (vai missä tehtävissä tutkijat saavat epäonnistua?)
  • Käyttäjätyytyväisyyden minimivaatimus on SUS-kysymyksillä 30, kun maksimi on 50. Tämä tarkoittaa SUS-lukemaa 60 pistettä. Tämä on aika matala, vaikka absoluuttista totuutta sopivalle SUS-kyselyn tavoitetasolle on vaikea määrittää. Itse olisin päätynyt vähintään SUS-lukemaan 70 (eli hankintailmoituksen laskentatavalla minimivaatimukseksi 35 pistettä). 

Yhteenveto: Mittarit ovat ihan validit, mutta tavoitetasot ("riittävän" käytettävyyden taso) matalalahkot. Tämä tarkoittaa, että aika huonon käytettävyyden omaava järjestelmä voi tulla valituksi.

Käytettävyys vertailukriteereissä 

Vertailukriteereissä käytettävyys on mukana kahdella tavalla: 

  • tehokkuus 10 %
  • käyttäjätyytyväisyys 20 %

Periaatteessa ovat ihan valideja vertailukriteereitä. Niillä on kuitenkin suhteellisen korkea painoarvo (yhteensä 30%).  Kun pakolliset vaatimukset loogisesti tarkoittavat "riittävän" hyvää käytettävyyttä, niin onko tosiaan perusteltua, että "ylimääräisellä" käytettävyydellä on valinnassa peräti 30% painoarvo?

Yhteenveto: Mieluummin korkeampi vaatimustaso pakollisissa vaatimuksissa, ja vertailukriteereihin käytettävyys pienellä painoarvolla (jos ollenkaan). 

Mittarit


1. Tuloksellisuus

Tuloksellisuuden mittarina käytetään tehtävien onnistumisastetta.


Hyvää

  • Tehtävien onnistumisaste on hyvä perusmittari
  • Tehtäville annettu maksimiaika
  • Tehtävät mietitty käyttäjäryhmäkohtaisesti

Ongelmallista: 

  • Tehtävät on kuvattu, mutta ei ole selkeästi määritetty, mitkä ovat tehtävien onnistumiskriteerit. Se olisi kuitenkin ensiarvoisen tärkeää, koska mittari perustuu tehtävien onnistumisten tulkintaan. 
  • Puuttuu on koettu tuloksellisuus yhtenä onnistumisen kriteerinä. Koettu tuloksellisuus tarkoittaa sitä, että sen lisäksi että käyttäjä objektiivisesti onnistuu tehtävässään, hänen pitää myös uskoa onnistuneensa. Jos koettua tuloksellisuutta ei vaadita, käyttäjä voi suoriutua tehtävästään, mutta luulee, että ei onnistunut. 
  • Kaikkiin tehtäviin on laitettu sama maksimiaika: 15 minuuttia. Koska kaikki tehtävät eivät ole samanlaisia, niin olisi voinut harkita tehtäväkohtaisia ajanmäärityksiä. Tämän olisi pitänyt olla myös realistista, koska tehtäviä on sen verran vähän.  

Yhteenveto: Hyvä perusmittari, mutta onnistumiskriteerit pitäisi määrittää, ottaa mukaan koettu tuloksellisuus, ja miettiä tehtäväkohtaiset aikarajat

2. Tehokkuus

Tehokkuuden mittarina käytetään kaavaa, mikä perustuu tehtäviin käytettyyn aikaan.  

Hyvää

  • Aika on tehokkuuden luonnollinen mittari

Ongelmallista

  • Tehokkuutta käytetään ainoastaan vertailukriteereissä. Se ei ole asiana helppo, ja se näkyy myös valitussa laskentakaavassa, jossa osittain käytetään oikeaa aikaa ja osittain laskennallisia aikoja (jos käyttäjä ei onnistu tehtävässään, aika on aina 15 minuuttia). Tästä tulee potentiaalinen validiusongelma. 
  • Tehokkuutta arvioidaan kaikkien tehtävien suhteen. Kuitenkaan tehokkuus ei yleensä ottaen ole yhtä tärkeä kaikissa tehtävissä. 
  • Yleensäkin voisi miettiä, kuinka tärkeä absoluuttinen tehokkuus on tällaisessa järjestelmässä, jota käyttäjät käyttävät "aina silloin tällöin". Olisiko koettu tehokkuus ollut riittävä mittari?
  • Absoluuttinen aika ei kuvaa koettua tehokkuutta. 

Yhteenveto: Olisin ottanut absoluuttisen tehokkuuden mukaan ainoastaan, jos oikeasti aikakriittisiä tehtäviä. Muussa tapauksessa olisin harkinnut vain koetun tehokkuuden mittaamista (jota itse asiassa SUS mittaa jossain määrin). 

3. Käyttäjätyytyväisyys

Käyttäjätyytyväisyyden mittaamiseen käytetään positiivinen SUS -kyselyä, mikä on hyvä mittari käytettävyystestien yhteydessä. 

Kuitenkin käyttäjälle annettu tehtävän selitys on harhaanjohtava: "Please fill out the usability survey. Please evaluate the usability of the system you just used and not the tasks". Eli johdatetaan käyttäjää arvioimaan järjestelmän käytettävyyttä. 


Tämä on aika iso virhe: SUS-kyselyssä käyttäjä raportoi käyttäjäkokemusta eikä arvioi käytettävyyttä (katso esim. yksittäisten kysymysten sisältöä). Nämä kaksi ovat ihan eri asioita. Käyttäjää pitäisi johdattaa kertomaan kokemuksestaan, eikä arvioimaan järjestelmää. 

Yhteenveto: Hyvä mittari, ongelmallinen johdattelu. 

Käytettävyystesti 

Kaikkiaan ammattimaisesti suunniteltu testi. Muutama huomio kuitenkin: 

1. "The user is asked to carry out the first task by reading the instructions for the task and the maximum time reserved for the task.... The task begins from the time the user is handed the task instructions".  

Itse toimisin niin, että sen jälkeen, kun käyttäjä on lukenut tehtävän, varmistaisin, että hän on ymmärtänyt sen. Ja sitten vasta kello käyntiin.

2. "You will be given a time frame in which it should be possible to complete the task. You should aim to complete the task... You should aim to finish the task at the pace with which you would normally use the system.... The instructions for the task show the maximum time reserved for the task. You should aim to finish within that time frame". 

Mielestäni on kyseenalaista kertoa käyttäjälle maksimiaika, sanoa, että hänen pitäisi selvitä tuossa ajassa jne. Parempi tapa on yksinkertaisesti pyytää käyttäjää tekemään parhaansa. Eikä sen kummemmin kertoa ajan mittaamisesta, tavoiteajoista tms.

3. Liian johdattelevia tehtävämäärittelyjä. Vaikkapa ensimmäinen: "A conference article that you wrote has been published. Enter the article details manually in the system. Then navigate to your publication view to see the new publication." 

Miksi "yksityiskohdat" (article details)? Olettaisin, että pitäisi riittää yleisempi ilmaisu, esim. "enter the article information" (järjestelmän pitäisi johdattaa käyttäjää siihen, että käyttäjä laittaa sinne tiedot tarvittavalla yksityiskohtaisuuden tasolla)

Miksi käsketään menemään näkymään "publication view", joka on selvästi johdatteleva pyyntö? Ja mahdollisesti ei tasapuolinen, jos jossakin järjestelmässä käytetään jotain muuta termiä. Mieluummin loppuun esim. "Finish the task when you think you have done it successfully". 

3 kommenttia:

  1. Tämä on vain Timon testikommentti

    VastaaPoista
  2. Ehkä jaksan jossain välissä kommentoida kirjoitusta tarkemmin, mutta tässä vaiheessa kommentoin vain analyysivaihetta 1, sillä siitä on minulla aika fundamentaalisti erilainen näkemys.

    Ensiksi disclaimerit:
    Käytettävyydestä ja sen arvioinnista en tiedä mitään, mutta julkisista IT-hankinnoista ja sen problematiikasta sitäkin enemmän – kokemusta on vajaa 10 vuotta josta puolet toimittajan ja puolet tilaajan puolelta.
    Olen myös tämän tapauksen vastuullinen valmistelija hankintabyrokratian osalta, mihin kuului käytettävyysarvioinnin sovittaminen lainsäädäntöön ja oikeustulkintaan sopivaksi. Katselen asiaa siis huomattavan värittyneiden silmälasien läpi. Itse mallit käytettävyysarviointiin kehitettiin Aalto-yliopistossa yhteistyössä käytettävyys tutkijoiden, IT-väen, substanssiasiantuntijoiden ja hankintabyrokraattien toimesta.

    Sitten asiaan:
    Jokela on saarnannut demoilla tehtävää käytettävyyden arviointia vastaan jo pitkään ja pystyn näin amatöörinä ymmärtämään hyvin hänen esittämänsä ongelmat siitä että tulokset eivät varmasti ole absoluuttisen oikeita.

    Julkista hankintaa tehdessä pitää toisaalta ymmärtää, että mitään absoluuttisen oikeita arvoja ei vertailuissa edes haeta, vaan merkityksellisiä eroja eri tarjoajien välille. Tähän demot soveltuvat mielestäni vallan hyvin. Demoilla tehtävä arviointi mittaa mielestäni kahta asiaa:
    1. Tuotteen yleistä käytettävyyden tasoa, eli onko se ylipäätään fiksusti suunniteltu ja kehityskelpoinen yksilö
    2. Toimittajan halua ja kykyä toteuttaa käytettäviä järjestelmiä
    Ensimmäinen on tuotteen ominaisuus jolle saattaa olla tuotteesta riippuen hyvin vaikeaa tehdä mitään ratkaisevasti tilannetta muuttavaa ilman hyvin suurta työtä. Jos tällä saamme eroteltua kehityskelpoisimman tuotteen ja karsittua toivottomimman tapaukset, olemme jo pitkällä.
    Toisen vaikutusta ei myöskään pidä aliarvioida. Jos toimittaja ei ymmärrä millaiseen käyttöön ja millaisille käyttäjille hän on tuotettaan tarjoamassa ja/tai toimittaja ei viitsi tarjousvaiheessa panostaa demon käytettävyyteen, joka on selvästi ilmoitettu vertailukriteeriksi, ei toimittaja todennäköisesti ole ylipäätään oikea valinta. Toisaalta taas toimittaja, joka osaa tuunata demonsa sellaiseksi että kerrotut käyttötapaukset ovat käytettäviä, osaa selvästi asiansa ja pystyy todennäköisesti muutenkin tuottamaan helppokäyttöisiä ratkaisuja.
    Näiden kahden yhdistelmänä voidaan ns. toivottomat tapaukset saada karsittua pois markkinaoikeudessa pitävin hylkäyskriteerein. Tämän päälle voidaan sitten pisteyttää tarjoukset, eli mitä paremmin pärjäät, sen enemmän tilaaja on valmis maksamaan.

    Yllä kerrottu perustuu kokemuksiin reilusta puolesta kymmenestä IT-järjestelmien kilpailutuksista, joissa olemme demoilla tapahtuvaa arviointia käyttäneet. Mallin puutteista huolimatta tulokset, eli erot eri tarjottujen ratkaisujen välillä, ovat vastanneet hyvin käyttäjien kokemuksia, eli todellisuutta. Lisäksi malli on tehokkaasti karsinut täysin toivottomia tapauksia.

    Oma näkökantani on siis se että parempi ottaa käytettävyys huomioon jo valintavaiheessa, vaikka siihen tiettyjä epävarmuuksia ja riskejä sisältyykin. Siinä vaiheessa, kun toimittaja on valittu ja tuote konfiguroitu, on auttamatta liian myöhäistä.

    Käytettävyysteoreettisesti malli saattaa siis olla ongelmallinen, mutta reaalimaailmassa tulokset ratkaisevat, ei se kuinka hienoa reittiä niihin päästään! Puutteistaan huolimatta demoilla tapahtuvat arvioit näyttävät siis tuottavan hyviä tuloksia, kuten kävi tässäkin tapauksessa!

    Jukka Katainen
    Hankinta-asiantuntija, Aalto-yliopisto

    VastaaPoista
  3. Kiitos Jukka kommenteista!

    Minun kirjoitukseni lähtökohta on se, että tarjouspyyntöön pitäisi määrittää käytettävyydelle - niin kuin muillekin laatuominaisuuksille - "riittävä" taso pakollisiin vaatimuksiin.

    Ja tuon riittävän tason varmistamiseksi on käytettävä sellaisia menetelmiä, että oikeasti valitaan järjestelmä, joka täyttää tuon halutun riittävän tason. Että menetelmän mahdollisen epätarkkuuden vuoksi ei päädyttäsi sellaisen järjestelmän valintaan, minkä käytettävyys on liian huono meille.

    (On sitten eri keskustelun aihe, miten määrittää tuo "riittävä" taso)

    VastaaPoista