sonart design
interaktionsdesign ljud applikationer personer länkar
processen
ljudgränssnitt 1
redesign reason
veckokrönikor

Varför ljudgränssnitt?

(2004-06-15)Det här är den första i en serie artiklar om mina erfarenheter av att utveckla applikationer med ljudgränssnitt. År 2000 till 2001 arbetade jag på Pipebeach AB, som bl a utvecklade en röstportal åt dåvarande Europolitan, numera Vodafone.

Oavsett vilken typ av tjänst eller applikation man ska bygga finns det några frågor som bör ställas och som måste ha åtminstone hyggligt trovärdiga svar innan tjänsten börjar utformas. Om användargränssnittet i huvudsak bygger på ljud borde resultatet bli ungefär så här.

Varför ska man ha en talstyrd applikation eller tjänst?

Man ska ha en talstyrd tjänst därför att användaren av någon anledning bara kan använda rösten för att utnyttja tjänsten. Typiskt är när användaren av någon anledning inte kan använda händerna. Hon kanske gör något så att båda händerna är upptagna eller så har hon något funktionshinder. Ett annat typisk situation är när användaren inte kan använda möjlig visuell feedback. Även det kan bero på sysselsättning eller funktionshinder.

När är den bra?

Om användaren inte har något funktionshinder som hindrar henne från att kontrollera tjänsten på annat sätt än med röst och hörsel så kanske någon aktivitet tvingar henne, hon kanske kör bil, cyklar, går, arbetar sittande i en telefonstolpe eller liknande.

När är den inte bra?

Typiskt är offentliga rum, dels därför att det ställer stora krav på ASR:en (Automatic Speech Recognition) att särskilja riktiga kommandon från sorl, brus och buller, men också därför att röststyrning effektivt avslöjar för omgivningen vad användaren försöker göra.

Vad gör den bra?

Det finns ingenting som automatiskt gör en röststyrd tjänst bra. Sammanhanget den används i och hur den utformas kan göra den bra. Självklart kan tyckas, men glöms likväl ofta bort. Sammanhang där den fyller en funktion och därför blir bra, är t ex de i svaren på tidigare frågor. En bra utformad ljudapplikation kräver heller inte av användaren att komma ihåg rätt kommandon - applikationens egna svar framkallar istället ”rätt” kommandon från användaren. I teorin finns förstås en inbyggd kvalité i ljudgränssnitt att man helt kan bortse från hierarkier som är så vanliga i andra typer av användargränssnitt. I praktiken ställer det dock orimliga krav på ASR:en eller en tämligen utvecklad AI (artificiell intelligens) i programmet för att göra rätt semantisk tolkning av användarens kommandon. Semantiken i ett kommando (som både kan vara ett eller flera ord eller t o m flera meningar) bestäms ju i väldigt hög grad av sammanhanget.
Något som inte ska underskattas är värdet av antropomorfism, vår förmåga att ge även livlösa ting levandes egenskaper - det är klart att det är roligt att ”prata” med ett dataprogram - vi är ju först och främst sociala varelser.

Vilka behov fyller tjänsten?

Funktionshindrade användares behov är uppenbart. Andra behov är när användaren simultant gör andra saker, går, cyklar, kör bil, arbetar med båda sina händer t ex. Ett inte helt uppenbart behov hade en Irländsk firma hittat, jurister som på det sättet kunde få en snabb automatisk diktamenstjänst, applikationen skrev ”ner” juristens muntliga anteckningar medan hon var på väg mellan två förhandlingar.
Ett behov som man kanske kan diskutera det etiska i är vårt behov av att socialisera oss - det är inte otroligt att en del användare lättare skulle kunna bli ”vän” med ett program som går att ”prata” med. Om det är bra eller dåligt är inte lätt att svara på, men definitivt något man måste ta ställning till vid utformningen av en talstyrd tjänst.