|
(2004-06-15)Det här är den första i
en serie artiklar om mina erfarenheter av att utveckla applikationer med
ljudgränssnitt. År 2000 till 2001 arbetade jag på Pipebeach AB,
som bl a utvecklade en röstportal åt dåvarande Europolitan,
numera Vodafone.
Oavsett vilken typ av tjänst eller applikation man ska bygga finns det några
frågor som bör ställas och som måste ha åtminstone hyggligt trovärdiga svar
innan tjänsten börjar utformas. Om användargränssnittet i huvudsak bygger på
ljud borde resultatet bli ungefär så här.
Varför ska man ha en talstyrd applikation eller tjänst?
Man ska ha en talstyrd tjänst därför att användaren av någon anledning bara kan
använda rösten för att utnyttja tjänsten. Typiskt är när användaren av någon
anledning inte kan använda händerna. Hon kanske gör något så att båda händerna
är upptagna eller så har hon något funktionshinder. Ett annat typisk situation
är när användaren inte kan använda möjlig visuell feedback. Även det kan bero
på sysselsättning eller funktionshinder.
När är den bra?
Om användaren inte har något funktionshinder som hindrar henne från att kontrollera
tjänsten på annat sätt än med röst och hörsel så kanske någon aktivitet tvingar
henne, hon kanske kör bil, cyklar, går, arbetar sittande i en telefonstolpe eller
liknande.
När är den inte bra?
Typiskt är offentliga rum, dels därför att det ställer stora krav på ASR:en
(Automatic Speech Recognition) att särskilja riktiga kommandon från sorl, brus och
buller, men också därför att röststyrning effektivt avslöjar för omgivningen vad
användaren försöker göra.
|
 |
Vad gör den bra?
Det finns ingenting som automatiskt gör en röststyrd tjänst bra. Sammanhanget den
används i och hur den utformas kan göra den bra. Självklart kan tyckas, men glöms
likväl ofta bort. Sammanhang där den fyller en funktion och därför blir bra, är
t ex de i svaren på tidigare frågor. En bra utformad ljudapplikation kräver heller
inte av användaren att komma ihåg rätt kommandon - applikationens egna svar
framkallar istället rätt kommandon från användaren. I teorin finns förstås en
inbyggd kvalité i ljudgränssnitt att man helt kan bortse från hierarkier som är så
vanliga i andra typer av användargränssnitt. I praktiken ställer det dock orimliga
krav på ASR:en eller en tämligen utvecklad AI (artificiell intelligens) i
programmet för att göra rätt semantisk tolkning av användarens kommandon.
Semantiken i ett kommando (som både kan vara ett eller flera ord eller t o m flera
meningar) bestäms ju i väldigt hög grad av sammanhanget.
Något som inte ska underskattas är värdet av antropomorfism, vår
förmåga att ge även livlösa ting levandes egenskaper - det är klart att det
är roligt att prata med ett dataprogram - vi är ju först och främst
sociala varelser.
Vilka behov fyller tjänsten?
Funktionshindrade användares behov är uppenbart. Andra behov är när användaren
simultant gör andra saker, går, cyklar, kör bil, arbetar med båda sina händer t ex.
Ett inte helt uppenbart behov hade en Irländsk firma hittat, jurister som på det
sättet kunde få en snabb automatisk diktamenstjänst, applikationen skrev ner
juristens muntliga anteckningar medan hon var på väg mellan två förhandlingar.
Ett behov som man kanske kan diskutera det etiska i är vårt behov av att socialisera
oss - det är inte otroligt att en del användare lättare skulle kunna bli vän med
ett program som går att prata med. Om det är bra eller dåligt är inte lätt att
svara på, men definitivt något man måste ta ställning till vid utformningen av en
talstyrd tjänst.
|