Een computer kan beter liplezen dan de mens. Twee projecten van Oxford University laten zien dat lerende programma's snel en accuraat mondbewegingen kunnen vertalen in tekst.


De computer bekijkt de beelden, vindt de bewegende lippen en analyseert de beweging. Normaal gesproken werkt dergelijke gezichtsherkenning met stilstaande beelden. Voor liplezen heeft dat echter geen zin; om te begrijpen wat iemand zegt moet je minstens een hele zin bekijken, zodat je de context van bepaalde mondbewegingen snapt. Onze monden staan immers niet bij elk woord op een unieke manier; er is veel overlap.

Daarom bekijken de algoritmen van de onderzoekers uit Oxford beelden over langere tijd. Zo zien ze de variatie in mondbewegingen en aan de hand daarvan leiden ze de context af. Na een heleboel trainen zijn de programma's uiteindelijk in staat om uitstekend te liplezen.
 


Nauwkeurig

Het eerste programma was een echt labexperiment. Het gebruikte een database van pratende mensen in perfecte lichtomstandigheden, recht van voren gefilmd en langzaam sprekend. Het algoritme haalde daar een nauwkeurigheid van 93 %; in die gevallen werden de juiste woorden herkend. Getrainde menselijke liplezers, die dezelfde database gebruikten, haalden slechts 52 %.

Het andere project richtte zich meer op de echte wereld. Het algoritme analyseerde 100.000 zinnen uit 5.000 uur aan televisiebeelden, afkomstig van de Britse zender BBC. Het bekeek filmpjes met het geluid aan en leerde zo welke mondbeweging bij welke klank hoort. Vervolgens moest het een deel van de dataset liplezen zonder geluid of ondertitels.

Dit onderzoek deed Oxford in samenwerking met Deepmind, het Google-bedrijf dat al verschillende grote machine learning-projecten voltooide. Hun grootste prestatie was de Go-computer die een kampioen wist te verslaan (zie ons artikel 'Computer verslaat mens met 4-1 bij Go').
 

Rommelig

De BBC-filmpjes waren rommeliger; mensen praten vaak niet direct de camera in, ze mompelen af en toe of de verlichting is net anders. Daarmee valt te verklaren dat de nauwkeurigheid in dat onderzoek op 46 % bleef steken. Ook hier zaten ze echter veel beter dan één professionele liplezer, die 12 % van 200 willekeurig uitgekozen zinnen juist wist te interpreteren.

Liplees-algoritmen kunnen handig zijn voor iedereen die moeite heeft om dingen te verstaan. Ondertitels ontbreken bijvoorbeeld vaak bij programma's op de commerciële omroep. Ook bij Skype-gesprekken met veel ruis of een onrustige omgeving kan een liplees-algoritme ervoor zorgen dat iedereen elkaar beter begrijpt.

 

Vond je dit een interessant artikel, abonneer je dan gratis op onze wekelijkse nieuwsbrief.