Onderzoekers van de Ben-Gurion Universiteit in de Negev-woestijn hebben een software ontwikkeld die teksten in verschillende talen automatisch kan samenvatten om lezers te helpen artikelen, tijdschriften, databases en academisch onderzoek sneller en efficiënter door te nemen.
Een enorme toename van tekstuele gegevens online, in combinatie met het feit dat veel mensen altijd weinig tijd hebben, heeft de behoefte gecreëerd aan een geautomatiseerde methode voor het extraheren van belangrijke punten uit teksten, zoals artikelen of interviews, voor verdere verwerking.
De meeste oplossingen die vandaag beschikbaar zijn, zijn taalafhankelijk en vereisen training van de algoritmen op grote hoeveelheden tekst, aldus de onderzoekers.
De nieuwe software – uitgevonden door prof. Mark Last, dr. Marina Litvak en dr. Menahem Friedman van de afdeling Software and Information Systems Engineering van de Ben-Gurion University – biedt taal onafhankelijke samenvattingen van teksten, gebaseerd op een optimalisatie van het algoritme dat het proces gebruikt met een natuurlijke selectie, een zogenaamd ‘genetisch algoritme’ dus.
De software selecteert een subset van de meest relevante zinnen uit een brontekst, rangschikt ze op een relevantie score die onafhankelijk is van de taal, en selecteert de zinnen met de hoogste rangorde in een samenvatting, aldus prof. Last in de verklaring van BGN Technologies, de technologie arm van de universiteit.
‘De mogelijkheid om snel grote hoeveelheden tekst op een taalonafhankelijke manier samen te vatten is cruciaal voor zoekmachines en andere eindgebruikers, zoals onderzoekers, bibliotheken en de media,’ zegt de professor.
De methode wordt ‘Multilingual Zin Extractor’ (MUZE) genoemd, en werd getest in negen talen: Engels, Hebreeuws, Arabisch, Perzisch, Russisch, Chinees, Duits, Frans en Spaans. De resultaten toonden een hoge mate van gelijkenis met door mensen gegenereerde samenvattingen, leest de verklaring.
De wetenschappers hebben de algoritmen ‘getraind’ met behulp een groep documenten die elk verschillende, door mensen gegenereerde samenvattingen bevatten. Nadat de training was beëindigd, ontdekten de onderzoekers dat de software niet opnieuw hoefde te worden bijgeschoold met samengevatte documenten voor elke nieuwe taal, en hetzelfde model voor het rangschikken van zinnen dat ze ontwikkelden, kon in de verschillende talen worden gebruikt.
Zafrir Levy, senior VP Business Development van BGN Technologies, zegt dat de tool ‘een waardevolle aanvulling zal zijn op ons vermogen om te profiteren van de enorme hoeveelheid teksten die online beschikbaar zijn.’
BGN Technologies heeft een patent ingediend om de technologie te beschermen en is op zoek naar potentiële partners voor verdere ontwikkeling en commercialisering.