
Vat dit blogbericht samen met:
Tegenwoordig bestaat een overweldigend groot deel van de informatie in de wereld in tekstvorm: bedrijfsgegevens, overheidsdocumenten, juridische documenten, berichten op sociale media, klinische onderzoeken, medische archieven, e-mails en nog veel meer.
De snelle toename van digitale teksten (op internet en intranetten) zorgt voor een groeiende behoefte aan tekstanalyse. Dit roept de vraag op naar een slimmere manier om teksten te lezen en te begrijpen, en uiteindelijk om er kennis uit te halen.
Ondanks de vele transformaties die het geschreven woord heeft ondergaan – van de oudst bewaard gebleven inscripties op kleitabletten tot de huidige verbazingwekkende hoeveelheid documentatie, opgeslagen in cloudsystemen (of andere archieven) – is één ding onveranderd gebleven: de informatie die onze tekstuele bronnen bevatten, is slechts zo goed als ons vermogen en onze instrumenten om die informatie te extraheren en te interpreteren.
Volgens Wikipedia is tekstanalyse het proces waarbij ongestructureerde tekstdocumenten worden omgezet in bruikbare, gestructureerde data. Tekstanalyse werkt door zinnen en woordgroepen op te splitsen in hun componenten en vervolgens de rol en betekenis van elk onderdeel te evalueren met behulp van complexe softwareregels en machine learning-algoritmen.
Enkele decennia geleden bestond tekstanalyse uit eenvoudige taken zoals het berekenen van woordfrequenties. De afgelopen jaren hebben technologieën op het gebied van kunstmatige intelligentie, zoals natuurlijke taalverwerking (NLU) en machinaal leren, en technieken zoals deep learning de effectiviteit van tekstanalyse aanzienlijk verbeterd.
Ongeveer 80% van de data binnen een organisatie bestaat uit tekstbestanden , zoals rapporten, webpagina's, e-mails, notities van callcenters, enzovoort. Tekst is een cruciale factor voor een organisatie om het gedrag van haar klanten beter te begrijpen.
Tegenwoordig helpt het organisaties om hun klanten beter te begrijpen, de behoeften en het koopgedrag van klanten te bepalen door gegevens uit verschillende bronnen te analyseren.
Modeketen H&M heeft oplossingen voor tekstmining ingezet om de reacties van klanten op haar socialemediakanalen te analyseren. Hierdoor krijgt het bedrijf een beter inzicht in de voorkeuren van klanten en kan het gepersonaliseerde advertenties aanbieden om nieuwe klanten te bereiken en zo de winst te verhogen.
Tekstmining/tekstanalyse wint aan belang omdat het federale instanties en nationale veiligheidsdiensten in staat stelt het gedrag van burgers te monitoren op mogelijke terroristische dreigingen. Naarmate veiligheidsdiensten tekstanalyseoplossingen inzetten om potentiële bedreigingen en aanstootgevend materiaal op sociale media te analyseren, zal de vraag naar tekstminingoplossingen de komende tijd sterk toenemen. Een andere factor die bijdraagt aan het marktaandeel van tekstanalyse is de toenemende inzet van tekstminingoplossingen voor fraudedetectie.
China Life Insurance heeft software voor tekstmining ingezet om informatie uit verzekeringsclaims te extraheren. Deze technologie stelt het bedrijf in staat de afhandeling van verzekeringsclaims te automatiseren en frauduleuze claims op te sporen door ze te vergelijken met gebruiksscenario's.
Technieken
Tekstanalysetechnieken kunnen worden opgevat als de processen die nodig zijn om tekst te analyseren en er inzichten uit te halen. Deze tekstanalysetechnieken maken doorgaans gebruik van verschillende tools en applicaties voor de uitvoering ervan.
Laten we nu eens kijken naar de verschillende tekstminingtechnieken:
Informatie-extractie
Dit is de meest populaire tekstminingtechniek. Informatie-uitwisseling verwijst naar het proces van het extraheren van betekenisvolle informatie uit grote hoeveelheden tekstuele data. Deze tekstminingtechniek richt zich op het identificeren en extraheren van entiteiten, attributen en hun relaties uit semi-gestructureerde of ongestructureerde teksten. Alle geëxtraheerde informatie wordt vervolgens opgeslagen in een database voor toekomstige toegang en retrieval. De effectiviteit en relevantie van de resultaten worden gecontroleerd en geëvalueerd met behulp van precisie- en recall-parameters.
Clustering
Clustering is een van de meest cruciale tekstminingtechnieken. Het doel is om intrinsieke structuren in tekstuele informatie te identificeren en deze te ordenen in relevante subgroepen of 'clusters' voor verdere analyse. Een belangrijke uitdaging in het clusteringproces is het vormen van betekenisvolle clusters uit ongelabelde tekstuele data, zonder voorafgaande informatie. Clusteranalyse is een standaardtool voor tekstmining die helpt bij de dataverdeling of fungeert als een voorverwerkingsstap voor andere tekstminingalgoritmen die op de gedetecteerde clusters draaien.
Samenvatting
Tekstsamenvatting verwijst naar het proces waarbij automatisch een gecomprimeerde versie van een specifieke tekst wordt gegenereerd die waardevolle informatie voor de eindgebruiker bevat. Deze tekstminingtechniek is erop gericht om meerdere tekstbronnen te doorzoeken en samenvattingen te maken van teksten die een aanzienlijk deel van de informatie in een beknopte vorm bevatten, waarbij de algemene betekenis en intentie van de originele documenten vrijwel behouden blijven. Tekstsamenvatting integreert en combineert verschillende methoden die gebruikmaken van tekstcategorisatie, zoals beslissingsbomen, neurale netwerken, regressiemodellen en zwermintelligentie.
Categorisatie
Dit is een van die tekstminingtechnieken die een vorm van 'begeleid' leren is, waarbij teksten in normale taal worden toegewezen aan een vooraf gedefinieerde set onderwerpen op basis van hun inhoud. Categorisatie, ofwel natuurlijke taalverwerking (NLP), is dus een proces van het verzamelen, verwerken en analyseren van tekstdocumenten om de juiste onderwerpen of indexen voor elk document te vinden.
De co-referentiemethode wordt vaak gebruikt binnen NLP om relevante synoniemen en afkortingen uit tekstuele data te halen. Tegenwoordig is NLP een geautomatiseerd proces dat in tal van contexten wordt toegepast, van gepersonaliseerde reclame tot spamfiltering en het categoriseren van webpagina's op basis van hiërarchische definities, en nog veel meer.
De snelgroeiende technologie dringt door in de industrie. Dit leidt tot diverse toepassingen voor tekstmining. Hieronder volgen enkele voorbeelden van tekstmining-toepassingen die wereldwijd worden gebruikt:
Kennismanagement
In veel sectoren, zoals de gezondheidszorg, is het beheren van enorme hoeveelheden tekstuele informatie een probleem geworden. Stel je voor dat je alle documenten met betrekking tot de gezondheidszorg op één rek zou plaatsen, verticaal schaalbaar, dan zou het waarschijnlijk tot de maan reiken. De hoeveelheid informatie die elk uur wordt verzameld is enorm. Al deze gegevens moeten zodanig worden opgeslagen dat ze op elk gewenst moment kunnen worden opgevraagd. Het kan bijvoorbeeld voorkomen dat er een epidemie uitbreekt en ziekenhuizen hun gegevens moeten coördineren om de bron of de eerste besmette persoon te lokaliseren. Zo'n enorme operatie zou onmogelijk zijn zonder de hulp van goede tekstanalysesystemen die de gegevens en informatie beheren en in een gestructureerde, boomstructuurachtige vorm bewaren. Hierdoor kunnen mensen de gegevens op elke gewenste manier raadplegen – op basis van regio, geslacht, ziekte, enzovoort. Het onvermogen om snel belangrijke informatie te vinden kan dergelijke organisaties die met grote hoeveelheden tekstdocumenten werken, ernstig belemmeren.
Sociale media-analyse
Er bestaan veel tools voor tekstmining die specifiek zijn ontworpen voor het analyseren van de prestaties van sociale mediaplatformen. Deze tools helpen bij het volgen en interpreteren van online gegenereerde teksten, zoals nieuwsberichten, blogs, e-mails, enzovoort. Bovendien kunnen tools voor tekstmining efficiënt het aantal berichten, likes en volgers van uw merk op sociale media analyseren, waardoor u inzicht krijgt in de reactie van mensen die interactie hebben met uw merk en online content. De analyse stelt u in staat te begrijpen wat wel en niet aanslaat bij uw doelgroep.
Klantenservice
Tekstminingtoepassingen, met name NLP (Natural Language Processing), worden steeds belangrijker in de klantenservice. Bedrijven investeren in software voor tekstanalyse om de algehele klantervaring te verbeteren door toegang te krijgen tot tekstuele data uit diverse bronnen, zoals enquêtes, klantfeedback en telefoongesprekken met klanten. Tekstanalyse is erop gericht de reactietijd van het bedrijf te verkorten en klachten van klanten snel en efficiënt af te handelen.
Fraudebestrijding
Tekstanalyse, ondersteund door tekstminingtechnieken, biedt enorme mogelijkheden voor sectoren die het merendeel van hun data in tekstvorm verzamelen. Verzekerings- en financiële bedrijven benutten deze mogelijkheid optimaal. Door de resultaten van tekstanalyse te combineren met relevante gestructureerde data, kunnen deze organisaties nu claims sneller verwerken en fraude opsporen en voorkomen.
Risicomanagement
Een van de belangrijkste oorzaken van mislukkingen in het bedrijfsleven is het gebrek aan of onvoldoende risicoanalyse. Het implementeren en integreren van risicomanagementsoftware met behulp van tekstminingtechnologieën zoals SAS Text Miner kan bedrijven helpen om op de hoogte te blijven van de actuele trends in de markt en hun vermogen om potentiële risico's te beperken te vergroten. Omdat tekstminingtools en -technologieën relevante informatie kunnen verzamelen uit duizenden tekstbronnen en verbanden kunnen leggen tussen de verkregen inzichten, stelt dit organisaties in staat om op het juiste moment over de juiste informatie te beschikken, waardoor het gehele risicomanagementproces wordt verbeterd.
De markt voor tekstanalyses zal naar verwachting met 8,77 miljard dollar groeien tussen 2020 en 2024, met een samengesteld jaarlijks groeipercentage (CAGR) van meer dan 20% gedurende de prognoseperiode.
De wereldwijde lockdown heeft geen impact gehad op de markt voor tekstanalyse, omdat de werkzaamheden in de IT-sector over het algemeen vanuit huis worden uitgevoerd. Hierdoor blijft de vraag naar tekstanalyse in de diverse toepassingen wereldwijd constant.
Bovendien is tekstanalyse tijdens de coronapandemie nuttig gebleken in de gezondheidszorgsector voor het verkennen van informatie over het coronavirus. Tekstanalyse is software die helpt om uit ongestructureerde tekst bruikbare tekstdata te creëren, trends te identificeren en inzichten en patronen te ontdekken.
De technologie zal naar verwachting de komende jaren aan populariteit winnen dankzij haar vermogen om consumentengedrag te voorspellen. De technologie wordt gebruikt in uiteenlopende toepassingen, waaronder merkreputatiemanagement, marktonderzoek, concurrentieanalyse en klantenservice.
Grote spelers op de markt, zoals Brandwatch, SAS, IBM Corporation, HP en anderen, richten zich op het integreren van tekstanalysemogelijkheden zoals NLP in diverse bedrijfsapplicaties voor een efficiënter bedrijfsproces.
In deze blog hebben we je een beknopt overzicht gegeven van wat er in tekstanalyses gebeurt, zonder al te diep op de materie in te gaan. We hopen dat dit informatieve artikel je heeft geholpen de basisprincipes van tekstmining en de toepassingen ervan in de branche te begrijpen.