Som enhver, der nogensinde har været i et forhold, vil fortælle dig, er menneskelige følelser et kompliceret koncept. Dette gælder især for marketingfolk, der forsøger at forstå de kvalitative fordele - værdien, der går ud over grundlæggende funktionalitet - ved deres produkt eller service. Det er ikke svært at forstå, hvad dit produkt gør, men ved du, hvordan det får dine forbrugere til at føle sig?



Det ville du gøre, hvis du brugte en social lytteresentimentanalyse til at destillere din målgruppes ufiltrerede sociale medieovervejelser til handlingsmæssig strategisk indsigt. At tage alle de sociale data tilgængelige på tværs af Twitter og kategorisering af det for positive, negative eller neutrale følelser er en vigtig opgave, og ingen to metoder skabes ens. Derfor byggede HASHTAGS et hybrid sentimentanalysesystem, der kombinerer de to primære tilgange, Rule Lists og Machine Learning.



Regellister

En af de enkleste måder at tackle sentimentanalyse er ved hjælp af menneskeskabte regler eller ordbøger. Med denne tilgang er systemet afhængig af en liste over ord eller sætninger, der direkte kortlægges til et specifikt sentiment. For eksempel kan enhver Tweet, der indeholder ordet 'high five', mærkes som positiv, mens et Tweet, der indeholder 'horrible', ville være negativt. Systemer som dette er meget tilpasselige og kan udvides til at omfatte tusindvis af ord- og sætningsregler.

På bagsiden kæmper regelsystemer med tweets, der matcher modstridende regler, såsom 'Filmen var ikke så forfærdelig, som jeg forventede.' Her kan 'forfærdelig' mærkes negativt, mens 'forventet' ville være positivt. De modstridende regler mærker Tweet som neutralt, mens nogle menneskelige læsere fortolker det som lidt positivt og andre lidt negativt.

En yderligere begrænsning af regelbaserede systemer er afhængigheden af ​​menneskelig indsats og forståelse. Sprog udvikler sig hurtigt (især på Twitter), og et regelbaseret system kræver, at nogen leverer en jævn strøm af nye termer og sætninger. Opdatering af et følelsessystem er ikke altid en topprioritet, og et system kan hurtigt blive forældet. Selv med opmærksom overvågning kan det være svært at identificere skiftende sproglige tendenser og bestemme, hvornår nye regler skal tilføjes.

Maskinelæring

Mere avancerede sentimentanalysesystemer bruger Maskinelæring (ML) teknikker (undertiden også kaldet kunstig intelligens eller Naturlig sprogbehandling ). Machine Learning er en familie af teknikker, der bruger statistik og sandsynlighed for at identificere komplekse mønstre, der kan bruges til at mærke genstande.

I modsætning til regelbaserede systemer er ML-systemer fleksible nok til at opdage ligheder, der ikke umiddelbart er synlige for et menneske. Ved at se på mange, mange eksempler lærer systemet mønstre, der typisk er forbundet med positive, negative eller neutrale følelser.



For eksempel kan et ML-sentimentanalysesystem finde ud af, at tweets, der indeholder ordet 'regn' og slutter med et udråbstegn, er negative, mens tweets med 'regn' og to udråbstegn er positive. Et menneske bemærker måske ikke dette mønster eller forstår hvorfor det sker, men et ML-system kan bruge det til at komme med meget nøjagtige forudsigelser.

Mens Machine Learning-systemer kan give gode resultater, har de et par mangler. Når der er meget variation i sproget, kan det være svært for et ML-system at sigtes gennem støj for at vælge mønstre. Når der findes stærke mønstre, kan de overskygge mindre almindelige mønstre og få ML-systemet til at ignorere subtile signaler.

Sprout's Approach

For at opbygge vores sentimentanalysesystem designede vi et hybridsystem, der kombinerer det bedste fra både regelbaseret og maskinindlæringsmetoder. Vi analyserede titusinder af tweets for at identificere steder, hvor ML-modeller kæmper, og vi introducerede regelbaserede strategier for at hjælpe med at overvinde disse mangler.



Ved at supplere statistiske modeller med menneskelig forståelse har vi bygget et robust system, der fungerer godt i en lang række indstillinger.

spire sentiment analyse

Alt om nøjagtighed

På overfladen virker sentimentanalyse ret ligetil - bare beslut om en Tweet er positiv, negativ eller neutral. Menneskeligt sprog og følelser er dog komplicerede, og detektering af følelser inden for en Tweet afspejler denne kompleksitet.

Overvej disse tweets. Er de positive, negative eller neutrale?

https://twitter.com/alex/status/917406154321420289

Du føler dig muligvis sikker på dine svar, men chancerne er gode, at ikke alle er enige med dig. Forskning har vist, at folk kun er enige i følelsen af ​​tweets 60-80% af tiden.

Du er måske skeptisk. Det var vi også.

For at teste det ud, to medlemmer af vores Data Science team mærket nøjagtigt det samme sæt af 1.000 tweets som positive, negative eller neutrale. Vi regnede med, ”vi arbejder med tweets hver dag; vi vil sandsynligvis have en næsten perfekt aftale mellem os to. ”

Vi beregnede resultaterne og derefter dobbelt- og tredobbeltkontrolleret dem. Forskningen var spot-on - vi var kun enige om 73% af tweets.

Udfordringer i sentimentanalyse

Forskning (sammen med vores lille eksperiment) viser, at følelsesanalyse ikke er ligetil. Hvorfor er det så vanskeligt? Lad os gå igennem et par af de største udfordringer.

Sammenhæng

Tweets er et lille øjebliksbillede. Mens nogle står alene, er tweets ofte en del af en løbende samtale eller referenceinformation, der kun giver mening, hvis du kender forfatteren. Uden disse spor kan det være svært at fortolke en forfatters følelser.

Sarkasme

Sarkasmedetektion er en anden smag af kontekstudfordringen. Uden yderligere information forveksler sentimentanalysesystemer ofte den bogstavelige betydning af ord med, hvordan de er beregnet. Sarkasme er et aktivt område inden for akademisk forskning, så vi kan se systemer i den nærmeste fremtid, der forstår snark.

Sammenligninger

Sentiment bliver også vanskeligt, når tweets foretager sammenligninger. Hvis jeg foretager markedsundersøgelse af grøntsager og nogen tweets, er 'Gulerødder bedre end squash', er denne Tweet positiv eller negativ? Det afhænger af dit perspektiv. Tilsvarende kan nogen tweet: “Virksomhed A er bedre end virksomhed B.” Hvis jeg arbejder for firma A, er dette Tweet positivt, men hvis jeg er sammen med firma B, er det negativt.

Emojis

Emojis er et helt eget sprog . Mens emojier som udtrykker et ret åbenlyst synspunkt, er andre mindre universelle. Under opbygningen af ​​vores sentimentanalysesystem kiggede vi nøje på, hvordan folk bruger emojis, idet vi fandt, at selv almindelige emojier kan forårsage forvirring. bruges næsten lige så meget til at betyde 'så glad, jeg græder' eller 'så trist, jeg græder.' Hvis mennesker ikke kan være enige om betydningen af ​​en emoji, kan heller ikke et sentimentanalysesystem gøre det.

Definition af Neutral

Selv 'neutral' stemning er ikke altid ligetil. Overvej en nyhedsoverskrift om en tragisk begivenhed. Mens vi alle er enige om, at begivenheden er forfærdelig, er de fleste nyhedsoverskrifter beregnet til at være faktiske, informative udsagn. Sentimentanalysesystemer er designet til at identificere følelserne hos forfatteren af ​​indholdet, ikke læsernes svar. Selv om det kan virke underligt at se forfærdelige nyheder mærket 'neutral', afspejler det forfatterens hensigt om at kommunikere faktiske oplysninger.

Sentimentanalysesystemer varierer også i, hvordan neutral defineres. Nogle anser neutralt for at være en alt-i-en-kategori for ethvert Tweet, hvor systemet ikke kan vælge mellem positivt eller negativt. I disse systemer er 'neutral' synonymt med 'Jeg er ikke sikker.' I virkeligheden er der dog mange tweets, der ikke udtrykker følelser, som eksemplet nedenfor.

Vores system klassificerer eksplicit ikke-følelsesmæssige tweets som neutrale snarere end at bruge neutral som standardmærke til tvetydige tweets.

Evaluering af sentimentanalyse

Med så mange udfordringer i sentimentanalyse lønner det sig at lave dit hjemmearbejde, før du investerer i et nyt værktøj. Leverandører prøver at hjælpe med at skære igennem kompleksiteten ved at fokusere på statistikker om nøjagtigheden af ​​deres produkt. Nøjagtighed er dog ikke altid en sammenligning mellem æbler og æbler. Hvis du planlægger at bruge nøjagtighed som målepind, er der et par ting, du skal spørge.

Er den rapporterede nøjagtighed større end 80%?
Da mennesker kun er enige med hinanden 60-80% af tiden, er der ingen måde at oprette et testdatasæt, som alle er enige om, indeholder de 'korrekte' sentimentetiketter. Når det kommer til sentiment, er 'korrekt' subjektivt. Med andre ord er der ikke en guldstandard, der skal bruges til testnøjagtighed.

Den øvre grænse for et sentimentanalyses nøjagtighed vil altid være enighed på menneskeligt niveau: ca. 80%. Hvis en leverandør hævder mere end 80% nøjagtighed, er det en god ide at være skeptisk. Nuværende forskning tyder på, at selv 80% nøjagtighed er usandsynlig; topeksperter inden for området opnår typisk nøjagtigheder i midten til det øvre 60'ere.

Hvor mange sentimentkategorier forudsiges?
Nogle leverandører vurderer kun nøjagtighed på tweets, der er identificeret af menneskelige evaluatorer som definitivt positive eller negative, eksklusive alle neutrale tweets. Det er meget lettere for et systems nøjagtighed at virke meget højt, når man arbejder med stærkt følelsesmæssige tweets og kun to mulige resultater (positive eller negative).

I naturen er de fleste tweets imidlertid neutrale eller tvetydige. Når et system kun vurderes mod positivt og negativt, er det umuligt at vide, hvor godt systemet håndterer neutrale tweets - størstedelen af ​​det, du faktisk ser.


hvad betyder 11

Hvilke typer tweets er inkluderet i deres testsæt?
Et sentimentanalysesystem skal bygges og testes på tweets, der er repræsentative for de virkelige forhold. Nogle sentimentanalysesystemer oprettes ved hjælp af domænespecifikke tweets, der er filtreret og renset for at gøre det så let som muligt for et system at forstå.

For eksempel kan en leverandør have fundet et allerede eksisterende datasæt, der kun indeholder stærkt følelsesmæssige tweets om luftfartsindustrien, med undtagelse af spam eller off-topic tweets. Dette vil medføre, at nøjagtigheden er høj, men kun når den bruges i meget lignende tweets. Hvis du arbejder i et andet domæne eller modtager tweets uden for emnet eller spam, vil du se meget lavere nøjagtighed.

Hvor stor var testdatasættet?
Sentimentanalysesystemer skal evalueres på flere tusinde tweets for at måle systemets ydeevne i mange forskellige scenarier. Du får ikke et sandt mål for et systems nøjagtighed, når et system kun testes på et par hundrede tweets.

Her på Sprout byggede vi vores model på en samling på 50.000 tweets hentet fra en tilfældig prøve fra Twitter. Da vores tweets ikke er domænespecifikke, fungerer vores sentimentanalysesystem godt på en bred vifte af domæner.

Derudover fremsætter vi separate forudsigelser for positive, negative og neutrale kategorier; vi anvender ikke bare neutrale, når andre forudsigelser fejler. Vores nøjagtighed blev testet på 10.000 tweets, hvoraf ingen blev brugt til at opbygge systemet.

Se Sprouts sentimentanalyse live med lyttere

Al forskning i verden er ikke en erstatning for at evaluere et system fra første hånd. Giv vores nye sentimentanalysesystem en prøvekørsel inden for vores nyeste sociale lytteværktøjssæt, Lyttere , og se hvordan det fungerer for dig. I sidste ende er det bedste sociale lytteværktøj det, der opfylder dine behov og hjælper dig med at få større værdi af det sociale. Lad os hjælpe dig med at komme i gang i dag.

Del Med Dine Venner: