Big Data – fördjupat

Följ och analysera utvecklingen

Vad är Big Data

Big Data syftar till den oändliga mängd data som idag finns ute i cyberrymden. Medvetet och omedvetet lämnar vi spår efter oss när vi besöker internet. Exempelvis när vi delar med oss av inlägg och bilder på sociala media eller när vi utför transaktioner av olika slag. Bland mycket annat. Med moderna IT-lösningar och analysverktyg går det idag att samla in och bearbeta denna typ av data för att skapa nya insikter som stärker affären.

Big Data kännetecknas av de tre V:na – Volume, Velocity och Variety. Det handlar om extrema volymer data som skapas, skickas och hanteras med stor hastighet och har en bred variation av datatyper som dessutom ändras över tid.

Det har faktiskt aldrig funnits så mycket data som nu och det skapas nytt mycket fortare än tidigare. Samtidigt som vi vill kunna använda datat på fler sätt och göra fler och bättre analyser, helst i realtid.

Detta ger oss både utmaningar och möjligheter när det kommer till att utveckla våra verksamheter. Frågor som ofta uppstår är t.ex;

  • tid att processa
  • kostnad att lagra
  • hinna med hantering
  • svårt att analysera

Varför Big Data

Allt handlar om att få djupare insikter och kunna ta smartare beslut.

Med rätt analytiska verktyg kan man genom Big Data-metodik analysera flera hundra dimensioner, till skillnad från en människa som begränsas av 2-3 parametrar. Det ökar sannolikheten för att analysresultaten blir mer träffsäkra och ger spännande korrelationer och mönster över tid. Man kan dessutom göra prognoser i realtid vilket stärker konkurrenskraften på en föränderlig marknad.

Med den nya teknikens egenskaper kan man idag samla in och bearbeta ostrukturerad data för att se mönster och kopplingar som man tidigare inte kunnat. Detta ger företag och organisationer stora möjligheter att skapa revolutionerande insikter kring sina verksamheter, stärka konkurrenskraften och öppna upp för nya affärsmöjligheter.

Strategi först

Alla analyser utgår från vad det egna företaget eller organisationen vill uppnå eller har för utmaningar. Först när man ringat in sin egen strategi så kan man också ta fram affäskritiska frågor som är av värde för verksamhetens utveckling. Beroende på fråga så kan det vara ”intern strukturerad” data eller ”extern ostrukturerad” data som bäst besvarar frågan och ger underlag för nya insikter. Eller kanske en kombination av dem båda.

Nyckeln ligger många gånger i att kombinera ostrukturerad med strukturerad data. Tillexempel kundbesök med inlägg på sociala media.

I ett exempel från Bernard Marrs bok ”Big Data”, lyckades Wallmart öka sin försäljning på BBQ-produkter genom att korsa intern, strukturerad data över köpbeteende hos sina kunder i kombination med ostrukturerad, extern data så som koordinater på kundernas mobiler samt väderleksrapporter. De kunder som hade köpt BBQ-relaterade produkter de senaste veckorna och befann sig i närheten av Wallmart när solen lyste, fick ett riktat utskick om BBQ-produkter till sänkt pris i sina mobiler.

Om din strategi skulle vara att ”öka din kundbas” så kan strategiska frågor att besvara vara;

  • Vilka är dina kunder idag?
  • Hur ser demografiken ut för dina viktigaste kunder?
  • Hur lång är livscykeln för dina kunder?

Följdfrågan blir då vilken typ av data du behöver för att kunna besvara dina frågor på ett ändamålsenligt sätt och nå en ökad insikt om vad som bäst stärker din affär.

Oavsett om man väljer att använda sig av ostrukturerad data från så kallade lakes ute i cyberrymden eller strukturerad data, som finns ordnade i filer och ofta går att få tillgång till i den egna verksamheten, så är utgångspunkten densamma – att skapa största möjliga affärsnytta.

Samla in data

Man skiljer på fyra olika dimensioner av data;

  • Strukturerad data; Finns i standardiserade filer, ofta i relationsdatabaser eller spredsheets. Exempel kan vara antal kundbesök eller antal varor som blivit sålda över tid.
  • Ostrukturerad data; Är ej ordnade i filer utan finns utspritt i ex. texter, bilder, filmer. Dessa data kräver en annan form av analysverktyg för att samlas in, bearbetas och så småningom struktureras upp för tolkning.
  • Intern data; Är data som du har tillgång till inom ramarna för din egen business. HR är exempel på ett internt datawarehouse som innehar många uppgifter kring anställda. Ekonomirapporter kan vara en annan. 
  • Extern data; Är data som du ej har kontroll över i nuläget och som ligger utanför din egen verksamhet. Exempelvis sociala media. Viss data är gratis och annan är det inte.

Ett sätt att komma fram till vilken typ av data som passar dig bäst är att göra en matris utifrån följande tre kategorier;

  • hur lätt är den att samla in
  • hur snabbt går den att få tillgång till
  • hur mycket kostar den

Den som redan har tillgång till stora datamängder I sin egen verksamhet, kan med fördel använda en del av sina resurser till att leta oväntade samband, mönster och nya affärsmöjligheter. Har du däremot inte tillgång till egen volym av data, så kan ett alternativ vara att köpa tillgång från ex. Twitter, Facebook etc.

Nyckeln är då att först ringa in vilka frågor du vill besvara så att du inte går vilse i Big Datas snåriga ljungel.

Ett tips är att gå från att “samla in allting för säkerhetsskull” till att “samla och mät x och y för att besvara frågan z”

Addera Analytics

När du samlat in datan och bearbetat den så är nästa steg att analysera den på ett ändamålsenligt sätt för att få tillgång till nya insikter som stärker din verksamhet. Frågan är vilken teknik som bäst kan leverera svar till de frågor du vill ha besvarade.

5 format där businessdata kan finnas;

  • text data
  • sound data
  • image data
  • video data
  • sensor data

4 olika analysmetoder är därför;

  • text analytics
  • speech analytics
  • video/image analytics
  • combination analytics

Machine Learning & AI

Artificiell Intelligens (AI) är enligt den amerikanske forskaren John McCarthy ”vetenskapen och tekniken att skapa intelligenta maskiner”. Det handlar om intelligenta system som är medveten om sin omgivning och vidtar åtgärder som maximerar sina chanser att lyckas.

Machine Learning har utvecklats från studier av mönsterigenkänning inom AI och utforskar konstruktioner av algoritmer som kan lära sig av gällande data och göra framtida förutsägelser.

Så här kan en process gå till;

1. Alla analyser utgår från vad verksamheten behöver eller har för problem. Du vill skapa affärsnytta helt enkelt. I steg ett definierar vi därför problemet eller det du vill uppnå, ur ett affärsperspektiv, t.ex;

a. ”Varför har du för lite omsättning i den här regionen?”

b. ”Vilka typer av kundgrupper har du?”

c. ”Vilka av de här potentiella kunderna kommer mest sannolikt köpa era produkter om de får ett erbjudande?

2. Alla bra analyser behöver bra data. Så vi måste börja med att få tag på data, där det du söker efter redan finns, t.ex. data över kunder och vad de har köpt över tid. Sedan väljer vi typ av analys och algoritm beroende på vad du ställde för affärsfrågor inledningsvis (övervakad eller oövervakad analys, kategoriserat svar eller numeriskt).

3. Vi bygger en modell med vald algoritm och matar den med det utvalda datat. I det datat ska facit finnas, t.ex. om kunden har handlat eller ej. Detta steg kallas för att ”träna” modellen. Det är därför facit måste finnas i datat.

4. När modellen har processat data och hittat mönster, korrelationer m.m. så förstår den ofta vilka parametrar som hör ihop, t.ex. vilka parametervärden det är som gör att en kund handlar hos dig (ålder, kön, antal, inkomst, barn i hemmet, antal bilar, utbildningsnivå m.m.)

5. I det femte steget vill vi utvärdera modellen och se om den håller för framtida analyser. Vi tar då ett annat data som vi har facit till. Skillnaden är att vi denna gång låter bli att servera facit till modellen, utan istället låter den försöka förutse svaret på egen hand. De svar modellen får fram, jämförs med facit och vi kan se om modellen håller kvalitet eller inte.

6. Till sist efter justeringar/förbättringar (kanske väljer vi en annan algoritm eller konfigurerar den annorlunda) kan modellen användas på nytt data, utan facit, för förutsägelser och prognoser, – d.v.s. för att utföra prediktiv analys.