Åpne data og intelligente trafikksystemer

Åpne data og intelligente trafikksystemer

Data som er gjort fritt tilgjengelige for bruk av alle kalles åpne data. Her ligger det store muligheter og verdier for de som ønsker å utvikle løsninger basert på slike data. I dette innlegget skal vi se litt på hva åpne data er, eksempler på bruk og metode, samt hvordan dataeiere kan kartlegge og tilgjengeliggjøre data.

Statens vegvesen er et eksempel på en offentlig virksomhet som sitter på store mengder data som de samler inn som en del av sitt oppdrag. Én av hovedoppgavene er å sørge for et trygt og effektivt vegnett. Derfor samler de inn data om vær- og kjøreforhold, hvordan trafikken flyter og de registrerer hendelser på vegen. Denne informasjonen brukes blant annet til drifting av veien, som brøyting, strøing og planlegging av vedlikehold. Men dette er også informasjon som er nyttig for de som ferdes langs veien. Hvis du skal kjøre over fjellet mellom vest og øst på vinteren, vil du gjerne vite om det er kolonnekjøring eller om en viktig tunnel er stengt. Derfor deles slik informasjon med publikum. Det som er spennende er at dataene også er gjort tilgjengelig som åpne data i et maskinlesbart format. Dette betyr at alle kan ta de i bruk til nye formål, så lenge man forholder seg til Norsk lisens for offentlige data.

Statens vegvesen og mange andre offentlige virksomheter sitter på mye data som ennå ikke er godt tilgjengelige for andre enn brukere av interne fagsystemer. Det offentlige er pålagt å dele data som egner seg til det, både gjennom offentleglova og styrende dokumenter som digitaliseringsrundskrivet. Selv om en del har vært flinke, har likevel mange et stort arbeid foran seg.

Vi skal nå se på en metode for å kartlegge data, slik at man trygt kan dele de med andre.

Identifisering av kilder til data

I en organisasjon finnes data i mange varianter og for mange ulike årsaker. Og i dette ligger noe av utfordringen med åpne data. Det er ikke alltid man klarer å se for seg at noe er et datasett, eller at det kan ha nytteverdi for andre eller egen organisasjon. Før man starter en kartlegging kan det være fornuftig å vurdere om man ønsker å avgrense søket noe. Hvis hensikten er å få bedre oversikt over de data man har med tanke på intern bruk, ønsker man kanskje å gjøre et bredere søk, enn om målet er å finne data for deling med andre. Utenforstående har gjerne et bilde av hva hovedaktiviteten til virksomheten er, og forventer kanskje i større grad datasett relatert til dette.

Mange IT-systemer kan være kilder til data gjennom at de vedlikeholder et register over noe, men også loggdata fra et IT-system kan være et datasett. En motsatt tilnærming kan være å starte med virksomhetens kjerneområder og sentrale domeneobjekter, og så se hvilke data som finnes om disse.

Valg av metode og informanter

Til dels avhengig av valgt innfallsvinkel til kartleggingen, kan ulike metoder være aktuelle å benytte. Hvis man starter i «bunnen», med IT-systemer, kan analyse av databaser og integrasjoner eller systemdokumentasjon være godt egent til å avdekke hvilke data som finnes.

Hvis man gjør en kartlegging med utgangspunkt i kjerneområder kan arbeidsprosesser, strategidokumenter, nettsider og fagansvarlige være gode kilder.

Datainnsamling

Innsamling av data kan også gjøres på ulike måter. Bruk av spørreundersøkelser, intervjuer og workshops er alle relevante metoder. I hvor stor grad det er behov for å lede eller veilede datainnsamlingen avhenger av ulike faktorer; som hvor godt kjent arbeidet med datainnsamling er og omfanget av kilder og informanter man ønsker å nå. Hvor grundig man ønsker å gå til verks er også en faktor. Intervjuer gir bedre svar enn spørreundersøkelser, men tar mer tid. Derfor kan det være lurt å velge en iterativ tilnærming, hvor man detaljerer de mest aktuelle datasettene etter å ha skaffet seg en oversikt.

Metadatastruktur

Når man gjør en datakartlegging er det viktig å ha en plan fra starten for hva man ønsker å kartlegge om de ulike datasettene. Hvor mye informasjon er nok? Og hva skal du bruke den til? Det finnes også standarder for beskrivelse av datasett, som DCAT og Inspire. Difi har laget en norsk profil av DCAT-standarden, som anbefales benyttet når det offentlige skal beskrive sine datasett. Inspire-standarden kan være relevant å benytte hvis man skal beskrive geografiske data.

Kvalitet og tilgjengelighet

Når man har skaffet seg en oversikt over de data man har tilgjengelig, vil man oppdage at det varierer hvor enkelt det er å ta de i bruk både internt og eksternt. Her velger vi å kategorisere datasettene langs tre akser:

  • Innholdsmessig tilgjengelighet. Inneholder dataene sensitiv informasjon som ikke kan deles med andre? Er meningsinnholdet i dataene entydig?
  • Strukturell tilgjengelighet. Er dataene strukturert på en måte som gjør at de enkelt kan gjenbrukes, eller kreves det mye kunnskap og tolkning for å kunne gjøre seg nytte av data?
  • Teknisk tilgjengelighet. Finnes det en teknisk løsning som gjør data lett tilgjengelig? Finnes det API’er eller databaser man kan hente data ut fra?

Disse indikatorene bidrar til å skape et bilde av hvor mye arbeid som må gjøres før verdien som ligger i gjenbruk og bruk av data på nye måter kan realiseres. I tillegg til dette kommer aspekter rundet datakvalitet.

Åpne lenkede data

Når man har fått oversikt over de data virksomheten har, begynner jobben med å gjøre dataene tilgjengelige for andre. Dette kan man gjøre på mange måter. Vi skal nå ta en titt på en kategorisering av lenkede åpen data utviklet av Tim Berners-Lee, mannen som oppfant world wide web. Modellen hans består av fem trinn, hvor hvert trinn beskriver økt nivå av modenhet imot lenkede åpne data. La oss tenke oss at vi har en tabell med bomstasjoner og priser for passering som vi ønsker å dele.

1. Tilgjengelig på Internett

Dataene finnes på Internett under en åpen lisens, men uten krav til format. Putter vi tabellen i et pdf-dokument vil den havne her. 

2. Maskinlesbart format

Når data et maskinlesbare er de strukturert på en slik måte at der er enkelt å skrive et program som leser ut dataene for videre behandling. Hvis man tar tabellen fra punkt én og flytter den over i et Excel-ark, har man enkelt rykket opp ett nivå.

3. Ikke-proprietært format

Et proprietært format betyr at man gjerne må har en spesiell programvare for å lese det. Excel er et slikt format. Hvis vi isteden gjør bomstasjontabellen vår tilgjengelig som for eksempel kommaseparerte verdier, som er et åpent format, kan alle lese dem.

4. Semantiske data i et RDF-format

Semantikk handler om meningsinnhold, og RDF (Resource description framework) er en metode for å knytte mening til data. Gjennom gjenbruk av kjente kategoriseringer og merkelapper kan man knytte mening til hvert dataelement slik at man også maskinelt kan finne ut hva dataene representerer. 

5. Lenkede data

Når man maskinelt er i stand til å vite hva et dataelement representerer, vil man også kunne gjøre oppslag i andre datasett basert på dette. Lenkede data får man når datasett lenker til andre datasett som kan være relevante.

Ofte vil det være en relativt enkel jobb å få datasettene sine opp til nivå tre, men derfra kreves det litt mer arbeid. En forutsetning for å nå nivå tre er selvfølgelig at man har gjort et godt forarbeid og har kontroll på de dataene man har.

Oppsummering

Lenkede dataDet ligger mye nytte og verdi i å kunne bruke eksisterende data på nytt eller på nye måter, men dette krever at man har kontroll på de data man har. Kartlegging av data og beskrivelse av disse er en jobb som kan gjøres med ulike innfallsvinkler og ulik detaljering, men det er nyttig å støtte seg på en standard som DCAT i dette arbeidet. Med god dataforvaltning unngår man at forretningshemmeligheter eller sensitive personopplysninger kommer på avveie. Når man først gjør et arbeid med å gjøre data tilgjengelig, bør man også gjøre det på en slik måte at de gir mest mulig verdi. Fem-stegs-modellen mot lenkede data er derfor viktig å ha i tankene.

Videre kan etablering av en dataportal være et godt verktøy for både å forvalte informasjon om de data man har, og å synliggjøre de datasett som finnes.

3. desember 2015 holder Trond Smaavik og Olav Madland fra Acando foredrag om "Anvendelse av åpne data" på ITS Forum. Se her for påmelding og mer informasjon!

 

Om bloggeren:
Trond er arkitekt og utvikler som er opptatt av kundenes funksjonelle behov. Han liker å forstå disse og omsette de til programvareløsninger. Trond er utdannet sivilingeniør i programvareutvikling og sertifisert i TOGAF og Prince2.

comments powered by Disqus