Presentation

Välkommen till det svenska DBpedia

DBpedia är en del av ett crowdsourcing-initiativ för att extrahera strukturerad information från Wikipedia och göra den informationen tillgänglig på webben. DBpedia gör det möjligt att ställa sofistikerade och komplexa frågor till Wikipedia, och att länka olika datamängder på webben till data från Wikipedia.

Den engelskspråkiga delen av DBpedia är för närvarande den centrala knutpunkten för öppna länkade data på webben, det s.k. Linked Open Data Cloud, och är därmed en viktig länk mellan olika datamängder. Den version av DBpedia som du just nu surfar på är ett av de första försöken att i stor skala föra in det svenska språket i molnet av länkade öppna data.

En automatiskt skapad DBpedia

Den engelska versionen av DBpedias kunskapsbas beskriver 4,58 miljoner ting, varav 4,22 miljoner är klassificerade i en konsistent ontologi, inklusive 1 445 000 personer, 735 000 platser (inklusive 478 000 bebodda platser), 411 000 kreativa verk (inklusive 123 000 musikalbum, 87 000 filmer och 19 000 dataspel), 241 000 organisationer (inklusive 58 000 företag och 49 000 utbildningsinstitutioner), 251 000 arter och 6 000 sjukdomar.

För att uppnå detta mål använder DBpedia ett antal mappningar mellan Wikipedias faktarutor (s.k. infoboxes) och ontologin. Mer specifikt, titeln för en faktaruta mappas till en klass och attributen mappas till relationer. Vem som helst kan bidra till utvecklingen av DBpedia genom att lägga till mappningar i en Wiki (den s.k. Mappings Wiki). Ett verktyg som tagits fram av intressegruppen kring DBpedia för att extrahera data från Wikipedia är det s.k. DBpedia Extraction Framework, vilket använder mappningarna som definierats i Wikin för att homogenisera informationen som extraheras från Wikipedia före den representeras som strukturerad information i RDF.

För det svenska DBpedia-projektet har mappningarna genererats helt automatisk, genom den process som beskrivs här.

Statistik

Antal sidor i Wikipedia 1,935,569
Automatiskt skapade mappningar till klasser 228
Automatiskt skapade mappningar till relationer 1,136
Sidor som klassificerats med hjälp av mappningarna 1,565,041
Ytterligare sidor som klassificerats 177,900
Totalt antal klassificerade sidor 1,742,941
Extraherade relationer 3,395,380