Välkommen till det svenska DBpedia
DBpedia är en del av ett crowdsourcing-initiativ för att extrahera strukturerad information från Wikipedia och göra den informationen tillgänglig på webben. DBpedia gör det möjligt att ställa sofistikerade och komplexa frågor till Wikipedia, och att länka olika datamängder på webben till data från Wikipedia.
Den engelskspråkiga delen av DBpedia är för närvarande den centrala knutpunkten för öppna länkade data på webben, det s.k. Linked Open Data Cloud, och är därmed en viktig länk mellan olika datamängder. Den version av DBpedia som du just nu surfar på är ett av de första försöken att i stor skala föra in det svenska språket i molnet av länkade öppna data.
En automatiskt skapad DBpedia
Den engelska versionen av DBpedias kunskapsbas beskriver 4,58 miljoner ting, varav 4,22 miljoner är klassificerade i en konsistent ontologi, inklusive 1 445 000 personer, 735 000 platser (inklusive 478 000 bebodda platser), 411 000 kreativa verk (inklusive 123 000 musikalbum, 87 000 filmer och 19 000 dataspel), 241 000 organisationer (inklusive 58 000 företag och 49 000 utbildningsinstitutioner), 251 000 arter och 6 000 sjukdomar.
För att uppnå detta mål använder DBpedia ett antal mappningar mellan Wikipedias faktarutor (s.k. infoboxes) och ontologin. Mer specifikt, titeln för en faktaruta mappas till en klass och attributen mappas till relationer. Vem som helst kan bidra till utvecklingen av DBpedia genom att lägga till mappningar i en Wiki (den s.k. Mappings Wiki). Ett verktyg som tagits fram av intressegruppen kring DBpedia för att extrahera data från Wikipedia är det s.k. DBpedia Extraction Framework, vilket använder mappningarna som definierats i Wikin för att homogenisera informationen som extraheras från Wikipedia före den representeras som strukturerad information i RDF.
För det svenska DBpedia-projektet har mappningarna genererats helt automatisk, genom den process som beskrivs här.
Statistik
Antal sidor i Wikipedia | 1,935,569 |
Automatiskt skapade mappningar till klasser | 228 |
Automatiskt skapade mappningar till relationer | 1,136 |
Sidor som klassificerats med hjälp av mappningarna | 1,565,041 |
Ytterligare sidor som klassificerats | 177,900 |
Totalt antal klassificerade sidor | 1,742,941 |
Extraherade relationer | 3,395,380 |