Google-Tools und Datenjournalismus: Public Data Explorer öffnet sich, OCR in 34 Sprachen

Google hat zwei seiner Produkte weiter ausgebaut, was Sie noch interessanter als Tool zur Datenvisualisierung bzw für Datenjournalisten macht. Zum einen wurde der Public Data Explorer für eigene Datasets geöffnet und die OCR (Optical Character Recognition), sprich: automatische Texterkennung, in Google Docs wurde deutlich erweitert.

Google Public Data Explorer öffnet sich

Der bereits seit längerem bekannte und frei nutzbare Public Data Explorer hat nun die Möglichkeit auch eigene Datensätze zu importieren und zu verarbeiten. Die Datensätze müssen allerdings in einem eigenen Format vorliegen. Google nutzt dafür die neu geschaffene Sprache DSPL (Dataset Publishing Language). Der Entwickler der Sprache, Omar Benjelloun, erklärt dazu im Blogpost zur Öffnung des Public Data Explorers:

DSPL is an XML-based format designed from the ground up to support rich, interactive visualizations like those in the Public Data Explorer. The DSPL language and upload interface are available in Google Labs.

Wie Nieman Labs berichtet, bietet der Public Data Explorer damit vor allem öffentlichen Einrichtungen und NGOs eine Möglichkeit Lizenzkosten für Visualisierungssoftware zu umgehen. Google selbst gibt an, dass der Public Data Explorer weiter ein Produkt der Google Labs bleibt, aber, wie auch DSPL, weiter ausgebaut werden soll. Konkret heißt es, es wird neue Public Data Sets geben, neue Visualisierungen und Erweiterungen der DSPL.

OCR ausgebaut: Texterkennung in 34 Sprachen

Wenn am Anfang einer Recherche oder Visualisierung mal wieder nur ein Bild eines Dokuments oder eine schlecht bis nicht zu verarbeitende pdf steht, hilft vielleicht die erweiterte Texterkennung von Google weiter. Wie Google in einem Blogpost selbst erklärt stehen ab sofort neben den meisten europäischen Sprachen auch russisch, chinesisch und weitere asiatische Sprachen zur Verfügung.

Der Upload eines Bildes oder einer pdf erfolgt innerhalb von Google Docs, der User muss dabei bestimmen in welcher Sprache das zu erkennende Dokument verfasst wurde.

Ich habe das Feature mit einem pdf (Fließtext, Tabellen) selbst getestet und bin recht angetan von dem Ergebnis. Natürlich muss nachgearbeitet werden, aber um ein pdf „zu öffnen“ nimmt Google hier eine Menge Arbeit ab und spart die Anschaffung von OCR Software. Den üblichen Verweis auf eventuelle datenschutzrechtliche Bedenken beim Upload auf Google Server lasse ich an dieser Stelle mal aussen vor.

Open Source | Content Management | Redaktion

Google-Tools und Datenjournalismus: Public Data Explorer öffnet sich, OCR in 34 Sprachen

Google Public Data Explorer öffnet sich

OCR ausgebaut: Texterkennung in 34 Sprachen

0 Kommentare

1 Pingback

Schreibe einen Kommentar Antworten abbrechen

Google-Tools und Datenjournalismus: Public Data Explorer öffnet sich, OCR in 34 Sprachen

Google Public Data Explorer öffnet sich

OCR ausgebaut: Texterkennung in 34 Sprachen

Marc Surman: McLuhan Lecture auf der Transmediale 2011

CMSms 1.9.4 – Faanoui: Bugfixes und wichtiger Hinweis

0 Kommentare

1 Pingback

Schreibe einen Kommentar Antworten abbrechen