OpenRefine (vorher Google Refine, vorher Freebase Gridworks) hat in der letzten Zeit einige Änderungen erfahren. Unter anderem hat das Projekt eine neue Homepage http://openrefine.org und ist zu GitHub umgezogen, Überbleibsel gibt es aber nach wie vor noch unter der alten Adresse http://code.google.com/p/google-refine/. Damit der Einstieg in die Arbeit mit Refine etwas leichter fällt, hier kurz ein paar Eckpunkte zur Orientierung, vom Download über Starten/Sichern/Beenden, erste Schritte mit der GREL und zum Schluss noch ein paar weitere Quellen.
Schlagwort: Google
Vor nicht allzu langer Zeit hab ich in diesem Blog noch über die mögliche Überführung von Needlebase-UI und -Features in Google Refine sinniert und es als sinnvolle Erweiterung des Projekts eingeschätzt. Jetzt sieht es so aus, als werden die Karten neu gemischt denn Refines‘ Zukunft in der Google Familie wird bald enden.
Google hat bekanntgegeben Needlebase, ein Tool zum Auslesen, Bereinigen, Kombinieren und Bereitstellen von Datensätzen, einzustellen. Bei Nutzern wie Datenjournalismus-Interessierten hat dies zu einiger Verwunderung geführt und es kamen Fragen auf, welche Dienste den Platz von Needlebase einnehmen können. Ich sehe zwei Tools, die das Potential haben den Platz einzunehmen, Scraperwiki und Refine. Für eins der beiden sehe ich jedoch eine deutlich höhere Wahrscheinlichkeit.
Ich habe ja schonmal kurz erwähnt, dass ich für Google jetzt nicht mehr nur die Zeichenkette „Tobias Kut“ bin, sondern dieses Blog meiner Person zugeordnet wird. Kurz gesagt, ich habe Google die Autorenschaft nachgewiesen. Der Prozess dafür ist erstaunlich simpel und braucht nur ein paar kleine Änderungen.
Die folgende Erklärung richtet sich vor allem an diejenigen, die als einzelner Autor ein Blog betreiben. Für Mehr-Autoren-Blogs habe ich aber auch ein paar hilfreiche Hinweise zur Umsetzung.
Auch wenn’s kaum jemand merken wird: Der Blog hat kürzlich ein paar Änderungen erfahren. Ich habe die Plugins umgebaut, ein paar deaktiviert, aktualisiert und insgesamt etwas entschlackt. Sichtbar ist davon vermutlich nur, dass die Social Buttons rausgeflogen sind und gegen den Google +1 Button und den Standard-Tweet Button ausgetauscht wurden. Mal sehen ob noch mehr (Facebook, Twitter-Follow, etc) dazukommen. Ich bin zur Zeit erstmal zurückhaltend was weitere bunte Bommeln an den Blogposts angeht.
Hier im Blog habe ich schon öfter über Python, bzw den Einstieg in Python geschrieben. Dabei habe ich auf einige Tutorials im Netz hingewiesen, darunter u.a. Showmedo, Google, freiesMagazin oder andere Wege um die Sprache zu erlernen, bislang aber nur online Quellen und kein klassisches Buch. Das ändert sich jetzt, denn kürzlich erschien die deutsche Ausgabe von „Head First, Python“ und O’Reilly hat mir ein Exemplar von „Python von Kopf bis Fuss“ geschickt, damit ich mir darüber eine Meinung bilden kann. Ich habe mich also die letzten Tage eingelesen und mir das Buch genauer angeschaut.
Ich schätze das offene Umfragetool LimeSurvey ja wirklich sehr. Es ist sehr flexibel, intuitiv zu bedienen, hat eine Wagenladung an Features mit an Bord und wird – nicht zuletzt durch die Teilnahme am Google Summer of Code – ziemlich zügig weiterentwickelt, was neue Features und schnell behobene Bugs verspricht.
Mit dem Tool lassen sich u.a. auch sehr einfach mehrsprachige Umfragen realisieren. Das erspart zwar nicht die Übersetzung einzelner Fragen, aber der Standardbausteine – wie Vor-/zurück-Buttons, Hinweise zum Ausfüllen etc. Klickt man eine weitere Sprache hinzu, sind alle Standardbausteine direkt übersetzt. Das ist solange alles nützlich und richtig, wie die ursprüngliche Umfrage und alle weiteren Sprachversionen identisch sind. Gibt es Abweichungen (andere Fragekonstellation, neue Struktur, unterschiedlicher Fragetyp in anderer Sprache) oder will man eine alte Umfrage in weiteren Sprachen neu starten hilft meist nur noch eine neue Umfrage.
Das Open Source Datenbreinigungstool Google Refine ist in Version 2.1 erschienen. Die offizielle Ankündigung spricht zwar von einem „maintenance release“ mit diversen Bugfixes, einige neue Funktionen sind trotzdem dazugekommen. Interessant finde ich dabei den Import von Google Fusion Tables und den jsoup basierten HTML Parser, der jetzt Funktionen wie parseHtml, select, htmlAttr, htmlText, innerHtml, ownText unterstützt. Die Tutorial Videos wurden ebenfalls erneuert, auch wenn sie weiterhin die irreführende Betitelung „Goolge Refine 2.0“ tragen.
Die Entwickler der Chicago Tribune haben kürzlich einige Eigenentwicklungen als Open Source veröffentlicht. Darunter ist auch der Appengine Autotweeter, der eine Alternative zur Verwendung des Webservice Twitterfeed darstellt und – wie der Name vermuten lässt – auf Googles App Engine läuft. In einem Blogpost erkären die Entwickler, dass Grund für die Eigenentwicklung die starren bzw zu langen Updateintervalle von Twitterfeed sind. Twitterfeed erlaubt nur Updates von maximal allen 30 Minuten – im schnelllebigen Nachrichtengeschäft oft deutlich zu lang.
Im selben Blogpost stellen die Entwickler weitere Open Source Tools vor. Darunter CSVkit (Dokumentation), eine Toolsammlung zur Bearbeitung von csv Datensätzen – ebenfalls in Python realisiert – und das bislang weit mehr beachtete PANDA (Presentation). PANDA gewann kürzlich $150.000 Förderung der Knight Foundation im Rahmen des Media Innovation Contest und soll das Datenmanagement bzw Datenjournalismus in Redaktionen vereinfachen.