Literature-Coding
Heute habe ich ein "kleines" Skript geschrieben, um am Institut eine relativ große Literaturliste für ein Projekt anzulegen.
Dafür gibts schon ne ganze Menge Lösungen, doch leider lautete die Voraussetzung: "Alle Unterlagen müssen später als PDF vorliegen und im Volltext durchsuchbar sein!".
Na toll. Alle Lösungen, die ich gefunden habe, waren super Bibtex-fähig und so weiter – aber keine konnte Dateianhänge verwalten, geschweige denn PDFs durchsuchen?
Also musste ich selbst ran… Herausgekommen ist ein kleines PHP/MySQL-Projekt; und für die PDF-Volltextsuche benutze ich das Python-Skript PDFSearch. Das ist zwar noch ziemlich "beta", aber die Ausgabe lässt sich gut parsen
Inspiriert durch einen Blick in das PHP Scripts Blog habe ich gerade noch ein
find . -name “*.php” | xargs cat | wc -l
durchgeführt und komme für heute auf satte 780 Zeilen Code. Und es ist noch nicht ganz fertig!
Nach dem Marathon musste ich aber erstmal nen Cocktail schlürfen…!
Na dann: mal sehn, wie viele Zeilen es noch werden? Gute Nacht erstmal
—
Update: Das python Skript ist noch ein wenig zu unausgereift (Bsp: es kann keine Umlaute) und zu langsam für so eine Suche. So bleibt nur eins: alle PDF-Dateien durch PDFToText jagen, hinein in eine MySQL-Datenbank – und dann mit MySQL Volltextsuche drauf zugreifen. Funktioniert bis jetzt super.