Heute habe ich ein "kleines" Skript geschrieben, um am Institut eine relativ große Literaturliste für ein Projekt anzulegen.
Dafür gibts schon ne ganze Menge Lösungen, doch leider lautete die Voraussetzung: "Alle Unterlagen müssen später als PDF vorliegen und im Volltext durchsuchbar sein!".
Na toll. Alle Lösungen, die ich gefunden habe, waren super Bibtex-fähig und so weiter - aber keine konnte Dateianhänge verwalten, geschweige denn PDFs durchsuchen?
Also musste ich selbst ran... Herausgekommen ist ein kleines PHP/MySQL-Projekt; und für die PDF-Volltextsuche benutze ich das Python-Skript PDFSearch. Das ist zwar noch ziemlich "beta", aber die Ausgabe lässt sich gut parsen ;)
Inspiriert durch einen Blick in das PHP Scripts Blog habe ich gerade noch ein
find . -name "*.php" | xargs cat | wc -l
durchgeführt und komme für heute auf satte 780 Zeilen Code. Und es ist noch nicht ganz fertig!
Nach dem Marathon musste ich aber erstmal nen Cocktail schlürfen...!
Na dann: mal sehn, wie viele Zeilen es noch werden? Gute Nacht erstmal ;)
---
Update: Das python Skript ist noch ein wenig zu unausgereift (Bsp: es kann keine Umlaute) und zu langsam für so eine Suche. So bleibt nur eins: alle PDF-Dateien durch PDFToText jagen, hinein in eine MySQL-Datenbank - und dann mit MySQL Volltextsuche drauf zugreifen. Funktioniert bis jetzt super.