Literature-Coding

Heute habe ich ein "kleines" Skript geschrieben, um am Institut eine relativ große Literaturliste für ein Projekt anzulegen.
Dafür gibts schon ne ganze Menge Lösungen, doch leider lautete die Voraussetzung: "Alle Unterlagen müssen später als PDF vorliegen und im Volltext durchsuchbar sein!".

Na toll. Alle Lösungen, die ich gefunden habe, waren super Bibtex-fähig und so weiter - aber keine konnte Dateianhänge verwalten, geschweige denn PDFs durchsuchen?

Also musste ich selbst ran... Herausgekommen ist ein kleines PHP/MySQL-Projekt; und für die PDF-Volltextsuche benutze ich das Python-Skript PDFSearch. Das ist zwar noch ziemlich "beta", aber die Ausgabe lässt sich gut parsen ;)

Inspiriert durch einen Blick in das PHP Scripts Blog habe ich gerade noch ein

find . -name "*.php" | xargs cat | wc -l

durchgeführt und komme für heute auf satte 780 Zeilen Code. Und es ist noch nicht ganz fertig!

Nach dem Marathon musste ich aber erstmal nen Cocktail schlürfen...!

Na dann: mal sehn, wie viele Zeilen es noch werden? Gute Nacht erstmal ;)

---

Update: Das python Skript ist noch ein wenig zu unausgereift (Bsp: es kann keine Umlaute) und zu langsam für so eine Suche. So bleibt nur eins: alle PDF-Dateien durch PDFToText jagen, hinein in eine MySQL-Datenbank - und dann mit MySQL Volltextsuche drauf zugreifen. Funktioniert bis jetzt super.

Was this helpful? Buy me a coffee with Bitcoin! (What is this?)

Literature-Coding

September 11, 2004

Updating Adobe Flash Without Restarting Firefox

Reddit's Fail-Alien (or "Fail-ien?")

Distraction free writing in a "big boring system"