Architektur eines KI-Workflows: Datenaufnahme, LLM-Ökonomie
Technologie
Architektur eines KI-Workflows: Datenaufnahme, LLM-Ökonomie und Next.js
Eine technische Analyse des Aufbaus einer KI-gestützten Anwendung mit Next.js und Claude, mit Fokus auf Scraping-Pipelines, Prompt-Ökonomie und architektonische Kompromisse.
Der schwierigste Teil beim Aufbau einer KI-Anwendung ist nicht die KI. Es ist die Infrastruktur.
Wöchentliche Tech-Einblicke
Abonnieren Sie unseren Newsletter und erfahren Sie als Erste von den neuesten Innovationen und Experteneinblicken aus der Welt der Technologie.
Wenn Entwickler einen KI-gestützten Workflow betrachten – wie das Nehmen einer Stellenanzeigen-URL und das Generieren eines maßgeschneiderten Interview-Vorbereitungsleitfadens – ist die unmittelbare Reaktion meist: „Das könnte ich einfach in ChatGPT einfügen.“ Sie liegen nicht falsch. Aber sie übersehen den Kern des Product Engineering.
Der Wert einer Anwendung liegt nicht im zugrunde liegenden Foundation Model. Er liegt in der Orchestrierung unstrukturierter Daten zu einem wiederholbaren, reibungsarmen Workflow. Wenn Sie ein Team leiten, das LLM-Features entwickelt, hängt Ihr Erfolg nicht vom gewählten Modell ab. Er hängt von Ihrer Data Ingestion Pipeline, Ihrer Prompt Architecture und Ihren Unit Economics ab.
Lassen Sie uns die architektonische Realität beim Aufbau einer Data-to-LLM-Pipeline mit Next.js, PostgreSQL, Redis und der Claude API aufschlüsseln.
Das Ingestion-Problem: Die reale Welt ist unstrukturiert
Ihre LLM-Anwendung ist nur so brauchbar wie Ihre Data Ingestion Pipeline. Wenn Sie den Kontext nicht zuverlässig extrahieren können, hat Ihr Modell nichts zu verarbeiten.
In einem URL-to-Insight-Workflow verlassen Sie sich auf Web Scraping. Das Vertrauen auf einfache HTML-Parser wie Cheerio funktioniert perfekt, wenn Sie auf saubere, standardisierte Applicant Tracking Systems (ATS) wie Greenhouse treffen. Das DOM ist vorhersehbar und der Payload ist leichtgewichtig.
Aber das offene Web ist feindselig gegenüber automatischer Extraktion. Wenn Sie versuchen, LinkedIn oder Indeed zu scrapen, stoßen Sie sofort auf Bot-Schutzwände, dynamisches Rendering und Paywalls.
Stellen Sie sich das vor wie den Aufbau eines großen E-Commerce-Preisaggregators. Wenn Sie nur Shopify-Storefronts unterstützen, ist Ihre Ingestion trivial. Sobald Sie versuchen, Preise von benutzerdefinierten Enterprise-Storefronts oder stark geschützten Einzelhandelsriesen abzurufen, benötigt Ihre Infrastruktur Headless Browser, Proxy Rotation und CAPTCHA Solvers.
Für ein technisches Team bedeutet dies, dass Sie Ihre Ingestion Layer frühzeitig von Ihrer Application Layer entkoppeln müssen. Wenn Ihre Next.js API Route die HTTP-Anfrage verarbeitet, den Cheerio-Scrape ausführt, auf das DOM wartet und dann das LLM aufruft, werden Sie sofort auf Serverless Timeout Limits stoßen. Die Ingestion muss asynchron, widerstandsfähig gegenüber Formatänderungen und stark gecached sein.
Unit Economics: Wenn Sie die Inference Costs nicht kontrollieren, scheitern Sie
Die Gewinnmargen bei AI Wrappern sind hauchdünn. Wenn Sie Ihre API-Nutzung nicht optimieren, wird die Skalierung Ihrer Nutzerbasis Ihr Projekt in den Ruin treiben.
Wenn Sie gescrapte Webseiteninhalte an ein LLM übergeben, explodiert Ihre Token-Anzahl. Eine durchschnittliche Unternehmens-"Über uns"-Seite und eine detaillierte Stellenbeschreibung können leicht Tausende von Input Tokens verbrauchen. Wenn Hunderte von Benutzern dieselbe beliebte Stellenanzeige einfügen, zahlen Sie dem LLM-Anbieter dafür, denselben Text wiederholt zu verarbeiten.
Hier diktiert Ihre Architektur Ihre Überlebensfähigkeit. Sie benötigen zwei Caching-Ebenen:
1. Data-Layer Caching (Redis): Bevor Sie eine URL scrapen, hashen Sie die URL und prüfen Sie Redis. Wenn Sie sie in den letzten 48 Stunden gescrapt haben, liefern Sie den gecachten Text aus. Dies spart Ingestion-Zeit und verhindert IP-Sperren von Zielseiten.
2. Prompt Caching (Claude API): Moderne APIs wie Anthropic's Claude unterstützen Prompt Caching. Indem Sie Ihren System Prompt und statischen Kontext so strukturieren, dass Prefix Caching genutzt wird, können Sie die Kosten für Input Tokens bei wiederholten Abfragen drastisch reduzieren.
Die Implementierung von Prompt Caching kann Ihre API-Kosten um etwa 40% senken. Für einen Engineering Manager ist dies keine geringfügige Optimierung – es ist der Unterschied, ob ein Feature finanziell tragfähig ist oder vom CFO eingestellt wird.
Kontextuelle Prompt Orchestrierung
Generische KI-Ausgabe zerstört die Nutzerbindung. Wenn Ihre Anwendung dieselben generischen STAR-method-Fragen ausspuckt, die ein Benutzer auch mit einem Zero-Shot ChatGPT Prompt erhalten könnte, werden sie sofort abwandern.
Ihre Prompt Architecture muss das Modell zwingen, Constraints zu synthetisieren, nicht nur Text zu generieren.
Die technische Implementierung erfordert explizite Querverweise. Sie können nicht einfach den gescrapten Text übergeben und sagen: „Generiere Interviewfragen.“ Sie müssen den Text zuerst in strukturierte Metadaten parsen oder das LLM anweisen, dies zu tun, bevor die endgültige Ausgabe generiert wird.
Ihr Prompt muss das Modell explizit anweisen, den erforderlichen Tech Stack mit dem angegebenen Seniority Level und der abgeleiteten Unternehmensgröße abzugleichen. Eine Senior Backend Rolle bei einem 10-Personen-Startup erfordert grundlegend andere Verhaltens- und technische Fragen als derselbe Tech Stack bei einem 10.000-Personen-Unternehmen.
Indem Sie das Modell zwingen, diese Constraints bei der Ausgabeerzeugung zu berücksichtigen, bewegen Sie sich von einem „Text Generator“ zu einem „Insight Synthesizer“.
Der monolithische Stack: Kompromisse von Next.js und Drizzle
Das Zusammenführen des Stacks beschleunigt die Time-to-Market, birgt aber Ausführungsrisiken, die Sie managen müssen.
Die Verwendung von Next.js 16 (App Router) sowohl für das Webinterface als auch für die API Routes ist der Standard für diese Architektur. Gepaart mit Drizzle ORM für typensichere Datenbankabfragen an PostgreSQL erhalten Sie End-to-End TypeScript. Dies reduziert die kognitive Belastung des Teams und beschleunigt die Iteration.
Sie müssen jedoch vorsichtig sein, wie Sie langlaufende Prozesse handhaben. Next.js Serverless Functions (wie die auf Vercel gehosteten) haben strenge Execution Timeouts – oft 10 bis 15 Sekunden bei kostenlosen oder niedrigeren Tarifen und bis zu 5 Minuten bei Enterprise-Plänen.
Ein Workflow, der zwei Webseiten scrapt, das DOM parst und auf eine langformatige Claude Sonnet Generierung wartet, wird häufig ein 15-Sekunden-Timeout überschreiten.
Um dies zu lösen, müssen Sie auf Streaming Responses oder Background Jobs umsteigen. Indem Sie die LLM-Ausgabe direkt an den Client streamen, während sie generiert wird, halten Sie die Verbindung am Leben und verbessern die wahrgenommene Performance für den Benutzer. Wenn die Hintergrundverarbeitung aufwendiger ist (z.B. das Abgleichen eines hochgeladenen Lebenslaufs mit Stellenanforderungen), müssen Sie dies an ein geeignetes Queue System auslagern und Webhooks oder Polling verwenden, um die UI zu aktualisieren.
Die Produktrealität: Benutzer kaufen Workflow, nicht Modelle
Der häufigste Einwand von Entwicklern, die diese Architektur betrachten, ist: „Das kann doch jeder mit ChatGPT machen.“
Stimmt. Aber die meisten Leute tun es nicht.
Betrachten Sie ein SaaS-Dashboard für Finanzberichte. Ein kompetenter Analyst könnte die rohen CSVs herunterladen, ein Python-Skript schreiben und genau dieselben Diagramme in Excel generieren. Aber sie zahlen 500 Dollar im Monat für das SaaS-Tool, weil es dies automatisch, zuverlässig und sofort erledigt.
Der Wert Ihrer KI-Anwendung liegt im Setup. Es ist die UI, die den Benutzer führt, die Datenbank, die seine Historie speichert, die Scraping Engine, die ihm das Kopieren und Einfügen erspart, und das Prompt Engineering, das ein qualitativ hochwertiges Ergebnis garantiert, ohne dass er lernen muss, wie man mit einem LLM spricht.
Bauen Sie die Infrastruktur gut, und die KI erledigt den Rest.
Neviox Implementierungs-Check
Wenn Ihr Team einen LLM-Wrapper oder ein KI-integriertes Feature entwickelt, überprüfen Sie diese drei Dinge sofort in Ihrer Codebase:
1. Überprüfen Sie Ihre Serverless Timeouts: Überprüfen Sie die Ausführungszeit Ihrer API Routes, die das LLM aufrufen. Wenn sie länger als 10 Sekunden dauern, implementieren Sie UI Streaming oder verschieben Sie die Generierung auf einen Background Worker, um abgebrochene Anfragen zu verhindern.
2. Überprüfen Sie Upstream Caching: Überprüfen Sie Ihre Data Ingestion Layer. Wenn Sie externe URLs oder Dateien verarbeiten, stellen Sie sicher, dass Sie den Input hashen und einen Redis Cache überprüfen, bevor Sie einen teuren LLM-Aufruf oder Web Scrape initiieren.
3. Auditieren Sie Prompt Constraints: Überprüfen Sie Ihre System Prompts. Wenn sie aus einfachen Befehlen bestehen („Fasse dies zusammen“ oder „Generiere Fragen“), schreiben Sie sie um, um Constraint-Matching zu erzwingen. Verlangen Sie vom Modell, die Variablen (z.B. Seniority, Branche), die es zur Gestaltung seiner Ausgabe verwendet, explizit anzugeben.
Neviox Digital ist eine zukunftsorientierte Agentur an der Schnittstelle von Innovation und Gemeinschaft. Mit einem starken Fokus auf inspirierende Technologielösungen unterstützen wir Unternehmen leidenschaftlich dabei, sich in der digitalen Landschaft zurechtzufinden. Unsere Arbeit geht weit über die Erstellung von Websites und Apps hinaus! Wir schaffen Verbindungen, treiben die digitale Transformation voran und fördern Zusammenarbeit. Unsere Mission ist es, die Kraft der Technologie in den Mittelpunkt zu stellen, um positive Veränderungen anzustoßen, messbare Ergebnisse zu liefern und eine bessere Zukunft für Gemeinschaften weltweit zu gestalten.
Haben Sie eine Vision für eine digitale Lösung? Möchten Sie Ihr technisches Know-how teilen oder Ihre Marke bewerben? Lassen Sie uns zusammenarbeiten und gemeinsam die Zukunft gestalten!