Arkitektur

Hur Graffold fungerar

En delad databasarkitektur — Memgraph för graftraverseringar, Cloudflare Vectorize för semantisk sökning — med inläsning från flera källor och hybridåterhämtning. Fullständig härkomst på varje svar.

Inläsningspipeline

Data Sources Documents & PDFs APIs & Feeds Open Access Archives Structured Data CSV / Excel API Processing Token-aware Chunking LLM Entity Extraction Multi-pass Gleaning Entity Consolidation Relationship Consolidation Enrichment Canonical ID Mapping Ontology Alignment Taxonomy Hierarchies Vector Embeddings Community Detection Knowledge Graph Memgraph Nodes · Relationships MAGE Algorithms openCypher · Bolt Cloudflare Vectorize 768d Embeddings · Cosine Semantic Similarity Split Architecture

Fråge- & hämtningsarkitektur

User Natural Language API answer LLM Agent Layer REST API + SSE Streaming Query Mode Router (local / global / hybrid) Two-Phase Discovery + Expansion Entity Disambiguation Cypher Generation Synthesis + Citations LLM Provider (Bedrock / Cloudflare / Ollama) queries Data Sources Vector Search Fulltext Search Graph Traversal Community Summaries results Memgraph CF Vectorize Neo4j FalkorDB

Integrationer

Graf- & vektorlager

  • Memgraph + MAGE
  • Cloudflare Vectorize
  • Neo4j · FalkorDB

LLM-leverantörer

  • AWS Bedrock (Claude, Titan)
  • AWS SageMaker
  • Cloudflare Workers AI
  • Ollama (local / air-gapped)
  • OpenAI-compatible APIs

Datakällor

  • Any source with an API
  • PDF files (vision + OCR)
  • CSV / Excel / Parquet
  • PubMed / bioRxiv (built-in)

Infrastruktur

  • Redis (cache + sessions)
  • OpenTelemetry + Grafana
  • Docker (per-tenant isolation)
  • HuggingFace embeddings (768d)

Prestandastack

Rust-accelererad JSON

3–10× snabbare serialisering

Rust ASGI-server

2–4× begärandegenomströmning

In-memory graf

Sub-ms traverseringar via Memgraph

Rust-nativa DataFrames

2–5× snabbare för databehandling

Tokenmedveten chunkning

BPE-tokenizer med meningsgränser

Hybridåterhämtning

Vektor + fulltext + graftraversering

Prestandamätningar

Uppmätta hastighetsökningar från Rust- och C-backade drop-in-ersättningar i hela stacken. Noll omskrivningar av applikationskod krävs.

3–10×

JSON-serialisering

Rust-backad encoder vs stdlib

2–4×

HTTP-genomströmning

Rust ASGI-server vs Python-standard

<1 ms

Graftraversering

In-memory Memgraph, sub-millisekund

2–5×

DataFrame-operationer

Rust-nativa DataFrames vs äldre bibliotek

~10×

Cache-parsning

C-backad parser vs ren Python

250 ms

P50 frågelatens

Hybrid vektor + grafåterhämtning

Bearbetningsgenomströmning

1,000+

Dokument per pipeline-körning

Multi-source

Parallell inläsning över dataflöden

47 → 1

Dubblettkanter konsoliderade per entitetspar

< 15 min

Inkrementell uppdatering för ~100 nya dokument

Är du drunknar i dokument?
Testa oss.

Eller maila oss direkt på hello@graffold.com