Arkitektur

Hur Graffold fungerar

En pipeline för inläsning från flera källor omvandlar ostrukturerade dokument till en konsoliderad kunskapsgraf — sökbar via hybrid vektor + grafåterhämtning med fullständig härkomst.

Inläsningspipeline

Data Sources Documents & PDFs APIs & Feeds Open Access Archives Structured Data CSV / Excel API Processing Token-aware Chunking LLM Entity Extraction Multi-pass Gleaning Entity Consolidation Relationship Consolidation Enrichment Canonical ID Mapping Ontology Alignment Taxonomy Hierarchies Vector Embeddings Community Detection Knowledge Graph Graph Database Entities · Relations · Evidence

Fråge- & hämtningsarkitektur

User Natural Language API answer LLM Agent Layer REST API + SSE Streaming Query Mode Router (local / global / hybrid) Two-Phase Discovery + Expansion Entity Disambiguation Cypher Generation Synthesis + Citations LLM Provider (Bedrock / Ollama / OpenAI) queries Data Sources Vector Search Fulltext Search Graph Traversal Community Summaries results Neo4j Neptune Kuzu DuckDB

Integrationer

Grafdatabaser

  • Neo4j
  • Amazon Neptune
  • Kuzu (embedded)
  • DuckDB (analytics)

LLM-leverantörer

  • AWS Bedrock
  • AWS SageMaker
  • Ollama (local / air-gapped)
  • OpenAI-compatible APIs

Datakällor

  • Any source with an API
  • PDF files (vision + OCR)
  • CSV / Excel / Parquet
  • PubMed / bioRxiv (built-in)

Infrastruktur

  • Redis (distributed cache)
  • Grafana + Prometheus
  • Docker Compose / AWS CDK
  • HuggingFace embeddings

Prestandastack

Rust-accelererad JSON

3–10× snabbare serialisering

Rust ASGI-server

2–4× begärandegenomströmning

Nativ grafdrivrutin

Upp till 10× för stora resultatmängder

Rust-nativa DataFrames

2–5× snabbare för databehandling

Tokenmedveten chunkning

BPE-tokenizer med meningsgränser

Hybridåterhämtning

Vektor + fulltext + graftraversering

Prestandamätningar

Uppmätta hastighetsökningar från Rust- och C-backade drop-in-ersättningar i hela stacken. Noll omskrivningar av applikationskod krävs.

3–10×

JSON-serialisering

Rust-backad encoder vs stdlib

2–4×

HTTP-genomströmning

Rust ASGI-server vs Python-standard

Up to 10×

Graffrågoresultat

Nativa drivrutinstillägg för stora resultatmängder

2–5×

DataFrame-operationer

Rust-nativa DataFrames vs äldre bibliotek

~10×

Cache-parsning

C-backad parser vs ren Python

250 ms

P50 frågelatens

Hybrid vektor + grafåterhämtning

Bearbetningsgenomströmning

1,000+

Dokument per pipeline-körning

Multi-source

Parallell inläsning över dataflöden

47 → 1

Dubblettkanter konsoliderade per entitetspar

< 15 min

Inkrementell uppdatering för ~100 nya dokument

Är du drunknar i dokument?
Testa oss.

Eller maila oss direkt på hello@graffold.com