Arkitektur
Hur Graffold fungerar
En pipeline för inläsning från flera källor omvandlar ostrukturerade dokument till en konsoliderad kunskapsgraf — sökbar via hybrid vektor + grafåterhämtning med fullständig härkomst.
Inläsningspipeline
Fråge- & hämtningsarkitektur
Integrationer
Grafdatabaser
- Neo4j
- Amazon Neptune
- Kuzu (embedded)
- DuckDB (analytics)
LLM-leverantörer
- AWS Bedrock
- AWS SageMaker
- Ollama (local / air-gapped)
- OpenAI-compatible APIs
Datakällor
- Any source with an API
- PDF files (vision + OCR)
- CSV / Excel / Parquet
- PubMed / bioRxiv (built-in)
Infrastruktur
- Redis (distributed cache)
- Grafana + Prometheus
- Docker Compose / AWS CDK
- HuggingFace embeddings
Prestandastack
Rust-accelererad JSON
3–10× snabbare serialisering
Rust ASGI-server
2–4× begärandegenomströmning
Nativ grafdrivrutin
Upp till 10× för stora resultatmängder
Rust-nativa DataFrames
2–5× snabbare för databehandling
Tokenmedveten chunkning
BPE-tokenizer med meningsgränser
Hybridåterhämtning
Vektor + fulltext + graftraversering
Prestandamätningar
Uppmätta hastighetsökningar från Rust- och C-backade drop-in-ersättningar i hela stacken. Noll omskrivningar av applikationskod krävs.
3–10×
JSON-serialisering
Rust-backad encoder vs stdlib
2–4×
HTTP-genomströmning
Rust ASGI-server vs Python-standard
Up to 10×
Graffrågoresultat
Nativa drivrutinstillägg för stora resultatmängder
2–5×
DataFrame-operationer
Rust-nativa DataFrames vs äldre bibliotek
~10×
Cache-parsning
C-backad parser vs ren Python
250 ms
P50 frågelatens
Hybrid vektor + grafåterhämtning
Bearbetningsgenomströmning
1,000+
Dokument per pipeline-körning
Multi-source
Parallell inläsning över dataflöden
47 → 1
Dubblettkanter konsoliderade per entitetspar
< 15 min
Inkrementell uppdatering för ~100 nya dokument