Data Ingestion Overview

What is Data Ingestion?

gu1’s Data Ingestion system allows you to seamlessly import data from any source (CSV files, APIs, databases, or custom formats) by defining custom schemas and field mappings. This intelligent mapping system ensures your data is properly structured for risk analysis.

How It Works

Define Your Schema

Create a custom schema that describes your data structure with field definitions, types, and validation rules.

Map Fields

Create field mappings that translate your data fields to gu1’s unified entity model.

Transform Data

Apply transformations (formatting, calculations, conditionals) as data flows through the mapping.

Import Entities

Use the mapped schema to create entities via API or bulk upload.

Key Features

Custom Schemas

Define your data structure with flexible field types and validation

Field Mappings

Map your fields to gu1’s unified model with transformations

Smart Detection

Auto-detect field types, patterns, and suggested mappings

Bulk Processing

Import thousands of records efficiently with batch processing

Schema Types

gu1 supports multiple schema types for different data sources:

Type	Description	Use Case
database	Relational database schemas	Direct database integration
api	API response structures	Third-party API integration
file	File formats (CSV, JSON, XML)	File-based imports
custom	Custom data structures	Proprietary formats

Schema Categories

Organize schemas by business domain:

Financial

Bank accounts, transactions, financial statements, payment data

Identity

Personal information, identity documents, KYC data

Compliance

Sanctions lists, PEPs, adverse media, regulatory data

Transaction

Payment transactions, wire transfers, transaction history

General

Any other type of structured data

Field Types

Supported field types for schema definition:

Type	Description	Example
string	Text data	”Acme Corp”, “john@example.com”
number	Numeric values	1000, 99.99, -50
boolean	True/false	true, false
date	Date/timestamp	”2025-10-03T12:00:00Z”
array	List of values	[“tag1”, “tag2”]
object	Nested structure	`{"city": "NYC", "country": "US"}`

Transformation Types

Apply transformations during field mapping:

Direct

Copy field as-is with no changes

Calculate

Perform mathematical calculations

Format

Format strings, dates, numbers

Conditional

Apply if/then logic based on conditions

Lookup

Look up values from reference tables

Custom

Custom JavaScript expressions

Validation Rules

Ensure data quality with built-in validations:

{
  "constraints": {
    "minLength": 5,
    "maxLength": 100,
    "pattern": "^[A-Z0-9]+$",
    "enum": ["active", "inactive", "pending"]
  }
}

Available Constraints:

minLength / maxLength - String length limits
min / max - Numeric value ranges
pattern - Regular expression validation
enum - Allowed values list
required - Field is mandatory

Example: Banking Data Schema

Here’s a complete example of defining a schema for banking customer data:

{
  "name": "Banking Customer Data",
  "version": "1.0.0",
  "type": "database",
  "category": "financial",
  "schemaData": {
    "fields": [
      {
        "name": "customer_id",
        "type": "string",
        "required": true,
        "description": "Unique customer identifier",
        "constraints": {
          "pattern": "^CUST[0-9]{8}$"
        }
      },
      {
        "name": "full_name",
        "type": "string",
        "required": true,
        "description": "Customer full legal name",
        "constraints": {
          "minLength": 2,
          "maxLength": 200
        }
      },
      {
        "name": "account_balance",
        "type": "number",
        "required": false,
        "description": "Current account balance in USD",
        "constraints": {
          "min": 0
        }
      },
      {
        "name": "risk_level",
        "type": "string",
        "required": true,
        "description": "Risk classification",
        "constraints": {
          "enum": ["low", "medium", "high", "critical"]
        }
      },
      {
        "name": "onboarding_date",
        "type": "date",
        "required": true,
        "description": "Date customer was onboarded"
      },
      {
        "name": "kyc_verified",
        "type": "boolean",
        "required": true,
        "description": "Whether KYC verification is complete"
      }
    ],
    "metadata": {
      "sourceFormat": "database",
      "encoding": "UTF-8"
    }
  }
}

Best Practices

Schema Design

Use descriptive field names that match your source data
Include detailed descriptions for complex fields
Set appropriate validation constraints
Version your schemas (1.0.0, 1.1.0, etc.)

Field Mapping

Start with direct mappings, add transformations as needed
Test mappings with sample data before bulk import
Document custom transformation logic
Handle null/missing values gracefully

Data Quality

Validate data at the source before importing
Use strict mode for production environments
Monitor failed imports and validation errors
Implement data cleansing for known issues

Performance

Use bulk processing for large datasets (>1000 records)
Set appropriate batch sizes (100-1000 records)
Schedule imports during off-peak hours
Monitor processing times and adjust batch sizes

Common Use Cases

CSV File Import

Import customer data from CSV files with automatic field detection

API Integration

Connect third-party APIs and sync data in real-time

Database Sync

Synchronize data from your existing databases

Banking Onboarding

Complete KYB workflow with data mapping example

API Endpoints

Create Schema

POST /custom-schemas

List Schemas

GET /custom-schemas

Create Mapping

POST /custom-schemas/mappings

Smart Detection

POST /custom-schemas/detect-fields

Next Steps

Create Your First Schema

Follow the Custom Schemas guide to define your data structure

Map Your Fields

Learn how to map fields to gu1’s model in the Field Mappings guide

Import Data

Start importing entities using the Entities API

Getting Started

Use Cases

Webhooks

Person

Company

Transactions

Devices

Events

Know Your Customer (KYC)

Transactions

Payment Methods

Rules

Risk Matrix

Alerts

Investigations

Data Ingestion

Documents

Enrichment

Integrations

Interactive Tutorials

​What is Data Ingestion?

​How It Works

​Key Features

Custom Schemas

Field Mappings

Smart Detection

Bulk Processing

​Schema Types

​Schema Categories

​Field Types

​Transformation Types

Direct

Calculate

Format

Conditional

Lookup

Custom

​Validation Rules

​Example: Banking Data Schema

​Best Practices

​Common Use Cases

CSV File Import

API Integration

Database Sync

Banking Onboarding

​API Endpoints

Create Schema

List Schemas

Create Mapping

Smart Detection

​Next Steps

What is Data Ingestion?

How It Works

Key Features

Schema Types

Schema Categories

Field Types

Transformation Types

Validation Rules

Example: Banking Data Schema

Best Practices

Common Use Cases

API Endpoints

Next Steps