Platform overzicht . .. ...

BlueGen simuleert echte data en genereert privacyveilige synthetische die alle mogelijkheden van data ontgrendelen

Data Synthesizer

BlueGen's hoofdfunctie is synthetische data genereren die echte data simuleert en privacy garandeert. Het BlueGen platform gebruikt AI om van echte tabelgegevens te leren en vervolgens data met dezelfde statistische spreiding, bedrijfsregels en referentiële integriteit te creëren.

Differentiële Privacy

BlueGen past differentiële privacy toe. Dit is een wiskundige definitie van privacy die zorgt voor bewezen privacyveilige gegevens die eruitzien en zich gedragen als de originele gegevens.

Data Uitbreiding

BlueGen kan datasets uitbreiden door nieuwe datapunten uit bestaande data te genereren om bijvoorbeeld trainingsdata voor het verbeteren van ML-modellen te maken. Of om grensgevallen voor softwaretesten te genereren. Uitbreiden kan ook omgekeerd werken en een subset van de echte data genereren wanneer een kleine dataset voldoende is.

Federated Data Generation

Met het federated learning framework van BlueGen kunnen meerdere gebruikers samenwerken om synthetische data te genereren zonder hun echte gegevens te delen. BlueGen gebruikt dan alleen de structuur en kenmerken van de verschillende gegevensbronnen om op grote schaal veilig en efficiënt meer diverse datasets te creëren.

Cloudservice en op Locatie

BlueGen kan op locatie draaien in uw datacenter of in uw private cloud. In de cloud gebruikt u het BlueGen platform en de benodigde computercapaciteit vanuit een lokale (browser)agent via het federated learning framework. De data blijven dan op locatie omdat BlueGen alleen de structuur en kenmerken van de data naar het (cloud)platform stuurt.

Robuustheid

BlueGen is gebouwd om onvolledige datasets met ontbrekende waarden, complexe datadistributies en hoogdimensionale categorische kolommen te verwerken zoals die in de praktijk vaak voorkomen.

Dataconnectors en Integraties

Naast CSV-bestanden kan BlueGen ook direct verbinding maken met databases om synthetische gegevens te genereren. Ondersteunde databases zijn MS SQL Server, Oracle, PostgreSQL, MySQL en SQLite. Verder zijn er connectoren beschikbaar voor SAP HANA, Snowflake en AWS Redshift. En via de Command Line Interface (CLI) kan BlueGen in data-engineering en CI/CD-pipelines opgenomen worden.

"Het gebruik van synthetische data zal de hoeveelheid echte data die nodig is voor machine learning met 70% verminderen."
"Synthetische data zal het verzamelen van persoonlijke klantgegevens verminderen waardoor 70% van de sancties voor privacyschendingen wordt vermeden."
gartner-press-release-twitter-thumbnail-430x400

Volgens Gartner, 2025