FAQ . .. ...

BlueGen.ai Synthetic Data FAQ

Algemeen.

Als ons zelflerend systeem zichzelf getraind heeft om synthetische data te genereren, hoef je het alleen maar periodiek te (her)trainen om de gewijzigde eigenschappen van je echte data door te voeren. Om tijd te besparen kun je dit stapsgewijs doen en over verschillende tijdsintervallen, afhankelijk van je use case.
Deep learning gebruikt neurale netwerken om patronen te ontdekken in grote datasets om voorspellingen te doen. Wij trainen onze neurale netwerken specifiek om synthetische data van hoge kwaliteit te genereren. Vergelijkbaar met het ChatGPT neuraal netwerk dat getraind is om tekst te begrijpen en te schrijven.
BlueGen.ai gebruikt generatieve deep learning technologieën in een op zich staand systeem dat hoogwaardige synthetische data genereert. Omdat BlueGen.ai is gebaseerd op federated learning principes is je echte data veilig voor de buitenwereld doordat onze oplossing alleen de structuur en kenmerken van je echte data gebruikt om de synthetische data te genereren.
1. Sluit de oplossing aan op je bestaande dataset. 2. Stel de vereisten voor de synthetische data in. 3. Beoordeel de kwaliteit van je nieuw gecreëerde data. 4. Genereer op verzoek je synthetische data.
Een intrinsieke eigenschap van synthetische data is dat persoonlijk identificeerbare informatie niet wordt overgenomen uit de echte dataset. Specifieke individuele records uit de echte wereld zijn dus niet beschikbaar.
Synthetische data is kunstmatig gegenereerde data die er precies zo uitziet en dezelfde eigenschappen heeft als echte data.
De meest voorkomende use cases voor synthetische data zijn het delen van privacy-veilige gegevens, het trainen van machine learning modellen, het ontwikkelen & testen van nieuwe software en het analyseren van grote datasets. Dit alles met gegarandeerde privacy en integriteit, volledige controle over bias, en de mogelijkheid om meer en scenario-specifieke gegevens te creëren.
Synthetische data omzeilt de beperkingen van privacy, veiligheid en bruikbaarheid van je echte data en maakt snellere, goedkopere en bredere statistische inzichten op basis van je data mogelijk.
Load more

Datakwaliteit

BlueGen.ai garandeert de privacy van synthetische gegevens door het: Voorkomen van linkage attacks door nieuwe data te creëren in plaats van bestaande data te (pseudo)anonimiseren. Uitvoeren van eigen privacy attacks en nearest neighbor analysis op de synthetische data. Toepassen van differential privacy tijdens het trainingsproces van ons systeem.
Je vergelijkt de standaardevaluatie van de synthetische data met die van je echte data om de kwaliteit te beoordelen. Als de synthetische en de echte data dezelfde prognose-, classificatie- en regressieanalyseresultaten opleveren, dan is de kwaliteit goed (genoeg) voor jouw use case.
Als ons systeem geleerd heeft hoe het jouw synthetische data moet genereren, maakt het automatisch een overzichtelijk rapport aan met grafieken en prestatie-indicatoren over standaardstatistieken zoals verdeling, percentielen, afstanden, correlatie, precisie en sensitiviteit.
Datakwaliteit is een multidimensionale maatstaf die onder meer (maar niet uitsluitend) relevantie, diversiteit, consistentie, nauwkeurigheid, robuustheid, nut en privacy omvat. De weging tussen deze afzonderlijke aspecten hangt af van de use case van de synthetische data.

Technisch.

Een deel van de oplossing draait altijd daar waar de echte dataset zich bevindt, maar de lokatie waar je de synthetische data genereert bepaal jij: in de cloud, on-premise, of gecombineerd.
Ja, we bieden verschillende API’s om te integreren met je IT-omgeving.

Als het systeem eenmaal getraind is, kan BlueGen.ai duizenden synthetische datarijen per seconde genereren.

Afhankelijk van de beschikbare rekenkracht en de hoeveelheid echte data varieert de duur van uur tot een dag voor de meest complexe gevallen.
Nee, er is geen maximale hoeveelheid verwerkbare echte data. Wel zal de trainingstijd toenemen bij grotere en complexere datasets.
BlueGen.ai heeft minstens duizend datarijen nodig om zichzelf goed te trainen. En hoe meer kolommen er in een dataset zijn, hoe meer rijen er nodig zijn om alle statistieken, correlaties en relaties te leren.
Ja, als de gegevens in je data lake zo gestructureerd zijn dat BlueGen.ai efficiënt zijn werk kan doen.
BlueGen.ai ondersteunt allerlei data typen uit tabellen en tijdreeksen, zoals in databasesystemen als SQL, Oracle en MongoDB.