Google biedt gratis metadatasets met enkele diepgaande AI- en machine learning-algoritmen voor snelle en efficiënte beeldclassificatie in TensorFlow en PyTorch
Google heeft de beschikbaarheid aangekondigd van meerdere datasets bestaande uit diverse maar beperkte natuurlijke afbeeldingen. De zoekgigant is ervan overtuigd dat de openbaar beschikbare gegevens het tempo van machine learning en kunstmatige intelligentie zullen stimuleren, terwijl de tijd die nodig is om de AI-modellen op een minimale hoeveelheid gegevens te trainen, wordt verkort. Google noemt het nieuwe initiatief 'Free Meta-Datasets' dat AI-modellen zal helpen 'leren' met minder data. De ‘Few-Shot AI’ van het bedrijf is geoptimaliseerd om ervoor te zorgen dat AI nieuwe lessen leert uit slechts een paar representatieve afbeeldingen.
Google begrijpt de noodzaak om AI- en Machine Learning-modellen snel te trainen met minder datasets en heeft 'Meta-Dataset' gelanceerd, een kleine verzameling afbeeldingen die moet helpen de hoeveelheid gegevens te verminderen die nodig is om de nauwkeurigheid van algoritmen te verbeteren. Het bedrijf beweert dat door het gebruik van technieken voor beeldclassificatie met weinig foto's, de AI- en ML-modellen dezelfde inzichten zullen krijgen uit veel minder representatieve afbeeldingen.
Google AI kondigt meta-dataset aan: een dataset met datasets voor een paar minuten leren:
Deep Learning voor AI en Machine Learning groeit al geruime tijd exponentieel. Kernvereiste is echter de beschikbaarheid van hoogwaardige data en dat ook in grote hoeveelheden. De grote hoeveelheden handmatig geannoteerde trainingsgegevens zijn vaak moeilijk te verkrijgen en kunnen soms ook onbetrouwbaar zijn. Inzicht in de risico's van grote datasets, heeft Google de beschikbaarheid aangekondigd van een verzameling metadatasets.
Via 'Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Voorbeelden' (gepresenteerd op ICLR 2020), heeft Google een grootschalige en diverse benchmark voorgesteld voor het meten van de competentie van verschillende beeldclassificatiemodellen in een realistisch en uitdagend aantal -shot setting, die een raamwerk biedt waarin men verschillende belangrijke aspecten van de few-shot classificatie kan onderzoeken. In wezen biedt Google 10 openbaar beschikbare en gratis te gebruiken datasets van natuurlijke afbeeldingen aan. Deze datasets bestaan uit ImageNet, CUB-200-2011, Fungi, handgeschreven karakters en doodles. De code is openbaar en bevat een notebook die laat zien hoe Meta-Dataset kan worden gebruikt in TensorFlow en PyTorch.
Few-shot-classificatie gaat verder dan de standaard trainings- en deep learning-modellen. Tijdens de test is generalisatie nodig naar geheel nieuwe klassen. Met andere woorden, de afbeeldingen die tijdens het testen werden gebruikt, werden niet gezien tijdens de training. In een paar-shot-classificatie bevat de trainingsset klassen die volledig los staan van de klassen die tijdens de test zullen verschijnen. Elke testtaak bevat een ondersteuningssetvan een paar gelabelde afbeeldingen waaruit het model kan leren over de nieuwe klassen en een disjuncte querysetvoorbeelden die het model vervolgens moet classificeren.
Een Meta-Dataset is een groot onderdeel waarin modelstudies generalisatie naar geheel nieuwe datasets, waaruit tijdens de training geen afbeeldingen van welke klas dan ook werden gezien. Dit is een aanvulling op de moeilijke generalisatie-uitdaging voor nieuwe klassen die inherent is aan de setup van een paar schoten leren.
Hoe helpt metadataset deep learning voor AI- en machine learning-modellen?
Meta-Dataset vertegenwoordigt tot nu toe de grootste georganiseerde benchmark voor cross-dataset, few-shot beeldclassificatie. Het introduceert ook een steekproefalgoritme voor het genereren van taken met verschillende kenmerken en moeilijkheidsgraden, door het aantal klassen in elke taak, het aantal beschikbare voorbeelden per klasse te variëren, klassenonevenwichtigheden te introduceren en, voor sommige datasets, de mate van overeenkomst tussen de klassen van elke taak.
Meta-Dataset introduceert nieuwe uitdagingen voor een paar-shot classificatie. Het onderzoek van Google is nog voorlopig en er is veel te onderzoeken. De zoekgigant heeft echter beweerd dat onderzoekers succes boeken. Enkele van de opmerkelijke voorbeelden zijn het gebruik van slim ontworpen taakconditionering, meer geavanceerde afstemming van hyperparameters, een 'meta-baseline' die de voordelen van pre-training en meta-learning combineert, en ten slotte het gebruik van functieselectie om een universele representatie voor elke taak te specialiseren. .