Bedste NLP-model nogensinde? Google BERT sætter nye standarder i 11 sprogopgaver

Det nye Google AI-papir BERT: Foruddannelse af Deep Bidirectional Transformers for Language Understanding modtager anerkendelser fra hele maskinlæringsfællesskabet. Google-forskere præsenterer en dyb tovejs transformatormodel, der omdefinerer den nyeste teknik til 11 naturlige sprogbehandlingsopgaver, endda overgår menneskelig præstation i det udfordrende område med spørgsmålssvar. Nogle højdepunkter fra papiret:

  • NLP-forskere udnytter dagens store mængde tilgængelige sprogdata og modnes overførselsindlæringsteknikker for at udvikle nye føruddannelsesmetoder. De træner først en modelarkitektur på et sprogmodelleringsmål og finjusterer det derefter til en overvåget nedstrømsopgave. Aylien-forsker Sebastian Ruder antyder i sin blog, at foruddannede modeller kan have "den samme vidtgående indflydelse på NLP, som foruddannede ImageNet-modeller havde på computersynet."
  • BERT-modellens arkitektur er en tovejs transformator-kode. Brugen af ​​en Transformer kommer ikke som nogen overraskelse - dette er en nylig tendens på grund af Transformers 'træningseffektivitet og overlegen ydelse til at fange afhængigheder i lang afstand sammenlignet med en tilbagevendende neurale netværksarkitektur. Den tovejs-kodning er i mellemtiden en fremtrædende funktion, der adskiller BERT fra OpenAI GPT (en venstre-til-højre-transformator) og ELMo (en sammenkædning af uafhængigt trænet venstre-til-højre og højre-til-venstre LSTM).
  • BERT er en kæmpe model med 24 transformatorblokke, 1024 skjulte enheder i hvert lag og 340M parametre.
  • Modellen er foruddannet på 40 epoker over et 3,3 milliarder ord korpus, inklusive BooksCorpus (800 millioner ord) og engelsk Wikipedia (2,5 milliarder ord).
  • Modellen kører på 16 TPU-pods til træning.
  • I foruddannelsesprocessen tog forskere en tilgang, der involverede tilfældigt maskering af en procentdel af input-tokens (15 procent) for at træne en dyb tovejsrepræsentation. De refererer til denne metode som en Masked Language Model (MLM).
  • En foruddannet sprogmodel kan ikke forstå forholdet mellem sætninger, som er afgørende for sprogopgaver som spørgsmålssvar og naturlig sproginddragelse. Forskere forhåndsuddannede derfor en binæriseret næste sætning forudsigelsesopgave, der trivielt kan genereres fra ethvert enspråget korpus.
  • Den finjusterede model til forskellige datasæt forbedrer GLUE-benchmarket til 80,4 procent (7,6 procent absolut forbedring), MultiNLI-nøjagtighed til 86,7 procent (5,6 procent absolut forbedring), SQuAD v1.1-spørgsmålet besvarer Test F1 til 93.2 (1.5 absolut forbedring) , og så videre over i alt 11 sprogopgaver.

Avisens første forfatter er Jacob Devlin, en seniorforsker fra Google med en primær forskningsinteresse i at udvikle dybe læringsmodeller til naturlige sprogopgaver. Han førte før Microsoft Translate's overgang fra sætningsbaseret oversættelse til neural machine translation (NMT) som principforsker ved Microsoft Research fra 2014 til 2017.

Google Brain Research Scientist Thang Luong tweetede entusiastisk "en ny æra af NLP er lige begyndt for et par dage siden: store præ-træningsmodeller (Transformer 24 lag, 1024 dim, 16 hoveder) + massiv beregning er alt hvad du har brug for."

Baoxun Wang, chefforsker for den kinesiske AI-opstart Tricorn, roste også Google-papiret som ”en milepæl” i sin hovedadresse på denne uges konference for kunstig intelligensindustri Alliance i Suzhou, Kina. Papiret udnytter enorme mængder data og computere og poleret ingeniørarbejde, der repræsenterer det Wang kalder "Googles tradition for voldelig æstetik."

Den foruddannede model og kode frigives i løbet af de næste to uger. Papiret er på arXiv.

Opdatering:

Google har åbnet sourcing af papirets kode og data på Github.

Journalist: Tony Peng | Redaktør: Michael Sarazen

Følg os på Twitter @ Synced_Global til daglige AI-nyheder

Vi ved, at du ikke vil gå glip af nogen historier. Abonner på vores populære Synced Global AI Weekly for at få ugentlige AI-opdateringer.