science >> Wetenschap >  >> Elektronica

Een GAN-architectuur gebruiken om zwaar gecomprimeerde muziekbestanden te herstellen

Spectrogrammen van (a) originele audiofragmenten, (b) corresponderende 32kbit/s MP3-versies, en (c), (d), (e) restauraties met verschillende ruis z willekeurig gesampled uit N (0,I). Krediet:Lattner &Nistal.

In de afgelopen decennia hebben computerwetenschappers steeds geavanceerdere technologieën en hulpmiddelen ontwikkeld om grote hoeveelheden muziek- en audiobestanden op elektronische apparaten op te slaan. Een bijzondere mijlpaal voor muziekopslag was de ontwikkeling van MP3-technologie (d.w.z. MPEG-1 layer 3), een techniek om geluidsreeksen of liedjes te comprimeren tot zeer kleine bestanden die gemakkelijk kunnen worden opgeslagen en overgedragen tussen apparaten.

Het coderen, bewerken en comprimeren van mediabestanden, waaronder PKZIP-, JPEG-, GIF-, PNG-, MP3-, AAC-, Cinepak- en MPEG-2-bestanden, wordt bereikt met behulp van een reeks technologieën die codecs worden genoemd. Codecs zijn compressietechnologieën met twee belangrijke componenten:een encoder die bestanden comprimeert en een decoder die ze decomprimeert.

Er zijn twee soorten codecs, de zogenaamde lossless en lossy codecs. Tijdens decompressie reproduceren lossless codecs, zoals PKZIP- en PNG-codecs, exact hetzelfde bestand als originele bestanden. Compressiemethoden met verlies produceren daarentegen een facsimile van het originele bestand dat klinkt (of eruitziet) als het origineel, maar minder opslagruimte in beslag neemt op elektronische apparaten.

Audiocodecs met verlies werken in wezen door digitale audiostreams te comprimeren, enkele gegevens te verwijderen en ze vervolgens te decomprimeren. Over het algemeen is het verschil tussen het originele en het gedecomprimeerde bestand moeilijk of onmogelijk voor mensen om waar te nemen.

Wanneer lossy codecs echter hoge compressiesnelheden gebruiken, kunnen ze beperkingen introduceren en audiosignalen waarneembaar veranderen. Onlangs hebben computerwetenschappers geprobeerd deze beperking van codecs met verlies te overwinnen en de kwaliteit van gecomprimeerde bestanden te verbeteren met behulp van deep learning-technieken.

Onderzoekers van Sony Computer Science Laboratories (CSL) hebben onlangs een nieuwe deep learning-methode ontwikkeld om de kwaliteit van zwaar gecomprimeerde nummers en audio-opnames (d.w.z. audiobestanden die zijn gecomprimeerd door lossy codecs met hoge compressiesnelheden) te verbeteren en te herstellen. Deze methode, geïntroduceerd in een paper dat vooraf is gepubliceerd op arXiv, is gebaseerd op generatieve adversariële netwerken (GAN's), machine learning-modellen waarin twee neurale netwerken "concurreren" om steeds nauwkeurigere of betrouwbaardere voorspellingen te doen.

"Veel werken hebben het probleem van audioverbetering en verwijdering van compressieartefacten aangepakt met behulp van deep learning-technieken", schreven Stefan Lattner en Javier Nistal in hun paper. "Er zijn echter maar een paar werken die het herstel van zwaar gecomprimeerde audiosignalen in het muzikale domein aanpakken. In deze studie testen we een stochastische generator voor een generatieve adversarial netwerk (GAN) -architectuur voor deze taak."

Net als andere GAN's bestaat het model van Lattner en Nistal uit twee afzonderlijke modellen, bekend als de "generator (G)" en de "criticus (D)". De generator ontvangt een fragment van een MP3-gecomprimeerd muzikaal audiosignaal, weergegeven via een spectrogram (d.w.z. een visuele weergave van de spectrumfrequenties van een audiosignaal).

De generator leert continu om een ​​herstelde versie van dit originele signaal te produceren, dat kleiner is. Ondertussen leert de kritische component van de GAN-architectuur onderscheid te maken tussen de originele bestanden van hoge kwaliteit en de herstelde versies, en zo de verschillen tussen beide te ontdekken. Uiteindelijk wordt de door de criticus verzamelde informatie gebruikt om de kwaliteit van de herstelde bestanden te verbeteren, zodat de muziek- of audiogegevens in de herstelde bestanden zo getrouw mogelijk zijn aan die in het origineel.

Lattner en Nistal evalueerden hun op GAN gebaseerde architectuur in een reeks tests, die bedoeld waren om te bepalen of hun model de kwaliteit van de MP3-invoer kon verbeteren en gecomprimeerde voorbeelden kon genereren die van hogere kwaliteit zijn en dichter bij een origineel bestand liggen dan die gemaakt door andere basismodellen voor audiocompressie. Hun resultaten waren veelbelovend, omdat ze ontdekten dat de restauraties van zwaar gecomprimeerde MP3-bestanden (16 kbit/s en 32 kbit/s) door het model doorgaans beter waren dan de originele gecomprimeerde bestanden, omdat ze beter klonken voor ervaren menselijke luisteraars. Bij het gebruik van zwakkere compressiesnelheden (64 kbit/s mono), ontdekte het team aan de andere kant dat hun model iets slechtere resultaten behaalde dan de standaard MP3-compressietools.

"We voeren een uitgebreide evaluatie uit van de verschillende experimenten met behulp van objectieve statistieken en luistertests", aldus Lattner en Nistal. "We vinden dat de modellen de kwaliteit van audiosignalen kunnen verbeteren ten opzichte van de MP3-versies voor 16 en 32 kbit/s en dat de stochastische generatoren in staat zijn om outputs te genereren die dichter bij de originele signalen liggen dan die van de deterministische generatoren."

Als onderdeel van hun onderzoek toonden de onderzoekers ook aan dat hun architectuur met succes realistische hoogfrequente inhoud kon genereren en toevoegen die de audiokwaliteit van gecomprimeerde nummers verbeterde. De gegenereerde inhoud omvatte percussie-elementen, een zangstem die sissende of plosieven produceerde (d.w.z. "s"- en "t"-geluiden) en gitaargeluiden.

In de toekomst zou het model dat ze creëerden kunnen helpen om de grootte van MP3-muziekbestanden aanzienlijk te verkleinen zonder de inhoud ervan te veranderen of gemakkelijk waarneembare fouten te creëren. Dit kan aanzienlijke gevolgen hebben voor de opslag en verzending van muziek op zowel streaming-apps (bijv. Spotify, Apple Music, enz.) als moderne elektronische apparaten, waaronder smartphones, tablets en computers. + Verder verkennen

Google Lyra maakt spraakoproepen mogelijk voor nog eens miljard gebruikers

© 2022 Science X Network