science >> Wetenschap >  >> Elektronica

Onderzoekers verbergen informatie in platte tekst

Iemand die FontCode gebruikt, zou een geheim bericht en een dragertekstdocument verstrekken. FontCode converteert het geheime bericht naar een bitstring (ASCII of Unicode) en vervolgens naar een reeks gehele getallen. Elk geheel getal wordt toegewezen aan een blok van vijf letters in de gewone tekst, waarbij de genummerde locaties van elke letter optellen bij het gehele getal. Krediet:Changxi Zheng/Columbia Engineering

Computerwetenschappers van Columbia Engineering hebben FontCode uitgevonden, een nieuwe manier om verborgen informatie in gewone tekst in te bedden door onmerkbaar te veranderen, of storend, de vormen van lettertypen in tekst. FontCode creëert lettertypeverstoringen, ze gebruiken om een ​​bericht te coderen dat later kan worden gedecodeerd om het bericht te herstellen. De methode werkt met de meeste lettertypen en, in tegenstelling tot andere tekst- en documentmethoden die ingesloten informatie verbergen, werkt met de meeste documenttypen, zelfs de verborgen informatie behouden wanneer het document op papier wordt afgedrukt of naar een ander bestandstype wordt geconverteerd. De paper zal worden gepresenteerd op SIGGRAPH in Vancouver, Brits Colombia, 12-16 augustus.

"Hoewel er voor de hand liggende toepassingen voor spionage zijn, we denken dat FontCode nog meer praktische toepassingen heeft voor bedrijven die manipulatie van documenten willen voorkomen of auteursrechten willen beschermen, en voor retailers en artiesten die QR-codes en andere metadata willen insluiten zonder het uiterlijk of de lay-out van een document te veranderen, " zegt Changxi Zheng, universitair hoofddocent informatica en senior auteur van de paper.

Zheng creëerde FontCode met zijn studenten Chang Xiao (promovendus) en Cheng Zhang MS'17 (nu een doctoraatsstudent aan UC Irvine) als een tekststeganografische methode die tekst kan insluiten, metagegevens, een url, of een digitale handtekening in een tekstdocument of afbeelding, of het nu digitaal is opgeslagen of op papier is afgedrukt. Het werkt met veelvoorkomende lettertypefamilies, zoals Times Roman, Helvetica, en Calibri, en is compatibel met de meeste tekstverwerkingsprogramma's, inclusief Word en FrameMaker, evenals beeldbewerkings- en tekenprogramma's, zoals Photoshop en Illustrator. Omdat elke letter kan worden verstoord, de hoeveelheid informatie die in het geheim wordt overgebracht, wordt alleen beperkt door de lengte van de reguliere tekst. Informatie wordt gecodeerd met behulp van minuscule lettertypeverstoringen - het wijzigen van de lijndikte, het aanpassen van de hoogte van stijgers en dalers, of het strakker of losser maken van de rondingen in schreven en de kommen met letters zoals o, P, en B.

"Het veranderen van een letter, leesteken, of symbool in een iets andere vorm kunt u de betekenis van het document wijzigen, " zegt Xiao, hoofdauteur van de krant. "Deze verborgen informatie, hoewel niet zichtbaar voor mensen, is machineleesbaar net zoals barcodes en QR-codes direct leesbaar zijn door computers. Echter, in tegenstelling tot barcodes en QR-codes, FontCode tast de visuele esthetiek van het gedrukte materiaal niet aan, en zijn aanwezigheid kan geheim blijven."

Gegevens die verborgen zijn met FontCode kunnen uiterst moeilijk te detecteren zijn. Zelfs als een aanvaller lettertypewijzigingen tussen twee teksten detecteert - hoogst onwaarschijnlijk gezien de subtiliteit van de verstoringen - is het gewoon niet praktisch om elk bestand te scannen dat binnen een bedrijf komt en gaat.

Verder, FontCode sluit niet alleen berichten in, maar kan ook berichten versleutelen. Terwijl de verstoringen worden opgeslagen op een genummerde locatie in een codeboek, hun locaties zijn niet vast. Mensen die willen communiceren via versleutelde documenten zouden een privésleutel overeenkomen die de specifieke locaties specificeert, of bestellen, van verstoringen in het codeboek.

"Encryptie is slechts een back-upniveau van bescherming voor het geval een aanvaller het gebruik van lettertypewijzigingen kan detecteren om geheime informatie over te brengen, " zegt Zheng. "Het is erg moeilijk om de veranderingen te zien, dus ze zijn echt moeilijk te detecteren - dit maakt FontCode een zeer krachtige techniek om gegevens voorbij bestaande verdedigingen te krijgen."

FontCode is niet de eerste technologie die een bericht in tekst verbergt—er bestaan ​​programma's om berichten in PDF- en Word-bestanden te verbergen of om de witruimte te verkleinen om een ​​0 of 1 aan te duiden, maar, zeggen de onderzoekers, het is de eerste die documentonafhankelijk is en de geheime informatie behoudt, zelfs wanneer een document of een afbeelding met tekst (PNG, JPG) wordt afgedrukt of geconverteerd naar een ander bestandstype. Dit betekent dat een FrameMaker- of Word-bestand kan worden geconverteerd naar PDF, of een JPEG kan worden geconverteerd naar PNG, allemaal zonder de geheime informatie te verliezen.

Om FontCode te gebruiken, u zou een geheim bericht en een dragertekstdocument aanleveren. FontCode converteert het geheime bericht naar een bitstring (ASCII of Unicode) en vervolgens naar een reeks gehele getallen. Elk geheel getal wordt toegewezen aan een blok van vijf letters in de gewone tekst waarbij de genummerde codeboeklocaties van elke letter optellen tot het gehele getal.

Het herstellen van verborgen berichten is het omgekeerde proces. Van een digitaal bestand of van een foto gemaakt met een smartphone, FontCode vergelijkt elke verstoorde letter met de originele verstoring in het codeboek om het originele bericht te reconstrueren.

Matching wordt gedaan met behulp van convolutionele neurale netwerken (CNN's). Het herkennen van door vectoren getekende lettertypen (zoals lettertypen die zijn opgeslagen als PDF's of die zijn gemaakt met programma's zoals Illustrator) is eenvoudig, omdat vorm- en paddefinities computerleesbaar zijn. Echter, het is een ander verhaal voor PNG, IMG, en andere gerasterde (of pixel) lettertypen, waar de verlichting verandert, verschillende cameraperspectieven, of ruis of wazigheid kan een deel van de brief maskeren en een gemakkelijke herkenning verhinderen.

Hoewel CNN's zijn getraind om rekening te houden met dergelijke verstoringen, herkenningsfouten zullen nog steeds optreden, en een belangrijke uitdaging voor de onderzoekers was ervoor te zorgen dat een bericht altijd kon worden hersteld bij dergelijke fouten. Redundantie is een voor de hand liggende manier om verloren informatie te herstellen, maar het werkt niet goed met tekst, omdat overtollige letters en symbolen gemakkelijk te herkennen zijn.

In plaats daarvan, de onderzoekers wendden zich tot de 1700 jaar oude Chinese Reststelling, die een onbekend getal identificeert van de rest nadat het is gedeeld door verschillende delers. De stelling is gebruikt om ontbrekende informatie in andere domeinen te reconstrueren; in FontCode, onderzoekers gebruiken het om het originele bericht te herstellen, zelfs als niet alle letters correct worden herkend.

"Stel je voor dat je drie onbekende variabelen hebt, " zegt Zheng. "Met drie lineaire vergelijkingen, je zou ze alle drie moeten kunnen oplossen. Als u het aantal vergelijkingen verhoogt van drie naar vijf, je kunt de drie onbekenden oplossen zolang je drie van de vijf vergelijkingen kent."

Met behulp van de Chinese Restanttheorie, de onderzoekers toonden aan dat ze berichten konden herstellen, zelfs als 25% van de briefverstoringen niet werden herkend. Theoretisch zou het foutenpercentage hoger kunnen zijn dan 25%.

De auteurs, die een patent hebben aangevraagd bij Columbia Technology Ventures, plan om FontCode uit te breiden naar andere talen en tekensets, inclusief Chinees.

"We zijn enthousiast over het brede scala aan toepassingen voor FontCode, " zegt Zheng, "van documentbeheersoftware, naar onzichtbare QR-codes, bescherming van juridische documenten. FontCode zou een game changer kunnen zijn."

De studie is getiteld "FontCode:informatie in tekstdocumenten insluiten met behulp van Glyph Perturbation."