A G DATA DeepRay mesterséges intelligencia alapú technológiával veszi fel a versenyt a folyamatosan változó, újracsomagolt kártevőkkel. A technológia fejlesztéséért felelős csoport vezetője, Carl-Benedikt Bender a módszer működéséről, a fejlesztés során jelentkező kihívásokról beszélt.
‒ Miért szükséges gépi tanulás technológiát bevetni a vírusok elleni harcba?
‒ Munkánk során gyakran ugyanazzal a kártevővel találkozunk, de a bűnözők állandóan újracsomagolják ezeket. Például az Emotet vírusnak 30 ezer variánsát fedeztük fel csupán az év első felében, a kártevőcsaládok száma viszont korlátozott. Egy egyszerűsített példával élve: a bűnözők ugyanazt a kártékony kódot próbálják meg újra és újra bejuttatni a számítógépekre úgy, hogy azt különböző csomagokba rejtik el – mintha egy fegyvert próbálna meg valaki feljuttatni egy repülőgépre úgy, hogy azt különböző csomagokba rejti.
A mi szempontunkból az alapvető kérdés az, hogyan tudjuk azonosítani a kártevőt még akkor is, ha változik csomagolása? Az ügyfél számítógépének memóriájában végzett mély elemzés egy technikai megoldást jelent a problémára. Mivel azonban ez a folyamat nagyon sok erőforrást igényel, nem használhatjuk minden alkalommal. Az elemzés optimalizálásához egy okos előszűrőt fejlesztettünk, és itt használjuk a gépi tanulást. Végül is, gyakran már ismerjük, hogy néz ki az adott kártevő. Ezt a tudást pedig használhatjuk arra, hogy felkészítsünk egy neurális hálózatot, hogy még gyorsabban felismerje a kártevőket.
Az előszűrőt azonban nem arra használjuk, hogy pontosan azonosítsuk a kártevők fájljait, hanem inkább azokat az állományokat szűrjük ki vele, melyek eltérnek a normálistól. A gépi tanulás jó eszköz arra, hogy a gyanús fájlokat kiszűrjük, például olyan tulajdonságok alapján, hogy az adott fájlnak túl nagy a mérete. Megjelöljük az ilyen fájlokat, és csak ezeket vetjük alá a mély elemzésnek.
‒ Milyen gépi tanulás megközelítést választottak? Léteztek már kész megoldások?
‒ Nem, egy meglévő alapján magunk fejlesztettünk egy egyszerű neurális hálózatot – egy perceptront (a neurális hálózat alapköve) –, amely a kártevőket azonosította. Az azonosítás eléggé nagy kihívás elé állított, hiszen a bűnözők újracsomagolják a kártevőket. Kombinált módszert használva különböző megközelítéseket próbáltunk ki. Első körben az adatok egy százalékával dolgoztunk, mely nagyságrendileg lecsökkentette a tesztelési és fejlesztési fázist. Ezután használtuk a teljes adatbázist. Az elemzés az ügyfél számítógépén történik, a perceptron tanítása azonban az erre a célra fejlesztett hardveren folyik – ehhez ki kellett építenünk egy rendkívül komoly háttér-infrastuktúrát.
‒ Adódtak meglepetések?
‒ Már az első tanítási alkalommal érdekes eredményeket kaptunk. Az adatok egy része eléggé meglepett bennünket, nem tudtuk megmagyarázni az eltéréseket. Majd felfedeztünk egy apró számítási hibát – ez fontos része volt a fejlesztési folyamatnak. Az első próbákon a vírusdetektálási arány valamivel 98 százalék felett volt, majd további szabályokat alkottunk meg, hogy ezt az arányt javítsuk. Például, ha egy futtatható fájlt az internetről töltöttünk le, akkor azt automatikusan érdekes állományként jelöltük meg, és alaposan megvizsgáltuk, attól függetlenül, hogy mit mond a perceptron. Itt a Windows-szabályrendszert követtük, amikor a letöltött fájl esetében megkérdi, hogy biztos futtatni szeretnénk-e.
‒ Hány kártevőcsaládot használtak a tanításhoz?
‒ A tanítási folyamat dinamikus, mindig egy adott időszakban aktív kártevőcsaládot használtunk fel. Igyekszünk minél frissebbek maradni, ezért ahogy az egyik tanítási folyamat véget ér, kezdődik az újabb, az új kártevőcsaládokat ismertető tanítás. Arra is választ kellett találnunk, hogy a rendszer miért súlyozott bizonyos jellemzőket eltérően – valószínű a sok paraméter miatt.
‒ Mi volt a legérdekesebb élmény a fejlesztési szakaszban?
‒ Összesen öt G DATA-s csapat dolgozott a DeepRay fejlesztésén, és ez a közös munka igazán érdekesnek és élvezetesnek bizonyult. Rövid idő alatt sikerült fejlesztenünk egy teljesen működő és könnyen kibővíthető prototípust, hiszen nem volt túl sok megkötés. Ez lehetővé tette, hogy alaposan teszteljük a DeepRay hatékonyságát valós kártevők ellen. Az összes, hackerek által használt kifejlett vagy kísérleti technológiára tudtunk reagálni, minden tanulságot felhasználtunk a DeepRay fejlesztéséhez. Nyilván a perceptron csak az egyik összetevője a puzzle-nak – de rendkívül fontos összetevő. A tanítási folyamatban elért eredmények már a fejlesztési folyamat elején jelezték, hogy jó úton járunk, a kívánt célhoz vezetőn.
‒ Hogyan jelenik meg mindez a mindennapi használat során?
‒ A DeepRay proaktív komponenseinek köszönhetően a detektálás sokkal gyorsabb még a hagyományos reaktív összetevőkben is. Mikor a DeepRay gyanúsnak címkéz egy adott fájlt, akkor a háttérben azonnal megvizsgáljuk, és a kártevőként azonosított állományokat feketelistánkra tesszük. Több összetevő összehangolt működésére van szükség ennek a munkának az elvégzésére, és mindez pár perc alatt történik. Tudjuk, hogy a bűnözők a piacon elérhető eszközök segítségéve ellenőrzik, hogy az újracsomagolt kártevőiket a statikus elemzés felismeri-e vagy sem. A Darkneten pedig már olyan szolgáltatások is bérelhetők, melyek megfelelő módon csomagolják újra a kártevőket. Ezért döntöttünk a DeepRay megalkotása mellett – csak egy dinamikus rendszer képes a statikus rendszer által ellenőrzött kártevőt is felismerni.
‒ Hogyan tovább a DeepRay fejlesztésével?
‒ Az első fázis befejeződött. A tanítási folyamat önállóan lezajlott, és egy olyan rendszert alkottunk meg, amely önállóan működik. Most folyamatosan vizsgáljuk a tanítási folyamatot és a detektálási arányt, de alapvetően a rendszer magától működik. Ezzel párhuzamosan a fejlesztési csapat további fejlesztési ötleteken dolgozik a DeepRayjel kapcsolatban, például szeretnénk tovább optimalizálni a detektálási arányt, és a hatékonyságot is szeretnénk növelni.