Entdecken Sie, wie Forscher von Sophos die Zukunft der Cybersicherheit mit Large Language Models (LLMs) neu gestalten.
Forscher des renommierten Sicherheitsunternehmens Sophos haben einen Meilenstein in der Bewertung von Large Language Models (LLMs) für Anwendungen in der Cybersicherheit erreicht. Durch sorgfältig entwickelte Benchmark-Aufgaben untersuchten sie, wie LLMs, darunter prominente Namen wie GPT-4, Llama 2, Code Llama und Amazons Titan Large, in realen Szenarien der Cybersicherheit performen. Diese Modelle wurden anhand verschiedener Kriterien wie Größe, Beliebtheit, Kontextverständnis und Aktualität ausgewählt.
Die Benchmark-Aufgaben umfassen die Generierung von SQL-Anweisungen aus natürlichen Sprachabfragen für Sicherheitsvorfälle, die Erstellung von Vorfallzusammenfassungen aus Daten von Security Operations Centern (SOC) und die Bewertung des Schweregrads von Vorfällen. Insbesondere für das letzte Szenario verwendeten die Forscher 310 reale Vorfälle aus ihrem eigenen Managed Detection and Response SOC, um die Modelle zu testen. Die Ergebnisse zeigen, dass die meisten LLMs in der Lage sind, grundlegende Aufgaben mit Potenzial für Verbesserungen durch Feinabstimmung zu erfüllen. Allerdings stellen die Bewertung einzelner oder Gruppen von Artefakten und die Erstellung präziser Vorfallzusammenfassungen Herausforderungen dar, die spezialisierte Weiterentwicklungen der Modelle erfordern. GPT-4 und Claude v2 stachen dabei als führende Modelle im Benchmark-Test heraus, während CodeLlama-34B speziell für die Generierung von SQL-Anweisungen Lob erntete.