Data-driven Analyse Debunks behauptet, dass NSA außer Kontrolle ist (Special Report)

WICHTIGES UPDATE: Bitte sehen Sie das Ende dieses Artikels für eine ausführliche Antwort von Barton Gellman von der Washington Post. Er klärt einige meiner Aussagen, ruft mich auf einige, und gibt uns ein viel besseres Verständnis für andere. Er schrieb diese Antwort auf die Kommentare, aber ich möchte nicht, dass es verloren geht.

Wie abscheulich ist die Nationale Sicherheitsbehörde? Wenn Presseberichte und Blog-Beiträge zu glauben sind, sind die NSA und die gesamte Regierung Überwachungsapparat der Vereinigten Staaten völlig außer Kontrolle und wir sind für eine Gestapo-Stil Staat geleitet.

Aber ist das wirklich wahr? Was haben die Daten dazu zu sagen?

Beginnen wir mit einem grundlegenden Problem. Große Zahlen sind schwer für die Menschen zu visualisieren. Wirklich, wirklich, wirklich große Zahlen sind unmöglich zu visualisieren.

Berichte über gebrochene Datenschutzbestimmungen

Facebook fängt 20 Mal mehr Daten pro Tag (für nur seine Server-Logs, nicht zählen alle Beiträge) als die NSA-Captures insgesamt.Die NSA-Auswahl-Systeme sind eigentlich wahnsinnig genau. Wenn Sie alle erfassten Daten mit einem Zeitwert von einem Jahr verglichen haben, beläuft sich die Anzahl der Fehler auf etwa eine Viertelmillise. Die tatsächliche Bytemenge fehlerhafter Daten beträgt weniger als einen MP3-Track pro Woche . Wenn diese Zahlen in einer Unternehmenssituation gemeldet wurden, würden sie als ein absoluter Triumph des großen Datenmanagements und der Umsetzung angesehen werden.

Das Ghetto, das aus dieser kognitiven Begrenzung hervorgeht, ist, dass es möglich ist, die öffentliche Wahrnehmung durch das Auswerfen von großklingenden Zahlen zu verzerren. Auch wenn ein Versuch gemacht wird, diese Zahlen in die richtige Perspektive zu stellen, greifen die meisten Leser die meisten wohlschmeckenden Informationen, meistens von der Schlagzeile, und das ist, was ihre interne Darstellung der Tatsachen wird.

So lassen Sie mich zusammenfassen die Ergebnisse meiner Daten-getriebenen Untersuchung, und führen Sie dann durch die Details. Hier ist eine Zusammenfassung der Ergebnisse meiner Analyse

So, dort gehen Sie. Schlagzeilen hyper-inflate die Tatsachen. Nun lassen Sie mich Sie durch alle Details. Beginnen wir mit dem, was am Donnerstag passiert ist.

Am Donnerstag, Bart Gellman, ein Pulitzer-Preisgekrönte Korrespondent an der Washington Post, berichtete “NSA brach Datenschutzregeln Tausende von Mal im Jahr, Audit findet.” Disclosure: Bart verwendet, um für eine meiner Publikationen ein Jahrzehnt oder so vor zu schreiben.

Nach Angaben der Post, ein NSA-Audit beschrieben “2.776 Vorfälle in den letzten 12 Monaten der unerlaubten Erhebung, Speicherung, den Zugang oder die Verbreitung von rechtlich geschützten Mitteilungen.” Dies beschreibt den Zeitraum von Mai 2011 bis Mai 2012.

Von diesem Bericht sprang ein Farbton und Schrei über das Land, vor allem von der Electronic Frontier Foundation, die erklärt, “NSA Spying: Die drei Säulen der Regierung Trust Have Fallen.”

NSA-Virus infiziert über 50.000 Computernetze weltweit, Microsoft, Apple, Google, Facebook fordern NSA-Mündung, NSA Massenüberwachung Lecks: Zeitplan der bisherigen Ereignisse, die kühlende Wirkung: Snowden, die NSA und IT-Sicherheit, NSA Kryptoanalytiker: Auch die Amerikaner, Snowden Dokument zeigt das Ausmaß der NSA / Kanadischen Zusammenarbeit, Sechs Möglichkeiten, sich vor der NSA und andere Lauscher zu schützen

Sicherheit, FBI verhaftet angebliche Mitglieder von Crackas mit Attitude für Hacking US gov’t Beamten, Security, WordPress fordert die Nutzer jetzt zu aktualisieren kritische Sicherheitslücken, Sicherheit, White House ernennt erste Bundes-Chief Information Security Officer, Sicherheit, Pentagon für Cyber ​​kritisiert -Notfall Reaktion durch die Regierung Watchdog

Es ist wichtig zu beachten, bevor ich weiter gehe, dass ich einen unglaublichen Respekt für Bart und den EFF habe. Aber, um Präsident Clinton zu paraphrasieren, ist es Zeit, einige Arithmetik zu beschäftigen.

Hier kommen die wirklich großen Zahlen her. Nach Angaben der NSA selbst, in einem Dokument veröffentlicht, um die Öffentlichkeit (PDF), das Internet als Ganzes trägt 1.826 Petabyte Informationen pro Tag. Hang mit mir hier. Die Zahlen sind nicht viel Sinn machen, für eine kleine Weile, aber ich werde sie zusammen stricken, so dass Sie das große Bild zu fassen.

Von diesen 1,826 Petabyte, die NSA “berührt” 1,6% oder knapp unter 30 Petabyte. Während die NSA keine detaillierten “Berührungen” definiert, können wir im Kontext davon ausgehen, dass die Daten kurzzeitig ihre Netzwerke und / oder Datenerfassungszentren durchlaufen. Ich weiß, dass Sie weder 1,826 Petabyte oder 30 Petabyte darstellen können, aber machen Sie sich darüber keine Sorgen. Bleibe bei mir. Das wird bald Sinn machen.

Die NSA offenbarte, dass von dieser 30 Petabyte es “berührt”, nur 0,025% ist “zur Überprüfung ausgewählt”. Diese Zahl beträgt etwa 7,3 Terabyte. Mit “zur Überprüfung ausgewählt” können wir ziemlich davon ausgehen, dass etwa 7,3 Terabyte zu den globalen Datenbanken der NSA hinzugefügt werden und von föderalen Agenten untersucht werden können.

Ich komme wieder in die Washington Post 2.776 “Vorfälle” in einer Minute. Zuerst wollen wir ein Bild von dem Unterschied zwischen Petabyte und Terabyte.

Die beste Art, wie ich gefunden habe, um diese Datengrößen Bild ist durch den Vergleich mit Geld. Ein einzelnes Byte, ungefähr ein Zeichen (wie “B”) konnte mit einem Penny verglichen werden. Wenn ein Byte ein Penny ist, dann sind die 140 Zeichen in einem Tweet wert etwa 1,40 $ (140 Pennies).

Okay, lasst uns die Einsätze ein bisschen erhöhen. Ein Kilobyte ist ungefähr tausend (ich weiß, 1024, aber Arbeit mit mir), ungefähr tausend Zeichen des Textes. So weit, in diesem Artikel haben Sie etwa dreimal so viele Zeichen zu lesen. In Bezug auf Pennies, wäre ein Kilobyte etwa zehn Dollar, oder nur etwa die Kosten für zwei Subway-Sandwiches.

Im Anschluss an, dann ist ein Megabyte wert ungefähr eine Million Pennies oder ungefähr $ 10.000 Dollar, die ungefähr die Kosten eines gebrauchten 1998 Toyota Camry ist. Ein Gigabyte (das in Videoform halten wird nur etwa eine Episode einer TV-Show) wäre eine Milliarde Pennies oder etwa $ 10.000.000 Dollar – der Preis für ein sehr schönes Herrenhaus.

Sehen Sie, wie diese Zahlen nur wahnsinnig größer werden? Wenn wir von einem Kilobyte (tausend oder so) zu einem Gigabyte (eine Milliarde oder so) gehen, gehen wir von ein paar Sandwiches zu einem Haus der Hollywood-Berühmtheit.

Hang mit mir. Ich bringe es zurück in die NSA in einer Minute, aber Sie müssen noch das volle Bild zu bekommen. Lassen Sie uns es schlagen. Lassen Sie uns von einem Gigabyte zu einem Terabyte gehen. Nehmen wir an, ein Terabyte ist eine Trillion Pfennige wert. In Dollar, das bringt Sie in Milliardär Gebiet, etwa das Netto-Wert von Microsoft Steve Ballmer, und etwa die Hälfte des Nettoverdienstes von Jeff Bezos, die gerade die Washington Post gekauft, was für ihn ist die Tasche ändern.

So ein Terabyte in Geldbegriffe bringt Sie in Mark Zuckerberg, Bruce Wayne, Lex Luthor Gebiet. Also was ist mit einem Petabyte? Wir haben den Begriff Petabyte um die Nachrichten die ganze Woche geschleudert, aber wie viel ist das? Wie können wir es uns vorstellen?

Lassen Sie uns wieder Geld verwenden. Wenn wir einen Penny ein Byte sprechen, ist ein Petabyte ein Quadrillion Pennies oder ungefähr $ 10 Billionen Dollar. Wenn es harte Abbildung Milliardär-Ebene Reichtum ist, versuchen Sie diese aus für Größe: $ 10 Billionen ist das gesamte Bruttoinlandsprodukt von China und Japan … kombiniert.

Okay, also gehen wir zurück zu versuchen, das Bild, was die NSA tun, und falsch machen. Nun, da wir einen Bezugsrahmen haben (von den Kosten eines U-Boot-Sandwiches bis zum Gesamteinkommen von China und Japan kombiniert), können wir ein Gefühl für die Beziehung der Begriffe gewinnen, die die Presse herumflirtet.

Beginnen wir mit der größten Zahl zuerst. Während die NSA etwa 30 Petabyte “berührt” (in der Dollar-Analogie, etwa doppelt Amerikas GDP), wählt sie nur für eine Überprüfung von etwa 7,3 Terabytes (über das Nettogeld von Bill Gates und Jeff Bezos kombiniert).

By the way, als Reality-Check, nach Robert Johnson (Facebook Director of Engineering), im Jahr 2011 gesammelt Facebook 130 Terabytes an Log-Daten jeden Tag. Facebook, nur in Bezug auf die Log-Daten (ohne alle Katze Bilder und Rezepte jeder Beiträge), sammelt fast 20-mal die Menge an Log-Daten jeden Tag als NSA Grabs aller Daten.

Nun, schauen wir uns die Nummer 2.776, was ist, was alle aufregen.

Bevor wir anfangen, mit dieser Zahl zu spielen, fügen wir noch eine Tatsache hinzu. Diese Zahl ist im Laufe eines Jahres, während die anderen Daten, die wir suchen, im Laufe eines Tages ist.

2.776 ist die Anzahl der fehlerhaften Datenzugriffe durch die NSA, dass die Washington Post berichtet. Zunächst einmal, wie viel Daten ist das? Da wir über Metadaten sprechen, reden wir nicht mit voller Botschaft. Ein typischer E-Mail-Header hat etwa 4.500 Bytes (oder etwa 4K). Lassen Sie uns die naysayers den Nutzen des Zweifels geben und lassen Sie jeden NSA-Fehler 32K.

So, jetzt können wir beginnen, die Verrücktheit in Perspektive zu setzen. 32K Mal 2,776 Fehler ist ein wenig unter 90 Megabyte – oder über die Größe eines Justin Bieber Album heruntergeladen als MP3s – pro Jahr.

Um diese in die täglichen Zahlen, die wir mit gearbeitet haben, lassen Sie uns teilen, dass 90 Megabyte von 365. Das gibt uns über 252K. In Penny-per-Byte-Begriffe, das ist etwa $ 2.500 (oder über die Kosten für einen schön ausgestatteten iMac).

In Bezug auf Dollar, die die Analogie, die wir in diesem Artikel verwendet haben, die NSA fälschlicherweise packt das Penny-per-Byte-Datenäquivalent eines iMac im Vergleich zu den Penny-per-Byte-Äquivalent des gesamten Nettovermögens von Bill Gates und Jeff Bezos.

Fazit: Die NSA betreibt täglich rund 30 Quadrillion Bytes durch ihre Systeme. Es erfasst etwa 7 Billionen dieser Bytes. Es fälschlicherweise weniger als ein Megabyte pro Tag – weniger als ein MP3-Wert von Daten pro Tag.

Nehmen wir es anders. Wenn wir über unsere Ziele zur Messung der hervorragenden Hochleistungsfähigkeit der Rechenzentren sprechen, suchen wir nach “fünf Neunen” der Serviceverfügbarkeit, was bedeutet, dass die Betriebszeit 99,999 Prozent beträgt. In Bezug auf die Betriebszeit, fünf Neun bedeutet, dass das Netzwerk wird sich alle 5 Minuten und 26 Sekunden für das ganze Jahr.

Wenn wir die Genauigkeit der NSA durch Vergleich mit dem allgemein akzeptierten IT-Ziel von fünf Neunen Hochverfügbarkeit (oder etwa fünfeinhalb Minuten pro Jahr) darstellen, wäre die NSA-Fehlerrate (in der Zeit beschrieben) 0,2649 Millisekunden pro Jahr Jahr. Das ist nicht der Heilige Gral von fünf Neunzigern Genauigkeit. Das ist mehr wie zwölf Neun.

Diese Zahlen sehen nicht zu mir wie eine abscheuliche Missachtung der Privatsphäre seitens der NSA-Programmierer und Systemingenieure. Stattdessen sieht es mir eher wie ein Triumph der IT-und Datenbank-Engineering.

Natürlich, Informationen wie das nicht verursachen Empörung, es nicht verkaufen Zeitungen, und es erzeugt keine Seitenaufrufe. Es ist genau richtig. Mit Blick auf tatsächliche Daten anstatt atemlos Hyperbel malt ein weit klareres Bild der Aktivitäten der amerikanischen modernsten technischen Intelligenz sammeln Betrieb.

Sie sind nicht der Feind. Wenn überhaupt, scheinen sie eine verdammt gute Arbeit zu tun, die uns ohne zu schützen, immer alle in Ihrer Privatsphäre Junk.

Das folgende wurde auf die Kommentare zu diesem Artikel von Barton Gellman. Ich bin begeistert, dass er an unserem Gespräch teilnimmt. Vielen Dank, Bart, für den Beitritt zu uns und teilen Klarstellungen.

Ich bin der Autor von The Washington Post Geschichte. Es gibt einen Redewendungsausdruck. “Gefahr: Reporter macht Mathe.” Ich werde David nicht auditieren, aber auf jeden Fall ist die Mathematik nicht das Problem hier. Das Problem ist, dass er misst, was er zählt. Ich mache ihm keine Vorwürfe dafür: Dies ist eine sehr komplexe Reihe von rechtlichen, technischen und operativen Fragen. Ich folge ihnen seit 2005 eng und widmete zwei Kapiteln meines letzten Buches, und ich finde sie immer noch nicht leicht. Keine Zeit für eine Abhandlung, sondern ein paar schnelle Punkte

* Die “Compliance-Vorfälle” nicht alle beinhalten Sammlung. Wie die Geschichte und die Dokumente beachten, können sie überall entlang des Spektrums der elektronischen Überwachung stattfinden: Sammlung, Aufbewahrung, Verarbeitung oder Verteilung. Jeder von ihnen kann von der kleinen, mit wenig Privatsphäre Auswirkungen, um die sehr ernst.

* David geht davon aus, dass es sich bei der Überwachung um Metadaten handelt. Es ist nicht. Viel von ihm – eine unbekannte Quantität, weil der Report nicht dieses unten brechen – ist zufrieden. Wie die Geschichte bemerkt, ist die NSA nicht “Ziel” Amerikaner für Content-Sammlung, aber es sammelt eine Menge von amerikanischen Inhalt “versehentlich”, “zufällig” oder absichtlich, wenn eine Partei ist bekannt, dass eine ausländische Ziel in Übersee. Der Großteil bleibt in Datenbanken, und eine einzelne Suche kann Gigabyte hochziehen.

* Ein entscheidender Punkt, um zu verstehen: die letzten beiden Kategorien der Sammlung auf Amerikaner – “zufällige” und absichtliche, wenn eine Partei im Ausland – für die höchste Menge an amerikanischen Daten in NSA Hände. Sie NICHT COUNT als Zwischenfälle. KEINE von ihnen gehören zu den 2.776 Vorfällen. Da die NSA das Gesetz interpretiert, ist es nicht eine Verletzung zu sammeln, zu halten und zu verarbeiten. Bis zu meiner Geschichte, die nie klar war, und das Weiße Haus noch hart arbeitet, um den Unterschied zwischen verbotenen und routinemäßigen Sammlung (einschließlich Sammlung von Inhalten) von den Amerikanern zu verdecken. “Minimierung” Regeln Streifen Identitäten standardmäßig, aber es gibt viele Ausnahmen und Anfragen von “Kunden” zu entlarven Identitäten werden leicht gewährt.

* Es ist nicht möglich, innerhalb von mehreren Größenordnungen die Datenmenge von 2.776 Vorfällen oder die Anzahl der betroffenen Personen zu berechnen oder sogar zu schätzen, auch wenn Sie wissen, ob es sich um Metadaten oder Inhalte handelt. Eine kleine, aber unbekannte Anzahl von Vorfällen – solche, bei denen rechtswidrige Suchbegriffe eingetreten sind, aber keine Ergebnisse erzielt werden – sammeln, verarbeiten oder verbreiten keine Daten und haben somit keinen Einfluss auf die Privatsphäre. Andere Vorfälle können nur wenige Überwachungsgegenstände beinhalten, umfassen jedoch große Datenmengen, entweder weil die Erfassung über einen Zeitraum stattfindet oder weil der zuvor gesammelte Datensatz sehr groß ist. Ein “Zwischenfall” im Bericht Mai 2012 umfasste mehr als 3000 Datenbank-Dateien, und jede Datei enthielt eine unbekannte (aber in der Regel sehr große) Anzahl von Datensätzen. Eine weitere Episode – nicht als “Zwischenfall” gezählt – sammelte Daten für alle Anrufe aus Washington, DC für einen unbekannten Zeitraum. Es gibt keine Möglichkeit, aus dem Bericht allein zu berichten, aber auf der Grundlage der Routine-Verfahren und Umfang der NSA-Operationen ist es wahrscheinlich, dass einige dieser einzelnen Vorfälle (1 von 2.776) Hunderttausende von Menschen betroffen.

* By the way, wie wieder die Geschichte bemerkt, die 2.776 Abdeckung nur Ft. Meade und nahe gelegenen Büros. In einem Audit, das die großen regionalen Operationszentren des SIGINT-Direktorats in Texas, Georgia, Colorado und Hawaii umfasste, und die Aktivitäten anderer Direktionen wie Technologie und Informationssicherung, die ebenfalls enorme Mengen an Daten umfassen, würde es wesentlich mehr Zwischenfälle geben Daten.

* Es ist ein faires Spiel, um einen vollständigen Datensatz zu nehmen und die Analyse eines Reporters (oder Forschers) der Daten herauszufordern. Aber dies war nicht ein vollständiger Datensatz und es ist ein Fehler für David zu denken, er kann suss out die ganze Geschichte aus der begrenzten Anzahl von Dokumenten, die wir alleine gepostet. Ich zog auf andere Dokumente und füllte die Lücken mit vielen Stunden von altmodischen Interviews. Ich nahm etwas Primärmaterial, kombinierte es mit anderen Leads, und angewandten Journalismus, um zu verstehen, was das Material sagt, was es nicht sagt, und welche Folgerungen können und können nicht daraus gezogen werden. Das ist einer der Gründe, warum wir nicht nur Dokumente in den öffentlichen Bereich. Es gibt nicht viele Geschichten im Snowden-Archiv, die alleine durch Dokumente erzählt werden können.

* Trotz alledem ist David sicher zu sagen, die Fehlerquote ist sehr niedrig in Prozent. Das ist wichtig für die Beurteilung der individuellen Leistung, und vielleicht ist das das Ende der Geschichte für Sie. Das ist deine Entscheidung. Für manche Menschen, die öffentliche Ordnung Frage berücksichtigt auch die absolute Zahl. Wir könnten nicht akzeptieren, die mehr weltlichen Schaden von 1 Million verlorene Fluggesellschaft Taschen pro Jahr, auch wenn 99,9 Prozent von 1 Milliarde Beutel überprüft jährlich es an ihre Destinationen. Einige Systeme müssen mit weniger Fehlertoleranz ausgelegt werden als andere. Das ist eine politische und soziale Entscheidung, aber wir waren nicht in der Lage, es zu debattieren, bis der Snowden enthüllt.

* Ein Teil der Bedeutung dieser Geschichte ist, dass die Regierung so hart arbeitete, um es zu verdecken. In öffentlichen Veröffentlichungen von Halbjahresberichten an den Kongress verdrängte die Verwaltung alle statistischen Daten. (By the way, beachten Sie, dass die Tabellen in der 14-seitigen Dokument, das ich gebucht sind nicht klassifiziert. In der DOJ / DNI Bericht an den Kongress wurden sie markiert Top Secret // Special Intelligence, die öffentliche Veröffentlichung unmöglich gemacht und beschränkte die Leserschaft im Kongress .) Neben der Weigerung, Daten freizusetzen, hinterließ die Regierung den sehr starken Eindruck, dass Fehler verschwindend selten und Missbrauch nicht vorhanden waren. Das kann von der Definition des “Missbrauchs” abhängen. Marcy Wheeler zitiert ein tv-Interview, in dem ich das besprochen und einige zusätzliche Punkte hier gemacht habe.

FBI verhaftet angebliche Mitglieder von Crackas mit Haltung für das Hacken US gov’t Beamte

WordPress fordert Benutzer auf jetzt zu aktualisieren kritische Sicherheitslücken zu aktualisieren

White House ernennt ersten Chief Information Security Officer

Pentagon kritisiert für Cyber-Notfall-Reaktion durch die Regierung Watchdog

Volumen der NSA-Daten

Abbildung der Skala der Daten

Analysieren des NSA-Datenflusses mit dem, was wir jetzt verstehen

Setzen Sie sie alle in Perspektive

Von dem Autor der Washington Post Geschichte (Barton Gellman)