匿名化とは
匿名化は、暗号化または一般化された情報を再識別するデータマイニングの手法です。 データの再識別とも呼ばれる匿名化は、匿名化された情報を他の利用可能なデータと相互参照して、個人、グループ、またはトランザクションを識別します。
匿名化の解除
テクノロジーに精通した時代は、経済のさまざまな部門で物事を行う従来の方法を急速に混乱させています。 近年、金融業界では、多くのデジタル製品がフィンテック企業によって業界に導入されています。 これらの革新的な製品は、より多くの消費者が従来の金融機関が許すよりも低いコストで金融商品やサービスにアクセスできる金融包摂を促進しています。 テクノロジーの実装の増加により、データの収集、保存、使用が増加しています。 ソーシャルメディアプラットフォーム、デジタル決済プラットフォーム、スマートフォンテクノロジーなどのテクノロジーツールは、さまざまな企業が消費者との相互作用を強化するために使用する大量のデータを公開しています。 この大量のデータはビッグデータと呼ばれ、ユーザーや個人のプライバシーを保護するより多くの法律を求める個人や規制当局の懸念の原因となっています。
匿名化の仕組み
クラウドコンピューティングを通じてユーザーのオンラインアクティビティに関する機密情報が瞬時に共有されるビッグデータの時代には、ユーザーの身元を保護するためにデータ匿名化ツールが採用されてきました。 匿名化は、医療サービス、ソーシャルメディアプラットフォーム、電子商取引などのさまざまな分野で取引するユーザーの個人情報(PII)を隠します。PIIには、生年月日、社会保障番号(SSN)、郵便番号、IPなどの情報が含まれます住所。 オンラインアクティビティによって残されたデジタルトレイルを隠す必要があるため、暗号化、削除、一般化、摂動などの匿名化戦略が実装されています。 データサイエンティストはこれらの戦略を使用して、共有データから機密情報を切断しますが、元の情報を保持しているため、再識別の可能性への扉が開かれます。
匿名化の解除は、共有されているが制限されたデータセットをオンラインで簡単にアクセスできるデータセットと照合することにより、匿名化のプロセスを逆にします。 データマイナーは、利用可能な各データセットからいくつかの情報を取得して、個人のIDまたはトランザクションをまとめることができます。 たとえば、データマイナーは、通信会社、ソーシャルメディアサイト、eコマースプラットフォーム、および公開されている国勢調査結果で共有されているデータセットを取得して、ユーザーの名前と頻繁なアクティビティを判断できます。
匿名化の使用方法
新しい情報がリリースされたとき、または実装された匿名化戦略が適切に行われなかったときに、再識別が成功する可能性があります。 膨大な量のデータと1日あたりの利用可能な時間が限られているため、データアナリストとマイナーは、意思決定の際にヒューリスティックと呼ばれるショートカットを実装しています。 ヒューリスティックは、データセットをコーミングする際に貴重な時間とリソースを節約しますが、間違ったヒューリスティックツールが実装された場合に利用できるギャップを作成することもできます。 これらのギャップは、法的な目的または違法な目的のためにデータセットの匿名化を求めるデータマイナーによって特定される可能性があります。
匿名化手法から違法に取得された個人情報は、匿名化プラットフォームの一種である地下市場で販売できます。 誤った手に渡った情報は、被害者になった企業のプライバシーの懸念と莫大な費用につながる強制、恐tor、および脅迫に使用できます。
匿名化は合法的に使用することもできます。 たとえば、違法薬物の地下市場であるSilk Road Webサイトは、Torという匿名のネットワークによってホストされていました。Torは、タマネギ戦略を使用してユーザーのIPアドレスを難読化します。 Torネットワークは、銃、盗まれたクレジットカード、企業の機密情報を取り扱っている他のいくつかの違法市場もホストしています。 複雑な匿名化ツールを使用して、FBIはシルクロードと児童ポルノに関与しているサイトを正常にクラックしてシャットダウンしました。
再識別プロセスの成功は、匿名性が保証されないことを証明しています。 データをマスクするために画期的な匿名化ツールが今日実装されたとしても、新しいテクノロジーと新しいデータセットが利用可能になると、数年でデータが再識別される可能性があります。