第24回

データ分類製品購入ガイド: データ分類ソリューションの選び方

Varonis Systems, Inc. 執筆

2024年9月25日

私どもVaronis Systems, Inc (NASDAQ: VRNS) は、データセキュリティと分析の先駆者で、データ保護、脅威の検出と対応、およびコンプライアンスに特化したソフトウェアを開発しています。このコラムでは、サイバーセキュリティ、プライバシー、データ保護についての最新のトレンドや知見、分析情報、事例などを皆様にご紹介していきたいと考えております。

第24回目となる今回は、「データ分類製品購入ガイド: データ分類ソリューションの選び方」と題して、市場に出回っているさまざまなデータ分類製品を紹介するとともに、なぜ従来の分類のやり方が機能しないのかを説明します。データ分類ベンダーを選択する際に考慮すべき5つの重要な要素を共有し、組織に最適なソリューションを選択するために役立つ基本的な質問を紹介する、当社Megan Garzaのブログ記事を紹介します。

Blog Data Discovery and Classification 202404 FNL

データ分類は、強力なセキュリティ態勢には不可欠ですが、多くの組織は「ダークデータ」に悩まされています—つまり、どのような機密性の高いデータがあるのか、露出していないのか、使用中なのか、攻撃を受けているのかを把握できていません。

その分析情報がなければ、リスクの優先順位付けや修正、脅威の検出、プライバシー規制の遵守は事実上不可能です。

組織には、個人識別情報 (PII) 、保護対象保険情報 (PHI) 、ペイメント業界情報 (PCI) などの機密性の高いデータが山のようにあり、SaaSアプリケーション、電子メール、クラウドインフラストラクチャー、データベース、オンプレミスのストレージなど、あらゆる場所に保存されています。堅牢なデータ分類ソリューションがなければ、データ漏洩や侵害の危険に晒されます。

このガイドでは、市場に出回っているさまざまなデータ分類製品を紹介するとともに、なぜ従来の分類のやり方が機能しないのかを説明します。データ分類ベンダーを選択する際に考慮すべき5つの重要な要素を共有し、組織に最適なソリューションを選択するために役立つ基本的な質問を紹介します。

すべてのデータ分類ソリューションが同じように作られているわけではありません。

多くのベンダーが、完全でスケーラブルなデータ発見機能と分類機能を提供すると主張していますが、手作業、サンプリング、不定期のスキャン、エラーが発生しやすい機械学習トレーニングに依存しているために能力不足で、不完全な結果しか提供できていません。

ここでは、注意すべきデータ分類方法をいくつか紹介します:

手動による分類

ユーザー任せの分類は、しばしばデータを誤って分類してしまったり、セキュリティ管理策を回避するために「一般公開」をラベルを適用することがあるため、強制することが困難です。特にAIによってデータが増大する新しい時代に入った現在、手作業でファイル毎にタグ付けをすることは面倒で、間違いが発生しやすいものです。

機械学習のみの分類

正しく適用すれば、機械学習による分類は効果的です。しかし、包括的で信頼できる学習データがなければ、この方法には次のような限界があります：

•    学習データが限られている場合、分類器が新しいサンプルを分類できず、不完全な結果をもたらす可能性があります。
•    機械学習の分類器は、学習したデータに基づいて学習します。もし学習データに偏りがあると、分類器は信頼性の低い出力を生成します。
•    データ主権を守るためには、学習はローカル環境で行う必要がありますが、機密性の高いコンテンツをベンダーの中央サーバーに送信して学習することを避けようとすると、お客様のインフラストラクチャーに大量の計算リソースが必要になる可能性があります。

このような制限から、誤検出の可能性が高くなります。第一世代の機械学習ベースの手法は、計算コストが高く、多くの場合、Excelシートやクレジットカード番号のような、一般的なデータ形式やパターンに対しては過剰です。

作業に適切なツールを使用することが肝要です；多くの場合、正規表現やその他のパターン一致技術は、効率や精度において機械学習を凌駕します。

構造化データのみの分類

データ分類製品を選択する際に考慮すべきもう1つの要素は、ソリューションが構造化データと非構造化データの両方を処理できるかどうかです。

構造化データは、表、スプレッドシート、リレーショナルデータベースなど、事前定義された一貫性のあるフォーマットと構造を持つものです。非構造化データは、テキスト、画像、音声、動画、ソーシャルメディア投稿など、変数の書式や構造を持たないものです。

構造化データは高度に整理されているため、自動分類ツールを使えば、膨大な量のデータを迅速にスキャンし、カテゴリー化し、分析することができます。

しかし、非構造化データの性質は多様であるため、アルゴリズムが有意なパターンを抽出できないと正確な分類を行うことが困難になります。非構造化データにはタイプミスやスペルミスが含まれている可能性がありますが、これは支援言語が予測不可能で混乱を招くことが多いためです。

Microsoft Copilotのような生成AIツールなどによって、組織は毎日膨大な量の非構造化データを生成していますが、効率的なデータ分類アルゴリズムがなければ、そのデータをリアルタイムで処理して分類することは困難です。

データ分類製品ベンダーに求められる5つのポイント

データの分類は、強力なセキュリティ態勢の基礎となる要素です。しかし、多くの分類プロジェクトは、スキャンエンジンが大規模なデータセットを処理できなかったり、信頼できなくなるぐらいの大量の誤検出を生成したりするために、失敗しています。

自社の規模とスケールに一致する顧客層を持つデータ分類製品ベンダーを探しましょう。概念実証 (PoC) の間に、分類機能が、完全で、文脈を持った、最新の結果を生成できることを確認します。

1. スケーラブルで効率的なリアルタイムスキャン

1テラバイトのストレージをスキャンする場合と、グローバルな銀行の12ペタバイトのデータをスキャンする場合とでは、大きな違いがあります。遅延の問題でスケーリングが不可能な製品では、スキャンがまったく完了しないか、古くて不完全なデータ分類に関する知見を提供することになり、重要なセキュリティ上の決定に影響を与える可能性があります。

エンジンのスケーリング能力に寄与する要因としては、次のようなものがあります：

•    アーキテクチャー：スキャンエンジンはデータソースの近くに設置されていますか？並列処理と増分スキャンを採用していますか？そのベンダーはデータを自社のサーバーにコピーしますか？
•    ネットワーク帯域：データソースとスキャンエンジンの間の帯域幅はどれぐらいですか？
•    アルゴリズムの複雑さ：そのエンジンは、深層学習モデルのような複雑なアルゴリズムを使用して、ファイル当たりのスキャン時間を増加させていませんか？

何百もの大規模なデータストアを持つ環境では、リソースをあまり消費せずに複数のシステムに同時に対応できる、分散型のマルチスレッドエンジンが必要です。前回のスキャン以降に変更または作成されたデータのみをスキャンするリアルタイムの増分スキャン方式を採用するデータ分類ソリューションを探しましょう。

Data Classification: Classification Monitor

Varonisはペタバイト規模の環境にも対応できるように設計されています。

Varonisが最大規模のデータ環境をスキャンできる大きな理由は、増分アプローチにあります。初期スキャンが完了後は、スキャン対象の各リソースの作成日や変更日を確認する必要なく、Varonisのデータ監視機能が、スキャンエンジンに対して、前回のスキャン以降にどのデータが新規作成されたのか、あるいは変更されたのかを通知します。

加えて、Varonisの柔軟なクラウドアーキテクチャーによりデータの成長に合わせて動的にリソースを追加することができます。Varonisの分類エンジンは、スキャン対象のデータの近くにあるお客様のプライベートクラウド内の並列スキャンノード上で実行されます。このローカルCollectorサーバーは、お客様の機密性の高いデータがその環境内に留まることも保証します。Varonisのクラウドにはメタデータのみが送信されます。

2. 正確な分類

正確性はデータ分類の最も重要な要素です；データの発見機能や分析機能の信頼性が低ければ、情報漏洩防止 (DLP) ポリシー、CASB機能、脅威の検出などが台無しになってしまいます。

ガートナー社によると、35%を超えるDLPプロジェクトが、データの分類と発見が不十分なために、失敗しています。DLPの有効性は、これらの課題に対処し、データ分類の正確性が保証されているかどうかにかかっています。

多くの分類ツールは、機密性の高いデータを見つける際に、サードパーティ製のライブラリーやオープンソースパッケージに含まれる、テストも検証もされない正規表現、辞書、パターンに依存しています。dlptest.comのような場所から入手可能なテストデータを使用して、評価期間中に正確性をテストすることが重要です。

前述の通り、学習可能な分類器は、不十分な学習データや偏った学習データ、概念ドリフト、過学習、学習不足により、不正確な結果を生成する可能性があります。機械学習ベースの分類の品質は、その実装を担当するチームによって大きく異なります。

Varonisは正確な分類結果を生成します。

Varonisは、世界で最も信頼性の高い分類エンジンとみなされており、Forrester Wave™ for Data Security Platformsでデータ分類の最高得点を獲得しています。

8,000を超えるお客様のほとんどが、最小限のカスタマイズでVaronisのエンジンを使用して規制対象データを見つけています。Varonisの機能には、既知の有効な値についての事前構築されたデータベース、近接マッチング、アルゴリズムに基づく検証などが含まれます。文書内のどこに分類結果があるのかを正確に把握するために、ファイル分析機能で検出結果を確認することができます。

3. 完全な結果

膨大な量のデータのスキャンを実行する組織では、ソリューションはすべてを確実にカバーする必要があります。もしスキャンが完了できない（例えば、上記に挙げたような理由でスケーリングできない）場合には、結局、状況を半分しか把握できず、半分しか保護することができません。

多くのデータ分類ツールは、一般的なデータ形式をサポートしていません。誤った推論によりデータが誤って分類されると、機密性の高いデータが持ち出されたり、その反対に — ユーザーによる機密性の低いデータの共有がブロックされる可能性があります。

サンプリング分類は、スキーマが明確に定義されたデータベースに対しては効果的ですが、NASアレイのような大規模なファイルストアや、S3やAzure Blobのようなオブジェクトストアでは機能しません。データベースとは異なり、S3アカウントの先頭2テラバイトをスキャンして機密性の高いコンテンツが見つからなかったからといって、残りの500テラバイトのデータに機密が含まれないと考えてはなりません。

多くのデータ分類ツールは、一般的なデータ形式をサポートしていません。分類製品ベンダーが、重要なデータ形式（例、CAD図面、オフィス文書、データベース、画像など）を開いてスキャンできることを確認します。堅牢な分類ソリューションは、形式、書式、場所、プラットフォームに関係なく、すべてのデータをスキャンして分類できなければありません。

Varonisのデータ分類は完全です。

Varonisは、構造化データ、半構造化データ、非構造化データをサポートし、クラウド上とオンプレミス環境のデータを自動的に分類しラベル付けします。Varonisは、実質的にあらゆるデータ形式と場所をカバーしており、最高情報セキュリティ責任者（CISO）やセキュリティチームに、SaaS、IaaS、データベース、オンプレミスファイル共有、ハイブリッドNASデバイスのデータを横断的に保護する中心となる司令塔を提供します。規制が更新されれば、タイムリーなアップグレード、パッケージのダウンロード、パッチの適用などをしなくても、VaronisのSaaSプラットフォームはただちに最新の分類ポリシーへのアクセスを提供します。

4. 文脈を持った結果

データを分類することは重要な第一歩ではありますが、重要なデータを保護するためにはこれだけでは不十分です。セキュリティ目標を達成するためには、露出度やアクティビティといった追加の文脈が必要になります。文脈がなければ、1つの問題（重要なデータの在処がわからない）が、対応策が判然としない大量の機密性の高いファイルが存在するという何百万もの問題を抱えた状態に変わるだけです。

• 露出度：組織は共同作業と共有ありきで成り立っているため、利便性がデータセキュリティよりも優先されてしまうことが多くあります。自組織の露出を理解し、誰がデータにアクセスできるかを把握すること―そして生産性を阻害しない方法でそのアクセス権を制限すること―は、リスクを軽減するための鍵です。
• アクティビティ：企業は、異常な振る舞いを検出して対応し、誰がデータにアクセスしているのかを特定し、事業継続に影響を及ぼさない範囲で過剰なアクセス許可を安全に排除できる能力を必要としています。

データの露出とアクティビティに関する追加の文脈は、組織が異常なアクセスを検出して修正するために役立つものです。

Data Discovery and Classification: Risk Prioritization

Varonisは、広く、深く。

Varonisは、150件を超える特許を保有しており、その多くが、メタデータを組み合わせて、次のような重要なデータセキュリティに関する質問に回答するためのものです：「機密性が高い、過剰に露出している、古いデータはどれですか？」「ユーザーが当社の環境全体にわたってアクセスできる機密性の高いデータはありますか？」

Varonis独自のメタデータ分析により、大規模な修正を自動化することもできます。例えば、アクセス許可の使用状況を把握しているため、業務プロセスに影響が無いという保証付きで、過剰なアクセス許可を簡単に取り消すことができます。

5. 現在の結果

データは時間の経過と共に変化し、増大していくため、データ分類ソリューションにとって、がアクティビティのリアルタイムの監査証跡を保持することは重要です。あるツールは定期的なスキャンやスケジュールされたスキャンを使用して固定間隔でのみデータをスキャンし、またあるツールは特定のデータストアのみをスキャンしますが、いずれも環境全体の情報を収集することが困難です。統合プラットフォームがなければ、情報は一貫性がなく、様々なインターフェースに分散してしまうため、矛盾が発生し、ダウンストリームDLPの取り組みにも悪影響を及ぼします。

Data Activity

Varonisのデータ分類は常に最新です。

Varonisの分類結果は、監査アクティビティによってファイルの作成や変更を検出できるため、常に最新のものです；すべてのファイルを再スキャンしたり、最終更新日を確認する必要はありません。また、分類する対象範囲を制御することや、カスタムスキャンテンプレートを作成することにより、より迅速に結果を得ながら処理負荷を低減することも可能です。

プラットフォームを真に「カバーする」とはどういうことでしょうか？

データ分類はどんなDSPMアプローチにおいても最初の一歩です。しかし、機密性の高い情報を保護するためには、誰がアクセス権を持っていて、何をしているのかを把握する必要があります。Varonisは、ラベル付け、アクセスインテリジェンス、修正の自動化、アクティビティ監視を組み込むことにより、分類を超えた機能を提供します。必要としているユーザーにのみアクセス権を制限することによりリスクを軽減し、古いデータや冗長なデータを発見して除去し、データの在処と使用状況に関する知見を得られます。

データ分類製品ベンダー候補に尋ねたい質問は何百とありますが、結局のところ、データセキュリティの3つの側面（機密性、アクセス許可、アクティビティ）をどのように組み込んでいるかに尽きます。

これらの側面への対応に苦慮している場合は、そのソリューションがセキュリティ目標の達成に役立つかどうかを検討する必要があります。

•    私たちのデータは使用されていますか？どのユーザーが使用していますか？侵害が疑われる異常なアクセスパターンはありますか？
•    ダウンストリームのDLP制御が機能するように、機密性の高いデータは正しくラベル付けされていますか？
•    機密性の高いデータが一般公開露出していますか？全従業員に公開されていますか？アクセス権を必要としないユーザーにも公開されていますか？
•    機密性の高いデータが承認されていないレポジトリーに保存されていませんか？データ所在地の要件に違反していませんか？
•    侵害されたユーザーが機密性の高いデータを持ち出す可能性はどれくらいですか？
•    古くてアーカイブや削除が可能なのはどのデータですか？
•    プラットフォームを真に「カバーする」とはどういうことでしょうか？

Varonisで分類から先へ進みましょう

ラベル付け

多くの組織は、DLPポリシーの強制、暗号化の適用、データ漏洩の広範な防止にあたり、秘密度ラベルに大きく依存しています。しかし、実際のところ、特に秘密度ラベルの適用を人依存にしている場合には、ラベルを機能させることは困難です。人間がデータを作成すると、ラベル付けが遅れてしまったり、期限切れになってしまうことがよくあります。

AIが、正確で自動的に更新されるラベルを必要とするデータを桁違いに多く生成するようになると、ラベルベースのデータ保護の有効性は確実に低下します。ソリューションのデータを効果的かつ正確にラベル付けする能力は、DLPの強制、コンプライアンス監査、その他のセキュリティのユースケースにとって極めて重要です。

Microsoft 365 Sensitivity Labels

Varonisは正確なデータのラベル付けを提供します。

Varonisは、クラウドやオンプレミス環境全体にわたって、機密性の高いデータや規制対象データに自動的に一律にラベルを付けます。さらに、分類ポリシーが変更された場合、ファイルのコンテンツがポリシーに一致しなくなった場合や、ファイルに手動で誤ったラベルが付けられた場合には、Varonisのプラットフォームは自動的にファイルのラベルを更新します。Varonisはまた、既存のラベルと分類結果を比較して、間違って分類されたデータを特定します。

修正の自動化

Varonisは、ビジネス全体のデータアクセスを自動的に分析し、誰がどのデータにアクセスする必要があるかをインテリジェントに判断し、人間の関与なく、業務へのリスクなしに、爆発範囲を継続的に縮小します。

CISOは、修正を自動的に行う手段を提供しない、単に問題があることを報告するだけの製品を、わざわざ買いたいとは思いません。可視化に止まらない、監視対象のデータプラットフォームで自動的に問題を修正できるデータ分類ソリューションを探しましょう。

Automated Remediation

Varonisはデータセキュリティリスクを継続的かつ自動的に修正します。

リアルタイムの振る舞いアラートとインシデントレスポンス

データは、ほぼすべてのサイバー攻撃や内部者脅威の標的となっています。

そのため、セキュリティソリューションでは、データアクセスを監視し、異常な振る舞いを警告し、脅威をリアルタイムで阻止できる必要があります。セキュリティベンダーに、インシデント対応機能がなかったり、データ中心の脅威調査を定期的に公開するサーバーセキュリティ研究部門がない場合には、警戒すべきです。

MDDR

Varonisはデータ漏洩を阻止します。

Varonisはデータのアクティビティをリアルタイムで監視し、オンプレミスとクラウド環境のデータに対して、完全に検索可能なイベントの監査証跡を提供します。専門家が構築した何百もの脅威モデルが自動的に異常を検出して、ファイルアクセスのアクティビティ、電子メールの送受信アクション、アクセス許可の変更、ジオホッピングなどを警告します。

応答を自動化し、脅威を未然に防ぎます。Varonisは、業界初のデータレベルでの脅威を阻止するマネージドサービスである、データの検出とデータへの対応のマネージドサービス (MDDR)も提供しています。

データを保護する準備はできましたか？

適切なデータ分類ベンダーは、企業が情報漏洩を防止し、インシデントを迅速に調査し、まずます厳しくなる規制への準拠を確実するのに役立ちます。Varonis Data Security Platformは、カバー範囲、精度、スケールに重点を置くことにより、手作業をほとんど必要とせずに、最大のセキュリティリスクを克服できるよう支援します。

•    機密性の高いすべてのコンテンツを自動的に発見して分類
•    最小権限アクセス許可を自動的に強制して、露出を削減
•    ラベルが正しく適用されたことを自動的に確認
•    機密性の高いデータを継続的に監視し、異常な振る舞いに対応

このガイドが、お客様が求めている成果を推進できるデータ分類ベンダーを見つけるための一助になれば幸いです！

参考

・オリジナルブログ記事（英文）
https://www.varonis.com/blog/data-classification-buyers-guide

・当コラム第4回生成AIセキュリティ：Microsoft Copilotの安全なロールアウトに向けて
https://www.innovations-i.com/column/data-security/4.html

・Build a Successful Data Loss Prevention Program in 5 Steps（英文）
https://www.gartner.com/en/articles/build-a-successful-data-loss-prevention-program-in-5-steps

・dlp.com（英文）
https://dlptest.com/

・Varonis named a Leader in Data Security Platforms in The Forrester Wave.（英文）
https://learn.varonis.com/forrester-wave-2023/?hsLang=en

・Varonis Data Security Platform（データセキュリティの自動化）
https://www.varonis.com/ja/products/data-security-platform

・Patents Assigned to Varonis Systems, Inc.
https://patents.justia.com/assignee/varonis-systems-inc

・当コラム第11回 DSPM購入ガイド：DSPMソリューションの選び方
https://www.innovations-i.com/column/data-security/11.html

ブログ記事著者の紹介

Megan Garza

MeganはVaronisのコンテンツ編集者で、APスタイルの熱烈なファンです。「サイバーセキュリティ」が1語であるべきか2語であるべきかについて議論していない時、Meganは、夫と旅行をしたり、ピットブルのBearを不健康なほど溺愛しています。

（翻訳：跡部靖夫）

プロフィール

Varonis Systems, Inc.

Varonis Systems, Inc. (NASDAQ: VRNS) はデータセキュリティと分析の先駆者で、データ保護、脅威の検出と対応、およびコンプライアンスに特化したソフトウェアを開発しています。Varonisはデータのアクティビティや境界テレメトリー、ユーザーの振る舞いを分析することにより企業のデータを保護し、機密性の高いデータのロックダウンにより事故を防ぎ、また、自動化によりセキュアな状態を効率的に維持します。

Webサイト：Varonis Systems, Inc.

このコラムニストの企業情報

データセキュリティ | Varonis