CBO の統計収集
このトピックでは、CelerData CBO の基本概念と CBO のための統計収集方法について説明します。CelerData は、正確なデータ分布統計を収集するためにヒストグラムを導入しています。
CBO とは
コストベースオプティマイザ (CBO) は、クエリ最適化において重要です。SQL クエリが CelerData に到着すると、論理実行計画に解析されます。CBO は論理計画を複数の物理実行計画に書き換え、変換します。CBO はその後、計画内の各 Operator の実行コスト(CPU、メモリ、ネットワーク、I/O など)を推定し、最もコストの低いクエリパスを最終的な物理計画として選択します。
CelerData CBO はデフォルトで有効になっています。Cascades フレームワークに基づいて開発された CelerData CBO は、さまざまな統計情報に基づいてコストを推定します。数万の実行計画の中から最もコストの低い実行計画を選択することができ、複雑なクエリの効率とパフォーマンスを大幅に向上させます。
統計は CBO にとって重要です。これらはコスト推定が正確で有用であるかどうかを決定します。以下のセクションでは、統計情報の種類、収集ポリシー、および統計の収集方法と統計情報の表示方法について詳しく説明します。
統計情報の種類
CelerData は、コスト推定の入力としてさまざまな統計を収集します。
基本統計
デフォルトで、CelerData はテーブルとカラムの以下の基本統計を定期的に収集します。
- row_count: テーブル内の総行数
- data_size: カラムのデータサイズ
- ndv: カラムのカーディナリティ、つまりカラム内の異なる値の数
- null_count: カラム内の NULL 値を持つデータの量
- min: カラム内の最小値
- max: カラム内の最大値
基本統計は _statistics_.table_statistic_v1
テーブルに保存されます。このテーブルは、CelerData クラスターの _statistics_
データベースで確認できます。
ヒストグラム
CelerData は、基本統計を補完するためにヒストグラムを導入しています。ヒストグラムは、データ表現の効果的な方法と考えられています。データが偏っているテーブルに対して、ヒストグラムはデータ分布を正確に反映することができます。
CelerData は等高ヒストグラムを使用しており、いくつかのバケットで構成されています。各バ ケットには同量のデータが含まれています。頻繁にクエリされ、選択性に大きな影響を与えるデータ値に対して、CelerData はそれらのために個別のバケットを割り当てます。バケットが多いほど推定が正確になりますが、メモリ使用量がわずかに増加する可能性があります。ヒストグラム収集タスクのためにバケット数と最も一般的な値(MCV)を調整できます。
ヒストグラムは、データが非常に偏っており、頻繁にクエリされるカラムに適用されます。テーブルデータが均一に分布している場合、ヒストグラムを作成する必要はありません。ヒストグラムは、数値、DATE、DATETIME、または文字列型のカラムにのみ作成できます。
現在、CelerData はヒストグラムの手動収集のみをサポートしています。ヒストグラムは _statistics_.histogram_statistics
テーブルに保存されます。
収集タイプと方法
テーブル内のデータサイズとデータ分布は常に変化しています。統計はデータの変化を表すために定期的に更新する必要があります。統計収集タスクを作成する前に、ビジネス要件に最も適した収集タイプと方法を選択する必要があります。
CelerData は、フル収集とサンプル収集の両方をサポートしており、自動および手動で実行できます。デフォルトでは、CelerData はテーブルのフル統計を自動的に収集します。5 分ごとにデータの更新を確認します。データの変更が検出されると、データ収集が自動的にトリガーされます。自動フル収集を使用したくない場合は、FE 設定項目 enable_collect_full_statistic
を false
に設定し、収集タスクをカスタマイズできます。
収集タイプ | 収集方法 | 説明 | 利点と欠点 |
---|---|---|---|
フル収集 | 自動/手動 | テーブル全体をスキャンして統計を収集します。統計はパーティションごとに収集されます。パーティションにデータの変更がない場合、このパーティションからデータは収集されず、リソース消費が削減されます。フル統計は _statistics_.column_statistics テーブルに保存されます。 | 利点: 統計が正確であり、CBO が正確な推定を行うのに役立ちます。欠点: システムリソースを消費し、遅いです。 |
サンプル収集 | 自動/手動 | テーブルの各パーティションから N 行のデータを均等に抽出します。統計はテーブルごとに収集されます。各カラムの基本統計は 1 レコードとして保存されます。カラムのカーディナリティ情報(ndv)は、サンプルデータに基づいて推定され、正確ではありません。サンプル統計は _statistics_.table_statistic_v1 テーブルに保存されます。 | 利点: システムリソースを消費せず、速いです。欠点: 統計が完全ではなく、コスト推定の正確性に影響を与える可能性があります。 |
統計の収集
CelerData は柔軟な統 計収集方法を提供しています。自動、手動、またはカスタム収集のいずれかを選択し、ビジネスシナリオに最適な方法を選択できます。
自動フル収集
基本統計については、CelerData はデフォルトでテーブルのフル統計を自動的に収集し、手動操作を必要としません。統計が収集されていないテーブルについては、CelerData はスケジューリング期間内に自動的に統計を収集します。統計が収集されたテーブルについては、CelerData はテーブル内の総行数と変更された行数を更新し、定期的にこの情報を保持して自動収集をトリガーするかどうかを判断します。
自動収集をトリガーする条件:
- 前回の統計収集以降、テーブルデータが変更されました。
- テーブル統計の健康状態が指定されたしきい値(
statistic_auto_collect_ratio
)を下回っています。
統計の健康状態を計算するための式: 1 - 前回の統計収集以降に追加された行数/最小パーティションの総行数
- パーティションデータが変更されました。データが変更されていないパーティションは再収集されません。
自動フル収集はデフォルトで有効になっており、システムがデフォルト設定を使用して実行します。
以下の表はデフォルト設定を示しています。これらを変更する必要がある場合は、ADMIN SET CONFIG コマンドを実行してください。
FE 設定項目 | タイプ | デフォルト値 | 説明 |
---|---|---|---|
enable_statistic_collect | BOOLEAN | TRUE | 統計を収集するかどうか。このスイッチはデフォルトでオンになっています。 |
enable_collect_full_statistic | BOOLEAN | TRUE | 自動フル収集を有効にするかどうか。このスイッチはデフォルトでオンになっています。 |
statistic_collect_interval_sec | LONG | 300 | 自動収集中にデータ更新を確認する間隔。単位: 秒。 |
statistic_auto_collect_ratio | FLOAT | 0.8 | 自動収集のための統計が健康であるかどうかを判断するためのしきい値。統計の健康状態がこのしきい値を下回る場合、自動収集がトリガーされます。 |
statistics_max_full_collect_data_size | INT | 100 | 自動収集のためにデータを収集する最大パーティションのサイズ。単位: GB。パーティションがこの値を超える場合、フル収集は破棄され、サンプル収集が代わりに実行されます。 |
統計収集の大部分は自動ジョブに依存できますが、特定の統計要件がある場合は、ANALYZE TABLE ステートメントを実行して手動でタスクを作成するか、CREATE ANALYZE ステートメントを実行して自動タスクをカスタマイズできます。
手動収集
ANALYZE TABLE を使用して手動収集タスクを作成できます。デフォルトでは、手動収集は同期操作です。非同期操作に設定することもできます。非同期モードで は、このコマンドを実行した後、ANALYZE TABLE の実行結果がすぐに返されます。ただし、収集タスクはバックグラウンドで実行され、結果を待つ必要はありません。非同期収集は大規模なデータ量を持つテーブルに適しており、同期収集は小規模なデータ量を持つテーブルに適しています。手動収集タスクは作成後に 1 回のみ実行されます。手動収集タスクを削除する必要はありません。 SHOW ANALYZE STATUS を実行してタスクのステータスを確認できます。
基本統計を手動で収集
ANALYZE [FULL|SAMPLE] TABLE tbl_name (col_name [,col_name])
[WITH SYNC | ASYNC MODE]
PROPERTIES (property [,property]);
パラメータの説明:
- 収集タイプ
- FULL: フル収集を示します。
- SAMPLE: サンプル収集を示します。
- 収集タイプが指定されていない場合、デフォルトでフル収集が使用されます。
col_name
: 統計を収集するカラム。複数のカラムはカンマ (;) で区切ります。このパラメータが指定されていない場合、テーブル全体が収集されます。PROPERTIES
: カスタムパラメータ。PROPERTIES
が指定されていない場合、デフォルト設定が使用されます。
PROPERTIES | タイプ | デフォルト値 | 説明 |
---|---|---|---|
statistic_sample_collect_rows | INT | 200000 | サンプル収集のために収集する最小行数。このパラメータ値がテーブルの実際の行数を超える場合、フル収集が実行されます。 |
例
手動フル収集
-- デフォルト設定を使用してテーブルのフル統計を手動で収集します。
ANALYZE TABLE tbl_name;
-- デフォルト設定を使用してテーブルのフル統計を手動で収集します。
ANALYZE FULL TABLE tbl_name;
-- デフォルト設定を使用してテーブル内の指定されたカラムの統計を手動で収集します。
ANALYZE TABLE tbl_name(c1, c2, c3);
手動サンプル収集
-- デフォルト設定を使用してテーブルの部分統計を手動で収集します。
ANALYZE SAMPLE TABLE tbl_name;
-- 収集する行数を指定して、テーブル内の指定されたカラムの統計を 手動で収集します。
ANALYZE SAMPLE TABLE tbl_name (v1, v2, v3) PROPERTIES(
"statistic_sample_collect_rows" = "1000000"
);
ヒストグラムを手動で収集
ANALYZE TABLE tbl_name UPDATE HISTOGRAM ON col_name [, col_name]
[WITH SYNC | ASYNC MODE]
[WITH N BUCKETS]
PROPERTIES (property [,property]);
パラメータの説明:
col_name
: 統計を収集するカラム。複数のカラムはカンマ (;) で区切ります。このパラメータが指定されていない場合、テーブル全体が収集されます。ヒストグラムにはこのパラメータが必要です。WITH N BUCKETS
: ヒストグラム収集のためのバケット数N
。指定されていない場合、fe.conf
のデフォルト値が使用されます。- PROPERTIES: カスタムパラメータ。
PROPERTIES
が指定されていない場合、デフォルト設定が使用されます。
PROPERTIES | タイプ | デフォルト値 | 説明 |
---|---|---|---|
statistic_sample_collect_rows | INT | 200000 | 収集する最小行数。このパラメータ値がテーブルの実際の行数を超える場合、フル収集が実行されます。 |
histogram_buckets_size | LONG | 64 | ヒストグラムのデフォルトバケット数。 |
histogram_mcv_size | INT | 100 | ヒストグラムの最も一般的な値 (MVC) の数。 |
histogram_sample_ratio | FLOAT | 0.1 | ヒストグラムのサンプリング比率。 |
histogram_max_sample_row_count | LONG | 10000000 | ヒストグラムのために収集する最大行数。 |
ヒストグラムのために収集する行数は、複数のパラメータによって制御されます。それは statistic_sample_collect_rows
とテーブル行数 * histogram_sample_ratio
の間の大きい値です。この数は histogram_max_sample_row_count
で指定された値を超えることはできません。値が超えた場合、histogram_max_sample_row_count
が優先されます。
実際に使用されるプロパティは、SHOW ANALYZE STATUS の出力の Properties
列で確認できます。
例
-- デフォルト設定を使用して v1 のヒストグラムを手動で収集します。
ANALYZE TABLE tbl_name UPDATE HISTOGRAM ON v1;
-- 32 バケット、32 MCV、および 50% のサンプリング比率で v1 と v2 のヒストグラムを手動で収集します。
ANALYZE TABLE tbl_name UPDATE HISTOGRAM ON v1,v2 WITH 32 BUCKETS
PROPERTIES(
"histogram_mcv_size" = "32",
"histogram_sample_ratio" = "0.5"
);
カスタム収集
自動収集タスクをカスタマイズ
CREATE ANALYZE ステートメントを使用して、自動収集タスクをカスタマイズできます。
カスタム自動収集タスクを作成する前に、自動フル収集を無効にする必要があります(enable_collect_full_statistic = false
)。そうしないと、カスタムタスクは有効になりません。
-- すべてのデータベースの統計を自動的に収集します。
CREATE ANALYZE [FULL|SAMPLE] ALL PROPERTIES (property [,property]);
-- データベース内のすべてのテーブルの統計を自動的に収集します。
CREATE ANALYZE [FULL|SAMPLE] DATABASE db_name
PROPERTIES (property [,property]);
-- 指定されたカラムの統計を自動的に収集します。
CREATE ANALYZE [FULL|SAMPLE] TABLE tbl_name (col_name [,col_name])
PROPERTIES (property [,property]);
パラメータの説明:
- 収集タイプ
- FULL: フル収集を示します。
- SAMPLE: サンプル収集を示します。
- 収集タイプが指定されていない場合、デフォルトでフル収集が使用されます。
col_name
: 統計を収集するカラム。複数のカラムはカンマ (;) で区切ります。このパラメータが指定されていない場合、テーブル全体が収集されます。PROPERTIES
: カスタムパラメータ。PROPERTIES
が指定されていない場合、デフォルト設定が使用されます。
PROPERTIES | タイプ | デフォルト値 | 説明 |
---|---|---|---|
statistic_auto_collect_ratio | FLOAT | 0.8 | 自動収集のための統計が健康であるかどうかを判断するための しきい値。統計の健康状態がこのしきい値を下回る場合、自動収集がトリガーされます。 |
statistics_max_full_collect_data_size | INT | 100 | 自動収集のためにデータを収集する最大パーティションのサイズ。単位: GB。パーティションがこの値を超える場合、フル収集は破棄され、サンプル収集が代わりに実行されます。 |
statistic_sample_collect_rows | INT | 200000 | 収集する最小行数。このパラメータ値がテーブルの実際の行数を超える場合、フル収集が実行されます。 |
例
自動フル収集
-- すべてのデータベースのフル統計を自動的に収集します。
CREATE ANALYZE ALL;
-- データ ベースのフル統計を自動的に収集します。
CREATE ANALYZE DATABASE db_name;
-- データベース内のすべてのテーブルのフル統計を自動的に収集します。
CREATE ANALYZE FULL DATABASE db_name;
-- 指定されたカラムのフル統計を自動的に収集します。
CREATE ANALYZE TABLE tbl_name(c1, c2, c3);
自動サンプル収集
-- デフォルト設定を使用してデータベース内のすべてのテーブルの統計を自動的に収集します。
CREATE ANALYZE SAMPLE DATABASE db_name;
-- 統計の健康状態と収集する行数を指定して、指定されたカラムの統計を自動的に収集します。
CREATE ANALYZE SAMPLE TABLE tbl_name(c1, c2, c3) PROPERTIES(
"statistic_auto_collect_ratio" = "0.5",
"statistic_sample_collect_rows" = "1000000"
);
カスタム収集タスクの表示
SHOW ANALYZE JOB [WHERE predicate]
WHERE 句を使用して結果をフィルタリングできます。このステートメントは、以下のカラムを返します。
カラム | 説明 |
---|---|
Id | 収集タスクの ID。 |
Database | データベース名。 |
Table | テーブル名。 |
Columns | カラム名。 |
Type | 統計のタイプ。FULL と SAMPLE を含みます。 |
Schedule | スケジューリングのタイプ。自動タスクの場合は SCHEDULE です。 |
Properties | カスタムパラメータ。 |
Status | タスクのステータス。PENDING、RUNNING、SUCCESS、FAILED を含みます。 |
LastWorkTime | 最後の収集時間。 |
Reason | タスクが失敗した理由。タスクの実行が成功した場合は NULL が返されます。 |
例
-- すべてのカスタム収集タスクを表示します。
SHOW ANALYZE JOB
-- データベース `test` のカスタム収集タスクを表示します。
SHOW ANALYZE JOB where `database` = 'test';
カスタム収集タスクの削除
DROP ANALYZE <ID>;
タスク ID は、SHOW ANALYZE JOB ステートメントを使用して取得できます。
例
DROP ANALYZE 266030;
収集タスクのステータスを表示
SHOW ANALYZE STATUS ステートメントを実行して、すべての現在のタスクのステータスを表示できます。このステートメントは、カスタム収集タスクのステータスを表示するために使用することはできません。カスタム収集タスクのステータスを表示するには、SHOW ANALYZE JOB を使用してください。
SHOW ANALYZE STATUS [WHERE predicate];