データセット

データセットの概要ページは、Driverless AIホームページです。これにより、インポートされたすべてのデータセットが表示されます。初めてログインするとき、このリストは空になることに注意してください。

データセットの追加

サポートされているファイルタイプ

Driverless AIは、次のデータセットファイル形式をサポートしています。

  • arff

  • bin

  • bz2

  • csv(下記の注を参照)

  • dat

  • feather

  • gz

  • jay(下記の注を参照)

  • orc(下記の注を参照)

  • parquet(下記の注を参照)

  • pkl

  • tgz

  • tsv

  • txt

  • xls

  • xlsx

  • xz

  • zip

Notes:

  • UTF-16エンコーディングのCSVは、バイトオーダーマーク(BOM)が含まれている場合にのみサポートされます。BOMが存在しない場合、データセットはUTF-8として読み取られます。

  • ORCおよびParquetファイル形式の場合、複数のファイルをインポートすることを選択すると、それらのファイルは複数のデータセットとしてインポートされます。ORCまたはParquetファイルのフォルダーを選択すると、そのフォルダーは単一のデータセットとしてインポートされます。Spark / Hiveなどのツールは、ユーザー定義の名前でディレクトリに保存されている複数のORCまたはParquetファイルとしてデータをエクスポートします。たとえば、Spark dataFrame.write.parquet("/data/big_parquet_dataset")を使用してエクスポートすると、Sparkは/data/big_parquet_datasetフォルダーを作成します。このフォルダーには、複数のParquetファイル(入力データセット内のパーティションの数に応じて)とメタデータが含まれます。ORCファイルをエクスポートすると、同様の結果が得られます。

  • ORC およびParquetファイル形式の場合、配列の要素として構造体を含むORCまたはParquetファイルを取り込むと、「ORC / Parquetでバイナリファイルを取り込めませんでした:構造体を含むリストはサポートされていません」というエラーが表示される場合があります。これは、PyArrowが配列の要素である構造体を処理できないためです。

  • parquetのファイルを平坦化するための回避策は、H2O Sparkling Waterで提供されています。詳細については、H2O Sparkling Waterソリューション参照してください。

  • Data Recipe URL選択するAdd Dataset (or Drag & Drop)ドロップダウンメニューから、Upload Data Recipeを選択すると、Pythonスクリプトファイル(カスタムレシピ)から新しいデータセットを作成できます。このData Recipe URLオプションを選択する場合、URLは、ファイルのHTMLまたはrawバージョン、GitHubリポジトリまたはツリー、またはローカルファイルのいずれかを指している必要があります。さらに、カスタムレシピを使用して既存のデータセットを変更することにより、新しいデータセットを作成できます。詳細については、「レシピによる変更」を参照してください。レシピから作成または追加されたデータセットは、.jayファイルとして保存されます。

データセットの追加

次のいずれかの方法を使用して、データセットを追加できます。

ローカルマシンからこのページにファイルを直接ドラッグアンドドロップします。この方法は現在、10GB未満のファイルで機能することに注意してください。

または

Add Dataset (or Drag & Drop)ボタンをクリックして、データセットをアップロードまたは追加します。

Notes:

  • ファイルのアップロード、ファイルシステム、HDFS、S3、データレシピURL、およびデータレシピのアップロードはデフォルトで有効になっています。これらはconfig.tomlファイルの設定からenabled_file_systems削除することで無効にできます。(詳細については、「config.tomlファイルの使用」セクションを参照してください。)

  • ファイルシステムが無効になっている場合、Driverless AIはデフォルトでローカルファイルブラウザーを開きます。

  • Driverless AIが、Azure Blob Store、BlueData Datatap、Google Big Query、Google Cloud Storage、KDB +、Minio、Snowflake、またはJDBCでデータコネクタを有効にして開始された場合、これらのオプションはAdd Dataset (or Drag & Drop)ドロップダウンメニューに表示されます。詳細については、「データコネクタ有効化」セクションを参照してください

  • Data Recipe URLを使用してデータセットを追加するように指定する場合、URLは、ファイルのHTMLまたはrawバージョン、GitHubリポジトリまたはツリー、またはローカルファイルのいずれかを指している必要があります。レシピを介してデータセットを追加またはアップロードする場合、データセットは.jayファイルとして保存されます。

  • データセットは区切りテキスト形式である必要があります。

  • Driverless AIは、次のセパレーターを検出できます:、|; t

  • フォルダーをインポートすると、フォルダー全体とそのすべてのコンテンツが1つのファイルとしてDriverless AIに読み込まれます。

  • フォルダをインポートするときは、フォルダ内のすべてのファイルに同じ列が必要です。

  • Windowsでデータコネクタを介してフォルダをインポートしようとすると、フォルダにファイル拡張子のないファイルが含まれていると、インポートは失敗します(結果として生じるエラーは通常、上記の注意事項に関連しています)。

完了すると、データセットが[データセットの概要]ページに表示されます。データセットをクリックしてサブメニューを開きます。このメニューから、データセットの名前の変更、詳細の表示、視覚化、分割、ダウンロード、または削除を指定できます。Note:アクティブなExperimentで使用されたデータセットは削除できません。最初にExperimentを削除する必要があります。

データセットの例の追加

データセットの名前変更

Driverless AIでは、[データセットの概要]ページからデータセットの名前を変更できます。

データセットの名前を変更するには、データセットをクリックするか、名前を変更するデータセットの横にある[Click for Actions]ボタンを選択して、表示されるRenameサブメニューから選択します。

Note:データセットの名前が変更されると、Driverless AIのデータセットのすべてのインスタンスが変更され、新しい名前が反映されます。

データセットの名前変更の例

データセットの詳細と行

データセットの概要を表示したり、データセットをプレビューしたりするには、データセットをクリックするか、表示するデータセットの横にある[Click for Actions]ボタンを選択して、表示されるサブメニューからDetailsクリックします。これにより、データセットの概要を提供する[データセットの詳細]ページが開きます。この要約では、データセットの各列が一覧表示され、論理タイプ、形式、ストレージタイプ(整数、文字列、実数、ブール値、または時間)、カウント、欠落値の数、平均、最小、最大、標準偏差、頻度の行が表示されます。 、および一意の値の数。

列の上部にカーソルを合わせると、その列の最初の20行の概要が表示されます。特定の列の情報を表示するには、グラフの上のフィールドに列名を入力します。

ビューを切り替えてデータセットをプレビューするには、UIの右上部分にあるDataset Rowsボタンをクリックします。Dataset Overviewボタンをクリックすると、元のビューに戻ります。

データセットと行の例の解釈

列タイプの変更

Driverless AIでは、列タイプを変更することもできます。列のデータ型または分布が、Experiment中に列を処理する方法と一致しない場合は、Logical Typeを変更すると、列の適合性を高めることができます。たとえば、整数の郵便番号をカテゴリカルに変更して、カテゴリカル関連の特徴量エンジニアリングでのみ使用できるようにすることができます。[日付Format]列と[日時]列には、このオプションを使用します。列の論理タイプまたは形式を変更するには、単語の右側にある正方形のアイコンのAuto-detectグループをクリックします(カーソルをカーソルで合わせると、正方形が点灯します。)次に、その列の新しい列タイプを選択します。

列タイプの変更の例

レシピで変更

カスタムレシピで既存のデータセットを変更して新しいデータセットを作成するオプションも、このページから利用できます。スコアリングパイプラインは、Experimentを作成することで新しいデータセットに作成できます。この機能は、予測している新しいデータに加える必要のないトレーニングデータに変更を加えたい場合に役立ちます。たとえば、ターゲット列を回帰から分類に変更したり、重み列を追加して特定のトレーニング行をより重要としてマークしたり、モデル化したくない外れ値を削除したりできます。詳細については、「データレシピ追加」セクションを参照してください。

UIの右上部分にあるModify by Recipeボタンをクリックして、次のオプションから選択します。

  • Data Recipe URL:データセットの変更に使用するURLからカスタムレシピをロードします。URLは、ファイルのHTMLまたはrawバージョン、GitHubリポジトリまたはツリー、またはローカルファイルのいずれかを指している必要があります。サンプルのカスタムデータレシピは、driverlessai-recipesリポジトリで入手できます。

  • Upload Data Recipe:ローカルシステムで利用可能なカスタムレシピがある場合は、このボタンをクリックしてそのレシピをアップロードします。

  • Live Code:データセットの変更に使用するカスタムレシピコードを手動で入力します。Get Previewボタンをクリックしてデータセットに対するコードの効果をプレビューし、Saveクリックして新しいデータセットを作成します。

Notes:

  • これらのオプションはデフォルトで有効になっています。構成オプションenabled_file_systemsからrecipe_fileと、recipe_urlを除去することによって、それらを無効にすることができます

  • レシピを使用してデータセットを変更しても、元のデータセットは上書きされません。変更対象として選択されたデータセットは、元の形式で使用可能なデータセットのリストに残り、変更されたデータセットは新しいデータセットとしてこのリストに表示されます。

  • この機能を介して元のデータセットに加えられた変更は、スコアリングされる新しいデータには適用されません。

データセットのダウンロード

Driverless AIでは、データセットの概要ページからデータセットをダウンロードできます。

データセットをダウンロードするには、データセットをクリックするか、ダウンロードするデータセットの横にある[Click for Actions]ボタンを選択して、表示されるサブメニューからDownload選択します。

Note:Driverless AIの起動時にenable_dataset_downloadingオプションがfalseに設定されている場合、データセットをダウンロードするオプションは使用できませんこのオプションは、config.tomlファイルで指定できます。

データセットのダウンロードの例

データセットの分割

Driverless AIでは、トレーニングデータセットをテストデータセットと検証データセットに分割できます。

データセットを分割するには、次の手順を実行します。

  1. データセットを分割するには、データセットをクリックするか、分割するデータセットの横にある[Click for Actions]ボタンを選択して、表示されるサブメニューからSplit選択します。

  2. データセットスプリッタフォームが表示されます。分割の最初の部分と2番目の部分に出力名1と出力名2を指定します。(たとえば、1つのテストと1つの有効な名前を付けることができます。)

  3. オプションで、ターゲット列(層化サンプリング用)、フォールド列(同じグループに属する行をまとめるため)、時間列、および/またはランダムシード(デフォルトは1234)を指定します。

  4. スライダーを使用して分割比率を選択するか、「トレイン/有効分割比率」フィールドに値を入力します。

  5. 完了したらSaveクリックします。

完了すると、分割されたデータセットが[データセット]ページで利用できるようになります。

データセットの分割例

データセットの視覚化

データセットを視覚化するには、次のいずれかの手順を実行します。

  • [データセット]ページで、表示するデータセットの横にある[Click for Actions]ボタンを選択し、表示されるサブメニューからVisualizeクリックします。

  • トップメニューリンクをクリックして[視覚化]リストページに移動し、New Visualizationボタンをクリックしてから、視覚化するデータセットを選択またはインポートします。

視覚化ページ

[視覚化]ページには、選択したデータセットで使用可能なすべてのグラフが表示されます。[視覚化]ページのグラフは、データセット内の情報に基づいて異なる場合があることに注意してください。視覚化中に生成されたログを表示およびダウンロードすることもできます。

以下は、利用可能なグラフの完全なリストです。

  • Correlated Scatterplots:相関散布図は、ピアソン相関係数の2乗値が大きい2Dプロットです。特徴(変数)のペアに基づくすべての可能な散布図は、相関関係について調べられます。表示されたプロットは、相関に従ってランク付けされます。これらのプロットのいくつかは、相関の教科書の例のように見えない場合があります。唯一の基準は、ピアソンのrの2乗の値が大きい(.95より大きい)ことです。これらの変数を使用してモデリングする場合、他の変数と完全に相関している変数を除外することをお勧めします。

散布図の点は異なるサイズを持つ可能性があることに注意してください。Driverless AIはデータを集約し、すべてのポイントを表示するわけではないため、ポイントが大きいほど、プロットがカバーするエグザンプラ(集約されたポイント)の数が多くなります。

  • Spikey Histograms:スパイキーヒストグラムは、大きなスパイクのあるヒストグラムです。これは多くの場合、単一の値(通常はゼロ)の数が多すぎるか、非常に類似した値であることを示しています。「スパイキーネス」の尺度は、すべてのビンの平均頻度の10倍であるビン頻度です。スパイク変数を使用してモデリング(特に回帰モデル)する場合は注意が必要です。

  • Skewed Histograms:歪度ヒストグラムは、特に歪度(非対称性)が大きいヒストグラムです。歪度のロバストな測定値は、Groeneveld、RAおよびMeeden、G。(1984)、「Measuring SkewnessandKurtosis」から導き出されています。統計学者、33、391-399。大きく歪んだ変数は、モデリングで使用する前に、変換(ロギングなど)の候補になることがよくあります。出力のヒストグラムは、歪度の降順で並べ替えられます。

  • Varying Boxplots:さまざまな箱ひげ図は、カテゴリ変数のカテゴリ全体での特徴の異常な変動を明らかにします。変動性の尺度は、ロバストな一元配置分散分析(ANOVA)から計算されます。十分に多様な変数がANOVAでフラグ付けされます。箱ひげ図は、分布のフラクタイルをグラフィカルに表示したものです。ボックスの中央は中央値を示し、ボックスの端は下位四分位数と上位四分位数を示し、「ひげ」の端はその値の範囲を示します。外れ値が発生することがあります。その場合、隣接するウィスカは次に低い値または高い値に短縮されます。値が少ない変数(特徴)の場合、ボックスを圧縮して、中央値で1本の水平線にすることができます。

  • Heteroscedastic Boxplots:不均一分散箱ひげ図は、カテゴリ変数のカテゴリ全体での特徴の異常な変動を明らかにします。不均一分散性は、ブラウンフォーサイス検定を使用して計算されます。ブラウン、MBおよびフォーサイス、AB(1974)、「等分散性のロバスト検定。Journal of the American Statistics Association、69、364-367。プロットは、不均一分散の値に従ってランク付けされます。箱ひげ図は、分布のフラクタイルをグラフィカルに表示したものです。ボックスの中央は中央値を示し、ボックスの端は下位四分位数と上位四分位数を示し、「ひげ」の端はその値の範囲を示します。外れ値が発生することがあります。その場合、隣接するウィスカは次に低い値または高い値に短縮されます。値が少ない変数(特徴)の場合、ボックスを圧縮して、中央値で1本の水平線にすることができます。

  • Biplots:Biplotは、ポイントとベクトルの両方を使用して、データ行列の行と列の構造を同時に表す拡張散布図です。行はポイント(スコア)として表され、列はベクトル(ローディング)として表されます。プロットは、変数(特徴)の相関行列の最初の2つの主成分から計算されます。外れ値または非正規分布を明らかにする可能性のあるポイントで、異常な(楕円ではない)形状を探す必要があります。そして、十分に分離された紫色のベクトルを探す必要があります。重複するベクトルは、変数間の高度な相関を示している可能性があります。

  • Outliers:異常値または範囲外の値を持つ変数は、ドットプロットに赤い点として表示されます。ドットプロットは、Wilkinson、L。(1999)のアルゴリズムを使用して作成されます。「ドットプロット。」アメリカの統計学者、53、276–281。すべての異常点が外れ値であるわけではありません。アルゴリズムは、空の領域にあるポイントにフラグを立てる場合があります(つまり、他のポイントの近くにありません)。外れ値を調べて、それらが誤ったコーディングであるかどうか、または他の何らかの間違いが原因であるかどうかを確認する必要があります。通常、外れ値は、その発生について合理的な解釈がある場合にのみモデルから削除する必要があります。

  • Correlation Graph:相関ネットワークグラフは、変数(特徴)間のすべてのペアワイズ二乗相関から作成されます。連続連続変数ペアの場合、使用される統計はピアソン相関の2乗です。連続カテゴリ変数ペアの場合、統計は2乗クラス内相関(ICC)に基づいています。この統計は、一元配置分散分析(ANOVA)の平均二乗から計算されます。式は(MSbetween-MSwithin)/(MSbetween +(k-1)MSwithin)です。ここで、kはカテゴリ変数のカテゴリ数です。カテゴリカルとカテゴリカルのペアの場合、統計はCramerのVの2乗から計算されます。最初の変数にk1カテゴリがあり、2番目の変数にk2カテゴリがある場合、値の結合頻度からk1 xk2テーブルが作成されます。この表から、カイ2乗統計量を計算します。CramerのV二乗統計は、(カイ2乗/ n)/ min(k1、k2)です。ここで、nはテーブル内の結合頻度の合計です。これらのそれぞれの統計の値が大きい変数は、ネットワーク図で互いに近くに表示されます。接続エッジに使用されるカラースケールは、低(青)から高(赤)まであります。短い赤いエッジで接続された変数は、高度に相関する傾向があります。

  • Parallel Coordinates Plot:Parallel Coordinates Plotは、複数の変数を比較するために使用されるグラフです。各変数には、プロット内に独自の垂直軸があります。各プロファイルは、単一の観測の軸上の値を接続します。データにクラスターが含まれている場合、これらのプロファイルはクラスター番号によって色分けされます。

  • Radar Plot:レーダープロットは、複数の変数を比較するために使用される2次元グラフです。各変数には、グラフの中心から始まる独自の軸があります。データは0から1までの各変数で標準化されているため、変数間で値を比較できます。通常は星の形で表示される各プロファイルは、1回の観測で軸上の値を接続します。多変量外れ値は赤いプロファイルで表されます。レーダープロットは、人気のある平行座標プロットの極バージョンです。極座標レイアウトにより、1つのプロットでより多くの変数を表すことができます。

  • Data Heatmap:ヒートマップグラフィックは、転置されたデータマトリックスから作成されます。ヒートマップの行は変数を表し、列はケース(インスタンス)を表します。データは表示前に標準化されているため、小さい値は黄色、大きい値は赤になります。行と列は、データマトリックスの特異値分解(SVD)を介して並べ替えられるため、類似した行と類似した列は互いに近くになります。

  • Recommendations:推奨グラフィックは、探索的データ分析(Tukey、1977)で解釈されている、対数、平方根、および逆データ変換の検出力のテューキーラダーを実装しますまた、IKYeoとRAJohnsonから派生した、負の値を処理するこれら3つの特徴量変換の拡張機能も実装されています。これは、「正規性または対称性を改善するための電力変換の新しいファミリ」です。Biometrika、87(4)、(2000)。各特徴量変換について、変換された列のロバストな歪度を元の生の列のロバストな歪度と比較することにより、変換が選択されます。変換によって歪度の値が比較的低くなる場合は、それをお勧めします。

  • Missing Values Heatmap:欠測値ヒートマップグラフィックは、転置されたデータマトリックスから作成されます。ヒートマップの行は変数を表し、列はケース(インスタンス)を表します。データは、値0(欠落)と1(欠落なし)にコード化されます。欠落している値は赤で表示され、欠落していない値は空白(白)のままになります。行と列は、データマトリックスの特異値分解(SVD)を介して並べ替えられるため、類似した行と類似した列は互いに近くになります。

  • Gaps Histogram:ギャップインデックスは、ジョンテューキーの研究に基づいたワイナーとシャハトのアルゴリズムを使用して計算されます。(Wainer、H。and Schacht、Psychometrika、43、2、203-12。)ギャップのあるヒストグラムは、データセットで必ずしも特徴付けられていない可能性のあるサブグループに基づいて、2つ以上の分布の混合を示すことができます。

このページの画像はサムネイルです。グラフのいずれかをクリックすると、実物大の画像を表示およびダウンロードできます。デプロイされた各グラフの左下隅にあるHelpボタンをクリックして、各グラフの解釈を表示することもできます。

データセットの例の表示

カスタムプロットの作成

カスタムプロットを作成するには、右上隅のAdd Graphボタンをクリックして、次のプロットタイプのいずれかを選択します。

  • Bar chart:このプロットは、それらが表す値に比例する長方形のバーを使用してカテゴリデータを示します。棒を表すために使用されるマーカーのタイプによって、棒グラフのタイプが決まります。最も一般的なマーカーはバーマーカーで、低い値(通常はゼロ)から高い値までの範囲です。クリーブランドドットプロット(バーを上の値にあるドットに置き換えます)と面グラフ(バーを塗りつぶされたエリアマーカーで覆います)も利用できます。バーは常にカテゴリ変数のカテゴリに対してプロットされます。彼らは(ない場合はカウントを表すことができ、Y変数が指定されていない)、または平均値Y(場合カテゴリごと可変のY変数が指定されています)。

    棒グラフを作成するときは、次のオプションを指定します。

    • X変数名:x変数の名前を指定

    • yの変数名:Y変数の名前を指定

    • 転置:X軸とYを切り替えるかどうかを指定します

    • 並べ替え:バーをx値でアルファベット順に並べ替えるかどうかを指定します

    • マーク:マーカーの種類を指定します。pointクリーブランドのドットプロットを作成する場合に選択します

  • Boxplot:このプロットは、分布のフラクタイルを示しています。ボックスの中央は中央値を表し、ボックスの端は下位四分位数と上位四分位数を表し、「ウィスカー」の端はその値の範囲を表します。外れ値が発生すると、隣接するウィスカが次に低い値または高い値に短縮されます。値が少ない変数の場合、ボックスを圧縮できます。

    箱ひげ図を作成するときは、次のオプションを指定します。

    • 変数名:ボックスで表す変数を指定します

    • 転置:X軸とYを切り替えるかどうかを指定します

  • Dotplot:このプロットは、個々のデータ値をドットで表しています。複数の値が小さな近傍に含まれる場合、ドットは積み重ねられます。

    ドットプロットを作成するときは、次のオプションを指定します。

    • 変数名:ドットが計算される変数の名前を指定します

    • マーク:マーカータイプを指定します

  • Grouped Boxplot:このプロットは、カテゴリがグループとサブグループに編成されている箱ひげ図です。

    グループ化された箱ひげ図を作成するときは、次のオプションを指定します。

    • 変数名:ボックスで表す変数を指定します

    • グループ変数名:グループ化変数の名前を指定します

    • 転置:X軸とYを切り替えるかどうかを指定します

  • Heatmap-データヒートマップを参照してくださいヒートマップを作成するときは、次のオプションを指定します。

    • 変数名:使用する1つ以上の変数を指定します。何も指定されていない場合、データセット内のすべての変数が使用されます

    • 順列:特異値分解(SVD)を使用して変数を並べ替えるかどうかを指定します

    • 転置:X軸とYを切り替えるかどうかを指定します

    • マトリックスタイプ:マトリックスタイプを指定します。rectangularsymmetricから選択します

  • Histogram:このプロットは、高さの異なるバーを使用したデータのグラフィック表示です。各バーは、数値をその幅によって範囲にグループ化し、より高いバーは、より多くのデータが特定の範囲内にあることを示します。このプロットは、連続変数の形状と広がりを表示するためによく使用されます。

    ヒストグラムを作成するときは、次のオプションを指定します。

    • 変数名:変数名を指定します

    • 変換:変換を使用するかどうかを指定します。logsquare rootから選択します

    • バーの数:使用するバーの数を指定します

    • マーク:マーカーの種類を指定します。area密度ポリゴンを作成するために使用します

  • Linear Regression:このプロットは、線形関数をフィッティングすることにより、変数xの値から変数yの値のセットを予測します(ax+b)そのため、x変数の任意の値に対して、この関数はy変数の最も可能性の高い値を生成します。値のサンプルにおけるこの予測の有効性は、y値とそれに対応する予測値の間の不一致によって表されます。

    線形回帰プロットを作成するときは、次のオプションを指定します。

    • X変数名:x変数の名前を指定

    • yの変数名:Y変数の名前を指定

    • マーク:マーカーの種類を指定します。pointsquareから選択します

  • LOESS Regression:このプロットは、局所線形関数をフィッティングすることにより、変数xの値から変数yの値のセットを予測します(ax+b使用可能なx変数値に基づいて最も可能性の高いy変数値を決定します。値のサンプルにおけるこの予測の有効性は、y値とそれに対応する予測値の間の不一致によって表されます。

    LOESS回帰プロットを作成するときは、次のオプションを指定します。

    • X変数名:x変数の名前を指定

    • yの変数名:Y変数の名前を指定

    • マーク:マーカーの種類を指定します。pointsquareから選択します

    • 帯域幅:平滑化ウィンドウ中のケースの割合を表す間隔を指定します。これはデフォルトで0.5に設定されています

  • Parallel Coordinates Plot:このプロットは、複数の変数を比較するために使用されます。各変数にはプロット内に独自の垂直軸があり、各プロファイルは単一の観測値の軸上の値を接続します。データにクラスターが含まれている場合、これらのプロファイルはクラスター番号によって色分けされます。

    平行座標プロットを作成するときは、次のオプションを指定します。

    • 変数名:使用する1つ以上の変数を指定します。何も指定されていない場合、データセット内のすべての変数が使用されます

    • 順列:特異値分解(SVD)を使用して変数を並べ替えるかどうかを指定します

    • 転置:X軸とYを切り替えるかどうかを指定します

    • クラスター:k -Meansクラスター変数を含めるかどうかを指定します。クラスターIDごとに一意の色が割り当てられます

  • Probability Plot:このプロットは、2つの累積分布関数を相互にプロットすることにより、分布の歪度を評価します。

    確率プロットを作成するときは、次のオプションを指定します。

    • X変数名:x変数の名前を指定

    • 配布:配布タイプを指定します。normaluniformから選択します

    • マーク:マーカーの種類を指定します。pointsquareから選択します

    • 転置:X軸とYを切り替えるかどうかを指定します

  • Quantile Plot:このプロットは、分位数を互いにプロットすることにより、2つの確率分布を比較します。

    分位数プロットを作成するときは、次のオプションを指定します。

    • X変数名:x変数の名前を指定

    • yの変数名:Y変数の名前を指定

    • 配布:配布タイプを指定します。normaluniformから選択します

    • マーク:マーカーの種類を指定します。pointsquareから選択します

    • 転置:X軸とYを切り替えるかどうかを指定します

  • Scatterplot:このプロットは、入力サンプルデータの各行に1つのポイントを含むフレーム内の2つの変数(yxの値を表します。これらは、2つの変数の同時分布を分析するのに役立ちます。

    散布図を作成するときは、次のオプションを指定します。

    • X変数名:x変数の名前を指定

    • yの変数名:Y変数の名前を指定

    • マーク:マーカーの種類を指定します。pointsquareから選択します

プロットを選択したら、そのプロットタイプで使用可能な設定を構成し、Saveをクリックしますカスタムプロットが作成されると視覚化ページに表示されます。

次の例では、CreditCard-Trainデータセットのカスタムヒストグラムプロットを作成します。

カスタムプロットを作成する