STEP 1:学習用データの用意
AIモデルを作成するための学習用データを用意します。
ここでは、学習用データの仕様および作成時の留意事項について説明します。
- 登録する学習用データにバイアス情報や差別的なワードが含まれている場合、それらがそのまま学習に利用される恐れがあります。データの内容は十分に確認し、適切にフィルタリングしてください。
仕様
学習用データは、ヘッダー行とその値から構成されるCSVファイルとして作成します。CSVファイルの仕様は、次のとおりです。
項目 | 形式 |
---|---|
拡張子 | csv |
サイズ | 2 GB以下 |
エンコード |
|
使用できる言語 |
|
データ行数*注1 |
分析タイプ「分類」の場合
100行以上、50,000行以下
分析タイプ「データマッチング」の場合
分析タイプ「入金請求突合」の場合
|
列数 |
分析タイプ「分類」の場合
2列以上、100列以下
分析タイプ「データマッチング」の場合
2列以上、50列以下
分析タイプ「入金請求突合」の場合
入金データ:5列以上、50列以下
請求データ:4列以上、50列以下 |
値の文字数*注2 | 40,000文字以内 |
入力できる数値の範囲 |
-2147483647〜2147483647(整数の場合)
|
- データ行数は、ヘッダー行を含まない行数です。
- 各項目の値1つあたりの文字数です。
留意事項
学習用データを作成する場合は、次の事項に留意して作成してください。
実行エラーを回避するには
分析タイプが「分類」の場合、[推論したい項目]の値のうち、データが1件しかない値は削除され、学習には使用されません。
また、[推論したい項目]の値がすべて異なる場合は、学習の実行エラーとなります。 [推論したい項目]に設定する列では、1つの値につき10件以上のデータを用意することをお勧めします。
また、[推論したい項目]の値がすべて異なる場合は、学習の実行エラーとなります。 [推論したい項目]に設定する列では、1つの値につき10件以上のデータを用意することをお勧めします。
- [推論したい項目]とは、実際に推論でAIモデルを使用して予測する項目です。学習時に指定します。
分析タイプが「データマッチング」の場合は、次の条件を満たす学習用データを使用してください。条件を満たさない学習用データを利用した場合、学習はエラーになります。
- [マッチング元データ]および[マッチング先データ]は、各データ内で[共通キー項目]の値が重複しないこと
- [マッチング元データ]の[共通キー項目]が[マッチング先データ]に含まれていること
- [共通キー項目]とは、[マッチング元データ]と[マッチング先データ]の対応関係を示す一意な列の項目です。学習時に指定します。
分析タイプが「入金請求突合」の場合は、次の条件を満たす学習用データを使用してください。条件を満たさない学習用データを利用した場合、学習はエラーになります。
- [入金データ]で識別項目の値が同じ行は、[共通キー項目]以外の項目がすべて同じ値になること
- [入金データ]の[共通キー項目]が[請求データ]に含まれていること
- [入金データ]および[請求データ]は、各データ内で[共通キー項目]の値が重複しないこと
- [共通キー項目]とは、入金データと請求データの対応関係を示す一意な列の項目です。学習時に指定します。
学習用データの値や行数などが仕様の範囲内であっても、データに含まれる値や学習時のデータの詳細設定によってはエラーが発生することがあります。その場合は、分析タイプに応じて次のように対処してください。
上記を試しても解決できない場合は、弊社公式サイトにある「FUJIFILM IWproに関するお問い合わせ」 (https://www.fujifilm.com/fb/form/support/fbiwpro/contact)からご連絡ください。
分析タイプ | 対処 |
---|---|
分類 |
|
データマッチング 入金請求突合 |
|
データクレンジング後に、データ行数が100行未満の場合は、学習の実行エラーとなります。学習用データについては、分析タイプに応じて事前に次の内容を確認してください。
-
分類の場合
推論したい項目の値が欠損していないこと。 -
データマッチング、入金請求突合の場合
共通キー項目の2つのデータの値が一致すること。
- データクレンジングとは、学習用データをアップロードしたあと学習の前処理として実施される、データの欠損した行などの削除処理です。
AIモデルの分析精度の低下を回避するには
登録する学習用データに偏りがある場合、作成されるAIモデルの精度が低下する恐れがあります。
学習用データには、多様性とバランスを保つようなデータを採用してください。
学習用データには、多様性とバランスを保つようなデータを採用してください。
分析タイプが「分類」の場合、学習用データの先頭から10,000行以内に次の列が含まれていると、分析の精度が低下する恐れがあります。
- 要素数(値の種類)が100以上ある列
- 分類先の1つのカテゴリーに割り当てられるデータの件数が10件未満の列
その他の留意事項
学習用データの先頭から10,000行以内に次の列が含まれる場合、その列は学習には使用されません。
- すべての値が空欄の列
- すべて同じ値が入力されている列