STEP 1:学習用データの用意

AIモデルを作成するための学習用データを用意します。
ここでは、学習用データの仕様および作成時の留意事項について説明します。

  • 登録する学習用データにバイアス情報や差別的なワードが含まれている場合、それらがそのまま学習に利用される恐れがあります。データの内容は十分に確認し、適切にフィルタリングしてください。

仕様

学習用データは、ヘッダー行とその値から構成されるCSVファイルとして作成します。CSVファイルの仕様は、次のとおりです。

項目 形式
拡張子 csv
サイズ 2 GB以下
エンコード
  • UTF-8(BOMなし)
  • UTF-8(BOMあり)
  • Shift-JIS(CP932)
使用できる言語
  • 日本語
  • 英語
データ行数*注1
分析タイプ「分類」の場合
100行以上、50,000行以下
分析タイプ「データマッチング」の場合
  • マッチング元:100行以上、40,000行以下
  • マッチング先:100行以上、40,000行以下
分析タイプ「入金請求突合」の場合
  • 入金データ:100行以上、40,000行以下
  • 請求データ:100行以上、40,000行以下
列数
分析タイプ「分類」の場合
2列以上、100列以下
分析タイプ「データマッチング」の場合
2列以上、50列以下
分析タイプ「入金請求突合」の場合
入金データ:5列以上、50列以下
請求データ:4列以上、50列以下
値の文字数*注2 40,000文字以内
入力できる数値の範囲 -2147483647〜2147483647(整数の場合)

  • 学習用データでは、数値の前に付与された「△」および「▲」は、マイナスの数値を表す記号として処理されます。
  • データ行数は、ヘッダー行を含まない行数です。
  • 各項目の値1つあたりの文字数です。

留意事項

学習用データを作成する場合は、次の事項に留意して作成してください。

実行エラーを回避するには

分析タイプが「分類」の場合、[推論したい項目]の値のうち、データが1件しかない値は削除され、学習には使用されません。
また、[推論したい項目]の値がすべて異なる場合は、学習の実行エラーとなります。 [推論したい項目]に設定する列では、1つの値につき10件以上のデータを用意することをお勧めします。

  • [推論したい項目]とは、実際に推論でAIモデルを使用して予測する項目です。学習時に指定します。
分析タイプが「データマッチング」の場合は、次の条件を満たす学習用データを使用してください。条件を満たさない学習用データを利用した場合、学習はエラーになります。
  • [マッチング元データ]および[マッチング先データ]は、各データ内で[共通キー項目]の値が重複しないこと
  • [マッチング元データ]の[共通キー項目]が[マッチング先データ]に含まれていること

  • [共通キー項目]とは、[マッチング元データ]と[マッチング先データ]の対応関係を示す一意な列の項目です。学習時に指定します。
分析タイプが「入金請求突合」の場合は、次の条件を満たす学習用データを使用してください。条件を満たさない学習用データを利用した場合、学習はエラーになります。
  • [入金データ]で識別項目の値が同じ行は、[共通キー項目]以外の項目がすべて同じ値になること
  • [入金データ]の[共通キー項目]が[請求データ]に含まれていること
  • [入金データ]および[請求データ]は、各データ内で[共通キー項目]の値が重複しないこと

  • [共通キー項目]とは、入金データと請求データの対応関係を示す一意な列の項目です。学習時に指定します。
学習用データの値や行数などが仕様の範囲内であっても、データに含まれる値や学習時のデータの詳細設定によってはエラーが発生することがあります。その場合は、分析タイプに応じて次のように対処してください。
分析タイプ 対処
分類
  • 1つの列に含まれる要素数(値の種類)を減らす。
  • 不要な項目を削除する。
データマッチング
入金請求突合
  • 学習実行時に、不要な詳細設定を行わない。
上記を試しても解決できない場合は、弊社公式サイトにある「FUJIFILM IWproに関するお問い合わせ」 (https://www.fujifilm.com/fb/form/support/fbiwpro/contact)からご連絡ください。
データクレンジング後に、データ行数が100行未満の場合は、学習の実行エラーとなります。学習用データについては、分析タイプに応じて事前に次の内容を確認してください。
  • 分類の場合
    推論したい項目の値が欠損していないこと。
  • データマッチング、入金請求突合の場合
    共通キー項目の2つのデータの値が一致すること。

  • データクレンジングとは、学習用データをアップロードしたあと学習の前処理として実施される、データの欠損した行などの削除処理です。

AIモデルの分析精度の低下を回避するには

登録する学習用データに偏りがある場合、作成されるAIモデルの精度が低下する恐れがあります。
学習用データには、多様性とバランスを保つようなデータを採用してください。
分析タイプが「分類」の場合、学習用データの先頭から10,000行以内に次の列が含まれていると、分析の精度が低下する恐れがあります。
  • 要素数(値の種類)が100以上ある列
  • 分類先の1つのカテゴリーに割り当てられるデータの件数が10件未満の列

その他の留意事項

学習用データの先頭から10,000行以内に次の列が含まれる場合、その列は学習には使用されません。
  • すべての値が空欄の列
  • すべて同じ値が入力されている列