2025/12/03

モデルとデータを見直して、Bird Classification の精度を改善した話

01 Bird Classification とは
02 ニューラルネットによる画像分類
学習のさせ方
実際の学習で見えてきた課題
03 精度を上げるには
試したモデルとその結果
もう一度 EfficientNet を試してみることに
もっと精度を上げたい
04 まとめ
05 今回の取り組みが活かせる場面

迷惑メールが多すぎます。

この記事は、社内イベント「お茶会」での発表内容をもとにまとめたものです。
今回は弊社の arakawa が「Bird Classification の精度改善」について話しました。

社内で制作した鳥類分類のデモアプリ「Bird Classification」の精度を、日頃からちょこちょこ試しています。

ある日、ネットで拾ったヤマガラの写真を、試しに Bird Classification に読み込ませてみました。
どう見てもヤマガラの写真だったので当然正しく判定されると思っていたのですが、返ってきた結果はまさかのジョウビタキ♂。

確かに、角度によってはジョウビタキ(特にオス)もお腹が橙色で、頭部に黒い柄があるので、一部分の特徴だけを捉えると似て見えることもあります。とはいえ、背中の色味や全体のシルエットまで含めて判断すれば、両者は明らかに別の鳥です。

それを判定できなかったことに、正直ショックを受けました。
そして、この事件をきっかけに「どうにかして分類の精度をもっと上げたい」と思うようになりました。

01 Bird Classification とは

Bird Classification は、ニューラルネットを利用した技術検証プロジェクトとして、社内で開発した野鳥画像の分類アプリです。

私が個人的に撮影してきた写真の中から、6,310 枚・77 種の画像を学習データとしており、ブラウザ上で写真をアップロードすることで、鳥の種類を推定することができます。

Bird Classification について、詳しくはこちらの記事をご覧ください。

02 ニューラルネットによる画像分類

ニューラルネットの精度を上げる方法を考える前に、まずはニューラルネットによる画像分類がどのように動いているのかを簡単におさらいしておきましょう。

ニューラルネットは、ニューロンと呼ばれる多入力一出力の非線形関数を、層状に束ねて結線したものです。
ニューロンの内部には重みと呼ばれるパラメーターがあり、入力値に応じて計算を行い、出力を次のニューロンへ渡していきます。

ニューロンの結線方法は、やたらに繋げばいいわけではありません。
層の数や結線の仕方を工夫する必要があり、こうした構成全体(コンフィギュレーション)をモデルと呼びます。

画像分類の場合は、画像のビットマップデータ(224×224ピクセル)を入力し、ネットワークの各層を順に通るなかで特徴が取り出されていきます。
最終的な出力層は、分類対象ごとにニューロンを用意しておき、その中で最も大きい値となったものを判定結果として扱う仕組みです。

ニューラルネットが正しい判定をできるようにするには、学習が必要です。学習では、データを与えたときの出力と正解との誤差をもとに、バックプロパゲーションというアルゴリズムで各ニューロンのパラメーター(重み)を修正していきます。
この更新を繰り返すことで、ネットワークが徐々に正しい出力に近づくようになるのです。

学習のさせ方

ニューラルネットで画像分類を行うときは、まず学習用データの一覧表を作る必要があります。

この一覧表づくりが意外と手間で、

ファイル名
正解の種類
画像を正方形に切り出すときの位置(中央・左など。今回補助的に入れたもの)

といった情報を、ひとつひとつ書いてまとめていきます。

学習に使うデータはすべてを使うのではなく、だいたい 2 割程度を評価用データとして残しておくのが一般的です。
ちなみに評価用データは、学習には絶対に使ってはいけません。これは「学習で見たことがない画像で正しく判断できるか」を確かめるためです。

学習の流れはシンプルで、

学習用データを使ってニューラルネットのパラメーターを更新
1 エポック（学習の1巡）が終わるごとに、評価用データで正答率を計算する

これを繰り返します。
すべてのエポックの中で最も正答率が高かった時点の重みを、最終的な結果とします。

実際の学習で見えてきた課題

実際に Bird Classification のデータで学習を回してみると、いくつか気になる点が出てきました。

まず、今回の誤判定の原因になったヤマガラの学習枚数が 15 枚しかなかったことです。
これではさすがに厳しい面もありますが、とはいえ何とかして判定できるようにしたいところ。

さらに、全体の6,310枚という枚数も、画像分類のタスクとしては多いとは言えません。
少ないデータをなんとか補うために、別のデータセットで事前に学習された重みを使ってスタートするファインチューニングの手法(少ない枚数でも成果が出やすい方法)をとりましたが、それでも限界がありました。

25 エポック学習させた結果、学習用データに対する正答率は順調に上がるものの、評価用データの正答率は点線のあたりで頭打ちになり、なかなか伸びていきませんでした。

これは学習が進むほど、モデルが「写真そのものを覚えてしまっている」状態(過学習)になってしまい、本来重要である「未知の画像」に対して良い結果が出せなくなっていたためです。

03 精度を上げるには

分類の精度を上げる方法は大きく分けて次の二つが考えられます。

学習させるデータを増やす
モデルそのものを高性能なものに置き換える

最も確実なのは 1 の「データを増やす」方法ですが、これは撮影・整理・一覧化を含めてとにかく手間がかかります。
現実的にはかなりしんどく、すぐには対応できません。

一方で 2 の「モデルを置き換える」方法は、計算機を動かして学習を回すだけで試せるため、比較的取り組みやすい手段です。

今回はこのモデルを高性能なものへ置き換えるアプローチを試してみることにしました。

試したモデルとその結果

従来の Bird Classification で使っていたモデル はGoogle が公開している EfficientNet でした。
事前学習済みデータとして efficientnet-b7 を使用しており、そのサイズは 257,621,231 byte とかなり大きなモデルです。

今回はこの従来モデルの精度を超えることを目標に、timm に登録されているさまざまなモデルを試してみることにしました。timm とは幅広い画像分類モデルがまとまっており、比較検証が非常にしやすいライブラリです。

今回試したのは以下のモデルです。

EfficientNet V2
- efficientnetv2_rw_m.agc_in1k
- efficientnetv2_rw_s.ra2_in1k
- tf_efficientnetv2_l.in21k_ft_in1k
- tf_efficientnetv2_m.in21k_ft_in1k
- tf_efficientnetv2_xl.in21k_ft_in1k
CoAtNet
- coatnet_0_rw_224.sw_in1k
- coatnet_rmlp_2_rw_224.sw_in12k_ft_in1k
MambaOut
- mambaout_femto.in1k

ここ数年は、従来の「畳み込みニューラルネット(CNN)」だけでなく、LLM の流れから派生したより大規模なニューラルネットの性能が非常に高く、その系統に属するのが CoAtNet です。
CoAtNet は畳み込みとビジョントランスフォーマーを組み合わせたハイブリッド構造になっており、今回も大きな期待を持って試しました。

しかし、これらのモデルを使っても 未知のデータで精度が伸び悩み、正答率が 95% を超えるところまで届かず。