AI OCRのPoC(概念実証)、特に「各自治体の不動産納税通知書(および課税明細書)」という、フォーマットが不統一で難易度の高い帳票へのチャレンジ、非常にやりがいのあるフェーズですね。
アジャイル開発の第一弾ということで、完璧さよりも「どこまで汎用的に対応できるか」「プロンプトでどこまで制御できるか」の境界線を見極めることが重要です。
以下に、不動産納税通知書特有の構造やAIの癖を踏まえた、PoCでの具体的なチェックポイントを整理しました。
- 読み取り・認識精度(OCRの基礎能力)
自治体ごとにレイアウトが全く異なるため、AIが「表」を正しく認識できているかが最初の関門です。
- 表構造の認識ズレ: 課税明細書(土地・家屋の内訳が書かれた紙)の列(カラム)が、行によってズレて認識されていないか?
- 特に注意: 「摘要」欄などが長い文章になっている場合、そこで列が崩れやすい。
- ヘッダーの解釈: ヘッダーが2行・3行になっている場合(例:上段に「固定資産税」、下段に「都市計画税」など)、その親子関係を正しく認識して紐づけられているか。
- 縦書き・横書きの混在: 縦書きの自治体(古い様式など)が混ざった際に、正しく読み取れるか。
- ノイズ耐性: 公印(赤いハンコ)が文字に被っている箇所、折り目、網掛け(背景色)がある箇所の文字化けがないか。
- データ抽出・理解(プロンプトとAIの推論能力)
ここがLLM(大規模言語モデル)を用いたAI OCRの腕の見せ所です。単に文字を読むだけでなく「意味」を理解しているかをチェックします。
- 「土地」と「家屋」の分類:
- 同じ表の中に混在している場合、プロンプトの指示通りに「土地(Land)」と「家屋(House)」を別々のレコード(行)として認識・分類できているか。
- 重要項目の正確なマッピング: 似たような数字・用語が並ぶため、取り違えがないかを確認します。
- 評価額 vs 課税標準額: これらは全く別の数字ですが、近くに記載されることが多く、AIが混同しやすいポイントです。
- 地番 vs 家屋番号: 正しく区別されているか。
- 地積(面積) vs 床面積: 土地と家屋で正しい項目を拾えているか。
- 非課税・共有持分の扱い:
- 「非課税」や「免税点未満」の物件が含まれる場合、それを除外するのか、値「0」として出力するのか、指示通り動いているか。
- 共有名義の場合、「持分(例:1/2)」の記載をどう処理するか(計算して出すのか、文字列として出すのか)。
- CSVデータ書き出し(後工程への接続性)
システム連携やExcel集計を想定し、データの「きれいさ」を確認します。
- 数値の正規化:
- OCR結果に含まれるカンマ(,)や円マーク(¥, 円)が除去され、純粋な数値としてCSV出力されているか。
- 全角数字が半角に統一されているか。
- 日付のフォーマット統一:
- 「令和5年」「R5.」「2023年」などバラバラな表記を、2023-01-01 などの指定フォーマットに変換できているか。
- 空欄の処理:
- 値がない場合、null、空文字、0、ハイフン- のどれで出力されるか。これが統一されていないと集計でエラーになります。
- ハルシネーション(幻覚)の有無:
- 記載されていない情報をAIが勝手に補完して出力していないか。(例:郵便番号が書いていないのに、住所から推測して勝手に埋めてしまうなど)
- 運用・UI(PoCならではの観点)
- プロンプトの修正容易性:
- 「A市の様式だとここを間違える」となった際、ユーザー側(あるいは開発者)がプロンプトを微調整してすぐに再テストできるサイクルになっているか。
- 複数ページ対応:
- 物件数が多く、課税明細書が複数枚にわたる場合、1つのCSVファイルとして統合して出力できるか。
- エラー検知:
- AIが「自信がない」と判定した箇所(信頼度スコアが低い箇所)を、人間が目視確認しやすいUIになっているか。
テスト用データ選定のヒント
PoCの効果を高めるために、あえて以下のようなバリエーションを含めることをお勧めします。
| パターン | 確認する狙い |
|—|—|
| 政令指定都市 vs 地方町村 | フォーマットの複雑さとシンプルさの両極端を確認。 |
| 土地・家屋 混合明細 | 1つの表に両方が混ざっているパターンの分離能力。 |
| 共有物件 | 「持分」や「代表者以外の氏名」の扱い。 |
| 償却資産 | 土地・家屋以外が含まれている時の除外(または抽出)能力。 |
このフェーズでは、「100%の精度が出ない時に、人間がどうリカバーできる設計になっているか」を見るのも重要です。
私から提案できる次のステップ:
もしよろしければ、「特に誤読が起きやすい具体的な項目リスト(マッピング定義書のドラフト)」を作成しましょうか? これがあると、PoCの結果検証(正解データとの突き合わせ)がスムーズになります。