インターネット広告の安心安全を守る「ヤフーの広告審査システム」

2021年01月19日

インターネット広告の安心安全を守る「ヤフーの広告審査システム」

ヤフーでは、1日約4千万件の広告が入稿されています。それらの広告に対して、「人の目」だけでなく、「システム」も併せた2つの目で審査しています。システムでの審査は非常に複雑な仕組みで、かつ多くのノウハウが必要とされますが、膨大な広告入稿に対応できるよう常にアップデートを行っております。今回は、「広告審査システムの仕組み」についてご紹介します。

「システム」による広告審査とは?

ヤフーでは、入稿された広告の品質を「審査担当者」と「広告審査システム」の2つの手法により、24時間体制で常時審査しています。すべての広告を審査担当者が目視で審査することは難しく、1日約4千万件という膨大な量の広告入稿に対応するため、広告審査専用の高速処理システムを構築し、その広告入稿のほぼすべてに対してシステム審査を実施しています。その際使われるのが、「広告審査AI(※)」です。

AIは"学習"をさせることで精度が高まります。そのAIに学習させるための"正解データ(※)"は、精度を左右する重要なデータです。ヤフーでは、このデータを広告審査担当者の知見を基に作成しています。データは毎日、審査担当者が目視によって判断したものを、常に最新の正解データとしてシステムに取り込み、AIの精度向上を図っています。ヤフーでは、AIシステムを構築する際に最も重要な正解データの鮮度を、毎日審査担当者の判断を取り込むことで保っています。単に機械に頼るのではなく、人のチカラを最大限に活用し、データ精度向上のサイクルを築いています。


システムは構築したままではなく、広告品質を維持するために、ヤフーでは絶えず広告審査システムのアップデートを実施し、そのシステムの品質は常に向上し続けています。広告審査システムのアップデートには、AIを駆使した高度な技術改善が含まれています。

最新技術で広告を審査

実際に、広告審査システムで実施していることをご紹介します。まずは、広告のタイトル、説明文、キーワード、ランディングページのテキストの審査です。単純な正規表現(※)による審査だけでなく、自然言語処理技術(※)を用いて、入稿されたテキストのリスク判定も実施しています。このリスク判定は、過去、ヤフーに広告として入稿され、審査担当者の目によって非承認となった広告の情報をAIに学習させ、スコアリング(※)して実施しています。


一方、バナー広告や動画広告、画像によるランディングページに対する審査には、画像解析技術を用いています。

画像に対しては、OCR(文字抽出)(※)という技術を使い、テキスト審査を行います。さらに、過去に広告審査で非承認となったバナー画像と類似のバナー画像を検出することで審査を行っています。

動画広告については、動画中に発生される音声を認識・解析し、テキスト化することでリスク判定を行っています。また、動画の中で突然音量が大きくなることがないか、目がチカチカしてしまうような転調がないかなど、さまざまな観点で審査を実施しています。

昨今、画像のみで構成された広告ランディングページが多く存在しています。テキストによる審査では、画像のみで構成された広告ランディングページに対して正しく審査できない可能性があります。しかし、ヤフーでは、OCR技術を用いてランディングページをテキスト化し、審査することで品質を担保しています。このようにヤフーの広告審査は、さまざまなランディングページの形態にも柔軟に対応しています。

広告掲載後のパトロールもシステムで

広告掲載後に広告主が掲載サイトをガイドライン違反のものに変更していないかを監視する"パトロール審査"も、自動で実施しています。自動的に審査する広告審査パトロール用のクローラー(※)を使い、24時間365日、掲載中の広告を審査しています。

ヤフーの広告審査は、単純なシステムではなく、高度な専門性をもった審査担当者たちの判断を基に築き上げられた広告審査AIによって実現されています。AIを実用レベルで活用し、今後も新たな技術を取り入れることで、ヤフーは広告の品質を担保してまいります。


詳しくは以下をご覧ください。

広告サービス品質向上のための取り組み


※AI:Artificial Intelligence。人工知能。認識、推論、判断などの高度な知的作業をコンピユーターに行わせるもの。

※学習:Machine learning。機械学習とは、言語やゲームなどをはじめとした人間の様々な知的活動の中で、人間が自然と行っているパターン認識や経験則を導き出したりするような活動を、コンピューターを使って実現するための技術や理論、またはソフトウエアなどの総称。

※正規表現:Regular Expression。コンピューターで文字列の検索などを行う時に用いられる表記法。通常の文字のほかに、メタキャラクターという特殊な意味をもつ記号を組み合わせることにより、特定の文字列のパターンを検索・抽出・置換することができる。

※自然言語処理:Natural language processing。人間が日常的に使っている日本語や英語などの自然言語をコンピューターで扱う処理技術の総称。機械翻訳や音声認識などを指す。自然言語技術。

※スコアリング:判定結果を数値化する仕組み。

※OCR: Optical Character Recognition。光学文字認識。スキャナなどで入力された画像情報の中から、文字の形状に基づいて文字を識別し、コンピューター上で扱える文字データへと変換する仕組み。

※クローラー:Crawler。クローラー、ウェブクローラー、検索ロボット、サーチボット。さまざまなウェブサイトを自動的に巡回し、公開されている文書や画像などのデータを収集していくソフトウエアやシステム。目的に応じて収集するサイトの範囲やデータの種類、巡回頻度などは異なる。


※関連情報:
広告品質の「信頼と安全」を守る! Yahoo! JAPANの考えるトラスト&セーフティとは(2020年6月15日)
ヤフーは広告をどう審査しているのか? 2つの目で見る審査とは(2020年9月25日)

関連記事