AI

生成AIを活用したインタビュー記事システムの作り方とは? COUNTER株式会社対談

昨今の自然言語処理技術の発展を受け、生成AIを活用したSEO記事ライティングは昔と比べ格段と楽な業務となりました。

しかし、AI台頭の流れに沿ってリッチコンテンツの重要性、ユニークなコンテンツ制作業務が重要視されるようにもなりました。

中でもインタビュー記事制作は企業や人物に関する一次情報をしっかりと伝えることができるため、その価値の高さが再認識されてきているのが事実。

そこで今回はCOUNTER株式会社とのコラボYouTube動画での対談内容を文字起こしし、動画で使用したスライドとともに「インタビューライティングシステムの設計の考え方・開発方法」についてご紹介します。

COUNTERチャンネル(COUNTER株式会社運営)

インタビューライティングシステム開発の経緯

宮田
COUNTERの宮田です。
本日は “話者識別インタビューライティングシステムの開発方法”をテーマに、Leographの児玉さんと語り合います。

児玉
よろしくお願いします、Leographの児玉です。
AI・ITエンジニア目線で解説ができればと思います。

宮田
では、本題に入る前にきっかけについてお話しします。
きっかけは2024年3月に共同リリースしたAIライティングSaaS『POPLOG』ですね。

SEO記事を爆速で生成できるプラットフォームとして滑り出しは上々でしたが、「一次情報のインタビュー記事も自動化したい」というニーズもあるのではないかと予想したのです。
特にHRなど、リッチコンテンツで信頼を得たい領域ほどインタビュー記事の制作コストがネック。

そこで“話者識別+ライティング” に挑戦することにしました。

児玉
当時から議事録SaaSや文字起こしAPIが台頭していましたが、“話者分離から記事化までワンストップ”で行うプロダクトは皆無。今もあまり見かけません。
既存サービスの寄せ集めではUXが散らかり、データパイプラインも複雑化します。だったらPOPLOGに組み込むのが最適解――というのが結論でした。

宮田
その結果、POPLOGのリリース3か月後の2024年6月には“話者識別インタビューライティング機能”リリース。という経緯がありますね。

POPLOGをリリースした当時、すでに自然言語処理技術(NLP)の精度はかなり高くなってきていましたが、いまだに“インタビューライティングに特化した”UIやシステムは普及していません。

そこで、既存のライティングシステムに追加開発する形で、話者識別インタビューライティングシステムをCOUNTER社と我々Leograph社で共同開発に至りました。

インタビューライティングシステムの現状課題

宮田
さて、ここからはインタビューライティングに関する現状と課題について整理していきたいかと思います。
まずは「解決された領域」とは何でしょうか?

児玉
現状として、できるようになったことは以下の2点です:
・AIによる文字起こし精度そのものは高い
・生成AIによる構成+文章作成が高速化(GPT系など)

宮田
なるほど。
一方で“未解決”のボトルネックとは何でしょうか?

児玉
対する未解決の領域は以下のとおりです:
・話者分離技術向上が遅い
・一つのUIで完結するシステムが出てこない
・GPUコストが高い

宮田
なるほど。要するに「入力品質 × コスト × UX」の三つ巴が残課題、というわけですね。

児玉
おっしゃるとおりですね。
これにはちゃんとワケがあり、私は主に以下の3点が原因ではないかと思っています。
①話者識別のための教師データ不足と、そのデータノイズの多さ
②インタビューライティングシステム市場が見えづらくPMFできない、MVP構築にも至らない
③ランニングコストが高くPoC疲れが起きる恐れがある

宮田
なるほど。面白い観点ですね。
しかし、この辺りを払拭するように技術も向上してきていると考えてもいいでしょうか?

児玉
はい。最近はデータノイズを取り除く専用のAIなどもありますし、いずれはコストも下がってくるでしょう。

児玉
しかし、現状の技術ではなかなか払拭しづらい部分もあり、私としては「ワンストップで実現できるUI」を作り、それを使ってもらうことがベストプラクティスだと考えています。
担当者が各種生成AIサービスを駆使すれば実現できる部分もありますが、相当手慣れた人間じゃないと難しいと思います。

インタビューライティングシステムの設計・開発

宮田
では続いて「インタビューライティングシステムの設計・開発」に入ります。
どのようにして開発をおこなったのでしょうか?

児玉
まず、課題抽出から行います。これは前回の動画でも整理したとおり、どのプロダクト開発においても工程は一緒です。
①時間がかかる業務はどこか、重複作業はどこか
②「あると便利」なプラスアルファ機能は何か
この3軸で洗い出します。

宮田
なるほど。では、今回のインタビューライティングにおける課題はどんな感じでしょうか?

児玉
インタビューライティングにおける課題は、
①「文字起こし」「インタビュアーと話者の文字を分ける」
②構成に沿って文章を当てはめて書く「ライティング」そのもの
になります。

宮田
なるほど。その課題をどのようにシステムに落としていくのでしょうか?

児玉
・話者分離に関しては、HuggingFaceなどで公開されているスピーカーダイヤライゼーション(話者の想定)のモデルを使う。
・文字起こしは、Whisper(OpenAI)などの文字起こしAIモデルを使う。
・テキスト生成/構成はGPTシリーズを代表とするテキスト生成AIを使う。
必要十分な精度があれば、これらのアセットを当てはめていくことで実現可能かと思います。

児玉
そして、利用フローとしては以下のようになります:
①インタビュー音声をアップロード
②保存した音声に対してまず話者分離を実行
③各話者ごとに文字起こし
④文字起こししたテキストをライティングAIに渡し、構成・文章化
⑤完成した原稿を出力し、人が最終確認して公開
この一連で “話者識別インタビューライティングシステム”が完成するかと思います。

宮田
なるほど、ありがとうございます。
毎回こうやって構造化しているのかと思うと面白いですね。
ちなみに、構造そのものの見た目はシンプルですが、どこが一番難しかったですか?

児玉
圧倒的に話者分離です。
というのも、モデルを動かすには計算リソースが大きく、個人PCで試すにしたってとにかく重い。
なので、検証用の環境を別途準備し、コンピューティングリソースをどう確保するかが最大の壁でした。

宮田
理解しました。
こういった要素も相まって、なかなか各社もインタビューライティングシステムを開発するに踏み切れないのかもしれませんね。

今回の解説記事はここまで。デモ画面を使った解説に関しては冒頭に添付のYouTube動画をご覧いただければと思います。

まとめ

本記事では、生成AIを活用した「インタビューライティングシステムの設計の考え方・開発方法」について詳しく解説しました。

AIを活用することが当たり前となりつつある時代に、上手くAIを業務に取り入れるきっかけとなれば幸いです。

また、本記事の冒頭にこの記事の元ネタとなったCOUNTERチャンネルとのコラボ動画が掲載されていますので、そちらも併せてご覧ください。

この記事の著者

児玉慶一(ケーイチ)

児玉慶一

執行役員/ AI・ITエンジニア

SNS Xアカウント

愛称: ケーイチ
1999年2月生まれ。大学へ現役進学後数ヶ月で通信キャリアの営業代理店を経験。営業商材をもとに100名規模の学生団体を構築。個人事業主として2018年〜2020年2月まで活動したのち、2020年4月に広告営業事業を営む株式会社TOYを創業。同時期にITの可能性を感じプログラミングを始め、現在はITエンジニアとして活動中。2021年にLeograph株式会社に参画し、AI研究開発やWebアプリ開発などを手掛ける。 「Don't repeat yourself(重複作業をなくそう)」「Garbage in, Garbage out(無意味なデータは、無意味な結果をもたらす)」をモットーにエンジニア業務をこなす。
【得意領域】
業務効率化AIモデル開発
事業課題、戦略工程からシステム開発
Webマーケティング戦略からSaaS開発