Loading video player...
突販ディングスの夏堀と申します。本日、
え、現場技術文化が降りなす突販突の
LLMVLM開発と業務実践という
タイトルで、え、ご発表させていただき
ます。
まず、え、私自己紹介です。私、え、新入
社員で、え、突販印刷の方に入社いたし
まして、え、最初の頃はですね、情報系の
プリースのシステムであるとか、あとは
パッケージの、え、在庫管理システムそう
いったものの開発をしておりました。で、
デジタルイノベーション本部という風に
部署名が変わった辺りからVRやMRと
いった先端技術に取り組むようになりまし
て、ま、フォローレンズであったりとか
VR、あとフォトグラメトリとか様々やっ
てまいりました。で、2023年より、え
、生成AIの、え、取り組みに充実して
おります。まずはですね、え、ま、
カスタマーの方ですと突販の名前をあまり
知らない方もいるかと思いますので、
そちらは、え、弊社の紹介をさせて
いただきます。え、突版はですね、印刷の
会社ということで長年ってきました印刷
テクノロジーを過去コアにしまして、え、
皆さんの生活であったりインフラそういっ
たものを、え、支えている会社になります
。突販では、え、物だけではなくことも
提供しておりまして、あ、電子書籍の
ブックライブなどは使ったことある方も
いるかもしれないです。また、え、公共
BPOなども数多く提供しております。え
、突販ではですね、パーパスというものを
掲げております。え、こちら英語で
breathinglifeinto
culturewith
techologyandheart。
日本語ですと、人を思う感性と心に響く
技術で多様な文化が生きづく世界にという
ものです。私個人としましてもこの
パーパスとても、え、心に響いていますの
で、こちらをベースに本日はお話をさせて
いただきます。え、突販のパーパスの中で
もカルチャーという言葉が、え、とても
強調されております。こちらはですね、
企業カルチャーなどという風に、え、言う
カルチャーでして、行動様式だったり価値
観、生き方そういったものを指すものと
なっております。え、古い常識であったり
、壁を突破したワクワクする行動様式、
そういったものを社員1人1人が
作り出そうという思いが込められています
。こちらで、え、カルチャーをPRする
動画がありますので、少々ご覧ください。
[音楽]
突販は突破する。昨日までの常識を
不[音楽]可能の壁を
独自のテクノロジーと完成で
突破した先に何があるのか
何を生み出しているのか
カルチャー
突販は[音楽]生み出している
120年以上ってきは印刷テクノロジーの
可能性を広げて
昨日より世界を面白くするカルチャーを
[音楽]
パッケージ技術で世界のフードロスに挑む
[音楽]木目素材が溢れた癒しの街づりを
する
[音楽]
に合わせて学び方をカスタマイズするデジタルの力
[音楽]
というわけで、まだちょっと続くんですが長いので続きは
Webでということで、え、
YouTube
で検索していただければと思います。え、特に皆さんの身近なプロダクトしますと、スマートフォンの中にも突販のプロダクトは多く使われております。
ま、一部DNPさんの加算もあるのですが
、え、例えば反動体のフォトマスクであっ
たり、オンチップカラーフィルター、
リチウムイオ4外装電子FCBGAなど
ですね、こういったもの、え、もちろん
スマートフォンだけではなくクラウド
サーバーでも使われている部材となりまし
て、つまり皆さんが生成AIを使っている
時に意識しなくても突販の製品を使って
いるという可能性があるということです。
おかげ様で、え、GPU含めまして
サーバー需要の増加でエレクトロニクス
分野は非常に健な伸びとなっております。
え、現代ではコンピューターがない
カルチャーというのは考えられませんで、
これまでと同じように突販は多くの
カルチャーを支えております。え、最近
ですとこちらの、え、レンジで温めるだけ
で調理ができる調理食品やデトルト食品
非常に便利だと思います。こういったもの
も突販が開発したり特許を持っているもの
があります。え、環境負荷の少ない
パッケージの開発などにも取り組んでおり
ます。そして、え、サスタムサステナ生活
というのは未来のカルチャーの大事な要素
だと考えております。そして当然未来の
カルチャーというのを考える意味では
生成愛のないカルチャーというのはすでに
考えられなくなっていると思います。ここ
から生成愛の話に移ります。え、先ほどご
紹介したパーパスというのをベにまずは次
世代の文化生活に欠かせない生成の突販に
おける開発状況をご紹介いたします。
そもそもですね、なぜ突販がLLMをと
いう風に思われる方多いと思います。
わざわざ内省せずともクラウドで
アプリケーションを作ってそれを使えば
良いではないかと。え、もちろんオン
ラインでの制成活用も推進しております。
しかし、突販にはオフライン、車内の
クローズド環境でしか、え、作業ができ
ないという現場が多くあります。例えばお
客様からお預かりする新キ、え、新製品や
極費情報を扱う、そういった製造現場や
気々な個人情報を扱うBPOの現場などが
あります。こういった現場では
ネットワーク面でも高いセキュリティが
求められまして、そもそもクラウドに
つがらない、あるいは業務情報をクラウド
に入力することが厳しく制限されている、
そういった現場が多くあります。こういっ
た場所で働く社員を含めた全ての現場に、
え、届けるためにはオンプレミスで動く
LMが必要不可欠であるというのが
モチベーションです。というわけで、え、
弊社のLLM砂めりをご紹介いたします。
え、開発に着手したのは2023年で
GPT4が動登場した直後です。え、この
時点では日本、日本語を十分に扱えると
いったレベルのオープンなモデルがなかっ
たということも1つの理由です。え、ほぼ
手探りの状態で始めましたが、2024年
の所にはなんとか使えるレベルのモデルと
いうのを車内にリリースすることができ
ました。そして実際に工場での設備保全で
あったりBPOの業務でPOCレベルから
導入をしてきました。え、特に工上の設備
保全では過去に蓄積されていた、え、設備
の保全履歴をラグにして検索できるように
提供したことで長年の経験や間に頼ってい
た、え、保守の部分が解消されたという風
に現場の方に非常に喜んでいただけており
ます。え、LLMは作って終わりという
わけにはいきませんで、え、どんどん
新しいモデルであったりテクノロジーが出
てきます。ですので、都度様々な、え、
要素を取り入れまして、え、半年周期で
アップデートを行っております。え、現在
ちょうどバージョン6が開発中です。
弊社の内政モデルはスナメリという風に
名前をつけました。え、運用コストと性能
のバランスから小型から中型のモデルを
ベースとして採用しています。そこに日本
の近海にも住んでいる小型のイルカの名前
を借りました。え、小さくて賢く親しみ
やすい。そういったイメージを込めており
ます。え、開発におきましては1Bの様々
な機能を振る活用して思考錯誤を重ねて
開発しております。え、ベースモデルの
先定、テスト学習、継続事前に事後学習、
またモデルマージをしたりして最後にはも
当然評価を行います。実は、え、2024
年の前半までは1デなしで開発をしていた
んですが、そこから、え、後半期から導入
させていただきまして、今では、え、1B
なしでの開発というのは考えられない状況
に浸っております。コパスの方にも常に、
え、工夫や改善を重ねていまして、日本語
英語プログラムコードを中心に構成して
おります。え、バージョン6では画像と
テキストが混合したインターリーブド
コーパスを導入してビジョン能力の強化を
図っております。学習の、え、
モニタリングではパラメーターの
トラッキングだけではなくて、え、
ローンチを活用しまして自動評価でモデル
の品質もトラッキングしております。え、
かなり微妙な変化なのですが、日本語の
向上、日本語能力の向上と英語能力につい
ても横ばで維持、タスクによっては向上し
ている様子が見て取れると思います。え、
モデルの学習が終わりますと改めて複数の
ベンチマークで評価をいたします。こちら
は砂めりのバージョン5と近いサイズの
モデルをいくつかピックアップさせて
いただきました。え、ネジミ4がやはり
現在日本では最も信頼されているベンチ
マークだかと思いますが、それ以外にも
複数のベンチマークで評価をしております
。喋りベンチマークというのは
アシスタント能力に重点を置いた
ベンチマークで、PFENというのは
日本語県特有の常識や知識を図るものです
。見ていただいて分かる通りベンチマーク
によってランキングが変動します。え、
ネジミと喋りでは小さな入れ替わり程度な
のですが、え、PFJでは準国産の
LLMJPが、え、一躍トップに出て
まいります。そして、え、月がおそらく
文化的な近さという意味で区縁が来まして
、その次に砂めりが入って、その次に邪魔
さが来てという風になります。このような
多格的な評価は、え、実動流にと欠かせ
ないものです。皆さんもおそらく経験され
たことがあると思いますが、エンド
ユーザーというのはAIの性質などは
あまり気にせずに単純な知識質問をする
ことがあります。その上で自分が常識だと
思っているそういうことを答えられないと
一気にそのAIへの信頼を下げてしまうと
いったことがあるんですね。ま、これは
極端な例ではあるのですが、やはりある
程度日本語の常識といったものを備えた
AIの方が信頼されやすいということは
確かだと考えております。こちらは、え、
バージョン6の途中経過になります。つい
先日継続事前学習の方が、え、完了しまし
て、え、ジマさんの12ビリオンをベース
にしたんですが、まあ、一応日本語能力は
向上ということで、この後も期待が持て
そうかなと思っております。ここからは
少し視点を移しまして、パーパスの後半、
多様な文化が生きづく世界にということで
CSIの多様性の方に着目してみたいと
思います。まず、え、3つの代表的な
トレンドに着目して日本語LMの課題を見
てみたいと思います。え、1つはロング
コンテキスト、2つ目はVLMによる業務
効率化、3つ目はエージェントAIの対当
です。まず、え、複雑な課題とロング
コンテキストです。え、現在オープンに
なっている自後学習のSFTデータセット
というのはほとんどが8kmトークン以下
で、ま、オープンウェイトのモデルも
8kmから16kmトークンというところ
が多いと思います。これはGPT3.5
ターボ相当ということになります。え、
生成Iに求まれる課題はどんどん複雑さを
増しておりまして、それによってより長い
コンテキスト調が必要になっています。え
、例えばDEPリサーチですね。こちらを
作ってみようとすると、え、複数の調査
結果をまとめるところでそもそも
コンテキスト帳が全く足りないだったり、
論理的なコンテキスト帳は足りていても
長文になると大きく性能が劣化するといっ
たことが起きます。え、汎用的なベンチ
マークだけではこういったところは測る
ことができませんし、実用性を考えますと
単心テストではちょっと不安が残るといっ
たところです。2つ目はVLMによる業務
効率化です。最近かなり期待が注がれて
いる分野かと思います。え、実際シンプル
なフォーマットであればかなり柔軟な
読み取りができます。え、しかし車内を見
てみますと非常に多種多様な方表があり
ます。え、こちらの画面ですと、ま、
かなりぼやかしているんですが、え、1番
左がアメリカの企業からのもので、真ん中
が中国の企業からのもの。え、そして1番
左は日本の企業のものです。結局こういっ
た、え、多様な調を処理するというところ
では既存のOCRと同様の課題に行きつい
てしまいます。え、弊社で言いますと、
やはり18発注のところというのが紙分化
が根強く大きな課題感があります。また
自治体などでも、え、手書きの調や
申し込み書というものが多くあって、自治
体ごとに個性があります。弊社では自治体
BPOも多く受注しておりますが、え、
VLMでの読み取りにおいてはこれらも
長壁となってきます。3つ目は
エージェントAIとしての課題です。えっ
と、オーケストレーターと、専門の
エージェントの共同みたいな、え、
いわゆるエージェント
オーケストレーションが現在期待を注がれ
ています。では、これをオンレ環境で実現
するというとどういうことが必要かという
と、当然ながら小型の特化モデルが必要に
なってきます。しかし現在国産のモデルで
は10ビリオン以下の小型モデルは多いと
は言えず、今後ここのギャップを埋めて
いく必要があると感じています。まずは
国産で2ビリオンや4ビリオンの特化
モデルを充実させる必要があると感じて
おり、我々も今後取り組んでいくつもり
です。ここまで取り上げた課題に対応する
にはやはり多様なLMが必要なのではない
かというのが私の考えです。現在、え、
特化モデルが作りやすく再学が容易な
スモールランゲージモデルが注目されて
おります。え、今年NBIAさんが出され
たスールLangageModel
areザフutureofAgentic
AI。これはまさに、え、小型モデルの
効果性や実用性に重きを置いたものですし
、ジェマも、え、207270M
という脅異的な小型サイズのモデルを
リリースしております。これらの小型
モデルの登場によってタスクやドメインに
特化したモデルの複数運用というのも現実
的になってきたのではないかと感じており
ます。そして、え、ローカルモデル学習の
必要性も同時に高まっておる、高まって
いると感じておりまして、これまでに
培かった学中ナウハウの重要性が増して
いると考えております。ここで少し
ベンチマークの話に戻ってみたいと思い
ます。え、ベンチマークと言いますと、
スコアに注目が集まりがちですが、中身も
同じくらい重要です。当然1DBでは個別
の回答も掘り下げて分析することができ
ます。ベンチマークの中にはモデルの価値
観のようなものを問う問題がありまして、
え、こちらにピックアップしたのは私の
お気に入りのものなんですが、MTベンチ
のロールプレイのタスクでは宮崎という
人物を通してなぜ私たちにはアニメが必要
なのかという、え、哲学的でもある問いを
投げかけています。え、依頼ザタスクでは
次に読むべきSFという問題がありまして
、これは明確にモデルのマイベスト10を
聞いています。これもかなり東西のモデル
では回答に違いが出ます。え、最後の問題
も依頼ザTタスクからの生き物デザイナー
という問題です。え、これは暗目的に役に
立つ生き物を求めていますので、モデルが
何を重視するのかといった価値観を問う
側面が強い問題と言えます。こちらが、え
、生き物デザイナーで作られた生物を
イラスト化したものです。え、モデルごと
に背景や考え方が異なるって個性があり
ます。もちろんAIですので毎回同じ生物
を作ってくれるわけではありませんが、え
、複数回しているとやはり開発元によって
ある程度の傾向はあるなというのが見えて
きます。例えば、え、Googleの
モデルは既存の生物を改善してかつ
ちょっと光らせるのがお好きなようですし
、え、ク炎は環境の浄化に強い関心を持っ
ています。そしてこちらが、え、国産の
モデルが作ってくれた生物です。1番左
LLMJPはセンシングする昆虫という、
え、生物を作ってくれました。え、真ん中
のものはスナメリンのバージョン後に、え
、特定のコーパスで継続を継続学習を行っ
たものなのですが、え、環境保全災害対応
、医療支援というまさに日本の課題を反映
した生物を作り出してくれました。そして
1番右の砂メりVはなを何を考えたのか、
え、宇宙へ飛び出してしまいました。え、
宇宙へ情報を届ける生物ということなので
私たちの思いを反映してくれたのかもしれ
ません。こういった個性あるLLMやAI
の共同というのが多様な課題解決。引い手
は今後の文化の多様性への鍵になるという
風に感じております。最後に課題に対応
するからには当然、え、ベンチマークが
必要です。分タスクや他言語表の読み込み
能力、え、特定のタスクの解決能力、こう
今後こういった特定分野の日本語の
ベンチマークがどんどん必要になると考え
ております。CSIのモデル、
アプリケーション、そしてベンチマークと
いうのは常に評価と改善が必要なものです
。これは、え、外部のベンダーや研究開発
部門だけでは実現することができづない、
え、ユーザー得意先と、え、2人で
取り組むべき課題と捉えております。突販
ではこれらの課題を総合力で突破していき
たいと思います。最後に最も最近の私たち
の取り組みです。え、これからも新たな
課題に積極的に取り組む姿勢で様々な課題
を突破していきたいと思っております。ご
成聴ありがとうございました。[拍手]
At TOPPAN, alongside AI implementation aimed at business transformation, we are also engaged in the development of LLM and VLM. On-premises AI models are essential for meeting strict security requirements and diverse operational needs. This presentation will introduce, from a developer's perspective, the unique characteristics of each model revealed through evaluation and operation on W&B, as well as models suitable for AI agents. Based on real-world field experience, we will share the current state and future potential of generative AI development. -- TOPPANでは、ビジネス変革を目指したAI実装に加え、LLM・VLMの開発にも取り組んでいます。厳格なセキュリティや多様な業務ニーズへの対応には、オンプレミスで動作するAIモデルが不可欠です。本発表では、W&B上での評価・運用を通じて見えてきたモデルごとの個性や、AIエージェントに適したモデルについて開発者視点で紹介します。現場でのリアルな経験をもとに、生成AI開発の現在地と今後の可能性を共有します。