QEUR23_LLMDSS11: 閑話休題~「へんてこ」なデータセットを晒そう・・・
~ 一見、無茶なデータセットの正体は? ~
QEU:FOUNDER : “ブログのリリース速度が落ちてきている「秋」・・・。もう、しようがない。これは、LLM(大規模言語モデル)の宿命・・・。”
(QEUプロジェクトの「LLM3大テーマ」とは?)
- (1) 世界の中心にある日本語: 常体文と敬体文の情報を学習に使って、日本語のトークンをきめ細かくコントロールする
- (2) 世界平和のためのLLM: 歴史の見方を(立場によって)多面化させる
- (3) 「user-llm」をシステムとした、feedbackシステムの構築
D先生 : “今回は、前回に引き続いて、さらに「データセット(Dataset:DS)を晒す」というの話でしたよね。”
D先生 : “・・・でコレなの?なんか、「3点セット」で学習させようというヘンテコなやり方ですねえ・・・。”
QEU:FOUNDER : “今回、huggingfaceにアップしたのは「初期化用」データセットだけだよ。前回の繰り返しになるけど、LLMにおける「認識」と「記憶」の話からやりましょうか・・・。”
D先生 : “これは私から説明します。汎用関数当てはめ器であるディープラーニングの発足の当初から「認識」という考え方がありました。その認識の良さというのが損失関数の滑らかさに現れるんですよね。でも、「記憶」という発想は生成AIから発生したものです。1つのLLMのファインチューニングのために複数のデータセットをシリアルにつなげるというアイデアは、「(DSの情報を)記憶」という点では禁じ手ではあるが、「認識(能力の向上)」という点ではアリじゃないかと・・・。”
QEU:FOUNDER : “「解説の代打」ありがと・・・(笑)。ちょっとDSの中身を見てみましょう。”
C部長 : “これは知っていますよ。QEUシステムでは日本語の文章を「常体」と「敬体」に分けるんですよね。”
QEU:FOUNDER : “この「初期化データセット」は、常体を中国語にリンクさせ、敬体を英語にリンクさせるための準備をするんです。”
C部長 : “このDSは10エポックしか学習させないんでしょ?”
QEU:FOUNDER : “LLMに対して、「ノリ」をわからせればOKです。この学習データの内容がLLMの記憶から消えてしまっても、大いに結構!!”
D先生 : “こんな考え方(↓)ですね(笑)?”
QEU:FOUNDER : “すばらしい!!それでは、もうちょっと本件を「深堀り」しましょうか・・・。”
C部長 : “うわー!なんと、「カキクケコ(カタカナ)」もデータにしたんですか?国名もデータ化するのも、意外でした・・・。”
QEU:FOUNDER : “カタカナの言葉(外来語)が言語のトークン化のネックになっていますからね。あと、国が変わると言語が変わるんだから、LLMが国名を事前に正しく理解するのは「最低限の教養」でしょ?・・・で、もっとすごいのがコレ(↓)・・・。”
D先生 : “うわー!!「漢字一文字」単位をQ&Aプロンプトにしたんですか?日本語と中国語(簡体、繁体)漢字の違いって、「ノリ」でわからんのか? “
QEU:FOUNDER : “もしも~し・・・、D先生・・・。漢字の画像(形状)の類似性は「人間が見ている情報」であり、LLMは「ベクトル」で把握しています。だから、「日本語のベクトル=中国語のベクトル」という情報が一旦わかれば、日本語LLMが中国語のコーパスを理解するのはとても簡単になるはずなんです。”
C部長 : “なるほどねえ・・・。でも、なんで料理のデータを追加したんですか?これは、あまりにも「普通」ですよね?”
QEU:FOUNDER : “はっきり言って、このデータは当面はいらないです。必要ならば、計算処理の速度を上げるために消しても良いですよ。これは、さらなる発展への「プロビジョン(provision)」です。「食は国境を超える」はずですから・・・。英国でインド料理のブログがあるのは普通だし、アメリカでフランス料理の紹介記事があるのは普通でしょ?ただし、このデータはもうちょっと「工夫」が必要だとは思っています。”
D先生 : “この「初期化」データセットを10エポックだけ学習させたとして、次はdatabricksのQEU改訂版データセットを使って学習させるんですよね。”
QEU:FOUNDER : “「初期化データセット」をある程度学習したあとで、databricks(QEU)改訂版を学習するというのは、結構、納得できない?D先生、いかが?”
D先生 : “まあね。「小学校を卒業して、中学生になりました」みたいな・・・。じゃあ、つづいて「本当に学習(記憶)させたいデータセット」の話に移りましょう。”
QEU:FOUNDER : “今回は特別に、つづく「まとめ」の中で、引き続きディスカッションしましょう。”
~ まとめ ~
C部長 : “さてと、この「まとめ」コーナーの主催者はボクなんですが、今回は本文の延長線なんですよね。”
QEU:FOUNDER : “技術的な内容を半分、雑談半分で行きたいんです。コレ(↑)を見ながら・・・。”
D先生 : “おっと、あの「R国にやたら詳しいオッサン」の登場ですね!! “
QEU:FOUNDER : “あくまで小生のプランだが、この関連のデータを使うつもりです。”
D先生 : “ああ・・・、そうか・・・。この人はブログを多く描いていますね。有料もありますが、U国がらみは無料でリリースされています。 “
QEU:FOUNDER : “これをプロンプトに変換し、学習データを作成しました。我々のLLM開発の目標の一つは「世界平和のためのLLM」ですからね・・・(笑)。さらに付け加えると、この人の文章はとてもうまく構造化されており、プロンプトに分解するのはかなり楽なんです。”
C部長 : “ああ・・・、面白そうだなあ・・・。ボクもやってみたい。”
QEU:FOUNDER : “自分で学習データを作ってください。このデータは外部公開しません。IP(intellectual property)の制約です。このDSでお金を稼ぐつもりは全くないが、このように独創性のあるデータを小生が自分勝手にリリースはできないです。”
D先生 : “私も自分なりのLLMをつくりたいです。こっそり、私に譲ってもらえますか?”
QEU:FOUNDER : “いやです!烏賀陽弘道先生(↑)に連絡して、パブリック・リリースの了解をとってください。「全面公開可」と言ってくれたら、小生もリリースしますよ。彼の名著「フェイクニュースの見分け方」を団体購入すれば許してくれるかもね。”
D先生 : “そうだ!!いいことを思いつきました。”
QEU:FOUNDER : “なに?柄に合わない大声を出して・・・。”
D先生 : “今回開発するLLM(大規模言語モデル)を使って、「フェイクニュース検出器」をつくれませんか?”
QEU:FOUNDER : “面白いアイデアだけど、できるかなあ・・・。”
D先生 : “もし予測に失敗すると? “
QEU:FOUNDER : “思いっきり「炎上」します・・・(笑)。”
コメント
コメントを投稿