QEUR23_LMQSWS0: INTRODUCTION~実際に使ってみたいね、世界のLLM・・・
~ J国に残された最後の財産は「言葉」・・・ ~
・・・ FOUNDERは、またまた、そしてまた気が変わり ・・・・
QEU:FOUNDER : “さらに大規模言語モデル(LLM)に首を突っ込んで遊んでみましょうか・・・。”
D先生 : “またもや方向転換ですか?まあ、QEUシステムとしては方向性(↓)に合っていれば、なんでもありですよ。もう、好きにして・・・(笑)。”
QEU:FOUNDER : “最近は、大規模言語モデル(LLM)も民主化が進んで、ついにモデル毎の客観的な評価もできてきたんです。そこで、実際に「我々の言葉」を入れるときが来たのかなと思って・・・。”
(ランキング)
C部長: “あたりまえ前ながら、GPT-4がトップなんだけど、LlaMA系の小さなモデルもイイセンをだしています。それでも、GPT-3.5には少し負けるか・・・。”
QEU:FOUNDER : “そりゃあ、当たり前に負けますよ。投入した「資源(パラメタ数とデータセット量)」が全然違うんだし・・・。それでも、小生に言わせれば、自分の欲しい出力を出したいときにはカスタマイズができないGPTじゃあ、全然だめなんだよね・・・。”
D先生 : “ブログの生成実験をしてみて、モデルのもつ情報量の少なさがよくわかりました。う~ん・・・。あのモデルの中の情報は巨大なんですが、自分が欲しいピンポイントの情報は入っていません。”
QEU:FOUNDER : “そこで、ドリー(Dolly)さんに注目しました。”
QEU:FOUNDER: “ちょっと年齢の高い方には、このドリーという名前には聞き覚えがあるでしょ?それにしても、LLMの技術もオープン化が進みましたね。このモデルの特に有名な部分は、その「特有のデータセット」です。15000件という、非常に少ないFine-tune用データセットでも、すごいパフォーマンスがでるそうです。”
C部長: “いったい、どんな「秘密」が!?”
D先生 : “あの・・・。わかりにくいです。”
QEU:FOUNDER : “とある方が、このデータを機械翻訳で日本語訳をしました。これで、少しはわかりやすくなったでしょ?”
D先生 : “あれ?これって、本家OpenAIの学習方法とは違います。かれらのやり方は、たしか「
QEU:FOUNDER : “だからこそ、これは立派なイノベーションなんですよ。LLMの世界ではロジックやプログラミングだけがイノベーションじゃないです。そこで、我々は、LLMに「さらに新しいイノベーション」を織り込みたい。”
C部長: “おっと、これは面白い・・・。”
QEU:FOUNDER : “それでは、「イノベーションのタネ」をドン・・・。”
(title) 常体(joutai)とは
(original)
- (keitai) 「だ・である調」は常体と呼ばれ、敬語を用いない普通の文章様式とされています。 文章を断定調にすることにより、より説得力のある文章になるのが特徴です。 そのため、正しい事実や強い意思を伝える際に適しています。 日本でたまに見られる「悪文」には、自己流に漢字をつなげて長句にされる例もみられます。それらは、LLMのトークン学習に負担をかけるため日本語のテキストの学習精度を下げる理由の一つであるとも考えられます。
(title) 敬体(keitai)とは
(original)
- (keitai) 「です・ます調」は敬体と呼ばれ、文字通り「です」「ます」で終了する文体です。相手に語りかけるような文章になるため、読みやすく親しみやすい文章になるのが特徴です。そのため、会話を文字にするのに適しています。QEUシステムでは、LLM(大型言語モデル)におけるコーパス定義の負担を減らすために、体言止めをなくす、主語を加える、適度に前置詞を追加するなどの作業も加えます。
- (title)
砕けた口調とは
(original)
- (keitai) 格式ばらずに、より平易で日常的な言葉を用いた表現です。 多くの場合、俗っぽい感じや親しみやすい雰囲気を醸しだします。 砕けた口調は、イレギュラーな表現が多く、LLMとデータセットが巨大な事例は別として、安易な学習は良くないと思います。
D先生 : “ぜんぜん、いってる訳がわかりません。これがイノベーション!?”
QEU:FOUNDER : “じゃあ、世界最大の情報源であるWikiから例題をとってきましょう。以下のように言語データは加工されて、LLMに学習されていきます。”
(title) メコン川
(original)
(常体-joutai) メコン川(Mekong River)は中華人民共和国南西部に源流を発し、東南アジア5カ国を流れる国際河川である。東南アジアで最長、アジア全体でも7番目に長い大河である。 メコン川はチベット高原に源流を発し、中国の雲南省を通り、ミャンマー・ラオス国境、タイ・ラオス国境、カンボジア、ベトナムをおよそ4200 kmにわたって流れ、南シナ海に注ぎ込む、東南アジアで最長の河川である。雨期には流量が増し流れが速いため、船の運航は非常に難しい。 乾期には流量は減るものの、浅瀬が増えるため船の運航が難しい。流域諸国が集まって協議するメコン川委員会で、メコン川の土砂を除去して貿易路に使おうとの案が出されたものの、土砂を除去しても、すぐに土砂が堆積するため、この計画は頓挫した。なお、タイ、ラオス、ミャンマー、カンボジア、ベトナムの本流・支流周辺では、日用品の取引などの小規模な貿易が行われている。なお、河口付近はメコンデルタと呼ばれ、ベトナムの米生産量の半分以上を占める農漁業地帯である。
(summary)
(常体-joutai) 中華人民共和国南西部に源流を発するメコン川は、東南アジア5カ国を流れる国際河川で、アジア全体でも7番目に長い大河である。雲南省、ミャンマー・ラオス国境、タイ・ラオス国境、カンボジア、ベトナムを流れ、南シナ海に注いでいる。船の運航が非常に難しいため、流域諸国が協議するメコン川委員会で、メコン川の土砂除去案が出されたものの、この計画は頓挫した。メコンデルタは、ベトナムの米生産量の半分以上を占める農漁業地帯である。周辺には、小規模な貿易が行われている。
(敬体-keitai) 中華人民共和国の南西部に源流を発するメコン川は東南アジアの5カ国を流れる国際的な河川であり、アジア全体でも7番目に長い大河です。雲南省、ミャンマーとラオスの国境、タイとラオスの国境、カンボジア、ベトナムを流れて、南シナ海に注いでいます。船の運航が非常に難しいため、流域の諸国が協議するメコン川委員会で、メコン川の土砂を除去する案が出されたものの、この計画は頓挫しました。メコンデルタは、ベトナムの米の生産量の半分以上を占める農漁業の地帯です。周辺には小規模な貿易が行われています。
C部長: “原文が要約されていますね。Wikiの文体が常体(だ・である調)になっていますが、要約した後も常体です。それが敬体(です・ます調)に変換されています。”
D先生 : “あれ?敬体は単純な「調」の変換じゃないですよ、コレ・・・。”
(常体) 東南アジア5カ国を流れる国際河川で、
(敬体) 東南アジアの5カ国を流れる国際的な河川であり、
(常体) 雲南省、ミャンマー・ラオス国境、タイ・ラオス国境、
(敬体) ミャンマーとラオスの国境、タイとラオスの国境、
QEU:FOUNDER : “敬体とはいっても、「QEU敬体」ですから・・・(笑)。LLMが常体の文を学習したときにはトークン(token)化に負担がかかるんですよ。つまり、まともに言語的な作業を動作させるには、より多くの資源(パラメタ、データセット)が必要になります。QEU敬体では、それ(資源)が最小化されます。”
D先生 : “う~ん・・・。そういうことか・・・。つまり、こういう考え方ね。”
- (いままでの考え方)
様々な文体(常、敬、口) → 言語的な作業
- (QEUシステムのLLMに対する考え方)
様々な文体(常、敬、口) → 文体を揃える(敬体) → 言語的な作業
QEU:FOUNDER : “言っておくけど、資源が豊富な場合には関係ないかもね。我々は自分のためのLLMが欲しいというのがぜんていです。さて、この方法の最も大きなメリットは、「外国語の学習が楽になる」ことです。”
D先生 : “なるほど。LLMの言語のトークン化からみると、日本語の本来の構造って「世界中のすべての国の言語の中心」にありますよね。”
- ヨーロッパ語族 VS 中国語 → トークン化の差異が大きい
- ヨーロッパ語族 VS 日本語 → トークン化の差異が小さい
QEU:FOUNDER : “中国語は韓国語や日本語と同じく英語のような「分かち書き」がありません。それはトークン化学習時においてLLMに大きな負担を与えます。・・・でも、日本語は助詞がトークン化に有効に作用するので、その点は楽なんですよ。今度は中国語との比較を見てみましょう。”
- 中国語 VS 常体(日本語) → トークン化の差異が大きい
- 中国語 VS 敬体(日本語) → トークン化の差異が小さい
D先生 : “日本語の場合、特にWikiの文章などでは、たくさんの漢字と並べる「造語(ex東京特許許可局)」が使われています。あのような造語は、かえってLLMシステムには余計な負担になります。”
C部長: “そうであるなら、QEU敬体によって「東京の特許を許可する局」と変換すると、LLMさんの仕事はむしろ楽になります。まあ、見た目は全然ちがうが、この特性は韓国語やベトナム語でも同じでしょうね。でも、FOUNDER、なぜこんな変な考え方を思いついたんですか?「変な(考え方)」は余計(笑)?”
QEU:FOUNDER : “それは、(世界)歴史のブログ(↑)を書きたかったからです。特に世界史って、戦争があった場合にA国から見た解釈とB国からみた解釈は全く違うよね。それらの異なる言語の情報を、すべてLLMに投入させて思い通りにブログを書いてみたい。”
D先生 : “「第一次世界大戦について、イギリスの立場からブログを書け」、「第一次世界大戦について、日本の立場からブログを書け」ということが、あらゆる角度から自由自在にできなければいけないですね。これは技術のハードルが高い・・・。”
QEU:FOUNDER : “このような困難な作業は、意外と英語中心のモデルでは無理じゃないかな?むしろ、日本語の方が向いているかもしれない。こういうことをやっているから、最近、小生はホントに時間がないんだ。是非、カンパをください・・・。”
>寄付のお願い(click here)<
D先生 : “現代ではデータ(セット)こそが最大のイノベーションなんですね。”
~ まとめ ~
C部長 : “あの・・・。「AIでブログを作る」って、あまりイケていないんでしょ?”
QEU:FOUNDER : “まれにいい仕事をすることがあるよ。特に、コレ(↓)にはおどろいた・・・。”
C部長 : “アマチュアリズム!?”
ポスト資本主義では、情報技術の進歩、知識と情報の共有、そしてアマチュアリズムの登場などが含まれます。さらに、ネットワーク社会が形成され、人々はインターネットを通じてリアルタイムで情報を共有しています。これらの変化は、従来の資本主義的な個人やグループによる生産手段の所有という概念に挑戦しています。アマチュアリズムと共有文化の普及により、新しいビジネスモデルや文化を形成することが可能になります。ただし、生産手段の共有には知的財産権などの多くの問題がありますが、ポスト資本主義はこのような問題を克服するために新しい社会システムを確立することが期待されています。
QEU:FOUNDER : “YOUTUBEなんかは、昔ではプロが作ったような動画をアマチュアが作っているでしょ?さらに、彼らは自分が作りたいモノを作っているので、作品には創造性があります。”
C部長 : “この考え方は合理的ですね。これが、「新しい何某」なんですね”
コメント
コメントを投稿