投稿

6月, 2023の投稿を表示しています

QEUR23_LLMDSS3: 世界平和のためのデータセット開発の考え方

イメージ
~ 目標は「ノーベル平和賞」!! ~ D先生 : “最近は、ブログによるプロジェクト進捗の報告頻度がずいぶん少なくなりました。でも、い・・・、いいんですよ、それで・・・。目標に「ブレ」がなければ・・・。” QEU:FOUNDER : “今は面白くって、ブログ報告どころじゃないって感じです。目標といえば、最近は少しずれちゃったかな。 現在の目標は「世界平和」です。 ” D先生 : “は?” QEU:FOUNDER : “お恥ずかしながら、プロジェクトの作業の中で知らないことがたくさん出てくるんです。それが逆に面白くって・・・。D先生、この話(↓)を知ってた?” (title) コンゴ自由国 (original) (joutai) コンゴ自由国(フランス語:État indépendant du Congo、Kongo-Vrijstaat)は、かつてアフリカのザイール川流域に存在した国である。国と称しているが、実態はベルギー国王レオポルド2世の私領地であった。植民地時代を経て、のちにコンゴ共和国(後のコンゴ民主共和国)として独立を果たした。 ベルギー国王レオポルド2世はスタンリーにザイール川流域を探検させる。国王の支援による探検だったためその成果は国王に帰属し、国王は1882年に「コンゴ国際協会」に委託支配させ、1885年のベルリン会議では公式に国王の私領地になった。 国王の私領となったコンゴ自由国では耕作地も全てが国王の所有となり、住民は象牙やゴムの採集を強制された。 規定の量に到達できないと手足を切断する という残虐な刑罰が容赦なく科され、前代未聞の圧制と搾取が行われていた。コンゴ自由国の自由国とは、「住民が自由な国」という意味ではなく、自由貿易の国という意味の英語(Congo Free State)であり、公用語であるフランス語における正式国号はコンゴ独立国であった。 当時は多かれ少なかれ抑圧的な植民地政策が行われていた欧米列強各国からも、人道主義の立場に基づく非難が殺到した。特にイギリスは領事に実態調査を行わせている。またジャーナリストのエドモンド・モレルが「赤いゴム」という著作で、手足を切り落とす過酷な刑罰の下でのゴム採集の実情を白日のもとにさらけ出した。 国際社会の非難の声はますます高まり、国王の恣意的な暴政にベルギー政府も黙って...

QEUR23_LLMDSS1: 閑話休題~データセットの開発はいろいろタイヘン(前編)

イメージ
~ 苦あれば、楽ある? ~ D先生 : “我々がやろうとしているのがミニLLM(大規模言語モデル)なんだが、それでも大変な規模ですね。今回の予備実験(!)で作成したブログだけでも、かなりの数量になりました。” QEU:FOUNDER : “まあ、これでも全然、量が少ないですよ。ちなみに学習データ採取を客観的( バイアスなし )に、全方位的にやろうとなると、こういうやり方がいちばんいいからね。ちょっと気を抜くとハルシネーション(hallucination)が起きちゃうから・・・。” D先生 : “ ハルシネーション って、なんでしたっけ・・・。” (title) 人工知能の幻覚 (ハルシネーション) (original)  (joutai) 人工知能(AI)の幻覚(hallucination、ハルシネーション)は人工知能が学習したデータからは正当化できないはずの回答を堂々とする現象である。例えば、テスラの収益に関する知識がないチャットボットがこの現象に陥ると、もっともらしいと判断したランダムな数字(130.6億ドルのような)を内部的にピックアップして、間違っているにもかかわらずテスラの収益は130.6億ドルだと繰り返すようになる。そしてこのとき、人工知能の内部ではこの数字が自身の創造の産物だということに気付いている兆候がみられない。 こうした現象は精神医学における人間の幻覚とのアナロジーからその名が付けられている。ただし人間にとっての幻覚は「対象なき知覚」とも呼ばれ、感覚器官を通じて知覚している「対象が存在しないにもかかわらず真の知覚と区別できない知覚体験をすること」が一般的な定義とされる。それに対して人工知能の幻覚とは、どのような学習データとも整合しない回答をAIが堂々とすることである。 (summary)  (joutai) 人 工知能(AI)においての幻覚とは、学習したデータからは正当化できない回答を堂々とする現象である。例えば、テスラの収益に関する知識がないチャットボットがこの現象に陥ると、もっともらしいと判断したランダムな数字を内部的にピックアップして発言するようになる。このような幻覚は、人間の幻覚と類似しているが「対象なき知覚」であることと異なり、どのような学習データとも整合しない回答をAI...

QEUR23_LMQSWS0: INTRODUCTION~実際に使ってみたいね、世界のLLM・・・

イメージ
~ J国に残された最後の財産は「言葉」・・・ ~ ・・・ FOUNDERは、またまた、そしてまた気が変わり ・・・・ QEU:FOUNDER : “さらに大規模言語モデル(LLM)に首を突っ込んで遊んでみましょうか・・・。” D先生 : “またもや方向転換ですか?まあ、QEUシステムとしては方向性(↓)に合っていれば、なんでもありですよ。もう、好きにして・・・(笑)。” QEU:FOUNDER : “最近は、大規模言語モデル(LLM)も民主化が進んで、ついにモデル毎の客観的な評価もできてきたんです。そこで、実際に「我々の言葉」を入れるときが来たのかなと思って・・・。” (ランキング) C部長: “あたりまえ前ながら、GPT-4がトップなんだけど、LlaMA系の小さなモデルもイイセンをだしています。それでも、GPT-3.5には少し負けるか・・・。” QEU:FOUNDER : “そりゃあ、当たり前に負けますよ。 投入した「資源(パラメタ数とデータセット量)」が全然違う んだし・・・。それでも、小生に言わせれば、自分の欲しい出力を出したいときにはカスタマイズができないGPTじゃあ、全然だめなんだよね・・・。” D先生 : “ブログの生成実験をしてみて、モデルのもつ情報量の少なさがよくわかりました。う~ん・・・。あのモデルの中の情報は巨大なんですが、自分が欲しいピンポイントの情報は入っていません。” QEU:FOUNDER : “そこで、 ドリー(Dolly) さんに注目しました。” QEU:FOUNDER: “ちょっと年齢の高い方には、このドリーという名前には聞き覚えがあるでしょ?それにしても、LLMの技術もオープン化が進みましたね。このモデルの特に有名な部分は、その「特有のデータセット」です。15000件という、非常に少ないFine-tune用データセットでも、すごいパフォーマンスがでるそうです。” C部長: “いったい、どんな 「秘密」 が!?” D先生 : “あの・・・。わかりにくいです。” QEU:FOUNDER : “とある方が、このデータを機械翻訳で日本語訳をしました。これで、少しはわかりやすくなったでしょ?” D先生 : “あれ?これって、本家OpenAIの学習方法とは違います。かれらの...