投稿

7月, 2023の投稿を表示しています

QEUR23_LLMDSS5: 高品質データセット(ja)を、より「高品質」に(3分の1)

イメージ
~ やっと「3分の1(5k)」が終わった ~ ・・・ 前回のつづきです ・・・ QEU:FOUNDER : “前回はDollyデータセットの持つ欠陥について話ました。今回は、そのデータをどのように「力業」で改善したのかを紹介しましょう。” C部長 : “これはDeepLによる機械翻訳の修正ですよね?” D先生 : “いやいや、修正に当たっては、かなりの工夫をしています。私もずいぶん苦労しました。単純作業だが、なにしろ量がねぇ。例えば・・・。” C部長 : “なんだ・・・。単に翻訳プロンプトの情報をいれただけですよね?” D先生 : “本来は、このような翻訳情報を入れなくてもLLMは翻訳のための学習をしてくれるんですよ。それを敢えて翻訳の学習プロンプトを追加したということは・・・。” QEU:FOUNDER : “今回は 多言語の単語間の一致性を極度に上げてみたい と思っています。英語は「BOOK」、日本語は「本」、中国語は「書」・・・。これらは、本来、トークン変換(言語情報をベクトル情報に変換)するとバラバラなベクトルになるものを、この作業を通じて(ベクトルを)ムリヤリに関連付けさせるんです。そういえば、このJSON表示プログラムの紹介をしていなかった。プログラムをドン!!” 以下の仕様に基づいて 、 Pythonプログラムを作成してください 。 / n / n ``` 仕様 / n - JSONファイル 「 'databricks-dolly-15k-ja.json」を読み込む/n - JSONファイルには以下の項目がある / n "index" , "instruction" , "input" , "output" , "category" : / n - JSONファイルで読み込んだ情報をTkinterで1レコード毎に表示する / n - Tkinterのカンバスの大きさは ( ヨコ ) 800 x ( タテ ) 400 とする / n - カンバスに表示する項目は 、 上から順番に以下のようにすること 。 各項目はFrameの中に入れること / n "index...

QEUR23_LLMDSS4: 高品質データセット(ja)の現状

イメージ
~ 手間がかかって、もう・・・ ~ ・・・ 前回のつづきです ・・・ C部長 : “これ(↓)、一応は日本語なんだけど・・・。Dollyって、もともとは英語のコーパスじゃないの?” QEU:FOUNDER : “とある奇特な方が「ディープL」を使って日本語化したんです。そこら辺の話はあとにしましょう。今回、話をしたいのはコレ(↓)!!” C部長 : “とうとう天下のMS様も低パラメタかつ高品質データセットのモデルをリリースしましたね。考えてみれば、高品質のデータセットができればパラメタが少なくとも良い結果がでるのは当たり前のことなんだが・・・。” QEU:FOUNDER : “噂によると、GPT-4のパラメタ数は1兆を超えるらしいね。そして、このPhi-1モデルはたった13億・・・。GPTって、統計のいうところの 「大数の法則」 でよいパフォーマンスが出ているが、実際には無駄が多いんでしょうね。そのムダが「ハルシネーション(幻覚)」となって表れているという・・・。ちょっと、話題を変えてDollyデータセット(ja版)のお粗末な中身を見てみましょう。要するに、一言でいえば 「QAになっていない」 んだよね・・・。” D先生 : “ははは・・・。Qが「城島」でAが「キャッスルアイランド」・・・。” QEU:FOUNDER : “QA別々にディープL翻訳をしているので、翻訳にズレが発生しているんです。こんなエラーは山ほどあります。これを修正しないと、まともに使えるデータセットになりません。” D先生 : “すんません。J語がダメダメで・・・(笑)。” QEU:FOUNDER : “そうでもないよ。このDolly データセットはうたい文句こそ 「高品質」 と言っているが、ひとつひとつ見てみるとかなりひどい出来です。その理由は、そのデータセットが作られた経緯にあります。従業員1500人にQAを作ってもらって、それを取りまとめて15kにしたんだよね。それが、データの偏りに出て来ています。この会社の社員さんはゲームがとてもお好きなようです(笑)。ついでに最高のサッカー選手の質問が数回でてきます。あとは虹の色、空が青いのはなぜとか・・・。” D先生 : “データセットを作った人も、話題を規定させずに皆に適当に質問させたでしょうし・・・。また、社...