QEUR23_LLMDSS10: 閑話休題~databricks(15k)のデータセットの改造と分割

~ データ?small is best? ~ QEU:FOUNDER : “最近、ブログのリリース速度が落ちてきているなあ・・・。しようがない、LLM(大規模言語モデル)の宿命だが・・・。” (QEUプロジェクトの3件とは?) (1)世界の中心にある日本語: 常体文と敬体文の情報を学習に使って、日本語のトークンをきめ細かくコントロールする (2)世界平和のためのLLM: 歴史の見方を(立場によって)多面化させる (3)「user-llm」をシステムとした、feedbackシステムの構築 D先生 : “プロジェクトがさらに複雑になっていますからね。今回も、前回につづいて「猫(の飼い方)データセット」の解説ですか?” QEU:FOUNDER : “まあ、今回の件は 「Huggingface」にデータセットをアップロード しました。・・・結局、言いたいことはこれだけなんだけどね(笑)。「facebookページを立ち上げました!」みたいで恐縮です。” D先生 : “あれ?例のdatabricks(15k、日本語版)についてもアップしたんですか?” QEU:FOUNDER : “ただし、内容がかなり変わっています。” D先生 : “もともと、このデータセットって15kのサイズでしたよね。なんで、内容を追加して16kにしたんですか?さらに、それを4分割にして・・・。” QEU:FOUNDER : “LLMについては、時間と共に知見が追加されていろいろな思いが交錯するが・・・。我々のfinetuning(FT)の第一歩としては、学習データを大きくしたくないんですよ。Jeremy Howard(JH)の話「↑」を見ても、「学習データを工夫するとFT学習が速くなる」ことがありそうだともいうし・・・。” C部長 : “学習データのサイズを小さくすると、学習が速くなる。そんなもん当たり前じゃないですか?” QEU:FOUNDER : “「学習データが少ないとFT処理が速い」ことは当たり前ですよね。さて・・・、ちょっと小生の話を聞いてください。JHは、とあるkaggleのコンペでLLMを学習したらこんな曲線を得て、びっくりしたらしいです。 1エポック(学習データを一通り処理した)ごとに、学習損失が一気に下がったらしい。 ” D先生 : “こんな曲線は見た...