QEUR23_LLMDSS5: 高品質データセット(ja)を、より「高品質」に(3分の1)

~ やっと「3分の1(5k)」が終わった ~ ・・・ 前回のつづきです ・・・ QEU:FOUNDER : “前回はDollyデータセットの持つ欠陥について話ました。今回は、そのデータをどのように「力業」で改善したのかを紹介しましょう。” C部長 : “これはDeepLによる機械翻訳の修正ですよね?” D先生 : “いやいや、修正に当たっては、かなりの工夫をしています。私もずいぶん苦労しました。単純作業だが、なにしろ量がねぇ。例えば・・・。” C部長 : “なんだ・・・。単に翻訳プロンプトの情報をいれただけですよね?” D先生 : “本来は、このような翻訳情報を入れなくてもLLMは翻訳のための学習をしてくれるんですよ。それを敢えて翻訳の学習プロンプトを追加したということは・・・。” QEU:FOUNDER : “今回は 多言語の単語間の一致性を極度に上げてみたい と思っています。英語は「BOOK」、日本語は「本」、中国語は「書」・・・。これらは、本来、トークン変換(言語情報をベクトル情報に変換)するとバラバラなベクトルになるものを、この作業を通じて(ベクトルを)ムリヤリに関連付けさせるんです。そういえば、このJSON表示プログラムの紹介をしていなかった。プログラムをドン!!” 以下の仕様に基づいて 、 Pythonプログラムを作成してください 。 / n / n ``` 仕様 / n - JSONファイル 「 'databricks-dolly-15k-ja.json」を読み込む/n - JSONファイルには以下の項目がある / n "index" , "instruction" , "input" , "output" , "category" : / n - JSONファイルで読み込んだ情報をTkinterで1レコード毎に表示する / n - Tkinterのカンバスの大きさは ( ヨコ ) 800 x ( タテ ) 400 とする / n - カンバスに表示する項目は 、 上から順番に以下のようにすること 。 各項目はFrameの中に入れること / n "index...