HarborによるAIエージェントの性能評価

今回はAIエージェントを評価・ベンチマークするためのフレームワークであるHarborを紹介します。 公式サイト: Harbor GitHub: harbor-framework/harbor: Harbor is a framework for running agent evaluations and creating and using RL environments. ※ 注意点として、同じAI関連のプロジェクトにav/harborという同名のツールがありますが、こちらはOllamaやOp…

CHI2024論文読み: 画像生成AIは人間の創造性に悪い影響を与えるのか

今年5月に催されたCHI 2024の論文をAIに要約してもらってたくさん読んでいたのですが、要約ばかりも味気ないですし、少し気になった論文を深堀りして紹介しようかと。今年のCHIはやはり生成AI関連の論文が多いですが、生成AIはChatGPTなど一般の人にも身近になってきているので、内容も直感的にも分かりやすいものが多い印象でした。 The Effects of Generative AI on Design Fixation and Divergent Thinking 「生成AIのデザインの…

LLMをゼロからトレーニングするためのベストプラクティスの紹介

機械学習関連技術の一つであるMLOpsプラットフォームを提供するWeights & Biases Japan株式会社(以下W&B社)は大規模言語モデル(LLM)の開発や、既存モデルのカスタマイズ活用を検討している企業向けホワイトペーパーの日本語版を5/9に公開しました。 無料ホワイトペーパー: 「LLMをゼロからトレーニングするためのベストプラクティス」 まずW&B社の紹介として、同社が提供するWeights & Biases(社名と同名、以下wandb)…