メインコンテンツへスキップ
  1. 記事一覧/

ヴィクトリア朝時代のテキストで訓練されたAI言語モデル「Mr. Chatterbox」が登場

著者
Alicia
AI・IT・ハードウェアの最新ニュースを自動配信するテックブログです。
目次
サムネイル

ヴィクトリア朝時代限定のユニークなAI言語モデル
#

Trip Venturellaが開発した「Mr. Chatterbox」は、1837年から1899年に出版されたヴィクトリア朝時代の英国書籍のみで訓練された言語モデルです。このモデルは1899年以降のデータを一切使用せず、完全に19世紀の文学作品からボキャブラリーとアイデアを習得している点が特徴的です。

技術仕様とデータセット詳細
#

Mr. Chatterboxの訓練には、英国図書館が提供するデータセットから選別された28,035冊の書籍が使用されました。フィルタリング後の推定入力トークン数は29.3億トークンに達し、モデルのパラメータ数は約3.4億となっています。これはGPT-2-Mediumと同程度のサイズですが、決定的な違いは完全に歴史的データのみで訓練されている点です。

モデルサイズは2.05GBと、大規模言語モデルの基準では非常に軽量です。開発者はAndrej KarpathyのnanochatフレームワークとClaude CodeやGPT-4o-miniを活用して、対話型モデルとして機能するよう調整を行いました。

性能と実用性の課題
#

実際の使用感について、記事の著者は「マルコフ連鎖との会話に近い感覚」と表現しており、ヴィクトリア朝風の趣がある返答は得られるものの、質問に対する有用な回答を得ることは困難としています。

2022年のChinchilla論文によると、パラメータ数の20倍の訓練トークンが推奨されており、3.4億パラメータモデルの場合約70億トークンが理想的とされています。これは今回使用された英国図書館コーパスの2倍以上にあたり、有用な対話パートナーとして機能させるには4倍以上のデータが必要と推測されています。

著作権問題への新たなアプローチ
#

大量のスクレイプされた無許可データなしに有用な言語モデルを訓練することの困難さを考慮すると、このプロジェクトは著作権切れデータのみを使用した言語モデル開発の可能性を示す重要な実験といえます。

ローカル実行環境の提供
#

Mr. ChatterboxはLLMフレームワークを通じてローカル環境で実行可能です。llm-mrchatterboxプラグインをインストールすることで、個人のコンピュータ上で直接モデルを動作させることができます。初回実行時には2.05GBのモデルファイルがHugging Faceから自動的にダウンロードされます。

まとめ
#

Mr. Chatterboxは現時点では実用的な対話能力を持つとは言い難いものの、著作権切れデータのみを使用した言語モデル開発の先駆的な取り組みとして注目されます。今後、より大規模なパブリックドメインデータセットを活用することで、実用的なレベルに達する可能性があります。

筆者の見解: 著作権問題が深刻化するAI開発分野において、このような歴史的データに特化したアプローチは重要な意味を持つと考えられます。

出典: Mr. Chatterbox is a Victorian-era ethically trained model

関連記事

Google、2億パラメータの時系列基盤モデル「TimesFM」をオープンソース化

GoogleがTimesFMを公開 # Googleの研究部門であるGoogle Researchが、時系列予測のための基盤モデル「TimesFM(Time Series Foundation Model)」をGitHubでオープンソースとして公開しました。このモデルは2億パラメータを持ち、16,000のコンテキスト長に対応した事前訓練済みの時系列予測モデルです。

OllamaがApple Silicon向けMLX対応でプレビュー公開

AppleのMLXフレームワークでOllamaが高速化 # 2026年3月30日、Ollamaチームは、Apple Siliconデバイス向けにMLX(Appleの機械学習フレームワーク)を活用した最速版のOllamaプレビューをリリースしました。この新バージョンにより、macOS上での要求の高いAI作業が大幅に加速されることになります。

GitHubがCopilotのPR広告機能を撤回、開発者の批判を受けて

GitHubがCopilotの広告機能を緊急撤回 # GitHubは開発者からの強い批判を受けて、AI coding assistantであるCopilotがプルリクエスト(PR)に広告を挿入する機能を廃止すると発表しました。この機能は「tips」と呼ばれていましたが、開発者コミュニティから激しい反発を招いていました。

axios NPMパッケージが乗っ取り被害、RAT配布で深刻な供給網攻撃

概要 # 週間ダウンロード数1億回を超える人気JavaScriptライブラリaxiosのNPMパッケージが乗っ取られ、悪意のあるバージョン1.14.1と0.30.4が公開される事態が発生しました。StepSecurityが2026年3月30日に検出したこの攻撃は、極めて巧妙な手法でリモートアクセストロイ(RAT)を配布する、これまでに記録された中でも最も高度な供給網攻撃の一つとされています。

YC W26のRamAIn、企業向けコンピューター操作AIエージェント開発でAI/ML研究エンジニアを募集

Y Combinator W26バッチのRamAIn、AI研究エンジニア募集を開始 # Y Combinator Winter 2026バッチに参加するRamAInが、企業向けの超高速コンピューター操作AIエージェント開発のためのAI/ML研究エンジニアの募集を開始した。同社はサンフランシスコを拠点とし、企業の反復的で手作業によるワークフローの自動化を目指している。