ローカルLLM実践入門

基本情報#

1
価格：2530円（本体2300円）　発行・発売日：2024年12月23日
2

3
◆自宅のパソコンで「CharGPT」のようなチャットAIサービスを動かす方法がわかります！
4

5
◆最初はGUIの操作だけで動かす方法を紹介するので、ローカルLLMがはじめてでも安心！
6

7
◆ローカルLLMをPythonのプログラムに組み込む方法がわかります！
8

9
◆ローカルLLMが生成した文章を「ずんだもん」に読み上げさせる方法がわかります！
10

11
◆ローカルLLMを快適に動かすためのパソコンを自作できます！
12

13
　「ChatGPT」のようなチャットAIサービスを手元のパソコンで動かす環境が整いつつあります。チャットAIサービスの頭脳とも呼ぶべき「LLM」（大規模言語モデル）が多数、公開されるようになったからです。本書では、これら公開されているLLMを手元のパソコンで動かし、活用する方法を解説しています。
14
　活用の手段として、本書では主にPythonのプログラムを利用しています。そう聞くと「Pythonのプログラマー向けか？」と思われるかもしれません。ご安心ください。本書はPythonを使ったことのない人でもローカルLLMを活用できるよう、Pythonの実行環境の導入方法なども含めて丁寧に解説しています。
15
　一つだけ注意点があります。現状は高性能なパソコンでなければ、ローカルLLMを快適には動かせないことです。特に高性能なグラフィックス機能を搭載しないパソコンでは、処理が終わるのに数十分も待たされたり、正しく動作しなかったりします。
16
　本書は7つの章で構成しています。第1章でローカルLLMの概要を解説した後、第2章以降で、実際に手元のパソコンでローカルLLMを動かす方法を解説しています。本書の解説とおりに手を動かしながら読み進めることで、ローカルLLMの動く仕組みと基本的な使い方、さらには活用法までを理解できる構成になっています。
17

18
【目次】
19

20
第1章　ローカルLLM［大規模言語モデル］の概要
21
　「LLM」には「クラウド型」と「ローカル型」があることを解説し、「ローカル型」のLLMである「ローカルLLM」を手元のパソコンで動かすのに必要なソフトウエアを紹介しています。
22

23
第2章　ローカルLLMをサクッと使える　ChatGPT風ツール「Jan」
24
　ローカルLLMを動かすためのソフトウエアとして「Jan」を紹介します。インストールから設定、利用まで、すべてGUIの操作だけで済むので、ローカルLLMがはじめてでも簡単に動かすことができます。
25

26
第3章　ローカルLLMを活用できる　コマンドラインツール「Ollama」
27
　ローカルLLMを動かすのに、コマンドラインを利用するソフトウエアとして「Ollama」を紹介します。基本的な使い方だけでなく、「LLMサーバー」として使う方法と、Pythonのプログラムに組み込んで使う方法も簡単に紹介しています。
28

29
第4章　ローカルLLMを活用（その1）　画像の内容を説明
30
　第4章から第6章は、主にローカルLLMをPythonのプログラムに組み込んで活用する方法を紹介します。第4章では、画像を読み込んで説明文を生成できる「マルチモーダル対応のLLM」を使う方法を紹介します。
31

32
第5章　ローカルLLMを活用（その2）　コードの作成を支援
33
　米Microsoftの「Visual Studio Code」などのテキストエディタにローカルLLMを組み込み、コードの作成を支援してもらう方法を解説します。実際に解説とおりに試すと、生成したコードを修正しなくても正常に動作することがわかります。
34

35
第6章　ローカルLLMを活用（その3）　LLM の回答を読み上げる
36
　ローカルLLMと音声読み上げライブラリ「「VOICEVOX CORE」を組み合わせ、ローカルLLMが生成した文章を、人気の読み上げキャラクターである「ずんだもん」の声で読み上げる方法を解説します。
37

38
第7章　ローカルLLMが快適に使える　最適なパソコンを自作しよう
39
　ローカルLLMが快適に動かせるパソコンのスペックと、お勧めのPCパーツを紹介します。パソコンの自作がはじめてでも、PCパーツの選び方や購入先などがわかります。
40

41
　なお、本書は第3章を除き、以下の日経BPが発行する専門誌の掲載記事を加筆修正する形で掲載しています。
42
第1章　日経ソフトウエア　2024年9月号　特集1
43
第2章　日経ソフトウエア　2024年9月号　特集1
44
第4章　日経ソフトウエア　2024年9月号　特集1
45
第5章　日経ソフトウエア　2025年1月号　特集1
46
第6章　日経ソフトウエア　2025年1月号　特集1
47
第7章　日経PC21　2024年12月号　特集

はじめに#

OpenAI が ChatGPT を公開したのは2022年11月のこと
生成AI：会話、ストーリー、画像、動画、音楽などの新しいコンテンツやアイデアを生み出すことのできる AI の一種
LLM(大規模言語モデル)：文書を生成するAIの中核となる技術
GoogleやMetaが高性能なLLMモデルを公開し始めたのでローカル環境で高性能なLLMを利用することができるようになった

✅ GoogleやMetaが自社LLMを公開した理由まとめ#

目的	説明
技術の普及	研究・教育・技術開発の加速。オープンなAI開発を促進。
ブランド強化	技術力のアピールや人材獲得。業界内での存在感を示す。
利用データ取得	実利用によるフィードバックでモデルを改善。偏りやバグの発見も可能。
エコシステム構築	他社に使わせて囲い込み。自社クラウドやプラットフォームの利用促進。
コスト削減	開発リソースを分散し、他者の改良を取り込むことで効率的に改善。
社会的責任	透明性の確保や規制対応。オープンにすることで責任あるAI開発を推進。

第1章　ローカルLLM［大規模言語モデル］の概要#

　「LLM」には「クラウド型」と「ローカル型」があることを解説し、「ローカル型」のLLMである「ローカルLLM」を手元のパソコンで動かすのに必要なソフトウエアを紹介しています。

ローカルLLMの一種
- MicrosoftCopilot
- Apple Intelligence
  - 情報漏洩の心配もなし
  - 従量課金の心配もなし
Pythonライブラリを利用すればWebUIも簡単に実装可能
- Chainlit
- Streamlit
AIチャットボットも構築可能
- Transforms
- Langchain
ローカルLLMのカスタマイズ
- RAG
- ファインチューニング

1.2 ローカルLLMに必要なファイル#

必要なファイルは２つ
- LLMファイル
  - インターネット上にある膨大なデータを学習したモデルファイル
  - ChatGPTのようなクラウド型のAIはクローズド型
  - インターネット公開されているものはオープン型のLLMファイル
    - HuggingFaceのModelsのウェブページから入手可能
    - https://huggingface.co/models
      - ファイルはGB単位で、一般的にサイズが大きいほど高性能なLLM
      - 日本語に強いLLMがあったり色々
    - LLM選択のポイント
      - gguf形式であること
      - パラメータ数
      - 量子化のビット数
        
        量子化・標本化について：https://joho-taisaku.com/sampling/
    - まとめ
      - パラメータ数と量子化のビット数が多いほど高性能なLLMだが、代わりにファイルサイズも巨大になるので、動かすには高性能なパソコンを用意しなければならない
      - 性能の低いパソコンをでLLMを動かしたいのであれば、パラメータ数と量子化ビット数が少ないLLMを選ぶ
    - LLM選定の３つのポイントはファイル名に含まれている
      - ELYZA-japanese-Llama-2-7b-q4_0.gguf
      - 7b:70億パラメータを示す billion
      - q4:量子化ビット数は4bitを示す、qはquantization(量子化)の略
      - gguf:ファイル形式
- LLMプラットフォームのソフトウェア
  - LLM実行環境と呼ばれるもの
  - 例）
    - Jan
    - Ollama
    - llama.cpp
    - Text-generation-webui
    - Backyard AI
    - LM Studio
    - NVIDIA ChatRTX
    - AI Toolkit for VS Code
  - これらのソフトでダウンロードしたLLMファイルを動かすことが可能

第2章　ローカルLLMをサクッと使える　ChatGPT風ツール「Jan」#

　ローカルLLMを動かすためのソフトウエアとして「Jan」を紹介します。インストールから設定、利用まで、すべてGUIの操作だけで済むので、ローカルLLMがはじめてでも簡単に動かすことができます。

2.1 ChatGPT風ツール「Jan」を導入する#

Jan: ローカル環境で大規模言語モデル（LLM）を簡単に実行できるオープンソースのプラットフォーム
- 👋のマークのLLMプラットフォーム
- たぶん、Janは人名でよく使われる名称で親しみを込めて命名されたのでは？という説
ここからインストール
- https://jan.ai
開くといろんなLLMモデルが表示されるが、タグがついていないのが、現在のマシンで推奨されるモデル
Llama 3.2 1B Instruct Q8
- 8bit量子化
- 10億パラメータ

2.2 Llama 3.2 とのチャットAIを試す#

前提
- Fugakuはスペック不足でインストールできなかったので、Llamaで試す
Jan起動
適当なChatを実施する
左下のサーバーボタンを選択し、StartServerでサーバ起動

1
from openai import OpenAI
2

3
client = OpenAI(base_url="http://127.0.0.1:1337/v1", api_key="dummy")
4

5
completion = client.chat.completions.create(
6
  # model="Fugaku-LLM-13B-instruct-Q4_0.gguf",
7
  # model="meta-llama/Llama-3.2-1B",
8
  model="llama3.2:1b",
9
  messages=[
10
    {"role": "system",
11
     "content": "あなたは親切なアシスタントです。"},
12
    {"role": "user",
13
     "content": "プログラミング言語を二つに分類すると、何と何になりますか？"}
14
  ])
15

16
print(completion.choices[0].message.content)

tempelatureの値を0に設定すると毎回ほぼ同じ解答になる
- ばらつきを示す
- 0.7がばらんすの取れた値とされている

1
from openai import OpenAI
2

3
client = OpenAI(base_url="http://127.0.0.1:1337/v1", api_key="dummy")
4

5
completion = client.chat.completions.create(
6
  temperature=0,
7
  # model="Fugaku-LLM-13B-instruct-Q4_0.gguf",
8
  # model="meta-llama/Llama-3.2-1B",
9
  model="llama3.2:1b",
10
  messages=[
11
    {"role": "system",
12
     "content": "あなたは親切なアシスタントです。"},
13
    {"role": "user",
14
     "content": "プログラミング言語を二つに分類すると、何と何になりますか？"}
15
  ])
16

17
print(completion.choices[0].message.content)

別PCからアクセス可能にするために、Server起動時に127.0.0.1のループバックアドレスではなく、0.0.0.0を指定する

Pythonダウンロードと設定#

1
brew install python@3
2
python3 -m venv ~/mypy
3
source ~/mypy/bin/activate
4
pip3 install openai
5
deactivate

2.5 チャットAIのWebサイトを構築#

PythonのOSSWebUIライブラリの「Chainlit」を使ってWebサイト構築
- Vscodeをインストール
- pip install chainlit
以下実行

1
from openai import AsyncOpenAI
2
import chainlit as cl
3

4
client = AsyncOpenAI(base_url="http://127.0.0.1:1337/v1", api_key="dummy")
5

6
@cl.on_message
7
async def on_message(input):
8
  completion = await client.chat.completions.create(
9
    # model="Fugaku-LLM-13B-instruct-Q4_0.gguf",
10
    model="llama3.2:1b",
11
    messages=[
12
      {"role": "system",
13
       "content": "あなたは親切なアシスタントです。"},
14
      {"role": "user",
15
       "content": input.content}])
16

17
  await cl.Message(content=completion.choices[0].message.content).send()

返答が少しずつ表示されるように改修

1
from openai import AsyncOpenAI
2
import chainlit as cl
3

4
client = AsyncOpenAI(base_url="http://127.0.0.1:1337/v1", api_key="dummy")
5

6
@cl.on_chat_start   # チャット開始時に実行される関数
7
def start_chat():
8
  # ユーザーセッションの変数"history"を設定する
9
  cl.user_session.set("history",
10
    [{"role": "system",   # "history"の初期値
11
      "content": "あなたは親切なアシスタントです。"}])
12

13
@cl.on_message   # ユーザーが質問文を送信したときに実行される関数
14
async def main(input):   # ユーザーの質問文は引数inputに格納される
15
  message = cl.Message(content="")   # メッセージを作成
16
  await message.send()               # メッセージを送信
17

18
  # ユーザーセッションの変数"history"を取得
19
  history = cl.user_session.get("history")
20
  # "history"にユーザーの質問文を追加
21
  history.append({"role": "user", "content": input.content})
22

23
  # LLMに変数"history"の内容を送る
24
  stream = await client.chat.completions.create(
25
    # model="Fugaku-LLM-13B-instruct-Q4_0.gguf",
26
    model="llama3.2:1b",
27
    messages=history,
28
    stream=True)   # ストリーミングをオンにする
29

30
  # LLMの返答を1トークンずつ表示
31
  async for part in stream:
32
    token = part.choices[0].delta.content
33
    if token != "":
34
      await message.stream_token(token)
35

36
  # "history"にLLMの返答を追加
37
  history.append({"role": "assistant", "content": message.content})
38
  await message.update()

休題#

ローカルLMMを手軽に試すには？
- ローカルLMMのスマホアプリ
  - 例
    - PocketPal
    - PricateLLM
    - LLM Farm

第3章　ローカルLLMを活用できる　コマンドラインツール「Ollama」#

　ローカルLLMを動かすのに、コマンドラインを利用するソフトウエアとして「Ollama」を紹介します。基本的な使い方だけでなく、「LLMサーバー」として使う方法と、Pythonのプログラムに組み込んで使う方法も簡単に紹介しています。

3.1 Ollamaの概要#

OllamaはJanと同じく、LLMプラットフォームで、ローカル環境でLLMを実行するためのOSSの１つ
- データが外部に送信されない
- オフラインでも実行可能
- 大規模言語モデルの推論を高速に実行するためのOSSライブラリである「llama.cpp」を実行基盤としている
- そのため、llama.cppで実行できる、「GGUF」形式のファイルをサポートしている
  - 「.safetensors」や「.pth」などのモデルファイル形式には対応していない

3.2 Ollamaのインストール#

Windowsの場合
- https://ollama.com/download
- こちらからインストール
Macの場合
- homebrewでインストール可能
- brew install --cask ollama
- 以下のコマンドを追加実行すると最新化できる
  - brew upgrade --cask ollama
  - pkill ollama
  - open -a Ollama
  - ollama --version

3.3 Ollamaの使い方#

ollama pullコマンドでモデル（LLMファイル）をダウンロードできる
- ダウンロード済みのモデルをアップデートするときにも使う
ollama runコマンドを実行することで動作させる

1
# モデル名を指定してダウンロード
2
ollama pull llama3.2
3
# ダウンロード済みのモデル自一項
4
ollama run llama2.3
5
# 正常に実行完了すると >>> で入力受付になるので対話形式で動かしてみる
6
# 対話形式で実行中に /? でヘルプ表示をすることも可能
7
# /bye で実行中のollama runコマンドを終了できる
8
# /load <model> でモデルを切り替えることができる

量子化でサイズを小さくしているモデルについての説明

3.4 Ollamaを深く知ろう#

発展的な使い方
- Ollamaのローカルサーバーにリクエストを送信する
- PythonのプログラムからOllamaを実行する
１）Ollaamaのローカルサーバーにリクエスト送信
- Ollamaを起動している間はローカルサーバー（JanのLLMサーバと同じ）が立ち上がっている
- ollama serve
- すでに立ち上がっていたらエラーが返る
  - Error: listen tcp 127.0.0.1:11434: bind: address already in use

1
# HTTP送信
2
curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "こんにちは"}'
3
# デフォルトだとStream形式で表示される
4

5
# Streamオフ
6
curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "こんにちは","stream": false}'

PythonのプログラムからOllamaを実行する
Ollamaインストール
pip install ollama

1
from ollama import Client
2
import json
3

4
client = Client()
5
response = client.chat(
6
    model="llama3.2", messages=[{"role": "user", "content": "こんにちは"}]
7
)
8

9
response = response.model_dump()
10
print(json.dumps(response, indent=2, ensure_ascii=False))

休題：　Llamaのポート番号について#

11434 は、LlamaのLeetであると言われている
Leetとは：類似の文字や読みの同じ文字を別の文字に置き換えて表現すること
- 有名なところだと toやforを、2や4に置き換えて表現するもの

第4章　ローカルLLMを活用（その1）　画像の内容を説明#

　第4章から第6章は、主にローカルLLMをPythonのプログラムに組み込んで活用する方法を紹介します。第4章では、画像を読み込んで説明文を生成できる「マルチモーダル対応のLLM」を使う方法を紹介します。

4.1 画像を読み込んで説明する#

LLMの中には文章だけではなく、画像も解釈できるものがあるいわゆる「マルチモーダル」に対応するLLM

例えば）
- llava-llama-3-8b-v1_1-ggufがそれに当たる
画像読み込んで処理させる説明は省略

第5章　ローカルLLMを活用（その2）　コードの作成を支援#

　米Microsoftの「Visual Studio Code」などのテキストエディタにローカルLLMを組み込み、コードの作成を支援してもらう方法を解説します。実際に解説とおりに試すと、生成したコードを修正しなくても正常に動作することがわかります。

5.1 VSCodeの拡張機能「Continue」#

ContinueはVSCodeにAI支援を追加する拡張機能
流れ
- VS Codeインストール：割愛
- OllamaとGemma2 2Bを導入
  - Googleが公開している「Gemma 2 2B」とGemma 2 2Bにコード生成させるためのソフトウェアである「Ollama」を導入
  - ollama pull gemma2:2b
  - ollama run gemma2:2b
- Python導入：割愛
- Continueを導入
  - http://localhost:11434/にアクセスしてOllama is running と表示されるかどうかを確認
  - VSCodeのプラグイン検索：Continue

5.2 MacOSとLinuxで使えるZedエディタ#

Zed: AI支援機能付きのエディタ

5.3 コマンドプロンプトで使える「Aider」#

コマンドプロンプトで対話しながら、LLMにプログラムの作成を依頼できるPythonで作られたツール

第6章　ローカルLLMを活用（その3）　LLM の回答を読み上げる#

　ローカルLLMと音声読み上げライブラリ「「VOICEVOX CORE」を組み合わせ、ローカルLLMが生成した文章を、人気の読み上げキャラクターである「ずんだもん」の声で読み上げる方法を解説します。

第7章　ローカルLLMが快適に使える　最適なパソコンを自作しよう#

　ローカルLLMが快適に動かせるパソコンのスペックと、お勧めのPCパーツを紹介します。パソコンの自作がはじめてでも、PCパーツの選び方や購入先などがわかります。

LLM動作環境の自作PC構成例について