ollama/convert/tokenizer.go

package convert

import (
	"crypto/sha256"
	"encoding/hex"
	"encoding/json"
	"errors"
	"fmt"
	"io/fs"
	"log/slog"
	"os"
	"slices"

	"golang.org/x/exp/maps"
)

const (
	_ int32 = iota
	tokenTypeNormal
	tokenTypeUnknown
	tokenTypeControl
	tokenTypeUserDefined
	tokenTypeUnused
	tokenTypeByte
)

type Tokenizer struct {
	*Vocabulary
	SpecialVocabulary []*SpecialVocabulary
	Merges            []string

	Pre      string
	Template string
}

func parseTokenizer(fsys fs.FS, specialTokenTypes []string) (*Tokenizer, error) {
	v, err := parseVocabulary(fsys)
	if err != nil {
		return nil, err
	}

	t := &Tokenizer{
		Vocabulary: v,
		Pre:        "default",
	}

	addedTokens := make(map[string]token)
	if f, err := fsys.Open("tokenizer.json"); errors.Is(err, os.ErrNotExist) {
	} else if err != nil {
		return nil, err
	} else {
		defer f.Close()

		var tt tokenizer
		if err := json.NewDecoder(f).Decode(&tt); err != nil {
			return nil, err
		}

		for _, t := range tt.AddedTokens {
			addedTokens[t.Content] = t
		}

		t.Merges = tt.Model.Merges

		sha256sum := sha256.New()
		for _, pt := range tt.PreTokenizer.PreTokenizers {
			switch pt.Type {
			case "Split":
				if pt.Pattern.Regex != "" {
					// create a checksum of all Split pretokenizers which should be sufficient
					// to identify the pretokenizer
					sha256sum.Write([]byte(pt.Pattern.Regex))
				}
			}
		}

		switch digest := hex.EncodeToString(sha256sum.Sum(nil)); digest {
		case "d98f9631be1e9607a9848c26c1f9eac1aa9fc21ac6ba82a2fc0741af9780a48f":
			t.Pre = "llama-bpe"
		case "03df5c5863ad70781dcfdef491ead25140f895fe8010964be0daefe27be32b02":
			t.Pre = "deepseek-llm"
		case "21cde974d587f0d54dc8d56b183cc1e6239600172035c68fbd6d4b9f8da0576e":
			t.Pre = "deepseek-coder"
		case "e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855":
			// noop, empty pretokenizer
		default:
			slog.Warn("unknown pretokenizer, using default", "digest", digest)
		}
	}

	if f, err := fsys.Open("tokenizer_config.json"); errors.Is(err, os.ErrNotExist) {
	} else if err != nil {
		return nil, err
	} else {
		defer f.Close()

		var p map[string]json.RawMessage
		if err := json.NewDecoder(f).Decode(&p); err != nil {
			return nil, err
		}

		if template, ok := p["chat_template"]; ok {
			if err := json.Unmarshal(template, &t.Template); err != nil {
				return nil, err
			}
		}

		for _, st := range specialTokenTypes {
			sv := SpecialVocabulary{Type: st}
			if bts, ok := p[fmt.Sprintf("add_%s_token", st)]; ok {
				if err := json.Unmarshal(bts, &sv.AddToken); err != nil {
					return nil, err
				}
			}

			if bts, ok := p[fmt.Sprintf("%s_token", st)]; ok {
				var content string
				if err := json.Unmarshal(bts, &content); err != nil {
					var mm map[string]any
					if err := json.Unmarshal(bts, &mm); err != nil {
						continue
					}

					content, ok = mm["content"].(string)
					if !ok {
						continue
					}
				}

				sv.Content = content
			}

			if id, ok := addedTokens[sv.Content]; ok {
				sv.ID = id.ID
				t.SpecialVocabulary = append(t.SpecialVocabulary, &sv)
			}
		}
	}

	return t, nil
}

type tokenizer struct {
	Version     string  `json:"version"`
	AddedTokens []token `json:"added_tokens"`
	Model       struct {
		Type   string         `json:"type"`
		Vocab  map[string]int `json:"vocab"`
		Merges []string       `json:"merges"`
	} `json:"model"`

	PreTokenizer struct {
		PreTokenizers []struct {
			Type    string `json:"type"`
			Pattern struct {
				Regex string `json:"Regex"`
			} `json:"pattern"`
		} `json:"pretokenizers"`
	} `json:"pre_tokenizer"`
}

type token struct {
	ID          int    `json:"id"`
	Content     string `json:"content"`
	Special     bool   `json:"special"`
	UserDefined bool
}

type Vocabulary struct {
	Model  string
	Tokens []string
	Scores []float32
	Types  []int32
}

func parseVocabularyFromTokenizer(fsys fs.FS) (*Vocabulary, error) {
	f, err := fsys.Open("tokenizer.json")
	if err != nil {
		return nil, err
	}
	defer f.Close()

	var t tokenizer
	if err := json.NewDecoder(f).Decode(&t); err != nil {
		return nil, err
	}

	tokens := make(map[int]token, len(t.Model.Vocab))
	for k, v := range t.Model.Vocab {
		tokens[v] = token{
			ID:      v,
			Content: k,
		}
	}

	for _, token := range t.AddedTokens {
		token.UserDefined = true
		tokens[token.ID] = token
	}

	keys := maps.Keys(tokens)
	slices.Sort(keys)

	v := Vocabulary{Model: "gpt2"}
	for _, k := range keys {
		token := tokens[k]
		v.Tokens = append(v.Tokens, token.Content)
		v.Scores = append(v.Scores, float32(token.ID))

		switch {
		case token.Special:
			v.Types = append(v.Types, tokenTypeControl)
		case token.UserDefined:
			v.Types = append(v.Types, tokenTypeUserDefined)
		default:
			v.Types = append(v.Types, tokenTypeNormal)
		}
	}

	return &v, nil
}

func parseVocabulary(fsys fs.FS) (*Vocabulary, error) {
	patterns := []struct {
		Pattern string
		Func    func(fs.FS) (*Vocabulary, error)
	}{
		{"tokenizer.model", parseSentencePiece},
		{"tokenizer.json", parseVocabularyFromTokenizer},
	}

	for _, pattern := range patterns {
		if _, err := fs.Stat(fsys, pattern.Pattern); errors.Is(err, os.ErrNotExist) {
			continue
		} else if err != nil {
			return nil, err
		}

		return pattern.Func(fsys)
	}

	return nil, errors.New("unknown tensor format")
}

type SpecialVocabulary struct {
	Type     string
	ID       int
	Content  string
	AddToken bool
}

func (sv SpecialVocabulary) Key() string {
	switch t := sv.Type; t {
	case "bos", "eos", "cls", "mask":
		return t
	case "unk":
		return "unknown"
	case "sep":
		//nolint:misspell // this is an upstream typo
		return "seperator"
	case "pad":
		return "padding"
	}

	panic("unknown special vocabulary type")
}
add missing file 2024-05-08 23:56:18 +00:00			`package convert`

			`import (`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`"crypto/sha256"`
refactor convert 2024-06-01 03:00:49 +00:00			`"encoding/hex"`
add missing file 2024-05-08 23:56:18 +00:00			`"encoding/json"`
refactor convert 2024-06-01 03:00:49 +00:00			`"errors"`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`"fmt"`
convert: only extract large files 2024-06-29 23:53:59 +00:00			`"io/fs"`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`"log/slog"`
add missing file 2024-05-08 23:56:18 +00:00			`"os"`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`"slices"`
bert 2024-06-06 15:59:04 +00:00
			`"golang.org/x/exp/maps"`
refactor convert 2024-06-01 03:00:49 +00:00			`)`
bpe pretokenizer 2024-05-15 18:53:14 +00:00
refactor convert 2024-06-01 03:00:49 +00:00			`const (`
			`_ int32 = iota`
			`tokenTypeNormal`
			`tokenTypeUnknown`
			`tokenTypeControl`
			`tokenTypeUserDefined`
			`tokenTypeUnused`
			`tokenTypeByte`
add missing file 2024-05-08 23:56:18 +00:00			`)`

			`type Tokenizer struct {`
refactor convert 2024-06-01 03:00:49 +00:00			`*Vocabulary`
			`SpecialVocabulary []*SpecialVocabulary`
			`Merges []string`

			`Pre string`
			`Template string`
			`}`

convert: only extract large files 2024-06-29 23:53:59 +00:00			`func parseTokenizer(fsys fs.FS, specialTokenTypes []string) (*Tokenizer, error) {`
			`v, err := parseVocabulary(fsys)`
refactor convert 2024-06-01 03:00:49 +00:00			`if err != nil {`
			`return nil, err`
			`}`

			`t := &Tokenizer{`
			`Vocabulary: v,`
			`Pre: "default",`
			`}`

			`addedTokens := make(map[string]token)`
convert: only extract large files 2024-06-29 23:53:59 +00:00			`if f, err := fsys.Open("tokenizer.json"); errors.Is(err, os.ErrNotExist) {`
refactor convert 2024-06-01 03:00:49 +00:00			`} else if err != nil {`
			`return nil, err`
			`} else {`
			`defer f.Close()`

			`var tt tokenizer`
			`if err := json.NewDecoder(f).Decode(&tt); err != nil {`
			`return nil, err`
			`}`

			`for _, t := range tt.AddedTokens {`
			`addedTokens[t.Content] = t`
			`}`

			`t.Merges = tt.Model.Merges`

			`sha256sum := sha256.New()`
			`for _, pt := range tt.PreTokenizer.PreTokenizers {`
			`switch pt.Type {`
			`case "Split":`
			`if pt.Pattern.Regex != "" {`
comments 2024-07-08 23:59:48 +00:00			`// create a checksum of all Split pretokenizers which should be sufficient`
			`// to identify the pretokenizer`
refactor convert 2024-06-01 03:00:49 +00:00			`sha256sum.Write([]byte(pt.Pattern.Regex))`
			`}`
			`}`
			`}`

			`switch digest := hex.EncodeToString(sha256sum.Sum(nil)); digest {`
			`case "d98f9631be1e9607a9848c26c1f9eac1aa9fc21ac6ba82a2fc0741af9780a48f":`
			`t.Pre = "llama-bpe"`
			`case "03df5c5863ad70781dcfdef491ead25140f895fe8010964be0daefe27be32b02":`
			`t.Pre = "deepseek-llm"`
			`case "21cde974d587f0d54dc8d56b183cc1e6239600172035c68fbd6d4b9f8da0576e":`
			`t.Pre = "deepseek-coder"`
			`case "e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855":`
			`// noop, empty pretokenizer`
			`default:`
			`slog.Warn("unknown pretokenizer, using default", "digest", digest)`
			`}`
			`}`

convert: only extract large files 2024-06-29 23:53:59 +00:00			`if f, err := fsys.Open("tokenizer_config.json"); errors.Is(err, os.ErrNotExist) {`
refactor convert 2024-06-01 03:00:49 +00:00			`} else if err != nil {`
			`return nil, err`
			`} else {`
			`defer f.Close()`

			`var p map[string]json.RawMessage`
			`if err := json.NewDecoder(f).Decode(&p); err != nil {`
			`return nil, err`
			`}`

			`if template, ok := p["chat_template"]; ok {`
			`if err := json.Unmarshal(template, &t.Template); err != nil {`
			`return nil, err`
			`}`
			`}`

comments 2024-07-08 23:59:48 +00:00			`for _, st := range specialTokenTypes {`
refactor convert 2024-06-01 03:00:49 +00:00			`sv := SpecialVocabulary{Type: st}`
			`if bts, ok := p[fmt.Sprintf("add_%s_token", st)]; ok {`
			`if err := json.Unmarshal(bts, &sv.AddToken); err != nil {`
			`return nil, err`
			`}`
			`}`

			`if bts, ok := p[fmt.Sprintf("%s_token", st)]; ok {`
			`var content string`
			`if err := json.Unmarshal(bts, &content); err != nil {`
			`var mm map[string]any`
			`if err := json.Unmarshal(bts, &mm); err != nil {`
			`continue`
			`}`

			`content, ok = mm["content"].(string)`
			`if !ok {`
			`continue`
			`}`
			`}`

			`sv.Content = content`
			`}`

			`if id, ok := addedTokens[sv.Content]; ok {`
			`sv.ID = id.ID`
			`t.SpecialVocabulary = append(t.SpecialVocabulary, &sv)`
			`}`
			`}`
			`}`

			`return t, nil`
			`}`

			`type tokenizer struct {`
			Version string `json:"version"`
			AddedTokens []token `json:"added_tokens"`
			`Model struct {`
			Type string `json:"type"`
			Vocab map[string]int `json:"vocab"`
			Merges []string `json:"merges"`
			} `json:"model"`
bpe pretokenizer 2024-05-15 18:53:14 +00:00
			`PreTokenizer struct {`
chore: update tokenizer.go (#4571) PreTokenziers -> PreTokenizers 2024-05-22 07:25:23 +00:00			`PreTokenizers []struct {`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			Type string `json:"type"`
			`Pattern struct {`
			Regex string `json:"Regex"`
			} `json:"pattern"`
			} `json:"pretokenizers"`
			} `json:"pre_tokenizer"`
add missing file 2024-05-08 23:56:18 +00:00			`}`

refactor convert 2024-06-01 03:00:49 +00:00			`type token struct {`
add missing file 2024-05-08 23:56:18 +00:00			ID int `json:"id"`
			Content string `json:"content"`
			Special bool `json:"special"`
			`UserDefined bool`
			`}`

refactor convert 2024-06-01 03:00:49 +00:00			`type Vocabulary struct {`
			`Model string`
			`Tokens []string`
			`Scores []float32`
			`Types []int32`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`}`
add missing file 2024-05-08 23:56:18 +00:00
convert: only extract large files 2024-06-29 23:53:59 +00:00			`func parseVocabularyFromTokenizer(fsys fs.FS) (*Vocabulary, error) {`
			`f, err := fsys.Open("tokenizer.json")`
add missing file 2024-05-08 23:56:18 +00:00			`if err != nil {`
refactor convert 2024-06-01 03:00:49 +00:00			`return nil, err`
add missing file 2024-05-08 23:56:18 +00:00			`}`
			`defer f.Close()`

refactor convert 2024-06-01 03:00:49 +00:00			`var t tokenizer`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`if err := json.NewDecoder(f).Decode(&t); err != nil {`
refactor convert 2024-06-01 03:00:49 +00:00			`return nil, err`
add missing file 2024-05-08 23:56:18 +00:00			`}`

bert 2024-06-06 15:59:04 +00:00			`tokens := make(map[int]token, len(t.Model.Vocab))`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`for k, v := range t.Model.Vocab {`
bert 2024-06-06 15:59:04 +00:00			`tokens[v] = token{`
refactor convert 2024-06-01 03:00:49 +00:00			`ID: v,`
			`Content: k,`
bert 2024-06-06 15:59:04 +00:00			`}`
add missing file 2024-05-08 23:56:18 +00:00			`}`

bert 2024-06-06 15:59:04 +00:00			`for _, token := range t.AddedTokens {`
			`token.UserDefined = true`
			`tokens[token.ID] = token`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`}`
add missing file 2024-05-08 23:56:18 +00:00
bert 2024-06-06 15:59:04 +00:00			`keys := maps.Keys(tokens)`
			`slices.Sort(keys)`
refactor convert 2024-06-01 03:00:49 +00:00
			`v := Vocabulary{Model: "gpt2"}`
bert 2024-06-06 15:59:04 +00:00			`for _, k := range keys {`
			`token := tokens[k]`
			`v.Tokens = append(v.Tokens, token.Content)`
			`v.Scores = append(v.Scores, float32(token.ID))`
refactor convert 2024-06-01 03:00:49 +00:00
			`switch {`
bert 2024-06-06 15:59:04 +00:00			`case token.Special:`
refactor convert 2024-06-01 03:00:49 +00:00			`v.Types = append(v.Types, tokenTypeControl)`
bert 2024-06-06 15:59:04 +00:00			`case token.UserDefined:`
refactor convert 2024-06-01 03:00:49 +00:00			`v.Types = append(v.Types, tokenTypeUserDefined)`
			`default:`
			`v.Types = append(v.Types, tokenTypeNormal)`
bpe pretokenizer 2024-05-15 18:53:14 +00:00			`}`
add missing file 2024-05-08 23:56:18 +00:00			`}`

refactor convert 2024-06-01 03:00:49 +00:00			`return &v, nil`
			`}`

convert: only extract large files 2024-06-29 23:53:59 +00:00			`func parseVocabulary(fsys fs.FS) (*Vocabulary, error) {`
convert: fix parse functions 2024-07-31 22:39:11 +00:00			`patterns := []struct {`
			`Pattern string`
			`Func func(fs.FS) (*Vocabulary, error)`
			`}{`
			`{"tokenizer.model", parseSentencePiece},`
			`{"tokenizer.json", parseVocabularyFromTokenizer},`
refactor convert 2024-06-01 03:00:49 +00:00			`}`

convert: fix parse functions 2024-07-31 22:39:11 +00:00			`for _, pattern := range patterns {`
			`if _, err := fs.Stat(fsys, pattern.Pattern); errors.Is(err, os.ErrNotExist) {`
comments 2024-07-08 23:59:48 +00:00			`continue`
			`} else if err != nil {`
refactor convert 2024-06-01 03:00:49 +00:00			`return nil, err`
			`}`

convert: fix parse functions 2024-07-31 22:39:11 +00:00			`return pattern.Func(fsys)`
refactor convert 2024-06-01 03:00:49 +00:00			`}`

			`return nil, errors.New("unknown tensor format")`
			`}`

			`type SpecialVocabulary struct {`
			`Type string`
			`ID int`
			`Content string`
			`AddToken bool`
			`}`

			`func (sv SpecialVocabulary) Key() string {`
			`switch t := sv.Type; t {`
			`case "bos", "eos", "cls", "mask":`
			`return t`
			`case "unk":`
			`return "unknown"`
			`case "sep":`
			`//nolint:misspell // this is an upstream typo`
			`return "seperator"`
			`case "pad":`
			`return "padding"`
add missing file 2024-05-08 23:56:18 +00:00			`}`

refactor convert 2024-06-01 03:00:49 +00:00			`panic("unknown special vocabulary type")`
add missing file 2024-05-08 23:56:18 +00:00			`}`