flax_extra.data package¶

Data processing modules and functions.

class flax_extra.data.BytesTokenizer(reserved_ids: Mapping[str, int])[source]¶

Bases: object

Tokenizer mapping text strings to their UTF-8 bytes.

pad(inputs: jax._src.numpy.lax_numpy.ndarray, max_length: int) → jax._src.numpy.lax_numpy.ndarray[source]¶

Pads the sequence up to desired length.

Parameters

Returns

a padded sequence.

to_ids(tokens: AnyStr) → jax._src.numpy.lax_numpy.ndarray[source]¶

Maps UTF-8 bytes to text characters.

to_tokens(ids: jax._src.numpy.lax_numpy.ndarray) → str[source]¶

Maps text characters to UTF-8 bytes.

flax_extra.data.bytes_tokenizer(reserved_tokens: List[str]) → flax_extra.data._bytes_tokenizer.BytesTokenizer[source]¶

Creates a tokenizer mapping text strings to their UTF-8 bytes.