NLP tooling / 2025

Crimson Tokenizer

Tokenizator BPE trenowany na korpusie polskich tekstów datasetu SpeakLeash.

Bez AIEnd-to-end delivery

BPETokenizerPolish NLP

Kod źródłowy

EraBez AI

ZakresNLP tooling

Stack2 obszary

DowódPubliczny kod

Case study

Od problemu do działającego systemu.

01 / Kontekst

Problem do rozwiązania

Modele językowe zaczynają się od danych i tokenizacji. Chciałem zrozumieć ten etap praktycznie.

02 / Rozwiązanie

Co zbudowałem

Tokenizator BPE trenowany na polskim korpusie tekstowym.

03 / Podejście

Architektura

Projekt skupia się na etapie przygotowania reprezentacji tekstu, który poprzedza trening modeli.

04 / Odpowiedzialność

Moja rola

Przygotowanie eksperymentu i praca z mechaniką tokenizacji.

Najtrudniejsze fragmenty

To są miejsca, gdzie projekt naprawdę testował myślenie.

01
Praca z korpusem tekstowym i polskim językiem.
02
Zrozumienie BPE jako mechanizmu, nie buzzwordu.

Co to udowadnia

Rozumiem, że AI/ML to nie tylko gotowe API.

Projekt zbudowany ręcznie przed erą powszechnego AI-assisted codingu. Pokazuje samodzielne rozumienie problemu, debugowanie i dowożenie bez gotowych odpowiedzi z narzędzi AI.

Następny krok

Masz podobny problem do dowiezienia?

Napisz krótko, co chcesz zbudować. Najpierw uporządkuję problem, potem zaproponuję sensowną architekturę i pierwszy działający zakres.

Napisz email