Spichlerz języka polskiego

Zgromadzili kilka milionów tekstów w języku polskim, prawie 260 GB danych i przed nimi jeszcze 3 x tyle. Chodzi im o to, żeby sztuczna inteligencja mogła komunikować się dobrze po polsku. Jeśli nie będzie takich narzędzi pracujących sprawnie po polsku, polskie firmy i polska gospodarka będą niekonkurencyjne wobec firm i gospodarek używających sztucznej inteligencji.
Projekt nazywa się Spichlerz a po angielsku fonetycznie podobna nazwa to Speak Leash.

Rozmawiałem z Sebastianem Kondrackim z firmy Deviniti, który jest jednym założycieli Spichlerza i opowiedział mi o tym projekcie.
Zespół Spichlerza pracuje na zasadzie wolontariatu. Teksty w Spichlerzu albo są na otwartej licencji albo prawa do nich zostały przekazane do tego zasobu. Wszystkie dane w zasobie są oznaczone, skategoryzowane i wiadomo skąd pochodzą i kto ma do nich prawa autorskie. Spichlerz zawarł również porozumienia z paroma polskimi ośrodkami naukowymi i otrzymał teksty z ich baz (PAN, sieć Łukasiewicz).
Celem zebranie jest 1 TB danych, które potem będą przekazywane (open-source) firmom czy instytucjom, które chcą wytrenować modele językowe sztucznej inteligencji. Chcą m.in. przekazać dane na platformę Hugging Face, która upowszechnia dane oraz wiedzę dotyczącą AI. Dostęp do danych Spichlerza będzie otwarty a użytkowanie w przyszłości może być zarówno niekomercyjne jak i komercyjne.

https://twitter.com/Speak_Leash/status/1648408596399398915?s=20

Mając dane ze Spichlerza (wszystkie lub niektóre) można trenować modele sztucznej inteligencji np. wyspecjalizowane pod kątem medycznym czy prawnym czy innym.
https://speakleash.streamlit.app/