Bing chat rozwiązuje testy ze znajomości polskiego prawa

Jak wypada Bing chat, gdy dajemy pytania dotyczące różnych dziedzin polskiego prawa? Zaskakująco źle! Zrobiłem mini test.

Zadałem Bing czatowi kilkadziesiąt pytań z prawa karnego, z kodeksu drogowego i z testu na urzędnika służby cywilnej. Sprawdziłem odpowiedzi w kluczy odpowiedzi.


W dwóch różnych testach z prawa karnego Bing chat odpowiadał: 4 dobrze/3 źle a potem 3 dobrze/5 źle. Testy znalazłem na TEST Z KODEKSU KARNEGO | sameQuizy oraz na Test: Elementy prawa karnego / Memorizer. Słaby wynik m.in z tego powodu, że przywoływał wyrywkowo brzmienie artykułów i paragrafów zamiast ze zrozumieniem.
Zadałem Bing czatowi pytanie dotyczące treści ustawy „Prawo o ruchu drogowym”. Na 10 pytań źle odpowiedział na 3. Pytania zadawałem na podstawie Prawo o ruchu drogowym. – Dz.U.2022.988 t.j. – OpenLEX. Jeśli sięgał wprost do tej strony, to odpowiadał dobrze. Jeśli sięgał do innych źródeł, wtedy odpowiadał źle.
Na stronie Test demo – Urzednik.Arslege.pl Bing czat poprawnie odpowiedział na połowę pytań w teście na urzędnika służby cywilnej: 5/5. Poprawnie odpowiadał, gdy na pytanie testowe dało się odpowiedzieć sięgając do treści Konstytucji. Jeśli sięgał do Wikipedii, wtedy źle interpretował jej tekst.

Załóżmy, że ten test faktycznie ilustruje niesprawność czat bota po polsku i nie jest to przypadek lub kiepska jakość pytań. Bardzo jestem ciekaw czy kolejne aktualizacje Binga poprawią jakość odpowiedzi na ten typ pytań. Jakie są możliwe przyczyny niskiej skuteczności odpowiedzi w tych testach? Bing czat nie był trenowany na takich tekstach, a jeśli był trenowany, to sami trenerzy nie mieli kompetencji w tym zakresie.

GPT-4 należący do Open AI poprawnie rozwiązał testy z egzaminu adwokackiego we wszystkich 50 stanach Ameryki i to na poziomie 90%, gdzie do zdania wystarczy wynik ok. 60%. Portal WIRED przewiduje, że z powodu tej sprawności amerykańskie sądy zalane zostaną sprawami wnoszonymi przez ludzi, którzy sami i bez wynajmowania prawniczek/prawników będą dochodzić sprawiedliwości. W większości spraw cywilnych przed amerykańskimi sądami co najmniej jedna strona nie ma prawnej reprezentacji, czyli ludzie sami się reprezentują. Ten trend dzięki modelom GPT może się umocnić, ale nie one go wywołały.

Wygląda na to, że z powodu niesprawności czatów GPT w języku polskim dostaniemy więcej czasu na przygotowanie się do tej rewolucji, zanim nadejdzie do nas. Czy skorzystamy z tego darowanego czasu, to już inna sprawa.