Czat GPT4 rozpoznaje trudność tekstu i upływ czasu

Published by

on

Duże Modele Językowe trafnie oceniać poziom trudności tekstu. To przydatna funkcja w edukacji, w marketingu czy w dziennikarstwie. Eksperyment dowiódł, że dla języka angielskiego ta funkcja faktycznie działa b. skutecznie. Sean Trott, wykładowca statystyki na Uniwersytecie Kalifornijskim w San Diego, kazał czatowi GPT przeczytać 4724 fragmenty tekstów i podać liczbę od 1 do 100, która opisuje stopień czytelności tekstu. Wyniki pomiarów były bardzo mocno skorelowane z ludzkimi ocenami. Bardzo zachęcam do przeczytania jego wpisu na blogu Counterfactual.

Źródło: DALL-E

Teksty, które Trott podał czatowi pochodziły z niedawno opublikowanego (2023) korpusu opisanych tekstów CLEAR. Każdy tekst w tym zestawie został oceniony przez ponad 1000 nauczycieli i nauczycielek angielskiego. Każdorazowo ludzie dostawali dwa teksty do porównania. Mieli wybrać, który jest łatwiejszy do przeczytania. Na koniec każdy tekst dostał wyliczoną ocenę, która odzwierciedlała częstość z jaką otrzymywał ocenę „łatwiejszy”/”trudniejszy”.

Krótko mówiąc, Trott powtórzył badanie, które wykonali ludzie, ale tym razem zrobił to z czatem GPT4. Wynik? Silny dodatni. Współczynnik korelacji Pearsona wyniósł 0.76. W tym pomiarze 1 oznaczałoby zupełną korelację, -1 oznaczałoby ujemną korelację. Czat lepiej niż inne znane metody ocenił czytelność tekstów, najbardziej zbliżając się do ocen przyznanych przez ludzi.

Duże modele językowe (LLMy) bywają prześmiewczo i pogardliwie nazywane mechanicznymi papugami albo stochastycznymi papugami. Jednak ze względu na olbrzymie ilości tekstów, na podstawie których zostały powstały oraz ze względu na b. dużą liczbę działań matematycznych na tych tekstach, te modele pozwalają uzyskać automatyczny wgląd w język na zadziwiającym poziomie.

Czat GPT4 potrafi dość sprawnie ocenić upływ czasu w tekście literackim. Opisany jest tu wraz z pomysłowym promptem, czyli poleceniem: https://tedunderwood.com/2023/03/19/using-gpt-4-to-measure-the-passage-of-time-in-fiction/. Przykładowo: dajemy czatowi fragment tekstu czy książki i pytamy, ile minut czy dni trwało opisywane zdarzenie – oczywiście, pod warunkiem, że tej informacji nie ma wprost w tekście.

Jeśli dać tekst do oceny ludziom, to ludzie zgadzają się ze sobą bardzo często w ocenie czasu – współczynnik korelacji Pearsona 0.74.
Czat GPT4 zgadza się z ludźmi tylko nieco rzadziej w tym zadaniu: r=0.68, ale w dalszym ciągu to silna korelacja a zatem trafna ocena czasu.
Od razu zacytujmy pomysłowego prompta, który kazał czatowi oceniać czas w tekście:

Read the following passage of fiction. Then do five things.

1: Briefly summarize the passage.
2: Reason step by step to decide how much time is described in the passage. If the passage doesn’t include any explicit reference to time, you can guess how much time the events described would have taken. Even description can imply the passage of time by describing the earlier history of people or buildings. But characters’ references to the past or future in spoken dialogue should not count as time that passed in the scene. Report the time using units of years, weeks, days, hours, or minutes. Do not say zero or N/A.
3: If you described a range of possible times in step 2 take the midpoint of the range. Then multiply to convert the units into minutes.
4: Report only the number of minutes elapsed, which should match the number in step 3. Do not reply N/A.
5: Given the amount of speculation required in step 2, describe your certainty about the estimate–either high, moderate, or low.
The passage follows:

Źródło: https://tedunderwood.com/2023/03/19/using-gpt-4-to-measure-the-passage-of-time-in-fiction/

Tak jak pojawiła się już psychologia sztucznej inteligencji, tak samo jest już lingwistyka sztucznej inteligencji. W zależności od perspektywy, te subdyscypliny mogą zajmować się albo samą sztuczną inteligencją, albo mogą używać sztucznej inteligencji do opisywania języka lub zjawisk psychologicznych. Spotkałem się ocenami, że gdyby teraz firma OpenAI przestała rozwijać czata GPT4, to i tak kilku następnych lat nie starczyłoby na rozpoznanie w pełni jego możliwości.

Natomiast to oznacza też, że wydziały nauk o języku czy o literaturze albo wydziały dziennikarstwa zapewne powinny za jakiś czas otrzymać dobrej jakości modele językowe do prowadzenia zautomatyzowanych badań tekstów i języka – w języku wykładowym (u nas: polski).