Automat używający AI do pisania notek na media społecznościowe

Stworzyłem nieskomplikowany mechanizm do automatycznej publikacji notek w social-mediach.

Zespół czatbotów, czyli agentów AI, który automatycznie generuje i publikuje notki w social mediach. Brzmi jak marzenie każdego ‚influencera’ ~~(i lenia)~~, prawda? W rzeczywistości jednak wymagało to zaskakująco sporo pracy, godzin spędzonych na analizowaniu filmików instruktażowych (lista źródeł na dole wpisu) oraz testowania różnych rozwiązań.

Koszty finansowe? Do tej pory wydałem około 5 dolarów (ok. 20 złotych). Tyle wyniosło mnie testowanie pracy czatbotów, z których korzystam poprzez API, czyli interfejs, który pozwala różnym programom na komunikowanie się ze sobą. Wiele usług AI, takich jak generowanie tekstów, dźwięków czy obrazów, dostępnych jest właśnie poprzez API, co oznacza, że możemy je w łatwy sposób integrować z innymi narzędziami. Oczywiście taki dostęp do AI często jest płatny, chociaż są wyjątki. W moim przypadku czatboty „rozmawiały” ze sobą kilkaset razy, a ja obserwowałem ich pracę i poprawiałem polecenia, gdy efekty nie były satysfakcjonujące.

Automatyczny system publikacji uruchamiam w poniedziałek 16.09 – będzie on publikował wpisy na koncie Rewolucja AI na Facebooku a parę dni później również LinkedIn (link). Jednak nie wszystko na tych kontach będzie publikowane automatycznie.

Wybrałem do tego specyficzną kategorię postów: wpisy informujące o ciekawych tekstach prasowych na temat AI, które przeczytałem i polecam. Traktuję to jako mini-eksperyment i jest pewne, że mój zespół agentów AI popełni wiele błędów. Niektóre teksty będą dziwne albo niezręczne, ale wszystkie automatycznie generowane wpisy będą wyraźnie oznaczone. Chodzi o to, żeby poprawiać i sprawdzać w jaki sposób technologia może działać lepiej.

Posty automatyzuję, gdyż zdecydowałem się na prostą i powtarzalną formę tych wpisów. Każdy artykuł zostaje rozłożony na kilka pytań a przepływ odpowiada na te pytania, szukając informacji w tekście. Ściśle określona forma notek pozwala efektywniej kontrolować pracę czatbotów.

Jeśli forma byłaby swobodna, wtedy paradoksalnie instrukcje musiałyby być dużo obszerniejsze.
Im bardziej obszerne byłyby instrukcje dla czata, tym bardziej musiałyby być podzielone na więcej agentów. Im bardziej złożony byłby proces, tym większa rola człowieka w przygotowaniu i potem większa potrzeba kontroli efektu. Czat bowiem nie pisze „inteligentnie”, ale naśladowczo. Ponieważ teksty wyższej jakości nie są specjalnie istotne w jego materiale treningowym więc takich tekstów nie umie naśladować. Umie naśladować tylko teksty najłatwiejsze i najpowszechniejsze w internecie. Zatem sam z siebie nie umie podejmować decyzji na temat tego, co interesuje odbiorcę, co powinno być przedmiotem analizy, jak wygląda analiza. itd. To dopiero oferują narzędzia.

Jak działa ta automatyzacja?

Mogłem podążyć kilkoma ścieżkami. Można było skorzystać z rozwiązań no-code, czyli narzędzi umożliwiających tworzenie przepływów pracy bez konieczności programowania. Przykładem może być aplikacja Dify, która pozwala na organizowanie agentów w tzw. „workflows” (przepływy pracy). Prawdopodobnie w przyszłości tak zrobię, ale najwięcej materiałów instruktażowych znalazłem na temat innego rozwiązania – usługi make.com.

Make.com (podaję specjalny link do rejestracji) to platforma integrująca pracę różnych aplikacji. Rejestrujemy się na niej i łączymy programy, których używamy, aby mogły wzajemnie współpracować. Inne znane usługi tego typu to Zapier.com czy Monday.com. Darmowe konto na Make.com pozwala wykonać 500 operacji miesięcznie, co daje możliwość przetestowania wstępnych schematów automatyzacji. Da się po prostu działać i pracować w ramach tego limitu, ale oczywiście osoby bardziej zaangażowane zapewne zdecydują się płacić 9$ miesięcznie. Jakie korzyści daje spięcie razem aplikacji i czatbotów, które stają się wtedy agentami?

Mój schemat działania na Make.com:

Znajduję w sieci ciekawy tekst: czytam go i uznaję za warty podzielenia się w mediach społecznościowych.
Link do tekstu wklejam do mojego arkusza Excel na dysku OneDrive (chmura Microsoftu).
Ten arkusz został wybrany jako początek procesu, miejsce, gdzie zacznie się przepływ pracy.
W określonym przeze mnie momencie (automatycznie lub ręcznie) link jest użyty przez pierwszego agenta, którym jest Perplexity.AI – usługa specjalizująca się w wyszukiwaniu treści w sieci. Ten agent ma za zadanie streścić tekst według przygotowanej przeze mnie instrukcji (po angielsku).
Perplexity AI przekazuje streszczenie do czatbota Claude 3.5 Sonnet firmy Anthropic. Claude tłumaczy tekst na polski, a jego kreatywność jest ograniczona moimi wytycznymi – ma tłumaczyć niektóre fragmenty zgodnie z wcześniej określoną instrukcją, analizować treść i usuwać powtarzające się wątki.
Następnie tekst trafia do GPT-4o Asystenta, który zajmuje się tworzeniem tytułów. Na podstawie treści oraz instrukcji generuje pięć wersji tytułów dla wpisu.
Skąd osobny agent do tytułów? Uważam, że napisanie dobrego tytułu jest równie trudne, co stworzenie samego tekstu. Dlatego każdy agent ma przypisane tylko jedno trudne zadanie, by zminimalizować błędy.
Kolejny agent – GPT-4o-mini – sprawdza tytuły pod kątem zgodności z regułami tworzenia nagłówków. Usuwa te, które łamią podstawowe zasady.
Większa wersja GPT-4o wybiera najlepszy tytuł oraz analizuje cały tekst. Usuwa zbędne podsumowania i wprowadza podpis informujący o automatycznym wygenerowaniu wpisu.
W końcowej fazie GPT-4o-mini tworzy polecenie (prompt) dla modułu DALL-E3, który generuje ilustrację do wpisu. Co ciekawe, choć jesteśmy prawie na końcu procesu, to polecenie tworzenia obrazu powstaje na podstawie wyników z wczesnego etapu. W tekście przetłumaczonym przez Claude są dwa, ściśle określone fragmenty i to na nich podstawie powstaje instrukcja tworzenia obrazu.
Obrazek zostaje automatycznie przesłany do publikacji razem z treścią. Na końcu wpis i obrazek są publikowane w mediach społecznościowych (Facebook, LinkedIn).

Mój przepływ jest inspirowany tym wideo:

Jeśli to zadanie wykonałby dziś 1 agent zamiast serii agentów, to otrzymałbym wpis, który byłby zrozumiały, ale byłby jednocześnie napisany dziwnym, czasem śmiesznym językiem polsko-angielskim. W tym zalinkowanym wideo łańcuchy przepływów są znacznie krótsze, ale to z kilku powodów: najważniejszy jest taki, że jakość wpisów nie jest kryterium oceny działania tych workflowów.

Łatwo sobie wyobrazić, że bardzo podobny przepływ mógłby czytać mejle, arkusze Excel, pisać wstępne analizy (drafty). Bardzo popularne i przydatne w marketingu są też przepływy ściągające dane z internetu (scraping stron), czyli automatyczne ściąganie danych firm albo ludzi z konkretnych stron i wysyłające oferty.
Widziałem przepływy, które na koniec produkowały albo krótkie filmiki wideo albo łączyły się z usługą robota głosowego i dzwoniły do kogoś, żeby przeprowadzić krótką rozmowę typu przyjęcie zamówienia pizzy albo potwierdzenie obecności na spotkaniu. Działy sprzedaży i działy marketingu mogą zaoszczędzić naprawdę sporo czasu dzięki przepływom. Działy obsługi klienta również.

Co zabrało najwięcej czasu? Zrozumienie, jak podłączać moduły do siebie. Potem ważne było jak wybrać te, najłatwiejsze w podłączeniu. Np. usługi Google, jeśli mowa o Workspace dla osoby prywatnej a nie firmy, to czysty koszmar w podłączaniu do Make.com. Minimalnie 15 minut dłubania, jeśli ktoś jest rozumie panel sterowania Vortex. Osoby mniej biegłe? Powyżej 45 minut.
Jednak firmowy mejl Google i firmowe konto na Workspace podłączają się błyskawicznie. Generalnie natomiast nie powinniśmy podłączać prywatnej poczty pod takie usługi. To ryzyko z punktu widzenia bezpieczeństwa. Automaty dostają prawo wglądu w pocztę oraz prawo zmiany zawartości poczty.

Mógłbym też po prostu wklejać linki do artykułów, ale czy wtedy sprawdziłbym, jak trudno jest precyzyjnie kierować czatbotami? Notka też jest bardziej użytecznym rodzajem wpisu niż sam link.
Cały problem wynika z tego, że czatboty oparte na dużych modelach językowych są nieprecyzyjnymi maszynami, które na nasze polecenia patrzą niekiedy w zaskakująco wybiórczy sposób.

Najbliższa przyszłość

Premiera w poniedziałek, 19.09. Na początek będę publikował na Facebooku, ale zamierzam stopniowo rozszerzać automatyzację na LinkedIn i inne platformy. W przyszłości planuję także dalsze udoskonalanie systemu, aby lepiej radził sobie z nieoczekiwanymi błędami oraz bardziej precyzyjnie dostosowywał treści do wymogów poszczególnych platform.

Czy to się skończy tak, że będziemy generować treści automatycznie a inni będą dzięki takim przepływom je streszczać? Roboty poczytają robotom? W niektórych sytuacjach to nie byłoby takie złe. Pracujmy jednak, żeby to nie dotyczyło właśnie nas 😉

Mnie Make.com wydało się najprostsze z platform, które sprawdzałem. Jeśli chcecie spróbować, to mam link do rejestracji: https://www.make.com/en/register?pc=makerewolucjaai
Pamiętajcie tylko, że to jest zadanie dla osób, które nie mają problemów z filmikami po angielsku. Wszystkie materiały z których korzystałem są po angielsku. Konto na „mejku” również obsługuję po angielsku z tego powodu.

Ten wpis napisałem sam. Potem poprawił go czat. Potem ja poprawiłem po czacie.

Lista moich źródeł z YT (kolejność przypadkowa):
Liam Ottley – YouTube
Helena Liu – YouTube
Ben AI – YouTube
Nick Saraev – YouTube
AI Foundations – YouTube
https://www.youtube.com/@webcafeai
https://www.youtube.com/@samwitteveenai
https://www.youtube.com/@godago
https://www.youtube.com/@StephenGPope
XRay Automation – YouTube