ChatGPT teraz potrafi widzieć, słyszeć i mówić.

ChatGPT teraz potrafi widzieć, słyszeć i mówić. W ciągu najbliższych dwóch tygodni użytkownicy Plus będą mogli prowadzić rozmowy głosowe z ChatGPT (na iOS i Android) oraz dołączać obrazy do rozmów (na wszystkich platformach).

Możesz używać swojego głosu, aby prowadzić rozmowę z ChatGPT. Rozmawiaj z nim w drodze, poproś o opowieść na dobranoc lub rozstrzygnij debatę przy stole obiadowym.

Pokaż ChatGPT jedno lub więcej zdjęć. Znajdź przyczynę, dlaczego twój grill nie chce się zapalić, przeszukaj zawartość swojej lodówki, planując posiłek, lub przeanalizuj skomplikowany wykres w celu uzyskania danych związanych z pracą. Więcej informacji można znaleźć na stronie: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak.

OpenAI wprowadza nowe funkcje głosowe i obrazowe do ChatGPT, oferując bardziej intuicyjny interfejs, który pozwala użytkownikom prowadzić rozmowy głosowe lub pokazywać ChatGPT, o czym mówią. Dzięki tym nowym funkcjom, użytkownicy mogą robić zdjęcia ciekawych miejsc podczas podróży i prowadzić na ich temat rozmowy na żywo. Mogą również robić zdjęcia zawartości swojej lodówki, aby dowiedzieć się, co przygotować na kolację, a po kolacji pomóc swojemu dziecku w rozwiązaniu problemu matematycznego, robiąc zdjęcie i zaznaczając problem.

W ciągu najbliższych dwóch tygodni funkcje głosowe i obrazowe będą dostępne dla użytkowników Plus i Enterprise. Funkcja głosowa będzie dostępna na iOS i Android, natomiast funkcja obrazowa na wszystkich platformach.

Nowa funkcja głosowa korzysta z nowego modelu tekstowo-mowy, który potrafi generować dźwięk przypominający ludzki głos. OpenAI współpracowało z profesjonalnymi aktorami głosowymi, aby stworzyć różne głosy. Do transkrypcji mowy na tekst wykorzystywany jest system rozpoznawania mowy Whisper.

Użytkownicy mogą teraz pokazywać ChatGPT jedno lub więcej zdjęć, aby rozwiązywać różne problemy, planować posiłki czy analizować skomplikowane wykresy. Rozumienie obrazów jest napędzane przez modele GPT-3.5 i GPT-4.

OpenAI stopniowo wdraża te nowe funkcje, dbając o bezpieczeństwo i korzyści. Nowe technologie głosowe i wizyjne otwierają wiele możliwości, ale niosą ze sobą również pewne ryzyko. Dlatego OpenAI wprowadza je ostrożnie, testując i udoskonalając je w odpowiedzi na feedback użytkowników.

Użytkownicy Plus i Enterprise będą mieli dostęp do tych nowych funkcji w ciągu najbliższych dwóch tygodni, a wkrótce potem zostaną one udostępnione również innym grupom użytkowników.

ChatGPT teraz potrafi widzieć, słyszeć i mówić.

Autor: Krzysztof Radzikowski

Podobne posty