AI

ChatGPT teraz potrafi widzieć, słyszeć i mówić.

Na skróty

ChatGPT teraz potrafi widzieć, słyszeć i mówić. W ciągu najbliższych dwóch tygodni użytkownicy Plus będą mogli prowadzić rozmowy głosowe z ChatGPT (na iOS i Android) oraz dołączać obrazy do rozmów (na wszystkich platformach).

Możesz używać swojego głosu, aby prowadzić rozmowę z ChatGPT. Rozmawiaj z nim w drodze, poproś o opowieść na dobranoc lub rozstrzygnij debatę przy stole obiadowym.

Pokaż ChatGPT jedno lub więcej zdjęć. Znajdź przyczynę, dlaczego twój grill nie chce się zapalić, przeszukaj zawartość swojej lodówki, planując posiłek, lub przeanalizuj skomplikowany wykres w celu uzyskania danych związanych z pracą. Więcej informacji można znaleźć na stronie: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak.

 

OpenAI wprowadza nowe funkcje głosowe i obrazowe do ChatGPT, oferując bardziej intuicyjny interfejs, który pozwala użytkownikom prowadzić rozmowy głosowe lub pokazywać ChatGPT, o czym mówią. Dzięki tym nowym funkcjom, użytkownicy mogą robić zdjęcia ciekawych miejsc podczas podróży i prowadzić na ich temat rozmowy na żywo. Mogą również robić zdjęcia zawartości swojej lodówki, aby dowiedzieć się, co przygotować na kolację, a po kolacji pomóc swojemu dziecku w rozwiązaniu problemu matematycznego, robiąc zdjęcie i zaznaczając problem.

W ciągu najbliższych dwóch tygodni funkcje głosowe i obrazowe będą dostępne dla użytkowników Plus i Enterprise. Funkcja głosowa będzie dostępna na iOS i Android, natomiast funkcja obrazowa na wszystkich platformach.

Nowa funkcja głosowa korzysta z nowego modelu tekstowo-mowy, który potrafi generować dźwięk przypominający ludzki głos. OpenAI współpracowało z profesjonalnymi aktorami głosowymi, aby stworzyć różne głosy. Do transkrypcji mowy na tekst wykorzystywany jest system rozpoznawania mowy Whisper.

Użytkownicy mogą teraz pokazywać ChatGPT jedno lub więcej zdjęć, aby rozwiązywać różne problemy, planować posiłki czy analizować skomplikowane wykresy. Rozumienie obrazów jest napędzane przez modele GPT-3.5 i GPT-4.

OpenAI stopniowo wdraża te nowe funkcje, dbając o bezpieczeństwo i korzyści. Nowe technologie głosowe i wizyjne otwierają wiele możliwości, ale niosą ze sobą również pewne ryzyko. Dlatego OpenAI wprowadza je ostrożnie, testując i udoskonalając je w odpowiedzi na feedback użytkowników.

Użytkownicy Plus i Enterprise będą mieli dostęp do tych nowych funkcji w ciągu najbliższych dwóch tygodni, a wkrótce potem zostaną one udostępnione również innym grupom użytkowników.

Podobne

  • Wrześniowa aktualizacja Barda

    Na skróty Przedstawiamy najbardziej zaawansowany model Bard Co: Wasze opinie przyspieszyły zdolność Bard do bycia bardziej intuicyjnym, pomysłowym i responsywnym niż kiedykolwiek wcześniej. Niezależnie od tego, czy chcesz współpracować nad czymś zabawnym i kreatywnym, zacząć w jednym języku i kontynuować w ponad 40 innych językach, poprosić o dogłębną pomoc w kodowaniu lub poznać nowe tematy…

  • Agent Skills nowy sposób interakcji z agentami AI

    Na skróty Umiejętności Agentów: Nowy wymiar interakcji z AI Dlaczego Umiejętności są potrzebne? Jak działają Umiejętności? Gotowe i niestandardowe Umiejętności Bezpieczeństwo i ograniczenia Źródła Umiejętności Agentów: Nowy wymiar interakcji z AI Sztuczna inteligencja, a w szczególności modele językowe takie jak Claude, rewolucjonizują sposób, w jaki pracujemy z informacją i wykonujemy złożone zadania. Firma Anthropic, twórca…

  • Midjourney 5.2 – co nowego?

    Na skróty Model text-to-image Midjourney doczekał się nowej wersji. Model text-to-image Midjourney doczekał się nowej wersji. Co nowego w V5.2? Nowa komenda /shorten Pozwala ci ‘analizować’ zadanie i otrzymać sugestie, które słowa mogą nie mieć znaczenia, a które mogą być kluczowe. Nowa funkcja “Zoom Out” Wszystkie powiększenia mają teraz przyciski ‘zoom out’, które możesz użyć…

  • OPEN AI aktualizacja 14 czerwca

    Na skróty OpenAI aktualizuje API: Wprowadza możliwość wywoływania funkcji oraz nowe modele OpenAI aktualizuje API: Wprowadza możliwość wywoływania funkcji oraz nowe modele NOWOŚCI: Wywoływanie funkcji po API w Chat Completions Zaktualizowane i bardziej sterowalne wersje gpt-4 i gpt-3.5-turbo Nowa wersja gpt-3.5-turbo z kontekstem 16k (w porównaniu do standardowej wersji 4k) 75% obniżka kosztów modelu embeddings (text-embedding-ada-002) 25% obniżka kosztów tokenów…

  • Google Bard w Polsce

    Na skróty Bard jest dostępny w nowych miejscach i językach. Bard jest teraz dostępny w ponad 40 nowych językach, w tym arabskim, chińskim (uproszczonym/tradycyjnym), niemieckim, hindi, hiszpańskim i innych. Rozszerzyliśmy również dostęp do większej liczby miejsc, w tym wszystkich 27 krajów Unii Europejskiej (UE) i Brazylii. Bard jest globalny i ma na celu pomóc w…

  • ·

    Alogorytm Google Fast Search

    Na skróty Czym jest alogorytm Google Fast Search? Fundamenty architektoniczne: Szybkość, semantyka i podzbiory Potrzeba szybkości Lżejsza architektura Kompromis jakościowy Rola RankEmbed: Podejście deep-learningowe do trafności Czym jest RankEmbed? Dane treningowe i mechanizm działania Dopasowanie semantyczne ponad dopasowaniem słów kluczowych Analiza sygnałów: Poza linkami zwrotnymi i tradycyjnymi metrykami SEO Ramy tworzenia treści w erze wyszukiwania…

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *