Wyszukiwarka Google właśnie ogłosiła, że daje wydawcom stron internetowych możliwość rezygnacji z wykorzystywania ich danych do trenowania modeli sztucznej inteligencji, pozostwiając je jednocześnie dostępne dla wyszukiwarki Google.
Nowe narzędzie o nazwie Google-Extended pozwala witrynom nadal być indeksowanym przez roboty pokazujące treści wydawców w wynikach wyszukiwania, a jednocześnie pozwala im unikać wykorzystywania danych do trenowania modeli sztucznej inteligencji. Nowy crawler został dodany do dokumentacji Google Search Central dotyczącej crawlerów internetowych.
Zdaniem amerykańskiego koncernu Google-Extended pozwoli wydawcom „zarządzać tym, czy ich witryny pomagają ulepszać generatywne interfejsy API Bard i Vertex AI”. Firma dodaje jednocześnie, że wydawcy mogą używać przełącznika do „kontrolowania dostępu do treści w witrynie”.
Google potwierdził już w lipcu, że szkoli swojego chatbota AI Bard, na publicznie dostępnych danych pobranych z sieci. Google-Extended jest dostępny za pośrednictwem pliku robots.txt, znanego również jako plik tekstowy, który informuje roboty indeksujące, czy mogą uzyskać dostęp do określonych witryn bądź nie.
Wiele serwisów znanych marek, w tym The New York Times, CNN, Reuters i Medium, wcześniej zdecydowało się zablokować indeksowanie sieci dla robotów, których OpenAI używa do pobierania danych i trenowania ChatGPT.
Źródło https://www.theverge.com