Início Desporto Empresa de IA processa Paraplexity e outros por coleta em “escala industrial”...

Empresa de IA processa Paraplexity e outros por coleta em “escala industrial” de comentários de usuários do Reddit – Mercury News

8
0

Por MATT O’BRIEN, Associated Press

A plataforma de mídia social Reddit processou a empresa de inteligência artificial Perplexity AI e três outras empresas na quarta-feira, acusando-as de se envolverem em uma economia ilegal de “escala industrial” para “raspar” os comentários de milhões de usuários do Reddit para obter ganhos comerciais.

O processo do Reddit no tribunal federal de Nova York tem como alvo o Perplexity, com sede em São Francisco, um chatbot de IA e “mecanismo de resposta” que compete com Google, ChatGPT e outros em pesquisas online.

Também citados no processo estão a empresa lituana de coleta de dados OxyLabs UAB, um domínio da web chamado AWMProxy que o Reddit descreve como uma “antiga botnet russa” e a startup SerpApi, com sede no Texas, que lista a Confusion como cliente em seu site.

Este é o segundo processo do Reddit desde que processou outra grande empresa de IA, a Anthropic, em junho.

Mas o processo aberto na quarta-feira é diferente porque enfrenta não apenas uma empresa de IA, mas também serviços pouco conhecidos dos quais a indústria de IA depende para adquirir os textos online necessários para treinar chatbots de IA.

“Os raspadores contornam as proteções técnicas para roubar informações e depois as vendem para clientes ávidos por material de treinamento. O Reddit é um alvo principal porque é uma das maiores e mais dinâmicas coleções de conversas humanas já criadas”, disse o diretor jurídico do Reddit, Ben Lee, em um comunicado na quarta-feira.

Os processos acusam as empresas de concorrência desleal e enriquecimento sem causa, e alegam que algumas delas violaram as leis de direitos autorais dos EUA.

A Paraplexity disse que ainda não foi processada, mas que “sempre lutará vigorosamente pelo direito dos usuários de acessar de forma livre e justa o conhecimento público. Nossa abordagem permanecerá baseada em princípios e responsável, pois forneceremos respostas reais com IA precisa e não toleraremos ameaças contra a abertura e o interesse público”.

O diretor de sucesso do cliente da SerpApi, Ryan Shaffer, disse por e-mail: “Discordamos veementemente das alegações do Reddit e pretendemos nos defender vigorosamente no tribunal”.

A OxyLabs disse em comunicado que estava “chocada e desapontada” e “não hesitará em se defender contra essas alegações”.

“A posição da OxiLab é que nenhuma empresa deve reivindicar a propriedade de dados públicos que não lhes pertencem”, disse um comunicado de Denas Grybauskas, diretor de governança e estratégia da empresa. “É possível que esta seja apenas uma tentativa de vender os mesmos dados públicos a um preço inflacionado.”

AWMProxy não pôde ser contatado imediatamente para comentar.

A coleta de dados online disponíveis publicamente é uma prática comum usada por empresas e pesquisadores, mas o Reddit compara as empresas que está processando a “pretensos ladrões de banco” que não conseguem arrombar cofres de bancos, então, em vez disso, arrombam caminhões blindados. O processo alega que eles estão contornando as próprias medidas anti-raspagem do Reddit e “contornando os controles do Google e extraindo conteúdo do Reddit diretamente dos resultados do mecanismo de pesquisa do Google”.

Lee disse que, embora não consigam copiar o Reddit diretamente, “eles mascaram suas identidades, ocultam suas localizações e se fazem passar por seus web scrapers para roubar conteúdo do Reddit da pesquisa do Google. A Perplexity é um cliente voluntário de pelo menos um desses scrapers, com o próprio Reddit optando por comprar os dados roubados em vez de firmar um acordo legal”.

O Reddit apresentou um argumento semelhante em seu processo contra a Anthropic, alegando que a empresa ignorou os apelos do Reddit para parar de usar seu conteúdo. O caso foi inicialmente aberto no Tribunal Superior da Califórnia, mas posteriormente transferido para o tribunal federal e estava programado para ser ouvido em janeiro.

Além de livros e artigos de notícias digitalizados, sites como Wikipedia e Reddit são repositórios profundos de conteúdo escrito que podem ajudar um assistente de IA a aprender padrões de linguagem humana.

Existe Reddit Insira o contrato de licença com antecedência Com o Google, OpenAI E outras empresas estão pagando para poder treinar seus sistemas de IA com base nos comentários públicos dos mais de 100 milhões de usuários diários do Reddit.

Os acordos de licenciamento ajudaram a plataforma online de 20 anos a arrecadar dinheiro antes de sua estreia em Wall Street como uma empresa de capital aberto no ano passado.

Publicado originalmente por:

Source link