QNA > C > Come Usa Google L'apprendimento Automatico?

Come usa Google l'apprendimento automatico?

Google ha sempre usato il Machine Learning come supplemento fondamentale al ranking, che è stata la parte fondamentale di ciò che Google fa. La svolta iniziale del PageRank è stata quella che ha dato inizio a tutto, ma è stata rapidamente migliorata e sostituita da altri cosiddetti segnali di ranking, che sono tutti euristici, mantenuti come segreti commerciali per le ovvie ragioni di prevenire la manipolazione di massa, per non parlare di quelle più opportunistiche come contrastare la concorrenza.

Ma il ranking è sempre stato la chiave per produrre risultati di qualità superiore. Il Machine Learning è entrato in scena come un modo molto potente per inserire il feedback degli utenti, che Google aveva in quantità enormi grazie al monitoraggio dei clic sui risultati. È stato usato come una tecnica di filtraggio essenziale, per migliorare i risultati algoritmici, compresi sia il PageRank che altri segnali di ranking.

Ma una cosa da tenere a mente è che il Machine Learning è stato usato esclusivamente come tecnica di filtraggio, per setacciare dai risultati algoritmici quelli che gli utenti pensano siano i migliori, usando i loro click. Tenete a mente che Google ha un enorme tesoro di click registrati, ora in molti trilioni.

Ma anche il miglior filtro non serve a nulla se non c'è un generatore corrispondente, cioè qualcosa che fornisce ciò da cui filtrare. Quel generatore è sempre stato il Web, visto come un oceano infinito di contenuti incredibili, insieme a tutto il rumore e le assurdità che lo accompagnano. Ma quell'oceano si sta prosciugando da diversi anni, nel 2020, e qui sorge un problema esistenziale per Google.

Una risposta chiara è quella di affidarsi all'enorme numero di vecchie pagine archiviate, oltre 60 trilioni, a partire dal 2020. Ma questo non si accorda bene con la strategia che Google ha promosso per molti anni, di spingere sempre il contenuto più fresco. Una ragione opportunistica per tale strategia era quella di continuare a rafforzare l'impressione di un'infinita abbondanza di nuovi contenuti che non si esaurisce mai e che solo Google è in grado di elaborare e presentare al pubblico.

ML, come tecnica di filtraggio non è stata in grado di fornire soluzioni a questo problema chiave. In termini più semplici, è un problema del tipo garbage-in-garbage-out (GIGO). Nessuna quantità di apprendimento automatico può produrre gemme da montagne di spazzatura.

PageRank è un algoritmo sorprendente, basato sull'esistenza di link umani e sulla buona volontà degli utenti e dei webmaster di crearli per migliorare il Web. Quella buona volontà è purtroppo vicina all'esaurimento.

Quello che sarà necessario è un algoritmo per trovare automaticamente grafici e strutture basate su grafici in vasti oceani di dati apparentemente non strutturati, che abbiamo e continuiamo a ricevere. Il ML come lo conosciamo non ha alcun ruolo in questo processo a questo punto. D'altra parte, la matematica di esso giocherà un ruolo importante, ma in algoritmi automatici completamente nuovi che non si basano solo su collegamenti umani.

Di Teodorico Neris

Cosa significa quando chiami qualcuno e suona per un po' e poi si ferma senza andare alla segreteria telefonica? :: Quali sono alcuni servizi/API/strumenti di classificazione URL raccomandati?
Link utili