Quali sono alcuni servizi/API/strumenti di classificazione URL raccomandati?
Versione TL;DR - Link alla fine
La prima domanda da fare è per quale scopo è il servizio/strumento di classificazione degli URL, lasciatemi delineare alcuni usi comuni:
- Controllo genitoriale - La classificazione degli URL è necessaria per bloccare l'accesso a siti che non sono sicuri per i bambini, o che dovrebbero essere limitati durante il giorno (per esempio siti di gioco)
- Prevenzione delle perdite di dati (DLP) - La classificazione degli URL è necessaria per bloccare l'accesso a siti che non dovrebbero essere accessibili al lavoro come siti sociali o siti di streaming, e anche siti che rappresentano un rischio per i dati aziendali come: siti di virus, siti di file hosting e siti di web mail.
- Pubblicità, Real Time Bidding (RTB) - La classificazione degli URL può fornire la categoria della pagina, permettendo all'inserzionista di indirizzare la pagina con il giusto annuncio, pagare il giusto importo, o decidere di passare sulla pagina se non è adatta, quando si lavora con la pubblicità il servizio di classificazione degli URL di solito fornisce la tassonomia IAB1 o IAB2
- Pubblicità, Brand Safety - Gli inserzionisti sono tenuti per conformità ad evitare certi tipi di siti, per esempio, non inserire l'annuncio in qualsiasi sito per adulti, o sito di incitamento all'odio, inoltre ci sono alcuni annunci che si possono inserire ma non si vorrebbe, per esempio un annuncio di vacanza in un articolo su un incidente aereo, con la classificazione degli URL è possibile ottenere la categoria della pagina e decidere se si vuole essere su di essa o meno
- Advertisement, Segmentazione - La classificazione degli URL permette di sapere quali sono le preferenze degli utenti, in base alle loro abitudini di navigazione, questo permette di indirizzare gli utenti con annunci in base alle loro preferenze.
Ci sono diversi tipi di servizi/strumenti di classificazione degli URL e prima di decidere quale è giusto usare, spiegherò in generale cosa fanno gli strumenti esistenti:
- Domain Classification Database - Un elenco/database statico di domini e delle loro categorie che può essere memorizzato localmente, può essere aggiornato programmaticamente, o manualmente, alcuni database sono piccoli e obsoleti con circa due milioni di domini, alcuni sono altamente mantenuti con oltre cento milioni di domini, possono categorizzare solo i domini, non possono categorizzare pagine o parole chiave. Questo non deve essere confuso con Database SDK, che fornisce l'accesso a un database che non è ospitato localmente, e scarica i dati in una cache locale, ed è in realtà: "URL Classification API".
- URL Classification Database - Un database statico/elenco di URL e la loro categoria, questo è utile per i siti con molti sotto argomenti per esempio: siti di notizie, Wikipedia. Questo tipo di siti può contenere molte categorie, e per alcune implementazioni la classificazione degli URL è necessaria oltre alla classificazione del dominio.
- URL Classification API - API basata sul web che permette di interrogare un servizio di rimozione, si fornisce il dominio, l'URL, o la parola chiave e l'API restituirà la classificazione di quel dominio o URL, per lo più utilizzato da endpoint, l'API può essere accessibile da qualsiasi linguaggio di programmazione che abbia accesso al web.
- URL Classification server - Fornisce il server e i dati al client per ospitarlo localmente, di solito richiesto a causa di SLA / motivi di privacy.
- Sicurezza - Fornisce il feed di sicurezza per bloccare i siti di phishing e malware, alcune aziende forniscono solo la classificazione di sicurezza, altre come servizio aggiuntivo.
Il prossimo passo è capire cosa può essere classificato:
- Livello dominio - Guarda il dominio stesso indipendentemente da qualsiasi contenuto nelle sottopagine, per esempio la categoria cnn sarà "news" indipendentemente dal fatto che l'articolo sia sui soldi o sulle celebrità.
- Livello pagina - Guarda la pagina stessa, quindi usando il nostro esempio precedente un articolo sui soldi su cnn sarebbe classificato come: "news,finance", una cosa da notare è che la classificazione a livello di pagina è pesante in termini di risorse perché è necessario o scansionare e memorizzare tutti quegli URL, o ottenerli dinamicamente in tempo reale ed essere in grado di gestire la larghezza di banda e il carico della CPU. Abbiamo notato del materiale di marketing che vende la classificazione a livello di pagina, ma quando viene testato è in realtà la classificazione a livello di dominio.
- Livello di ricerca - Quando si fa una ricerca in un motore di ricerca, è possibile classificare la ricerca in base alla parola chiave, anche prima che la ricerca venga effettuata.
- Livello parola chiave - Ottenere la classificazione di una parola chiave, o una frase.
- Classificazione del documento - Classificare un documento o un paragrafo in un documento per ottenere la sua classificazione.
L'ultimo pezzo del puzzle è se vogliamo pagare o no, se no ci sono un certo numero di database URL gratuiti là fuori con vari tempi di aggiornamento, e diversi domini, controlla: Shalla Secure Services KG
Per la soluzione a pagamento la domanda è qual è il tuo settore, e quanto profondo hai bisogno che il servizio sia, hai bisogno di classificazione per dominio o per pagina:
- Controllo parentale/DLP - Utilizza API di classificazione degli URL, alcune per livello di dominio, altre per livello di pagina.
- Pubblicità - Utilizza l'API di classificazione degli URL, per la sicurezza generale del marchio utilizza la classificazione a livello di dominio, per l'RTB deve avere il livello di pagina e le tassonomie IAB1/2
- Per il Parental control/DLP in una grande azienda - A volte optano per una soluzione ospitata localmente come un database o il server attuale.
Alcune aziende da guardare (ce ne sono altre, non ne approvo nessuna, fate la vostra due diligence ora che sapete quali domande fare):
- Netsweeper | Web filtering per scuole, governi e ISP
- BrightCloud® Threat Intelligence Tools & Support
- AI-Powered Content Categorization, Malicious & Phishing Detection | OEM
- https://url-classification.io (l'azienda in cui lavoro)
Domande da porre a un fornitore prima di decidere con chi lavorare:
- Fornite una classificazione per dominio o per pagina, o entrambe?
- Se fornite una classificazione per pagina, avete un database statico, la capacità dinamica di classificare le pagine o entrambe?
- Posso ospitare i dati/server in locale?
- Which daily/monthly query volume can you process?
- Can you classify keywords or search queries?
- Do you provide a security feed?
- How fast do you change a site that is mis-classified?
- Do you classify new sites, if so, is it dynamic or manually, and how fast?
Articoli simili
- Se qualcuno è allergico alle api, deve stare lontano da miele, cera d'api e polline d'api?
- Come progettare un marketplace di servizi per attrarre fornitori di servizi molto apprezzati e fornitori di servizi che iniziano a lavorare
- Quali sono i vostri programmi televisivi di fantascienza raccomandati?
- Perché i giochi VR non sono raccomandati per i bambini più piccoli?