Reklama
ì´ ì›¹ì‚¬ì´íŠ¸ì— 환ì˜. ì´ê²ƒì€ 보기 ì›ë³¸ì´ë‹¤
Aký je to jazyk? čínština? japončina?
V skutočnosti je to kórejské. Manuálne zisťovanie by mi zabralo veľa času. Našťastie som našiel niekoľko veľmi presných nástrojov, ktoré to dokážu automaticky. Všetky sú uvedené nižšie.
Experiment: Webové stránky som testoval pomocou vzorového textu (1-2 vety s 8 slovami) z nasledujúcich jazykov: portugalčina, ruština, kórejčina, vietnamčina, taliančina, turečtina, poľština, ukrajinčina, azerbajdžančina, slovinčina, macedónčina, holandčina, filipínčina (tagalčina), gréčtina, galícijčina, čeština, bieloruština, fínčina, tatárčina a nórsky.
Celkovo som otestoval 20 rôznych jazykov.
3 nástroje na zistenie textu v neznámom jazyku
1. LangId (prešiel 18 z 20 testov, neprešiel tatárčinou a bieloruštinou)

výhody: Celkovo skvelý online nástroj. Ponúka základné funkcie detekcie textu a tiež majú Twitter a roboty na zisťovanie e-mailov pre ešte rýchlejšie výsledky.
Zápory: Ich engine je založený na Google API, ale zdá sa, že majú lepšie výsledky ako Google detektor popísaný nižšie. Zdá sa, že vedia veci veľmi dobre využiť. Nepáčilo sa mi, že nemajú svoj vlastný jedinečný algoritmus na zisťovanie jazykov.
2. Google Language Detector [už nie je k dispozícii] (prešiel 17 z 20 testov, neprešiel v portugalčine, taglogu a bieloruštine)

výhody: Google má jedno z najlepších svetových API na detekciu jazyka. Dobrá vec je, že môžete vidieť pravdepodobnosť, že výsledok, ktorý zobrazujú, je pravdivý. Dokázali prejsť väčšinou vzorových testov.
Zápory: Bol som celkom prekvapený, že neprešli portugalským testom. Zdá sa, že majú (dúfam, že dočasnú) chybu v tomto jazyku. Tiež môžu určite urobiť lepšiu prácu pri zlepšovaní dizajnu stránky.
3. Aký je to jazyk (prešiel 11 z 20 testov, neprešiel ruským, kórejským, ukrajinským, azerbajdžanským, macedónskym, tagalským, gréckym, galícijským a tatarským jazykom)

výhody: Niektoré jazyky ako tie južnoslovanské (srbský, chorvátsky, slovinský) sú si dosť podobné. V prípade, že zadáte nejaký chorvátsky text, povedzme, tento web vám povie, že text môže byť aj srbský alebo slovinský.
Zápory: Musia popracovať na tom, aby bol ich detekčný systém sofistikovanejší. Rozmýšľal som nad umiestnením Translated.net (ďalšia webová stránka na zisťovanie jazykov) namiesto tejto, ale služba Translated sľubovala detekciu viacerých jazykov a v skutočnosti sa jej darilo horšie ako WhatLanguageIsThis.com.
2 nástroje na detekciu webových stránok v neznámych jazykoch
4. Google Translate s Rozpoznať jazyk ako prvá možnosť
Prešlo: 18 z 20 neprešlo bieloruskou a tatárskou.
výhody: Tento nástroj robí svoju prácu veľmi dobre. Vec, ktorá sa mi páči Google Translate Google Translate 2.1 sa zobrazuje s natívnou klávesnicou pre iOS 7 a ďalšou jazykovou podporouAktualizujte si na svojom zariadení so systémom iOS na verziu Google Translate 2.1 a vezmite si so sebou podporu pre preklad a podporu vstupu ručného písania pre nové jazyky. Prekladač Google konečne dostáva novú klávesnicu pre iOS 7, ktorá dokáže... Čítaj viac je, že ak nepodporuje konkrétny jazyk, zobrazí sa vám nasledujúca obrazovka:

To je skvelý detektor jazykov, ak sa ma pýtate!
5. Microsoft Bing Translator s Automatická detekcia ako prvá možnosť.

Prešlo: 8 z 20 neprešlo v holandčine, vietnamčine, turečtine, ukrajinčine, azerbajdžančine, slovinčine, macedónčine, tagalčine, gréčtine, galícijčine, češtine a bieloruštine
výhody: Podporuje obmedzený počet jazykov. Pre tie jazyky to robí svoju prácu dobre.
Zápory: Som veľmi sklamaný z Microsoftu. Majú veľmi obmedzený počet jazykov na detekciu preklad Zabudnite na Prekladač Google: 3 spôsoby, ako získať presný a rýchly prekladČi už sa plánujete uchádzať o prácu alebo byt v zahraničí, alebo hľadáte preklad svojej webovej stránky, musíte si dať veci do poriadku aj s cudzím jazykom. Čítaj viac a ich funkcia Auto-Detect je hrozná. V prípade, že zadáte jazyk, ktorý nepodporujú, namiesto toho, aby ste povedali, že daný jazyk nepodporujú, dostanete nesprávny výsledok.
Myšlienky
Celkovo si myslím, že vyššie uvedené nástroje sa uberajú dobrým smerom. V súčasnosti sú najlepšími na zisťovanie jazykov online a svoju prácu robia celkom dobre, pokiaľ ide o populárne jazyky. Musia však pracovať na pridávaní ďalších nejasných jazykov (žiadny z nástrojov nedokázal rozpoznať tatarčinu) a som si istý, že všetky z nich, najmä Google, sa v blízkej budúcnosti uberú týmto smerom.
Kredit obrázka: Kanko*
Volám sa Darko (prezývka Darren.) Páči sa mi Web 2.0, vytváram špecializované webové stránky (môj najnovší projekt je vyhľadávanie ľudí) a tak ďalej...čo ešte o mne povedať v takom krátkom profile, sleduj môj Twitter, ak sa chceš dozvedieť viac :)