Package: ucto (0.21.1-2 and others)
Links for ucto
Debian Resources:
Download Source Package ucto:
Maintainers:
External Resources:
- Homepage [languagemachines.github.io]
Similar packages:
tokenizador Unicode
Ucto pode tokenizar arquivos de texto codificados em UTF-8 (ou seja, separar as palavras da pontuação, dividir sentenças, gerar n-gramas) e oferece vários outros passos básicos de pré-processamento que deixam seu texto pronto para processamento posterior, como indexação, etiquetagem de partes de fala ou tradução de máquina.
Este pacote fornece a ferramenta de linha de comando em si.
Ucto foi escrito por Maarten van Gompel e Ko van der Sloot. O trabalho no Ucto foi financiado pela NWO, a Organização Holandesa para Pesquisa Científica, sob o projeto Implicit Linguistics, o programa CLARIN-NL e o projeto CLARIAH.
Ucto é um produto do Centro de Tecnologia de Linguagem e Fala (Universidade Radboud Nijmegen) e anteriormente pelo Grupo de Pesquisa ILK (Universidade Tilburg, Holanda).
Se você tiver interesse em análise de máquina de arquivos texto codificados em UTF-8, por exemplo para fazer pesquisa científica em processamento de língua natural, o ucto vai ser útil para você.
Other Packages Related to ucto
|
|
|
|
-
- dep: libc6 (>= 2.34)
- GNU Biblioteca C: Bibliotecas compartilhadas
also a virtual package provided by libc6-udeb
-
- dep: libfolia14 (>= 2.4)
- Implementation of the FoLiA document format
-
- dep: libgcc-s1 (>= 3.0)
- Biblioteca de suporte GCC
-
- dep: libicu72 (>= 72.1~rc-1~)
- componentes internacionais para Unicode
-
- dep: libstdc++6 (>= 11)
- Biblioteca C++ padrão da GNU v3
-
- dep: libticcutils8 (>= 0.24)
- utility functions used in the context of Natural Language Processing (library)
-
- dep: libucto5 (>= 0.21.1)
- Unicode Tokenizer - runtime
-
- dep: uctodata
- Data files for Ucto
Download ucto
Architecture | Version | Package Size | Installed Size | Files |
---|---|---|---|---|
i386 | 0.21.1-2+b3 | 55.5 kB | 113.0 kB | [list of files] |