Package: ucto (0.35-2)
Links for ucto
Debian Resources:
Download Source Package ucto:
Maintainers:
External Resources:
- Homepage [languagemachines.github.io]
Similar packages:
tokenizador Unicode
Ucto pode tokenizar arquivos de texto codificados em UTF-8 (ou seja, separar as palavras da pontuação, dividir sentenças, gerar n-gramas) e oferece vários outros passos básicos de pré-processamento que deixam seu texto pronto para processamento posterior, como indexação, etiquetagem de partes de fala ou tradução de máquina.
Este pacote fornece a ferramenta de linha de comando em si.
Ucto foi escrito por Maarten van Gompel e Ko van der Sloot. O trabalho no Ucto foi financiado pela NWO, a Organização Holandesa para Pesquisa Científica, sob o projeto Implicit Linguistics, o programa CLARIN-NL e o projeto CLARIAH.
Ucto é um produto do Centro de Tecnologia de Linguagem e Fala (Universidade Radboud Nijmegen) e anteriormente pelo Grupo de Pesquisa ILK (Universidade Tilburg, Holanda).
Se você tiver interesse em análise de máquina de arquivos texto codificados em UTF-8, por exemplo para fazer pesquisa científica em processamento de língua natural, o ucto vai ser útil para você.
Other Packages Related to ucto
|
|
|
|
-
- dep: libc6 (>= 2.34)
- GNU Biblioteca C: Bibliotecas compartilhadas
also a virtual package provided by libc6-udeb
-
- dep: libfolia22 (>= 2.21.1)
- Implementation of the FoLiA document format
-
- dep: libgcc-s1 (>= 3.0)
- Biblioteca de suporte GCC
-
- dep: libicu72 (>= 72.1~rc-1~)
- componentes internacionais para Unicode
-
- dep: libstdc++6 (>= 13.1)
- Biblioteca C++ padrão da GNU v3
-
- dep: libticcutils10 (>= 0.36)
- utility functions used in the context of Natural Language Processing (library)
-
- dep: libucto6 (>= 0.35)
- Unicode Tokenizer - runtime
-
- dep: uctodata
- Data files for Ucto
Download ucto
Architecture | Package Size | Installed Size | Files |
---|---|---|---|
riscv64 | 29.7 kB | 87.0 kB | [list of files] |