É um arquivo de texto, simples, que pode até ser criado no bloco de notas e é utilizado na programação de sites da internet.
O arquivo robots.txt é utilizado para indicar aos mecanismos de busca (Google, Bing, Yahoo...) que determinada área do seu site não deve ser rastreada e assim disponibilizada nas páginas de resultados de busca, por exemplo, você pode não querer que a página de login da área de administração do seu site seja rastreada, para isto, você indica no arquivo robots que ela deve ser ignorada.
No arquivo você terá:
Comentários, sempre iniciados com o símbolo de hashtag #.
User-agent:, utilizado para informar a qual robô a regra que você esta criando se aplica, pode exemplo, se você quer especificar um regra válida apenas para o Google, você deve utilizar:
User-agent: Googlebot
O que recomendo é não especificar o robô, a não ser que você saiba exatamente o que esta fazendo, sendo que o mais correto é informar um asterisco (*) indicando que a regra vale a todos os mecanismos de busca, User-agent: *
Disallow é utilizado para indicar quais são as páginas ou pastas que você deseja não rastrear.
Sitemap é utilizado para informar o local onde está o arquivo sitemap do seu site, o comando não é muito utilizado no arquivo atualmente, até recomendo não utilizar, pois, você deve fazer isto diretamente no Google Search Console, Bing Web Masters e demais.
Os colegas da rockcontent criaram um conteúdo completíssimo sobre o assunto, para acessá-lo clique no link abaixo.