Bruno Guide- Apresentação de Projeto

42 %
58 %
Information about Bruno Guide- Apresentação de Projeto
Science

Published on May 29, 2014

Author: brunosauronguide

Source: slideshare.net

Description

Apresentação do Projeto de mestrado em curso no Departamento de Linguística da Universidade de São Paulo intitulado "Abordagem Computacional para a Questão do Acento no Português Brasileiro

Abordagem computacional para a questão do acento no português brasileiro Bruno Ferrari Guide Orientador: Marcelo Barra Ferreira

O projeto: Objetivos 1. Investigação do acento em um corpus ortográfico de 40 mil palavras. 2. Análise das principais teorias do acento. 3. Estruturando a Abordagem Computacional: Modelo de N-gramas. 4. Próximos passos: as perspectivas de desenvolvimento do projeto

Acento no PB - Introdução • Restrito as últimas três sílabas da palavra: • Oxítonas: ‘caqui’, ‘sordidez’ • Paroxítonas: ‘corda’, ‘beleza’ • Proparoxítonas: ‘último’, ‘metódico’ • Comportamento previsível: • ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’ • Flexões verbais; • Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível. • Levando em conta o peso silábico: • Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.

Acento no PB – Wikipedia • Corpus ortográfico wikipedia: • Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual. TOTAL 40924 100% Oxítonas 10183 25% Paroxítonas 25967 63% Proparoxítonas 4774 12%

Acento no PB - Comportamento • Maioria das palavras se encaixa nesses dois grupos: • Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER] • Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER] Aproximadamente 70% das palavras estão representadas aqui. Oxítonas 10183 100% Oxít. Terminadas em C 7888 77% Paroxítonas 25967 100% Parox. Terminadas em V 20886 80%

Acento no PB - Comportamento • Dos 30% que sobram: • 12% são proparóxitonas • 6% são oxítonas terminadas em vogal [consoante subjacente?] • 12% são paroxítonas terminadas em consoantes [plural] • Próximas etapas: • Transcrever e acentuar as palavras. • Informações morfológicas (remover plurais). • Identificar se existem padrões nesses grupos “periféricos”.

Acento no PB – Abordagens teóricas • Teoria Métrica: • Bisol (1992): Padrão- • Sílaba pesada final atrai o acento. • Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à esquerda (troqueu) partindo da borda direita da palavra. No padrão estão as palavras oxítonas terminadas em consoante, paroxítonas terminadas em vogal. As proparoxítonas e as paroxítonas terminadas em consoante são marcadas como extramétricas no léxico. As oxítonas terminadas em vogal apresentam uma consoante abstrata final na forma lexical [caféC – cafeZal]

Acento no PB – Abordagens teóricas • Lee (1995): • Acento depende de informações morfológicas. • Não verbos: • Padrão: • Elemento mais a direita do radical da palavra. (Paroxítonas terminadas em vogal, oxítonas) • Exceções: • No radical da palavra, derivar constituintes binários. • O item proeminente do constituinte é o mais a esquerda do pé. (iambo) • Não iterativo. • Direita para Esquerda. (Paroxítonas terminadas em consoante, proparoxítonas)

Acento no PB – Abordagens teóricas • Lee (1995): • Verbos: • Padrão: • Na forma final da palavra, faça constituintes binários. • Elemento proeminente é o mais a esquerda do pé. • Não iterativo. • Direita para a esquerda. (Paroxítonas e proparoxítonas) • Exceções: • Na forma final da palavra, o acento vai cair no elemento mais à direita. • (Oxítonas) • Partindo de informações morfológicas, deixa as marcações menos arbitrárias, mas não as elimina.

Acento no PB - Análise • Teorias analisadas postulam regras categóricas. Porém se não forem aplicadas marcações lexicais individuais, elas só dão conta de uma determinada porção do conjunto de palavras. Próximas etapas: • Medir a correção da aplicação das duas teorias num corpus sem considerar as marcações de exceção.

Modelo de N-gramas – Introdução • Previsão do tempo: • Categorias de clima: Chuvoso, Nublado e Ensolarado. • Podemos tentar prever o clima de amanhã aleatoriamente: • Porém, se tivéssemos as informações climáticas do passado: Clima de amanhã Chance de acertar Chuvoso 33% Nublado 33% Ensolarado 33% DIA 1 2 3 4 5 6 7 8 9 10 CLIMA SOL NUB SOL SOL NUB CHUV CHUV NUB CHUV SOL

Modelo de N-gramas – Introdução • Poderíamos considerar o histórico para criar um modelo baseado nas frequências, dando essa distribuição para as categorias: • Apesar de ser um pouco mais informativo, nós podemos desenvolver um modelo que também olha para o clima do dia de hoje: DIA 11 CLIMA SOL Clima de amanhã Frequência no Passado (Chance de acertar) Chuvoso 30% Nublado 30% Ensolarado 40%

Modelo de N-gramas – Introdução • E então podemos criar o seguinte modelo de transição climática levando em conta o clima de um dia para prever o clima do dia seguinte: • Baseado nessa tabela e acreditando na relevância do corpus utilizado, podemos dizer que a previsão para o clima de amanhã é de 50% de chance de nublado, 50% de chance de ensolarado. Clima do dia X -> Chuvoso Nublado Ensolarado Clima do dia X+1 ↓ Chuvoso 1 (33%) 2 (66%) 0 (0%) Nublado 1 (33%) 0 (0%) 2 (50%) Ensolarado 1 (33%) 1 (33%) 2 (50%)

Modelo de N-gramas – Introdução • O primeiro modelo, que considerava apenas as frequências, é uma aplicação do modelo de Uni-gramas. • O segundo, que considerava o segmento de dois dias para criar a tabela de transição, é uma aplicação do modelo de Bi-gramas. • O segundo é mais informativo que o primeiro, um modelo de tri- gramas seria mais informativo ainda, mas o número de estados possíveis é maior, o tamanho do corpus necessário para que a informatividade seja relevante também é bem maior.

Modelo de N-gramas – Aplicação na Questão do Acento • A ideia é criar um modelo de aprendizagem baseado em n-gramas, que irá associar a cada segmento (no caso, cada som) uma distribuição de probabilidades transicionais extraídas do corpus. • No caso do acento, isso se dará da seguinte maneira: • Uma palavra sem marcação de acento será apresentada ao programa • Serão gerados os possíveis candidatos para a palavra sem marcação, e a cada um será atribuído uma probabilidade baseado no modelo.

Modelo de N-gramas – Aplicação na Questão do Acento EXEMPLO • Input: • ‘ca-lor’ • Candidatos: 1. ‘ca-lor’ 2. ‘ca-lor’ Candidato 1: bigramas: ca, a-, -l, lo, or trigramas:ca-, a-l, -lo, lor Candidato 2: bigramas: ca, a-, -l, lo, or trigramas: ca-, a-l, -lo, lor

Modelo de N-Gramas- O que é modelado? • Um modelo simples de linguagem, em que a probabilidade de um determinado segmento ocorrer depende apenas dos ‘n-1’ segmentos anteriores. • Abordagem indutiva da questão, é especialmente interessante ver o comportamento dela nos casos em que as abordagens categoriais marcam como exceções. • Não é uma solução categorial. Porém é uma solução bastante barata em termos computacionais, ao mesmo tempo é capaz de revelar padrões locais e também se há algum tipo de atração do acento por determinados fonemas/ contextos fonêmicos.

Próximos passos • Continuar a desenvolver outra faceta da abordagem computacional para a questão: um modelo de aprendizagem estatístico baseado em um Classificador Bayesiano Ingênuo. • Essa abordagem será capaz de atribuir probabilidades a diversas variáveis, podendo incluir classes de palavra, peso silábico e também a localidade da abordagem por n-gramas. • Apesar de ser mais pesada computacionalmente, essa abordagem poderá possibilitar a análise da relevância de diversos traços para a questão do acento.

Bibliografia • JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall. • LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado – UNICAMP • BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS. • BIRD, S., KLEIN, E. and LOPER, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly. • NORVIG, P. (2011) On Chomsky and the Two Cultures of Statistical Learning http://norvig.com/chomsky.html

Muito Obrigado!

Add a comment

Related presentations

How organisms adapt and survive in different environment.

Aplicación de ANOVA de una vía, modelo efectos fijos, en el problema de una empres...

Teori pemetaan

Teori pemetaan

November 10, 2014

learning how to mapping

Libros: Dra. Elisa Bertha Velázquez Rodríguez

Materi pelatihan gis

Materi pelatihan gis

November 10, 2014

learning GIS

In this talk we describe how the Fourth Paradigm for Data-Intensive Research is pr...

Related pages

Apresentação App Inventor - Bruno - YouTube

Apresentação do projeto final da matéria Programação para Micro Informática. Alunos do primeiro semestre do curso de ADS da Fatec de São ...
Read more

Apresentação do Projeto de Estágio - Bruno Rodrigues ...

Apresentação do Projeto de Estágio - Bruno Rodrigues Bruno Rodrigues. Subscribe Subscribed Unsubscribe 15 15. Loading ... Standard YouTube ...
Read more

BRUNO PROJETO MUNDO ANTIGO

BRUNO PROJETO MUNDO ANTIGO segunda-feira, 5 de maio de 2008. PROJETO ALUNO MUNITOR. ... PROJETO ALUNO MUNITOR; Apresentação; Quem sou eu. BRUNO DA SILVA ...
Read more

Apresentação Do Projeto Final de Economia by Bruno ...

Apresentação Do Projeto Final de Economia. No description by Bruno Moreira on 9 May 2012 Tweet. Comments (0) ... More presentations by Bruno Moreira ...
Read more

Yugioh - Projeto Bruno com deck ! by William Taliate ...

... Projeto Bruno com deck ! ... Wind UP Inzektor Agent Atlanteans/Mermail A apresentação vai te ajudar a voltar a ... 1x Tour Guide From the Underworld
Read more

pranchas de apresentação | Bruno Maxwel

... desenvolvimento e apresentação de projetos de ... e Urbanismo Arquitetura Sustentável Arquitêta arte artista Barcelona Brasil Bruno Maxwel ...
Read more

Consolide o PMO como provedor de resultados efetivos e de ...

... o mais complexo projeto do planeta, ... APRESENTAÇÃO. ... Bruno Peres. Chefe do PMO Corporativo ...
Read more

Bruno Oliveira | LinkedIn

... que ajuda profissionais como Bruno Oliveira a descobrir conexões ... Elaborar Criação de layout e apresentação detalhada dos Projetos, ...
Read more

Metodologia de projeto de Bruno Munari aplicada ao design ...

Metodologia de projeto de Bruno Munari aplicada ... apenas por uma estratégia de apresentação. Figura 02: Projeto de superfície têxtil desenvolvido ...
Read more