Esboço

  1. Motivação e Definição
  2. Visão de Aprendizagem Ontologia Abordagens
  3. Em Detalhe: Aprendizagem Definições com Operadoras de refinamento
  4. Conclusões


Esboço

  1. Motivação e Definição
  2. Visão de Aprendizagem Ontologia Abordagens
  3. Em Detalhe: Aprendizagem Definições com Operadoras de refinamento
  4. Conclusões


Definição: Aprendizagem Ontologia

  • "Ontologia Aprender é uma subtarefa da extração de informações. O objetivo da aprendizagem de ontologias é a (semi) automaticamente extrair conceitos e relações relevantes de um determinado corpus ou outros tipos de conjuntos de dados para formar uma ontologia." (Wikipedia, hoje)
  • "Ontologia A aprendizagem é um mecanismo de apoio semi-automaticamente o engenheiro de ontologias em ontologias de engenharia. '
    AD Mädche. Ontologia de Aprendizagem para a Web Semântica. Dissertação. Universität Karlsruhe, 2001
  • "Ontologia Aprendizagem visa a integração de uma grande variedade de disciplinas, a fim de facilitar a construção de ontologias, em particular a engenharia de ontologias e aprendizagem de máquina."
    AD Mädche, S. Staab. Ontologia Learning. Manual de ontologias em Sistemas de Informação, 2004


Classificação da Ontologia de Dados de Aprendizagem

fontes, por vezes, heterogêneas de dados (por exemplo, hiponímia [Snow et al., 2006], [subsunção Cimiano et al. 2.005], [Manzano-Macho et al., 2008], [Buitelaar et al. 2.008], disjunção [Völker et al. 2007])


Classificação da Ontologia Aprendizagem DataII



Ontologia Aprendizagem Layer Cake [Cimiano 2006]



Patterns [Hearst 1992] para a classe A subsunção

  • NP como {NP,} * {ou | e} NP
    • "jogos como beisebol e críquete"
  • NP {, NP} * {,} {e | ou} outro NP
    • "coelhos e outros animais"
    • mas: "coelhos e outros animais de estimação"
  • NP {,} {incluindo NP,} * {ou | e} NP
    • "Frutas, incluindo maçãs e peras"
  • NP {,} {especialmente NP,} * {ou | e} NP
    • "Os europeus, especialmente italianos"
    • mas: "presidentes norte-americanos, especialmente os democratas"


Patterns [Ogata e Collier 2004]

  • NP é um NP
    • "Um canguru é um animal que vive na Austrália."
  • um NP chamado | chamado NP
    • "Os japoneses gostam de jogar um jogo chamado Go".
  • NP, NP
    • "Sencha, o chá mais popular no Japão, ..."
  • NP. O NP
    • "João ama sua Ferrari. O carro ... "
  • Entre NP, NP
    • Entre todos os instrumentos musicais, violinos são ... "
  • NP exceto | diferente de NP
    • Funcionários, exceto para os gestores sofrem ... "


Regra JAPE

  • PORTA = Arquitetura Geral de Engenharia Texto
  • escrito em Java
  • madura, utilizada em todo o mundo
  • JAPE = linguagem para prototipagem rápida e eficiente implementação de métodos de análise rasos
  • pode ser usado, por exemplo ~ padrões específicos de domínio (blogs financeiros etc)


JAPE Regra II

rule: Hearst_1 ( (NounPhrase):superconcept {SpaceToken.kind == space} {Token.string=="such"} {SpaceToken.kind == space} {Token.string=="as"} {SpaceToken.kind == space} (NounPhrase):subconcept ):hearst1

-->

:hearst1.SubclassOfRelation = { rule = "Hearst1" }, :subconcept.Domain = { rule = "Hearst1" }, :superconcept.Range = { rule = "Hearst1" }



Contexto Lexical Similaridade (eg [Cimiano e Völker 2005])

  • "Columbus é a capital do estado de Ohio. Columbus tem uma população de cerca de 700.000 habitantes."
  • Columbus (capital (1), estadual (1), Ohio (1), população (1), habitante (1))
  • City (país (2), estado (1), habitante (2), o prefeito (1), a atração (1))
  • Explorer (navio (1), marinheiro (2), descoberta (1))

"Muito provavelmente": City (Columbus)



    Subcategorização Frames

    • "Tina dirige um Ford."
      • Pessoa (Tina). Veículo (Ford).
    • "Seu pai dirige um ônibus."
      • Pai-subclasse de Pessoa
      • Bus subclasse de Vehicle
    • subcat: unidade (subj: pessoa, obj: veículo)
      • \[Person \sqsubseteq \forall drive.Vehicle \]


    Text2Onto



    Suchanek et al. 2009

    Aprender a partir do conhecimento do texto e do fundo via raciocínio:

    "Washington é a capital de os EUA. (...) Nova York é a capital dos Estados Unidos da moda."

    • extraídos: hasCapital (EUA, New York); hasCapital (Estados Unidos, Washington)
    • conhecimento de fundo: hasCapital é uma propriedade funcional
    • possíveis inferências:
      • Nova Iorque = Washington
      • inconsistência (nomes originais suposição)
    • contradições lógicas pode ajudar a detectar erros nas informações extraídas automaticamente


    Leda



    Outras abordagens

    • Regras de associação e estatísticas de co-ocorrência
    • WordNet: \[hyponymy \approx subsumption \]
      • hyponym (banco \ (\ afiada \) 1, instituição \ (\ afiada \) 1)
      • Banco subclasse-de Instituição
    • Substantivo heurísticas frase
      • "O software de processamento de imagem"
    • Agrupamento Instância (por exemplo, Columbus e Washington)
      • Agrupamento hierárquico de vetores de contexto
    • Conhecimento Conclusão Base / Formal Concept Analysis (FCA)
      • faz perguntas engenheiro de conhecimento para completar uma base de conhecimento
      • ferramenta: OntoComp [Sertkaya et al.]


    Ferramentas e frameworks

    Tabela: Lexical aprendizagem ontologia: dados informais ou semi-formais (por exemplo, textos)


    Ferramentas e frameworks II



    Problemas e Desafios

    • Homonímia e polissemia, por exemplo [Ovchinnikova et al. 2006]
      • "Pedro está sentado no banco em frente ao banco."
      • "Um livro interessante está deitado sobre a mesa."
    • Semântica de adjetivos
      • "Flor vermelha", "falso amigo"
    • Cabeças vazias, por exemplo, [Völker et al. 2005], [Cimiano e Wenderoth 2005]
      • "O atum é uma espécie de peixe. The Southern Bluefin é um dos tipos mais ameaçadas de atum."
    • Reticências e underspecification
      • "Mary comecei o livro."
    • Anaphora (por exemplo, pronomes), por exemplo [Cimiano e Völker 2005]
      • "Há uma maçã na mesa. Ele é vermelho."


    Problemas e Desafios (DTC).

    • Metáforas e analogias, por exemplo, [Gust et al. 2007]
      • "Viver é uma viagem."
    • Opiniões, cotações e discurso relatado
      • "Tom acha que os golfinhos são mamíferos."
    • O que deve ser representado como um indivíduo? eg [Zirn et al. 2008]
      • "O canguru é um animal que vive na Austrália."
    • Classe, relação (propriedade do objeto) ou atributo (propriedade datatype)?
      • "Todos os elefantes são cinza."
      • "Feira de Páscoa é um feriado nacional."
    • Conhecimento está mudando por exemplo [Stojanovic 2004], [Zablith et al. 2009]
      • "Plutão é um planeta."


    Aprender OWL Expressões Classe

    • dado:
      • conhecimento de fundo (particularmente OWL / DL base de conhecimento)
      • exemplos positivos e negativos (indivíduos Particularmente na base de conhecimento)
    • objetivo:
      • fórmula lógica (particularmente OWL Classe Expression) cobrindo exemplos positivos e não cobrindo exemplos negativos


    ILP e Web Semântica

    • desde início dos anos 90 Programação Lógica Indutiva
    • apenas algumas abordagens baseadas em lógica descritiva
    • Web Ontology Language (OWL) torna-se padrão W3C em 2004
    • aumento do número de bases knowlegde RDF / OWL, mas ILP ainda se concentra principalmente em programas lógicos -> lacuna pesquisa


    Por ILP na Web Semântica?

    • Ontologia de Aprendizagem:
      • determinada classe A em K
      • instâncias de um exemplos positivos
      • não-casos como exemplos negativos
      • definições podem ser aprendidas se os dados ABox está disponível
    • melhoria das soluções de problemas existentes ML
    • uso direto de conhecimento na Web Semântica, em vez de conversão em cláusulas por exemplo chifre aplicar métodos ML


    TODO: / refinerho faltando ... Refinamento Operadores - Definições

    • dado um DL \ (\ mathcal {L} \), considerar o espaço \ ordenou-quasi (\ langle \ mathcal {C} (\ mathcal {L}), \ sqsubseteq_ T \ rangle \) sobre conceitos de \ (\ mathcal {L} \)
    • \ (\ Rho: \ mathcal {C} (\ mathcal {L}) \ 2 ^ {\ mathcal {C} (\ mathcal {L})} \) é um \ para baixo (\ mathcal {L} \) requinte operador se por qualquer \ (C \ in \ mathcal {C} (\ mathcal {L}) \): \[D \in \rho(C) \text{ implies } D \sqsubseteq_ T C\]
    • notação: Escrever \ (C \ para D \) em vez de \ (D \ in \ rho (C) \)
    • cadeia exemplo requinte em \ (\ langle \ mathcal {C} (EL), \ sqsubseteq_ T \ rangle \): \[ \top \to_{\rho} male \to male \sqcap \exists hasChild.\top \]


    Aprendendo com Operadores Refinamento



    TODO: \ refinerho falta ... Propriedades de operadores de Refinamento

    An \ (La \) para baixo operador de refinamento \ (rho \) é chamado
    • finito sse \ (\ rho (C) \) é finita para qualquer conceito de \ (\ in \ mathcal {C} (\ mathcal {L}) \)
    • redundante sse existem dois diferentes \ (\ rho \) cadeias de refinamento de um conceito C a um conceito D.
    • sse adequado para \ (C, D \ in \ mathcal {C} (\ mathcal {L}), C refinerho D \) implica \ (C \ não \ equiv_T D \)
    • ideal sse ela é finita, completa e adequada.
    • sse completa para \ (C, D \ in \ mathcal {C} (La) com D \ sqsubseteq_ TC há um conceito E com E \ equiv_ TD e um refinamento da cadeia C refinerho \ cdots refinerho E \)
    • sse fracamente completa para qualquer conceito de \ (C \) com \ (C \ sqsubseteq_T \ top \), podemos chegar a um conceito \ (E \) com \ (E \ equiv_T C \) de \ (\ top \) por \ ( \ rho \).
    • ideal = completo + bom + finita


    Propriedades de Refinamento Operadores II

    • Propriedades indicar como adequado um operador de refinamento é para resolver o problema de aprendizagem:
      • Operadores incompletos poderão perca soluções
      • Operadores redundantes pode levar à duplicação de conceitos na árvore de busca
      • Operadores impróprios podem produzir conceitos equivalentes (que abrangem os mesmos exemplos)
      • Para os operadores de infinitos, pode não ser possível calcular todos os requintes de um determinado conceito
    • Nós pesquisamos propriedades dos operadores de refinamento em Lógica Descritiva
    • Pergunta-chave: Quais propriedades podem ser combinados?


    Refinamento Operador Propriedade Teorema

    Teorema

    Conjuntos máximos de propriedades de \ (\ mathcal {L} \) operadores de refinamento que podem ser combinadas para \ (\ mathcal {L} \ in \ {\ mathcal {ALC}, \ mathcal {ALCN}, \ mathcal {shoin}, \ mathcal {SROIQ} \} \):

    1. {Fracamente completo, completo, finito}
    2. {Fracamente completo, completo, bom}
    3. {Fracamente completo, não redundante, finito}
    4. {Fracamente completo, não redundante, adequada}
    5. {Não redundante, finito, adequada}
    "Fundamentos de Operadores de refinamento para Lógica Descritiva",
    J. Lehmann, P. Hitzler, conferência ILP de 2008

    "Conceito de Aprendizagem em Lógica Descritiva Usando Refinamento Operadores",
    J. Lehmann, P. Hitzler, Machine Learning revista de 2010


    Refinamento Operador Propriedade Teorema II

    • nenhum refinamento ideal em OWL e muitas lógicas de descrição
    • indica que a aprendizagem em DLs é difícil
    • algoritmos necessitam de neutralizar desvantagens
    • objetivo: desenvolver operadores perto de limites teóricos


    Definição de \ (\ mathcal {p} \)



    Definição de \ (\ mathcal {p} \) II



    Definição de \ (\ mathcal {p} \) III



    Definição de \ (\ mathcal {p} \) IV



    TODO: Personagens .. \ (\ mathcal {p} \) Propriedades

    • \ (\ Op \) é completa
    • \ (\ Op \) é infinito, por exemplo, há uma infinidade de passos de refinamento da forma: \ (\ top \ refineop C_1 \ sqcup C_2 \ sqcup C_3 \ sqcup \ dots \)
    • \ (\ Op \) não adequada, mas pode ser estendida a um \ emph {operador \ adequada (\ opclosed \)} (refinamentos mais caro para calcular)
    • \ (\ Op \) é redundante:


    TODO: Personagens .. \ (\ mathcal {p} \) Propriedades II

    • \ (\ Op \) é completa
    • \ (\ Op \) é infinito, por exemplo, há uma infinidade de passos de refinamento da forma: \ (\ top \ refineop C_1 \ sqcup C_2 \ sqcup C_3 \ sqcup \ dots \)
    • \ (\ Op \) não adequada, mas pode ser estendida a um operador \ apropriada (\ opclosed \) (refinamentos mais caro para computar)
    • \ (\ Op \) é redundante:

    "A Requinte Operador Aprendizagem Baseada em Algoritmo para \ (\ mathcal {ALC} \) Descrição Logic",
    J. Lehmann, P. Hitzler, conferência ILP de 2008

    "Conceito de Aprendizagem em Lógica Descritiva Usando Refinamento Operadores",
    J. Lehmann, P. Hitzler, Machine Learning revista de 2010



    OCEL

    • usa \ (mathcal {p} \) para cima para baixo busca
    • OCEL está completo - é sempre encontrar uma solução, se existir
    • , por exemplo, felxible língua-alvo, critérios de terminação altamente configuráveis ​​e heurísticas
    • implementa redundância técnica eliminação com polynommial wrt complexidade. tamanho árvore de busca com base na forma normal negação ordenou
    • pode lidar com operadores de refinamento infinitos por gradual expansão horizontal limitada-length


    TODO: Stepwise Expansão Node



    Escalabilidade: Raciocínio

    \ (\ Mathcal {K} = \ {\ mathcal {masculino} \ sqsubseteq \ mathcal {pessoa} \),
    \ (\ Mathcal {} OnlyMaleChildren (a) \),
    \ (\ Mathcal {Pessoa} (a), \ mathcal {Masculino} (a_1), \ mathcal {Masculino} (a_2) \),
    \ (\ Mathcal {} hasChild (a, a_1), \ mathcal {} hasChild (a, a_2) \} \)

    • dado \ (\ mathcal {K} \), queremos aprender uma descrição de \ (\ mathcal {OnlyMaleChildren} \)
    • \ (C = \ mathcal {pessoa} \ sqcap \ forall \ mathcal {} hasChild. \ Mathcal {masculino} \) parece ser uma boa solução, mas \ (\ mathcal {a} \) não é uma instância de \ ( mathcal {C} \) sob OWA
    • idéia: desmaterializar \ (K \) usando o padrão (OWA) DL pensador, mas executar verificações de instância usando CWA
    • mais perto de intuição e dá ordem de melhorias de desempenho magnitude
    • otimizado para milhares de cheques de instância em uma base de conhecimento estático


    Escalabilidade: Stochastic Cobertura Computação

    Heurística muitas vezes exigem verificações exemplo caros ou de recuperação, como por exemplo:

    \[\begin{aligned} %\acc(C) & = \frac{1}{2} \cdot \left( \frac{\mathbf{|R(A) \cap R(C)|}}{|R(A)|} + \sqrt{\frac{\mathbf{|R(A) \cap R(C)|}}{\mathbf{|R(C)|}}} \right) %\acc(C) & = \frac{1}{2} \cdot \left( \frac{|R(A) \cap R(C)|}{|R(A)|} + \sqrt{\frac{|R(A) \cap R(C)|}{|R(C)|}} \right) \end{aligned}\]


    Escalabilidade: Stochastic Cobertura Computação II

    Heurística muitas vezes exigem verificações exemplo caros ou de recuperação, como por exemplo:

    \[\begin{aligned} %\acc(C) & = \frac{1}{2} \cdot \left( \frac{a}{|R(A)|} + \sqrt{\frac{a}{b}} \right) \end{aligned}\]
    • substituir \ (| R (A) \ cap R (C) | \) und \ (| R (C) | \) por variáveis ​​\ (a \) e \ (b \) queremos estimar
    • Wald-método para calcular o intervalo de confiança de 95%
    • primeira estimativa \ ({a} \ mathcal), então toda a expressão
    • método pode ser aplicado a várias heurísticas
    • em testes em ontologias reais até 99% menos cheques de instância e algoritmo até 30 vezes mais rápidas
    • pouca influência nos resultados de aprendizagem empiricamente demonstrado em 380 problemas de aprendizagem em 7 ontologias reais (difere em cerca de \ (0,2 \% \ pm 0,4 \% \))


    Escalabilidade: Fragmento Extraction

    Extração de fragmentos de SPARQL Endpoints / Linked Data:

    "O aprendizado de Descrições {} class sobre OWL muito grandes bases de conhecimento",
    Hellmann, Lehmann, Auer, Int. Jornal Semantic Web Inf. Syst de 2009



    Configuração de Avaliação

    • falta de padrões de avaliação em OWL / aprendizagem DL
    • procedimento: converter benchmarks existentes para OWL (demorado, exige o conhecimento de domínio)
    • medir a precisão da previsão de dez validação cruzada vezes
    • Parte 1: Avaliação contra outros sistemas de aprendizagem OWL / DL
    • Parte 2: Avaliação contra outros sistemas do ML (problema carcinogênese)
    • parte 3: avaliação da ontologia enginering


    Avaliação: Precisão

    • Coleção de 6 Benchmarks
    • OCEL frequentemente STAT. significativamente melhor do que outros algoritmos para a maioria dos benchmarks


    Avaliação: Readability

    • YinYang gera soluções significativamente mais longos


    Avaliação: Runtime



    Carcinogênese

    • objetivo: prever se compostos químicos causar câncer
    • Por quê?
      • mais de 1000 novas substâncias a cada ano
      • substâncias podem muitas vezes apenas ser testado através de experiências longas e caras em ratos e camundongos
    • conhecimento de fundo:
      • banco de dados da US National Toxicology Program (NTP)
      • convertido de Prolog para OWL

    "A obtenção de alertas estruturais precisos para as causas de cânceres químicos é um problema de grande valor científico e humanitário." (A. Srinivasan, RD King, SH Muggleton, MJE Sternberg 1997)



    Carcinogênese II

    • problema muito difícil: baixa precisão, alto desvio padrão
    • OCEL estatísticas. assinar. melhor do que a maioria das outras abordagens


    Ontologia Avaliação da Aprendizagem

    • 5 studens doutorado
    • 5 ontologias reais em domínios diferentes
    • 998 decisão de cada pessoa de teste durante 92 aulas
    • em 35% dos casos aceito sugestões para melhorias ontologia
    • problema: a qualidade ontologia, erros de modelagem (classes insatisfatível, disjunção e conjunção confundido etc)


    DL-aluno do Projeto

    • DL-Learner Open-Source-Projekt: http://dl-learner.org, http://sf.net/projects/dl-aluno
    • plataforma extensível para diferentes problemas de aprendizagem e algoritmos
    • Interfaces: linha de comando, GUI, Web-Service
    • suporta os formatos de coruja comum
    • permite que diferentes pensadores (via API OWL, DIG, OWLLink)
    • mloss.org (ML & Open Source Software): 1600 Downloads


    Aplicações

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas


    Aplicações II

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas
    • Aprendizagem Ontologia
      • Protégé Plugin


    Aplicações III

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas
    • Aprendizagem Ontologia
      • Protégé Plugin
      • OntoWiki Plugin


    Aplicações IV

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas
    • Aprendizagem Ontologia
      • Protégé Plugin
      • OntoWiki Plugin
      • ORE


    Aplicações V

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas
    • Aprendizagem Ontologia
      • Protégé Plugin
      • OntoWiki Plugin
      • ORE
    • Recomendação / Navegação
      • moosique.net


    Aplicações VI

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas
    • Aprendizagem Ontologia
      • Protégé Plugin
      • OntoWiki Plugin
      • ORE
    • Recomendação / Navegação
      • moosique.net
      • DBpedia Navigator


    Aplicações VI

    • ML problemas "clássicos"
      • carcinogênese
      • outras tarefas biomédicas
    • Aprendizagem Ontologia
      • Protégé Plugin
      • OntoWiki Plugin
      • ORE
    • Recomendação / Navegação
      • moosique.net
      • DBpedia Navigator
    • outro / externo:
      • ISS (Gerken et al.)
      • Aprendizagem em DLs probabilístico (Ochoa Luna et al.)
      • TIGER Corpus Navigator (Hellmann et al.)


    Conclusões

    • Ontologia Aprender é uma área de pesquisa diversificada que envolve várias disciplinas de pesquisa (PNL, aprendizagem de máquina, Ontologia Engenharia)
    • abordagens variam em fontes de dados utilizadas ea expressividade das ontologias criadas
    • aprendizagem operador de refinamento com base em um método para definições de aprendizagem (com aplicações fora de ontologias de aprendizagem)
    • novo Wiki (em construção): http://ontology-learning.net
    • novo livro de aprendizagem de ontologias em 2011




    Creator: darya (VUA)

    Contributors:
    -


    Licensed under the Creative Commons
    Attribution ShareAlike CC-BY-SA license


    This deck was created using SlideWiki.