YELLOW PAGES^* DE RECURSOS INTERNET

Joaquim Macedo, Maria J. N. Pinto, Miguel Rio, Vasco Freitas

Departamento de Informática
Universidade do Minho
4700-320 Braga,
Portugal

Tel.: +351 253 604470
Fax.: +351 253 604471
Email: {macedo,joao,rio,vf}@di.uminho.pt

Paper presented at the I National WWW Conference - Multimedia Information on the Internet,
Universidade do Minho, Braga, Portugal, Jul 6-8, 1995 (in Portuguese).

^* Reinvidicação de Marca Registada

Em 12/4/97, substituiu-se neste texto o termo técnico original em português, por yellow pages, devido ao facto da Empresa Páginas Amarelas, S.A., uma Empresa da Portugal TELECOM e da ITT World Directories, ter dirigido uma carta à Universidade do Minho do seguinte teor:
"Tomámos conhecimento que o Departamento de Informática dessa Universidade está a usar abusivamente a marca Páginas Amarelas (R), propriedade da nossa Sociedade e devidamente registada no Instituto Nacional de Propriedade Industrial.
Em face do exposto, solicitamos que cessem de imediato a referida utilização, sob pena de recurso às vias legais adequadas."
A alteração efectuada não significa o reconhecimento pelos autores desta reinvidicação.

^* Trade Mark Claim

On the 12/4/97, we replaced in this text the original technical term in the Portuguese language by the term yellow pages, due to the fact that the Company Páginas Amarelas, S.A. (páginas=pages, amarelas=yellow), a Company owned by Portugal TELECOM and ITT World Directories, had addressed a letter to the Universidade do Minho saying:
"We were let known that the Department of Informatics of that University is abusively using the trademark Páginas Amarelas (R), a property of our Company and duly registered at the National Institute of Industrial Property.
In face of the above, we ask you to immediately cease that usage, otherwise legal action will be taken."
The modification made does not mean that the authors acknowledge the claim.

Keywords: yellow pages, global information infrastructure, indexing, centroids, URI, resource classification
Palavras chave: yellow pages, Infra-estrutura global de informação, Indexação, Centroids, URI, Classificação de recursos

Abstract

In this paper we present a strategy for the design and development of a Yellow Pages service of Internet resources which tries to overcome, or at least reduce, the limitations of currently existing services. Referals to classified resources are kept in html pages organised in a hierarchy of titles which may be updated by adding or removing titles.

Such a Yellow Pages service is supported by a distributed indexing infrastructure based upon centroid technology allowing for an automatic updating of classified resources. Indexed resources are associated to each title according to a set of predefined requirements.

Because the indexing infrastruture is based upon information provided by the urn2urc service, it is potentially possible to classify all existing network resources.

Resumo

Neste artigo, apresenta-se uma estratégia para a concepção e desenvolvimento de um serviço de Yellow Pages de recursos Internet, em que se tenta ultrapassar, ou pelo menos minimizar as insuficiências dos serviços actualmente existentes. As referências a recursos classificados são mantidas em páginas html organizadas de acordo com uma hierarquia de títulos. Esta pode ser actualizada com a adição ou remoção de títulos.

Um tal serviço de Yellow Pages é suportado por uma infra-estrutura de indexação distribuída baseada na tecnologia dos centroids. Este facto permite automatizar a actualização dos recursos classificados. Os recursos indexados são associados a cada título de acordo com um conjunto de requisitos pré-estabelecidos.

Como a infra-estrutura de indexação se baseia na informação disponibilizada pelo serviço urn2urc, considerado indispensável, é potencialmente possível classificar todos os recursos existentes na Rede.

1 - Objectivos

Pretende-se com este trabalho especificar, conceber e posteriormente implementar um serviço de Yellow Pages para os recursos disponíveis na Internet: utilizadores, grupos de discussão, documentos, software serviços, etc... Embora a designação yellow pages seja tradicionalmente usada para hierarquias com apenas um nível de títulos, esta terminologia é aqui utilizada num sentido mais lato.

Impõe-se um mecanismo de classificação que possa ser universal, isto é que permita classificar os diversos tipos de recursos disponíveis. São posteriormente colocadas referências para os recursos classificados na hierarquia existente, de acordo com condições de classificação de cada título. O conjunto de condições permite determinar as propriedades dos recursos que, de acordo com o mecanismo de classificação, podem ser referenciados sob esse título. Tipicamente, os recursos de um mesmo título estão organizados por ordem alfabética, embora em alguns casos a localização geográfica possa ser um bom critério de ordenação.

As Yellow Pages devem ser actualizadas automaticamente, no sentido de estarem consistentes com os recursos existentes. Também são necessários mecanismos que permitam a modificação da hierarquia. Essa modificação deverá depender dos recursos classificados (a existência de muitos recursos num mesmo título pode aconselhar o seu refinamento em sub-títulos) e dos utilizadores (mecanismos democráticos à semelhança da hierarquia USENET).

Outra funcionalidade que pode ser importante, embora opcional, é o estabelecimento de relações entre os nós da hierarquia e nós de outras hierarquias de classificação. Isto pode permitir a incorporação de recursos já classificados noutro contexto. O serviço deverá oferecer um mecanismo de [1] navegação através das yellow pages existentes. Um sistema de interrogações para a informação classificada, pode ser uma alternativa à navegação, permitindo ao utilizador o acesso directo à informação.

Neste artigo, parte-se da avaliação das hierarquias de classificação e serviços de indexação actuais, para sintetizar as suas virtualidades no serviço de Yellow Pages a propôr. Futuramente, este serviço será usado para, em face das insuficiências detectadas, ensaiar os mecanismos e soluções adequados à dimensão da Internet.

2 - Estado actual

A grande quantidade de informação presentemente disponibilizada através do WWW e dos restantes serviços de informação Internet, torna indispensável a existência de serviços de indexação e classificação que permitam ao utilizador encontrar o recurso ou informação desejados. A seguir, faz-se uma análise dos serviços de indexação e classificação existentes considerados relevantes, para avaliar em que medida permitem satisfazer as necessidades dos utilizadores.

2.1 - Hierarquias de classificação

Consideraram-se os serviços de classificação existentes na Internet e outros considerados relevantes. Relativamente aos serviços da Internet, foram estudadas como hierarquias de classificação outros espaços de informação que não poderiam ser estritamente considerados como tal, mas que utilizam paradigmas de pesquisa de informação semelhantes. A razão principal desta abordagem abrangente é a suposição prévia que este tipo de serviços ainda se encontram numa fase incipiente na Internet.

2.1.1 - Yellow Pages Telefónicas e de Fax

A informação disponibilizada nas Yellow Pages corresponde aos números de telefone ou fax de organizações e pessoas. A organização das Yellow Pages[1] é rigorosamente alfabética por títulos representativos das diversas actividades, profissões ou serviços. Existe apenas um nível na hierarquia de títulos. Sob cada título, também em ordem alfabética, encontram-se dispostos os nomes das entidades e pessoas ligadas à actividade enunciada. Para títulos em que a informação tem apenas interesse por localidade, a organização é geográfica.

Como determinadas actividades são usualmente conhecidas por mais que uma designação, foram criados títulos remissivos que indicam sob que título deverá ser procurado o serviço ou produto desejado (entradas veja ...) De igual forma, porque há actividades que se relacionam com outras com as quais têm afinidades, existe um segundo tipo de títulos, os títulos relacionados, que lembram a conveniência em consultar os chamados títulos afins (entradas veja também).

2.1.2 - Yellow Pages no WWW

Existe uma grande variedade de sistemas de yellow pages no WWW, todos eles têm o mesmo objectivo: classificar os recursos Internet. Pela grande popularidade que possui, estudou-se com mais detalhe o Yahoo [2] e a sua hierarquia de classificação.

O Yahoo é uma base de dados de links para recursos, organizada numa hierarquia de assuntos. Pretende ser uma base de dados genérica com espaço para recursos sobre uma grande variedade de assuntos. A hierarquia de assuntos está pré-definida e não cabe aos utilizadores enriquecê-la. Os recursos são registados manualmente pelos próprios utilizadores do sistema através do preenchimento de um formulário.

Além da possibilidade navegarem pela hierarquia de assuntos, o Yahoo oferece aos utilizadores facilidade de efectuarem interrogações(por palavras chave) à base de recursos registados. Não há qualquer limitação do espaço de pesquisa determinado pela posição do utilizador na hierarquia.

A maior parte dos sistemas de yellow pages estudados têm estas características. Há alguns que utilizam uma hierarquia de classificação que pode ser enriquecida pelos próprios utilizadores do sistema, como por exemplo, a [2]GENVL [3]. A WWW Virtual Library do CERN permite além da navegação, efectuar interrogações em cada nó da hierarquia. Neste caso, o espaço de pesquisa é limitado aos recursos existentes na sub-árvore cuja raiz é o nó onde se faz a interrogação.

2.1.3 - Servidores ftp anónimo e gopher

Nos servidores ftp [4] anónimo e gopher [5] são disponibilizados ficheiros dos mais diversos tipos que vão desde documentos, programas, imagens, etc. A extensão do nome de cada ficheiro é atribuída de acordo com o respectivo tipo. Os diferentes servidores ftp e gopher existentes na Internet são organizados segundo uma determinada hierarquia onde se tenta, de certa forma, fazer uma espécie classificação. Quanto melhor for essa classificação mais intuitivo se torna para os utilizadores encontrar o ficheiro ou a informação desejada. Assim podemos pensar que o pathname de um determinado recurso contém geralmente, de uma forma implícita, informação que pode ajudar na sua classificação. Quando o mesmo recurso é disponibilizado em vários locais com diferentes pathnames essa informação é mais rica. Existem serviços de interrogação para espaços de informação ftp anónimo e gopher, disponibilizados respectivamente pelo Archie [6] e Veronica [7].

2.1.4 - News da Usenet

A informação disponibilizada corresponde a artigos de grupos de discussão submetidos pelos utilizadores. A Usenet News [8] é uma hierarquia de milhares grupos de discussão onde se discute tudo o que se possa imaginar! Existem desde grupos para actividades recreativas (REC) até grupos de discussão de assuntos científicos (SCI). As hierarquias vão-se especializando à medida que se criam diferentes grupos de interesse e há métodos democráticos para se criarem novos grupos na hierarquia. Essas regras são estabelecidas para cada hierarquia. A hierarquia tem normalmente um máximo de 5 a 6 níveis.

2.1.5 - Bibliotecas

Imagine-se numa biblioteca onde os livros, revistas e outras publicações são colocados aleatoriamente em salas e estantes, sem qualquer catálogo... Perdia-se um tempo infinito para encontrar a informação desejada! Assim as bibliotecas são geralmente organizadas de acordo com uma hierarquia de assuntos extraída de um thesaurus [9]. Para além da ajuda preciosa dos funcionários, a maioria das bibliotecas disponibiliza terminais para interrogação de uma base de dados usando palavras chave, autores, ano de publicação, etc... O serviço de pesquisa oferecido pelas bibliotecas é normalmente designado por [3]OPAC.

2.1.6 - Avaliação

Os vários serviços de classificação são usados para um determinado tipo de recursos, tendo um âmbito limitado de utilização. Existem os mais diversos mecanismos de classificação, mesmo para um mesmo tipo de recursos o que faz com que se usem diferentes hierarquias de classificação. A quase inexistência de ferramentas de classificação automáticas dificulta a actualização da informação disponibilizada.

A designação de serviço de Yellow Pages, quer nos telefones como no WWW, é usada apenas quando a hierarquia tem apenas um nível de títulos. A hierarquia de classificação pode ser pré-definida ou adaptável aos classificáveis em presença.

Outro aspecto importante é a forma como se detecta a existência de um novo recurso ou modificações na informação dos recursos já classificados. Em todos os sistemas estudados, o registo de novos recursos e a sua actualização é feita pelos utilizadores. Alguns destes serviços oferecem alternativamente um interface para interrogações baseado num serviço de indexação da informação classificada. O espaço de pesquisa pode ser ou não limitado pela posição na hierarquia. Uma síntese comparativa das várias hierarquias estudadas é apresentada no quadro seguinte

Nome	Yellow pages	Yahoo	GENVAL	WWW VL	ftp/gopher	news	bibliotecas
Tipo de recurso	organizações pessoas	documentos organizações pessoas	documentos organizações pessoas	documentos organizações pessoas	documentos software	artigos em grupos de discussão	publicações
Modificação da hierarquia	fornecedor	fornecedor	utilizadores	fornecedor utilizadores	fornecedor	utilizadores
Atributos de classificação	actividade profissao	tema	tema	tema	tema serviço plataforma autor	tema	tema
Classificação do recurso	fornecedor	pessoa que regista	pessoa que regista	pessoa que regista	fornecedor	utilizador	fornecedor
Organização no título	alfabética geográfica	alfabética	alfabética	alfabética geográfica	alfabética	data assunto	autor
registo de recurso	fornecedor	utilizador	utilizador	utilizador	fornecedor	utilizador	fornecedor
Interface de interrogação		sim espaço total	não	sim	sim Archie Veronica		sim OPAC
Níveis na hierarquia	1	quaisquer	1	3	quaisquer	quaisquer	quaisquer

2.2 - Serviços de indexação

Faz-se uma avaliação dos serviços de indexação existentes com base num estudo dos serviços que a este nível pareceram os mais significativos.

2.2.1 - ALIWEB, Archie e Veronica

Como o próprio nome indica, o[4] ALIWEB [10] é um sistema inspirado no Archie. Enquanto o Archie é um sistema de indexação dos ficheiros disponíveis nos servidores ftp anónimo, o ALIWEB indexa os recursos disponíveis nos servidores http. Da mesma forma que o Archie, o ALIWEB vai periodicamente buscar a cada servidor http um ficheiro previamente preparado com todos recursos considerados de interesse. Com base nos ficheiros encontrados nos servidores http visitados, constrói ou actualiza a sua base de dados que pode ser pesquisada por um cliente próprio. A lista de recursos é preparada manualmente pelos administradores dos servidores http. Para cada recurso, é necessário preencher um formulário apropriado com alguns atributos, nomeadamente título, descrição e palavras chave. O Veronica é um serviço de indexação análogo para o espaço Gopher.

2.2.2 - WAIS

O [5]WAIS [11], é um sistema de publicação electrónica de documentos numa rede de computadores, baseado no modelo cliente-servidor. O cliente é a interface com o utilizador. O utilizador faz interrogações que o cliente traduz e transmite através da rede ao servidor. O servidor interage com uma ou mais base de dados WAIS, também chamadas fontes. Além de indexar as suas bases de dados de forma a conseguir responder rapidamente às interrogações, o servidor é o responsável por ir buscar os documentos completos à base de dados, caso o utilizador assim o deseje.

O utilizador pode desejar interrogar um conjunto de fontes, ou até a sua totalidade. Para que isso seja possível sem que o utilizador tenha que memorizar todas as fontes disponíveis, é mantida numa base de dados a descrição de todos servidores WAIS disponíveis. Essa base de dados é indexada por um servidor WAIS, e pode ser interrogada como qualquer outra fonte. Assim, quando o utilizador não sabe qual é a fonte onde está a informação que procura, pode interrogar este servidor e obter uma lista de fontes onde pode encontrar o que deseja.

Qualquer cliente que seja capaz de traduzir as interrogações dos utilizadores para este protocolo pode ser usado neste sistema. Desta forma, através de gateways próprios, é possível aceder ao WAIS usando como interface outros sistemas de informação tais como o gopher, o WWW, etc. Da mesma maneira qualquer servidor pode exportar um índice da sua base de dados para um servidor WAIS. Por exemplo, um servidor http pode, utilizando software específico, exportar um índice das suas páginas html para um servidor WAIS.

2.2.3 - Centroids

A tecnologia dos centroids [12], está em estudo para ser proposta como método normalizado de indexação distribuída na Internet. Um centroid é uma estrutura de dados usada para exportar informação de indexação relativa à base de dados de um determinado servidor.

A arquitectura destes sistemas baseia-se em duas componentes: os servidores folha e os servidores de índices.

Os servidores folha interagem directamente com as bases de dados e geram os centroids que exportam para servidores de índices. Estes mantêm os índices que lhes permitem posteriormente direccionar para o servidor adequado as interrogações dos utilizadores. Um centroid de um servidor folha é constituído por uma lista dos registos e respectivos atributos, e por uma lista de palavras por cada atributo. Esta lista de palavras por atributo contém uma ocorrência por cada palavra que aparece pelo menos um vez nos valores desse atributo, em alguma entrada da base de dados desse servidor.

Os centroids dos servidores de índices são baseados na concatenação de todos os centroids que constituem a sua base de dados. O conjunto dos servidores de índices está organizado de forma hierárquica, designado por em directory mesh [13]. O nível mais baixo é constituído pelos servidores em folha e o nível imediatamente acima pelos servidores de índices que contêm os seus centroids, e assim sucessivamente. Desta forma, mantém-se uma infra-estrutura de indexação com capacidade de encaminhar a interrogação [13] do utilizador até ao servidor de informação adequado.

Existe bastante trabalho desenvolvido em torno da tecnologia dos centroids principalmente no âmbito de grupos de trabalho do IETF. Já foram propostos o SOLO [14] e o Whois++ [15], dois protocolos de suporte a serviços de indexação baseados nos centroids. Recentemente, foi proposta uma extensão ao Whois++, o Common Indexing Protocol(CIP) [16]. A ideia subjacente ao CIP é permitir que diferentes protocolos (X.500, Whois++, Solo, LDAP, etc...) usem a mesma infra-estrutura de índices para indexarem a suas bases de dados. Para tal, é necessário que os servidores dos vários protocolos sejam capazes de gerar centroids e possam ser indexados pelos servidores de índices. Desta forma o directory mesh em princípio estará organizado de forma hierárquica, com base na localização dos servidores.

2.2.4 - Avaliação

Do estudo efectuado conclui-se que existem diferentes abordagens quanto à informação que é usada para indexação. Há sistemas que indexam apenas o nome ou título do documento (Archie), sistemas que usam um[6] sumário da informação (ou meta-informação) a respeito do recurso (ALIWEB, Whois++), até sistemas que indexam toda a informação disponível no [7] recurso (WAIS). Também é importante saber se a informação é indexada apenas como um conjunto indiscriminado de palavras chave ou se é indexada de uma forma qualificada isto é em função de determinados atributos da meta-informação.

Outro factor de avaliação é a existência ou não de vários níveis de indexação e capacidade de encaminhamento de interrogações [13]. Tendo em conta estes aspectos, foi construído o quadro que se segue em que são sintetizados os vários sistemas de indexação estudados. Embora o OPAC não tenha sido descrito, foi incluído no quadro comparativo.

Nome	Archie	ALIWEB	Veronica	WAIS	OPAC	Whois++
Tipo de recurso	recursos FTP	recursos WWW	recursos gopher	documentos	publicações	documentos pessoas organizações outros
Fonte para indexação	nome	sumário	nome	texto completo	sumário	sumário
Indexação qualificada por atributo	sim nome	não	sim nome	não	sim autor título ano	qualquer
Colecção de fontes	ditribuída	ditribuída	ditribuída	ditribuída	centralizada	ditribuída
Actualização de índices	centralizada	centralizada	centralizada	ditribuída	manual	ditribuída
Hierarquizacao de índices	não	não	não	sim 2	não	sim qualquer numero
Encaminhamento de interrogações	não	não	não	não	não	sim

2.3 - Discussão geral

A análise dos esquemas de classificação existentes, permite concluir que estes ainda se encontram numa fase bastante incipiente, quer nos aspectos da classificação como na existência de uma abordagem universal e escalável para ser usada na Internet. Outra conclusão importante é a necessidade de tomar como ponto de partida o conhecimento adquirido pelos documentalistas com as modificações exigidas pela universalidade do tipo de recursos e da quantidade de recursos a classificar.

Relativamente aos serviços de indexação, a utilização da tecnologia dos centroids, embora ainda numa fase de concepção e desenvolvimento, parece a abordagem adequada para encontrar uma solução para um serviço de indexaçã universal na Internet. Constatada a estreita relação entre os serviços de indexação e hierarquias de classificação e tendo em conta as potencialidades da tecnologia dos centroids, pretende-se neste trabalho desenvolver um serviço de Yellow Pages baseado na tecnologia dos centroids e avaliar as vantagens decorrentes desta abordagem.

3 - Serviço de Indexação de suporte

Nos vários sistemas de indexação e classificação atrás apresentados, a informação fonte poderia ser o nome do recurso, meta-informação sobre o recurso ou a indexação total do próprio recurso. Por qual delas optar? Decidiu-se usar a meta-informação disponibilizada sobre os recursos por uma série de razões:

Usar uma abordagem uniforme na classificação dos diferentes tipos de recursos. Com excepção dos documentos, os restantes recursos não podem ser analisados com base na análise do seu próprio conteúdo.
A meta-informação sobre os diferentes recursos já tem que ser disponibilizada por serviços básicos, como o serviço de resolução urn2urc. Desta forma a divulgação e a disponibilidade do sistema não dependem da vontade de quem publica os recursos.
Só desta forma é possível beneficiar das potencialidades de indexação dos centroids.

Deste modo, pressupõe-se a existência de uma infra-estrutura universal de indexação em que os vários tipos de servidores informação em presença são capazes de gerar centroids exportáveis para um whois++ directory mesh numa abordagem interina em direcção a um protocolo comum de indexação. E parte-se do príncipio que está operacional um serviço de resolução urn2urc [17] como principal responsável pela informação fonte para indexação de recursos.

Para além da infra-estrutura comum de indexação, para que as organizações possam beneficiar das facilidades decorrentes da persistência dos nomes e da transparência de localização e replicação dos recursos de informação da Rede, precisam de efectuar a migração de URLs [18] para os URNs [19] [20]. A seguir, são apresentados os passos necessários nessa direcção.

3.1 - Migração para URNs

Para se efectuar a migração para um serviço de informação baseado em URNs, têm que ser seguidos alguns procedimentos.

3.1.1 - Atribuição de URNs

Uma organização que deseje ser responsável pela publicação de documentos, deve dispor de um sistema de atribuição de URNs. Para cada novo recurso tem de haver um processo humano ou automático de lhe atribuir um URN único de forma a ser univocamente identificado. A última parte do URN denominada string opaca [21] apesar de não ter interesse no que toca à resolução urn2urc deverá conter o máximo de meta-informação sobre o recurso.

3.1.2 - Serviço de resolução urn2urc

Terá de manter um serviço de resolução baseado, em príncipio, num servidor whois++ responsável por fazer o mapeamento de urns em urcs. Quando precisar de aceder a um recurso, um cliente WWW ou um servidor proxy http, contacta o servidor da organização que publicou o recurso para converter o URN no respectivo URC [22] [20]. O URN deverá conter informação que permita, directa ou indirectamente, determinar o servidor responsável pela manutenção da meta-informação do recurso. Para efeitos de eficiência e tolerância a faltas a organização deverá manter um ou mais servidores secundários com a informação replicada, que consigam responder às mesmas interrogações.

Figura 1: Arquitectura Geral

3.1.3 - Registo de originais e de cópias

Para que os próprios utilizadores possam registar automaticamente os seus documentos deverá ser disponibilizado um interface amigável para que eles próprios introduzam a meta-informação respeitante ao seu recurso. Como já se disse anteriormente, um thesaurus pode ser um recurso bastante útil na validação desta meta-informação, quer verificando a existência das palavras chave, quer acrescentando redundância à meta-informação. Para o registo de cópias são também necessários procedimentos de registo em larga escala para a informação replicada por mirror

4 - Utilização de thesaurus

Pelo o que foi dito atrás, estes sistemas devem tomar como ponto de partida a experiência de classificação dos documentalistas . Nesse sentido, a utilização de um thesaurus num sistema deste tipo aumenta substancialmente a qualidade de serviço oferecido. Um thesaurus tem uma função de certo modo inversa à do dicionário. Enquanto este pretende explicar o significado de uma palavra ou termo, o thesaurus pretende ajudar a encontrar a palavra ou termo certo para expressar determinado conceito.

Os thesauri são bastante úteis para os diferentes intervenientes no fornecimento da informação em papel ou suporte digital. É por esta razão que constituem há bastante tempo ferramenta importante para a classificação da informação. As entradas do thesaurus são de dois tipos: termos e entradas remissivas (sinónimos). Estas últimas são usadas em referências cruzadas para conduzir o utilizador aos termos mais apropriados. Para permitir vários cenários, os thesauri podem ser organizados em várias partes: thesaurus de termos, índice permutado, índice hierárquico de assuntos, etc...

O thesaurus [9] pode ser bastante útil nos seguintes cenários:

Na criação da meta-informação, escolher palavras-chave que sejam entradas do thesaurus e colocar a máxima redundância possível (sinónimos, termos relacionados, etc...).
Utilização à posteriori para avaliar a qualidade da meta-informação disponível.
Na elaboração das condições de classificação, é de bom tom incluir nas condições os vários sinónimos disponibilizados pelo thesaurus
Nas interrogações feitas pelos utilizadores, tentar completar com informação disponibilizada pelo thesaurus
Os títulos, quando fizer sentido (porque há determinado tipo de informação que normalmente não consta do thesaurus) devem ser entradas de nível superior do índice hierárquico do thesaurus. Nesse caso, as condições de classificação podem e devem ter em consideração as entradas subordinadas nesse mesmo índice hierárquico.
Se se usarem títulos que sejam entradas de um thesaurus, este pode ser utilizado para definir os títulos remissivos e relacionados.

5 - Solução proposta

Figura 2: Sistema de Gestão das Yellow Pages

Pretende-se basear este serviço de Yellow Pagesna tecnologia dos centroids de forma a tornar possível a utilização das diversas potencialidades disponíveis. Assim, os componentes fundamentais do sistema proposto são os seguintes (ver figura 1):

Uma hierarquia de títulos com as condições de classificação para cada nó da hierarquia.
Um conjunto de páginas html que constituem as yellow pages. O conteúdo dessas páginas são os nomes dos recursos com hiperlinks suportados por URNs ou URLs dos recursos e outras yellow pages.
A interface de interrogação nessas páginas é suportada por um gateway http-whois++. As interrogações dos utilizadores são qualificadas com condições de acordo com a sua posição na hierarquia. Para além disso são enriquecidas com sinónimos extraídos de um thesaurus.
Um sistema de gestão que é a componente mais complexa e será detalhado posteriormente. A actualização das yellow pages é feita pelo sistema de gestão que as classifica e coloca os URIs nas yellow pages correctas. Isto é conseguido com interrogações ao directory mesh feitas com ajuda de um cliente whois++.

Na figura 2 é apresentado o sistema de gestão das páginas que contém os módulos a implementar. Todos os outros componentes do sistema são protótipos já disponíveis ou desenvolvidos no âmbito de outros projectos [23] [24]. Existe um detector de URLs ou URCs divulgados via newsgroups e que podem ser classificados, tomando o grupo de discussão como informação de classificação. Há um programa, que é activado periodicamente, designado por sistema de classificação que faz interrogações ao directory mesh usando como referência as condições existentes na hierarquia de classificação. Os resultados desse programa são transformados em páginas html que constituem as yellow pages.

Figura 3:Hierarquia e condições de classificação

O registo das estatísticas de acesso às yellow pages pode ser tomado em consideração pelo sistema de classificação para alterar a hierarquia de classificação.

5.1 - Hierarquia de classificação

O sistema proposto é independente da hierarquia de classificação escolhida. É, no entanto, apresentado na figura 3 um exemplo com um sub-conjunto da hierarquia, correspondente à "classificação" de computing Podem-se ver representados os nós com os seus títulos, as relações hierárquicas entre eles e, entre chavetas, as condições de classificação de alguns nós. Assim, no nó computing deseja-se ter URCs de documentos sobre computadores, no nó networking pessoas ligadas a redes de computadores e no nó X.25 organizações com endereços X.121. É de salientar que um nó pode ser caracterizado por mais que uma condição de classificação (por exemplo, o nó TCP/IP onde cabem documentos sobre TCP/IP e sobre a Internet).

5.2 - Algoritmo de classificação

Classificar os recursos consiste em colocá-los num nó da hierarquia de classificação. Associado a cada título, existe um conjunto de condições de classificação que permite construir as interrogações ao serviço de indexação que, por sua vez, devolve os recursos a colocar nesse nó da hierarquia. Deste modo, quando é obtida a meta-informação sobre um recurso este já está, à priori, classificado no nó cujas condições de classificação deram origem à interrogação. Para evitar que os recursos que já estão num determinado nó façam parte dos seus ascendentes, a árvore é preenchida recursivamente utilizando um percurso pós-fixo e memorizando os URIs colocados em páginas já construídas. Como já foi dito, o sistema assenta no directory-mesh do whois++. Para encontrar recursos o sistema questiona um ou mais servidores whois++. Por exemplo, se fosse feita a seguinte interrogação:

whois template=PERSON and networking

% 200 Search is executing # FULL PERSON LABCOM1 UM4 NAME: Maria Joao Nicolau INTERESTS: Computer communications and networking POSITION: MSc Student E-MAIL: joao@uminho.pt # END # FULL PERSON LABCOM1 UM3 NAME: Joaquim Macedo POSITION: Lecturer INTERESTS: Computer communications and networking E-MAIL: macedo@uminho.pt # END

5.3 - Actualização das Yellow Pages

Um problema a resolver é a definição do mecanismo a utilizar para manter as yellow pages actualizadas. Encontraram-se duas abordagens alternativas para fazê-lo:

Programa para preenchimento das yellow pages
Yellow pages suportadas por um mecanismo de caching

Na primeira abordagem, a árvore de classificação é preenchida automaticamente por um programa que pode ser activado periodicamente ou sincronizado com a actualização de centroids no servidor de indexação que integra este sistema. No entanto há um problema que é necessário ter em conta quando se trabalha com servidores de indexação de segundo nível ou superior: a sintetização de centroids faz com que possa haver mudanças em centroids de nível inferior que não se façam reflectir nos níveis superiores [12]. Todas as modificações são reflectidas apenas nos servidores de índices do primeiro nível. Por este motivo, as actualizações são para já activadas por um tempo de vida fixo da informação.

Esta abordagem tem a vantagem de dispensar o mecanismo de caching de interrogações. Como desvantagem, assinale-se o facto de ser necessário manter toda a informação nas Yellow Pages, inclusivé nas que nunca foram acedidas.

Na segunda abordagem, uma página amarela é actualizada quando algum utilizador acede pela primeira vez ou quando é necessário actualizar a informação mantida em cache Embora seja a solução mais simples, baseia-se num mecanismo de caching de interrogações, problema esse que ainda não está resolvido nos servidores proxy Presentemente não é guardada informação para URLs que correspondam a interrogações. Esta análise fez-nos optar, pelo menos numa primeira fase, pela primeira abordagem.

5.4 - Yellow Pages Distribuídas

Suponhamos que temos várias organizações com o serviço de urn2urc em perfeito funcionamento e o seu servidor whois++ integrado no whois++ directory mesh. Se cada organização mantiver o seu serviço de yellow pages anteriormente apresentado e catalogar os seus recursos usando uma mesma hierarquia e o mesmo algoritmo de classificação (baseado na colocação de condições nos vários nós da hierarquia), bastará haver um sistema apropriado de mirroring de URIs nos vários títulos da hierarquia para que conjuntamente os vários servidores forneçam um serviço de yellow pages.

Cada sistema de yellow pages terá nesse caso de interrogar o servidor whois++ local. Se um servidor pretender classificar recursos de várias organizações, bastará interrogar o whois++ directory mesh com as restrições apropriadas. Com essa abordagem é possível por exêmplo ter um serviço de Yellow Pagesa nível mundial baseado num conjunto de servidores de yellow pages por país. Em resumo, com apenas algumas alterações pode suportar um serviço de Yellow Pages distribuído.

6 - Avaliação do serviço proposto

Os módulos componentes do sistema proposto ainda não se encontram implementados na sua totalidade, pelo que é difícil a avaliação global. Pela simplicidade dos aspectos a implementar, as dificuldades principais prendem-se principalmente com o estado preliminar do software de indexação disponível. Outro obstáculo importante a transpor é o da existência de um thesaurus actualizado e organizado nas partes indispensáveis aos vários cenários de utilização. Os que estão acessíveis na rede são bastante antigos e incompletos. Por este motivo, não se dispõe presentemente de dados de avaliação quantitativos mas apenas qualitativos.

Podem-se enumerar as seguintes vantagens, relativamente a serviços de yellow pages existentes:

Pelo facto de ser baseado numa infra-estrutura universal de indexação, o espaço de recursos classificáveis é maior e mais diversificado. Pode-se pensar na potencial classificação de todos os recursos disponíveis na Rede.
Permite explorar a possibilidade de caminhar em direcção à automatização da classificação e incorporação de novos recursos já que a meta-informação utilizada para esse efeito é disponibilizada por um serviço indispensável que é a resolução de URNs em URCs.
O sistema pode suportar um serviço de Yellow Pages distribuído com algumas modificações pontuais.

A avaliação do serviço de Yellow Pages proposto, com auxílio dos parâmetros utilizados para avaliar os sistemas de classificação existentes, conduz a resultados francamente animadores (ver síntese no quadro 3.

Nome	Sistema proposto
Tipo de recurso	pessoas organizações documentos outros
Modificação da hierarquia	Trabalho futuro
Atributos de classificação	qualquer um incluído nos registos existentes
Classificação do recurso	fornecedor
Organização alfabética	alfabética geográfica
registo de recurso	importado de urn2urc
Interface de interrogação	Sim Whois++ ou CIP
Níveis na hierarquia	quaisquer

A chave das vantagens deste sistema relativamente aos existentes tem a ver com o facto de ser suportado por uma tecnologia de indexação concebida para a Internet. De facto, se considerarmos os centroids com um mecanismo de troca de informação de encaminhamento entre servidores de [8] índices, podem ser estabelecidas analogias interessantes com técnicas e mecanismos tradicionalmente usados na camada de rede Internet, nomeadamente o controlo da propagação da informação de encaminhamento. Se se colocarem restrições temáticas na exportação de centroids, utilizando informação retirada dos thesauri, pode-se estudar a viabilidade de construir um directory mesh temático e diluir, cada vez mais, as fronteiras entre a indexação e a classificação. Outra possibilidade é estabelecer essas restrições com base no interesses dos utilizadores.

7 - Trabalho futuro

A avaliação qualitativa deste sistema é bastante favorável, mas os requisitos de indexação limitam bastante a possibilidade de utilização imediata. Daí que haja necessidade de emular a infra-estrutura de indexação com outras ferramentas correntemente em largo uso que permitam a colecção da meta-informação necessária ao seu funcionamento: registo pelos utilizadores, geração de URCs da informação nos mirrors uso de robots nos vários espaços de informação, etc... Só assim será possível ter o sistema em funcionamento real durante o período de migração para os URNs. A exploração da utilização dos thesauri é uma direcção bastante complexa mas prometedora na evolução deste sistema. Precisam de ser estudados e introduzidos no sistema mecanismos que permitam adequar a hierarquia de títulos aos recursos classificáveis e aos interesses dos utilizadores. Finalmente, outra direcção de desenvolvimento é o estudo de mecanismos para controlo e filtragem da informação trocada para encaminhamento de interrogações.

Referências:

[1]Portugal Telecom. Yellow Pages (leia-se em português), Portugal Telecom, 1995.

[2] David Filo and Jerry Yang. The yahoo directory. , 1995.

[3] Oliver A. McBryan. Genvl and wwww: Tools for taming the web. , In Proceedings of the First International World Wide Web Conference. CERN, May 1994.

[4] J. Postel and J. Reynolds. Rfc 959 file transfer protocol. , October 1985.

[5] F. Anklesaria, M. McCaHill, P. Lindner, D. Johnson, D. Torrey, and B. Alberti. Rfc 1436 - the internet gopher protocol (a distributed document search and retrieval protocol). , March 1993.

[6] Peter Deutsch and Alan Emtage. The archie system: An internet electronic directory service. ConneXions, vol.6, No.2, February 1992.

[7] Steve Foster and Fred Barrie. Frequently Asked Questions about Veronica. July 1994.

[8] Timo Salmi. Frequently Asked Questions about USENET. May 1995.

[9] Engineers Joint Council. Thesaurus of Engineering and Scientific Terms. Engineers Joint Council, 1969.

[10] Martijn Koster. Aliweb - archie-like indexing in the web. , March 1994.

[11] M. St. Pierre, J.Fullton, K. Gamiel, J. Goldman, B. Kahle, J. Kunze, H.Morris, and F. Schiettecatte. Wais over z39.50-1988. , June 1994.

[12] Chris Weider, Jim Fulltom, and Simon Spero. Architecture of the whois++ index service, internet draft (work in progress). , March 1995.

[13] P. Falstrom, R. Schoultz, and C. Weider. How to interact with the whois++ mesh, internet draft (work in progress). , March 1995.

[14] C. Huitema, P-A. Pays, A. Zahm, and A. Woermann. Simple object look-up protocol, internet draft (work in progress). , June 1994.

[15] Peter Deutsch, Rickard Schoultz, Patrik Falstrom, and Chris Weider. Architecture of the whois++ service, internet draft (work in progress). , March 1995.

[16] Chris Weider. The common indexing protocol, internet draft (work in progress). , March 1995.

[17] Paul E. Hoffman and Ron Daniel Jr. Urn resolution overview, internet draft (work in progress). , April 1995.

[18] T. Berners-Lee. Rfc 1738 - uniform resource locators (url). , December 1994.

[19] Paul E. Hoffman and Ron Daniel Jr. Generic urn sintax, internet draft (work in progress). , April 1995.

[20] Ron Daniel Jr. and Michael Mealling. Urc scenarios and requirements, internet draft (work in progress). , March 1995.

[21] Paul E. Hoffman and Ron Daniel Jr. x-dns-2 urn scheme, internet draft (work in progress). , April 1995.

[22] Ron Daniel Jr. An sgml-based urc service, internet draft (work in progress). , June 1995.

[23] Miguel Rio, Antonio Costa, Joaquim Macedo, and Vasco Freitas. A framework for the broadcasting and management of uris. , In JENC6 Conference Proceedings. TERENA, May 1995.

[24] Miguel Rio, Antonio Costa, Joaquim Macedo, and Vasco Freitas. Supporting uri infrastructure using message broadcasting. , To appear in INET'95 Hypermedia Conference Proceedings. ISOC, 1995.

Notas de rodapé

[1] browsing, na terminologia inglesa

[2] Generate Virtual Library

[3] On-Line Public Access Catalog.

[4] Archie-Like Indexing indexing in the WEB

[5] Wide Area Information System

[6] meta-index

[7] full-text index

[8] que são routers de interrogações

YELLOW PAGES* DE RECURSOS INTERNET