creator greenstone@cs.waikato.ac.nz maintainer greenstone@cs.waikato.ac.nz public false indexes document:text document:From document:Subject defaultindex document:text plugin GAPlug plugin EMAILPlug -process_exp "greenstone.*" plugin ArcPlug plugin RecPlug groupsize 200 # note that [ and ] get turned into x; before we remove the prefix! classify AZCompactList -metadata Subject -removeprefix "((?i:re:|fw(d)?:|\[greenstone-(users|devel)\])\\s*)*" -mingroup 2 classify AZCompactList -metadata FromName -buttonname From -mingroup 2 # nogroup is a new option since gsdl version 2.41 classify DateList -bymonth -nogroup format DocumentHeading "" format DocumentButtons "" format DocumentArrowsTop false format DocumentArrowsBottom false format DocumentGoTo false # removed from format strings to prevent listing email addresses - John: # <[FromAddr]> # for Subjects format CL1VList '
_From_ | [FromName] |
_Date_ | [DateText] |
_Subject_ | [Subject] |
In-Reply-To | ([InReplyTo]) |
[Text] |
This collection may be useful for finding solutions to common problems, or simply for tracking the progress of the Greenstone software.
To subscribe to the Greenstone mailing list, please click here.
The Greenstone Archives collection uses the Email plugin, which parses files in email formats. There is one file for each year, and each file contains many email messages. The Email plugin splits these into individual documents, and produces Title, Subject, Headers, From, FromName, FromAddr, Date, and DateText metadata.
The collection configuration file begins with the specification groupsize 200. This groups documents together into groups of 200. Email collections typically have many small documents, and grouping them together prevents Greenstone\'s internal file structures from becoming bloated and occupying more disk space than necessary. Notice that the Email plugin first splits the input files up into individual Emails, then groupsize groups them together again. This allows the collection designer to control what is going on.
The indexes line specifies four searchable indexes, which can be seen by clicking beside the word \"Messages\" on the search page to reveal a drop-down menu. The first (called Messages) is created from the document text, while the others are formed from From, Subject, and Headers metadata.
There are three classifiers, based on Subject, FromName, and Date metadata. The AZCompactList classifier used for the first two is like AZList but generates a bookshelf for duplicate items, as illustrated here. This is represented by a tree structure whose nodes are either leaf nodes, representing documents, or internal nodes. A metadata item called numleafdocs gives the total number of documents below an internal node. The format statements for the first classifier, called CL1Vlist, checks whether this item exists. If so the node must be an internal one, in which case it is labeled by its Title. Otherwise the node\'s label starts with the Subject, then gives From metadata (both name and email address, suitably hyperlinked), followed by the DateText.
The second classifier (CL2Vlist) is similar, but shows slightly different information -- the result can be seen here. For internal nodes, the actual number of leaf documents (numleafdocs) is given in parentheses after the Title; for document nodes the From, Subject, and Date metadata is shown.
The third classifier is a DateList, which allows selection by month and year.
Finally, the document text is formatted to show the header fields followed by the message text (written as [Text] in the format statement). However, there is a subtle twist, and to see what it is you should look at a document in the collection. At the end of the document is a \"show all headers\" hyperlink, which, when clicked, shows a long list of email headers and changes the hyperlink at the end of the document to \"hide headers.\" The faint of heart should skip the following explanation! The If in the format statement tests cgiargheaders, which in fact determines whether the URL contains a CGI argument called \"headers\". If so, the Headers metadata is displayed, otherwise it is not. After the the message text has been shown (by [Text]), the cgiargheaders variable is tested again to determine whether to put the \"hide headers\" or the \"show all headers\" hyperlink. " # -- French text ---------------- collectionmeta collectionextra [l=fr] " Une collection de messages e-mail provenant des archives de la liste de diffusion de Greenstone est présentée. Elle comprend les messages datant de l'initiation de la liste de diffusion en avril 2000 à une date tout à fait récente. La liste de diffusion est utilisée comme moyen de communication avec la totalité de l'équipe Greenstone, et par conséquent le contenu des messages est de nature généralement commune. La liste de diffusion est aussi un moyen commode d'obtenir de l'aide pour résoudre des problèmes courants - quelqu'un de l'équipe pourra certainement être en mesure de vous aider.
Cette collection peut être utile pour trouver des solutions aux problèmes communs ou tout simplement pour suivre les progrès du logiciel Greenstone.
Pour sosucrire à la liste de diffusion de Greenstone, veuillez cliquer ici.
La collection Greenstone Archive utilise le plugin \"E-mail\", qui traite les fichiers aux formats e-mail. Il existe un fichier pour chaque année et chaque fichier contient plusieurs messages e-mail. Le plugin E-mail les éclate en documents individuels et produit les méta-données Title, Subject, Headers, From, FromName, FromAddr, Date et DateText.
Le fichier de configuration de la collection débute avec la spécification groupsize 200. Ceci regroupe les documents par groupes de 200. Les collections E-mail sont constituées habituellement de plusieurs documents de petite taille; leur regroupement évite l'augmentation excessive des structures de fichier internes de Greenstone et l'occupation de plus d'espace disque que nécessaire. Notez que le plugin E-mail éclate d'abord les fichiers d'entrée à traiter en E-mail individuels, ensuite groupsize procède à leur regroupement. Ceci permet au créateur de la collection de contrôler ce qui se passe.
La ligne des indexes précise quatre indexes de recherche qui peuvent être vus en cliquant à côté du mot \"Message\" de la page de recherche pour révéler un menu déroulant. Le premier (appelé Messages) est créé à partir du texte du document, tandis que les autres sont formés à partir des méta-données From, Subject et Headers.
Il existe trois classificateurs basés sur les méta-données Subject, FromName et Date. Le classificateur AZCompactList utilisé pour les deux premiers est semblable à \"AZList\", mais en outre il génère un rayon de bibliothèque pour les articles dupliqués, comme illustré ici. Il est représenté par une structure arborescente dont les nœuds sont soit des nœuds de feuille représentant les documents, soit des nœuds internes. Une Méta-donnée appelée \"Numleafdocs\" donne le nombre total de documents sous un nœud interne. Les déclarations de format pour le premier classificateur, appelé CL1VList, vérifie si cette méta-donnée existe, auquel cas le nœud doit être d'une part interne et d'autre part libellé par son \"Title\" (Titre). Autrement, le label du nœud commence par \"Subject\", ensuite donne la méta-donnée \"From\" (à la fois le nom et l'adresse e-mail, convenablement liés) suivie de DateText.
Le deuxième classificateur (CL2Vlist) est similaire, mais fournit une information légèrement différente --le résultat peut être vu ici. Pour les nœuds internes, le nombre exact de documents en feuilles (numleafdocs) est donné entre parenthèses après Title; pour les nœuds de documents, les méta-données From, Subject et Date sont affichées.
Le troisième classificateur est un \"DateList\" qui permet une sélection par mois et par année.
Finalement, le texte du document formaté pour montrer les champs d'en-tête suivis du texte du message (écrit comme [\"Text\"] dans une déclaration de format). Cependant, une certaine subtilité est introduite dont les effets pourront être révélés par la visualisation d'un document de la collection. A la fin du document, un hyperlien \"show all headers\" est affiché et qui, lorsqu'on y clique, montre une longue liste d'en-têtes e-mail, l'hyperlien \"show all headers\" devenant alors \"hide all headers\". On peut s'épargner l'explication qui suit! Le If dans la déclaration de format teste cgiargheaders, qui en fait détermine si l'URL contient un argument CGI appelé \"headers\". Si tel est le cas, la méta-donnée Headers est affichée, et dans le cas contraire, celle-ci ne l'est pas. Après la visualisation du texte du message (par [Text]), la variable cgiargheaders est de nouveau testée pour déterminer si on doit mettre soit l'hyperlien \"hide all headers\" soit \"show all headers\". " # -- Spanish text ---------------- collectionmeta collectionextra [l=es] " Esta es una colección de mensajes de correo electrónico de los archivos de la lista de correos de Greenstone. La colección incluye mensajes desde el principio de la lista en abril de 2000 hasta hace poco tiempo. La lista de correos se utiliza para comunicarse con todo el equipo Greenstone alrededor del mundo, por lo que el contenido de los mensajes será por naturaleza de carácter internacional. La lista de correos también es una buena forma de obtener ayuda para resolver problemas, ya que muy probablemente alguien del equipo será capaz de ayudarlo.
Esta colección puede ser de gran utilidad para encontrar soluciones a problemas comunes o sencillamente para seguir el progreso del software Greenstone.
Para suscribirse a la lista de correos de Greenstone, por favor haga click aquí.
La colección de Archivos de Greenstone utiliza el plugin Email, el cual descompone y analiza los archivos que están en formato de correo electrónico. Existe un archivo por cada año y cada archivo contiene varios mensajes de correo electrónico. El plugin Email los divide en documentos individuales y produce metadatos de Título, Asunto, Encabezados, Remitente, Nombre del Remitente, Dirección del Remitente, Fecha y Texto de la Fecha (Title, Subject, Headers, From, FromName, FromAddr, Date y DateText, respectivamente).
El archivo de configuración de la colección empieza con la especificación groupsize 200, la cual reúne los documentos en grupos de 200. En términos generales las colecciones de correo electrónico tienen muchos documentos pequeños y al agruparlos se evita que las estructuras de archivos internos de Greenstone se inflen demasiado y ocupen más espacio del necesario. Recuerde que el plugin Email divide primero los archivos de entrada en correos individuales y luego groupsize los agrupa nuevamente. Esto le permite al diseñador de la colección controlar lo que está pasando.
La línea de índices especifica cuatro índices de búsqueda, los cuales se pueden ver haciendo click a un lado de la palabra \"Mensajes\" en la página de búsqueda para que aparezca un menú descendente. El primero (llamado Mensajes) se crea a partir del texto del documento, mientras que los demás se forman a partir de los metadatos de Remitente, Asunto y Encabezados.
Existen tres clasificadores basados en los metadatos de Asunto, Nombre del Remitente y Fecha. El clasificador AZCompactList utilizado para los dos primeros es como AZList, pero además genera un estante para los ítems duplicados, tal como se puede ver aquí. Éste se caracteriza por medio de una estructura de árbol cuyos nodos son hojas que representan documentos o nodos internos. Un ítem de metadato llamado numleafdocs proporciona el número total de documentos debajo de un nodo interno. Los enunciados de formato para el primer clasificador llamado CL1Vlist comprueban si existe dicho ítem. En caso afirmativo se trata de un nodo interno, en cuyo caso se etiquetará por su Título. De otra manera la etiqueta del nodo empezará con el Asunto, seguido del metadato del Remitente (tanto el nombre como la dirección de correo electrónico, ambos en forma de hipervínculos) y del Texto de la Fecha.
El segundo clasificador (CL2Vlist) es similar, sólo que muestra una información ligeramente diferente. El resultado se puede ver aquí. Para nodos internos el número de documentos (numleafdocs) aparece entre paréntesis después del Título. En el caso de nodos finales que representen documentos se muestran los metadatos de Remitente, Asunto y Fecha.
El tercer clasificador es una Lista de Fechas (DateList), que permite hacer la selección por mes y año.
Finalmente, el texto del documento se formatea para mostrar los campos del encabezado seguidos por el texto del mensaje (escrito como [Text] en el enunciado de formato). Sin embargo, hay un ligero cambio y para saber de qué se trata es necesario ver un documento de la colección. Al final del documento hay un hipervínculo, \"mostrar todos los encabezados\", que cuando se hace click en él muestra una larga lista de encabezados de correo electrónico y cambia el hipervínculo al final del documento a \"ocultar encabezados\". Aunque no nos parece necesaria una mayor explicación, no quisiéramos saltárnosla. El If en el enunciado de formato prueba la variable cgiargheaders, que de hecho determina si el URL contiene un argumento CGI llamado \"encabezados\". En caso afirmativo se despliega el metadato Encabezados. En caso contrario no. Después de que el texto del mensaje se ha mostrado (por medio de [Text]), la variable cgiargheaders se prueba una vez más para determinar si se debe poner el hipervínculo \"ocultar encabezados\" o \"mostrar todos los encabezados\". " # -- Russian strings ---------------- collectionmeta collectionextra [l=ru] " Это коллекция сообщений электронной почты из списка архивов Greenstone. Коллекция включает сообщения с момента формирования списка адресатов в апреле 2000 г. вплоть до настоящего времени. Список адресатов используется для того, чтобы поддержать связь со всей командой создателей Greenstone, поэтому содержание сообщений обычно глобально по своему характеру. Список адресатов кроме того хороший способ получить помощь по возникающим проблемам, так как кто-нибудь из команды вероятно сможет помочь Вам.
Эта коллекция может быть полезна для нахождения решения общих проблем или просто для того, чтобы отследить прогресс в программном обеспечении Greenstone.
Чтобы подписаться на список рассылок Greenstone, пожалуйста, щелкните здесь.
Конфигурационный файл коллекции начинается с определения groupsize 200. Он собирает документы в группы по 200 единиц. Коллекции электронной почты обычно состоят из большого числа небольших документов, и группировка их вместе предотвращает внутренние файловые структуры Greenstone от разбухания и занятия большего места на диске, чем необходимо. Заметьте, что плагин Еmail вначале разбивает входные файлы на индивидуальные электронные письма, а затем groupsize снова собирает их вместе. Это позволяет проектировщику коллекции управлять тем, что следует дальше.
Строка индексов (indexes) определяет четыре доступных для поиска индекса, которые могут быть видны, если щелкать около слова Сообщения (Messages) на поисковой странице для показа ниспадающего меню. Первый, называемый Сообщениями, создается из текста документа, в то время как другие сформированы по метаданным От кого, Предмет и Заголовки.
Существует три классификатора, основанные на метаданных Предмет, Имя отправителя и Дата. Классификатор AZCompactList, используемый для первых двух, похож на AZLIST, но он формирует книжную полку для дубликатов элементов, как показано здесь. Она представлена структурой дерева, узлы которой являются или узлами листа, представляя документы, или внутренними узлами. Метаданные элементов, называемые numleafdocs, дают общее количество документов, расположенных ниже внутреннего узла. Операторы формата для первого классификатора, называемые CL1Vlist, проверяют, существует ли этот элемент. Если это так, то узел должен быть внутренним, в случае чего он помечается его Названием (Title). В противном случае ярлык узла начинается с Предмета, затем идут метаданные От кого, имя и адрес электронной почты, соответственно, гиперсвязанные и сопровождаемые DateText.
Второй классификатор (CL2Vlist) подобен первому, но он показывает отличающуюся информацию -- результат можно видеть здесь. Для внутренних узлов фактическое число документов в списке (numleafdocs) дается в круглых скобках после Названия; для следующих узлов документа показаны метаданные От кого, Предмет и Дата.
Третьим классификатором является DateList, который позволяет производить выборку сообщений по месяцу и году.
Наконец, текст документа форматирован так, чтобы показать поле заголовка, сопровождаемого текстом сообщения (обозначенного как [Text] в операторе формата). Однако здесь имеется тонкая скрутка, и чтобы видеть, что она представляет, Вы должны просмотреть документ в коллекции. В конце документа имеется гиперссылка «показать все заголовки», которая, когда на неё нажимают, показывает длинный список заголовков электронных писем и изменяет гиперссылки в конце документа на «скрыть заголовки». Слабый сердцем должен пропустить следующее объяснение! If в операторе формата проверяет cgiargheaders, который фактически определяет, содержит ли URL параметр CGI, называемый «заголовки». Если это так, то метаданные Заголовка показаны, если нет -- то нет. После этого текст сообщения показывается, используя [Text], переменная cgiargheaders проверяется снова, чтобы решить, поместить ли гиперссылку «скрыть заголовки» или «показать все заголовки». " # use utf-8 as the default encoding cgiarg shortname=w argdefault=utf-8