Рекомендация по разбору файлов HTML и SGML

У меня есть проект, который будет принимать такие входные данные, как (html, sgml, xml и txt).

У меня нет проблем с анализом файлов XML и txt. Не могли бы вы предложить некоторые инструменты, которые я могу использовать для анализа файлов html или sgml.


person jomsk1e    schedule 04.10.2012    source источник
comment
stackoverflow.com/search?q=c%23+html+parser   -  person L.B    schedule 04.10.2012


Ответы (2)


Для парсера HTML используйте HTML Agilty Pack — это парсер HTML с открытым исходным кодом для .NET.

Что такое Html Agility Pack (HAP)?

Это гибкий анализатор HTML, который создает DOM для чтения/записи и поддерживает простой XPATH или XSLT (на самом деле вам не нужно понимать XPATH или XSLT, чтобы использовать его, не волнуйтесь...). Это библиотека кода .NET, которая позволяет анализировать HTML-файлы «вне Интернета». Парсер очень терпим к искаженному HTML «реального мира». Объектная модель очень похожа на то, что предлагает System.Xml, но для HTML-документов (или потоков).

Вы можете использовать это для запроса HTML и извлечения любых данных, которые вы хотите.

Для парсера SGML

Проверьте эту ссылку, SGMLReader - конвертируйте любой HTML в действительный XML:

http://developer.mindtouch.com/Community/SgmlReader

Ссылка: рекомендации парсера SGML .NET

person Furqan Safdar    schedule 04.10.2012
comment
Кто-нибудь пробовал обрабатывать файлы sgml с помощью HAP? - person Brady Moritz; 26.09.2013

Для синтаксического анализа HTML я не могу порекомендовать ничего другого, кроме http://htmlagilitypack.codeplex.com/ и, поскольку SGML в основном то же самое, но с другими элементами, которые вы могли бы использовать и для этого.

person Karl-Johan Sjögren    schedule 04.10.2012