Търся решение 100/100 на 07. HTML Parser от RegEx TechModule 4.0
Здравейте колеги,
Моля ако някой има решение минаващо в judge-а 100/100 да го сподели тъй като успявам да екстрактна контента без таговете ама ми остават едни "\n" с които си нямам представа как да се справя...
Ето моето решение до момента:
using System;
using System.Text.RegularExpressions;
namespace _07._HTML_Parser
{
public class HTML_Parser
{
public static void Main()
{
string patternTitle = @"(?<=<title>)[^<]+";
string html = Console.ReadLine();
Match match = Regex.Match(html, patternTitle);
string title = string.Empty;
if (match.Success)
{
title = match.Value;
}
string patternBody = @"(?<=<body>)([^<]+).+(?=<\/body>)";
match = Regex.Match(html, patternBody);
string body = string.Empty;
if (match.Success)
{
body = match.Value;
}
string patternContent = @"<.+?>";
string content = string.Join(' ', Regex.Split(body, patternContent));
Console.WriteLine($"Title: {title}");
Console.WriteLine($"Content: {content}");
}
}
}
тук условието: https://softuni.bg/downloads/svn/soft-tech/Sept-2018/common-lectures/08-Regular-Expressions/Regular-Expressions-Regex-Exercise.docx
Това вече го пробвах - content = content.Replace("\n", "") и все още 0/100 като така минава само нулевия тест, ще пробвам да извадя с регекс всички white spaces и после да печатам
Пробвах и с това (content = string.Join(' ', Regex.Split(content, @"\s*\\n\s*"));) , но НИЩО все още съм на 0/100