Професионална програма
Loading...
MartinBG avatar MartinBG 2781 Точки

{Homework - Bookshop System] - Проблем с първи ред на books.txt

Понеже изгубих прилично време, борейки се с грешно парсване на данните от 1-ви ред на books.txt файла от домашното, реших да сложа един коментар и тук, за "бъдещите поколения" laugh

 

Проблемът е, че данните на първи ред на файла, които изглеждат така в Notepad:

1 20/01/1998 27274 15.31 2 Absalom

При прочитане в Java (пробвах различни методи и encodings) стават:

-1 20/01/1998 27274 15.31 2 Absalom

Първият символ не е точно -, но е невалиден и съответно програмата крашва, ако се опитате да преобразувате тази стойност до int (необходим за EditionType enum).

Явно авторите на задачата също са се набили на проблема, но вместо да оправят файла(напр. да сложат header), са решили да го "насметат под килимчето" като са ни предоставили наготово кода, за парсването му:

BufferedReader booksReader = new BufferedReader(new FileReader("books.txt"));
String line = booksReader.readLine();
while((line = booksReader.readLine()) != null){
    String[] data = line.split("\\s+");

Обърнете внимание на ред №2 - там този ред се прочита, но не се обработва.

Имайте това предвид, ако си пишете собствена логика за парсване (try with resources + stream).

Тагове:
1
MartinBG avatar MartinBG 2781 Точки

Понеже ми стана интересно, реших да потърся начин за парсване на UTF-8 BOM файлове и стигнах до това решение:

        try (final BufferedReader br = new BufferedReader(new InputStreamReader(
                new FileInputStream("path\\file_name.ext"), "UTF8"))) {

            // if UTF-8 BOM file
            br.mark(4);
            if ('\ufeff' != br.read()) {
                br.reset(); // not the BOM marker
            }

            // read file as normal
        } catch (IOException e) {
            e.printStackTrace();
        }

 

Накратко - проверява се дали файлът не започва с UTF-8 BOM сигнатурата, и ако е така я скипва, иначе си чете файла нормално.

Идеята е "заета" от тук (коментарите към статията).

1
01/04/2018 21:33:28